Drift Mining
The description of the project Drift Mining is currently available only in German.
Im klassischen Data Mining werden historische Daten untersucht, um Wissen über die Verteilung und Beziehung zwischen Variablen zu gewinnen.Eine als Concept Drift bekannte Herausforderung sind Veränderung in den Verteilungen und Beziehungen der Daten über die Zeit. Eine vielfach angewendete Strategie besteht in derwiederholten Anwendung von Mining Verfahren auf immer neueren Daten. Dieser Ansatz erfordert jedoch die Verfügbarkeit einer ausreichenden Anzahl von aktuellen Daten um ein Modell neu zu lernen oder zumindest anzupassen.
Speziell in einigen Anwendungsgebieten des überwachten Lernens, wenn Prognosen über Ereignisse in weiter Zukunft getroffen werden sollen, wie beispielsweisein der Kreditrisikoschätzung für Kredite mit langer Laufzeit, stehen jedochnur Daten zu den erklärenden Variablen zur Verfügung, nicht jedoch zu den abhängigen Variablen.
Ziel dieses Projektes ist es, diese fehlenden Daten durch Wissen über diegenaue Art von Veränderungen in den Verteilungen und Beziehungen der Variablenzu kompensieren. Hierfür werden Modelle über die Zusammenhänge von Verteilungsveränderungen (Drift) in den Variablen über die Zeit formuliert und an historischen Daten geprüft. Für dieses Drift Mining werden lediglich Daten benötigt, deren Veränderungsmuster dem aktueller Daten entsprechen,die Aktualität ihrer tatsächlichen Verteilung ist hingegen nicht kritisch.Somit können für diese Aufgabe historische Daten verwenden werden, welche für klassische Modelle,welche die Verteilung und Beziehung der Variablen direkt schätzen, nicht mehr verwendet werden können.Ein Nebenprodukt dieser Forschung ist die Entwicklung von Methoden zum besseren Verständnis von Veränderungen in den Verteilungen von Daten.
Teilaufgaben im Rahmen des Projektes sind:
- A. Methoden zur Analyse von Drift auf einfachen und multiplen Datenströmen
- B. Adaptive Klassifikationsstrategien für den Umgang mit Verification Latency in sich verändernden Datenströmen
- C. Active Learning Strategien für sich verändernde Datenströme
Publications
- Learning under Feature Drifts in Textual Streams. Proceedings of the 27th ACM International Conference on Information and Knowledge Management - CIKM '18, 527 -536, 2018.
- Are Some Brain Injury Patients Improving More Than Others?. The 2014 International Conference on Brain Informatics and Health (BIH \'14), Warsaw, Poland., 2014.
- Probabilistic Active Learning: A Short Proposition. In Torsten Schaub, Gerhard Friedrich, and Barry O'Sullivan (Eds.), Proceedings of the 21st European Conference on Artificial Intelligence (ECAI2014), August 18 -- 22, 2014, Prague, Czech Republic, (263)IOS Press, 2014. URL
- Open Challenges for Data Stream Mining Research. SIGKDD Explorations, (Special Issue on Big Data):to appear, 2014. URL
- Probabilistic Active Learning: Towards Combining Versatility, Optimality and Efficiency. In Saso Dzeroski, Pance Panov, Dragi Kocev, and Ljupco Todorovski (Eds.), Proceedings of the 17th Int. Conf. on Discovery Science (DS), Bled, Springer, 2014. URL
- Real-World Challenges for Data Stream Mining - proceedings of the 1st International Workshop on Real-World Challenges for Data Stream Mining, RealStream 2013, Prague, Czech Republic, September 27, 2013. In Georg Krempl, Indre Zliobaite, Yin Wang, and Georg Forman (Eds.), (Online)Magdeburg University, 2013. URL
- Drift mining in data: A framework for addressing drift in classification. Computational Statistics and Data Analysis, (57)1:377-391, 2013.
- Mining Multiple Threads of Streaming Data. Tutorial at the 17th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD 2013), Gold Coast, Australia, April 2013. URL
- Advanced Topics on Data Stream Mining: Part II. Mining Multiple Streams. Bristol, UK, 24-28 09 2012.
- A hierarchical tree layout algorithm with an application to corporate management in a change process. Expert Systems with Applications, (39)15:12123-12130, 2012.
- Online Clustering of High-Dimensional Trajectories under Concept Drift. In Dimitrios Gunopulos, Thomas Hofmann, Donato Malerba, and Michalis Vazirgiannis (Eds.), Machine Learning and Knowledge Discovery in Databases, (6912):261-276, Springer Berlin Heidelberg, 2011. URL