de | en

Mining Massive Datasets

Modul IN2323 [MMDS]

Dieses Modul wird durch Fakultät für Informatik bereitgestellt.

Diese Modulbeschreibung enthält neben den eigentlichen Beschreibungen der Inhalte, Lernergebnisse, Lehr- und Lernmethoden und Prüfungsformen auch Verweise auf die aktuellen Lehrveranstaltungen und Termine für die Modulprüfung in den jeweiligen Abschnitten.

Basisdaten

IN2323 ist ein Semestermodul in Englisch auf Master-Niveau das im Sommersemester angeboten wird.

Das Modul ist Bestandteil der folgenden Kataloge in den Studienangeboten der Physik.

  • Allgemeiner Katalog der nichtphysikalischen Wahlfächer
GesamtaufwandPräsenzveranstaltungenUmfang (ECTS)
150 h 60 h 5 CP

Inhalte, Lernergebnisse und Voraussetzungen

Inhalt

1. Einführung
* Maschinelles Lernen, Data Mining und Knowledge Discovery Prozess
* Anwendungen, Beispiele

2. Hochdimensionale Daten
* Hashing & Sketches
- Min-Hashing
- Locality Sensitive Hashing
* Dimensionsreduktion & Matrix Faktorisierung
- Feature Selection & Random Projections
- Non-Negative Matrix Factorization and Extensions

3. Graphen / Netzwerke
* Laws, Patterns and Generators
* Spectral Graph Theory
- Ranking (e.g., PageRank, HITS)
- Community Detection
* Probabilistic Models
- Stochastic Blockmodel (SBM)
- (Stochastic) Variational Inference
- Belief Propagation
* Representation Learning for Graphs
- Deep Learning for Graph Data
- (Unsupervised) Node Embeddings

4. Temporale Daten & Datenströme
* Sampling & Sketches
- Bloom Filter
- Counting Distinct Elements
- Estimating moments
* Kalman Filter

Lernergebnisse

Nach Teilnahme an diesem Modul sind die Studierenden in der Lage Data Mining und Machine Learning Verfahren zu beschreiben und deren Anwendung für große Datenmengen und komplexe Datentypen zu erklären. Die Studierenden werden Systeme zur Verarbeitung großer Datenmengen kennen und Konzepte zur Skalierung von Data Mining Verfahren verstehen. Die Studierenden werden in der Lage sein Prinzipien zur Analyse von komplexen Daten (z.B. Graphen, Netzwerke, temporale Daten) zu verstehen, zu evaluieren und anzuwenden. Sie können fortgeschrittene Algorithmen für komplexe Anwendungsprobleme auswählen, anpassen, implementieren und evaluieren.

Voraussetzungen

Kernmodule des Bachelor Informatik Sem 1-4

Lehrveranstaltungen, Lern- und Lehrmethoden und Literaturhinweise

Lehrveranstaltungen und Termine

ArtSWSTitelDozent(en)Termine
VI 4 Mining Massive Datasets (IN2323) Günnemann, S.
Mitwirkende: Bojchevski, A.Shchur, O.
Mi, 14:30–16:00, Interims I 101
Do, 14:00–16:00, Interims I 101
sowie einzelne oder verschobene Termine

Lern- und Lehrmethoden

Das Modul wird als Vorlesung mit begleitender Übungsveranstaltung angeboten.
In der Vorlesung werden die Inhalte im Vortrag durch anschauliche Beispiele sowie durch Diskussion mit den Studierenden vermittelt. Die Vorlesung soll den Studierenden dabei auch als Motivation zur eigenständigen inhaltlichen Auseinandersetzung mit den Themen sowie zum Studium der Literatur dienen.
Jeweils passend zu den Vorlesungsinhalten werden in den Übungsveranstaltungen Aufgabenblätter angeboten, die die Studierenden zur selbstständigen Kontrolle sowie zur Vertiefung der gelernten Methoden und Konzepte nutzen sollen. Nachdem dies anfangs durch Anleitung passiert, wird dies im Laufe des Semesters immer mehr selbstständig einzeln und zum Teil auch in Kleingruppen vertieft.
Eventuelle Projektarbeiten dienen dabei zur Anwendung von Vorlesungsinhalten auf komplexe Problemen.

Medienformen

Slides, exercise sheets, white board, project work

Literatur

• Mining of Massive Datasets. Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman. Cambridge University Press. 2014
• Data Mining: The Textbook. Charu Aggarwal. Springer. 2015
• The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Trevor Hastie, Robert Tibshirani, Jerome Friedman. Springer. 2011

Modulprüfung

Beschreibung der Prüfungs- und Studienleistungen

Die Prüfungsleistung wird in Form einer Klausur erbracht; die Prüfungsdauer beträgt 90 Minuten. Wissensfragen überprüfen die Vertrautheit mit Modellen und Algorithmen aus dem Bereich Data Mining/Machine Learning und mit Systemen zur skalierbaren Analyse; Programmieraufgaben überprüfen die Fähigkeit, fortgeschrittene Algorithmen und Methoden zur Analyse großer Datenmengen zu implementieren und kritisch einzuschätzen; für kleine Szenarien mit konkreten Anwendungen, welche mit Hilfe der Algorithmen und Methoden umgesetzt werden müssen, weisen die Studierenden nach, dass sie konkrete Teillösungen für Probleme aus dem Bereich Data Mining / Machine Learning entwickeln können.

Wiederholbarkeit

Eine Wiederholungsmöglichkeit wird am Semesterende angeboten.

Nach oben