Seminar Big Data Mining

Veranstalter: Prof. Carsten Lutz

S2, Modulbereich Praxis, 2 SWS (4 ECTS)

Vorbesprechung: Mittwoch, 15.10.2014, 12-14 Uhr, Cartesium Raum 0.01

Ohne Teilnahme an der Vorbesprechung kann das Seminar nicht belegt werden. Wer Interesse an dem Seminar hat, aber nicht zur Vorbesprechung kommen kann, meldet sich bitte bis 14.10.2014 per email.

In diesem Leitfaden finden sich eine Beschreibung des Ablaufs sowie Hinweise zur erfolgreichen Teilnahme.


Kurzbeschreibung

Das Ziel von Data Mining ist die Analyse von großen Datenmengen mittels verschiedener, oft statistisch geprägter Verfahren. Als Resultat des Data Mining entsteht ein "Modell" der Daten welches beispielsweise die Form einer Zusammenfassung oder einer Datenselektion annehmen kann. Prominente Beispiel für Data Mining Techniken sind Googles Pagerank Verfahren zur Beurteilung der Relevanz von Webseiten für ein gegebenes Suchthema und Amazons Artikelvorschlagssystem, das auf Basis von angesehenen Artikeln weitere relevante Artikel empfehlen kann. Im Kontext von großen Datenmengen, wie sie in unserer modernen Welt zunehmend verfügbar sind (Stichwort "Big Data"), spielt Data Mining heute in vielen Anwendungen der Informatik eine zentrale Rolle. Das Seminar beschäftigt sich mit dem Mining großer Datenmengen und basiert auf dem Buch

Mining of Massive Datasets. Jure Leskovec, Anand Rajaraman and Jeffrey D. Ullman. Cambridge University Press. Online verfügbar unter http://www.mmds.org/


Organisation

Die Teilnehmer wählen nach der Vorbesprechung ein Buchkapitel, das sie in einer 2er Gruppe bearbeiten. Das Kapitel soll von den bearbeitenden Teilnehmern zunächst gelesen und verstanden werden sollen, wobei ihnen ein Betreuer zur Seite steht. Jede Gruppe fertigt eine ca. 15-seitige, lesbare Ausarbeitung an, deren Form den Standards wissenschaftlichen Arbeitens genügt. Am Ende des Semesters findet ein Blockseminar statt, in dem jede Gruppe ihr Thema in einem Vortrag den anderen Teilnehmern in verständlicher Weise darstellt. Die Zeitplanung und das Vereinbaren von Terminen mit dem Betreuer gehört zu den Aufgaben der Teilnehmer. Mehr Information und Tipps zur erfolgreichen Teilnahme gibt es in diesem Leitfaden.

Ein Teil der Betreuung wird auf englisch (oder spanisch) stattfinden.

Es besteht die Möglichkeit, parallel zum Seminar dem Onlinekurs an der University of Stanford zu folgen.


Ablaufplan Blockseminar

Datum   Ort   Zeit     Thema (Buchkapitel)     Vortragende
Do., 29.1.   Cartesium, Rotunde (0.67)   16:00–16:30   Finding Similar Items   Stefanie Suhr, Hanna Vasen
    16:40–17:10   Mining Data Streams   Mariam Asaad, Jonas Peter
    17:20–17:50   Link Analysis   Andreas Klots, Tobias Peters
    18:00–18:30   Frequent Itemsets   Dana Jenett, Aaron Jöllenbeck
Fr., 30.1.   MZH 1100   16:00–16:30   Clustering   Tammo Gehrig, Jan Radtke
    16:40–17:10   Advertising on the Web   Tobias Böhnish, Andree Rebers
    17:20–17:50   Recommendation Systems   Daniel Koch, Regina Schumacher
    18:00–18:30   Mining Social-Network Graphs   Anneke Bötcher, Viktor Schwekler

Terminplan

Wird noch bekanntgegeben. Der folgende Plan soll als Orientierung dienen.

bis 19.11. Literatur lesen, verstehen und diskutieren, Unklarheiten mit dem Betreuer klären
spätestens 20.11. Beginnen, an der Hausarbeit zu schreiben
3.12. Gemeinsames Treffen aller Seminarteilnehmer 12-14 in Cartesium 0.01
9.1. Abgabe der ersten Version der Hausarbeit
16.1. Rückgabe der korrigierten Hausarbeit durch den Betreuer
23.01. Abgabe der endgültigen Hausarbeit
letzte Woche des Semesters Blockseminar


AG Theorie der künstlichen Intelligenz