Informationsgenerierung und -Speicherung

Frühlingssemester 2011
Mittwochs 9:10 Uhr bis 11:45 Uhr Raum 4.425

Kontakt:
    André Csillaghy & Nicky Hochmuth
    Büro: 3. Stock, 4.313, FHNW Windisch Nord
    Tel 056 462 4062

email andre dot csillaghy at fhnw dot ch

Last update: 28. Juni 2011

Bitte merken Sie, dass die Notizen und die Slide sich oft ergänzen, sie enthalten nicht immer die gleiche Informationen. 

Modulschlussprüfung:

    Zeit: 4. Juli 13:30-15:00 Uhr, Raum 1.041

    Keine erlaubte Hilfsmittel, ausser Taschenrechner.

    Bitte nehmen Sie ein Lineal mit.

Prüfungsmaterial (der komplette Stoff wird geprüft):

** Endgültige Version des Skripts für die MSP

** Alle DWH Slides

** Alle DM Slides

** Alle IR Slides

** Alle CBIR Slides (NUR Slides vorhanden)

** Alle Ontologie Slides (NUR Slides vorhanden)

WICHTIG #1: Studieren Sie auch die Unterlagen, die unten auf dieser Seite angegeben sind, insbesondere diejenigen, die mit einem Doppelstern  (**) markiert sind.

WICHTIG #2: Übungsunterlagen, inklusive "Praxis"-Stunden, sind auch Teil der Prüfung.


Organisation

Lektion
Datum
Theorie Praxis
1
23.2 Einführung
Data Warehouses Einführung
Notizen S. 1-12
Übung 1
2
2.3
Data Warehouses:  Notizen S. 13-16, Sides: Multidimensionales Datenmodell, Star Schema, Roll Up, Drill Down Übung 2
3
9.3
Data Warehouses: Notizen S. 16-22, Slides: OLAP Abfragen, CUBE, Window Queries, View Materialization
Übung 3
4
16.3

Data Warehouses: Notizen S. 23-27:  Bitmap Index, Join Index (Slides wie letzte Woche)
Data Mining: Notizen S. 28-33, Slides: Einleitung, Häufige Objektmengen

Übung 4
5
23.3
Data Mining: Notizen Seiten 34 - 37. Slides: Regeln suchen Übung 5
6
30.3
Data Mining: Notizen Seiten 38 - 43 und Slides: Clustering Übung 6, K-Means Algorithmus
7
6.4
Data Mining: Notizen Seiten 44 - 49, und Slides: Klassifikations- und Regressionsregeln, Entscheidungsbäume
Übung 7, K-Means Erweiterung
8
13.4 Information Retrieval: Notizen Seiten 50-55 und Slides: Vector Space Model, Invertierte und Signatur Dateien, Term Frequency, Inverse Document Frequency
Übung 8, TF-IDF
9
20.4
Data Mining schlägt zurück: Künstliche Neuronale Netze: Notizen Seiten 50-55, Slides
Praxis: KNN, siehe slides
Encog Software, Java NNS Software
Iris Data Set
10
27.4
Evaluation von Information Retrieval Systeme: Recall, Precision, Notizen Seite 61, Slides enthalten *mehr info als Notizen*
Vorbereitung der Prüfung, Prüfung des letzten Jahres
11
4.5
Prüfung Erfahrungsnote
 
10
11.5
PROJEKTWOCHE
 
11
18.5
Information Retrieval: HITS, Notizen Seiten 62-63, Slides
Übung 9: HITS
12
25.5
Information Retrieval: PageRank, Notizen Seiten 66-74, Slides
Übung 10: PageRank
13
1.6
Information Retrieval: Content-Based Image Retrieval (CBIR), Slides (nur slides vorhanden)
Übung 11: CBIR mit Sift 1
14
8.6

Information Retrieval: Query By Example, Slides (nur slides vorhanden)

Übung 12: CBIR mit Sift und QBE putting it all together
15
15.6
Ontologiebasierte Informationssysteme, Slides (nur slides vorhanden) Praxis: Protégé, mit Tutorial


          
Faustregel für den Ablauf:  Theorie mit A. Csillaghy, Praxis mit Nicky Hochmuth und André Csillaghy. Etwa halb ist Theorie, halb ist Praxis. Es wird erwartet, dass noch ein dritter Teil ausserhalb der Vorlesungszeit investiert wird.

Übungen:

Halten Sie Ihre Ergebnisse der Übung in einem kurzen individuell verfassten Bericht (1-2 A4-Seiten) fest und senden Sie ihn zusammen mit allfälligen weiteren Dokumenten bis zum Montagabend der darauffolgenden Woche an nicky dot hochmuth at fhnw dot ch (Betreff: igs_u#_name).

Halten Sie darin fest:

Es sollen 80% der Übungen bestanden werden.

Unterlagen, zusätzlich zu den Kursunterlagen (bitte merken Sie besonders die Pflichtlektüren für die Zwischenprüfung, die mit ** markiert):

Data Warehouses and Data Mining:

Die Kapitel 25 und 26 von  “Database Management Systems” by Raghu Ramakrishnan and Johannes Gehrke, Third Edition, McGraw Hill, enthalten die Einführungen in Data Warehouses und Data Mining.

Dazu können auch weitere Informationen im Oracle manual gefunden werden

Zusätzlich werden Teile aus verschiedene Quellen genommen:

Weitere Informationen über Data Minig finden Sie in folgenden Unterlagen:

Information Retrieval

Interactive Sprachen

Um Daten explorativ zu untersuchen ist Java manchmal nicht die beste Wahl. Interactive Sprachen, oder interpretierte Sprachen, die eine schnelle Wechselwirkung zwischen System und Benutzer/in erlaubt, sind oft von vorteil und können gewaltige Zeitersparnisse (z.B. bei der Übungen) generieren. Es werden folgende Sprachen erwähnt: