Informationsgenerierung und -Speicherung
Frühlingssemester 2010
Kontakt:
André
Csillaghy & Simon Felix
Büro: 3. Stock, 4.313, FHNW Windisch Nord
Tel 056
– 462 – 4062
email
andre dot csillaghy at fhnw dot ch
Last
update:
2010-06-11 3:02 PM
Prüfungsstoff:
Hier sind die vollständigen Notitzen zum Kurs. Sie werden aber weiter verarbeitet. Es wird hier angegeben, wann diese in engültige Form stehen.
Organisation
Lektion |
Datum |
Theorie |
Praxis |
1 |
24.2 |
Einführung
Data Warehouses |
Übung Anleitung
Task 1: Flugdaten
Daten |
2 |
3.3 |
DWH: Multidimensionales Datenmodell, Star Schema, Roll Up, Drill Down |
Abgabe Task 1 - Task 1 - Insights
Task2 |
3 |
10.3 |
DWH: OLAP Abfragen, CUBE, Window Queries, View Materialization
|
Task 2 - Insights
Task 3: Materialized Views in mySQL |
4 |
17.3 |
DWH: Bitmap Index, Join Index
DM: Einleitung, Häufige Objektmengen
MAD Skills (Cohen / Dolan / Dunlap / Hellerstein / Welton)
Repetition dbarc Indizes
|
Task 3 - Insights
Task 4 - Häufige Objektmengen
Task 4 - Daten |
5 |
24.3 |
DM: Regeln suchen |
Task 4 - Insights
Task 5 - Association rule
Task 5 - Java Vorlage
|
6 |
31.3 |
DM:Klassifikations- und Regerssionsregeln |
Task 5 - Insights
Task 6 - K-Means programmieren
Task 6 - Vorlagen
|
7 |
7.4 |
DM: Clustering |
Task 6 - Insights |
8 |
14.4 |
Prüfung DWH / DM
|
|
9 |
21.4 |
IR: Vector Space Model |
Task 7 - VSM
Task 7 - Vorlage
|
10 |
28.4 |
IR: Recall, Precision, Inverterte Dateien, Signatur Dateien |
Weiterführung Task 7 |
11 |
5.5 |
PROJEKTWOCHE
|
|
10 |
12.5 |
IR: HITS (unterlage s. Oben)
|
Task 8 - HITS
Task 8 - Vorlage & Daten
|
11 |
19.5 |
IR: PageRank |
Task 9 - PageRank |
12 |
26.5 |
IR: CBIR & QBE |
Weiterführung Task 9 |
13 |
2.6 |
Künstliche neuronale Netze |
|
14 |
9.6 |
Ontologiebasierte Informationssysteme
|
Task 10 - Semantics
Task 10 - Vorlage und Daten
Revision Prüfung |
15 |
16.6 |
Prüfung IR + Semantics |
|
| |
|
|
|
Faustregel für
Aufgabenteilung: Theorie mit
A.
Csillaghy, Praxis mit A.Csillaghy und S. Felix.
Übungen:
Siehe die Anleitung. Es sollen 80% der Übungen abgegeben. Sie sollen individuell erfasst sein. In der Regel müssen die Übungen spätestens nach eine Woche, am Ende des nachfolgenden Kurses abgegeben werden.
Es geht nicht um einen Aufsatz, sondern um den Fragen der Anleitung zu beantworten. Diese Fragen können als Template benutzt werden.
Bitte schicken Sie die Übungen an Simon punkt Felix at fhnw ch.
Unterlagen:
Data Warehouses and Data Mining:
Die Kapitel
25 und 26 von “Database
Management Systems”
by
Raghu Ramakrishnan and Johannes Gehrke, Third Edition, McGraw
Hill, enthalten die Einführungen in Data Warehouses und Data Mining.
Diese 2 Kapiteln sind PFLICHTLEKTÜREN für die Prüfung.
Dazu können auch weitere Informationen im Oracle manual gefunden werden
Zusätzlich werden Teile aus verschiedene Quellen genommen:
- The Data Warehouse Toolkit von Ralph Kimball, Wiley
- Building the Data Warehouse von Bill Inmon, Wiley
- Data Warehouses von Harry S. Sing
Weitere Informationen über Data Minig finden Sie in folgenden Unterlagen:
Information Retrieval
DIESE DOKUMENTE SIND PFLICHTLEKT¨UREN:
Weitere Unterlagen:
Interactive Sprachen
Um Daten explorativ zu untersuchen ist Java oft nicht die beste Wahl. Interactive Sprachen, oder interpretierte Sprachen, die eine schnelle Wechselwirkung zwischen System und Benutzer/in erlaubt, sind sehr oft von vorteil und können gewaltige Zeitersparnisse (z.B. bei der Übungen) generieren. Es werden folgende Sprachen erwähnt:
- Scala, sehr praktisch weil diese funktionale Sprache auch die gesamte Java "Infrastruktur" zugänglich macht
- Matlab, die sehr verbreitet ist (kostenpflichtig)
- ITTVIS/IDL, die für wissenschaftliche, geographische, sowie medizinische Daten speziell angepasst ist.