Seite 1 von 1

Lösungsvorschlag Klausur 06 Aufgabe 2

Verfasst: 30. Jun 2008 20:37
von Xelord
2-a Probleme, die gelöst werden müssen:
- Ausfall des Servers darf nicht zum versagen des Wrappers führen.
- Wie kann man herausfinden, ob die Seite/Beitrag wirklich neu ist, datumsänderungen müssen möglichst ignoriert werden, da sonst die Spiegelung sinnlos wird
- Mögliche Kompression, damit nicht zuviel Speicher verloren geht.
- Seiten anhand des Inhalts und nicht der URL einstufen.
- Navigation aufrechterhalten mit ändern der URLs

2-b Da der Aufbau von News Seiten meistens gleich ist, kann ein einfacher HLRT-Wrapper genutzt werden. Softmealy ist dann sinnvoll, wenn es verschiedene Nachrichtenseiten gibt.

2-c
Hier kann man Multi-View-Learner einsetzen. Man könnte z.b. 3 verschiedene Sichten definieren. Einer schaut nur die Titelzeilen, einer die URL und ein anderer versucht über die TF eine möglichst genaue Aussage treffen zu können. Artikel, die nicht genau eingestuft werden können, müssen manuell getagt werden und damit dienen Sie als Eingabe für die automatischen Learner. Eine große Menge eingestufter Beiträge führt zur verbesserten Einstufung neuer Beiträge.

2-d Durch mehrere Sprachen ist es möglich Klassifizierung von Texten zu verbessern, da z.b. Wörter, die im deutschen mehrere Bedeutungen haben im Englischen nur eine Bedeutung haben können. Allerdings muss eine Äquivalenz der Themen erkannt werden, was durch ein Wörterbuch einfach erreicht werden kann.

2-e Hier könnte man über einen Vector des Dokuments eine Cosinus-Ähnlichkeit vorgehen. Sind diese Vektoren nahe beieinander, dann sind die Dokumente wahrscheinlich über das gleiche Thema.

2-f ??

Re: Lösungsvorschlag Klausur 06 Aufgabe 2

Verfasst: 3. Jul 2008 17:54
von sYsChOs
Hi,

hier meine Vorschläge:

2-a)
- tägliches laden der Seiten vom Server (Last verteilen)
- speichern der Seiten (eventuell Kompression verwenden)
- testen auf Veränderungen zwischen geladenen und gespeicherten Seiten => Seiten wiederfinden im lokalen Repository => Ähnlichkeitsmaß verwenden
- update der gespeicherten Seiten

2-b)
HLRT-Wraper:
HEAD: alles vor dem Titel (bspw. Navigationsleiste)
L,R: Definieren Separatoren zwischen Titel und Nachrichtentext, sowie zwischen 2 Nachrichtentextteilen (bspw. Bilder, Werbung)
TAIL: Alles nach dem Nachrichtentext (bspw. Impressum)

2-c)
Klassifizierer für Ressorts anhand einer Seite lernen, bei der sich die Zuordnung aus der URL ergibt. Diesen verwenden um Nachrichten anderer Sites zu in die Ressorts einzuteilen.

2-d)
durch das Lernen mit beiden Sprachen können hinterher Nachrichten beider Sprachen klassifiziert werden. Sinnvoller: zwei Klassifizierer lernen

2-e)
Z.B. k-means Clustering verwenden um Nachrichten einander zuzuordnen. Die Nachricht, die dem Cluster-Zentrum am nächsten ist, kann als Repräsentant des Clusters verwendet werden.

2-f)
Z.B. cross-validation

Re: Lösungsvorschlag Klausur 06 Aufgabe 2

Verfasst: 3. Jul 2008 22:39
von mherrmann
Hi,

von a) - c) stimme ich sYsChOs zu.

zur d)
Hier glaube ich, dass ein Naive Bayes Klassifiziere von den zusätzlichen Features, die sich durch zwei Sprachen ergeben, profitieren würde. Ich würde einem solchen Klassifizierer also eher Dokumente beide Sprachen geben.

zur e)
Hm, k-means... Ich weiß nicht. Wie würdest du denn herausfinden mit wie vielen Clustern du arbeiten musst? Obwohl man dieses Problem ja immer hat und Clustering ist für solche Aufgaben ja auch da... Also einverstanden.

zur f)
Ich denke auch, dass sich hier Cross-Validation angibt, weil durch die Trainingsbeispiele, die sich durch die Struktur der URL ergeben ja sehr gute Trainingsbeispiele sind. Allerdings würde ich dann auch nur die verwenden.

Re: Lösungsvorschlag Klausur 06 Aufgabe 2

Verfasst: 4. Jul 2008 09:14
von sYsChOs
mherrmann hat geschrieben: zur f)
Ich denke auch, dass sich hier Cross-Validation angibt, [...]. Allerdings würde ich dann auch nur die verwenden.
Wenn du aber nur einen Teil der Trainingsdaten verwendest, dann ist dies keine corss-validation. Cross-validation zeichnet sich ja dadurc aus, dass jedes Beispiel mal zum testen verwendet wird.

Beste Grüße,
Sebastian