Lösungsvorschlag Klausur 06 Aufgabe 1

Moderator: Web Mining

Xelord
Sonntagsinformatiker
Sonntagsinformatiker
Beiträge: 225
Registriert: 23. Okt 2004 09:49

Lösungsvorschlag Klausur 06 Aufgabe 1

Beitrag von Xelord »

1-a Muss ich noch drüber nachdenken ;)
1-b
Hinter Model-based steht die Idee der Clusterbildung und damit der Reduktion der Rechendauer.
Beim Memor-Based Collaborativ Filtering wird jeder User gegeneinander gerankt und verglichen. Große Matrizen können entstehen und es ist langsam. Ein weiterer Nachteil sind die unterschiedliche Einschätzung von Personsen
1-c Dies würde den Authority Score erhöhen, wenn man genug verschiedene Seiten zusammenbekommt. Dies ist aber sehr unwahrscheinlich, wenn man nur vereinzelt Links setzen kann.
1-d Dieser Ansatz ist nicht wesentlich besser als die Seite selbst. Es kommen weitere Probleme hinzu, da sie in verschiedenen Sprachen oder auch Ähnliche Themen haben könnten. Ein Vorteil ist natürlich, dass man evtl. fehlende Informationen über die Vorgängerseiten bekommen kann und somit schneller eine komplette Einstufung erhält
1-e Wenn die Seiten Textlastiger sind, sind linguistische Mittel durchaus die sinnvollere Alternative. Bei vielen Seiten im Web gibt es wenig bis gar kein Text und somit sollte n-grams dort besser funktionieren.
1-f HLRT kann keine Permutationen von Daten verarbeiten. Bei Softmealy wird alles durch Zustände dargestellt. Somit ist eine kleine Datenmenge mit permutierenden Daten mit HLRT nicht effizent lösbar

Hmmm...

sYsChOs
Windoof-User
Windoof-User
Beiträge: 28
Registriert: 9. Aug 2005 12:15

Re: Lösungsvorschlag Klausur 06 Aufgabe 1

Beitrag von sYsChOs »

Hallo,

meine Antworten:

1-b
memory-based: ranken von items bzgl. eines users => für jeden user einzeln zu berechnen
model-based: lernen eines Modells, bspw. Cluster von usern, assoziative Regeln => für mehrere user verwendbar

1-c
Authority-Score würde erhöht werden, kann durch Relevance Weights verhindert werden

1-d
Vorgänger können verschiedene Themen haben => wenig Informationgewinn über den Inhalt der Seite. Besser: Link-Text, Absatz und Absatzüberschrift verwenden

1-e
viele Seiten enthalten keinen Fließtext => linguistische Phrasen schlagen fehl. Daher im Allgemeinem besser n-gramms benutzen

1-f
HLRT kann weder mit fehlenden Attributen noch mit variablen Reihenfolgen von Attributen umgehen. SoftMealy kann durch die Repräsentation als endl. Automat mit skip-Zuständen beides.

Beste Grüße,
seb

mherrmann
Mausschubser
Mausschubser
Beiträge: 49
Registriert: 12. Nov 2005 10:10

Re: Lösungsvorschlag Klausur 06 Aufgabe 1

Beitrag von mherrmann »

Soweit stimmen meine Ergebnisse mit denen von sYsChOs überein, nur, dass ich bei der b) noch erwähnen würde, dass memory-based ein lazy-learner ist, da es kein explizites Modell bildet.

Hier noch meine Gedanken zur a):
Ich denke bei Trainieren und Testen ist der Naive Bayes am schnellsten, da SVM´s ein quadratisches Optimierungsproblem lösen müssen und kNN viele große Vektoren verrechnen müssen. (Dass Naive Bayes ggü. dem kNN was Klassifikation angeht schneller ist, haben wir ja auch in der Übung gesehen). Allerdings wenn es nur um das Trainieren geht, dann denke ich, dass kNN am schnellsten ist, da er ja kein Modell lernen muss sondern im Prinzip nur Vektoren aus den Dokumenten erstellen muss.

Irgendwelche Einwände?

Antworten

Zurück zu „Web Mining“