Klausur 08

Moderator: Web Mining

Benutzeravatar
E.d.u.
Nerd
Nerd
Beiträge: 633
Registriert: 3. Feb 2004 17:01
Wohnort: Darmstadt
Kontaktdaten:

Klausur 08

Beitrag von E.d.u. »

Beim Micro-Averaging von Mehr-Klassen-Konfusionsmatrizen sind Recall und Precision allgemein gleich.
Wie lässt sich das erklären?

Ich kann mir das nicht erklären, weiß jemand warum sie gleich sind ?

Benutzeravatar
olg
Sonntagsinformatiker
Sonntagsinformatiker
Beiträge: 297
Registriert: 1. Okt 2008 19:24

Re: Klausur 08

Beitrag von olg »

Sie sind genau dann gleich, wenn du jedem Dokument nur eine Klasse zuweist. Für eine Multilabel-Anwendung (mit mind. einer Klasse die zwei Label hat) wären die beiden Werte dann nicht gleich.
"To Perl, or not to Perl, that is the kvetching." ~Larry Wall

banshee
Nerd
Nerd
Beiträge: 684
Registriert: 22. Okt 2006 18:46

Re: Klausur 08

Beitrag von banshee »

Praktisch, diesen Thread wollte ich auch schon starten ;)

Mich verwirrt nämlich folgende Aufgabe:

Der Term-Frequency-Vektor eines Dokumentes bezieht sich auf eine bestimmte Termmenge. In die Termmenge
sollte man nur Wörter aufnehmen, die vorkommen in

[ ] der Trainingsmenge
[ ] der Testmenge
[ ] der Trainingsmenge und in der Testmenge
[ ] keine der beiden Mengen

Ich verstehe irgendwie den Zusammenhang nicht. Die Termmenge besteht doch jedesmal aus allen Termen des aktuellen Dokuments oder nicht? Es ergäbe schon Sinn, dass man zur Klassifizierung nur die Termmenge der Trainingsdokumente verwendet, aber ob man das tut hängt dann doch wieder vom verwendeten Distanz-Maß ab. Wenn man z.B. die Distanz erhöht, wenn ein Wort im Test- aber nicht im Trainingsbeispiel vorkommt, muss man wiederum alle Terme der Trainingsmenge berücksichtigen.
So steht es nämlich auch in den Folien bzw. im Buch: 1) Transformiere das zu vergleichende Trainingsbeispiel in den TFIDF-Space 2) Transformiere das zu vergleichende Testbeispiel in den TFIDF-Space 3) Wende ein Distanz-Maß an
Ich hätte jetzt maximal verwirrt "der Trainingsmenge und in der Testmenge" angekreuzt. Stimmt das und die Aufgabe ist einfach als gedacht oder hab ich irgendwo einen Denkfehler?

Benutzeravatar
olg
Sonntagsinformatiker
Sonntagsinformatiker
Beiträge: 297
Registriert: 1. Okt 2008 19:24

Re: Klausur 08

Beitrag von olg »

banshee hat geschrieben: Der Term-Frequency-Vektor eines Dokumentes bezieht sich auf eine bestimmte Termmenge. In die Termmenge
sollte man nur Wörter aufnehmen, die vorkommen in

[X] der Trainingsmenge

[ ] der Testmenge
[ ] der Trainingsmenge und in der Testmenge
[ ] keine der beiden Mengen
Für das (semi)-strukturierte Lernen verwendet man für die Klassifikation in der Regel (gibt es überhaupt Ausnahmen?) nur den TF-Vektor aus der Trainingsmenge (Bayes, SVM, etc.). Für die Klassifikation eines neuen Dokumentes betrachtest du dann nur die Terme eines Dokuments, die auch in der Termmenge (im Vokabular) sind.*

* Mit Ausnahme von Laplace-Korrektur, bei dem du jedes auftretende Wort mit Häufigkeit 1 ansiehst
"To Perl, or not to Perl, that is the kvetching." ~Larry Wall

banshee
Nerd
Nerd
Beiträge: 684
Registriert: 22. Okt 2006 18:46

Re: Klausur 08

Beitrag von banshee »

ja, so hab ich mir meine zuerst beschriebene Variante vorgestellt, aber hängt das nicht vom Distanzmaß ab? Wenn (A, B, C) mein Trainingsbeispiel ist und ich d1 = (A, B, C) eine höhere Ähnlichkeit zum Traingsbeispiel geben will als d2 = (A, B, C, D, E, F, G), dann muss man doch trotzdem noch den TF-Vektor der Testbeispiele berechnen?! Stand das irgendwo in den Folien oder hab ich das überlesen?

Benutzeravatar
E.d.u.
Nerd
Nerd
Beiträge: 633
Registriert: 3. Feb 2004 17:01
Wohnort: Darmstadt
Kontaktdaten:

Re: Klausur 08

Beitrag von E.d.u. »

Bei der Aufgabe 3-b, wie berechnet man den PageRank anhand der Formel ?
Man benutzt pr(q), aber wie initialisiert man das? Hat das jemand nachgerechnet?

Remake
Mausschubser
Mausschubser
Beiträge: 64
Registriert: 15. Dez 2007 10:40

Re: Klausur 08

Beitrag von Remake »

E.d.u. hat geschrieben:Bei der Aufgabe 3-b, wie berechnet man den PageRank anhand der Formel ?
Man benutzt pr(q), aber wie initialisiert man das? Hat das jemand nachgerechnet?
In der Aufgabe steht du sollt gleichverteilt initialisieren, also wohl mit 1/N, hier dann eben mit 1/6.

Remake
Mausschubser
Mausschubser
Beiträge: 64
Registriert: 15. Dez 2007 10:40

Re: Klausur 08

Beitrag von Remake »

Was bekommt ihr für die 3(a) raus, denkt ihr man muss normalisieren, oder gehört das nicht zwingend zum Algo nachdem hier gefragt ist?

Btw: Die Frage des Thread-Erstellers ist noch nicht beantwortet... Die Frage war "Warum" und nicht "In welchem Fall".

banshee
Nerd
Nerd
Beiträge: 684
Registriert: 22. Okt 2006 18:46

Re: Klausur 08

Beitrag von banshee »

Nochmal eine Frage zur 1. Aufgabe. In der 06er Klausur war eine sehr ähnliche Aufgabe drin, wo es um News-Seiten ging. Die Vorschläge da waren, einen HLRT zu benutzen, da die News-Seiten wahrscheinlich sehr ähnlich aufgebaut sind bzw. SoftMealy falls das nicht der Fall ist. Ich stelle mir jetzt die Frage, wann man SoftMealy benutzt und wann man für jedes Portal einen eigenen Wrapper schreibt und die Infos dann mit einem Mediator integriert (darauf scheinen ja auch 1 b) und c) anzuspielen). Wie stark können Strukturunterschiede sein bis SoftMealy fehlschlägt und wann sollte man SoftMealy dem Mediator Ansatz vorziehen?

Benutzeravatar
E.d.u.
Nerd
Nerd
Beiträge: 633
Registriert: 3. Feb 2004 17:01
Wohnort: Darmstadt
Kontaktdaten:

Re: Klausur 08

Beitrag von E.d.u. »

Remake hat geschrieben:
E.d.u. hat geschrieben:Bei der Aufgabe 3-b, wie berechnet man den PageRank anhand der Formel ?
Man benutzt pr(q), aber wie initialisiert man das? Hat das jemand nachgerechnet?
In der Aufgabe steht du sollt gleichverteilt initialisieren, also wohl mit 1/N, hier dann eben mit 1/6.
aber was genau wird mit 1/6 initialisiert ?

Remake
Mausschubser
Mausschubser
Beiträge: 64
Registriert: 15. Dez 2007 10:40

Re: Klausur 08

Beitrag von Remake »

Initialisierung des PR: pr(d1) = pr(d2) = ... = pr(d6) = 1/6

Gegenfrage: Weißt du mittlerweile die Antwort auf Klausur 05, Aufgabe 1-a (3)? Also warum 6/10?
Edit: Ok, hab eine Erklärung gefunden: Wir dürfen das Ranking ja nicht verändern von der Suchmaschine, d.h. spätestens nach 11 ist Schluss mit der Rückgabe.

Benutzeravatar
E.d.u.
Nerd
Nerd
Beiträge: 633
Registriert: 3. Feb 2004 17:01
Wohnort: Darmstadt
Kontaktdaten:

Re: Klausur 08

Beitrag von E.d.u. »

Aufgabe 2:
wenn man w(u_a, u) für alle \(u \in U\) berechnen will, müsste nicht u_a ungleich u sein?
Wenn man w(dorian, dorian) z.b. berechnen will, kommt man auf 3. Lässt man also w(dorian, dorian) weg oder wird das auch mit aufsummiert? Laut formel müsste man das aufsummieren,aber das macht kein Sinn oder ?

FeG
Endlosschleifenbastler
Endlosschleifenbastler
Beiträge: 182
Registriert: 6. Dez 2007 07:01

Re: Klausur 08

Beitrag von FeG »

Aufgabe 2:
wenn man w(u_a, u) für alle \(u \in U\) berechnen will, müsste nicht u_a ungleich u sein?
Wenn man w(dorian, dorian) z.b. berechnen will, kommt man auf 3. Lässt man also w(dorian, dorian) weg oder wird das auch mit aufsummiert? Laut formel müsste man das aufsummieren,aber das macht kein Sinn oder ?
Das hab ich mich vorhin auch gefragt und bin nach 08-wm-recommender Folie 13 ("votes that the item received from other users") zu dem Schluss gekommen, dass U = "users without u_a that voted for item i" ist. Ist IMHO die einzig sinnvolle Interpretation, leider aber auf den Folien nicht so explizit als Erläuterung für U angegeben.

Benutzeravatar
E.d.u.
Nerd
Nerd
Beiträge: 633
Registriert: 3. Feb 2004 17:01
Wohnort: Darmstadt
Kontaktdaten:

Re: Klausur 08

Beitrag von E.d.u. »

FeG hat geschrieben: dass U = "users without u_a that voted for item i" ist. Ist IMHO die einzig sinnvolle Interpretation, leider aber auf den Folien nicht so explizit als Erläuterung für U angegeben.
Ahso, "than voted for item i"? Ich hätte gedacht, dass U die menge alle Users ist ohne U_A.
Also auch bei der K berechnung muss man nur die Leute mitzählen, die für i gevoted haben ?

FeG
Endlosschleifenbastler
Endlosschleifenbastler
Beiträge: 182
Registriert: 6. Dez 2007 07:01

Re: Klausur 08

Beitrag von FeG »

E.d.u. hat geschrieben:Ahso, "than voted for item i"? Ich hätte gedacht, dass U die menge alle Users ist ohne U_A.
Also auch bei der K berechnung muss man nur die Leute mitzählen, die für i gevoted haben ?
Ja, sonst würdest du mit mehr Usern normalisieren als du in der Summe verwendet hast. In dem K ist also U die gleiche Menge ("users without u_a that voted for item i").

Antworten

Zurück zu „Web Mining“