Klausur 08
Moderator: Web Mining
Klausur 08
Beim Micro-Averaging von Mehr-Klassen-Konfusionsmatrizen sind Recall und Precision allgemein gleich.
Wie lässt sich das erklären?
Ich kann mir das nicht erklären, weiß jemand warum sie gleich sind ?
Wie lässt sich das erklären?
Ich kann mir das nicht erklären, weiß jemand warum sie gleich sind ?
Re: Klausur 08
Sie sind genau dann gleich, wenn du jedem Dokument nur eine Klasse zuweist. Für eine Multilabel-Anwendung (mit mind. einer Klasse die zwei Label hat) wären die beiden Werte dann nicht gleich.
"To Perl, or not to Perl, that is the kvetching." ~Larry Wall
Re: Klausur 08
Praktisch, diesen Thread wollte ich auch schon starten 
Mich verwirrt nämlich folgende Aufgabe:
Der Term-Frequency-Vektor eines Dokumentes bezieht sich auf eine bestimmte Termmenge. In die Termmenge
sollte man nur Wörter aufnehmen, die vorkommen in
[ ] der Trainingsmenge
[ ] der Testmenge
[ ] der Trainingsmenge und in der Testmenge
[ ] keine der beiden Mengen
Ich verstehe irgendwie den Zusammenhang nicht. Die Termmenge besteht doch jedesmal aus allen Termen des aktuellen Dokuments oder nicht? Es ergäbe schon Sinn, dass man zur Klassifizierung nur die Termmenge der Trainingsdokumente verwendet, aber ob man das tut hängt dann doch wieder vom verwendeten Distanz-Maß ab. Wenn man z.B. die Distanz erhöht, wenn ein Wort im Test- aber nicht im Trainingsbeispiel vorkommt, muss man wiederum alle Terme der Trainingsmenge berücksichtigen.
So steht es nämlich auch in den Folien bzw. im Buch: 1) Transformiere das zu vergleichende Trainingsbeispiel in den TFIDF-Space 2) Transformiere das zu vergleichende Testbeispiel in den TFIDF-Space 3) Wende ein Distanz-Maß an
Ich hätte jetzt maximal verwirrt "der Trainingsmenge und in der Testmenge" angekreuzt. Stimmt das und die Aufgabe ist einfach als gedacht oder hab ich irgendwo einen Denkfehler?

Mich verwirrt nämlich folgende Aufgabe:
Der Term-Frequency-Vektor eines Dokumentes bezieht sich auf eine bestimmte Termmenge. In die Termmenge
sollte man nur Wörter aufnehmen, die vorkommen in
[ ] der Trainingsmenge
[ ] der Testmenge
[ ] der Trainingsmenge und in der Testmenge
[ ] keine der beiden Mengen
Ich verstehe irgendwie den Zusammenhang nicht. Die Termmenge besteht doch jedesmal aus allen Termen des aktuellen Dokuments oder nicht? Es ergäbe schon Sinn, dass man zur Klassifizierung nur die Termmenge der Trainingsdokumente verwendet, aber ob man das tut hängt dann doch wieder vom verwendeten Distanz-Maß ab. Wenn man z.B. die Distanz erhöht, wenn ein Wort im Test- aber nicht im Trainingsbeispiel vorkommt, muss man wiederum alle Terme der Trainingsmenge berücksichtigen.
So steht es nämlich auch in den Folien bzw. im Buch: 1) Transformiere das zu vergleichende Trainingsbeispiel in den TFIDF-Space 2) Transformiere das zu vergleichende Testbeispiel in den TFIDF-Space 3) Wende ein Distanz-Maß an
Ich hätte jetzt maximal verwirrt "der Trainingsmenge und in der Testmenge" angekreuzt. Stimmt das und die Aufgabe ist einfach als gedacht oder hab ich irgendwo einen Denkfehler?
Re: Klausur 08
Für das (semi)-strukturierte Lernen verwendet man für die Klassifikation in der Regel (gibt es überhaupt Ausnahmen?) nur den TF-Vektor aus der Trainingsmenge (Bayes, SVM, etc.). Für die Klassifikation eines neuen Dokumentes betrachtest du dann nur die Terme eines Dokuments, die auch in der Termmenge (im Vokabular) sind.*banshee hat geschrieben: Der Term-Frequency-Vektor eines Dokumentes bezieht sich auf eine bestimmte Termmenge. In die Termmenge
sollte man nur Wörter aufnehmen, die vorkommen in
[X] der Trainingsmenge
[ ] der Testmenge
[ ] der Trainingsmenge und in der Testmenge
[ ] keine der beiden Mengen
* Mit Ausnahme von Laplace-Korrektur, bei dem du jedes auftretende Wort mit Häufigkeit 1 ansiehst
"To Perl, or not to Perl, that is the kvetching." ~Larry Wall
Re: Klausur 08
ja, so hab ich mir meine zuerst beschriebene Variante vorgestellt, aber hängt das nicht vom Distanzmaß ab? Wenn (A, B, C) mein Trainingsbeispiel ist und ich d1 = (A, B, C) eine höhere Ähnlichkeit zum Traingsbeispiel geben will als d2 = (A, B, C, D, E, F, G), dann muss man doch trotzdem noch den TF-Vektor der Testbeispiele berechnen?! Stand das irgendwo in den Folien oder hab ich das überlesen?
Re: Klausur 08
Bei der Aufgabe 3-b, wie berechnet man den PageRank anhand der Formel ?
Man benutzt pr(q), aber wie initialisiert man das? Hat das jemand nachgerechnet?
Man benutzt pr(q), aber wie initialisiert man das? Hat das jemand nachgerechnet?
Re: Klausur 08
In der Aufgabe steht du sollt gleichverteilt initialisieren, also wohl mit 1/N, hier dann eben mit 1/6.E.d.u. hat geschrieben:Bei der Aufgabe 3-b, wie berechnet man den PageRank anhand der Formel ?
Man benutzt pr(q), aber wie initialisiert man das? Hat das jemand nachgerechnet?
Re: Klausur 08
Was bekommt ihr für die 3(a) raus, denkt ihr man muss normalisieren, oder gehört das nicht zwingend zum Algo nachdem hier gefragt ist?
Btw: Die Frage des Thread-Erstellers ist noch nicht beantwortet... Die Frage war "Warum" und nicht "In welchem Fall".
Btw: Die Frage des Thread-Erstellers ist noch nicht beantwortet... Die Frage war "Warum" und nicht "In welchem Fall".
Re: Klausur 08
Nochmal eine Frage zur 1. Aufgabe. In der 06er Klausur war eine sehr ähnliche Aufgabe drin, wo es um News-Seiten ging. Die Vorschläge da waren, einen HLRT zu benutzen, da die News-Seiten wahrscheinlich sehr ähnlich aufgebaut sind bzw. SoftMealy falls das nicht der Fall ist. Ich stelle mir jetzt die Frage, wann man SoftMealy benutzt und wann man für jedes Portal einen eigenen Wrapper schreibt und die Infos dann mit einem Mediator integriert (darauf scheinen ja auch 1 b) und c) anzuspielen). Wie stark können Strukturunterschiede sein bis SoftMealy fehlschlägt und wann sollte man SoftMealy dem Mediator Ansatz vorziehen?
Re: Klausur 08
aber was genau wird mit 1/6 initialisiert ?Remake hat geschrieben:In der Aufgabe steht du sollt gleichverteilt initialisieren, also wohl mit 1/N, hier dann eben mit 1/6.E.d.u. hat geschrieben:Bei der Aufgabe 3-b, wie berechnet man den PageRank anhand der Formel ?
Man benutzt pr(q), aber wie initialisiert man das? Hat das jemand nachgerechnet?
Re: Klausur 08
Initialisierung des PR: pr(d1) = pr(d2) = ... = pr(d6) = 1/6
Gegenfrage: Weißt du mittlerweile die Antwort auf Klausur 05, Aufgabe 1-a (3)? Also warum 6/10?
Edit: Ok, hab eine Erklärung gefunden: Wir dürfen das Ranking ja nicht verändern von der Suchmaschine, d.h. spätestens nach 11 ist Schluss mit der Rückgabe.
Gegenfrage: Weißt du mittlerweile die Antwort auf Klausur 05, Aufgabe 1-a (3)? Also warum 6/10?
Edit: Ok, hab eine Erklärung gefunden: Wir dürfen das Ranking ja nicht verändern von der Suchmaschine, d.h. spätestens nach 11 ist Schluss mit der Rückgabe.
Re: Klausur 08
Aufgabe 2:
wenn man w(u_a, u) für alle \(u \in U\) berechnen will, müsste nicht u_a ungleich u sein?
Wenn man w(dorian, dorian) z.b. berechnen will, kommt man auf 3. Lässt man also w(dorian, dorian) weg oder wird das auch mit aufsummiert? Laut formel müsste man das aufsummieren,aber das macht kein Sinn oder ?
wenn man w(u_a, u) für alle \(u \in U\) berechnen will, müsste nicht u_a ungleich u sein?
Wenn man w(dorian, dorian) z.b. berechnen will, kommt man auf 3. Lässt man also w(dorian, dorian) weg oder wird das auch mit aufsummiert? Laut formel müsste man das aufsummieren,aber das macht kein Sinn oder ?
Re: Klausur 08
Das hab ich mich vorhin auch gefragt und bin nach 08-wm-recommender Folie 13 ("votes that the item received from other users") zu dem Schluss gekommen, dass U = "users without u_a that voted for item i" ist. Ist IMHO die einzig sinnvolle Interpretation, leider aber auf den Folien nicht so explizit als Erläuterung für U angegeben.Aufgabe 2:
wenn man w(u_a, u) für alle \(u \in U\) berechnen will, müsste nicht u_a ungleich u sein?
Wenn man w(dorian, dorian) z.b. berechnen will, kommt man auf 3. Lässt man also w(dorian, dorian) weg oder wird das auch mit aufsummiert? Laut formel müsste man das aufsummieren,aber das macht kein Sinn oder ?
Re: Klausur 08
Ahso, "than voted for item i"? Ich hätte gedacht, dass U die menge alle Users ist ohne U_A.FeG hat geschrieben: dass U = "users without u_a that voted for item i" ist. Ist IMHO die einzig sinnvolle Interpretation, leider aber auf den Folien nicht so explizit als Erläuterung für U angegeben.
Also auch bei der K berechnung muss man nur die Leute mitzählen, die für i gevoted haben ?
Re: Klausur 08
Ja, sonst würdest du mit mehr Usern normalisieren als du in der Summe verwendet hast. In dem K ist also U die gleiche Menge ("users without u_a that voted for item i").E.d.u. hat geschrieben:Ahso, "than voted for item i"? Ich hätte gedacht, dass U die menge alle Users ist ohne U_A.
Also auch bei der K berechnung muss man nur die Leute mitzählen, die für i gevoted haben ?