
Klausur SS08
Moderator: Web Mining
Re: Klausur SS08
Du kannst ja auch einfach avg P = avg R annehmen und nur eins ausrechnen 

-
- Endlosschleifenbastler
- Beiträge: 158
- Registriert: 8. Okt 2007 15:38
- Wohnort: Dreieich
- Kontaktdaten:
Re: Klausur SS08
Ah, Danke! Ich hatte einen Fehler in der B-2x2 Matrix gehabt. Ich mache beim Einsetzen in die Matrizen ständig Denkfehler. Das wird morgen unter Zeitdruck echt mal nach hinten losgehen! 

-
- Endlosschleifenbastler
- Beiträge: 158
- Registriert: 8. Okt 2007 15:38
- Wohnort: Dreieich
- Kontaktdaten:
Re: Klausur SS08 - Aufgabe 4
a) Trainingsmenge
b) Stemming & Case Folding
Warum die anderen nicht?
Shingling ist der Vergleich zweier Dokumente auf Gleichheit bzw. Duplikate.
Sparse Encoding ist das Vermeiden von 0-Werten in der Inverted Index Matrix
Delta Encoding ist das Abspeichern von Indizes über die Distanz zum Start-Index
Bei Case Folding wird zwar auf Seite 31 des IR Foliensatzes mit einer Reduktion in Verbindung gebracht aber a) wird nicht gesagt mit welcher und b) auf Seite 7 des Features-Foliensatzes wird nur von einer Konvertierung in Kleinbuchstaben gesprochen. Gleichzeitig wird davon gesprochen, dass Wörter mitten im Satz unverändert bleiben. Somit frage ich mich, wie groß da der Effekt sein soll, aber sollte es auch nur einen kleinen Effekt geben, stimmt meine Annahme. ^^
c) Lineare SVM (siehe Seite 38 im TM Foliensatz)
d) Terme werden höher gewichtet, wenn sie in einem Dokument häufig und in allen anderen weniger häufig vorkommen. Dadurch sind die für das Dokument in dem sie häufig vorkommen charakteristisch.
e) m * K Multiplikationen und K-1 Vergleiche => (m*K)+K-1 arithmetische Operationen.
Begründung: Für jede Klasse müssen alle Wahrscheinlichkeiten der Terme im Termvektor (sprich P(t_i | C)) miteinander multipliziert werden - Ergibt m-1 Multiplikationen plus eine Multiplikation für p(C), also m Multiplikationen. Das ganze K Mal für K Ergebnisse. Die K Ergebnisse müssen nun untereinander verglichen werden, was K-1 Vergleichsoperationen entspricht. Die Aufgabe spricht ja von einem Testdokument, also sind beim Training schon alle Wahrscheinlichkeiten vorberechnet gewesen. Von Laplace war nie die Rede.
b) Stemming & Case Folding
Warum die anderen nicht?
Shingling ist der Vergleich zweier Dokumente auf Gleichheit bzw. Duplikate.
Sparse Encoding ist das Vermeiden von 0-Werten in der Inverted Index Matrix
Delta Encoding ist das Abspeichern von Indizes über die Distanz zum Start-Index
Bei Case Folding wird zwar auf Seite 31 des IR Foliensatzes mit einer Reduktion in Verbindung gebracht aber a) wird nicht gesagt mit welcher und b) auf Seite 7 des Features-Foliensatzes wird nur von einer Konvertierung in Kleinbuchstaben gesprochen. Gleichzeitig wird davon gesprochen, dass Wörter mitten im Satz unverändert bleiben. Somit frage ich mich, wie groß da der Effekt sein soll, aber sollte es auch nur einen kleinen Effekt geben, stimmt meine Annahme. ^^
c) Lineare SVM (siehe Seite 38 im TM Foliensatz)
d) Terme werden höher gewichtet, wenn sie in einem Dokument häufig und in allen anderen weniger häufig vorkommen. Dadurch sind die für das Dokument in dem sie häufig vorkommen charakteristisch.
e) m * K Multiplikationen und K-1 Vergleiche => (m*K)+K-1 arithmetische Operationen.
Begründung: Für jede Klasse müssen alle Wahrscheinlichkeiten der Terme im Termvektor (sprich P(t_i | C)) miteinander multipliziert werden - Ergibt m-1 Multiplikationen plus eine Multiplikation für p(C), also m Multiplikationen. Das ganze K Mal für K Ergebnisse. Die K Ergebnisse müssen nun untereinander verglichen werden, was K-1 Vergleichsoperationen entspricht. Die Aufgabe spricht ja von einem Testdokument, also sind beim Training schon alle Wahrscheinlichkeiten vorberechnet gewesen. Von Laplace war nie die Rede.
Re: Klausur SS08
Ja 90min für so ne Klausur wird wieder hart morgen :-/
-
- Endlosschleifenbastler
- Beiträge: 158
- Registriert: 8. Okt 2007 15:38
- Wohnort: Dreieich
- Kontaktdaten:
Re: Klausur SS08 - Aufgabe 3
Meine Hub und Authority Scores nach der dritten Iteration:
h(x) = (0, 5/9, 1/9, 1/3)
a(x) = (5/9, 1/9, 0, 1/3)
Die Klausuren wurden auch von Jahr zu Jahr anspruchsvoller, oder täusche ich mich?
h(x) = (0, 5/9, 1/9, 1/3)
a(x) = (5/9, 1/9, 0, 1/3)
Die Klausuren wurden auch von Jahr zu Jahr anspruchsvoller, oder täusche ich mich?
-
- Endlosschleifenbastler
- Beiträge: 158
- Registriert: 8. Okt 2007 15:38
- Wohnort: Dreieich
- Kontaktdaten:
Re: Klausur SS08
In den Folien steht: delete intrinsic linksh4ck4 hat geschrieben:Ja stimmt, d5 -> d4 gehört auch dazu. Ups, voll übersehen^^muackerl hat geschrieben:Aufgabe 3:
ich denke der focussed graph muss neben d5->d1, d2->d5, d2->d1,d4->d2 auch d5->d4 enthalten.
was meint ihr?
(i.e., links between pages in same domain)
Ist damit die IP-Domain gemeint, oder das Base-Set ohne Root?
Und: Mit welchem Wert initialisiere ich beim PageRank das o(q) ? Das soll der Out-Degree der Seite q sein. Was genau meinen die damit? Die Anzahl ausgehender Links? Von d1 geht nichts aus, aber der Nenner kann nicht 0 werden...
Re: Klausur SS08
Wenn von eine Dokument kein Link ausgeht, kommt es ja nicht in der Summe vor, weil es für pr(p) nur die Elemente (q,p) in E betrachtet.MaMaj hat geschrieben:In den Folien steht: delete intrinsic linksh4ck4 hat geschrieben:Ja stimmt, d5 -> d4 gehört auch dazu. Ups, voll übersehen^^muackerl hat geschrieben:Aufgabe 3:
ich denke der focussed graph muss neben d5->d1, d2->d5, d2->d1,d4->d2 auch d5->d4 enthalten.
was meint ihr?
(i.e., links between pages in same domain)
Ist damit die IP-Domain gemeint, oder das Base-Set ohne Root?
Und: Mit welchem Wert initialisiere ich beim PageRank das o(q) ? Das soll der Out-Degree der Seite q sein. Was genau meinen die damit? Die Anzahl ausgehender Links? Von d1 geht nichts aus, aber der Nenner kann nicht 0 werden...
Re: Klausur SS08 - Aufgabe 3
Ich komme, wie sqrtsben auch, auf diese Ergebnisse:MaMaj hat geschrieben:Meine Hub und Authority Scores nach der dritten Iteration:
h(x) = (0, 5/9, 1/9, 1/3)
a(x) = (5/9, 1/9, 0, 1/3)
Die Klausuren wurden auch von Jahr zu Jahr anspruchsvoller, oder täusche ich mich?
h = (0, 18/37, 1/37, 18/37)
a = (36/73, 1/73, 18/73, 18/73)
Zu "delete intrinsic links" nochmal aus dem Buch "Mining the Web".
"Edges that connect nodes from the same host are now eliminated because they are considered "navigational" or "nepotisic". -> Ich denke damit sind Schleifen oder doppelte Links im Graphen gemeint (z.B. d5 > d5 oder d5-> d1 und d5 -> d1)
Aufgabe 2-c iii)
Ein sinnvolles Co-Clustering für die 2-c iii) scheint mir
{D,E,P1,P2,P4} und {A,B,C,P3,P5,P6,P7,P8}
zu sein.
Stimmt ihr mir da zu, und wenn ja, würde man das so aufschreiben, oder gibt es da eine spezielle Notation?
{D,E,P1,P2,P4} und {A,B,C,P3,P5,P6,P7,P8}
zu sein.
Stimmt ihr mir da zu, und wenn ja, würde man das so aufschreiben, oder gibt es da eine spezielle Notation?