Klausur SS08

Moderator: Web Mining

sqrtsben
Windoof-User
Windoof-User
Beiträge: 33
Registriert: 17. Sep 2010 15:46

Re: Klausur SS08

Beitrag von sqrtsben »

Du kannst ja auch einfach avg P = avg R annehmen und nur eins ausrechnen ;-)

MaMaj
Endlosschleifenbastler
Endlosschleifenbastler
Beiträge: 158
Registriert: 8. Okt 2007 15:38
Wohnort: Dreieich
Kontaktdaten:

Re: Klausur SS08

Beitrag von MaMaj »

Ah, Danke! Ich hatte einen Fehler in der B-2x2 Matrix gehabt. Ich mache beim Einsetzen in die Matrizen ständig Denkfehler. Das wird morgen unter Zeitdruck echt mal nach hinten losgehen! :evil:

MaMaj
Endlosschleifenbastler
Endlosschleifenbastler
Beiträge: 158
Registriert: 8. Okt 2007 15:38
Wohnort: Dreieich
Kontaktdaten:

Re: Klausur SS08 - Aufgabe 4

Beitrag von MaMaj »

a) Trainingsmenge
b) Stemming & Case Folding

Warum die anderen nicht?
Shingling ist der Vergleich zweier Dokumente auf Gleichheit bzw. Duplikate.
Sparse Encoding ist das Vermeiden von 0-Werten in der Inverted Index Matrix
Delta Encoding ist das Abspeichern von Indizes über die Distanz zum Start-Index

Bei Case Folding wird zwar auf Seite 31 des IR Foliensatzes mit einer Reduktion in Verbindung gebracht aber a) wird nicht gesagt mit welcher und b) auf Seite 7 des Features-Foliensatzes wird nur von einer Konvertierung in Kleinbuchstaben gesprochen. Gleichzeitig wird davon gesprochen, dass Wörter mitten im Satz unverändert bleiben. Somit frage ich mich, wie groß da der Effekt sein soll, aber sollte es auch nur einen kleinen Effekt geben, stimmt meine Annahme. ^^

c) Lineare SVM (siehe Seite 38 im TM Foliensatz)

d) Terme werden höher gewichtet, wenn sie in einem Dokument häufig und in allen anderen weniger häufig vorkommen. Dadurch sind die für das Dokument in dem sie häufig vorkommen charakteristisch.

e) m * K Multiplikationen und K-1 Vergleiche => (m*K)+K-1 arithmetische Operationen.
Begründung: Für jede Klasse müssen alle Wahrscheinlichkeiten der Terme im Termvektor (sprich P(t_i | C)) miteinander multipliziert werden - Ergibt m-1 Multiplikationen plus eine Multiplikation für p(C), also m Multiplikationen. Das ganze K Mal für K Ergebnisse. Die K Ergebnisse müssen nun untereinander verglichen werden, was K-1 Vergleichsoperationen entspricht. Die Aufgabe spricht ja von einem Testdokument, also sind beim Training schon alle Wahrscheinlichkeiten vorberechnet gewesen. Von Laplace war nie die Rede.

h4ck4
Mausschubser
Mausschubser
Beiträge: 91
Registriert: 18. Mai 2009 20:50
Kontaktdaten:

Re: Klausur SS08

Beitrag von h4ck4 »

Ja 90min für so ne Klausur wird wieder hart morgen :-/

MaMaj
Endlosschleifenbastler
Endlosschleifenbastler
Beiträge: 158
Registriert: 8. Okt 2007 15:38
Wohnort: Dreieich
Kontaktdaten:

Re: Klausur SS08 - Aufgabe 3

Beitrag von MaMaj »

Meine Hub und Authority Scores nach der dritten Iteration:

h(x) = (0, 5/9, 1/9, 1/3)
a(x) = (5/9, 1/9, 0, 1/3)

Die Klausuren wurden auch von Jahr zu Jahr anspruchsvoller, oder täusche ich mich?

MaMaj
Endlosschleifenbastler
Endlosschleifenbastler
Beiträge: 158
Registriert: 8. Okt 2007 15:38
Wohnort: Dreieich
Kontaktdaten:

Re: Klausur SS08

Beitrag von MaMaj »

h4ck4 hat geschrieben:
muackerl hat geschrieben:Aufgabe 3:

ich denke der focussed graph muss neben d5->d1, d2->d5, d2->d1,d4->d2 auch d5->d4 enthalten.
was meint ihr?
Ja stimmt, d5 -> d4 gehört auch dazu. Ups, voll übersehen^^
In den Folien steht: delete intrinsic links
(i.e., links between pages in same domain)

Ist damit die IP-Domain gemeint, oder das Base-Set ohne Root?

Und: Mit welchem Wert initialisiere ich beim PageRank das o(q) ? Das soll der Out-Degree der Seite q sein. Was genau meinen die damit? Die Anzahl ausgehender Links? Von d1 geht nichts aus, aber der Nenner kann nicht 0 werden...

sqrtsben
Windoof-User
Windoof-User
Beiträge: 33
Registriert: 17. Sep 2010 15:46

Re: Klausur SS08

Beitrag von sqrtsben »

MaMaj hat geschrieben:
h4ck4 hat geschrieben:
muackerl hat geschrieben:Aufgabe 3:

ich denke der focussed graph muss neben d5->d1, d2->d5, d2->d1,d4->d2 auch d5->d4 enthalten.
was meint ihr?
Ja stimmt, d5 -> d4 gehört auch dazu. Ups, voll übersehen^^
In den Folien steht: delete intrinsic links
(i.e., links between pages in same domain)

Ist damit die IP-Domain gemeint, oder das Base-Set ohne Root?

Und: Mit welchem Wert initialisiere ich beim PageRank das o(q) ? Das soll der Out-Degree der Seite q sein. Was genau meinen die damit? Die Anzahl ausgehender Links? Von d1 geht nichts aus, aber der Nenner kann nicht 0 werden...
Wenn von eine Dokument kein Link ausgeht, kommt es ja nicht in der Summe vor, weil es für pr(p) nur die Elemente (q,p) in E betrachtet.

twww
Neuling
Neuling
Beiträge: 8
Registriert: 17. Mär 2011 16:33

Re: Klausur SS08 - Aufgabe 3

Beitrag von twww »

MaMaj hat geschrieben:Meine Hub und Authority Scores nach der dritten Iteration:

h(x) = (0, 5/9, 1/9, 1/3)
a(x) = (5/9, 1/9, 0, 1/3)

Die Klausuren wurden auch von Jahr zu Jahr anspruchsvoller, oder täusche ich mich?
Ich komme, wie sqrtsben auch, auf diese Ergebnisse:

h = (0, 18/37, 1/37, 18/37)
a = (36/73, 1/73, 18/73, 18/73)

Zu "delete intrinsic links" nochmal aus dem Buch "Mining the Web".

"Edges that connect nodes from the same host are now eliminated because they are considered "navigational" or "nepotisic". -> Ich denke damit sind Schleifen oder doppelte Links im Graphen gemeint (z.B. d5 > d5 oder d5-> d1 und d5 -> d1)

Benutzeravatar
moschlar
Neuling
Neuling
Beiträge: 7
Registriert: 13. Apr 2013 01:07
Wohnort: Mainz

Aufgabe 2-c iii)

Beitrag von moschlar »

Ein sinnvolles Co-Clustering für die 2-c iii) scheint mir
{D,E,P1,P2,P4} und {A,B,C,P3,P5,P6,P7,P8}
zu sein.

Stimmt ihr mir da zu, und wenn ja, würde man das so aufschreiben, oder gibt es da eine spezielle Notation?

Antworten

Zurück zu „Web Mining“