Klausur SS08

Moderator: Web Mining

klte
Windoof-User
Windoof-User
Beiträge: 31
Registriert: 7. Sep 2011 15:22

Klausur SS08

Beitrag von klte »

Aufgabe 3 b)
folgende Stelle finde ich unklar:
"und initialisieren Sie die Werte gleichverteilt."
Wie ist gleichverteilt gemeint?
- 1/6 wegen 6 Seiten
oder
- die Wahrscheinlichkeit p(q) mit einem willkürlichen Link des Nachbarn q auf Seite p zu landen
oder
- für p(q) =1 setzen
?

klte
Windoof-User
Windoof-User
Beiträge: 31
Registriert: 7. Sep 2011 15:22

Re: Klausur SS08

Beitrag von klte »

Hab ich richtig angekreuzt oder gibt es andere Forschläge?

zu 4.e): man kann es so berechnen: O(|K|*|m|)
Dateianhänge
ss08ex4.jpg
ss08ex4.jpg (54.42 KiB) 1826 mal betrachtet

student08
Windoof-User
Windoof-User
Beiträge: 26
Registriert: 10. Mär 2008 14:39

Re: Klausur SS08

Beitrag von student08 »

3b: pr = 1/6 beim Initialisieren

4)a) Trainingsmenge
b) Shingling, Stemming, Case Folding
Bleibt beim Delta-Encoding nicht der Grundtermmenge gleich? Es werden doch bloß die Auftrittsstellen effizienter
gespeichert.

h4ck4
Mausschubser
Mausschubser
Beiträge: 91
Registriert: 18. Mai 2009 20:50
Kontaktdaten:

Klausur SS08 Aufgabe 2

Beitrag von h4ck4 »

Klausur SS08, Aufgabe 02

(a)
i) v= 2.5
ii) v=2

(b) high: P7 (#=3); medium: P2, P3, P5 (#=2)

(c)
i) {Adalbert, Berta, Cäsar}, {Dorian, Emil}
ii) {P1,P2,P4},{P3,P5,P6,P7,P8}
iii) ?

(d) P3,P6 => P7 gut, weil hohe confidence c=1 und hoher support s=0.4


Kann das jmd bestätigen?

h4ck4
Mausschubser
Mausschubser
Beiträge: 91
Registriert: 18. Mai 2009 20:50
Kontaktdaten:

Klausur SS08 Aufgabe 3

Beitrag von h4ck4 »

Klausur SS08, Aufgabe 03

(a)
root set: d1, d2
base set = root set + d4, d5
-> focussed graph: d5->d1, d2->d5, d2->d1,d4->d2

h0=(1 1 1 1)
a0=(1 1 1 1)

h1=(0 1/2 1/4 1/4)
a1=(1/2 1/4 0 1/4)

h2=(0 1/2 1/6 1/3)
a2=(1/2 1/6 0 1/3)

h3=(0 1/2 1/8 3/8)
a3=(1/2 1/8 0 3/8)

@Eneldo: Welche Version müssen wir für die Klausur können? Lineare Algebra Version (Matrizen) oder die Iteration über die Knoten/Graph?

(b)
pr(d1) = 6/36 = 1/6
pr(d2) = 4/36 = 1/9
pr(d3) = 4/36 = 1/9
pr(d4) = 8/36 = 2/9
pr(d5) = 8/36 = 2/9
pr(d6) = 2/36 = 1/18

(c)
1. matches in anchor text, proximity infos, diff weights to diff types
2. Suchresultate immer gleiche Reihenfolge, keine Filterung => Query irrelevant

(d)
R=1/3
P=1/2
F1 = 2/5

Kann das jmd bestätigen? ;-)

h4ck4
Mausschubser
Mausschubser
Beiträge: 91
Registriert: 18. Mai 2009 20:50
Kontaktdaten:

Klausur SS08 Aufgabe 4

Beitrag von h4ck4 »

Klausur SS08, Aufgabe 04

(a) Trainingsmenge
(b) Stemming, Case Folding

Sparse + Delta Encoding verändern die Grundmenge der Terme nicht; sie speichern diese nur effektiv ab
Shingling? - ist doch nur dafür da, um near-duplicate pages zu erkennen?

(c) ? lineare SVM

(d) Skript:
Idea: A term is characteristic for a document if
● it occurs frequently in this document (TF)
● occurs infrequently in other documents (IDF)

(e) Würde ich auch sagen: |K|*|m|
Es muss ja für jede Klasse c das Produkt von allen P(t_i|c) * p(c) berechnet werden. Und am Ende der Klassenvergleich arg max_c (zähl dieser auch und wie)?

h4ck4
Mausschubser
Mausschubser
Beiträge: 91
Registriert: 18. Mai 2009 20:50
Kontaktdaten:

Klausur SS08 Aufgabe 5

Beitrag von h4ck4 »

Klausur SS08, Aufgabe 05

(a)
Knoten - Neighbor - Predicted class
d1 - d5 - B
d2 - d3 - A
d3 - d2 - A
d4 - d5 - B
d5 - d1 - A
d6 - d7 - C
d7 - d6 - C
d8 - d7 - C
d9 - d4 - B

(b)
acc = 2/3

(c)
Macro: avg prec = 2/3, avg recall = 23/36
Micro: avg prec = 2/3, avg recall = 2/3

(d)
- symmetrie der Konfusionsmatrix
-> jedes Dokument wird zu einer bekannten Klasse klassifiziert, daher recall = precision (@summary table)

Kann das jmd bestätigen? ;-)

klte
Windoof-User
Windoof-User
Beiträge: 31
Registriert: 7. Sep 2011 15:22

Re: Klausur SS08

Beitrag von klte »

(a)
i) v= 2.5
ii) v=2

(b) high: P7 (#=3); medium: P2, P3, P5 (#=2)

(c)
i) {Adalbert, Berta, Cäsar}, {Dorian, Emil}
ii) {P1,P2,P4},{P3,P5,P6,P7,P8}
iii) ?

(d) P3,P6 => P7 gut, weil hohe confidence c=1 und hoher support s=0.4
a) hab ich i) 2.5 ii) 1.5 (weil rest der Summe 0 war)

c) i) gleich ii) gleich iii) hier hab ich gedach, dass wir trotzdem das alles allgemein beschreiben müssten! Also nicht bezoggen auf spez. Clusteringalgo. Einfach Vorgehensweise beim Clustering beschreiben.

d) gleich bei mir

h4ck4
Mausschubser
Mausschubser
Beiträge: 91
Registriert: 18. Mai 2009 20:50
Kontaktdaten:

Re: Klausur SS08

Beitrag von h4ck4 »

klte hat geschrieben:
a) hab ich i) 2.5 ii) 1.5 (weil rest der Summe 0 war)
zu a) ii): Wie sind deine Werte, dass die Summe 0 ist?

Also das ist meine Formel:
v(Dorian, P7) = 1,5 + 1/4 * [2*(2-2) + 1*(3-2) + 1(3-2) + 0(3-2)] = 1,5 + 1/4 * 2 = 2

mit
m(Dorian) = 1,5
m(Emil) = 2
m(Cäsar) = 2
m(Berta) = 2
m(Adalbert) = 2

m(u) = Mittelwert aller Votes des Users u, oder?

w(Dorian, Emil) = 2
w(Dorian, Cäsar) = 1
w(Dorian, Berta) = 1
w(Dorian, Adalbert) = 0

klte
Windoof-User
Windoof-User
Beiträge: 31
Registriert: 7. Sep 2011 15:22

Re: Klausur SS08

Beitrag von klte »

h4ck4 hat geschrieben:
klte hat geschrieben:
a) hab ich i) 2.5 ii) 1.5 (weil rest der Summe 0 war)
zu a) ii): Wie sind deine Werte, dass die Summe 0 ist?

Also das ist meine Formel:
v(Dorian, P7) = 1,5 + 1/4 * [2*(2-2) + 1*(3-2) + 1(3-2) + 0(3-2)] = 1,5 + 1/4 * 2 = 2

mit
m(Dorian) = 1,5
m(Emil) = 2
m(Cäsar) = 2
m(Berta) = 2
m(Adalbert) = 2

m(u) = Mittelwert aller Votes des Users u, oder?

w(Dorian, Emil) = 2
w(Dorian, Cäsar) = 1
w(Dorian, Berta) = 1
w(Dorian, Adalbert) = 0
Ich hab es so gerechnet:
Vp(D,P7) = 1.5 + 1/4 * (2*(2-2) +1 + 1 + 0 - 2) = 1.5

h4ck4
Mausschubser
Mausschubser
Beiträge: 91
Registriert: 18. Mai 2009 20:50
Kontaktdaten:

Re: Klausur SS08

Beitrag von h4ck4 »

Ich hab es so gerechnet:
Vp(D,P7) = 1.5 + 1/4 * (2*(2-2) +1 + 1 + 0 - 2) = 1.5
Von wo kommen denn die -2 her? Der Rest ist ja identisch...

klte
Windoof-User
Windoof-User
Beiträge: 31
Registriert: 7. Sep 2011 15:22

Re: Klausur SS08

Beitrag von klte »

h4ck4 hat geschrieben:
Ich hab es so gerechnet:
Vp(D,P7) = 1.5 + 1/4 * (2*(2-2) +1 + 1 + 0 - 2) = 1.5
Von wo kommen denn die -2 her? Der Rest ist ja identisch...
kein Ahnung. Vlt war ich damals besoffen!

h4ck4
Mausschubser
Mausschubser
Beiträge: 91
Registriert: 18. Mai 2009 20:50
Kontaktdaten:

Re: Klausur SS08

Beitrag von h4ck4 »

klte hat geschrieben: kein Ahnung. Vlt war ich damals besoffen!
Haha ok, solang du bis zur Klausur wieder nüchtern bist ;-D

pineflower
Erstie
Erstie
Beiträge: 12
Registriert: 27. Jan 2010 18:48

Re: Klausur SS08 Aufgabe 3

Beitrag von pineflower »

h4ck4 hat geschrieben:Klausur SS08, Aufgabe 03

(a)
root set: d1, d2
base set = root set + d4, d5
-> focussed graph: d5->d1, d2->d5, d2->d1,d4->d2

h0=(1 1 1 1)
a0=(1 1 1 1)

h1=(0 1/2 1/4 1/4)
a1=(1/2 1/4 0 1/4)

h2=(0 1/2 1/6 1/3)
a2=(1/2 1/6 0 1/3)

h3=(0 1/2 1/8 3/8)
a3=(1/2 1/8 0 3/8)

@Eneldo: Welche Version müssen wir für die Klausur können? Lineare Algebra Version (Matrizen) oder die Iteration über die Knoten/Graph?

(b)
pr(d1) = 6/36 = 1/6
pr(d2) = 4/36 = 1/9
pr(d3) = 4/36 = 1/9
pr(d4) = 8/36 = 2/9
pr(d5) = 8/36 = 2/9
pr(d6) = 2/36 = 1/18

(c)
1. matches in anchor text, proximity infos, diff weights to diff types
2. Suchresultate immer gleiche Reihenfolge, keine Filterung => Query irrelevant

(d)
R=1/3
P=1/2
F1 = 2/5

Kann das jmd bestätigen? ;-)
hi, beim (a) wieso hast du den Nenner = 4. Ich dachte:

h1 = E. a0 = (0, 2, 1, 1)
h1 = h1/Norm(h1) = (0, 2/ sqrt(6), 1/sqrt(6), 1/sqrt(6))
?

h4ck4
Mausschubser
Mausschubser
Beiträge: 91
Registriert: 18. Mai 2009 20:50
Kontaktdaten:

Re: Klausur SS08 Aufgabe 3

Beitrag von h4ck4 »

pineflower hat geschrieben:
h4ck4 hat geschrieben:Klausur SS08, Aufgabe 03

(a)
root set: d1, d2
base set = root set + d4, d5
-> focussed graph: d5->d1, d2->d5, d2->d1,d4->d2

h0=(1 1 1 1)
a0=(1 1 1 1)

h1=(0 1/2 1/4 1/4)
a1=(1/2 1/4 0 1/4)

h2=(0 1/2 1/6 1/3)
a2=(1/2 1/6 0 1/3)

h3=(0 1/2 1/8 3/8)
a3=(1/2 1/8 0 3/8)

Kann das jmd bestätigen? ;-)
hi, beim (a) wieso hast du den Nenner = 4. Ich dachte:

h1 = E. a0 = (0, 2, 1, 1)
h1 = h1/Norm(h1) = (0, 2/ sqrt(6), 1/sqrt(6), 1/sqrt(6))
?
Also mein Hub-Vektor ist auch h1* = E a0 = (0 2 1 1).
Und dann musst du den mit der Summennorm/1-Norm normieren: http://de.wikipedia.org/wiki/Summennorm
l1 = ||h1*||_1 = 0+2+1+1 = 4
Und der Normierte Hub-Vektor ist dann h1 = h1* / l1 = (0 1/2 1/4 1/4).

Antworten

Zurück zu „Web Mining“