Lösungsvorschlag Klausur 06 Aufgabe 5

Moderator: Web Mining

sYsChOs
Windoof-User
Windoof-User
Beiträge: 28
Registriert: 9. Aug 2005 12:15

Lösungsvorschlag Klausur 06 Aufgabe 5

Beitrag von sYsChOs »

Hi,
meine Vorschläge:

5-a)
dist(d1,d8) = 0,38, dist(d1,d9) = 0,27, dist(d2,d8) = 0,22, dist(d2,d9) = 0,33
Durchschnitt = 0,3

5-b)
1. Schritt: merge {d2} und {d8}, Distanz=0,22
2. Schritt: merge {d2,d8} und {d7}, Distanz=0,23
3. Schritt: merge {d2,d7,d8} und {d3}, Distanz=0,24
4. Schritt: merge {d2,d3,d7,d8} und {d5}, Distanz=0,24
5. Schritt: merge {d2,d3,d5,d7,d8} und {d9}, Distanz=0,24
6. Schritt: merge {d2,d3,d5,d7,d8,d9} und {d1}, Distanz=0,27
7. Schritt: merge {d1,d2,d3,d5,d7,d8,d9} und {d6}, Distanz=0,31
8. Schritt: merge {d1,d2,d3,d5,d6,d7,d8,d9} und {d4}, Distanz=0,34

5-c)
(i) Nein, denn obwohl d2 und d7 verschiedene Klassen haben, sind sie sich sehr ähnlich, dist(d2,d7) = 0,23.
Oder besser gesagt: obwohl d2 und d7 sehr ähnlich sind, dist(d2,d7) = 0,23, haben sie verschiedene Klassen.
(ii) Ja, z.B.:
zwei Mitarbeiter eines Verlages fügen abwechselnd Bücher in eine Datenbank ein, wobei die Bücher durchnummeriert sind. Dabei ist jeder Mitarbeiter für eine Klasse von Büchern zuständig (z.B. Hardcover/Taschenbuch) => Situation aus Aufgabenstellung

mherrmann
Mausschubser
Mausschubser
Beiträge: 49
Registriert: 12. Nov 2005 10:10

Re: Lösungsvorschlag Klausur 06 Aufgabe 5

Beitrag von mherrmann »

Hi,

zur a)
Einverstanden.

zur b)
Da habe ich etwas anderes, denn die Single Link Methode nimmt ja den kürzesten Weg zwischen zwei beliebigen Elementen als Entfernung zweier Cluster.

Beim Kosinusmaß ist 1.0 aber das Ähnlichste (deckungsgleich) und 0.0 das Unähnlichste (orthogonal). Deshalb denke ich, dass du die Cluster nach der größten Zahl bilden musst. In der Formel wird zwar das Minimum gewählt, aber das Minimum einer Funktion d(). Diese könnte in dem Fall so definiert sein: d(x) = 1 - x
Deshalb ergibt sich bei mir:
1. Schritt: {d4, d5} wegen Entfernung = 0,95
2. Schritt: {d1, d2} wegen Entfernung = 0,9
3. Schritt: {d4, d5, d6} wegen Entfernung = 0,88 zwischen d4 und d6
4. Schritt: {d7, d8} wegen Entfernung = 0,86
5. Schritt: {d1, d2, d3} wegen Entfernung = 0,85 zwischen d2 und d3
6. Schritt: {d7, d8, d9} wegen Entfernung = 0,8 zwischen d9 und d8
7. Schritt: {d1, d2, d3, d4, d5, d6} wegen Entfernung = 0,67 zwischen d1 und d6
8. Schritt: letzten beiden Cluster zusammenfassen

Daraus ergibt sich dann das Clustering:
{{{{d1, d2}, {d3}}, {{d4, d5}, {d6}}}, {{d7, d8}, {d9}}}

Einwände?

zur c)
Einverstanden.

zur d)
Eigentlich hätte ich nein gesagt, aber nach deinem Beispiel wäre das so. Ich bin mir aber nicht sicher wie realistisch das ist...

Xelord
Sonntagsinformatiker
Sonntagsinformatiker
Beiträge: 225
Registriert: 23. Okt 2004 09:49

Re: Lösungsvorschlag Klausur 06 Aufgabe 5

Beitrag von Xelord »

a) ja
b) wie,mherrmann Gesamtwert 6,31
c) I) ich würd das argument wohl eher mit d4 und d5 bringen, weil da die Ähnlichkeit am größten ist 0,95...bei d2 und d7 sind sie doch recht verschieden.
II) Beispiel wohl richtig, ob es realisitsch ist, sei mal dahin gestellt.

Antworten

Zurück zu „Web Mining“