Frage(n) zu Kapitel "Text Classification"

Moderator: Web Mining

Remake
Mausschubser
Mausschubser
Beiträge: 64
Registriert: 15. Dez 2007 10:40

Frage(n) zu Kapitel "Text Classification"

Beitrag von Remake »

Hi,

zu Folie 27: Was bedeutet der erste Punkt "If we consider the document as a 'bag of words', many [...]"? Was ist hier der Vorteil?

Danke vorab!

banshee
Nerd
Nerd
Beiträge: 684
Registriert: 22. Okt 2006 18:46

Re: Frage(n) zu Kapitel "Text Classification"

Beitrag von banshee »

Ich hab es wie folgt verstanden: Der simple Naive Bayes berechnet p(d|c) einfach als Wahrscheinlichkeit der aktuellen Termsequenz d = (t1, t2, ...). Und um da zu berücksichtigen, dass zwei Dokumente D1={A, A, B} und D2 = {B, A, A} im Bag-of-Words-Sinne äquivalent sind, multipliziert man mit diesem "upgrade" alle Permutationen der Terme noch in die Wahrscheinlichkeit mit rein.

Remake
Mausschubser
Mausschubser
Beiträge: 64
Registriert: 15. Dez 2007 10:40

Re: Frage(n) zu Kapitel "Text Classification"

Beitrag von Remake »

Danke. Das mit den Permutationen kann ich mir vorstellen, auch von der Formel her. Aber wozu habe ich noch nicht verstanden, da die Reihenfolge der Terme doch sowieso nicht betrachtet wird, oder? Wofür ist das ^n(d,w)?

banshee
Nerd
Nerd
Beiträge: 684
Registriert: 22. Okt 2006 18:46

Re: Frage(n) zu Kapitel "Text Classification"

Beitrag von banshee »

Ja, genau darum geht es ja. Man will nicht nur die Wahrscheinlichkeit für das genaue Dokument (A, A, B) sondern gleich für den ganzen bag-of-words {A, A, B}, den man aus diesen Termen bilden kann, also alle folgenden Dokumente (A, A, B), (A, B, A), (B, A, A), denn diese werden alle vom gleichen bag erzeugt. Das n(d, w) zählt immer die Vorkommnisse eines Terms, d.h. wenn du die Wahrscheinlichkeit für den bag {A, A, B} haben willst, dann berechnest du p(A|c)^2*p(B|c)*#Permutationen, n(d, A) ist in dem Fall also zwei, weil es 2x im bag vorkommt.

Antworten

Zurück zu „Web Mining“