Frage zur Aufgabe 4-c aus der Web Mining Klausur von 2004

Moderator: Web Mining

Werwolf
Windoof-User
Windoof-User
Beiträge: 39
Registriert: 10. Sep 2004 10:25

Frage zur Aufgabe 4-c aus der Web Mining Klausur von 2004

Beitrag von Werwolf »

In Aufgabe wird gefragt, warum man üblicherweise die Wahrscheinlichkeit für das Auftreten eines Wortes nicht anhand der relativen Häufigkeit des Wortes in den Trainings-Daten abschätzt.

Ich frage mich jetzt wie man sie sonst am besten abschätzen kann ?

Benutzeravatar
apulix
Endlosschleifenbastler
Endlosschleifenbastler
Beiträge: 152
Registriert: 21. Nov 2004 23:54
Wohnort: Darmstadt
Kontaktdaten:

Re: Frage zur Aufgabe 4-c aus der Web Mining Klausur von 2004

Beitrag von apulix »

Bei der Formulierung bin ich mir auch unsicher, aber ich vermute, dass damit auf das Problem angespielt wird, dass bei neuen Wörtern die Wahrscheinlichkeit aller Klassen auf Null sinkt. Also Foliensatz "text classification", F. 21. Die Lösung dazu wäre dann, eine "Mindestverteilung" anzunehmen und z. B. Laplace-Korrektur zu verwenden.
Alumni-Netzwerk der TU Darmstadt: http://alumni.tu-darmstadt.de/ (auch für Studierende)

mherrmann
Mausschubser
Mausschubser
Beiträge: 49
Registriert: 12. Nov 2005 10:10

Re: Frage zur Aufgabe 4-c aus der Web Mining Klausur von 2004

Beitrag von mherrmann »

Ich denke auch, dass das von apulix angesprochene Problem gemeint ist. Wobei dann die Laplace Korrektur eine bessere Alternative ist. Siehe Aufgabe 4 der Klausur vom SS06 (besonders b und c).

Antworten

Zurück zu „Web Mining“