Übung 3 Aufgabe 2.4

Moderator: Web Mining

hstr
BASIC-Programmierer
BASIC-Programmierer
Beiträge: 128
Registriert: 14. Apr 2011 22:52

Übung 3 Aufgabe 2.4

Beitrag von hstr »

Hallo,
in Aufgabe 2.3 sollen wir für jedes Dokument den TF-IDF-Vektor bilden.
In Aufgabe 2.4 sollen wir dann die N relevantesten Wörter selektieren. Wie sollen diese selektiert werden?
Die N relevantesten Wörter aus jedem Dokument oder die N relevantesten Wörter aus allen Dokumenten?

Die Feature Vektoren werden ja dann im Sparse Format gespeichert und wenn man nun die N relevantesten Wörter aus allen Dokumenten selektiert,
könnten ja einige Dokumente nur sehr wenige Features enthalten, da sie einfach nicht viele der N relevantesten Wörter enthalten.

null
Endlosschleifenbastler
Endlosschleifenbastler
Beiträge: 168
Registriert: 21. Apr 2012 14:58

Re: Übung 3 Aufgabe 2.4

Beitrag von null »

Ich mach es wie folgt. Vor der Berechnung des IDF-Vektors zähle ich, wie oft jedes Wort in allen Dokumenten vorkommt (Document Frequency). Dabei ensteht ein Vektor, den ich absteigend sortiere und dann die ersten N Wörter extrahiere. Anschließend berechne ich den IDF-Vektor nur anhand dieser N Wörter. Damit enthält auch der TF-IDF Vektor nur N Features.

robertH
Mausschubser
Mausschubser
Beiträge: 58
Registriert: 29. Apr 2013 13:11

Re: Übung 3 Aufgabe 2.4

Beitrag von robertH »

Ich mache es auch so wie null beschrieben hat. Dabei kann es durchaus vorkommen, dass ein Dokument keines der ersten N Wörter verwendet und deshalb bei der Spare Repräsentierung lediglich seine Klasse hat (alle Features Wert 0).

Antworten

Zurück zu „Web Mining“