Seite 1 von 1

Übung 3 Aufgabe 2.4

Verfasst: 28. Mai 2015 08:20
von hstr
Hallo,
in Aufgabe 2.3 sollen wir für jedes Dokument den TF-IDF-Vektor bilden.
In Aufgabe 2.4 sollen wir dann die N relevantesten Wörter selektieren. Wie sollen diese selektiert werden?
Die N relevantesten Wörter aus jedem Dokument oder die N relevantesten Wörter aus allen Dokumenten?

Die Feature Vektoren werden ja dann im Sparse Format gespeichert und wenn man nun die N relevantesten Wörter aus allen Dokumenten selektiert,
könnten ja einige Dokumente nur sehr wenige Features enthalten, da sie einfach nicht viele der N relevantesten Wörter enthalten.

Re: Übung 3 Aufgabe 2.4

Verfasst: 3. Jun 2015 12:04
von null
Ich mach es wie folgt. Vor der Berechnung des IDF-Vektors zähle ich, wie oft jedes Wort in allen Dokumenten vorkommt (Document Frequency). Dabei ensteht ein Vektor, den ich absteigend sortiere und dann die ersten N Wörter extrahiere. Anschließend berechne ich den IDF-Vektor nur anhand dieser N Wörter. Damit enthält auch der TF-IDF Vektor nur N Features.

Re: Übung 3 Aufgabe 2.4

Verfasst: 3. Jun 2015 15:09
von robertH
Ich mache es auch so wie null beschrieben hat. Dabei kann es durchaus vorkommen, dass ein Dokument keines der ersten N Wörter verwendet und deshalb bei der Spare Repräsentierung lediglich seine Klasse hat (alle Features Wert 0).