Übung 3: A2.3-4 - Features

Moderator: Web Mining

studypad
Endlosschleifenbastler
Endlosschleifenbastler
Beiträge: 158
Registriert: 30. Mär 2011 11:46

Übung 3: A2.3-4 - Features

Beitrag von studypad »

Hallo,
ein paar Fragen zu A2.3-4


Bei TF-IDF-Vektoren bedeuten doch seltene Features haben einen hohen Wert und häufige Features einen niedrigen Wert oder?

"a" : 0.1 , "b" : 0.3 -> b seltener als a


Wenn ich nach A2.3 die TF-IDF-Vektoren all meiner Dokumente in den Trainingsdaten habe,
suche ich dann global Features aus, sprich aus allen Wörtern die N häufigsten oder aus jedem TF-IDF-Vektor die N häufigsten???

Wenn ich ersteres mache, habe ich für jeden Trainingsdatensatz N features und zwischen den Datensätzen unterscheidet sich nur der Wert je Feature.
Wenn ich letzteres mache, habe ich für jeden Datensatz N features und zwischen den Datensätzen variieren ggf. sowohl Features als auch die Werte.


Vielen Dank,
studypad

AlexanderF
BASIC-Programmierer
BASIC-Programmierer
Beiträge: 140
Registriert: 2. Mai 2010 17:55

Re: Übung 3: A2.3-4 - Features

Beitrag von AlexanderF »

Ich habe auch zuerst die Features Dokument-weise nach TF-IDF selektiert.
Es macht ja auch Sinn, und in der Vorlesung am Donnerstag kam diese Möglichkeit auch vor.

Ich hab im Forum aber heute einen Beitrag von 2011 zu einer recht identischen Aufgabe gefunden:
https://www.d120.de/forum/viewtopic.php?f=419&t=22496


Danach ist anscheinend tatsächlich die Dokumenthäufigkeit gemeint,
und die Featureselektion einmal für alle Dokuments zu durchzuführen,
entsprechend der Dokumenthäufigkeiten der in den Trainingsdaten enthaltenen Worte.

mit freundlichen Grüßen,
Alexander

Antworten

Zurück zu „Web Mining“