Übung 1 - Aufgabe 2

Moderator: Web Mining

Benutzeravatar
Gnomix
Computerversteher
Computerversteher
Beiträge: 306
Registriert: 31. Okt 2005 08:44

Übung 1 - Aufgabe 2

Beitrag von Gnomix »

Hallo,

bei Aufgabe zwei sollen wir erst alle Tokens gefunden werden.
Bei der Verwendung von NLTK bekomme ich hierbei aber auch alle Satzzeichen und Sonderzeichen.
Sollen diese rausgefiltert werden oder nicht?

W0x
Erstie
Erstie
Beiträge: 16
Registriert: 16. Okt 2009 14:46

Re: Übung 1 - Aufgabe 2

Beitrag von W0x »

Hallo,

zuerst einmal möchte ich nochmal darauf hinweisen, was bereits in der Übungsvorstellung gesagt wurde: Das Verwenden fertiger Tools ist nicht dasselbe wie das in der Aufgabenstellung geforderte "Schreiben Sie ein ein­fach­es Pro­gramm".

Zur eigentlichen Frage:
Wenn Satz- und Sonderzeichen ein wichtiger Teil eines Wortes sind, sollte man sie nicht filtern. Es ist aber sicherlich häufig der Fall, dass Satz- und Sonderzeichen eigentlich nicht zu einem Wort gehören und somit das Ergebnis verfälschen würden. Und verfälschte Ergebnisse will man ja vermeiden...

Viele Grüße,
Jan

Antworten

Zurück zu „Web Mining“