Arbeitsblatt 1 Aufgabe 4

Moderator: Web Mining

Nazgul3001
Neuling
Neuling
Beiträge: 3
Registriert: 26. Apr 2011 12:52

Arbeitsblatt 1 Aufgabe 4

Beitrag von Nazgul3001 »

Hallo zusammen,

ich verstehe die Aufgabenstellung nicht ganz genau und wäre um Hilfe dankbar.

Soll das zählen der Buchstaben bzw. Buchstabenpaare zusammen ablaufen? D.h. eine gemeinsame Ausgabeliste oder zwei getrennte Listen bzw. Methoden?

Werden Buchstabenpaare auch Wortübergreifend gezählt?

Sind die Stopwords auch in diesem Programm zu verwenden?

Vielen Dank!

Antion
Erstie
Erstie
Beiträge: 16
Registriert: 10. Okt 2008 00:11

Re: Arbeitsblatt 1 Aufgabe 4

Beitrag von Antion »

Hi,

1. meiner Interpretation nach soll es eine gemeinsame Liste geliefert werden. Beginnend mit dem ersten Buchstabe kann mann ein Paar bilden, danach mit dem zweiten Buchstaben, was grad für das erste Paar benötigt wurde, bildet man das zweite Paar usw. z.B. : mit dem Wort Hallo, würde es so aussehen : {"ha", "al", "ll", "lo"}.

2. Die Paare werden nur aus Buchstaben eines Wortes bebildet, also nicht Wortübergreifend, denke ich zumindest so, bin aber nicht sicher.

3. wegen Stopwords, ist es nicht möglich das Wort mit einem Paar zu vergleichen, eigentlich schon, aber da kommen nur ein paar Wörter, die aus zwei Buchstaben entstehen, vor. Also das Ergebniss wird sehr gering und steht nicht in der Aufgabestellung, daher nicht.


Gruß, Alex

Nazgul3001
Neuling
Neuling
Beiträge: 3
Registriert: 26. Apr 2011 12:52

Re: Arbeitsblatt 1 Aufgabe 4

Beitrag von Nazgul3001 »

Hi Alex,

danke für deine Antwort.
Antion hat geschrieben: 1. meiner Interpretation nach soll es eine gemeinsame Liste geliefert werden. Beginnend mit dem ersten Buchstabe kann mann ein Paar bilden, danach mit dem zweiten Buchstaben, was grad für das erste Paar benötigt wurde, bildet man das zweite Paar usw. z.B. : mit dem Wort Hallo, würde es so aussehen : {"ha", "al", "ll", "lo"}.
In der Aufgabenstellung steht: "...so daß es nicht Worte son­dern Buch­staben und Buch­staben­paare zählt." Wenn ich nun die einzelnen Buchstaben (a: 17 mal, b: 12 mal, c: 10 mal...) und Buchstabenpaare (s.o) in einer gemeinsamen Liste speichere, werden stets die einzelnen Buchstaben öfters vorkommen (und oben stehen). Deshalb würde ich persönlich in zwei verschiedenen Listen speichern. Vielleicht kann sich noch jemand anderes dazu äußern?
Antion hat geschrieben: 2. Die Paare werden nur aus Buchstaben eines Wortes bebildet, also nicht Wortübergreifend, denke ich zumindest so, bin aber nicht sicher.
Halte ich ebenfalls für sinnvoll.
Antion hat geschrieben: 3. wegen Stopwords, ist es nicht möglich das Wort mit einem Paar zu vergleichen, eigentlich schon, aber da kommen nur ein paar Wörter, die aus zwei Buchstaben entstehen, vor. Also das Ergebniss wird sehr gering und steht nicht in der Aufgabestellung, daher nicht.
Es ist möglich den kompletten Text zunächst mit den stopwords zu vergleichen und diese direkt zu löschen bzw. nicht zu speichern. Anschließend lassen sich die "nicht-stopwords" ohne probleme in Buchstaben und Buchstabenpaare zerlegen.

Grüße
Nazgul3001

Benutzeravatar
Le_Coeur
BASIC-Programmierer
BASIC-Programmierer
Beiträge: 135
Registriert: 18. Apr 2009 12:39
Kontaktdaten:

Re: Arbeitsblatt 1 Aufgabe 4

Beitrag von Le_Coeur »

Hier habe ich encoding Probleme in Python. Ist es ok, wenn ich deutsche Sprache ohne Umlaute betrachte?

Antworten

Zurück zu „Web Mining“