Seite 1 von 1

Homework task2 b)

Verfasst: 18. Mai 2013 20:47
von Toa
Hey,
wie kommt man denn beim Satz "Leder : Vielleicht ringt Normann nur um Anerkennung ." auf 10 Bigrame? Als Token hab ich ['Leder', ':', 'Vielleicht', 'ringt', 'Normann', 'nur', 'um', 'Anerkennung', '.'] identifiziert und als Bigrame [('Leder', ':'), (':', 'Vielleicht'), ('Vielleicht', 'ringt'), ('ringt', 'Normann'), ('Normann', 'nur'), ('nur', 'um'), ('um', 'Anerkennung'), ('Anerkennung', '.')]. Meiner Meinung nach ist das vollständig. Grüße T0a

Re: Homework task2 b)

Verfasst: 18. Mai 2013 21:30
von cofi
Dir fehlen die Bigramme mit den Satzanfangs und -ende Zeichen.

Re: Homework task2 b)

Verfasst: 18. Mai 2013 21:48
von Toa
Danke, du meinst die Annotationen %^% und %$% bzw. %#% (kleiner Fehler in der Aufgabe)? Also ( %^%, Leder) und (. , %$%). Ignoriert man dann das zweite %^% ? Prinzipiell finde ich das etwas komisch. Dann würde man ja die Annotationen als Token interpretieren. Ich find es auch seltsam, das man Punctuation als Token identifiziert. Grüße T0a

Re: Homework task2 b)

Verfasst: 18. Mai 2013 22:00
von cofi
Ja, man ignoriert die 2. Zeichen, die Aufgabenstellung besagt ja, dass man die Zeichen nur dann nutzt, wenn es noetig ist. Unsere verwendeten n-Gramme sind nunmal so definiert, dass die Information, ob der Satz mit ihnen beginnt oder endet, wichtig ist.