Homework task2 b)

Moderator: Algorithms of Language Technology

Toa
BASIC-Programmierer
BASIC-Programmierer
Beiträge: 121
Registriert: 16. Feb 2011 23:58

Homework task2 b)

Beitrag von Toa »

Hey,
wie kommt man denn beim Satz "Leder : Vielleicht ringt Normann nur um Anerkennung ." auf 10 Bigrame? Als Token hab ich ['Leder', ':', 'Vielleicht', 'ringt', 'Normann', 'nur', 'um', 'Anerkennung', '.'] identifiziert und als Bigrame [('Leder', ':'), (':', 'Vielleicht'), ('Vielleicht', 'ringt'), ('ringt', 'Normann'), ('Normann', 'nur'), ('nur', 'um'), ('um', 'Anerkennung'), ('Anerkennung', '.')]. Meiner Meinung nach ist das vollständig. Grüße T0a

Benutzeravatar
cofi
Mausschubser
Mausschubser
Beiträge: 86
Registriert: 22. Sep 2009 12:07

Re: Homework task2 b)

Beitrag von cofi »

Dir fehlen die Bigramme mit den Satzanfangs und -ende Zeichen.

Toa
BASIC-Programmierer
BASIC-Programmierer
Beiträge: 121
Registriert: 16. Feb 2011 23:58

Re: Homework task2 b)

Beitrag von Toa »

Danke, du meinst die Annotationen %^% und %$% bzw. %#% (kleiner Fehler in der Aufgabe)? Also ( %^%, Leder) und (. , %$%). Ignoriert man dann das zweite %^% ? Prinzipiell finde ich das etwas komisch. Dann würde man ja die Annotationen als Token interpretieren. Ich find es auch seltsam, das man Punctuation als Token identifiziert. Grüße T0a

Benutzeravatar
cofi
Mausschubser
Mausschubser
Beiträge: 86
Registriert: 22. Sep 2009 12:07

Re: Homework task2 b)

Beitrag von cofi »

Ja, man ignoriert die 2. Zeichen, die Aufgabenstellung besagt ja, dass man die Zeichen nur dann nutzt, wenn es noetig ist. Unsere verwendeten n-Gramme sind nunmal so definiert, dass die Information, ob der Satz mit ihnen beginnt oder endet, wichtig ist.

Antworten

Zurück zu „Algorithms of Language Technology“