Wahrscheinlichkeit unterschiedlich langer Sätze

Moderator: Algorithms of Language Technology

Seldon
BASIC-Programmierer
BASIC-Programmierer
Beiträge: 119
Registriert: 19. Apr 2012 18:12

Wahrscheinlichkeit unterschiedlich langer Sätze

Beitrag von Seldon »

Die Wahrscheinlichkeit eines langen Satzes ist (z.B. im n-gram-Modell) wegen der Multiplikation vieler Dezimalzahlen ja sehr gering. Wie kann man da verhindern, dass lange Sätze nicht "bestraft" werden? Ich bin mir ziemlich sicher, dass in Practice Class 3 was dazu gesagt wurde, finde aber leider meine Mitschrift nicht...

Toa
BASIC-Programmierer
BASIC-Programmierer
Beiträge: 121
Registriert: 16. Feb 2011 23:58

Re: Wahrscheinlichkeit unterschiedlich langer Sätze

Beitrag von Toa »

Hey, möglicherweise kann man hier die Wahrscheinlichkeiten einfach irgendwie normalisieren. Sponatn würde mir Ansätze wie Sätzlänge einfallen oder falls man mehr Sätze gegeben hat mit dem längsten Satz normalisieren und logarithmische Skalierung. Grüße T0a

riedl
Moderator
Moderator
Beiträge: 26
Registriert: 3. Apr 2013 12:25

Re: Wahrscheinlichkeit unterschiedlich langer Sätze

Beitrag von riedl »

Also die Frage ist, was du machen willst. Wenn du 2 Saetze miteinander vergleichen willst dann wuerde es sich anbieten, die Wahrscheinlichkeiten durch die Anzahl n-grame vom Satz zu normalisieren.

Seldon
BASIC-Programmierer
BASIC-Programmierer
Beiträge: 119
Registriert: 19. Apr 2012 18:12

Re: Wahrscheinlichkeit unterschiedlich langer Sätze

Beitrag von Seldon »

Ah okay :) Ich könnte mir vorstellen, dass das Problem bei Machine Translation auftritt, wenn z.B. "Mary did not slap..." eine höhere Alignment-Wahrscheinlichkeit als "Mary not slap..." hat, aber das zusätzliche Wort eine geringere Wahrscheinlichkeit im Language Model bedeutet.

Antworten

Zurück zu „Algorithms of Language Technology“