Seite 1 von 1

Wahrscheinlichkeit unterschiedlich langer Sätze

Verfasst: 27. Jul 2013 15:55
von Seldon
Die Wahrscheinlichkeit eines langen Satzes ist (z.B. im n-gram-Modell) wegen der Multiplikation vieler Dezimalzahlen ja sehr gering. Wie kann man da verhindern, dass lange Sätze nicht "bestraft" werden? Ich bin mir ziemlich sicher, dass in Practice Class 3 was dazu gesagt wurde, finde aber leider meine Mitschrift nicht...

Re: Wahrscheinlichkeit unterschiedlich langer Sätze

Verfasst: 27. Jul 2013 20:27
von Toa
Hey, möglicherweise kann man hier die Wahrscheinlichkeiten einfach irgendwie normalisieren. Sponatn würde mir Ansätze wie Sätzlänge einfallen oder falls man mehr Sätze gegeben hat mit dem längsten Satz normalisieren und logarithmische Skalierung. Grüße T0a

Re: Wahrscheinlichkeit unterschiedlich langer Sätze

Verfasst: 28. Jul 2013 03:24
von riedl
Also die Frage ist, was du machen willst. Wenn du 2 Saetze miteinander vergleichen willst dann wuerde es sich anbieten, die Wahrscheinlichkeiten durch die Anzahl n-grame vom Satz zu normalisieren.

Re: Wahrscheinlichkeit unterschiedlich langer Sätze

Verfasst: 28. Jul 2013 11:04
von Seldon
Ah okay :) Ich könnte mir vorstellen, dass das Problem bei Machine Translation auftritt, wenn z.B. "Mary did not slap..." eine höhere Alignment-Wahrscheinlichkeit als "Mary not slap..." hat, aber das zusätzliche Wort eine geringere Wahrscheinlichkeit im Language Model bedeutet.