Seite 1 von 1

Vorschlag 4 von 05 ?

Verfasst: 3. Jul 2008 23:23
von Xelord
4 hab ich keine Ahnung, vielleicht hat jemand da ein brauchbaren Ansatz.

Re: Vorschlag 4 von 06 ?

Verfasst: 3. Jul 2008 23:35
von mherrmann
Spontan würde ich sagen:

a)
#bedingter Wahrscheinlichkeiten: 30.000 Features * 10 Klassen = 300.000
#unbedingte Wahrscheinlichkeiten: 10 Klassenwahrscheinlichkeiten

Macht in der Summe 300.010.
Ich lasse mich aber gerne eines besseren belehren.

b)
Schon im Forum behandelt. Stichwort: Laplace Korrektur

c)
Multinomial: Benutzt Bag-of-Words
Binomial: Benutzt Set-of-Words

d)
Teils vorklassifizierte Trainingsbeispiele.

e)
Ja... Bei allen drei Verfahren müssen sich die Klassifizierer sicher in ihren Entscheidungen sein. Oder allgemeiner, sie müssen ein Sicherheitsmaß anbieten.

Hoffe das hilft. Verbesserungen, gerne. :)

Re: Vorschlag 4 von 06 ?

Verfasst: 3. Jul 2008 23:41
von Xelord
äh das ist doch die 4 aus 05 ;)

Re: Vorschlag 4 von 06 ?

Verfasst: 3. Jul 2008 23:50
von mherrmann
Ohje... das ist das Zeichen zum ins Bett gehen. :roll:

Und am schönsten ist ja auch noch, dass die Aufgabe schon im Forum behandelt wurde:

http://www.d120.de/forum/viewtopic.php?f=419&t=12771

Wäre nett wenn trotzdem jemand seinen Kommentar dazu abgibt. Also, SS05 Aufgabe 4 :)

Re: Vorschlag 4 von 06 ?

Verfasst: 4. Jul 2008 08:46
von Xelord
Ups :oops:
Ich hab mal den Titel geändert.

Re: Vorschlag 4 von 05 ?

Verfasst: 4. Jul 2008 09:23
von Xelord
4-a,4-b einverstanden.
4-c Multinomial: bag-of-words, gleiche Dokumentenlänge
binär: set-of-words, Dokumentenlänge unbeachtet
Multinomial ist generell besser als binär. binär nur bei kleinen Mengen.
4-d einverstanden.
4-e Es sind Active Learning, Co-Training und Self-Training. Sie müssen Teile sicher Klassifizieren können.