Seite 1 von 1

Projekt Aufgabe 8

Verfasst: 26. Jan 2016 23:12
von radio_controlled
Hallo,
vielen Dank für das Bonus Projekt, es macht soweit viel Spaß :-)

Eine Frage zur Aufgabe 8:
Wie ich die Aufgabenstellung verstehe, sollen wir den Filter "Discretize" in Weka im Tab "Preprocessing" anwenden, um dann mittels Cross Validation die Genauigkeit abzuschätzen. Ist das richtig so?

Es gibt nämlich noch die Möglichkeit, den Filter über einen Meta Klassifizierer zu benutzen. So habe ich auch signifikant höhere Genauigkeiten. So wurde es glaube ich auch in der Vorlesung vorgestellt.

Viele Grüße

Re: Projekt Aufgabe 8

Verfasst: 28. Jan 2016 16:44
von eneldo
Zur Frage: ja, im Prinzip ist angedacht, daß man die Diskretisierung als Vorverarbeitung vesteht. Man muss sich natürlich trotzdem überlegen, wie bei allen Aufgaben, was Weka macht und ob das sinnvoll ist.

Welche Metaklassifizierer meinst Du? Was genau macht dieser Metaklassifizierer? Welches Verfahren aus der Vorlesung meinst Du?

Gruß

Re: Projekt Aufgabe 8

Verfasst: 28. Jan 2016 21:19
von radio_controlled
Hi eneldo,
Den Meta Klassifizierer findet man im Ordner "meta", heißt FilteredClassifier. Da wird ein Base Classifier eingestellt, z.B. J48 und ein Filter, der bei der cross validation, wie ich vermute, nur auf den Trainingsdaten ausgeführt wird.

In der Vorlesung war gemeint, wenn man den Filter auf dem gesamten Datensatz (Trainingsdaten als auch in den Testdaten) anwendet, und dann die Cross Validation macht, die Abschätzung weniger realistisch wird, weil durch diese Art des filterns Informationen von den Trainingsdaten in die Testdaten kommen würden.

Ich denke bei der Diskretisierung machts auch nen Unterschied ob es auf den Gesamten Daten ist oder Trainings/Testdaten getrennt

Hab ich das so richtig verstanden? :)

Viele Grüße

Re: Projekt Aufgabe 8

Verfasst: 29. Jan 2016 16:00
von eneldo
Hallo,
das hast Du alles richtig verstanden. Mich wundert allerdings, dass Du mit FilteredClassifier (und weka.filters.unsupervised.attribute.Discretize) höhere Genauigkeiten erzielst.

Übrigens ist der Begriff signifikant im Umfeld von Data Mining mit Vorsicht zu verwenden, da es im Allgemeinen statistische Signifikanz impliziert.

Gruß