Projekt Aufgabe 8

radio_controlled
BASIC-Programmierer
BASIC-Programmierer
Beiträge: 107
Registriert: 8. Okt 2010 20:31

Projekt Aufgabe 8

Beitrag von radio_controlled » 26. Jan 2016 23:12

Hallo,
vielen Dank für das Bonus Projekt, es macht soweit viel Spaß :-)

Eine Frage zur Aufgabe 8:
Wie ich die Aufgabenstellung verstehe, sollen wir den Filter "Discretize" in Weka im Tab "Preprocessing" anwenden, um dann mittels Cross Validation die Genauigkeit abzuschätzen. Ist das richtig so?

Es gibt nämlich noch die Möglichkeit, den Filter über einen Meta Klassifizierer zu benutzen. So habe ich auch signifikant höhere Genauigkeiten. So wurde es glaube ich auch in der Vorlesung vorgestellt.

Viele Grüße

eneldo
Sonntagsinformatiker
Sonntagsinformatiker
Beiträge: 220
Registriert: 19. Mai 2006 13:06
Kontaktdaten:

Re: Projekt Aufgabe 8

Beitrag von eneldo » 28. Jan 2016 16:44

Zur Frage: ja, im Prinzip ist angedacht, daß man die Diskretisierung als Vorverarbeitung vesteht. Man muss sich natürlich trotzdem überlegen, wie bei allen Aufgaben, was Weka macht und ob das sinnvoll ist.

Welche Metaklassifizierer meinst Du? Was genau macht dieser Metaklassifizierer? Welches Verfahren aus der Vorlesung meinst Du?

Gruß

radio_controlled
BASIC-Programmierer
BASIC-Programmierer
Beiträge: 107
Registriert: 8. Okt 2010 20:31

Re: Projekt Aufgabe 8

Beitrag von radio_controlled » 28. Jan 2016 21:19

Hi eneldo,
Den Meta Klassifizierer findet man im Ordner "meta", heißt FilteredClassifier. Da wird ein Base Classifier eingestellt, z.B. J48 und ein Filter, der bei der cross validation, wie ich vermute, nur auf den Trainingsdaten ausgeführt wird.

In der Vorlesung war gemeint, wenn man den Filter auf dem gesamten Datensatz (Trainingsdaten als auch in den Testdaten) anwendet, und dann die Cross Validation macht, die Abschätzung weniger realistisch wird, weil durch diese Art des filterns Informationen von den Trainingsdaten in die Testdaten kommen würden.

Ich denke bei der Diskretisierung machts auch nen Unterschied ob es auf den Gesamten Daten ist oder Trainings/Testdaten getrennt

Hab ich das so richtig verstanden? :)

Viele Grüße

eneldo
Sonntagsinformatiker
Sonntagsinformatiker
Beiträge: 220
Registriert: 19. Mai 2006 13:06
Kontaktdaten:

Re: Projekt Aufgabe 8

Beitrag von eneldo » 29. Jan 2016 16:00

Hallo,
das hast Du alles richtig verstanden. Mich wundert allerdings, dass Du mit FilteredClassifier (und weka.filters.unsupervised.attribute.Discretize) höhere Genauigkeiten erzielst.

Übrigens ist der Begriff signifikant im Umfeld von Data Mining mit Vorsicht zu verwenden, da es im Allgemeinen statistische Signifikanz impliziert.

Gruß

Antworten

Zurück zu „Archiv“