Projekt Aufgabe 2 und Cross-Validation in Weka

Jannis
Mausschubser
Mausschubser
Beiträge: 63
Registriert: 15. Apr 2015 17:10

Projekt Aufgabe 2 und Cross-Validation in Weka

Beitrag von Jannis » 6. Dez 2016 13:04

Hallo,

ich habe zwei Fragen zu Cross Validation in dem Weka-Tool.

1:
Für Aufgabe 2 a) des Projekts sollen wir, wenn ich es richtig verstanden habe, die Genauigkeit des von JRip auf den Trainingsdaten gelernten Modells auf Teilmengen der Trainingsdaten evaluieren. Beim Überprüfen auf der ganzen Trainingsmenge (letzter Punkt der Teilaufgabe a) ) wird einfach das gelernte Modell verwendet, um zu schauen, ob alle Trainingsdaten korrekt klassifiziert werden.

Allerdings verstehe ich das Testen über Cross-Validation nicht. In der Vorlesung wurde Cross-Validation so eingeführt, dass durch 1xn Cross-Validation ein eigenes Modell gelernt wird (n-1 Partitionen der Daten werden zum Lernen und eine zum Testen verwendet).

Wir haben in Aufgabe 2 jedoch schon ein eigenes Modell auf den gesamten Trainingsdaten gelernt und wollen dieses nun laut Aufgabenstellung mit Cross-Validation evaluieren. Mir ist bewusst, dass man das in dem Weka-Tool im Explorer unter Classify -> Test Options einfach einstellen und dann die Ergebnisse dieser Evaluation sehen kann. Allerdings kann ich mir momentan noch nicht vorstellen, wie Weka mit Cross-Validation ein bereits existierendes Modell evaluiert.

2:
Ich habe auch eine Frage zu Aufgabe 2 b): Welcher "Random-Seed" ist in der Aufgabenstellung gemeint? In Weka kann man sowohl bei der Evaluierung (Siehe Cross-Validation von Punkt 1) als auch beim Lernen des Modells auf den gesamten Trainingsdaten (JRip) einen Random-Seed einstellen.

Viele Grüße,
Jannis

Linh
Erstie
Erstie
Beiträge: 17
Registriert: 13. Dez 2010 16:12

Re: Projekt Aufgabe 2 und Cross-Validation in Weka

Beitrag von Linh » 12. Dez 2016 15:00

Zu 1:
Wie du schon schreibst, bei 1xn Cross-Validation wird jeweils ein eigenes Modell gelernt wird (n-1 Partitionen der Daten werden zum Lernen und eine zum Testen verwendet) D.h. 1xn Cross-Validation lernt insgesamt n Modelle und mittelt anschließend die Ergebnisse der Evaluation (z.b. accuracy, precision, usw.) jedes einzelnen Modells.

Das ist auch was Weka durchführt, wenn man bei den Testoptionen Cross-Validation angibt. Das Model was Weka am Ende aber nach dem Lernen ausgibt, ist das welches auf dem vollständigen Trainingsset gelernt wurde. Der Hintergrund davon ist, dass Cross-Validation nur eine Abschätzung darstellen soll wie gut das Modell auf einem ungesehenen Datensatz performen wird. D.h. für das endgültige Modell kann ich das vollständige Trainingsset nehmen mit dem Hintergedanken, dass mehr Daten (mit der Annahme, dass sie repräsentativ für das Problem sind) nur zu einer besseren Generalisierung führen können.

Zu 2:
Es soll der Seed bei der Evaluierung verändert werden. Dieser beeinflusst wie jeweils die Daten auf die n Partitionen aufgesplittet werden.

Antworten

Zurück zu „Archiv“