Projekt Aufgabe 2, c)

Moderator: Data Mining und Maschinelles Lernen

Platinum
DON'T PANIC
Beiträge: 42
Registriert: 27. Apr 2006 13:21

Projekt Aufgabe 2, c)

Beitrag von Platinum »

Hallo zusammen,

leider weis ich nicht was bei der 2, c) gemeint ist bzw. was gemacht werden muss ... ?

Hat jemand vielleicht eine Idee? :-)

Danke!

willK
Erstie
Erstie
Beiträge: 19
Registriert: 12. Aug 2011 17:08

Re: Projekt Aufgabe 2, c)

Beitrag von willK »

Hallo,
also (ich denke) ich habe, die Datensätze mit einem FIlter geteilt und dann eine Hälfte gespeichert und die andere Hälfe gelernt und die gespeicherte als Testset genommen.

Aber kp ob das so richtig ist :-)

LG

KalEm
Neuling
Neuling
Beiträge: 4
Registriert: 4. Dez 2012 22:06

Re: Projekt Aufgabe 2, c)

Beitrag von KalEm »

Ich habe auch mit dem Filter den Datensatz in einen Trainings- und einen Testdatensatz aufgeteilt. Für Aufgabebenteil c) wäre dann mein zuvor erzeugter Testdatensatz zu verwenden. So weit bin ich allerdings nicht gekommen, weil ich zuvor auf etwas gestoßen bin, was mich stutzen ließ:
Für den Aufgabenteil a) wird man ja in den Testoptionen für "Folds" unter der Option "Cross-validation" das 'n' definieren (5, 10, 20 etc.). So habe ich es zumindest gemacht. Nun lässt sich aber auch noch eine Option "folds" in den Eigenschaften des Klassifizierers definieren (quasi als Kommandozeilenparameter: -F n (Standardeinstellung ist bei mir 3)). Nun habe ich mich gefragt, inwiefern dieser Parameter einen Einfluss auf das Ergebnis hat, denn wenn ich die Testoption für einen Klassifizierer gleich lasse, aber den Kommandozeilenparameter änder, bekomme ich unterschiedliche Ergebnisse.

Kann mir da jemand weiterhelfen?

PS: Welche Evaluierungsmethode verwendet ihr bei den Aufgaben (1 und 3), bei denen nicht explizit genannt wird, welche Evaluierungsmethode verwendet werden soll? Standardeinstellung ist bei mir CV mit 1x10.

willK
Erstie
Erstie
Beiträge: 19
Registriert: 12. Aug 2011 17:08

Re: Projekt Aufgabe 2, c)

Beitrag von willK »

Hallo,
also bei 1 und 3 benutze ich auch 1x10.
Bei der 2 habe ich nicht bei der Evaluierung umgestellt sondern beiTest Options dann jeweils 5,10,20,n.
Da hat das dann gut geklappt und es würde auch dazu passen, dass man dann bei der a einfach auf einfach auf Supplied test set umstellt.

Aber wie bei allem: nicht sicher :roll:

ChristianWirth
Moderator
Moderator
Beiträge: 103
Registriert: 23. Okt 2012 11:12

Re: Projekt Aufgabe 2, c)

Beitrag von ChristianWirth »

KalEm hat geschrieben: Nun lässt sich aber auch noch eine Option "folds" in den Eigenschaften des Klassifizierers definieren (quasi als Kommandozeilenparameter: -F n (Standardeinstellung ist bei mir 3)). Nun habe ich mich gefragt, inwiefern dieser Parameter einen Einfluss auf das Ergebnis hat, denn wenn ich die Testoption für einen Klassifizierer gleich lasse, aber den Kommandozeilenparameter änder, bekomme ich unterschiedliche Ergebnisse.
Diese Einstellung ist nur bei wenigen Klassifizieren vorhanden. Diese versuchen mit einer (internen) CV um zu bestimmen ob ein Pruning durchgeführt werden kann/sollte. Natürlich beeinflusst Pruning das Ergebnis, aber mit der Evaluierung selbst hat das nichts zu tun.

Antworten

Zurück zu „Data Mining und Maschinelles Lernen“