Projekt Aufgabe 8

Moderator: Data Mining und Maschinelles Lernen

Frerik
Neuling
Neuling
Beiträge: 5
Registriert: 3. Apr 2013 12:59

Projekt Aufgabe 8

Beitrag von Frerik »

Hallo,
wir wollten gerade die Aufgabe 8 vom Projekt bearbeiten.
Das Problem ist, dass der Datensatz nicht dokumentiert ist.

Fragen die sich sofort stellten waren:

1 Was bedeutet fnlwgt.
2. Viele Attribute waren schon vordiscretiziert. Zum Beispiel age und capital_loss. Wie sehen hier die Intervalle aus. Altersklasse 0 ist nicht besonders aussagekräftig.
3. Was bedeutet education_num
...

Wäre es möglich hier eine genauere Beschreibung des Datensatzes zu bekommen? Es ist sonst schwer "interessante" Regeln zu identifizieren, wenn man nicht weis was age=0 bedeutet. 20-65? 18-25?

Wir würden uns über baldige Rückmeldung freuen, da wir das Projekt gerne abschließen möchten.

Viele Grüße

Frerik

ChristianWirth
Moderator
Moderator
Beiträge: 103
Registriert: 23. Okt 2012 11:12

Re: Projekt Aufgabe 8

Beitrag von ChristianWirth »

Hallo,

ich war leider die letzten 2 Wochen unterwegs, daher die späte Antwort.
Eine genaue Dokumentation des Datensets gibt es leider nicht, aber hier mal ein paar Hinweise:
Die Daten stammen aus dem US Zensus. fnlwgt ist "final weight" und beschreibt eine Gewichtung anhand der Populations-Verteilung innerhalb einzelnen Staaten. Der Wert kann ignoriert werden.
Für die diskretisierten Werte spielt der genaue Wert keine große Rolle. Ihr könnt diese einfach als "sehr jung","jung", etc.. (bzw. "sehr niedrig", "niedrig", etc.. für die Kapital Gewinn/Verlust Attribute) annehmen. Zumindest für das Alter scheinen aber die Werte grob zwischen 18-65 zu liegen.
Falls euch die Details interessieren, hier die kontinuierlichen Daten: http://axon.cs.byu.edu/data/uci_class/adult-census.arff
education_num ist die Anzahl der Jahre in Bildungseinrichtungen (Schule+College, etc..)

grüße Christian

Antworten

Zurück zu „Data Mining und Maschinelles Lernen“