Offline Wortlisten für absolute Synonyme gesucht...

Moderator: NLP and the Web

Benutzeravatar
oren78
BSc Spammer
BSc Spammer
Beiträge: 1373
Registriert: 17. Nov 2006 17:47
Wohnort: Darmstadt

Offline Wortlisten für absolute Synonyme gesucht...

Beitrag von oren78 » 29. Mär 2010 17:42

Hallo,

ich hoffe das ist der richtige unterforum, mein topic passt vom sinn her am besten hier rein...
also folgendes, ich benötige für meine thesis eine (offline) wörterliste von absoluten Synonymen innerhalb der deutschen sprache,
das bedeutet konkret eine liste von nahenzu identischen bzw. sinngleichen wörtern unabhängig von ihrem jeweiligen kontext
Beispiele: <usw.> \(\rightarrow\) <etc.>, <offenbar> \(\rightarrow\) <offensichtlich>, <aggressiv> \(\rightarrow\) <angreifend>

ist da jemand was bekannt, wo man derartige listen beziehen kann...? Im netz hab ich nur "online" wörterbücher/listen gefunden,
die mir nicht sonderlich viel helfen, da ich für ein "standard" dokument ca. 1.000 queries im schnitt benötige...


hier ein kleiner auszug der online-quellen:
------------------------------------------------------------
http://synonyme.woxikon.de/synonyme/
http://wortheld.de/
http://www.wie-sagt-man-noch.de/
http://wortschatz.uni-leipzig.de/
etc...
------------------------------------------------------------

falls jemand da eine seite kennt, welche solche listen (oder gerne auch sql-dumps) bereithält wäre ich sehr dankbar 8)
"Unter allen menschlichen Entdeckungen sollte die Entdeckung der Fehler die wichtigste sein.", Stanisław Jerzy Lec

Christoph-D
Computerversteher
Computerversteher
Beiträge: 325
Registriert: 11. Dez 2005 13:14
Wohnort: Darmstadt

Re: Offline Wortlisten für absolute Synonyme gesucht...

Beitrag von Christoph-D » 29. Mär 2010 18:14

oren78 hat geschrieben:ich hoffe das ist der richtige unterforum, mein topic passt vom sinn her am besten hier rein...
also folgendes, ich benötige für meine thesis eine (offline) wörterliste von absoluten Synonymen innerhalb der deutschen sprache,
das bedeutet konkret eine liste von nahenzu identischen bzw. sinngleichen wörtern unabhängig von ihrem jeweiligen kontext
Beispiele: <usw.> \(\rightarrow\) <etc.>, <offenbar> \(\rightarrow\) <offensichtlich>, <aggressiv> \(\rightarrow\) <angreifend>
Sicher, dass das Synonyme sind?
"Dass 1 + 1 = 2 ist, ist offensichtlich."
"Dass 1 + 1 = 2 ist, ist offenbar." (grammatikalisch nicht korrekt)

"Das angreifende Tier wurde gelähmt."
"Das agressive Tier wurde gelähmt." (obwohl es gar nicht angegriffen hat)
oren78 hat geschrieben:ist da jemand was bekannt, wo man derartige listen beziehen kann...? Im netz hab ich nur "online" wörterbücher/listen gefunden,
die mir nicht sonderlich viel helfen, da ich für ein "standard" dokument ca. 1.000 queries im schnitt benötige...
Du könntest diese 1000 Queries für ein paar Dokumente machen und die Ergebnisse speichern. Dann werden es wahrscheinlich sehr schnell sehr viel weniger Queries werden für neue Dokumente. Allerdings musst du dann gut auf die Lizenzen achten, ob diese online-Wörterbücher überhaupt automatisierte Anfragen erlauben.
"I believe in the fundamental interconnectedness of all things." (Dirk Gently)

Benutzeravatar
oren78
BSc Spammer
BSc Spammer
Beiträge: 1373
Registriert: 17. Nov 2006 17:47
Wohnort: Darmstadt

Re: Offline Wortlisten für absolute Synonyme gesucht...

Beitrag von oren78 » 29. Mär 2010 18:40

Christoph-D hat geschrieben: "Dass 1 + 1 = 2 ist, ist offensichtlich."
"Dass 1 + 1 = 2 ist, ist offenbar." (grammatikalisch nicht korrekt)

"Das angreifende Tier wurde gelähmt."
"Das agressive Tier wurde gelähmt." (obwohl es gar nicht angegriffen hat)
zugegeben hier ist der kontext doch entscheidend :-( Ich bin mir aber dennoch 100% sicher das es im deutschen eine (vieleicht auch nur) mindere anzahl an worten gibt, die wirklich 100% in einer semantischen beziehung zueinander stehen, doch genau das suche ich, weil ich solche wörter nur schwer selbst finden kann... ein derartiges beispiel wären hier die soap-webservices von: http://wortschatz.uni-leipzig.de/ Diese sind was dem umfang angeht die wohl umfangreichsten im deutschen umfeld, aber leider völlig unstrukturiert (stichwort: "Wortgruppen")
Christoph-D hat geschrieben: Du könntest diese 1000 Queries für ein paar Dokumente machen und die Ergebnisse speichern.

genau das kann ich nicht, da ein query gesondert auf einer ergebnisseite aufgeführt wird, die sehr umständlich zu parsen ist, dazu kommt noch das absolute synonyme in der regel nur eine "wortgruppe" angehören und dies beim parsen mitberücksichtigt werden muss - aber hierfür wäre die erkennung von semantik nötig, was leider noch nicht ganz möglich ist...

Ein beispiel, das verb "gehen" verfügt über folgende synonyme in 6 unterschiedlichen wortgruppen...
1.) abdanken, abfahren, abgehen, abmarschieren, abwandern, aufbrechen, aufgeben, aufhören, aussteigen, austreten, begeben, beschreiten, besuchen, betreten, bummeln, davongehen, fahren, flanieren, fortgehen, kündigen, latschen, laufen, lustwandeln, marschieren, reisen, seinen Rücktritt erklären, sich auf den Weg machen, Sterben, wandern, weggehen, zurücktreten
2.) auf Schusters Rappen, herumschlendern, herumwandern, latschen, laufen, schlendern, spazieren gehen, zu Fuß gehen
3.) ausführbar sein, denkbar sein, funktionieren, gangbar sein, gehen, Gelingen, glücken, in Betrieb sein, klappen, laufen, möglich sein, tun
4.) Ergehen, gehen, in Betracht kommen, möglich sein, sich befinden, sich erstrecken, sich hinziehen, ziehen
5.) sich fühlen, umziehen
6.) begehen, gehen auf
quelle: http://ein.anderes-wort.de/?q=gehen

Dies wäre unter umständen handlicher zu parsen, aber diese seite verfügt über ein relativ begrenzten wortschatz, die meisten online-datenbanken mischen jedoch wahllos alle wortgruppen in eine riesige liste zusammen, sodas diese schwer zu verwerten sind ---> Leider bieten genau diese aber den umfangreichsten wortschatz gegenüber http://www.openthesaurus.de/ , http://ein.anderes-wort.de/?q=gehen oder ähnliche...

Ist dir eventuell eine quelle bekannt, welche einen offline-corpus / bzw. wortlisten für absolute (oder zumindest sehr ähnliche) synonyme bereithält...?
"Unter allen menschlichen Entdeckungen sollte die Entdeckung der Fehler die wichtigste sein.", Stanisław Jerzy Lec

Osterlaus
BSc Spammer
BSc Spammer
Beiträge: 1263
Registriert: 23. Aug 2007 12:46
Wohnort: DA

Re: Offline Wortlisten für absolute Synonyme gesucht...

Beitrag von Osterlaus » 29. Mär 2010 20:17

Kannst du vielleicht aus GermaNet was rausholen?

Benutzeravatar
oren78
BSc Spammer
BSc Spammer
Beiträge: 1373
Registriert: 17. Nov 2006 17:47
Wohnort: Darmstadt

Re: Offline Wortlisten für absolute Synonyme gesucht...

Beitrag von oren78 » 30. Mär 2010 10:14

Osterlaus hat geschrieben:Kannst du vielleicht aus GermaNet was rausholen?
eventuell, leider muss man da aber erst ein wisch unterschreiben und dann zusenden ehe sie da einen an ihre daten ranlassen...aber trotzdem danke für den tipp, werde es dennoch versuchen ;-)
"Unter allen menschlichen Entdeckungen sollte die Entdeckung der Fehler die wichtigste sein.", Stanisław Jerzy Lec

Benutzeravatar
Dickinson4o
Windoof-User
Windoof-User
Beiträge: 40
Registriert: 15. Okt 2007 15:42
Wohnort: Darmstadt
Kontaktdaten:

Re: Offline Wortlisten für absolute Synonyme gesucht...

Beitrag von Dickinson4o » 30. Mär 2010 10:52

DISCO Platform...Link hole ich später raus, fallst du es nicht gefunden hast

Benutzeravatar
oren78
BSc Spammer
BSc Spammer
Beiträge: 1373
Registriert: 17. Nov 2006 17:47
Wohnort: Darmstadt

Re: Offline Wortlisten für absolute Synonyme gesucht...

Beitrag von oren78 » 30. Mär 2010 11:07

Dickinson4o hat geschrieben:DISCO Platform...Link hole ich später raus, fallst du es nicht gefunden hast
hmmm, ich habe diese links gefunden:

1.) http://publica.fraunhofer.de/eprints/ur ... 912920.pdf

2.) http://duepublico.uni-duisburg-essen.de ... _final.pdf

scheint eine umfangreiche sache zu sein, aber sehr intressant!! danke...
"Unter allen menschlichen Entdeckungen sollte die Entdeckung der Fehler die wichtigste sein.", Stanisław Jerzy Lec

jebediah
BASIC-Programmierer
BASIC-Programmierer
Beiträge: 119
Registriert: 3. Okt 2009 12:07

Re: Offline Wortlisten für absolute Synonyme gesucht...

Beitrag von jebediah » 30. Mär 2010 14:14

Hi,
helfen dir die Inhalte auf http://de.wiktionary.org vielleicht was? Bei der Struktur sollte sich das relativ einfach herausziehen lassen.
//Algorithms are for people who don't know how to buy RAM.

Benutzeravatar
oren78
BSc Spammer
BSc Spammer
Beiträge: 1373
Registriert: 17. Nov 2006 17:47
Wohnort: Darmstadt

Re: Offline Wortlisten für absolute Synonyme gesucht...

Beitrag von oren78 » 30. Mär 2010 19:37

jebediah hat geschrieben:Hi,
helfen dir die Inhalte auf http://de.wiktionary.org vielleicht was? Bei der Struktur sollte sich das relativ einfach herausziehen lassen.
naja, an sich eine nette seite - aber da wären wir wieder mit jede einzelne ergebnisseite einzeln parsen :x

es ist schon bemerkenswert, das es scheinbar keine derartige "offline" wortlisten im netz schlummern, ich frage mich wie die kommerziellen anbieter (Langenscheidt & Co.) an ihre millionen von wörtern, bzw. synonyme kommen, nun gut langenscheidt hätte bestimmt die dicke kohle, um 'n haufen linguisten dahinzusetzen und die wörter einpflegen zu lassen, aber was bitteschön machen mittelständige betriebe :?: Woher beziehen die ihre daten...???
"Unter allen menschlichen Entdeckungen sollte die Entdeckung der Fehler die wichtigste sein.", Stanisław Jerzy Lec

Christoph-D
Computerversteher
Computerversteher
Beiträge: 325
Registriert: 11. Dez 2005 13:14
Wohnort: Darmstadt

Re: Offline Wortlisten für absolute Synonyme gesucht...

Beitrag von Christoph-D » 30. Mär 2010 21:39

oren78 hat geschrieben:es ist schon bemerkenswert, das es scheinbar keine derartige "offline" wortlisten im netz schlummern, ich frage mich wie die kommerziellen anbieter (Langenscheidt & Co.) an ihre millionen von wörtern, bzw. synonyme kommen, nun gut langenscheidt hätte bestimmt die dicke kohle, um 'n haufen linguisten dahinzusetzen und die wörter einpflegen zu lassen, aber was bitteschön machen mittelständige betriebe :?: Woher beziehen die ihre daten...???
Nur eine Vermutung: Die kaufen Nutzungsrechte an den Daten von anderen Firmen.

Gerade solche sehr speziellen Daten, hinter denen ein großer manueller Aufwand steckt, gibt es leider nur selten umsonst. Das Erstellen der Daten kostet halt ziemlich viel Geld, wenn das nicht gerade Freiwillige (wie bei Wikipedia o.ä.) machen. Entsprechend teuer müssen die Daten vermutlich verkauft/lizenziert werden, um das Geld wieder reinzuholen.
Das wird zumindest so sein, wenn die Daten von einer Firma erstellt werden, vermute ich.
"I believe in the fundamental interconnectedness of all things." (Dirk Gently)

Andreas T.
Endlosschleifenbastler
Endlosschleifenbastler
Beiträge: 192
Registriert: 18. Okt 2006 00:18
Wohnort: Darmstadt

Re: Offline Wortlisten für absolute Synonyme gesucht...

Beitrag von Andreas T. » 30. Mär 2010 23:07

Hast du mal geschaut, ob du evtl. mit http://www.openthesaurus.de/about/download etwas anfangen kannst?

SebFreutel
Computerversteher
Computerversteher
Beiträge: 317
Registriert: 30. Okt 2006 21:54

Re: Offline Wortlisten für absolute Synonyme gesucht...

Beitrag von SebFreutel » 31. Mär 2010 00:26

oren78 hat geschrieben:
jebediah hat geschrieben:Hi,
helfen dir die Inhalte auf http://de.wiktionary.org vielleicht was? Bei der Struktur sollte sich das relativ einfach herausziehen lassen.
naja, an sich eine nette seite - aber da wären wir wieder mit jede einzelne ergebnisseite einzeln parsen :x
Unsre UKP-Gruppe hat mal eine Java-API ("JWPL") für den Zugriff auf Wikipedia/Wiktionary geschrieben, frag mal Dr. Torsten Zesch, der ist da glaube ich beteiligt gewesen.

Benutzeravatar
oren78
BSc Spammer
BSc Spammer
Beiträge: 1373
Registriert: 17. Nov 2006 17:47
Wohnort: Darmstadt

Re: Offline Wortlisten für absolute Synonyme gesucht...

Beitrag von oren78 » 31. Mär 2010 10:24

SebFreutel hat geschrieben:Unsre UKP-Gruppe hat mal eine Java-API ("JWPL") für den Zugriff auf Wikipedia/Wiktionary geschrieben, frag mal Dr. Torsten Zesch, der ist da glaube ich beteiligt gewesen.
wieso kam ich eigentlich nicht gleich drauf, ich habe ihn sogar vor einiger zeit von der thesis erzählt :D
danke für den tipp Sebi, oder bzw. für die "Erinnerung" ;-)
"Unter allen menschlichen Entdeckungen sollte die Entdeckung der Fehler die wichtigste sein.", Stanisław Jerzy Lec

Benutzeravatar
oren78
BSc Spammer
BSc Spammer
Beiträge: 1373
Registriert: 17. Nov 2006 17:47
Wohnort: Darmstadt

Re: Offline Wortlisten für absolute Synonyme gesucht...

Beitrag von oren78 » 31. Mär 2010 10:35

Andreas T. hat geschrieben:Hast du mal geschaut, ob du evtl. mit http://www.openthesaurus.de/about/download etwas anfangen kannst?
Du bringst mich da auf eine gute idee, ich könnte den Autor (Daniel Naber) diesbzgl. anfragen, ob er mir ein gesonderten "synonyme-sql-dump" aus seiner DB ziehen kann, er hat mir schon mal in der vergangenheit geholfen...Nebenbei, falls sich jemand für die statistiken in OpenThesaurus intressiert:
Hallo Herr Avni,

> > Wäre es daher möglich diese Informationen von Ihnen zu bekommen? Falls
> > ja, würde ich dabei folgende Parameter benötigen:
> >
> > - Anzahl der Synsets (als Synonym Mengen) - besonders wichtig !
Diesen Wert finden Sie als "Bedeutungen" unter: http://www.openthesaurus.de/synset/statistics

> > - Anzahl der Lexikalischen Relationen
Zwischen Wörtern verschiedener Synsets gibt es derzeit nur
die "Antonym"-Relation.


> > - Anzahl der konzeptuellen Relationen
Es gibt in den Daten derzeit nur die Oberbegriff/Unterbegriff-Relation
zwischen verschiedenen Konzepten. Die Software kann aber beliebige
Relationen abbilden.


> > - Datenbank Version
Es gibt keine Versionsnummer, da die Daten kontinuierlich gepflegt werden.

> > - Anzahl der Literale
Unter der oben genannten URL finden Sie unter "Wörter" die Zahl der Wörter,
wobei Homonyme mehrfach zählen.


> > Wäre Ihnen für die Information äußerst dankbar und würde mich
> > erkenntlich zeigen indem ich Ihr Name in der Thesis publik machen würde.
Bitte erwähnen Sie insbesondere auch, dass OpenThesaurus im Gegensatz zu
GermaNet frei verfügbar ist und über eine offene API abgefragt werden
kann.

mfg
Daniel Naber


-- http://www.danielnaber.de
"Unter allen menschlichen Entdeckungen sollte die Entdeckung der Fehler die wichtigste sein.", Stanisław Jerzy Lec

Christoph-D
Computerversteher
Computerversteher
Beiträge: 325
Registriert: 11. Dez 2005 13:14
Wohnort: Darmstadt

Re: Offline Wortlisten für absolute Synonyme gesucht...

Beitrag von Christoph-D » 31. Mär 2010 11:57

oren78 hat geschrieben:
jebediah hat geschrieben:Hi,
helfen dir die Inhalte auf http://de.wiktionary.org vielleicht was? Bei der Struktur sollte sich das relativ einfach herausziehen lassen.
naja, an sich eine nette seite - aber da wären wir wieder mit jede einzelne ergebnisseite einzeln parsen
Musst du nicht: http://de.wiktionary.org/wiki/Wiktionary:Download
"I believe in the fundamental interconnectedness of all things." (Dirk Gently)

Antworten

Zurück zu „Natural Language Processing and the Web“