Google (verschiedene Länder)

Moderator: Web Mining

levitin
Kernelcompilierer
Kernelcompilierer
Beiträge: 435
Registriert: 7. Okt 2007 15:36
Wohnort: Darmstadt

Google (verschiedene Länder)

Beitrag von levitin »

Woran liegt der Unterschied zwichen google.com, google.de und z.B. google.ch oder google.ru? Ich interessiere mich dafür, wie das grob organisiert ist?

1) Datenbanken sind unterschiedlich - das ist nach dem kleinen Test mit gleicher Eingabe sofort klar. Das heißt, sie verwenden wahrscheinlich sogar leicht unterschiedliche Indexer (die Vektorräume, Tokenization werden wahrscheinlich mittels Natural Language Processing an eine konkrete Sprache angepasst u.s.w.)
2) Jedes Google berechnet für sich eigenes PageRank. Eine und dieselbe Seite hat unterschiedlichen PR, je nachdem, welches Google diese betrachtet. d.h. Position 1 in google.com heißt noch lange nicht die 1-te Position in google.ch (soweit die Schnittmenge der Verlinkenden Seiten nicht dominant ist)

Stimmt das alles soweit?

Benutzeravatar
oren78
BSc Spammer
BSc Spammer
Beiträge: 1373
Registriert: 17. Nov 2006 17:47
Wohnort: Darmstadt

Re: Google (verschiedene Länder)

Beitrag von oren78 »

Hi Levitin,

soweit ich das verstanden habe sind sämtliche "Google"'s von der Funktionsweise her intern gleich,
lediglich nur die Sprachoberfläche ist verschiedene, falls ich hier völlig daneben liege würde ich mich
freuen, wenn das jemand mal widerlegen könnte ;-)
"Unter allen menschlichen Entdeckungen sollte die Entdeckung der Fehler die wichtigste sein.", Stanisław Jerzy Lec

philippD.
Mausschubser
Mausschubser
Beiträge: 54
Registriert: 1. Okt 2008 12:50

Re: Google (verschiedene Länder)

Beitrag von philippD. »

oren78 hat geschrieben:Hi Levitin,

soweit ich das verstanden habe sind sämtliche "Google"'s von der Funktionsweise her intern gleich,
lediglich nur die Sprachoberfläche ist verschiedene, falls ich hier völlig daneben liege würde ich mich
freuen, wenn das jemand mal widerlegen könnte ;-)
google.de -> d120
google.com -> d120
qed. ;)

levitin
Kernelcompilierer
Kernelcompilierer
Beiträge: 435
Registriert: 7. Okt 2007 15:36
Wohnort: Darmstadt

Re: Google (verschiedene Länder)

Beitrag von levitin »

der Unterschied liegt natürlich nicht nur an der Oberfläche, sonst wäre es zu einfach ;-)

Man sieht auch, dass unterschiedliche googles die Daten in unterschiedlicher Reihenfolge rangieren. Die Frage ist, warum es dazu kommt? Wenn die Indexer die gleiche Struktur gehabt hätten, früher oder später sollten alle googles auf die gleichen Ergebnisse kommen. Die Vektordimensionen verschiedener Indexer sind auch wahrscheinlich identisch, denn man häufig gemischte Texte trifft und man kann in jedem google genau so gut die KeyWords in jeder Sprache eingeben. Außerdem wenn ein Link auf den isolierten Ressource im Netz erscheint, ein Paar Wochen später wird die Seite jedem Google bekannt (obwohl erstmal ganz am Ende).

Das einzige, was mir einfällt, ist die Domain-Endung: google.de setzt a-priori einen höheren Priorität für die deutschen Seiten ****.de, google.ru - für die russischen Seiten u.s.w.

Kann jemand was widerlegen / ergänzen??

SebFreutel
Computerversteher
Computerversteher
Beiträge: 317
Registriert: 30. Okt 2006 21:54

Re: Google (verschiedene Länder)

Beitrag von SebFreutel »

Die Ergebnisse/Rankings sind sowohl bei verschiedenen Domains als auch bei verschiedenen Oberflächen unterschiedlich:
.de, Standard-Oberfläche (deutsch) <-> .de, englische Oberfläche
.com, deutsche Oberfläche <-> .com, Standard-Oberfläche (englisch)

ich nehme schon an dass der Index an sich der gleiche für alle Länder/Sprachen ist, evtl. werden aber die Anfragen der einzelnen Google-Seiten auf verschiedenen Google-Servern verarbeitet, auf denen der Index bzw. das Ranking dann nicht zu 100% synchronisiert ist.

Außerdem wird Google halt, wie man sieht, anhand der Sprache, Seite, evtl. IP, o.ä. die Ergebnisse zurückliefern, die in dem jeweiligen Land und der jeweiligen Sprache gerade am häufigsten gesucht werden (auch wenn es dafür ja eigentlich extra die Unterscheidung "Seiten auf Deutsch"/"Seiten aus Deutschland"/"Gesamtes Web" gibt, die das ganz dem Nutzer überlassen sollte), und vor allem bei Marken- und sonstigen Eigennamen ziemliche Unterschiede machen.

In Googles Blog steht eigentlich öfter mal was zu solchen Themen.

Antworten

Zurück zu „Web Mining“