Größe des Webs: Warum untere Schranke?

Moderator: Web Mining

Benutzeravatar
apulix
Endlosschleifenbastler
Endlosschleifenbastler
Beiträge: 152
Registriert: 21. Nov 2004 23:54
Wohnort: Darmstadt
Kontaktdaten:

Größe des Webs: Warum untere Schranke?

Beitrag von apulix » 30. Jun 2008 16:36

Ich verstehe nicht, wieso das Verfahren zur Abschätzung der Größe des Webs eine untere Schranke liefert. IMO ist das eine größere Schranke. Und zwar ausgehend von der Formel N=sa*(nb/n0), lässt man die Unabhängigkeitsannahme fallen, so müsste doch n0 größer werden, weil die Suchmaschinen mehr gleiche Dokumente indexieren und zurückgeben. Im Extremfall (totale Abhängigkeit, also Suchmaschine B indexiert genau das Gleiche wie Suchmaschine A) ist dann nb=na=n0 und somit N=sa. Dies ist offensichtlich die niedrigste sinnvolle Schranke, die man aufstellen kann.

Habe ich irgendwo einen Fehler gemacht oder etwas falsch verstanden?
Alumni-Netzwerk der TU Darmstadt: http://alumni.tu-darmstadt.de/ (auch für Studierende)

eneldo
Sonntagsinformatiker
Sonntagsinformatiker
Beiträge: 220
Registriert: 19. Mai 2006 13:06
Kontaktdaten:

Re: Größe des Webs: Warum untere Schranke?

Beitrag von eneldo » 2. Jul 2008 15:47

Gehen wir davon aus, wir wenden das Verfahren auf zwei unabhängige Suchmaschinen an und erhalten ein n_0 und ein N.
Nun erfahren wir jedoch, dass beide Suchmaschinen doch nicht unabhängig sind. Dies würde bedeuten, daß wir für n_0 einen zu hohen Wert eingesetzt haben, also n_0 überschätzt haben, da bei Unabhängigkeit die Schnittmenge n_0' in Wirklichkeit kleiner wäre. Dies hat wiederum zur Folge, daß wir N unterschätzt haben, da das "wahre" N'=s_a(n_b/n_0')>N, n_0>n_0' ist. Deshalb geht man von einer unteren Schranke als Resultat der Schätzung aus.

Nebenbemerkung: Abhängigkeit zweier Suchmaschinen kann natürlich auch bedeuten, daß die Schnittmenge kleiner wird. Im Extremfall würde eine abhängige Suchmaschine genau das Gegenteil einer anderen Suchmaschine ausgeben. Es ist jedoch plausibler, daß sich die Resultate angleichen, wie bei zwei gleichen Suchmaschinen, und deshalb geht man im Allgemeinen von einer vergrößernden Wirkung auf die Schnittmenge aus.

Benutzeravatar
apulix
Endlosschleifenbastler
Endlosschleifenbastler
Beiträge: 152
Registriert: 21. Nov 2004 23:54
Wohnort: Darmstadt
Kontaktdaten:

Re: Größe des Webs: Warum untere Schranke?

Beitrag von apulix » 2. Jul 2008 18:00

Stimmt, ich habe die ganze Zeit falsch gedacht, nämlich dass wir n0 berechnen und nicht aus einem abhängigen System erhalten.
Alumni-Netzwerk der TU Darmstadt: http://alumni.tu-darmstadt.de/ (auch für Studierende)

levitin
Kernelcompilierer
Kernelcompilierer
Beiträge: 435
Registriert: 7. Okt 2007 15:36
Wohnort: Darmstadt

Re: Größe des Webs: Warum untere Schranke?

Beitrag von levitin » 19. Jul 2010 15:31

Rein logisch gesehen, müssen die Ergebnisse aller Suchmaschienen früher oder später gegen die Größe des ganzen Webs konvergierenö. Aber in der Praxis das ist nicht der Fall. Wo ist denn der Grund dafür, dass Google die Seiten indexiert, auf die Altavista oder Ask gar nicht kommen? Die Hyperlink Structure des Webs können ja alle Suchmaschienen gut nachvollzien.

Antworten

Zurück zu „Web Mining“