Aufgabe 3

Moderator: Web Mining

hstr
BASIC-Programmierer
BASIC-Programmierer
Beiträge: 128
Registriert: 14. Apr 2011 22:52

Aufgabe 3

Beitrag von hstr »

Hallo,
ich habe Probleme zu verstehen was man in Aufgabe 3 machen soll.
Man soll wohl die Queue nach einer bestimmten Sprache priorisieren (z.B. nach deutsch: (en,es,de,de,es) -> (de,de,en,es,es)), aber dann?
Kann hier vielleicht bitte jemand helfen und den Rest der Aufgabe genauer erklären bzw. anders formulieren?

VG

eneldo
Sonntagsinformatiker
Sonntagsinformatiker
Beiträge: 220
Registriert: 19. Mai 2006 13:06
Kontaktdaten:

Re: Aufgabe 3

Beitrag von eneldo »

Als nächste zu crawlende Seite würde dann die erste "de"-Seite ausgewählt, d.h., herunterladen, Links extrahieren, Links in die Queue eintragen, Queue entsprechend neu sortieren.

Gruß
Eneldo Loza

hstr
BASIC-Programmierer
BASIC-Programmierer
Beiträge: 128
Registriert: 14. Apr 2011 22:52

Re: Aufgabe 3

Beitrag von hstr »

Aber was würde das bei einer Breadth-Frist-Suche für einen Unterschied machen?
Ich muss doch sowieso erst alle Seiten einer bestimmten Tiefe crawlen bevor ich eine Ebene tiefer gehen kann.
D.h. für das Endergebnis ist (en,es,de,de,es) oder (de,de,en,es,es) egal. :?:

eneldo
Sonntagsinformatiker
Sonntagsinformatiker
Beiträge: 220
Registriert: 19. Mai 2006 13:06
Kontaktdaten:

Re: Aufgabe 3

Beitrag von eneldo »

Hallo,
Du hast Recht, der Begriff Breitensuche ist hier sicherlich nicht ganz zutreffend. Die Formulierung bezog sich darauf, wie man eine klassische Breitensuche ändern muss, um die gewünschte Suche zu erreichen. Der genaue Begriff wäre Bestensuche/Best-First-Suche (https://de.wikipedia.org/wiki/Bestensuche) mit der Sprachzugehörigkeit als Heuristik.

Aufgabe 2 ist ähnlich zu verstehen, d.h., eine randomisierte Breiten/Tiefen/Bestensuche sollte das gleiche machen.

Ich werde die Formulierung in der Aufgabenstellung entsprechend anpassen, um es klarer zu machen.

Gruß
Eneldo Loza

hstr
BASIC-Programmierer
BASIC-Programmierer
Beiträge: 128
Registriert: 14. Apr 2011 22:52

Re: Aufgabe 3

Beitrag von hstr »

Alles klar,Danke, allerdings habe ich Aufgabe 2 jetzt schon mit Breitensuche implementiert, ist das auch ok?

eneldo
Sonntagsinformatiker
Sonntagsinformatiker
Beiträge: 220
Registriert: 19. Mai 2006 13:06
Kontaktdaten:

Re: Aufgabe 3

Beitrag von eneldo »

In der ursprünglichen Aufgabenstellung war die Aufgabe, eine "randomisierte Breitensuche" durchzuführen. Wie hast Du den Randomisierungsaspekt in Deiner Implementierung berücksichtigt?

Gruß

P.S.: Es sind noch zwei Wochen Zeit.

hstr
BASIC-Programmierer
BASIC-Programmierer
Beiträge: 128
Registriert: 14. Apr 2011 22:52

Re: Aufgabe 3

Beitrag von hstr »

Indem ich die Links in der Queue einfach nicht geordnet habe, also so wie sie in die Queue kommen, werden sie abgearbeitet.

eneldo
Sonntagsinformatiker
Sonntagsinformatiker
Beiträge: 220
Registriert: 19. Mai 2006 13:06
Kontaktdaten:

Re: Aufgabe 3

Beitrag von eneldo »

Je nachdem, ob die Links hinten oder vorne angefügt werden, entspricht dies der Tiefen- bzw. der Breitensuche. Der randomisierende Aspekt "neue Links werden hinten in die Queue einsortiert, aber der nächste anzusteuernde Link wird zufällig gewählt" wird dann natürlich nicht berücksichtigt. Es wäre interessant zu schauen, welchen Unterschied es in den Ergebnissen zwischen Deinem Vorgehen und der Randomisierung gibt. Ich würde vorschlagen, diesen Aspekt zu untersuchen.

Atlantaphoenix
Mausschubser
Mausschubser
Beiträge: 52
Registriert: 31. Jan 2014 15:02

Re: Aufgabe 3

Beitrag von Atlantaphoenix »

Welchen Unterschied macht es denn dann, ob man die neuen Links vorne oder hinten in die Queue einfügt? Wenn der Link doch sowieso zufällig gewählt wird, spielt es doch keine Rolle, wo die Links eingefügt werden. Man könnte doch theoretisch auch einfach ein Array verwenden, in das die Links in irgendeiner Weise eingefügt werden, da als neuer Link doch jeder in gleicher Weise in Frage kommt. Die Wahrscheinlichkeit, dass ein "neuer" Link gewählt wird, ist doch bei einer randomisierten Auswahl genauso hoch, wie wenn ein "alter" Link ausgewählt wird. Oder habe ich die Aufgabenstellung falsch verstanden?

eneldo
Sonntagsinformatiker
Sonntagsinformatiker
Beiträge: 220
Registriert: 19. Mai 2006 13:06
Kontaktdaten:

Re: Aufgabe 3

Beitrag von eneldo »

Wie im 4. Post erwähnt, macht es dann in der Tat keinen Unterschied mehr, wo die Links hinzugefügt werden, weshalb die Aufgabenstellung entsprechend angepasst wurde.

Antworten

Zurück zu „Web Mining“