Was finden Google und Yahoo noch?


Suchmaschinen erfassen nur noch Bruchteile des Internet

Google und Yahoo verkünden fast täglich neuartige Suchfunktionen und Dienstleistungen. Das medienwirksame Duell der Such-Giganten kann aber nicht mehr lange darüber hinweg täuschen, dass beide Unternehmen ein wachsendes Problem haben: Sie erfassen nicht einmal mehr ein Zehntel des öffentlich zugänglichen World Wide Web.

Suchmaschinen wie Google und Yahoo katalogisieren das World Wide Web mit Hilfe von so genannten "Software-Crawlern". Die Crawler kopieren jedes für sie lesbare Dokument aus dem Internet in den Index ihrer jeweiligen Suchmaschine.

  Erst diese riesigen Datenbanken mit den Kopien vieler Milliarden Webseiten machen es möglich, Millionen gleichzeitiger Suchanfragen innerhalb von Millisekunden zu beantworten. Die Schwäche der index-basierten Suchmaschinen wie Google oder Yahoo ist jedoch, dass sie bei der Suchanfrage eines Nutzers nur den eigenen Index durchsuchen und nicht das eigentliche World Wide Web.

  Das Index-Duell
Webseiten, die zwar online sind aber von der jeweils benutzten Suchmaschine noch nicht katalogisiert wurden bleiben damit unauffindbar. Die Suchmaschinen lieferten sich auf diesem Hintergrund ein jahrelanges Wettrennen um die größere Datenbank. Google und Yahoo veröffentlichten die Zahl der in ihrem Index erfassten Webdokumente sogar auf ihren Einstiegsseiten.

  Im letzten Herbst kam das Duell dann zu einem überraschenden Finale: Nachdem Google lange Zeit mit acht Milliarden erfassten Webdokumenten vorne lag, behauptete Yahoo plötzlich, einen Index mit mehr als 19 Milliarden Dokumenten zu besitzen.

  Kratzen an der Oberfläche
Google hielt diese Zahl für unglaubwürdig, das PR-Scharmützel eskalierte und endete damit, dass beide Unternehmen die Größe ihres Indexes seither verschweigen. "Das war garantiert das letzte Mal, dass wir etwas über die Größe von Googles Such-Index erfahren werden", sagt dazu Chris Sherman, Autor des Buches "Das unsichtbare Web" und des Branchen-Newsletters "Search Day".

Zitat
Im Moment benutzen die Leute ihre Suchmaschine mit derselben Schicksals-Ergebenheit wie einen Spielautomaten.

Chris Sherman, "Search Day"Nach Shermans Ansicht kratzen sowohl Google als auch Yahoo seit langem nur noch an der Oberfläche des Internet, dem so genannten "Surface Web". Das "Deep Web", also alle Webdokumente, die von den Suchmaschinen nicht gesehen werden, ist seiner Schätzung nach aber bis zu 50 Mal größer als das "Surface Web".

Der Index-Streit zwischen Google und Yahoo war deshalb für beide Unternehmen ein willkommener Anlass, von ihren im Verhältnis zum Deep Web immer kleineren Indizes abzulenken. Seit dem Eklat vom Herbst betonen sie nun vor allem die Qualität ihrer jeweiligen Suchalgorithmen.

  Abseits der Erfassung
"Die Suchmaschinen stehen heute aber ohnehin vor einem ganz anderen Dilemma", so Sherman zu heute.de. "Ein immer größerer und qualitativ immer besserer Teil des Internet kann von den Crawlern aus rein technischen Gründen gar nicht mehr erfasst werden."

  Hauptproblem der Suchmaschinen ist dabei, dass immer mehr Websites nicht mehr aus statischen Seiten bestehen, sondern mit Datenbanken betrieben werden, die die jeweilige Seite erst auf Abruf durch einen Nutzer dynamisch generieren. Immer mehr dieser dynamisch generierten Inhalte bleiben für die Crawler unauffindbar oder nicht katalogisierbar.

  Geheimdienste suchen auch
"Google oder Yahoo werden das Problem nicht lösen", glaubt Sherman, "da beide Unternehmen auf vollautomatische Suche setzen. Eine Suchmaschine, die aber auch Datenbankabfragen im Deep Web durchführen kann, braucht viel Betreuung weil fast jede Datenbank andere Browser-Eingabemasken hat, die sich auch noch ständig ändern."

  Ein junges Unternehmen, das sich bereits erfolgreich auf die Suche im Deep Web spezialisiert hat ist die Firma BrightPlanet aus dem US-Bundesstaat South Dakota. BrightPlanet verkauft eine Software, mit der mehr als 75.000 Sites aus dem Deep Web komfortabel durchsucht werden können. Das Einsteigerpaket kostet 32.600 Dollar und verkauft sich trotz des hohen Preises bestens. Die Hauptkundschaft: Geheimdienste, die NATO und das Pentagon.

  Abschied vom Glücksspiel?
"Informationen aus dem Deep Web sind in der Regel aktueller, thematisch enger fokussiert und damit relevanter", sagt der Chef von BrightPlanet, Duncan Witte, zu heute.de. Nach seinen Schätzungen enthalten allein die 60 größten Sites des Deep Web eine Datenmenge, die etwa 85 Milliarden Webseiten entspricht, etwa dem Zehnfachen des Google-Indexes. "Wir wissen von circa 150.000 Sites im Deep Web mit nutzbarem Content", so Witte.

  Das Größenverhältnis zwischen Deep Web und Surface Web schätzt er sogar auf 500:1. Allerdings dürfte sein Unternehmen auch ein kommerzielles Interesse daran haben, die Größe des Deep Web etwas zu überzeichnen. "Vor allem außerhalb der USA wächst das Deep Web sehr viel schneller als das Surface Web", sagt Witte und erklärt damit indirekt auch das große Interesse der Geheimdienste an seiner Software.


  Für Experten wie Chris Sherman ist es nur noch eine Frage der Zeit, bis auch die durchschnittlichen Suchmaschinen-Nutzer die Beschränkungen ihrer Suchmaschinen erkennen und mehr Spezialsuchmaschinen benützen oder gezielt ins Deep Web gehen. "Im Moment", sagt Sherman, "benutzen die Leute ihre jeweilige Lieblingssuchmaschine aber noch mit derselben seltsamen Schicksalsergebenheit wie einen Glücksspielautomaten."


Quelle
http://www.heute.de


< zurück


[Seite Drucken]