heise online · c't · iX · Technology Review · Telepolis · mobil · Security · c't-TV · Jobs · IT-Markt · Kiosk
c't
  c't 16/2005, S. 52: Web-Suchmaschinen  
 
Aktuelles Heft
 
Support
Hotline & FAQ
Tipps & Tricks
Treiber & BIOS
Firmenkontakte
 
Download
Software zu c't
Software-Verzeichnis
c't-Projekte
Testbilder & Vorlagen
 
Service
Tipp-Datenbank
c't-CD-Register
Internettarife
Telefontarife
Virenschutz
Flohmarkt
 
Magazin
Heftarchiv
c't specials
English Pages
Benchmarks
Red. Stuff
Leserforum
c't-Bildmotive
URLs aus c't
Schlagseite
 
Aktionen
Browsercheck
Krypto-Kampagne
Schulen ans Netz
Netz gegen Kinderporno
TV/Radio-Termine
 
Abo & Heft
Veranstaltungen
Mediainfo
Kontakt
Impressum

Kiosk - Das Archiv via Micropayment

     

Richard Sietmann

Wider die Monokultur

P2P-Strategien gegen die Suchmaschinen-Monopolisierung

Überträgt man das Quasi-Monopol des Suchmaschinenbetreibers Google auf den Print-Bereich, entspräche die Situation im Web einer Welt, in der es neben ein paar lokalen Anzeigenblättern nur noch eine Zeitung gäbe. Nicht nur Meta-Suchmaschinen, auch ganz neue Ansätze versuchen sich an Abhilfen.

Stellt Google die ultimative Lösung dar oder inzwischen ein Problem? Für vier von fünf Websurfern in Deutschland ist die Antwort klar: Für sie ist Google die erste Anlaufstelle zum Aufspüren von Informationen im Internet und „googeln“ gleichbedeutend mit recherchieren. Die beiden anderen großen Suchmaschinenbetreiber, MSN Web-Suche und Yahoo, bringen es in der Online-Statistik von webhits.de [1] gerade mal auf 4,5 beziehungsweise 4,4 Prozent; AOL (2,3%) und T-Online (1,6%) reichen Suchanfragen an Google durch und erhöhen so den Marktanteil des Platzhirschen auf 85 Prozent. Alle anderen Recherche-Helfer hingegen, ob Web.de, MetaGer oder Fireball, bewegen sich in einer Nische.

Genau darin aber liegt auch ein Problem, denn Suchmaschinen lenken die Aufmerksamkeit auf Inhalte. „In keinem anderen Medium“, meint der Leiter des Suchmaschinenlabors am Regionalen Rechenzentrum Niedersachsen der Universität Hannover, Wolfgang Sander-Beuermann, „würde eine solche Machtkonzentration politisch geduldet.“ In der Tat gilt bei den Fernsehsendern bereits eine Konzentration von 30 Prozent Zuschaueranteil als Gefahr für die Meinungsvielfalt. Und das Kartellrecht stuft Unternehmen mit einem Marktanteil von 33 Prozent als marktbeherrschend ein.

Im Fall der Suchmaschinen gibt es dagegen keine Regeln. Ein marktbeherrschender Anbieter kann kontrollieren, welche Informationen verfügbar sind und welche nicht, entscheiden, in welcher Reihenfolge die Suchergebnisse auf dem Display des Nutzers erscheinen, und nachvollziehen, welche Informationen wann und von welchem Rechner aus abgerufen wurden.

Hinter den Kulissen

Besonders kritisch wird der Umgang mit den Nutzerdaten, wenn die großen Suchmaschinenbetreiber verstärkt auf die personalisierte Suche setzen. Der kleine Startup Blinkx hat bereits die Richtung vorgegeben: Das System beobachtet fortlaufend die Arbeiten des Users am Desktop, liest die geöffneten Dokumente und Webseiten mit und bietet ihm individuell passende Informationen aus dem Web an, ohne dass es dazu einer expliziten Suchanfrage bedarf. Die Internet-Recherchen laufen dabei im Hintergrund als Web-Service über die Rechner der in San Francisco ansässigen Firma, die auf ihrer Homepage beteuert, keine Profile anzulegen und die Nutzer anonym zu behandeln [2].

„Die Risiken sind bei den staatlichen Stellen überhaupt noch nicht angekommen“, kritisiert Sander-Beuermann, einer der Initiatoren des vor einem Jahr gegründeten „Gemeinnützigen Vereins zur Förderung der Suchmaschinen-Technologie und des freien Wissenszugangs“ (SuMa-eV) [3]. Einzig die Grünen haben sich kürzlich der Thematik angenommen und in einem für Parteibroschüren ungewöhnlich fundierten Papier unter dem Titel „Suchmaschinen: Das Tor zum Netz“ auf die Gefahren hingewiesen, die entstehen, wenn ein übermächtiger Pförtner den Zugang zu der Welt der Information im Internet kanalisiert. Darin fordern sie Transparenz im Page-Ranking sowie Datenschutz-Audits, setzen sich für die alternativen Anbieter ein und möchten die Medienkompetenz der Nutzer stärken [4].

Wie über Appelle an die Nutzer und den Gesetzgeber hinaus konkrete Alternativen aussehen könnten, erläuterte Sander-Beuermann auf einem Kolloquium im Konrad-Zuse-Institut in Berlin. Eine gewisse Abhilfe gegen den Tunnelblick aufs Web bieten bereits Meta-Engines, die Suchanfragen automatisch an mehrere Suchmaschinen weiterleiten und die gefundenen Treffer bündeln.

Die Masse machts

Weit interessanter ist jedoch ein von dem Frankfurter Informatiker Michael Christen entwickelter Ansatz, der erstmals die Suchmaschinentechnik mit dem Filesharing verbindet: YaCy (Yet another Cyberspace) ist ein P2P-Verbund von Rechnern, die gemeinsam die Suchmaschine bilden [5]. Nach dem Prinzip der Tauschbörsen steuert jeder Nutzer einen lokalen Suchindex für die globalen Suchanfragen bei, und bei der Suche selbst werden immer auch die Indexdaten von anderen gerade aktiven YaCy-Nutzern abgefragt.

Grafik Jeder Peer benötigt bei „Yet another Cyberspace“ einen http-Proxy-Server in Verbindung mit einer Search Engine, einer Datenbank und dem YaCy-P2P-Protokoll.

Die als Open Source unter der GNU General Public License verfügbare Java-Software des Prototypen - derzeit ist Version 0.38 aktuell - besteht im Wesentlichen aus der Search Engine PLASMA, einem http-Proxy-Server, dem YaCy-P2P-Protokoll und einer Datenbank. Wie eine herkömmliche Suchmaschine kann Plasma über eine http-Schnittstelle als Crawler das Internet nach Webseiten abgrasen und zu einem Reverse Word Index (RWI) verschlagworten, der zu jedem erfassten Suchbegriff die zugehörigen Links enthält. Der lokale Proxy-Server kann aber auch die vom Nutzer besuchten Seiten in einem Cache abspeichern, verschlagworten und in den Index integrieren; mit einer Prefetch-Funktion lassen sich mit einstellbarer Tiefe zudem die verlinkten Seiten im Umfeld der besuchten Seite erfassen. Damit die eigenen Browser-Aktivitäten dabei für andere unsichtbar bleiben, setzt YaCy auf den P2P-Anonymisierungsmechanismus der Distributed Hash Tables.

Genügend Peers vorausgesetzt, lässt die verteilte Erschließung eine weitaus gründlichere und aktuellere Erfassung erwarten, als zentral verwaltete Search Engines sie leisten können. Denn selbst dem Platzhirsch Google mit den nach eigenen Angaben mehr als acht Milliarden Webseiten in seinem Index bleiben Untersuchungen zufolge rund 40 Prozent des Web verborgen [6], weil längst nicht jede Webseite verlinkt ist, sodass sie von Crawlern gefunden werden kann. Dagegen würden auch solche Seiten aus dem Invisible Web ans Licht geholt und im YaCy-Index auftauchen, sobald ein Peer sie einmal besucht hat.

Aber kann ein Open-Source-Projekt mit P2P-Vernetzung ernsthaft gegen den Nasdaq-Liebling Google antreten - so wie Linux und Firefox mit steigendem Erfolg dem Microsoft-Monopol bei Desktop-Betriebssystemen und Internet-Browsern Paroli bieten? „Wenn sich dieses P2P-Suchmaschinennetz ausbreiten würde, dann könnte es zu einer Alternative zu kommerziellen Suchmaschinen werden“, glaubt Sander-Beuermann.

Noch ist das Rennen nicht einmal gestartet, bisher haben an dem Testprojekt insgesamt 695 Peers teilgenommen. Doch der Suchmaschinen-Experte ist zuversichtlich. „Kalkuliert man einmal über den Daumen, wie viel Peers es geben müsste, um mit Google zu konkurrieren, kommt man in die Größenordnung von einigen zehntausend - das ist also nicht absurd. “ (jk)

Literatur

[1] Online-Statistik von webhits.de

[2] Blinkx

[3] Gemeinnütziger Verein zur Förderung der Suchmaschinen-Technologie und des freien Wissenszugangs, www.suma-ev.de

[4] Bündnis 90/ Die Grünen, Suchmaschinen: Das Tor zum Netz, www.gruene-fraktion.de/cms/publikationen/dokbin/63/63265.pdf

[5] Yet another Cyberspace

[6] Andreas Pothe, Nachgezählt, Wie groß ist das WWW? c't 26/04, S. 164

[7] Jo Bager, Wettsuchen, Suchmaschinen-Test, c't 26/04, S. 156


Kommentare:
YaCy (CoolAllo 24.7.2005 23:12)

 
  Datenschutzhinweis
Copyright © 2005
Heise Zeitschriften Verlag
     
 Zuletzt aktualisiert von c't-WWW, 21.07.05
     
Seitenanfang