Suchmaschinen - Lotsen im Internet-Dschungel (LABO 11/1997)

Dr. Torsten Beyer, Saarbrücken


Das Internet hat sich in nur wenigen Jahren von einem überwiegend an Universitäten genutzten Kommunikations- und Informationsmedium zur größten Bibliothek der Welt gewandelt. Diese Entwicklung steht aber noch immer am Anfang und wird weitreichende Auswirkungen auf alle Bereiche unserer Gesellschaft haben. Die Welt wird zur Zeit vernetzt, über alle Grenzen, Ozeane und Kulturen hinweg. Wir stehen an der Schwelle eines neuen Zeitalters, der Informationsgesellschaft.

Momentan sind im Internet schätzungsweise 200 Millionen Textdokumente (in zunehmendem Maße auch Bilder, Videofilme und Tondokumente) verfügbar, mit weiterhin explosionsartigen Zuwachsraten. Diese ungeheuren Datenmengen bringen aber auch einige Probleme mit sich. Da sich das Internet so sprunghaft entwickelt hat und seine Struktur sehr dynamisch ist, fehlen grundlegende Richtlinien zur Gestaltung von Dokumenten im HTML-Format, der Sprache des Internets, bzw. sie werden unbewusst oder bewußt missachtet. Dadurch ist die systematische Erfassung vieler Dokumente erschwert bzw. nicht möglich, da sie nicht oder nur unzureichend von einer Suchmaschine indexiert werden können. Ein weiteres Problem ist die fast unüberschaubar große Anzahl von Suchmaschinen im Internet, die zu allem Überfluss teilweise sehr unterschiedliche Suchmöglichkeiten bieten, d.h. ihre Bedienung muß erst erlernt werden.

Dieser Artikel beschäftigt sich ausschließlich mit den universellen Suchmaschinen, d.h. solchen, mit denen das gesamte Internet nach beliebigen Inhalten durchsucht werden kann. Der große Bereich der Spezialsuchmaschinen für alle möglichen Bereiche (z.B. Branchenführer, Hotelreservierungen, Bahnverbindungen, E-Mail-Adressen usw.) bleibt hier unberücksichtigt.

Dem Informationssuchenden sollen Hilfestellungen für das Auffinden von naturwissenschaftlich relevanten Seiten im Internet gegeben werden. Dazu erfolgt zunächst eine Einführung in die unterschiedlichen Arten von Suchmaschinen. Danach werden diejenigen 10 Suchmaschinen (von über 40 untersuchten) mit den meisten Treffern bei den Suchtermen "Chemie", "Umwelt" und "Analytik" (Tab. 1) anhand verschiedener Kriterien (Zahl der gefundenen Dokumente, Suchmöglichkeiten, Online-Hilfe, Aktualität und Relevanz der Treffer) bewertet. Erfreulicherweise besitzen bis auf HotBot alle getesteten internationalen Suchmaschinen auch eine deutsche Oberfläche, die jedoch leider teilweise eine eingeschränkte Funktionalität (Excite) oder eine geringere Indexgröße (AltaVista) besitzen. Alle deutschen Suchmaschinen findet man unter http://www.klug-suchen.de, eine große Zahl internationaler Engines unter http://www.albany.net/allinone.


Arten von Suchmaschinen

- Roboter

Roboter sind Programme, die das Internet selbständig nach Dokumenten durchsuchen. Sie gehen von bestimmten Startseiten mit einer sehr großen Zahl von Verweisen aus und durchforsten dann alle Verweise (Hyperlinks) in diesen Dokumenten. Danach suchen sie in diesen Verweisen nach neuen Links usw. Dadurch können sie weite Bereiche des Internet selbständig durchforsten und indexieren, d.h. in einer Suchmaschine suchbar machen. Roboter können allerdings nur solche Dokumente finden, auf die in irgendeinem der bereits erfaßten Dokumente ein Verweis (Link) besteht. Es besteht aber auch für jeden, der seine Seiten im Internet veröffentlichen will, die Möglichkeit, diese per E-Mail direkt bei der Suchmaschine anzumelden. Nachteilig wirkt sich bei Robotern die fehlende redaktionelle Bearbeitung der Indizes auf die Qualität der gefundenen Daten aus. Man sollte daher die Datenquelle stets kritisch bewerten. Veröffentlichungen von Institutionen, Universitäten und bekannten Firmen sind oft qualitativ wertvoller als solche von unbekannten Privatpersonen, eine Bewertung muß der Informationssuchende aber immer selbst vornehmen. Dies ist das grundlegende Problem, aber auch die Stärke des Internet, daß jeder Zugang hat und auch jeder (fast) alles veröffentlichen kann, was er will.


- Indizes

Indizes sind redaktionell bearbeitete Internet-Kataloge, in denen Web-Adressen nach einzelnen Themengebieten geordnet werden wie etwa "Nachrichten", "Wissenschaft" oder "Kultur". Da hier eine redaktionelle Selektion des vorhandenen Materials erfolgt, ist die Qualität der hier gefundenen Informationen in der Regel höher als im Falle von Robotern, die Zahl der insgesamt berücksichtigten Seiten ist aber relativ gering, wodurch solche Systeme für spezielle naturwissenschaftliche Fragestellungen wenig geeignet sind. In anderen allgemeinen Bereichen des täglichen Lebens sind Indizes jedoch sehr wertvoll. Der bekannteste und größte Index ist Yahoo (http://www.yahoo.de). Viele der großen Suchmaschinen bieten neben einem Suchroboter auch redaktionell bearbeitete Indizes an.

Es ist zu erwarten, daß in Zukunft auf bestimmte Zielgruppen ausgerichtete Spezialindizes immer größere Bedeutung erlangen werden, da die ungeheuren Datenmengen, die das Internet bietet, und in Zukunft noch vielmehr bieten wird, anders überhaupt nicht mehr überblickt werden können.


- Metasuchsysteme

Metasuchsysteme sind keine Suchmaschinen im eigentlichen Sinn, sie ermöglichen nur die Suche in mehreren Datenbanken gleichzeitig mit einer Suchanfrage. Welche das sind, kann normalerweise durch Mausklick bestimmt werden. Dubletten werden in der Regel erkannt, so daß man auf einen Schlag alle verschiedenen Treffer zu einer Suchanfrage erhält. Solche Metasuchsysteme eignen sich für sehr spezielle Suchanfragen, wo nur relativ wenig Treffer zu erwarten sind, da zum einen die angezeigte Trefferzahl in den einzelnen Suchmaschinen relativ klein ist, zum anderen resultieren durch den Aufruf mehrerer Systeme gleichzeitig relativ lange Suchzeiten. Eine Zusammenstellung verschiedener Metasuchsysteme findet sich z.B. unter http://www.unix-ag.uni-siegen.de/search.


- Agenten

Agenten (Bots, Spider) sind autonom arbeitende, intelligente Suchprogramme, die das Netz selbständig nach vorgegebenen Fragestellungen durchsuchen und die Trefferlisten an den Benutzer übermitteln. Im Moment können aber nur eingeschränkte Bereiche des Internet mit Hilfe von Bots durchsucht werden, sie können sich aber in Zukunft zu einem interessanten Tool entwickeln. Die großen Suchmaschinen nutzen solche Helfer seit jeher zur Erhöhung der Zahl ihrer indexierten Web-Seiten. Eine Sammlung von Agenten findet sich unter http://www.botspot.com.

Neben den hier beschriebenen kostenlosen Suchmaschinen (ihre Finanzierung erfolgt fast durchweg durch Werbeeinblendungen) gibt es inzwischen auch einige kommerzielle Produkte unter Windows95 (siehe CHIP 7/97, Seite 168-172), die hier nicht weiter betrachtet werden.


Bewertung der getesteten Suchmaschinen:

Für die Bewertung der Leistungsfähigkeit einer Suchmaschine spielen verschiedene Kriterien ein Rolle. Neben der Zahl Treffer auf eine Suchanfrage sind dies vor allem die möglichen Suchoptionen, die Relevanz der Treffer und die Frage der Aktualisierung des Index. Bewertet wurde außerdem die Online-Hilfe und die Bedienung. Alle drei Kriterien (1. Trefferzahl, Relevanz, Aktualität, 2. Online-Hilfe und Bedienung und 3. Suchoptionen) wurden bei der Beurteilung gleich gewichtet.

Die Zahl der Internet-Seiten, die eine Suchmaschine indexiert hat, ist als Bewertungskriterium ungeeignet, da es hier verschiedene Zählarten gibt:

  1. Man zählt nur die Seiten, deren Inhalt wirklich indiziert wurde.
  2. Es werden auch alle Links auf andere Seiten gezählt, selbst wenn diese Seiten vom Roboter der Suchmaschine nie besucht wurden.
  3. Es wird jeder Link gezählt, auch wenn er mehr als einmal vorkommt.

Da die Art der Zählung in der Regel ein Geheimnis der Betreiber der Suchmaschine ist, und jeder mit möglichst vielen Adressen werben will, sind Angaben wie "Hier finden sie über 50 Millionen Seiten im Netz" mit Vorsicht zu genießen. Darüber hinaus sind die benutzten Indexierungsmechanismen für Dokumente ein gut gehütetes Geheimnis (in der Regel wird eine bestimmte Anzahl von Zeichen zu Beginn einer HTML-Seite gelesen und indexiert, manchmal sogar der komplette Text).

Das wichtigste Beurteilungskriterium für die Leistungsfähigkeit einer Suchmaschine ist also die Zahl der Treffer auf einer Suchanfrage und deren Qualität. Haben die Treffer wirklich etwas mit der eingegebenen Anfrage zu tun (Relevanz)? Sind die Links überhaupt noch gültig und wie ändert sich die Trefferzahl im Laufe der Zeit (Aktualität)? Zur Bewertung der Qualität der Treffer wurde eine Suche nach "Chromatographie" und "Pestizide" durchgeführt und die Relevanz sowie die Gültigkeit der einzelnen Links überprüft. Nicht mehr gültige Links wirkten sich dabei negativ auf die Bewertung aus. Überraschenderweise lieferte hier die deutsche Suchmaschine Fireball die meisten Treffer (Tab. 2), bei HotBot waren 40% der Links nicht mehr gültig. Die Aktualität wurde überprüft, indem die gleiche Suchanfrage im Abstand von drei Wochen durchgeführt wurde. Dabei erhöhte sich die Trefferzahl bei fünf Suchmaschinen teilweise sehr stark (AltaVista, Fireball, HotBot, Excite, Euroseek), bei den anderen änderte sich wenig bis nichts, was auf eine schlechte Pflege dieser Maschinen schließen lässt.

Die größten Unterschiede zwischen den Testkandidaten ergeben sich bei den zur Verfügung stehenden Suchoptionen (logische Ausdrücke und deren Verknüpfungen, Trunkierung usw.). Hier ist AltaVista nach wie vor das Maß der Dinge (Tab. 3). Diese Suchmaschine kommt fast an die Funktionalität der von den kommerziellen Datenbankanbietern (Hosts) bekannten Retrievalsprachen heran. Danach folgen Excite, HotBot und die deutsche Suchengine Fireball, die bei Suchen im deutschsprachigen Raum fast mit AltaVista konkurrieren kann. Die restlichen Kandidaten bis auf Infoseek (Suche nach untergeordneten Seiten der Trefferliste möglich) fallen deutlich ab und können nur bedingt für spezielle Aufgaben (Euroseek für Suche in ganz Europa, Nathan für die Suche nach anderen Dateitypen wie z.B. Postscript) oder gar nicht empfohlen werden (Intersearch, Netguide, Crawler). Ein wichtiger Punkt soll hier noch einmal betont werden: Insbesondere bei komplexen Suchanfragen sollte großer Wert auf deren korrekte Formulierung gelegt werden, da dies die Qualität der Ergebnisse stark beeinflussen kann. Oft macht man den Fehler, eine Anfrage zu ungenau bzw. zu allgemein zu formulieren, was in der Regel zu einer großen Zahl von Treffern führt, durch die man sich dann mühsam durchkämpfen muß, um die wirklich relevanten Treffer zu selektieren. Viele Anwender geben an dieser Stelle auch frustriert auf. Man sollte sich stets über die vorhandenen Suchoptionen informieren und diese dann auch benutzen um kleine Trefferlisten mit hoher Relevanz zu bekommen. Hier kann die Übersicht in Tab. 3 ein wichtiges Hilfsmittel sein. Am sichersten fährt man immer noch, wenn man die gleiche Suche in mehreren Maschinen, gegebenenfalls unter Zuhilfenahme einer Meta-Suchmaschine, durchführt.

Bei der Suche nach "Chromatographie" bzw. "Chromatography" (Tab. 4) wird offensichtlich, daß der überwiegende Anteil der Dokumente im Internet in englischer Sprache vorliegt. Man sollte daher immer dann, wenn man nicht nur auf deutschsprachige Inhalte aus ist, auch nach dem englischen Fachbegriff suchen, da dies die Zahl der Treffer in der Regel drastisch erhöht.

Zusammenfassend kann man also sagen, daß AltaVista die beste Suchmaschine für weltweite Suchen ist, gefolgt von Excite und mit einigen Abstrichen von HotBot. Ist die Suche auf den deutschsprachigen Raum beschränkt, sind Fireball und die deutsche Version von AltaVista zu empfehlen, alle anderen deutschen Suchmaschinen weisen deutliche Mängel auf (Tab. 5). Es soll hier aber nicht verschwiegen werden, daß die heute verfügbaren Suchmaschinen mit den kommerziellen Hosts noch nicht konkurrieren können. Das liegt aber nicht nur an den Suchmaschinen selbst, sondern daran, daß immer noch relativ wenig wissenschaftliche Fachinformationen in Deutschland online verfügbar sind, hier sind uns die Amerikaner weit voraus. Außerdem gibt es sehr viele unvollständige und fehlerhafte HTML-Seiten, die eine vernünftige Aufarbeitung der Daten in einer Suchmaschine erschweren.



Suchmaschine Trefferzahl bei der Suche nach  
  "Chemie" "Umwelt" "Analytik" Gesamt
AltaVista 210140 196610 12400 419150
HotBot 59226 46198 4204 109628
Fireball 44875 55181 4115 104171
Excite 43230 35875 2982 82087
Infoseek 30443 23181 2103 55727
Nathan 14875 20694 2040 37609
Crawler 15481 17315 1235 34031
Euroseek 17716 14584 1622 33922
Intersearch 15204 13274 885 29363
Netguide 6013 6170 1972 14155

Tab. 1: Die 10 Suchmaschinen mit den meisten Dokumenten im Internet
(von über 40 untersuchten), Stand: 01.08.1997



Suchmaschine Treffer bei der Suche nach
"Chromatographie" AND "Pestizide"
Fireball 18
AltaVista 131, 62
HotBot 13
Excite 9
Nathan 5
Netguide 4
Crawler 3
Intersearch 3
Infoseek 2
Euroseek 1

Tab. 2: Suche nach "Chromatographie" AND "Pestizide"
1deutsche Version von AltaVista
2internationale Version von AltaVista



Suchmaschine Trefferzahl bei Suchbegriff
  "Chromatographie" "Chromatography"
AltaVista 2760 90130
HotBot 1466 32130
Excite 1053 23714
Infoseek 803 18673
Fireball1 674 172
Netguide 464 6010
Euroseek 376 7952
Intersearch1 277 151
Nathan1 275 2073
Crawler1 166 80

Tab. 4: Suchbeispiel Chromatographie bzw. Chromatography
1Suchmaschinen mit Dokumenten ausschließlich aus dem deutschsprachigen Raum



Such-
maschine
Suchoptionen
  immer nie und1 oder1 nicht1 nahe bei1 Ausdruck Klam-
merung
Trun-
kierung
USENET Zeit Bemerkungen
AltaVista + - AND
&
OR
|
NOT
!
NEAR
~
"Wort1
  Wort2"
( ) * ja ja viele zusätzlichen Optionen
Crawler     "Wort1
  Wort2"
            nein nein  
Euroseek     AND
 
OR     "Wort1
  Wort2"
( )   nein nein Suche in ganz Europa möglich
Excite + - AND OR NOT   "Wort1
  Wort2"
( )   ja ja Synonym-
vorschläge, zusätzliche Optionen
Fireball     AND
&
OR
|
NOT
!
NEAR
~
"Wort1
  Wort2"
( ) * ja ja zusätzliche Optionen
HotBot + - AND
&
OR
|
NOT
!
  "Wort1
  Wort2"
( )   ja ja Suche speicherbar, viele weitere Optionen
Infoseek + - AND     [Wort1 Wort2] "Wort1
  Wort2"
Wort1-Wort1
  * nein nein untergeord-
nete Seiten der Trefferliste suchbar
Intersearch     + , -         nein nein Statistiken zur Häufigkeit aller Suchbegriffe
Nathan   - AND OR           nein nein andere Datentypen suchbar (z.B. Postscript)
Netguide     AND OR           nein nein basiert auf Lycos

Tab.3: 1Falls eine Kurzschreibweise möglich ist, steht diese in der 2. Zeile


Erklärung der Suchoptionen:

immer: Der Suchbegriff muß auf der Seite vorkommen.

nie: Der Suchbegriff darf nicht auf der Seite auftreten.

und: Die verknüpften Ausdrücke müssen beide auftreten, z.B. "GC" AND "MS" liefert alle Seiten, auf denen sowohl "GC" als auch "MS" erwähnt wird.

oder: Mindestens einer der verknüpften Ausdrücke muß auftreten, z.B. "Herbizide" OR "Pestizide" liefert alle Seiten, auf denen beide Wörter vorkommen.

nicht: Der 1. Ausdruck muß, der 2. darf nicht auftreten, z.B. "Chromatographie" NOT "HPLC" liefert alle Seiten über "Chromatographie", auf denen "HPLC" nicht erwähnt wird.

nahe bei: Die verknüpften Begriffe dürfen nicht weiter als 10 Wörter auseinander stehen.

Ausdruck: Es kann ein zusammenhängender Ausdruck gesucht werden, z.B. "elektrolytische Abscheidung"

Klammerung: Ermöglicht die Verknüpfung logischer Ausdrücke, z.B. ("Chromatographie" OR "Spektroskopie") AND "Pestizide"

Trunkierung: Die Maskierung des Wortendes ist möglich, z.B. "Chromatograph*" findet sowohl "Chromatographie" als auch "Chromatography"

USENET: Die Suche kann auch in Newsgruppen durchgeführt werden.

Zeit: Hier kann der Erfassungszeitraum festgelegt werden, in dem Dokumente gesucht werden.



Suchmaschine Trefferzahl, Relevanz und
Aktualität
Online-Hilfe und Bedienung Suchoptionen Gesamtbewertung1
AltaVista2 1 1 1 1,0
Fireball 2 1 1 1,3
Excite 2 1 2 1,7
HotBot 3 2 2 2,3
Infoseek 4 2 3 3,0
Euroseek 4 3 3 3,3
Nathan 4 3 4 3,7
Intersearch 5 3 4 4,0
Netguide 5 4 5 4,7
Crawler 6 4 5 5,0

Tab. 5: 1bewertet wurde von sehr gut(1) bis ungenügend(6)
2deutsche Version mit insgesamt geringerer Indexgröße aber mehr deutschen Adressen

  • zurück
  • Druck

Abonnieren:

  • RSS Feed abonnieren

Empfehlen:

  • Twitter
  • Facebook
  • Google+
  • XING