Wegen der chaotischen Fülle von Informationsseiten des WWW (Millionen Dokumente) ist Surfen mit dem Tarzan-Prinzip eine nette Freizeitbeschäftigung aber ineffektiv beim gezielten Recherchieren. Die Suchmaschinen (engl. Search Engines) mit ihren Benutzeroberflächen, die selbst in Form eines Hypertext-Dokumentes aufgebaut sind, ermöglichen eine Suche im Volltext der existierenden WWW-Seiten nach bestimmten Wörtern und Wortkombinationen. Sie versuchen so viel wie möglich vom WWW zu erfassen. Dafür schicken Sie Programme, sogenannte Robots, auf Datenjagd ins Netz.
Wie arbeiten die Suchmaschinen?
Sie verrichten automatisch folgende Dienste:
Sie sind Datenbanken, die mit Hilfe von automatischen
Suchprogrammen, sogenannten „Robots“ (auch "spiders", "crawlers"
oder "worms"), aufgebaut werden. Diese Programme durchsuchen
systematisch in gewissen Zeitabständen das Web (Harvesting),
speichern und indizieren die wichtigsten Stichwörter
eines jeden Dokumentes gemeinsam mit seiner WWW-Adresse (Indexierung).
Mit Hilfe von Suchprogrammen können diese erzeugten Datenbanken durchsucht
werden (Retrieval). Als Ergebnis erhält man eine Liste der
Titel der Dokumente, die die betreffenden Suchwörter enthalten, und
deren URL, von denen man per Mausklick direkt auf die betreffenden Adressen
zugreifen kann (Ergebnisanzeige). Darüber hinaus werden
teilweise automatisch generierte Auszüge aus
dem Text angezeigt, oft irreführend Summary oder Abstract genannt.
Die Suchergebnisse werden meistens nach deren von jeder Suchmaschine eingeschätzten
Relevanz
geordnet
und angezeigt.
2) "Webleichen" oder "tote" Links, d.h. alte URL's , die
nicht mehr existieren oder sich geändert haben, sind fast nicht zu
vermeiden, da die Robots nur in gewissen Zeitabständen (wöchentlich,
monatlich, usw.) das Web durchsuchen können ("robots do
not revisit the site for at least two weeks or a month").
Aus
diesem Grund ist die Aktualisierung der Suchmaschine von großer
Bedeutung.
Zumindest theoretisch ist die Möglichkeit einer häufigen
Aktualisierung gegeben, in Wirklichkeit scheinen jedoch ca. 15% der Links
"tote" Links zu sein, wie mehrere Studien zeigen.
3) Genauso störend sind Dubletten in Trefferlisten. Die meisten Suchmaschinen versuchen sie mit unterschiedlichem Erfolg anhand der URL herauszufiltern (z.B. 1 Item pro Site)
4) Seien Sie nicht besorgt, wenn Sie Millionen Hits finden!
Unterschied zu traditionellen Suchmethoden (z.B.
Online-Datenbanken wie Dialog).
Das Positive: Sie finden auch andere, unerwartete, interessante
Hits, wenn die Suchmaschine verstanden hat, wonach Sie
eigentlich suchen! Diese zusätzlichen Ergebnisse sind
dann von großer Bedeutung! Dabei spielt die Relevanz
eine
wichtige Rolle.
Die Relevanz ist der Schlüssel zur Enthüllung
der Arbeitsweise der Suchmaschinen.
Wie funktioniert sie?
Beachten Sie:
Jede Suchmaschine hat ihre eigene Methode zur Anfertigung und
Darstellung ihrer Relevanz-Rankings.
Neue Entwicklungen der Technologie der Suchdienste:
Einbeziehung des Menschen bei der Bestimmung der Relevanz.
So spricht man von Suchdiensten der ersten und zweiten Generation:
5. Kriterien zur Beurteilung einer Suchmaschine
Die wichtigsten Kriterien sind:
1) Umfang
Der Umfang dieser Dienste erstreckt sich von wenigen Hunderttausend bis hin zu Millionen Dokumenten. Leider verwendet jeder Dienst für die Angabe seiner Größe eine andere Maßeinheit.
2) Aktualisierung
Der angegebene Aktualisierungstakt unterscheidet sich stark von wöchentlich (Lycos, WebCrawler) bis hin zu einmal im Jahr (WWW Worm). Auch unter Update werden verschiedene Dinge verstanden: wie oft überhaupt neue Daten in den Index aufgenommen werden (eine Angabe von geringem Interesse), bzw. wie oft die gleichen Server und Seiten neu überprüft und gegebenenfalls neu indiziert werden. Verlässliche Angaben hierüber sind fast nicht vorhanden.
3) Geschwindigkeit
Die Antwortzeit der Suchmaschinen spielt eine wichtige Rolle bei deren Beurteilung. Diese Zeit ist aber von Gesamtnetzbelastung sehr stark abhängig.
4) Deckungsbereich
Der geographische und der fachliche Deckungsbereich der einzelnen Dienste lässt sich kaum feststellen. Das Harvesting (Einsammeln) geschieht zumeist mit Methoden, die keine scharfen Abgrenzungen ergeben. Es gibt aber nationale Suchmaschinen.
Unter der Annahme, dass das Web einen Umfang von 320 Mio. Seiten hat, liefert die Studie von Lawrence und Giles ("Science", Apr.98) das ernüchternde Ergebnis, dass keine Suchmaschine mehr als ein Drittel des Web indiziert. Kombiniert man die Ergebnisse der sechs untersuchten Suchmaschinen, so erzielt man eine 3,5 größere Abdeckung als bei Benutzung einer einzelnen.
(HotBot: 34%; AltaVista 28%; NorthernLight 20%; Excite: 14%; Infoseek: 10%; Lycos: 3%) ( Accessibility of information on the web, 1999; Web Accessibility, The EU Internet Handbook)
5) Harvesting
Die verwendeten Strategien entscheiden darüber, welche Server gefunden werden und welche Dokumente bevorzugt indiziert werden. Generell gilt im Augenblick, dass die domänenbegrenzten und die zahlenmäßig größten Dienste auch die tiefste Erschließung bieten.
6) Indizierung
Die meisten Roboterdienste neueren Datums arbeiten mit Volltextindizierung. Deren Interpretation von Volltext bewegt sich von dem Extrakt signifikanter Einzelbegriffe, den ersten zwanzig zusammenhängenden Zeilen in Kombination mit anderen Elementen des Dokumentes (Lycos) bis hin zum kompletten Text einschließlich gewisser Metainformation (TAG = Steuerzeichen in HTML, Hypertext Markup Language). Zusätzlich bieten fast alle Suchmaschinenbetreiber dem Benützer die Möglichkeit, URL's selbst einzugeben.
7) Benützungsoberfläche: Suchmaske und Optionen
Jede Maschine verwendet ihre eigene Retrievalsoftware und Benützungsoberfläche. Die meisten bieten eine "Expertensuche" (Advanced Search, auch Power Search gennant). Die Meinungen darüber divergieren stark. Jeder hat seine Lieblingsmaschine.
8) Anzeige der Ergebnisse
Es ist nicht selbstverständlich, dass die gesamte indizierte Information auch im Suchergebnis angezeigt wird bzw. nachlesbar ist. Einige Dienste begnügen sich damit, den Titel der Dokumente des Suchergebnisses anzuzeigen (WebCrawler), andere zeigen auf Wunsch des Nutzers die komplette Information, während manche (wie z.B. die Suchmaschine Excite mit "More like this") sogar direkten URL-Zugriff auf "ähnliche" Dokumente anbieten.
9) Ordnung nach Relevanz
Jede Maschine sortiert die Ergebnisse der Relevanz anders, und nicht alle erklären, wie sie diese bestimmen. Normalerweise wird ein Prozentwert als Maß angegeben ("Relevance score").
Ein ausführliches Beschreibungsschema einer Suchmaschine wurde für das EU-Projekt DESIRE von T. Gott vorgeschlagen.
Als Beispiel finden Sie hier Beschreibungen von AltaVista,
HotBot,
und Excite.
Genaue Informationen über die Größe sowie
technische Details der Suchmaschinen stammen fast immer von der Betreiberfirma
und müssen sehr kritisch hinterfragt werden. Search engine land (früher Search
EngineWatch) bietet jedoch einen Überblick über die aktuellen
Ergebnisse von Suchmaschinentests.
6. Wofür werden die Suchmaschinen verwendet?
Die meisten Suchmaschinen stehen jedem Internauten kostenlos
zur Verfügung. Alle großen Universal-Suchmaschinen werden von
kommerziellen Unternehmen betrieben. Wie werden sie finanziert? Durch Werbeeinnahmen
und Lizenzeinnahmen. Manche Suchmaschinen bekommen Millionen
Anfragen täglich, was Werbung auf ihrer Startseite besonders wertvoll macht.
Könnte durch bezahlte Werbung dann die Ergebnisanzeige beeinflusst
werden?
Beispiel: Treffer, die im Zusammenhang mit Werbung zahlenden Firmen
stehen, könnten bevorzugt und im Suchergebnis ganz am Anfang aufgelistet
werden?
Theoretisch wäre es möglich, durch eingebaute Rankingmechanismen.
In der Praxis hat sich aber der Kompromissdurchgesetzt, dass die Werbung von
der Ergebnisanzeige getrennt bleibt und alternativ neben den Treffern auf eigener
Spalte angezeigt wird.
Trick: Sie
finden nicht die richtigen Suchwörter!
Hilfe bei HTML-Dokumenten, meistens eigene Beschlagwortung!
Klicken Sie auf Ansicht + Seitenquelltext
auf der Menüzeile Ihres Browsers::
Die Suchwörter sind unter META NAME= „Keywords“
CONTENT = „etc.,etc.“ zu finden.
Achtung: SPAMMING: Manche Suchmaschinen bekommen Millionen
Anfragen täglich, was Werbung auf ihrer Startseite besonders wertvoll macht.
Willkürliche Wiederholung eines Wortes, um bei jeder
Suchmaschine immer an erste Stelle bei einer bestimmten Suchanfrage zu
erscheinen! (Alta Vista verhindert es: maximale Erscheinungshäufigkeit
wird auf 2 eingeschränkt!)
(Dublin Core = ein besonders im Bibliothekswesen verbreitetes
Schema zur genormten Vergabe von Meta-Tags in HTML-Dokumenten)
„Jede Suchmaschine liefert manchmal
gute, manchmal schlechte Ergebnisse. Es gibt keine, welche immer gute liefert".
Deswegen: verlassen
Sie sich niemals auf eine Suchmaschine alleine!
Wenn Sie umfassende Informationen über ein bestimmtes Thema
suchen, werden Sie feststellen, dass auch die beste Suchmaschine nicht alles
abdeckt. Verwenden Sie dann Meta-Suchdienste, Themenverzeichnisse
und andere spezielle Suchdienste.
10. Auswahl und Vergleiche
Das Angebot an Search Engines ist sehr groß. Im
WWW gibt es mehr als 1800
Suchdienste. Eine aktuelle Liste ist in Wikipedia zu finden.
Es gibt auch fachlich begrenzte Suchmaschinen und Suchmaschinen die nur für bestimmte Bereiche, wie z.B.
OAISter für Open Access.