Vortrag\sminfo

Suchmaschinen

1. Einführung
2. Definition
3. Problematik
4. Relevanz
5. Kriterien zur Beurteilung einer Suchmaschine
6. Wofür werden die Suchmaschinen verwendet?
7. Was die Suchmaschinen nicht finden
8. Finanzierung
9. Hinweise zur Benutzung
10. Auswahl und Vergleiche

1. Einführung

Wegen der chaotischen Fülle von Informationsseiten des WWW (Millionen Dokumente) ist Surfen mit dem Tarzan-Prinzip eine nette Freizeitbeschäftigung aber ineffektiv beim gezielten Recherchieren. Die Suchmaschinen (engl. Search Engines) mit ihren Benutzeroberflächen, die selbst in Form eines Hypertext-Dokumentes aufgebaut sind, ermöglichen eine Suche im Volltext der existierenden WWW-Seiten nach bestimmten Wörtern und Wortkombinationen. Sie versuchen so viel wie möglich vom WWW zu erfassen. Dafür schicken Sie Programme, sogenannte Robots, auf Datenjagd ins Netz.

2. Definition

Wie arbeiten die Suchmaschinen?
Sie verrichten automatisch folgende Dienste:

Harvesting oder Gathering
Prozess des Einsammelns der Daten
Indizierung
Die eingesammelten Daten werden gespeichert und indiziert
Retrieval
EDV-Verfahren, welches das gezielte Suchen und Auffinden von Informationen unterstützt.Gleichzeitig bieten Sie für die Suche eine Benutzeroberfläche in Form eines Hypertext-Dokumentes.

Sie sind Datenbanken, die mit Hilfe von automatischen Suchprogrammen, sogenannten „Robots“ (auch "spiders", "crawlers" oder "worms"), aufgebaut werden. Diese Programme durchsuchen systematisch in gewissen Zeitabständen das Web (Harvesting),
speichern und indizieren die wichtigsten Stichwörter eines jeden Dokumentes gemeinsam mit seiner WWW-Adresse (Indexierung). Mit Hilfe von Suchprogrammen können diese erzeugten Datenbanken durchsucht werden (Retrieval). Als Ergebnis erhält man eine Liste der Titel der Dokumente, die die betreffenden Suchwörter enthalten, und deren URL, von denen man per Mausklick direkt auf die betreffenden Adressen zugreifen kann (Ergebnisanzeige). Darüber hinaus werden teilweise automatisch generierte Auszüge aus dem Text angezeigt, oft irreführend Summary oder Abstract genannt. Die Suchergebnisse werden meistens nach deren von jeder Suchmaschine eingeschätzten Relevanz geordnet und angezeigt.

3. Problematik

1) Jede Suchmaschine sucht anders.
Die Suchmaschinen unterscheiden sich sehr stark voneinander bei der Verrichtung der oben angeführten Dienste. Keine Suchmaschine unterstützt alle möglichen Suchfunktionen. Deshalb findet jede Suchmaschine andere Items, die bei den anderen nicht auftreten.
Deshalb: Machen Sie sich mit einigen Suchmaschinen vertraut!

2) "Webleichen" oder "tote" Links, d.h. alte URL's , die nicht mehr existieren oder sich geändert haben, sind fast nicht zu vermeiden, da die Robots nur in gewissen Zeitabständen (wöchentlich, monatlich, usw.) das Web durchsuchen können ("robots do not revisit the site for at least two weeks or a month"). Aus diesem Grund ist die Aktualisierung der Suchmaschine von großer Bedeutung.
Zumindest theoretisch ist die Möglichkeit einer häufigen Aktualisierung gegeben, in Wirklichkeit scheinen jedoch ca. 15% der Links "tote" Links zu sein, wie mehrere Studien zeigen.

3) Genauso störend sind Dubletten in Trefferlisten. Die meisten Suchmaschinen versuchen sie mit unterschiedlichem Erfolg anhand der URL herauszufiltern (z.B. 1 Item pro Site)

4) Seien Sie nicht besorgt, wenn Sie Millionen Hits finden!
Unterschied zu traditionellen Suchmethoden (z.B. Online-Datenbanken wie Dialog).
Das Positive: Sie finden auch andere, unerwartete, interessante Hits, wenn die Suchmaschine verstanden hat, wonach Sie eigentlich suchen! Diese zusätzlichen Ergebnisse sind dann von großer Bedeutung! Dabei spielt die Relevanz eine wichtige Rolle.

4. Relevanz

Die Relevanz ist der Schlüssel zur Enthüllung der Arbeitsweise der Suchmaschinen.
Wie funktioniert sie?

Jedes Wort erhält ein numerisches Gewicht. Dieses hängt sowohl vom Wort selbst (häufig erscheinendes Wort = kleines Gewicht) als auch von seiner Eintragungsordnung auf der Suchmaske ab.
Robots suchen Dokumente in denen sich diese Wörter befinden. Sie zählen und bewerten die Häufigkeit ihres Erscheinens und die Stelle, an der sie gefunden worden sind (z. B. wird ein Treffer in der Überschrift höher bewertet als am Ende des Textes).
Aufgrund von Gewicht und Erscheinungshäufigkeit werden die Relevance-Rankings ermittelt, d.h. die Listen der Treffer nach deren Relevanz sortiert und geordnet. Üblicherweise erscheint bei jedem Treffer der errechnete "score" (Prozentwert).

Beachten Sie:
Jede Suchmaschine hat ihre eigene Methode zur Anfertigung und Darstellung ihrer Relevanz-Rankings.

Neue Entwicklungen der Technologie der Suchdienste:
Einbeziehung des Menschen bei der Bestimmung der Relevanz.
So spricht man von Suchdiensten der ersten und zweiten Generation:

Suchdienste der ersten Generation:
Relevanz: maschinell ermittelt
Organisation der Ergebnisse: Vertikale Darstellung der Anzeige der Treffer, die nach deren Relevanz geordnet werden (Im Idealfall sind die besten Dokumenten ganz oben gereiht)
Beispiele: AltaVista, Lycos, Hotbot
Suchdienste der zweiten Generation:
Zwei Hauptgruppen:
A) Relevanz durch Einbeziehung des Menschen
1) wie häufig werden die gefundenen Seiten zitiert (peer ranking) (bzw. wieviele Seiten "linken" auf diese Seiten) (z. B. Google, PageRank)
2) wie "populär" (häufig besucht) sind die gefundenen Seiten (z. B. Direct Hit)
Organisation der Ergebnisse: Vertikale Darstellung der Anzeige
B) Relevanz: Einbeziehung der Konzepte (Begriffe)
Organisation der Ergebnisse: Horizontale Darstellung der Anzeigeder Treffer in verschiedenen Kategorien (je nach Konzept) oder "Custom Search Folders" wie in Northern Light oder Clusty.
Andere Beispiele: Query Server, Guidebeam, Vivisimo

5. Kriterien zur Beurteilung einer Suchmaschine

Die wichtigsten Kriterien sind:

1) Umfang
Der Umfang dieser Dienste erstreckt sich von wenigen Hunderttausend bis hin zu Millionen Dokumenten. Leider verwendet jeder Dienst für die Angabe seiner Größe eine andere Maßeinheit.
2) Aktualisierung
Der angegebene Aktualisierungstakt unterscheidet sich stark von wöchentlich (Lycos, WebCrawler) bis hin zu einmal im Jahr (WWW Worm). Auch unter Update werden verschiedene Dinge verstanden: wie oft überhaupt neue Daten in den Index aufgenommen werden (eine Angabe von geringem Interesse), bzw. wie oft die gleichen Server und Seiten neu überprüft und gegebenenfalls neu indiziert werden. Verlässliche Angaben hierüber sind fast nicht vorhanden.
3) Geschwindigkeit
Die Antwortzeit der Suchmaschinen spielt eine wichtige Rolle bei deren Beurteilung. Diese Zeit ist aber von Gesamtnetzbelastung sehr stark abhängig.
4) Deckungsbereich
Der geographische und der fachliche Deckungsbereich der einzelnen Dienste lässt sich kaum feststellen. Das Harvesting (Einsammeln) geschieht zumeist mit Methoden, die keine scharfen Abgrenzungen ergeben. Es gibt aber nationale Suchmaschinen.
Unter der Annahme, dass das Web einen Umfang von 320 Mio. Seiten hat, liefert die Studie von Lawrence und Giles ("Science", Apr.98) das ernüchternde Ergebnis, dass keine Suchmaschine mehr als ein Drittel des Web indiziert. Kombiniert man die Ergebnisse der sechs untersuchten Suchmaschinen, so erzielt man eine 3,5 größere Abdeckung als bei Benutzung einer einzelnen.
(HotBot: 34%; AltaVista 28%; NorthernLight 20%; Excite: 14%; Infoseek: 10%; Lycos: 3%) ( Accessibility of information on the web, 1999; Web Accessibility, The EU Internet Handbook)
5) Harvesting
Die verwendeten Strategien entscheiden darüber, welche Server gefunden werden und welche Dokumente bevorzugt indiziert werden. Generell gilt im Augenblick, dass die domänenbegrenzten und die zahlenmäßig größten Dienste auch die tiefste Erschließung bieten.
6) Indizierung
Die meisten Roboterdienste neueren Datums arbeiten mit Volltextindizierung. Deren Interpretation von Volltext bewegt sich von dem Extrakt signifikanter Einzelbegriffe, den ersten zwanzig zusammenhängenden Zeilen in Kombination mit anderen Elementen des Dokumentes (Lycos) bis hin zum kompletten Text einschließlich gewisser Metainformation (TAG = Steuerzeichen in HTML, Hypertext Markup Language). Zusätzlich bieten fast alle Suchmaschinenbetreiber dem Benützer die Möglichkeit, URL's selbst einzugeben.
7) Benützungsoberfläche: Suchmaske und Optionen
Jede Maschine verwendet ihre eigene Retrievalsoftware und Benützungsoberfläche. Die meisten bieten eine "Expertensuche" (Advanced Search, auch Power Search gennant). Die Meinungen darüber divergieren stark. Jeder hat seine Lieblingsmaschine.
8) Anzeige der Ergebnisse
Es ist nicht selbstverständlich, dass die gesamte indizierte Information auch im Suchergebnis angezeigt wird bzw. nachlesbar ist. Einige Dienste begnügen sich damit, den Titel der Dokumente des Suchergebnisses anzuzeigen (WebCrawler), andere zeigen auf Wunsch des Nutzers die komplette Information, während manche (wie z.B. die Suchmaschine Excite mit "More like this") sogar direkten URL-Zugriff auf "ähnliche" Dokumente anbieten.
9) Ordnung nach Relevanz
Jede Maschine sortiert die Ergebnisse der Relevanz anders, und nicht alle erklären, wie sie diese bestimmen. Normalerweise wird ein Prozentwert als Maß angegeben ("Relevance score").

Ein ausführliches Beschreibungsschema einer Suchmaschine wurde für das EU-Projekt DESIRE von T. Gott vorgeschlagen. Als Beispiel finden Sie hier Beschreibungen von AltaVista, HotBot, und Excite.
Genaue Informationen über die Größe sowie technische Details der Suchmaschinen stammen fast immer von der Betreiberfirma und müssen sehr kritisch hinterfragt werden. Search engine land (früher Search EngineWatch) bietet jedoch einen Überblick über die aktuellen Ergebnisse von Suchmaschinentests.

6. Wofür werden die Suchmaschinen verwendet?

Als grobe Regel gilt, dass Suchmaschinen erst bei Suchfragen mit drei oder mehr Suchbegriffen anwendbar sind. Sie sind deshalb vor allem für die Beantwortung spezieller Fragestellungen gut geeignet.
Für die Suche im Volltext der Dokumente

7. Was die Suchmaschinen nicht finden

Neu erstellte oder geänderte Dokumente
Geschützte Dokumente
Dynamische Dokumente/ Datenbankgateways

z. B.: Inhalt von Datenbanken oder Bibliothekskatalogen kann nicht durchgesucht werden
(Das sogenannte "deep" or "invisible" Web)

Frames, Java und Javascripts

8. Finanzierung

Die meisten Suchmaschinen stehen jedem Internauten kostenlos zur Verfügung. Alle großen Universal-Suchmaschinen werden von kommerziellen Unternehmen betrieben. Wie werden sie finanziert? Durch Werbeeinnahmen und Lizenzeinnahmen. Manche Suchmaschinen bekommen Millionen Anfragen täglich, was Werbung auf ihrer Startseite besonders wertvoll macht.
Könnte durch bezahlte Werbung dann die Ergebnisanzeige beeinflusst werden?
Beispiel: Treffer, die im Zusammenhang mit Werbung zahlenden Firmen stehen, könnten bevorzugt und im Suchergebnis ganz am Anfang aufgelistet werden?
Theoretisch wäre es möglich, durch eingebaute Rankingmechanismen. In der Praxis hat sich aber der Kompromissdurchgesetzt, dass die Werbung von der Ergebnisanzeige getrennt bleibt und alternativ neben den Treffern auf eigener Spalte angezeigt wird.

9. Hinweise zur Benutzung

Trick: Sie finden nicht die richtigen Suchwörter!
Hilfe bei HTML-Dokumenten, meistens eigene Beschlagwortung!
Klicken Sie auf Ansicht + Seitenquelltext auf der Menüzeile Ihres Browsers::
Die Suchwörter sind unter META NAME= „Keywords“ CONTENT = „etc.,etc.“ zu finden.
Achtung: SPAMMING: Manche Suchmaschinen bekommen Millionen Anfragen täglich, was Werbung auf ihrer Startseite besonders wertvoll macht.
Willkürliche Wiederholung eines Wortes, um bei jeder Suchmaschine immer an erste Stelle bei einer bestimmten Suchanfrage zu erscheinen! (Alta Vista verhindert es: maximale Erscheinungshäufigkeit wird auf 2 eingeschränkt!)
(Dublin Core = ein besonders im Bibliothekswesen verbreitetes Schema zur genormten Vergabe von Meta-Tags in HTML-Dokumenten)

„Jede Suchmaschine liefert manchmal gute, manchmal schlechte Ergebnisse. Es gibt keine, welche immer gute liefert".
Deswegen: verlassen Sie sich niemals auf eine Suchmaschine alleine!

Wenn Sie umfassende Informationen über ein bestimmtes Thema suchen, werden Sie feststellen, dass auch die beste Suchmaschine nicht alles abdeckt. Verwenden Sie dann Meta-Suchdienste, Themenverzeichnisse und andere spezielle Suchdienste.

10. Auswahl und Vergleiche
Das Angebot an Search Engines ist sehr groß. Im WWW gibt es mehr als 1800 Suchdienste. Eine aktuelle Liste ist in Wikipedia zu finden.
Es gibt auch fachlich begrenzte Suchmaschinen und Suchmaschinen die nur für bestimmte Bereiche, wie z.B. OAISter für Open Access.