DEEP WEB
Definition:
Als "Deep Web" (Tiefes
Web) ist jener Teil des Webs zu verstehen, der nicht von Suchmaschinen indiziert
wird. Im Deep Web verbergen sich 7.500 Petabyte an Informationen, im Gegensatz
zu 19 Petabyte im sogenannten Surface Web. Darunter
zählen vor allem themenspezifische Datenbanken (Databases), Bibliothekskataloge
und andere dynamische Dokumente, die sehr wertvoll für eine gute Recherche
sind.
In einer von BrightPlanet im Jahr 2001 durchgeführten Studie ergaben sich interessante
Erkenntnisse:
- Es existieren mehr als 100 000 Deep Websites
- Die Datenmenge des Deep Web sei etwa 400 bis 550 mal größer als die des Surface Web.
- Das Deep Web ist die am schnellsten wachsende Kategorie im Web
- Die gesamte Qualität des Deep Web ist 1000 bis 2000 mal größer
als der Durchschnitt normaler Webseiten
- Mehr als die Hälfte des Deep Web hat den Inhalt in themenspezifischen
Datenbanken angesiedelt
Nach Sherman & Price (2001) werden fünf Typen des Invisible Web unterschieden:
- Das Opaque Web (engl. undurchsichtig) sind Webseiten, die indexiert werden könnten, zurzeit aber aus Gründen der technischen Leistungsfähigkeit oder Aufwand-Nutzen-Relation nicht indexiert werden (Suchtiefe, Besuchsfrequenz).
- Das Private Web beschreibt Webseiten, die indexiert werden könnten, aber auf Grund von Zugangsbeschränkungen des Webmasters nicht indexiert werden.
- Mit Proprietary Web sind Webseiten gemeint, die indexiert werden könnten, die jedoch nur nach Anerkennung einer Nutzungsbedingung oder durch die Eingabe eines Passwortes zugänglich sind (kostenlos oder kostenpflichtig).
- Unter das Invisible Web fallen Webseiten, die rein technisch gesehen indexiert werden könnten, jedoch aus kaufmännischen oder strategischen Gründen nicht indexiert werden – wie zum Beispiel Datenbanken mit einem Webformular.
- Mit Truly Invisible Web werden Webseiten bezeichnet, die aus technischen Gründen (noch) nicht indexiert werden können. Das können Datenbankformate sein, die vor dem WWW entstanden sind (einige Hosts), Dokumente, die nicht direkt im Browser angezeigt werden können, Nicht-Standardformate (zum Beispiel Flash) genauso wie Dateiformate, die aufgrund ihrer Komplexität nicht erfasst werden können (Grafikformate). Dazu kommen komprimierte Daten, oder Webseiten, die nur über eine Benutzernavigation, die Grafiken (Image Maps) oder Skripte (Frames) benutzt, zu bedienen sind.
Die gedruckten Bestände der Library of Congress in Washington, einer der größten Bibliotheken der Welt, umfassen zum Beispiel mehr als 10 Terabyte.
Um diesen Teil des Webs durchzusuchen, stehen auch spezielle
Suchdienste zur Verfügung: siehe Exploring the
web.
Literatur:
Deep Web
The deep Web White Paper
@-web Suchmaschinen Magazin
1) Warnick, W. L. et al.: Searching the Deep Web, D-Lib Magazine, January 2001, Volume 7 Number 1
2) Lewandowski, Dirk; Mayr, Philipp: Exploring the Academic Invisible Web, Library Hi Tech 24(2006)4, 529-539
3) Dirk Lewandowski: Suchmaschinen verstehen. Springer, Heidelberg 2015, ISBN 978-3662440131.