ONLINE-DIENSTE UND DATENBANKEN

Einführung

Eine Datenbank, auch Datenbanksystem (DBS) genannt, ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern und benötigte Teilmengen in unterschiedlichen, bedarfsgerechten Darstellungsformen für Benutzer und Anwendungsprogramme bereitzustellen.

Informationsanbieter

Meistens kommerzieller Anbieter und Inhaber von Verwertungs- und Vermarktungsrechten von Informationsprodukten und -diensten;
nicht immer identisch mit dem Hersteller (Dokumentationsstellen, Datenbankenhersteller, Verlag) oder auch Vertreiber von Informationsprodukten (Buchhandel, Informations-Service-Rechenzentren/Hosts).

Informationsflut

Das rapide Anwachsen des Informationsberges in den wissenschaftlichen Archiven wird seit den sechziger Jahren mit Schlagworten wie "Informationsflut" oder "Wissensexplosion" umschrieben (Literaturflut - Informationslawine - Wissensexplosion).
Im Bereich der naturwissenschaftlichen Kerndisziplinen zeichnet sich seit Anfang der siebziger Jahre eine deutliche Abweichung vom exponentiellen Wachstum ab. Dies deutet darauf hin, dass die Wissenschaft nach einer Anfangsphase mit überschwänglichem Wachstum erstmals eine Wachstumsgrenze spürt, die eine Abschwächung zur Folge hat. Dies schließt jedoch nicht aus, dass einzelne besonders aktuelle Forschungsgebiete wie Gentechnik oder Mikroelektronik nach wie vor exponentiell wachsen.
==> Fortlaufende Differenzierung und Spezialisierung von Fachgebieten
Die Bedeutung der Information nimmt ständig zu.
Wächst der Wissenschaft das Wissen über den Kopf?
 

Referate

Referate: Kurzfassungen zu einzelnen Artikeln (engl. ABSTRACTS).
Aufgrund des Referats kann beurteilt werden, ob der Originalartikel überhaupt verwendbar ist.
Ein Referateorgan ist eine Zeitschrift, in der neben Referaten über Bücher, Reports u. ä. vor allem Artikel aus den neuesten Ausgaben der wichtigsten Zeitschriften dieses Fachgebietes aufgeführt und nach Schlagwörtern geordnet werden. Sie geben dem Leser einen schnellen Überblick über neu erschienene Literatur.

Online-Dienste

In den sechziger Jahren dieses Jahrhunderts wurden zur Erstellung der gedruckten Register von Referatezeitschriften erstmals Computer eingesetzt. Dies war der erste Schritt zur elektronischen Archivierung wissenschaftlicher Information in Form von Datenbanken, die in den siebziger Jahren allgemein zugänglich wurden.

Komponenten von Online-Datenbanken:
1. Datenbankproduzent
2. Host
3. Technische Voraussetzungen: Modem, Telekommunikationsnetz, Endgerät (PC) des  Rechercheurs (User)
4. Datenbank

1. Datenbankproduzent
Datenbankproduzent ist potentiell jeder, der Daten sammelt und systematisch aufbereitet.  Auswahl, Aufbereitung und elektronische Speicherung der Informationen erfolgt in computerlesbarer Form.
Bei der Auswahl der Informationen ist die Vollständigkeit von großer Bedeutung. Daneben ist die Aufbereitung auch sehr wichtig, da hiervon die Suchvariabilität in der Datenbank abhängt.
Der Aufbau von Datenbanken ist mit erheblichen Kosten verbunden. Um so mehr ist es für den Datenbankproduzenten wichtig, daß sein Datenbankangebot an der Nachfrage eines bestimmten Marktsegmentes orientiert ist.
Es gibt öffentliche und private Datenbankproduzenten. Zum überwiegenden Teil kommen sie aus dem öffentlichen bzw. staatlichen Bereich. Amerikanische Institutionen, wie das US Department of Energy, die National Library of Medicine (NLM) oder das Educational Resources Information Center (ERIC) gehörten zu den ersten Organisationen, die öffentlich zugängliche Datenbanken produzierten.
In Deutschland erfolgte die Datenbankproduktion lange Zeit überwiegend durch sogenannte Fachinformationszentren (FIZ), die im Rahmen eines IuD-Programmes der Bundesregierung Mitte der siebziger Jahre eingerichtet wurden (z. B. FIZ Technik Frankfurt, FIZ Karlsruhe -Energie-Physik-Mathematik, FIZ Chemie Berlin usw.)
Private Unternehmen sind mit wenigen Ausnahmen erst mit zunehmender Größe des Online-Markts als Datenbankproduzenten aufgetreten. Zu diesen Ausnahmen gehört in Deutschland die GBI (Gesellschaft für Betriebswirtschaftliche Information in München), die bereits in der zweiten Hälfte der siebziger Jahre mit der Produktion von Wirtschaftsdatenbanken, wie z. B. BLISS (Betriebswirtschaftliche Literatur), nur für die Online-Nützung begann.
Bei der Produktion von Datenbanken existiert häufig eine internationale Zusammenarbeit (z. B. ESA-NASA - Raumfahrt oder INIS - Atomenergie).

2. Host
Anbieter von Datenbanken
Die vom Datenbankproduzenten auf Magnetband gespeicherten Informationen werden zum Aufbau eines Datenbanksystems an Datenbankanbieter, die Hosts, weitergegeben. In der Regel produziert der Host diese Informationen nicht selbst, sondern kauft sie vom Informationsproduzenten. Die Datenbanken werden vom Host mit Datenbankenprogrammen aus Informationen (Datenbasen) aufgebaut, die er von Informationsproduzenten (Datenbasenproduzenten) bezieht. Der Host stellt die Retrievalprogramme zur Verfügung und führt die Abrechnung der Nutzungszeiten durch.
Für die Online-Nutzung der Datenbanken zahlt der Host bzw. über ihn der Nutzer abhängig von der genutzten Zeit Lizenzgebühren (sog. "Royalties") an die jeweiligen Datenbankproduzenten.
Der Endnutzer schließt einen Vertrag mit einem Host für alle von diesem angebotenen Datenbanken ab (anstatt viele Verträge mit einzelnen Datenbankenproduzenten) und recherchiert auf einem Rechner mit einer Retrievalsprache in allen daraufliegenden Datenbanken, anstatt auf vielen Rechnersystemen mit einzelnen Datenbanken und einer Vielzahl an Suchsprachen konfrontiert zu sein.
Mehr als 600 Hosts bieten über 5500 Datenbanken aus unterschiedlichen Sachgebieten an, wovon mehr als 50% auf den Wirtschaftsbereich entfallen.

Beispiele von Hosts:

Dialog
STN
DIMDI
 

3. Technische Voraussetzungen
Modem, Telekommunikationsnetz, Endgerät (PC) des  Rechercheurs (User)


Was wird gebraucht zum Recherchieren in einer Datenbank?
Ein Computer mit Zugang zu einem Telekommunikationsnetz (über Modem, falls die Kommunikation per Telefon mit dem Provider erfolgt oder über eine Netzwerkkarte, falls man Zugang zu einem LAN hat). Was an Software benötigt wird, hängt unter anderem davon ab, über welches Netz auf die Datenbank zugriffen wird: Viele Datenbanken im Internet z.B. sind über das WWW abfragbar und benötigen lediglich einen WWW-Browser. Andere Hosts bieten einen Telnet-Zugang zu ihren Datenbanken, wofür ein Terminalemulationsprogramm nötig ist (in den meisten Computerbetriebssystemen ist standardmäßig eines vorhanden).


Die Suchfrage des Rechercheurs wird dann über Endgerät, Modem und Telekommunikationsnetz (Datex-P, T-Online, Internet)  an den Host übertragen, der Datenbanken unterschiedlichen Inhaltes anbietet.
Nach der Durchführung der Suche werden die gefundenen Informationen vom Host über Modem und Netz oder per Post (Mailboxdienste) an den Rechercheur geschickt.  

4. Online-Datenbanken

Erste Online-Datenbanken waren elektronische Versionen von gedruckten Referateorganen, die mittels Zugang über Datenleitungen nutzbar waren (Chemical Abstracts, Mathematical Review, Engineering Index).

Vorteile:

Nachteile: Datenbanken verringern nicht die Literaturflut, sondern bewirken zunächst einmal eher das Gegenteil. Denn aus der Menge der insgesamt angesammelten Information ist für den einzelnen Wissenschaftler vor allem der Anteil von Bedeutung, der ihm zugänglich ist. Sie erleichtern den Zugriff und fördern einen gewissen Anteil Literatur zutage, der früher nicht aufgefunden werden konnte und deshalb ignoriert wurde.
Die Nutzung von Datenbanken bedeutet für die Wissenschaftler, dass sie viel schneller, gezielter und umfassender als bisher auf Fachinformation zugreifen können. Sie sind damit in der Lage, eine erheblich größere Informationsmenge als früher zu kontrollieren.

Arten von Datenbanken

Gedruckte Referatezeitschriften wie auch die entsprechenden Datenbanken arbeiten die Primärliteratur im Hinblick auf effektive Suchmöglichkeiten auf (Indexierung), nehmen aber keine inhaltliche Bewertung vor. Anders die Handbücher in Chemie und Physik wie BEILSTEIN oder GMELIN bzw. die entsprechenden Online-Datenbanken. Diese Datensammlungen werden durch eine kritische Bewertung und Zusammenfassung der Originalliteratur erstellt. Es erfolgt eine Extraktion der "harten Fakten", d.h. der chemischen und physikalischen Messwerte, was eine starke Konzentration und Reduktion beinhaltet. Die "weichen" Daten wie Kommentare und Erklärungen der Autoren werden beiseitegelassen. Außerdem werden die Veröffentlichungen mit falschen oder unbrauchbaren Messergebnissen eliminiert, was einer Informationsveredelung gleichkommt. Im Zeitraum von 1975 bis 1988 ist die Zahl dieser Art von Faktendatenbanken im Verhältnis zu den Referenzdatenbanken von 13 Prozent auf über 50 Prozent angestiegen. Dieser Trend ist sicher nicht zuletzt auch vor dem Hintergrund der Bewältigung der Informationsflut zu sehen.

Aufbau von Datenbanken:

Datenfeldstruktur
Aufteilung eines Datenbankdokumentes in bibliographische und inhaltliche Datenfelder

Record 5 of 882 in INSPEC 2000/06 Week 1
TI Title:Particle physics and quantum field theory at the turn of the century: Old principles with new concepts
AU Author:Schroer-B
AA Author Affiliation:Inst. fur Theor. Phys., Freie Univ. Berlin, Germany
SO Source: Journal-of-Mathematical-Physics. vol.41, no.6; June 2000; p.3801-31.
FTXT Full Text: Link
PY Publication Year: 2000
RT Record Type: Journal-article
CP Country of Publication:USA
LA Language: English
AB Abstract: The present state of quantum field theory (QFT) is analyzed from a new viewpoint whose mathematical basis is the modular theory of von Neumann algebras. Its physical consequences suggest new ways of dealing with interactions, symmetries, Hawking-Unruh thermal properties and possibly also extensions of the scheme of renormalized perturbation theory. Interactions are incorporated by using the fact that the S matrix is a relative modular invariant of the interacting-relative to the incoming-net of wedge algebras. This new point of view allows many interesting comparisons with the standard quantization approach to QFT and is   shown to be firmly rooted in the history of QFT. Its radical "change of paradigm" aspect becomes particularly visible in the quantum measurement problem.
RF Number of References: 41
DE Descriptors: algebra-; measurement-theory; perturbation-theory; quantum-field-theory; renormalisation-; S-matrix-theory
ID Identifiers: quantum-field-theory; modular-theory; von-Neumann-algebras; symmetries-; Hawking-Unruh-effect; renormalized-perturbation-theory; S-matrix; wedge-algebra; quantum-measurement-problem
CC Classification Codes: A1110 (Quantum-field-theory); A0370 (Theory-of-quantized-fields); A1120 (S-matrix-theory); A1110G (Renormalization-in-quantum-field-theories); A0365B Foundations-theory-of-quantum-measurement-miscellaneous-quantum-theories);  A11; A03; A1; A0
TR Treatment Codes:T (Theoretical-or-Mathematical)
CO Coden: JMAPAQ
IS ISSN: 0022-2488
CL Copyright Clearance Center Code: 0022-2488/2000/41(6)/3801(31)/$17.00
SC SICI: 0022-2488(200006)41:6L.3801:PPQF;1-F
DN Document Number: S0022-2488(00)02506-8
CS Copyright Statement: Copyright 2000, IEE
SK Sort Key: 0000022248820000004100006000000000003801
MN Material Identity Number: J090-2000-006
AN Accession Number: 6607401
UD Update Code: 200022
*LHM LIBRARY HOLDINGS MESSAGE: ZB f. Physik Wien, Signatur: 08594.000
Bestand: 1.1960=>

Bibliographische Angaben

Inhaltliche Angaben:

Das Abstrakt

Die Deskriptoren
Sind gebundene Schlagwörter zur Vermeidung sprachlicher Probleme, wie Synonymen und Homonymen, die hierarchisch geordnet sind und in Thesauri gesammelt werden.
Relationen zwischen Deskriptoren eines Thesaurus: Freie Deskriptoren
Frei vergebene Schlagwörter bei der Aufnahme neuer Dokumente (stammen nicht aus dem Thesaurus)

Klassifikationsklassen (Classification Codes)
Teilgebiete im Rahmen einer thematischen Einteilung eines ganzen Fachgebietes (numerische Klassen)

Die Einteilung in Datenfelder erlaubt es, verschiedene Kriterien miteinander zu verknüpfen und eine Invertierung der vorhandenen Datenfelder nach verschiedenen Ordnungsprinzipien.
Problem: Verschiedene Layouts bei unterschiedlichen Anbietern !

Datenbankmodelle

Die Entwicklung der Rechnersysteme hat die geschichtliche Entwicklung der Datenbanken geprägt. Je leistungsfähiger die Rechnersysteme wurden desto komplexer wurden auch die Datenbanken.

Nach Edgar F. Codd definiert sich ein Datenbankmodell aus drei Eigenschaften:

  1. Einer generischen Datenstruktur, die die Struktur einer Datenbank beschreibt. Beispiel: eine relationale Datenbank besteht aus Relationen mit eindeutigen Namen, jede Relation ist eine Menge von Tupeln (Datensätzen) gleichen Typs. Die Struktur ist insofern generisch, als die Relationen und ihre Attribute (Spalten) beliebig gewählt werden können bzw. beim Einrichten der Datenbank angegeben werden müssen. Diese anwendungsspezifischen Strukturen bilden den wichtigsten Teil des Schemas der Datenbank.

  2. Einer Menge von generischen Operatoren, die man bei beliebigen Schemata auf die Datenstrukturen unter 1. anwenden kann, um Daten einzutragen, zu ändern, abzufragen oder abzuleiten.

  3. Einer Menge von Integritätsbedingungen, mit denen man die zulässigen Datenbankinhalte über die Grundstrukturen unter 1. hinaus weiter einschränken kann. Beim relationalen Datenbankmodell kann z.B. jedes Attribut einer Relation als eindeutig bestimmt werden; dann dürfen nicht zwei Tupel dieser Relation den gleichen Wert in diesem Attribut haben. Veränderungen in der Datenbank, die Integritätsbedingungen verletzen würden, werden mit einer Fehlermeldung zurückgewiesen.

Bekannte Datenbankmodelle, die sich hauptsächlich an der angewendeten Methodik der Softwareentwicklung und der vorgesehenen Datenbank-Technologie orientieren, sind:

  1. Hierarchisches Datenbankmodell
  2. Netzwerkdatenbankmodell
  3. Relationales Datenbankmodell
  4. Objektrelationales Datenbankmodell
  5. Objektorientiertes Datenbankmodell
  6. Dokumentenorientiertes Datenbankmodell

Information Retrieval

Informationsverarbeitung in Onlinedatenbanken
1) Freitextsuche mit beliebig ausgewählten Begriffen mit Booleschen Operatoren (George Boole; II)

2) Deskriptorensuche als Suche mit Thesaurusbegriffen

3) Suche mit Klassifikationsklassen
 

Arten von Information Retrieval

Verlauf einer Recherche

Beurteilung der Güte eines Information Retrieval Systems

Die am häufigsten verwendeten Maße zur Beurteilung der Güte eines Information Retrieval Systems sind Recall und Precision.

Der Recall stellt das Maß für die Vollständigkeit des Retrievalergebnisses dar und ist definiert als das Verhältnis zwischen den gefundenen relevanten Dokumenten und der Gesamtanzahl der im Dokumentenbestand vorhandenen relevanten Dokumente. Der Wertebereich des Recalls geht von 0 bis 1 (0 wird für das schlechteste Ergebnis, 1 für das bestmögliche vergeben).
Das Problem beim Recall liegt in der Bestimmung der Größe g im Nenner, da die Anzahl aller relevanten Dokumente eines Bestandes im Allgemeinen nicht bekannt ist.
Die Gesamtanzahl aller relevanten Dokumente in einem Dokumentenbestand kann dargestellt werden als die Anzahl der gefundenen relevanten Dokumente vermehrt um die Anzahl der nicht gefundenen relevanten Dokumente.
Für diesen Schätzvorgang wurden verschiedene Methoden entwickelt, um eine möglichst genaue Annäherung an die Gesamtzahl aller relevanten Dokumente bzw. die im System verbleibenden relevanten Dokumente zu erhalten.

Die Precision dient zum Messen der Genauigkeit der Suche und als Indikator für die Fähigkeit des Information Retrieval Systems, nicht relevante Dokumente auszuscheiden. Die Precision ist definiert als das Verhältnis der gefundenen relevanten Dokumente zur Zahl aller gefundenen Dokumente. Auch der Wertebereich der Precision geht von 0 bis 1.

Sinnvoll ist jedoch nur eine Betrachtung beider Maße. Daher wurde bei vielen Evaluierungen von Retrievalexperimenten der Recall-Precision-Graph verwendet. In diesem Graph wird auf der x-Achse die Precision und auf der y-Achse der Recall aufgetragen und so versucht ein Bewertungsmaß zu schaffen, dass beide Größen miteinbezieht.

Recall und Precision werden in gleichem Maße von der Indexierung, also von der Darstellung der Dokumente im Dokumentenraum, und von der Retrievalstrategie bzw. von der Formulierung der Query beeinflusst.

Neben Recall und Precision gibt es das weitaus seltener verwendete Maß Fallout. Der Fallout ist definiert als das Verhältnis der gefundenen nicht relevanten Dokumente zur Gesamtanzahl aller nicht relevanten Dokumente im Dokumentenbestand. Er misst die Fähigkeit des Systems nicht relevante Dokumente zu umgehen.

Literatur:
1) VomKolke, Ernst-Gerd:  Online-Datenbanken : systematische Einführung in die Nutzung elektronischer Fachinformation / von Ernst-Gerd vom Kolke. -  2., völlig überarb. Aufl.. - München ; Wien : Oldenbourg, 1996. - VII, 186 S.
 Literaturverz. S. [179] - 180. - ISBN 3-486-23749-7
2) Grundlagen der praktischen Information und Dokumentation : ein Handbuch zur Einführung in die fachliche Informationsarbeit
 / Marianne Buder ... (Hrsg.). Begr. von Klaus Laisiepen .... - 4., völlig neu gefaßte Ausg.. - München [u.a.] : Saur, 1997. - XLIII, 1069 S.  Literaturangaben. -  ISBN 3-598-11310-2
3) Evaluation in information retrieval in Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. mißt die Fähigkeit des Systems nicht relevante Dokumente zu umgehen (pdf)

Anhang:
Vergleich der externen Datenbanken: Österreichische Nationalbibliothek/Universitätsbibliothek Wien