Einführung
Eine Datenbank, auch Datenbanksystem (DBS) genannt, ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern und benötigte Teilmengen in unterschiedlichen, bedarfsgerechten Darstellungsformen für Benutzer und Anwendungsprogramme bereitzustellen.
Informationsanbieter
Meistens kommerzieller Anbieter und Inhaber
von Verwertungs- und Vermarktungsrechten von Informationsprodukten und -diensten;
nicht immer identisch mit dem Hersteller
(Dokumentationsstellen, Datenbankenhersteller, Verlag) oder auch Vertreiber
von Informationsprodukten (Buchhandel, Informations-Service-Rechenzentren/Hosts).
Informationsflut
Das rapide Anwachsen des Informationsberges
in den wissenschaftlichen Archiven wird seit den sechziger Jahren mit Schlagworten
wie "Informationsflut" oder "Wissensexplosion" umschrieben (Literaturflut -
Informationslawine - Wissensexplosion).
Im Bereich der naturwissenschaftlichen Kerndisziplinen
zeichnet sich seit Anfang der siebziger Jahre eine deutliche Abweichung vom
exponentiellen Wachstum ab. Dies deutet darauf hin, dass die Wissenschaft nach
einer Anfangsphase mit überschwänglichem Wachstum erstmals eine Wachstumsgrenze
spürt, die eine Abschwächung zur Folge hat. Dies schließt jedoch
nicht aus, dass einzelne besonders aktuelle Forschungsgebiete wie Gentechnik
oder Mikroelektronik nach wie vor exponentiell wachsen.
==> Fortlaufende Differenzierung und
Spezialisierung von Fachgebieten
Die Bedeutung der Information nimmt ständig
zu.
Wächst
der Wissenschaft das Wissen über den Kopf?
Referate
Referate: Kurzfassungen
zu einzelnen Artikeln (engl. ABSTRACTS).
Aufgrund des Referats kann beurteilt werden,
ob der Originalartikel überhaupt verwendbar ist.
Ein Referateorgan ist eine Zeitschrift,
in der neben Referaten über Bücher, Reports u. ä. vor allem Artikel
aus den neuesten Ausgaben der wichtigsten Zeitschriften dieses Fachgebietes
aufgeführt und nach Schlagwörtern geordnet werden. Sie geben dem Leser
einen schnellen Überblick über neu erschienene Literatur.
Online-Dienste
In den sechziger Jahren dieses Jahrhunderts wurden zur Erstellung der gedruckten Register von Referatezeitschriften erstmals Computer eingesetzt. Dies war der erste Schritt zur elektronischen Archivierung wissenschaftlicher Information in Form von Datenbanken, die in den siebziger Jahren allgemein zugänglich wurden.
Komponenten von Online-Datenbanken:
1. Datenbankproduzent
2. Host
3. Technische Voraussetzungen: Modem,
Telekommunikationsnetz, Endgerät (PC) des Rechercheurs (User)
4. Datenbank
1. Datenbankproduzent
Datenbankproduzent ist potentiell jeder, der Daten sammelt
und systematisch aufbereitet. Auswahl, Aufbereitung und elektronische
Speicherung der Informationen erfolgt in computerlesbarer Form.
Bei der Auswahl der Informationen ist die Vollständigkeit
von großer Bedeutung. Daneben ist die Aufbereitung auch sehr wichtig,
da hiervon die Suchvariabilität in der Datenbank abhängt.
Der Aufbau von Datenbanken ist mit erheblichen Kosten
verbunden. Um so mehr ist es für den Datenbankproduzenten wichtig,
daß sein Datenbankangebot an der Nachfrage eines bestimmten Marktsegmentes
orientiert ist.
Es gibt öffentliche und private Datenbankproduzenten.
Zum überwiegenden Teil kommen sie aus dem öffentlichen bzw. staatlichen
Bereich. Amerikanische Institutionen, wie das US Department of Energy,
die National Library of Medicine (NLM) oder das Educational Resources Information
Center (ERIC) gehörten zu den ersten Organisationen, die öffentlich
zugängliche Datenbanken produzierten.
In Deutschland erfolgte die Datenbankproduktion lange
Zeit überwiegend durch sogenannte Fachinformationszentren (FIZ), die
im Rahmen eines IuD-Programmes der Bundesregierung Mitte der siebziger
Jahre eingerichtet wurden (z. B. FIZ Technik Frankfurt, FIZ Karlsruhe -Energie-Physik-Mathematik,
FIZ Chemie Berlin usw.)
Private Unternehmen sind mit wenigen Ausnahmen erst mit
zunehmender Größe des Online-Markts als Datenbankproduzenten
aufgetreten. Zu diesen Ausnahmen gehört in Deutschland die GBI (Gesellschaft
für Betriebswirtschaftliche Information in München), die bereits
in der zweiten Hälfte der siebziger Jahre mit der Produktion von Wirtschaftsdatenbanken,
wie z. B. BLISS (Betriebswirtschaftliche Literatur), nur für die Online-Nützung
begann.
Bei der Produktion von Datenbanken existiert häufig
eine internationale Zusammenarbeit (z. B. ESA-NASA - Raumfahrt oder INIS
- Atomenergie).
2. Host
Anbieter von Datenbanken
Die vom Datenbankproduzenten auf Magnetband
gespeicherten Informationen werden zum Aufbau eines Datenbanksystems an Datenbankanbieter,
die Hosts, weitergegeben. In der Regel produziert der Host diese Informationen
nicht selbst, sondern kauft sie vom Informationsproduzenten. Die Datenbanken
werden vom Host mit Datenbankenprogrammen aus Informationen (Datenbasen) aufgebaut,
die er von Informationsproduzenten (Datenbasenproduzenten) bezieht. Der Host
stellt die Retrievalprogramme zur Verfügung und führt die Abrechnung
der Nutzungszeiten durch.
Für die Online-Nutzung der Datenbanken
zahlt der Host bzw. über ihn der Nutzer abhängig von der genutzten
Zeit Lizenzgebühren (sog. "Royalties") an die jeweiligen Datenbankproduzenten.
Der Endnutzer schließt einen Vertrag
mit einem Host für alle von diesem angebotenen Datenbanken ab (anstatt
viele Verträge mit einzelnen Datenbankenproduzenten) und recherchiert auf
einem Rechner mit einer Retrievalsprache in allen daraufliegenden Datenbanken,
anstatt auf vielen Rechnersystemen mit einzelnen Datenbanken und einer Vielzahl
an Suchsprachen konfrontiert zu sein.
Mehr als 600 Hosts bieten über 5500 Datenbanken aus unterschiedlichen
Sachgebieten an, wovon mehr als 50% auf den Wirtschaftsbereich entfallen.
Beispiele von Hosts:
Dialog
STN
DIMDI
3. Technische Voraussetzungen
Modem, Telekommunikationsnetz, Endgerät (PC) des Rechercheurs (User)
Was wird gebraucht zum Recherchieren in einer Datenbank?
Ein Computer mit Zugang zu einem Telekommunikationsnetz (über Modem, falls
die Kommunikation per Telefon mit dem Provider erfolgt oder über eine Netzwerkkarte,
falls man Zugang zu einem LAN hat). Was an Software benötigt wird, hängt
unter anderem davon ab, über welches Netz auf die Datenbank zugriffen wird:
Viele Datenbanken im Internet z.B. sind über das WWW abfragbar und benötigen
lediglich einen WWW-Browser. Andere Hosts bieten einen Telnet-Zugang zu ihren
Datenbanken, wofür ein Terminalemulationsprogramm nötig ist (in den
meisten Computerbetriebssystemen ist standardmäßig eines vorhanden).
Die Suchfrage des Rechercheurs wird dann
über Endgerät, Modem und Telekommunikationsnetz (Datex-P, T-Online,
Internet) an den Host übertragen, der Datenbanken unterschiedlichen
Inhaltes anbietet.
Nach der Durchführung der Suche werden
die gefundenen Informationen vom Host über Modem und Netz oder per Post
(Mailboxdienste) an den Rechercheur geschickt.
4. Online-Datenbanken
Erste Online-Datenbanken
waren elektronische Versionen von gedruckten Referateorganen, die mittels
Zugang über Datenleitungen nutzbar waren (Chemical Abstracts, Mathematical
Review, Engineering Index).
Vorteile:
Arten von Datenbanken
Aufbau von Datenbanken:
Datenfeldstruktur
Aufteilung eines Datenbankdokumentes
in bibliographische und inhaltliche Datenfelder
Record 5 of 882 in INSPEC
2000/06 Week 1
TI Title:Particle
physics and quantum field theory at the turn of the century: Old principles
with new concepts
AU Author:Schroer-B
AA Author Affiliation:Inst.
fur Theor. Phys., Freie Univ. Berlin, Germany
SO Source: Journal-of-Mathematical-Physics.
vol.41, no.6; June 2000; p.3801-31.
FTXT Full Text: Link
PY Publication Year: 2000
RT Record Type:
Journal-article
CP Country of Publication:USA
LA Language:
English
AB Abstract:
The present state of quantum field theory (QFT) is analyzed from a new
viewpoint whose mathematical basis is the modular theory of von Neumann
algebras. Its physical consequences suggest new ways of dealing with interactions,
symmetries, Hawking-Unruh thermal properties and possibly also extensions
of the scheme of renormalized perturbation theory. Interactions are incorporated
by using the fact that the S matrix is a relative modular invariant of
the interacting-relative to the incoming-net of wedge algebras. This new
point of view allows many interesting comparisons with the standard quantization
approach to QFT and is shown to be firmly rooted in the history
of QFT. Its radical "change of paradigm" aspect becomes particularly visible
in the quantum measurement problem.
RF Number of References:
41
DE Descriptors:
algebra-; measurement-theory; perturbation-theory; quantum-field-theory;
renormalisation-; S-matrix-theory
ID Identifiers:
quantum-field-theory; modular-theory; von-Neumann-algebras; symmetries-;
Hawking-Unruh-effect; renormalized-perturbation-theory; S-matrix; wedge-algebra;
quantum-measurement-problem
CC Classification Codes:
A1110 (Quantum-field-theory); A0370 (Theory-of-quantized-fields); A1120
(S-matrix-theory); A1110G (Renormalization-in-quantum-field-theories);
A0365B Foundations-theory-of-quantum-measurement-miscellaneous-quantum-theories);
A11; A03; A1; A0
TR Treatment Codes:T
(Theoretical-or-Mathematical)
CO Coden: JMAPAQ
IS ISSN: 0022-2488
CL Copyright Clearance Center
Code: 0022-2488/2000/41(6)/3801(31)/$17.00
SC SICI: 0022-2488(200006)41:6L.3801:PPQF;1-F
DN Document Number: S0022-2488(00)02506-8
CS Copyright Statement: Copyright
2000, IEE
SK Sort Key: 0000022248820000004100006000000000003801
MN Material Identity Number:
J090-2000-006
AN Accession Number: 6607401
UD Update Code: 200022
*LHM LIBRARY HOLDINGS MESSAGE:
ZB f. Physik Wien, Signatur: 08594.000
Bestand: 1.1960=>
Bibliographische Angaben
Inhaltliche Angaben:
Das Abstrakt
Klassifikationsklassen (Classification
Codes)
Teilgebiete im Rahmen einer
thematischen Einteilung eines ganzen Fachgebietes (numerische Klassen)
Die Einteilung in Datenfelder erlaubt es, verschiedene
Kriterien miteinander zu verknüpfen und eine Invertierung der vorhandenen
Datenfelder nach verschiedenen Ordnungsprinzipien.
Problem: Verschiedene Layouts bei unterschiedlichen
Anbietern !
Datenbankmodelle
Die Entwicklung der Rechnersysteme hat die geschichtliche Entwicklung der Datenbanken geprägt. Je leistungsfähiger die Rechnersysteme wurden desto komplexer wurden auch die Datenbanken.
Nach Edgar F. Codd definiert sich ein Datenbankmodell aus drei Eigenschaften:
Einer generischen Datenstruktur, die die Struktur einer Datenbank beschreibt. Beispiel: eine relationale Datenbank besteht aus Relationen mit eindeutigen Namen, jede Relation ist eine Menge von Tupeln (Datensätzen) gleichen Typs. Die Struktur ist insofern generisch, als die Relationen und ihre Attribute (Spalten) beliebig gewählt werden können bzw. beim Einrichten der Datenbank angegeben werden müssen. Diese anwendungsspezifischen Strukturen bilden den wichtigsten Teil des Schemas der Datenbank.
Einer Menge von generischen Operatoren, die man bei beliebigen Schemata auf die Datenstrukturen unter 1. anwenden kann, um Daten einzutragen, zu ändern, abzufragen oder abzuleiten.
Einer Menge von Integritätsbedingungen, mit denen man die zulässigen Datenbankinhalte über die Grundstrukturen unter 1. hinaus weiter einschränken kann. Beim relationalen Datenbankmodell kann z.B. jedes Attribut einer Relation als eindeutig bestimmt werden; dann dürfen nicht zwei Tupel dieser Relation den gleichen Wert in diesem Attribut haben. Veränderungen in der Datenbank, die Integritätsbedingungen verletzen würden, werden mit einer Fehlermeldung zurückgewiesen.
Bekannte Datenbankmodelle, die sich hauptsächlich an der angewendeten Methodik der Softwareentwicklung und der vorgesehenen Datenbank-Technologie orientieren, sind:
Information Retrieval
Informationsverarbeitung in Onlinedatenbanken
1) Freitextsuche mit beliebig ausgewählten Begriffen mit
Booleschen Operatoren (George
Boole; II)
2) Deskriptorensuche als Suche mit Thesaurusbegriffen
3) Suche mit Klassifikationsklassen
Arten von Information Retrieval
Beurteilung der Güte eines Information Retrieval Systems
Die am häufigsten verwendeten Maße zur Beurteilung der Güte eines Information Retrieval Systems sind Recall und Precision.
Der Recall stellt das Maß für die Vollständigkeit des Retrievalergebnisses dar und ist definiert als das Verhältnis zwischen den gefundenen relevanten Dokumenten und der Gesamtanzahl der im Dokumentenbestand vorhandenen relevanten Dokumente. Der Wertebereich des Recalls geht von 0 bis 1 (0 wird für das schlechteste Ergebnis, 1 für das bestmögliche vergeben).
Das Problem beim Recall liegt in der Bestimmung der Größe g im Nenner, da die Anzahl aller relevanten Dokumente eines Bestandes im Allgemeinen nicht bekannt ist.
Die Gesamtanzahl aller relevanten Dokumente in einem Dokumentenbestand kann dargestellt werden als die Anzahl der gefundenen relevanten Dokumente vermehrt um die Anzahl der nicht gefundenen relevanten Dokumente.
Für diesen Schätzvorgang wurden verschiedene Methoden entwickelt, um eine möglichst genaue Annäherung an die Gesamtzahl aller relevanten Dokumente bzw. die im System verbleibenden relevanten Dokumente zu erhalten.
Die Precision dient zum Messen der Genauigkeit der Suche und als Indikator für die Fähigkeit des Information Retrieval Systems, nicht relevante Dokumente auszuscheiden. Die Precision ist definiert als das Verhältnis der gefundenen relevanten Dokumente zur Zahl aller gefundenen Dokumente. Auch der Wertebereich der Precision geht von 0 bis 1.
Sinnvoll ist jedoch nur eine Betrachtung beider Maße. Daher wurde bei vielen Evaluierungen von Retrievalexperimenten der Recall-Precision-Graph verwendet. In diesem Graph wird auf der x-Achse die Precision und auf der y-Achse der Recall aufgetragen und so versucht ein Bewertungsmaß zu schaffen, dass beide Größen miteinbezieht.
Recall und Precision werden in gleichem Maße von der Indexierung, also von der Darstellung der Dokumente im Dokumentenraum, und von der Retrievalstrategie bzw. von der Formulierung der Query beeinflusst.
Neben Recall und Precision gibt es das weitaus seltener verwendete Maß Fallout. Der Fallout ist definiert als das Verhältnis der gefundenen nicht relevanten Dokumente zur Gesamtanzahl aller nicht relevanten Dokumente im Dokumentenbestand. Er misst die Fähigkeit des Systems nicht relevante Dokumente zu umgehen.
Literatur:
1) VomKolke, Ernst-Gerd: Online-Datenbanken : systematische
Einführung in die Nutzung elektronischer Fachinformation / von Ernst-Gerd
vom Kolke. - 2., völlig überarb. Aufl.. - München ; Wien
: Oldenbourg, 1996. - VII, 186 S.
Literaturverz. S. [179] - 180. - ISBN 3-486-23749-7
2) Grundlagen der praktischen Information
und Dokumentation : ein Handbuch zur Einführung in die fachliche Informationsarbeit
/ Marianne Buder ... (Hrsg.). Begr. von Klaus Laisiepen .... - 4., völlig
neu gefaßte Ausg.. - München [u.a.] : Saur, 1997. - XLIII, 1069 S. Literaturangaben. - ISBN 3-598-11310-2
3) Evaluation in information retrieval in Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. mißt die Fähigkeit des Systems nicht relevante Dokumente zu umgehen (pdf)
Anhang:
Vergleich der externen Datenbanken: Österreichische
Nationalbibliothek/Universitätsbibliothek Wien