Zu den anderen Abschnitten:
 


Von Graphen, Genen und dem WWW


Online-Skriptum


Von Bäumen, Wurzeln und Blättern, Tieren und Menschen
 

 
Bäume
 

Wir betreten nun das Reich der Biologie. Da wir bereits einiges über Graphen wissen, knüpfen wir hier an und treffen zunächst einige Sprachregelungen:

  • Ein Graph heißt Baum, wenn er zusammenhängend ist und keinen nicht-trivialen Kreis enthält. Beispiel:


  • Hat eine Ecke eines Baumes den Grad 1, so heißt sie Endecke.
  • Ein Baum heißt binär, wenn er genau eine Ecke vom Grad 2 besitzt (diese wird dann Wurzel genannt) und alle anderen Ecken entweder vom Grad 1 oder vom Grad 3 sind. Die Ecken vom Grad 1 heißen dann Blätter. Die Höhe eines binären Baumes ist die Länge eines längsten Weges von der Wurzel zu einem Blatt. Beispiel:

    Binärer Baum der Höhe 4

    Dass
    die Wurzel üblicherweise oben gezeichnet wird, soll das schöne Bild nicht stören. (Der Begriff Wurzel wird manchmal auch in nicht-binären Bäumen für eine ausgezeichnete "Ursprungs-Ecke" verwendet).
Bei der zeichnerischen Darstellung von Bäumen werden die Ecken oft nicht eigens dargestellt. Wird jede Kante wie in diesem Beispiel als Strecke gezeichnet,

kann auch so
gezeichnet werden:

so sind sie eindeutig als Knick, Verzweigungspunkte und freie Enden erkennbar.

Bäume eignen sich hervorragend dazu, Verzweigungsprozesse darzustellen und sind zumindest als Baumdiagramme der Wahrscheinlichkeitsrechnung ein bekanntes Mittel im Mathematikunterricht. Sie können auch helfen, die Logik gewisser Argumentationen (Fallunterscheidungen in mathematischen Beweisen) und die Struktur von Programmabläufen in übersichtlicher Weise darzustellen.

Eine besonders nützliche Anwendung ergibt sich in der Biologie, und dieser wollen wir uns nun zuwenden.
 

Stammbäume

Biologische Arten (species) werden manchmal als "Fortpflanzungsgemeinschaften" charakterisiert. Obwohl Kreuzungen über die Artengrenzen hinweg nicht völlig ausgeschlossen sind, entspricht diese Definition der biologischen Realität. Jede Art besitzt ihren eigenen "Genpool", aus dem die erblichen Anlagen eines einzelnen Individuums (insbesondere im Fall der geschlechtlichen Fortpflanzung) mehr oder weniger zufällig "zusammengewürfelt" sind. Während langer Zeitabschnitte kann sich der Genpool einer Art ändern - das geschieht

  • aufgrund des Zufalls bei der Weitergabe der Erbinformation von einer Generation zur nächsten (der so genannten "genetischen Drift"),
  • aufgrund zufälliger Mutationen (Ablesefehler, die zu Veränderungen in den Molekülen, die die Erbinformation tragen, führen) und
  • unter dem Einfluss der Umweltbedingungen, des so genannten Selektionsdrucks, der gewissen im Genpool vorhandenen Anlagen Vor- und Nachteile gegenüber anderen verschaffen kann.

Werden zwei Populationen einer Art räumlich voneinander getrennt oder besetzen sie verschiedene ökologische Nischen, so wächst ihre "genetische Distanz", bis ihre Nachkommen verschiedenen Arten angehören. Ein Prozess dieser Art wird meist in Form eines (binären) Stammbaums (pedigree) dargestellt:


Die Ecken entsprechen den - sich oft in vergleichsweise kurzen Zeiträumen vollziehenden - Aufspaltungen (Verzweigungen) von Arten, während die Kanten Arten repräsentieren, die über längere Zeiträume existieren (während derer sich der Genpool als Ganzes weiterentwickelt). Die Blätter entsprechen entweder den Arten, die ausgestorben sind, ohne Nachkommen zu hinterlassen, oder den heute lebenden Arten. (Die Zeit vergeht in dieser Darstellung nach oben nach unten).

Aber auch innerhalb von Arten finden ähnliche Prozesse statt, wenn Gruppen getrennt werden (wie es zum Beispiel mit den Menschen geschah, die vor etwa hunderttausend Jahren von Afrika ausgehend die Erde bevölkerten). In diesem Fall sind zwar nachträgliche Vermischungen der Genpools möglich, aber die genetischen Spuren früherer Aufspaltungen lassen sich noch lange Zeit später nachweisen.

Mit dem Konzept des Stammbaums steht eine hervorragende Möglichkeit zur Verfügung, die Geschichte des Lebens aus dem Blickwinkel der Abstammungs- und Verwandtschaftbeziehungen darzustellen. Wir wollen die evolutionären Einheiten, um die es geht (Arten oder Gruppen innerhalb einer Art), mit dem Sammelnamen Populationen bezeichnen.

Im Folgenden werden wir uns ansehen, wie Stammbäume aus heute zugänglichen Daten rekonstruiert werden. Zuerst besprechen wir einige notwendige Grundannahmen, danach wenden wir uns den Methoden und Problemen der Stammbaum-Rekonstruktion zu.
 

Biologische Grundlagen der Stammbaum-Rekonstruktion
 

Wie kommt die biologische Forschung zu den Stammbäumen der Evolution? Wichtige Datenquellen sind morphologische (körperliche) Merkmale der heute lebenden Organismen und, soweit verfügbar, die entsprechenden Merkmale von Fossilfunden. Mit Hilfe derartiger Methoden wurde bereits vor Darwin die Grundstruktur vieler Verwandschaftsbeziehungen erschlossen. Die moderne Biologie kann auf weitere, in mancher Hinsicht zuverlässigere Informationsquellen zurückgreifen:

  • Die genaueste Informationsquelle ist die Struktur von Biomolekülen (vor allem DNS und Proteine) der heute lebenden Populationen.
  • WIll man mehrere Populationen vergleichen, die zur selben Art gehören (z.B. räumlich getrennt wurden), so können die Unterschiede in den relativen Häufigkeiten, mit denen Genvarianten (z.B. Blutgruppen) in ihnen vorkommen, herangezogen werden.

Sowohl die Struktur von Biomolekülen als auch die Häufigkeit von Genvarianten sind ständigen Veränderungen durch eine Reihe von Zufallsprozessen unterworfen. Werden Populationen voneinander getrennt, so werden die Unterschiede in der Regel stetig zunehmen und stellen daher ein Maß für deren evolutionären Verwandtschaftsgrad dar. Gelingt es, sie quantitativ zu bestimmen, kann der Versuch einer Rekonstruktion der Evolutionsgeschichte unternommen werden.

Dabei ist eine besondere Fehlerquelle zu beachten: die natürliche Selektion. So kann sich ein in einer der beiden Populationen durch Mutation entstandenes Gen als besonders vorteilhaft herausstellen und sich rascher ausbreiten als durch Zufallswirkung zu erwarten wäre. Auch ist es möglich, dass sich eine bestimmte Genvariante, die beide Populationen besitzen, für eine vorteilhaft auswirkt, während sie in der anderen ihren Trägern keinen Vorteil bietet. (Beispiel: Ein bestimmtes humanes Gen erhöht die Überlebenswahrscheinlichkeit bei Malaria-Infektion. Für eine Gruppe, die aus den Tropen abwandert, ist das in der Folge irrelevant, für die Zurückgebliebenen besteht aber nach wie vor ein starker Selektionsdruck, dieses Gen zu tragen). All dies stört die statistische Anhäufung von Zufallswirkungen. Daher werden für die Stammbaum-Rekonstruktion Veränderungen bevorzugt, die möglichst "selektionsneutral" sind. Besonders geeignete Kandidaten sind Genabschnitte, die nie "gelesen" werden (die gewissenmaßen als nutzlose, aber nicht störende "Altlasten" im Genom eine Art mitgeschleppt werden).

Die Analysen molekularer Strukturunterschiede beruhen auf der Idee einer "molekularen Uhr", d.h. einer einigermaßen konstanten Änderungsrate. Gelingt es, diese zu bestimmen, so können sogar die absoluten Zeitpunkte lange zurückliegender evolutionärer Verzweigungen abgeschätzt werden. Auf dieses Thema werden wir hier aber nicht eingehen.

Weiters liegt jeder Rekonstruktion die Annahme von der "Einheit der Organismenwelt" zugrunde: die Rückverfolgung der Ahnen zweier Populationen führt immer auf eine Population, von der beide abstammen (und die kurz als "letzter gemeinsamer Vorfahr" bezeichnet wird). Manchmal lassen sich gemeinsame Vorfahren durch Fossilfunden erschließen, manchmal sind sie rein hypothetisch (die so genannten missing links).

Die Verfahren, die wir nun besprechen werden, sind von zahlreichen Unsicherheiten begleitet. So wirken sich beispielsweise die Zufalls-Schwankungen bei der der Durchmischung und Neukombination der elterlichen Erbinformationen in kleinen Populationen stärker aus als in großen. (Diese Art des Zufalls wird - wie bereits oben erwähnt - als "genetische Drift" bezeichnet, und wir werden ihr in einem späteren Abschnitt noch begegnen). Weiters ist die zahlenmäßige Begrenzung der in eine Untersuchung einbezogenen Biomoleküle, Genvarianten oder Individuen eine Quelle statistischer Fehler. Und schließlich ist für Populationen einer Art die Annahme der dauerhaften Trennung nicht immer gegeben (Beispiel: die Menschengruppen, die die verschiedenen Kontinente bevölkert haben). Dieser Effekt lässt sich durch die Analyse von Biomolekülen neutralisieren, die ohne Vermischung (Rekombination) nur in der weiblichen bzw. männlichen Linie weitergegeben werden (Mitochondrien-DNS und Y-Chromosom). Damit werden wir uns im letzten Abschnitt beschäftigen.

Sehen wir uns nun anhand zweier Beispiele an, wie man in der Praxis vorgeht.
 

Wer ist näher verwandt?
 

Wie sind Kaninchen, Schwein und Gorilla miteinander verwandt? Um diese Frage zu beantworten, kann ein gut bekanntes Protein-Molekül benutzt werden: das Hämoglobin. Es (genauer: seine Alphakette) besteht aus 141 hintereinander aufgefädelten Aminosäuren. Die konkrete Abfolge der Aminosäuren (der "Buchstaben") weicht bei den drei Arten leicht voneinander ab. Werden die Unterschiede paarweise abgezählt, so ergibt sich folgende "Distanzmatrix" (nach Art der Entfernungstabellen für Städteverbindungen):


Zahl der
Unterschiede
Schwein Gorilla
Kaninchen  27   27 
Schwein       20 

Ist die Annahme gerechtfertigt, dass derartige Unterschiede im Laufe der Zeit wachsen, und zwar (zumindest ungefähr) gleich schnell in allen Arten, so ergibt sich aus den Zahlenwerten, dass Schwein und Gorilla (Distanz 20) die nächsten Verwandten sind. Ihre Trennung muss die zeitlich jüngere sein. Der Stammbaum sieht daher so aus:

Es fällt übrigens auf, dass die beiden anderen Zahlen gleich groß sind. Das passt recht gut zum Modell einer "molekularen Uhr", die - in jeder Evolutionslinie - in gleichen Zeiten durchschnittlich die gleiche Zahl von Mutationen hervorbringt. (So genau geht die molekulare Uhr leider nicht in allen populationsgenetischen Untersuchungen!) Übungsaufgaben:

  • Berechnen Sie, um wieviel der letzte gemeinsame Vorfahr aller drei Arten älter ist als jener von Gorilla und Schwein!
  • Können Sie zu jeder Kante des Graphen schreiben, wieviele Mutationen entlang ihr (wahrscheinlich) aufgetreten sind?

Quellen:

  • Die hier verwendeten Daten (inklusive Mensch) finden Sie in: Luigi und Francesco Cavalli-Sforza, Verschieden und doch gleich, Droemer Knaur, 1994, S. 71.
  • Weitere Hämogobin-Daten (für Mensch, Pferd, Maus, Huhn, Frosch, Karpfen und Hai) finden Sie in: Karl Sigmund, Spielpläne, Knaur Taschenbuch, 1997, S. 139.


Viele Typen von Stammbäumen
 

Der gemeinsame Stammbaum einer großen Zahl von Populationen ist nicht leicht zu finden, da die Anzahl der möglichen Typen schnell anwächst. Für vier Polulationen gibt es zwei Typen:


und

Im allgemeinen Fall führt die Stammbaum-Rekonstruktion auf schwierige mathematische Probleme, da die Ausgangsdaten in der Regeln mit statistischen Fehlern behaftet sind: Welcher Stammbaum passt am besten zu den Daten? Welche Hypothese über die Abstammung der betrachteten Arten ist am wahrscheinlichsten? Mit welchen Unsicherheiten ist jede derartige Hypothese verbunden? Zur Beantwortung dieser Fragen werden aufwendige statistische Methoden entwickelt und mit Computerunterstützung durchgeführt. Nicht alle führen zu den gleichen Ergebnissen!

Um trotz aller Unsicherheiten zumindest eine erste Orientierung zu erhalten, wurde eine leicht anwendbare Methode entwickelt, die wir nun anhand eines realistischen Beispiels aus der Humangenetik besprechen. Es handelt von den frühen Wanderungsbewegungen unserer Vorfahren.
 

Die Evolution des modernen Menschen
 

Werden die "Ureinwohner" der fünf Kontinente Afrika, Amerika, Asien, Europa und Ozeanien (inklusive Australien) grob zu Populationen zusammengefasst, so lassen sich deren Genome vergleichen und daraus die Frage nach dem Stammbaum stellen. Eine derartige Untersuchung wurde von einer Forschergruppe um Luigi Luca Cavalli-Sforza durchgeführt. Auf der Basis des Vergleichs von 110 ausgewählten Genen wurden die "genetischen Distanzen" bestimmt.

Die hier verwendeten "genetischen Distanzen" zwischen menschlichen Populationen beziehen sich auf die Unterschiede in den relativen Häufigkeiten von Genvarianten, z.B. der Blutgruppensysteme. Es gibt verschiedene Berechnungsarten für diese Größen. Cavalli-Sforza verwendet folgende Definition: Zunächst werden für jedes untersuchte Gen (genauer: für jeden Genort) die relativen Häufigkeiten aller vorkommenden Genvarianten (Allele) bestimmt. Sei pj die relative Häufigkeit der j-ten Variante in einer Population (daher Sj pj = 1) und qj die entsprechende Größe für eine zweite Population (Sj qj = 1). Aus diesen wird die Zahl

1  -    
S
 
j
( pj qj )1/2   
  (1)

berechnet. Sie liegt immer zwischen 0 (identische Häufigkeitsverteilungen in beiden Populationen) und 1 (maximale Distanz). Das wird für jeden Genort gemacht, und danach wird über alle auf diese Weise erhaltenen Zahlen der Mittelwert gebildet. In der Regel wird das Resultat noch mit einem Normierungsfaktor multipliziert, für den es keine einheitliche Konvention gibt (und der für die Stammbaum-Rekonstruktion belanglos ist, da er für alle Eintragungen der Distanzmatrix der gleiche ist). Von dem auf diese Weise enthaltenen Distanzmaß wird angenommen, dass es für getrennte Populationen ungefähr proportional zu der seit der Trennung vergangenen Zeit zunimmt, und zwar umso zuverlässiger, je größer die Anzahl der untersuchten Genorte ist. Dabei ist vorausgesetzt, dass Mutationen (die zur Entstehung neuer Allele in nur einer der beiden Populationen führen können) und die Wirkungen der natürlichen Selektion nur eine untergeordnete Rolle spielen.

Die Ausgangsdaten lagen in Form folgender Distanzmatrix vor:

genetische
Distanz
Amerika Asien Europa Ozeanien
Afrika  22.6   20.6   16.6   24.7 
Amerika    8.9   9.5   14.6 
Asien      9.7   10.0 
Europa        13.5 

Ähnlich wie im vorigen Beispiel stellen die Zahlenwerte ein Maß für die paarweisen Verwandschaftsgrade dar. Allerdings weisen sowohl die Daten als auch deren Interpretation als Indikatoren für Zeitabläufe erhebliche Unsicherheiten auf (die unter anderem von den Unwägbarkeiten des molekularen Zufalls, der begrenzten Anzahl an verfügbaren DNS-Proben und von Vermischungen aufgrund späterer Migrationen herrühren).

Wir wollen hier unterstreichen, dass die Menschen eine Art bilden, für die sich keine sinnvollen Kriterien für die Konstruktion von Unterarten ("Rassen") finden lassen. Regionale genetische Unterschiede gibt es nicht nur zwischen den Bevölkerungen der Kontinente, sondern auch beispielsweise auch zwischen den Einwohnern der europäischen Staaten oder zwischen zwei benachbarten Dörfern. Sie sind ganz und gar ungeeignet, die Menschen in Kategorien einzuteilen, da sich je nach untersuchtem Merkmal ganz verschiedene Gruppen ergäben. In Untersuchungen wie dieser wird von gegebenen Populationen ("Ureinwohner" der Kontinente) ausgegangen, um aus statistischen Kenngrößen auf deren Geschichte zu schließen.

Ein einfaches Verfahren, aus diesen Daten sinnvollen einen Stammbaum zu konstruieren, funktioniert wie folgt (es trägt den hübschen Namen UPGMA = Unweighted Pair Group Method with Arithmetic Mean): Zuerst machen wir den kleinsten Datenwert in der Tabelle ausfindig: das ist 8.9, die genetische Distanz zwischen Amerikanern und Asiaten, den nächstverwandten Populationen. Wir fassen diese zu einer Gruppe {Am, As} zusammen. Deren Distanzen zu jeder anderen Population X werden als Mittelwert der Distanzen von X zu Amerika und Asien veranschlagt. Damit erhalten wir eine neue, kleinere Tabelle:

genetische
Distanz
{Am, As} Europa Ozeanien
Afrika  21.6   16.6   24.7 
{Am, As}    9.6   12.3 
Europa      13.5 

Mit dieser verfahren wir auf die gleiche Art. Die kleinste auftretende Zahl ist
9.6, das ist die Distanz zwischen der Gruppe {Am, As} und Europa. Diese beiden Gruppen fassen wir zu einer weiteren Gruppe {{Am, As}, Eu} zusammen. Deren Distanzen zu den übrigen Populationen werden wieder als Mittelwerte berechnet, woraus sich die nächste Tabelle

genetische
Distanz
{{Am, As}, Eu} Ozeanien
Afrika  19.1   24.7 
{{Am, As}, Eu}    12.9 

ergibt. Wir wiederholen das Verfahren ein letztes Mal: Die kleinste vorkommende Zahl ist
12.9, die Distanz der Gruppe {{Am, As}, Eu} von Ozeanien, was zur Bildung einer weiteren Gruppe {{{Am, As}, Eu}, Oz} Anlass gibt, die gemeinsam mit Afrika übrig bleibt und von diesem die durchschnittliche Distanz 21.9 hat. Damit haben wir die für die Rekonstruktion des Stammbaums nötige Information und können die Verschachtelungen wieder aufrollen. Zuerst fand die Trennung der nichtafrikanischen Populationen von den Afrikanern statt:


Das passt recht gut zu der aus dem fossilen Beleg gestützten These vom gemeinsamen Ursprung aller Menschen in Afrika. Danach spalteten sich Gruppen ab, die in der Folge die Inselwelt des pazifischen Ozeans und Australien besiedelten:


Als nächstes trennten sich Völker, deren Nachkommen heute den Großteil der europäischen Bevölkerung ausmachen:


Zuletzt wanderten asiatische Gruppen (in mehreren Wellen, wie wir aus anderen Quellen wissen) nach Amerika ein:


Dieses Bild der frühen Wanderungen kann stimmen (es wird auch durch archäologische und linguistische Belege unterstützt), bleibt aber vorläufig eine Hypothese, der noch zahlreiche Unsicherheiten anhaften.

Die genetischen Distanzen dieser Untersuchung können auch dazu verwendet werden, die Zeitpunkte der Verzweigungen grob abzuschätzen, obwohl die Kalibrierung molekularer Uhren noch ein heiß umstrittenes Thema ist. Die erste Trennung dürfte etwa hunderttausend Jahre zurückliegen.

Während der letzten Jahre wurden ausgeklügeltere Methoden entwickelt, entwicklungsgeschichtliche Verhältnisse menschlicher Populationen durch genetische Untersuchungen aufzukären. Die effizientesten beschränken sich nicht auf einen Distanzbegriff zwischen Populationen, sondern analysieren Sequenzen von Biomolekülen einzelner Individuen - wir werden einige Konsequenzen aus diesen Untersuchungen (vor allem die berühmte "Ur-Mutter" aller Menschen) im letzten Abschnitt kennen lernen.
 

Mathematische Nachbemerkung
 

Zuletzt wollen wir auf eine Beobachtung hinweisen, die sich aus der soeben angewandten Methode ergibt: Die Struktur eines binären Baums kann formal als verschachtelte Zusammenfassung der Blätter dargestellt werden. Im obigen Beispiel können wir den gesamten Stammbaum in der komprimierten Form {{{{Am, As}, Eu}, Oz}, Af} anschreiben, wobei die fünf Kontinente die Blätter bilden. Wenn es uns nicht auf die Namen ankommt, können wir das als {{{{*, *}, *}, *}, *} abkürzen und haben damit den Typ des Stammbaums in kompakter Form dargestellt. Solche Formen sich wichtig, wenn man Verzweigungsprozesse am Computer modellieren will. Übungsaufgaben:

  • Zeichnen Sie den Baum, der der Struktur {{{{*, *}, *}, {*, *}}, {*, *}} entspricht!
  • Wenn ein derartiger Ausdruck an ein Computerprogramm übergeben wird - wie könnte dieses die Eingabe auf syntaktische Korrektheit prüfen?
     
Weitere Ressourcen
 

Die zahlreichen im WWW bereitstehenden Ressourcen bieten zwar eine Fülle konkreter Daten und Hinweise auf Methoden, sind aber meist für Spezialisten gedacht und daher ein bisschen schwer verdaulich. Hinsichtlich der genetischen Distanzen ist zu beachten, dass es verschiedene Berechnungs- und Normierungsstandards gibt, so dass bei der Rekonstruktion eines Stammbaums die Daten aus verschiedenen Quellen nicht gemischt werden sollten.

Literatur zu Evolution, Genetik und Humangenetik:

  • Mark Ridley, Evolution, Blackwell Science, 1993
  • Luigi und Francesco Cavalli-Sforza, Verschieden und doch gleich, Droemer Knaur, 1994
  • Luigi Cavalli-Sforza, Gene, Völker, Sprachen, dtv, 1996
  • Karl Sigmund, Spielpläne, Knaur, 1997

Und für jene, die sich in die computerbasierten Methoden der modernen Biologie vertiefen wollen:

  • Arthur M. Lesk, Bioinformatik, Spektrum Verlag, 2003

¬   Spaziergänge und Buslinien Übersicht Bewertung von Webseiten        
durch Google   ®