Algorithmen führen durchs Datendickicht biologischer Systeme
Betrachtet man nicht mehr nur einzelne Moleküle, wird Biologie schnell zu einer komplizierten Sache. Alle Lebensvorgänge scheinen sich wechselseitig zu beeinflussen. Der Informatiker Prof. Uwe Ohler und sein Forschungsteam vom Max-Delbrück-Centrum für Molekulare Medizin in der Helmholtz-Gemeinschaft (MDC) schlagen mit Hilfe von Algorithmen und mathematischen Modellen eine Schneise in den Dschungel dieser Abhängigkeiten.
Das Leben besteht aus mannigfaltigen Beziehungen auf verschiedenen Ebenen: Ökosysteme, Individuen, Organe, Zellen und einzelne Molekülen wirken aufeinander. Viele dieser Beziehungen lassen sich ohne die Unterstützung von Formeln und Gleichungen nicht umfassend beschreiben, weshalb die modernen Lebenswissenschaften eng mit Physik, Informatik und Mathematik verzahnt sind.
Uwe Ohler untersucht das komplizierte Zusammenspiel der Gene
Die Systembiologie treibt es damit auf die Spitze. Sie will alle Lebensvorgänge und ihre Beziehungen untereinander in ihrer Gesamtheit erfassen – ohne Mathematik und Informatik wäre das hoffnungslos, wie Prof. Uwe Ohler, Systembiologe und Informatiker am MDC, bestätigt: „Mein Team macht zwar auch Experimente im Labor. Aber zwei Drittel unserer Arbeit sind Computerberechnungen.“
Das Spezialgebiet des Forschers sind jene Gene, die alle Lebensvorgänge kontrollieren: Sie werden von der DNA abgelesen und in Moleküle übersetzt, die wiederum andere Gene steuern, welche dann etwa als Botenstoffe wirken oder Baumaterial bilden. Während der Embryonalentwicklung bestimmen sie, ob sich eine Stammzelle zum Beispiel zu einer Nerven- oder Muskelzelle entwickelt. Auf diese Weise regulieren sie den Bau aller Organe, den gesamten Organismus und auch Verhaltensweisen.
Ohler und sein Team wollen herausfinden, wie und wann welche Gene aktiviert werden und wie sie sich gegenseitig beeinflussen. Dabei betrachten die Forscher gleich mehrere Schritte der Genregulation.
In fest verpackter DNA ruhen die Gene
Ob ein Gen aktiv ist – ob also seine Information in einem „Transkription“ genannten Prozess abgelesen werden kann –, hängt unter anderem davon ab, ob kleinste molekulare Kopiermaschinen überhaupt an den fraglichen Teil des Erbguts gelangen. Wenn die DNA fest aufgewickelt ist, können diese „RNA-Polymerase“ genannten Maschinen nicht arbeiten.
Unter dem Mikroskop erkennt man: Die DNA liegt als ein verschlungenes Knäuel dünner Fäden im Zellkern. In den etwas helleren Regionen dieser „Chromatin“ genannten Struktur ist die DNA etwas lockerer geknäult. Dort gibt es genug Raum für Steuerproteine, sogenannte Transkriptionsfaktoren. Sie binden an die DNA und lenken die RNA-Polymerase an die Position des Gens. Aus diesen Regionen werden dann Informationspakete in Form von RNA-Molekülen verschickt.
Eine Kooperation mit New York
Eine neue Publikation von Ohler in der Fachzeitschrift Cell Stem Cell zeigt, wie entscheidend der Zustand des Chromatins auf das Wechselspiel der einzelnen Gene wirkt. Dabei nahmen die Forscher Vorgänge in einer Stammzelle unter die Lupe, die zu Nervenzellen programmiert werden.
„Stammzellen lassen sich extrem schnell zu bestimmten Nervenzellen programmieren, das hat Esteban Mazzoni von der New York University schon vor einigen Jahren entdeckt. Man muss lediglich drei Gene künstlich aktivieren, und innerhalb weniger Tage hat sich die Stammzelle in ein Motoneuron verwandelt. Was genau dabei in der Zelle passiert, wusste allerdings keiner. Genau das wollten wir gemeinsam herausfinden“, beschreibt Ohlers Teammitglied Mahmoud M. Ibrahim das Projekt.
Als Doktorand im MDC-NYU-Austauschprogramm arbeitete Ibrahim eng mit der Gruppe von Esteban Mazzoni zusammen und reiste einige Male zu Forschungsaufenthalten nach New York. Während Mazzonis Gruppe den experimentellen Teil übernahm, werteten Ibrahim und ein weiterer Kooperationspartner von der Penn State University die anfallenden Daten aus.
Wie erzeugt man eine motorische Nervenzelle?
„Wir haben Daten auf verschiedenen Ebenen erfasst: zum Beispiel die Chromatinzustände, verschiedene regulierende Signale oder wann Gene aktiviert wurden, und zwar an mehreren Zeitpunkten über den Zeitraum der Umprogrammierung hinweg“, berichtet Mahmoud M. Ibrahim.
Um in diesem Datenwust Zusammenhänge zu finden, fütterte er die Datensätze in ein Bayes'sches Netz, eine mathematische Struktur, die man für maschinelles Lernen einsetzen kann. Der Computer sortierte die zeitabhängigen Daten dann selbstständig in Klassen von Genen, wodurch die Zusammenhänge unter ihnen sichtbar wurden.
Das Forscherteam entdeckte so, dass bei der Verwandlung von Stammzellen zu Neuronen mehrere unabhängige Prozesse angestoßen werden, die letztendlich zusammenlaufen. Drei Transkriptionsfaktoren reichten aus, um koordiniert mehrere komplexe Ereignisse in der Zelle in Gang zu setzen. Zuerst wurde das Chromatin in bestimmten Regionen aufgelockert, dann wurden dort ganz bestimmte Genprogramme aktiviert, die schließlich das Schicksal der Zelle besiegelten.
Ohne das mächtige statistisch-mathematische Handwerkszeug des maschinellen Lernens hätten die Forscher das nicht herausfinden können, sagt Ibrahim: „Das Besondere an unserer Arbeit war, dass wir mehrere Datensätze aus mehreren Zeitpunkten zusammengeführt haben. Damit bekamen wir einen detaillieren Überblick über die zeitabhängigen Veränderungen in der Zelle.“
„Sinn“ von „Unsinn“ unterscheiden
Die Integration von Daten hilft auch dabei, echte von zufällig erzeugten zellulären Signalen zu unterscheiden. Dieses Thema war Gegenstand einer weiteren neuen Publikation der Arbeitsgruppe von Uwe Ohler in Nature Structural and Molecular Biology. So kommt es manchmal vor, dass die Transkriptions-Maschinen im aufgelockerten Chromatin beliebige DNA-Abschnitte ablesen. Die RNA-Moleküle, die dabei entstehen, erzeugen ein Grundrauschen in der Zelle, das „echte“ RNA-Signale überlagern kann.
Um die Spreu vom Weizen zu trennen, integrierte Ohlers Team Daten über die Herstellung, die Weiterverarbeitung, den Abbau und den Transport der RNAs in der Zelle. Wieder sortierte das Forscherteam die gesammelten Informationen mit Hilfe von Algorithmen, um RNA-Moleküle zu klassifizieren.
Die meisten RNAs dienen als Code für ein Protein, einige regulieren andere Gene. Aber viele der nicht-codierenden RNA-Moleküle können überhaupt keine Funktion haben, zeigte die Analyse. Viele dieser RNAs werden praktisch sofort wieder abgebaut oder verlassen nie den Zellkern. Daraus ergibt sich auch, dass wohl einige als „Gen“ geltende DNA-Abschnitte zwar mit biologischen Prozessen korreliert sind, aber die Transkripte selbst keine weiteren Funktionen haben. Diese RNAs sind möglicherweise eine ganz natürliche Nebenwirkung der Transkription, der weder nützt noch schadet. Schließlich hat nicht alles einen Sinn, was in der Natur passiert.
„Eine weitere mögliche Interpretation dieser Ergebnisse ist: Die Evolution ist ein ständig fortschreitender Prozess, und selbst die Spezies Mensch ist in ihrer evolutionären Entwicklung noch längst nicht am Ende: Gene können neue Funktionen annehmen oder verlieren. Im Körper passieren eine Menge Dinge, die keinen entscheidenden Vor- oder Nachteil mit sich bringen und als natürliches Spielfeld der Evolution dienen“, sagt Uwe Ohler.
Die Biologie wirkt so komplex, weil alles mit allem zusammenzuhängen scheint. Die mannigfaltigen Beziehungen des Lebens zu ordnen und zu verstehen – daran arbeitet Uwe Ohler.
Weiterführende Links
Silvia Velasco,1,7 Mahmoud M. Ibrahim,2,3,7 Akshay Kakumanu,4,7 Görkem Garipler,1 Begüm Aydin,1 Mohamed Ahmed Al-Sayegh,1,5 Antje Hirsekorn,3 Farah Abdul-Rahman,1 Rahul Satija,6 Uwe Ohler,2,3,8 Shaun Mahony,4,8 Esteban O. Mazzoni1,8 (2016): „A Multi-step Transcriptional and Chromatin State Cascade Underlies Motor Neuron Programming from Embryonic Stem Cells.“ Cell Stem Cell 20. doi:j.stem.2016.11.006
1Department of Biology, New York University, New York, USA; 2Department of Biology, Humboldt-Universität zu Berlin; 3Berlin Institute for Medical Systems Biology, Max-Delbrück-Centrum für Molekulare Medizin in der Helmholtz-Gemeinschaft; 4Center for Eukaryotic Gene Regulation, Department of Biochemistry and Molecular Biology, Penn State University, USA; 5Division of Science and Math, New York University, Abu-Dhabi, UAE ; 6New York Genome Center, New York University, New York, USA
7Co-Erstautoren; 8Korrespondenzautoren
Neelanjan Mukherjee1, Lorenzo Calviello1,2, Antje Hirsekorn1, Stefano de Pretis3, Mattia Pelizzola3 & Uwe Ohler1,2,4 (2017): „Integrative classification of human coding and noncoding genes through RNA metabolism profiles.“ Nature Structural and Molecular Biology 24(1). doi: 10.1038/nsmb.3325
1Berlin Institute for Medical Systems Biology, Max-Delbrück-Centrum für Molekulare Medizin in der Helmholtz-Gemeinschaft; 2Department of Biology, Humboldt-Universität zu Berlin; 3Center for Genomic Science of IIT@SEMM, Fondazione Instituto Italiano di Tecnologia, Milan, Italien; 4Department of Computer Science, Humboldt-Universität zu Berlin