Mit Deep Learning durch den Daten-Dschungel
Wer eine Zelle mit einer anderen vergleichen möchte, muss sich auf das Wesentliche konzentrieren. Dabei gibt es nur ein Problem: Was wesentlich sein soll, können Wissenschaftler*innen häufig zunächst gar nicht sagen. Auch wenn zwei Zellen im Körper die exakt gleichen Moleküle herstellen, können sie für den Forschenden in der Analyse trotzdem verschieden aussehen. Und das möglicherweise nur, weil sie an unterschiedlichen Tagen oder in verschiedenen Laboren gewonnen und bei der Entnahme gestresst wurden. Wenn Datenwisschenschaftler*innen mit solchen Daten arbeiten möchten, begegnen sie daher dem Problem der „ground truth“: ohne die Daten exakt zu kennen, kann man keine Modelle beurteilen.
Pia Rautenstrauch versucht mit Hilfe von Algorithmen und Computermodellen die relevanten Informationen aus einem Meer von Daten herauszufischen. Die Doktorandin gehört zur Arbeitsgruppe von Professor Uwe Ohler am Berliner Institut für Medizinische Systembiologie (BIMSB) des Max-Delbrück-Centrums für Molekulare Medizin in der Helmholtz-Gemeinschaft (MDC). Vor Kurzem hat sie an einer Data Challenge teilgenommen, die auf der größten Machine Learning Konferenz NeurIPS ausgetragen wurde. Die Ergebnisse sollen demnächst in einer Sonderausgabe der „Proceedings of Machine Learning Research“ veröffentlicht werden.
Hochdimensionale Daten
Im vergangenen Jahr haben internationale Forschende aus Wissenschaft und Wirtschaft den NeurIPS-Wettbewerb organisiert. Dazu haben sie ein umfangreiches Set an Daten aus Einzelzellsequenzierungen von 120.000 Zellen aus dem Knochenmark bereitgestellt, mit soviel „ground truth“ wie möglich. Das Ziel der Teilnehmer*innen war es, innerhalb von zwei Monaten neue Analyse-Methoden zu entwickeln. Denn herkömmliche statistische Techniken gehen angesichts der wachsenden Komplexität von Einzelzell-Daten in die Knie. Algorithmen und Deep Learning Modelle sind nötig, um die hochdimensionalen Daten interpretieren zu können.
Noch vor wenigen Jahren war es schlicht unmöglich, mehrere Datentypen von tausenden Zellen eines Gewebes gleichzeitig zu erheben und individuelle Unterschiede zu sehen. Erst mit neuesten Technologien aus der Einzelzellgenomik können Forschende unterschiedliche Biomoleküle innerhalb einer einzelnen Zelle messen.
Drei Datentypen geben Aufschluss über die Genregulation einer Zelle und standen den teilnehmenden Wissenschaftler*innen zur Verfügung: Die Chromatinzugänglichkeit bestimmt, wann und wo die Gene auf den Chromosomen für DNA-bindende Proteine erreichbar sind, zum Beispiel um die Abschrift (Transkription) zur RNA zu starten. Davon abhängig ist die Rate der Genexpression, die sich im zweiten Datentyp zeigt. Als drittes standen Daten zu den Proteinen auf der Zelloberfläche zur Verfügung.
Alle drei Datentypen sind abhängig voneinander. Und so konnten die Teilnehmenden damit Modelle entwickeln, die zuverlässig einen bestimmten Datentyp vorhersagen können, beispielsweise konnten sie aus der Genexpression die Rate der Oberflächenproteine schließen.
Relevante Signale herausfiltern
Mein Ziel war es, die technischen Unterschiede auszublenden, die zum Beispiel durch Zellstress bei der Probenentnahme entstanden sind.
Rautenstrauch widmete sich jedoch einer anderen Aufgabe: Sie wollte herausfinden, welche Zellen einander ähnlich sind, um so die unterschiedlichen Zelltypen zu identifizieren, die in den Proben enthalten waren. Dafür musste sie sich zunächst im Daten-Dschungel zurechtfinden, um die Daten anschließend einfacher und niedrigdimensional darzustellen. Sie fragte sich also, wie sie die Zellen gruppieren und mehrere Datentypen sinnvoll miteinander kombinieren könnte, sodass die biologischen Unterschiede herausgefiltert werden.
Eine Herausforderung, findet Rautenstrauch, denn die drei Datentypen haben jeweils unterschiedliche mathematische und statistische Eigenschaften. „Mein Ziel war es, die technischen Unterschiede auszublenden, die zum Beispiel durch Zellstress bei der Probenentnahme entstanden sind“, sagt sie. Das Problem sei dabei, dass alle Zellen bei der Einzelzellsequenzierung kaputt gehen. Im Nachhinein ist es also schwer zu beurteilen, ob Unterschiede auf zwei Zelltypen hindeuten oder auf einen Messfehler, es also ein Artefakt ist. Für den Wettbewerb nutzte Rautenstrauch ein Deep Learning basiertes Modell aus dem Bereich der künstlichen Intelligenz, das sie selbst entwickelt hat. Solche Modelle lernen selbstständig aus Daten und werden dabei immer besser, zwei Datentypen sinnvoll miteinander zu kombinieren und dabei Artefakte zu entfernen. Sie belegte den zweiten Platz bei der Kombination „Genexpression und Oberflächenproteine“ und den vierten Platz bei „Genexpression und Chromatinzugänglichkeit“.
Rautenstrauchs „Deep Learning“-Modell könnte beispielsweise beim „Human Cell Atlas“ nützlich sein – eine Referenzkarte aller Zellen, die im menschlichen Körper vorkommen. Die ihm zugrunde liegenden Rohdaten sind in vielerlei Hinsicht divers: Sie stammen von tausenden Spendern verschiedener Altersgruppen weltweit und wurden in über 2000 Laboren mit verschiedenen technischen Geräten gewonnen. Solche Unterschiede schlagen sich auch in den Daten nieder und können wesentliche biologische Unterschiede zwischen einzelnen Zelltypen verwässern.
Prestigeträchtige Veröffentlichungen mal anders
Mit NeurIPS fand zum ersten Mal ein Wettbewerb mit einer standardisierten Aufgabenstellung und vordefinierten Bewertungskriterien für Einzelzellsequenzierungsdaten statt. Die Lösungen der Teilnehmenden sollen jetzt ausgewertet und veröffentlicht werden. „In unserer Community publizieren wir nicht nur in Journalen, sondern veröffentlichen unsere Ergebnisse eher auf großen Konferenzen“, erklärt Rautenstrauch, sie und Ohler stehen als Konsortium-Autor*innen auf dem begleitenden Manuskript. Auch hier gibt es ein Peer-Review-Verfahren. Sponsoren des Wettbewerbes waren hauptsächlich US-amerikanische Einrichtungen und Firmen (Cellarity, die Universität Yale, die Chan-Zuckerberg-Initiative und der Chan-Zuckerberg-Biohub) sowie das Helmholtz Zentrum München.
Text: Christina Anders