Ein Computer-Programm hat aus einer Fülle an Daten der Europäischen Chemikalienagentur (ECHA) zu etwa 10.000 chemischen Stoffen Voraussagen zur Giftigkeit der Substanzen getroffen. Die Daten dazu stammen aus Tierversuchen. „Tierversuche verstehen“ hat mit dem Toxikologen Prof. Thomas Hartung von der Johns Hopkins University in Baltimore über die von ihm und seinem Team entwickelte Methode gesprochen und darüber, ob diese Methode in Zukunft im Stande ist, die gesetzlich vorgeschriebenen Tierversuche bei Giftigkeitsprüfungen zu ersetzen.
Sie haben mit ihrem Team eine computerbasierte Methode entwickelt, um die Wahrscheinlichkeit einer giftigen Wirkung für unbekannte Substanzen vorherzusagen. Wie genau funktioniert diese Methode des Machine Learnings?
Prof. Thomas Hartung: Das Verfahren basiert darauf, dass ähnliche Chemikalien ähnliche Wirkungen haben. Wir haben zunächst eine Landkarte des chemischen Universums gebaut. 10 Millionen Chemikalien wurden verwendet, das sind 50 Billionen Vergleichspaare. Die Ähnlichkeit wurde ermittelt, indem für jedes mögliche Paar berechnet wurde, wie viele aus 900 Substrukturen sie gemeinsam haben. Die Landkarte repräsentiert am Ende ähnliche Chemikalien sehr nah beieinander, sehr verschiedene weit voneinander entfernt. Dazu hat ein Supercomputer zwei Tage gerechnet. Wir haben dann aus verschiedenen Datenbanken, vor allem aber aus der Registrierungsdatenbank der Europäischen Chemikalienagentur, für 300.000 Chemikalien jeweils bis zu 74 Eigenschaften eingetragen. Darunter sind viele Tierversuchsdaten, zum Beispiel die akute Giftigkeit für rund 48.000 Chemikalien.
Wie kann man aus einer solchen Vielzahl an Chemikalien eine Vorhersage treffen?
Hartung: Wenn wir jetzt die Eigenschaften einer neuen Chemikalie vorhersagen wollen, setzen wir sie in unsere Landkarte. Das ist am Einfachsten, wenn die Struktur der Chemikalie schon in der Landkarte vorhanden ist. Es geht aber auch in Sekunden, wenn die Struktur der Chemikalie nicht dabei ist, es aber ähnliche Substanzen gibt. Danach werden die 74 Eigenschaften angeschaut. Die Fragen lauten nun: Was weiß ich über die Substanz selbst und wie weit ist die nächste Substanz mit positiven Eigenschaften und wie weit ist die nächste Substanz mit negativen Eigenschaften entfernt? Aus diesen 74 Eigenschaften ergeben sich also 222 Werte. Mit ca. einer halben Milliarde Rechenoperationen wird dann eine Vorhersage gemacht, wie giftig eine Substanz zum Beispiel ist.
Welche Arten von Giftigkeitsprüfungen kann diese Methode erfassen? Wie viel Prozent der bisherigen Tests könnten mit Hilfe der Computer-Software ersetzt werden?
Hartung: Bisher haben wir die Computer-Methode für die neun am häufigsten verwendeten Tierversuche in der Sicherheitsprüfung eingesetzt. Diese verbrauchten in der EU im Jahr 2011 zusammen 57 Prozent der Tiere. Dazu gehören die akute Toxizität, wenn man die Substanz über den Mund, die Haut oder die Atemwege aufnimmt, Haut- und Augenreizungen und Korrosion, Mutagenität, Hautsensitivierung und akute und chronische Fischtoxizität. Prinzipiell geht das für jede Eigenschaft – auch chemische und physikalische Eigenschaften –, aber man braucht eine ausreichend große Datenbank von guter Qualität, im Allgemeinen mehrere Tausend Substanzen, um das gesamte chemikalische Universum vorherzusagen. Je direkter der Effekt von der Struktur abhängig ist, desto besser wird die Vorhersage. Je mehr ähnliche Substanzen in jedem Fall mit Daten vorliegen, desto besser die Vorhersage.
Wo liegen die Grenzen bei der Nutzung von Big Data und Machine Learning im Bezug auf chemische Stoffe? Wie zuverlässig ist ein solcher Algorithmus?
Hartung: Für unsere neun Tierversuche lagen wir zwischen 82 und 95 Prozent richtig. Das heißt, wir haben für alle Tierversuchsdaten in der Datenbank angenommen, wir wissen das nicht, und haben eine Vorhersage gemacht. Insgesamt 190.000 mal. Dann haben wir geschaut, wie oft wir zum selben Ergebnis kamen. Ein Meilenstein war dabei, dass wir in sechs Fällen auch die Reproduzierbarkeit des Tierversuchs untersuchen konnten. Für 350 bis 750 Chemikalien hatten wir nämlich Wiederholungsversuche in unserer Datenbank. Der Tierversuch erreicht nur 81 Prozent statistische Genauigkeit, während der Computer 87 Prozent für diese sechs Tests schaffte. Diese schlechte Reproduzierbarkeit ist umso bemerkenswerter als dies Tierversuche unter Good Laboratory Practice waren, das heißt hoch standardisiert, qualitätskontrolliert und von sehr erfahrenen Laboratorien gemacht. Besser reproduzierbar können andere Tierversuche kaum sein. Tierversuche an der Universität können da kaum drankommen, zumal dies in der Toxikologie alles Hochdosis-Modelle sind, die an gesunden Tieren (ohne künstlich herbeigeführte Erkrankung) durchgeführt werden. Diese sehr robuste Analyse zeigt, dass wir wirklich ein enormes Reproduktionsproblem bei Tierversuchen haben.
Eine Besonderheit der Methode ist, dass sie angeben kann, wie sicher jede einzelne Voraussage ist. Wenn sehr viele Informationen für sehr ähnliche Substanzen da sind oder sogar andere Informationen für dieselbe Substanz, dann ist die Vorhersage sehr zuverlässig. Man kann also in jedem Einzelfall entscheiden, ob die Vorhersage sicher genug ist, oder ob mehr Information generiert werden muss.
Tierversuche sind in Europa bei der Giftigkeitsprüfung gesetzlich vorgeschrieben, bis es eine zuverlässige Alternative gibt. Wie hoch schätzen Sie die Chancen ein, dass die Software als Alternativmethode von den Regulierungsmethoden anerkannt wird? Wie lange wird das dauern?
Hartung: Eine neue Methode darf nicht den Sicherheitsstandard senken. Ein sehr wichtiger Teil unserer Arbeit war deshalb, zu prüfen, wie gut der Tierversuch überhaupt ist. Unsere Datenbank enthält nämlich sehr viele Chemikalien, die mehrmals im Tierversuch getestet wurden. Wir haben zum Beispiel zwei Chemikalien die mehr als 90 mal im Kaninchenauge getestet wurde, 69 Chemikalien mehr als 45 mal. Für 6 der Tierversuche konnten wir damit die Reproduzierbarkeit bestimmen. Sie lag im Durchschnitt nur bei 81 Prozent, das heißt nur in 4 von 5 Fällen würde die Wiederholung dasselbe Ergebnis bringen. Für die Wiederholbarkeit von giftigen Wirkungen erzielen Tierversuche sogar nur 70 Prozent.
Für gesetzlich vorgeschriebene Tierversuche ist eine Validierung von Alternativen Ansätzen notwendig, die wir mit den amerikanischen Behörden gerade beginnen. Wir sind sehr zuversichtlich, da wir in unserer Arbeit bereits 190.000 Vorhersagen gemacht und zu 87 Prozent richtig lagen, sogar 89 Prozent für die giftigen Substanzen.
Darüber hinaus gibt es eine Menge Verwendungen, die ohne Validierung auskommen: Ein Chemiker kann zum Beispiel eine Vorhersage der Giftigkeit machen, bevor das Molekül überhaupt synthetisiert wird. In der Produktentwicklung kann man früh auf ungiftige Stoffe setzen, bevor überhaupt gesetzliche Prüfungen notwendig werden. Oder man kann nach ungiftigen Alternativen suchen, wenn eine Komponente eines Produkts Probleme macht.
Welche Möglichkeit sehen Sie, dass solche Computersimulationen in naher Zukunft auch in anderen Bereichen der Forschung mit Tieren eingesetzt werden kann?
Hartung: Unsere Methode ist keine Simulation. Sie sagt einfach, was die chemische Umgebung einer Chemikalie ist und was wir über diese Nachbarn wissen. Aus der Analyse von Millionen solcher Chemikalien-Paare, hat der Computer gelernt wie wahrscheinlich das für eine Eigenschaft spricht. Dabei ist die Methode unabhängig davon, welche Eigenschaft untersucht wird, das heißt die Grenzen der Methode liegen zunächst nur in der Menge und Qualität der vorhanden Daten. Da liegt für viele Tierversuche das Problem, denn die Ergebnisse werden oft nicht oder unvollständig publiziert. In den letzten Jahren haben aber immer mehr Behörden und Firmen angefangen, Daten mit anderen Wissenschaftern zu teilen. Auch die wissenschaftliche Literatur ist voll von wertvollen Informationen. Allein die Datenbank MedLine nimmt pro Jahr rund 800.000 Artikel auf, von denen 80 Prozent biologische Effekte von Substanzen beschreiben. Da fehlt es noch an Möglichkeiten der Datenextraktion.
Je simpler die Kette von Chemikalie zu ihrer Wirkung ist, desto öfter liegt der Computer richtig. Die Methode ist besonders stark, wenn es nur um einen Angriffsort, zum Beispiel einen Rezeptor geht, wie das oft bei Medikamentenentwicklungen oder bei den sogenannten Endokrinen Disruptoren der Fall ist.