Wenn Maschinen denken

CC-BY 2.0 (https://creativecommons.org/licenses/by/2.0/) Mike MacKenzie (http://www.vpnsrus.com)

Selbstfahrende Autos, sprechende Maschinen, Geräte mit Gesichtserkennung und Scanner für Fingerabdrücke: Was vor einigen Jahren noch geklungen hätte wie das Material für den neusten Hollywoodstreifen, ist als Vorlage längst abgelöst worden. Das neue Schlagwort lautet nun: künstliche Intelligenz. Dabei wissen nur wenige, was das genau bedeutet. Denn selbstfahrende Autos und Smartphones mit Spracherkennung sind nur jene Beispiele, die unseren Alltag zunehmend verändern. Die Vorhersage von Proteinstrukturen dagegen erscheint derzeit als Königsdisziplin im Bereich künstliche Intelligenz.

Ende 2018 rückte die künstliche Intelligenz in dieses komplexe Feld vor: Zum dreizehnten Mal fand das Gemeinschaftsexperiment CASP (Critical Assessment of Techniques for Protein Structure Prediction) statt. Veranstaltet wurde das Experiment von der University of California, Davis und unterstützt durch das National Institute of Health und die US National Library of Medicine. CASP bot unterschiedlichen Forschergruppen die Möglichkeit, die Qualität ihrer Methoden zur Vorhersage von Proteinstrukturen zu testen. Das Experiment wurde von vielen Forschern auch als Wettbewerb betrachtet. Der für viele überraschende Sieger war das Programm AlphaFold des Google-Unternehmens DeepMind: Google DeepMind hatte es erstmals geschafft, Proteinstrukturen vorauszusagen.

Künstliche Intelligenz und Maschinelles Lernen

Künstliche Intelligenz funktioniert ähnlich wie die menschliche Intelligenz. Steht der Mensch vor einem schwierigen Problem und findet dafür erfolgreich eine Lösung, erreicht er das durch den Gebrauch seiner natürlichen Intelligenz. Maschinen sollen ein Problem durch künstliche Intelligenz lösen: Wie wir Menschen werden sie dazu gebracht, auf Erfahrungen und erlerntes Wissen zurückzugreifen. Bei Menschen liegen diese Informationen im Gehirn, bei Maschinen im Speicher. Dieser Speicher muss allerdings zunächst durch menschliche Hand gefüllt werden; Programmierer müssen der Maschine passende Informationen bereitstellen. Hier kommt der Prozess des Maschinellen Lernens ins Spiel.

Ein vereinfachtes Beispiel: Ein kleines Kind spielt zum ersten Mal im Garten. Auf einmal kommt ein Tier vorbei. Seine Mutter erklärt ihm, dass dies eine eine Katze ist. Das Kind speichert in seinem Gehirn nun Struktur, Farbe und Auftreten des Tieres ab und verbindet es mit dem Wort Katze. Bei Maschinen funktioniert dies genauso. Soll ein Computer ein Bild erkennen, muss man ihm zunächst beispielhafte Bilder liefern, aus denen er die nötigen Erkennungsmerkmale „lernen“ kann.

Indem die Maschine nun durch hochkomplexe Abläufe und Algorithmen des maschinellen Lernens die gegebenen Bilder analysiert, erkennt die Maschine jegliche Art von Katzen, auch wenn die bereitgestellten Informationen lediglich braune Katzen beinhaltet haben. Die Maschine hat demnach aus den gegebenen Bildern „gelernt“. Somit lassen sich komplexere Probleme lösen. Die Maschine extrahiert Informationen aus Daten, die der Mensch so vielleicht nie nutzen würde oder könnte. Dahinter steckt viel Mathematik und Informatik. Natürlich beschränkt sich dieser Prozess nicht nur auf Bilder, sondern kann auf sehr verschiedene Probleme angewendet werden, so auch im Bereich Vorhersagen von Proteinstrukturen.

Die Königsdisziplin

Ein Protein besteht aus einer Kette aus vielen aneinander gereihten Aminosäuren, die sich zu unterschiedlichen Strukturen falten kann. Je nach Funktion des Proteins kann es einige Milliarden Möglichkeiten der Faltung geben. Aus dieser Komplexität erwächst ein Geheimnis des Lebens überhaupt: Beinahe jede Funktion von Lebewesen kann auf die Form und Bewegung von Proteinen zurückgeführt werden – auch in unserem Körper.

Normalerweise nimmt ein Protein eine Struktur an, die für die Natur am Besten geeignet ist. In manchen Fällen kann es jedoch auch zu fehlgefalteten Proteinen kommen. Diese werden vom Körper meistens abgebaut. Kommt es aber zu Fehlern im Abbauprozess, können sich Fehlfaltungen daraufhin häufen. Krankheiten wie Diabetes, Parkinson oder Alzheimer können das Resultat sein. Damit Forscher gegen solche Krankheiten auch Arzneimittel entwickeln können, ist es für sie wichtig zu wissen, wo, wann und wie die Stoffe im Körper mit den Proteinen zusammenspielen. Wenn sie die Struktur des Proteins dagegen nicht kennen, ist dies sehr schwer bis unmöglich. Als würde man einen Schlüssel für ein Schloss bauen, von dem man die Form nicht kennt. Diese Strukturen durch künstliche Intelligenz aufklären zu können, gilt deshalb als großer Schritt.

Proteinstruktur des Hormons Insulin (Cite images created with the PDB ID and associated publication, NGL Viewer (AS Rose et al. (2018) NGL viewer: web-based molecular graphics for large complexes. Bioinformatics doi:10.1093/bioinformatics/bty419), and RCSB PDB)

Google – weit mehr als nur Suchmaschine

Ein Stück dieses Erfolgs hat im Dezember 2018 nun Google für sich reserviert: Schon vier Jahre zuvor hatte das Mutterunternehmen der Suchmaschine die 2010 gegründete britische Firma DeepMind übernommen. DeepMind bezeichnet sich selbst als Weltmarktführer im Bereich künstlicher Intelligenz. Für den Wettbewerb beim CASP im November 2018 schaffte deren Programm AlphaFold, 25 von 43 Proteinstrukturen richtig vorherzusagen. Dagegen schaffte das zweitplatzierte Programm gerade mal drei. Die Grundlage für AlphaFold sind sogenannte neuronale Netze: Diese sind bis zu einem gewissen Grad dem eines biologischen Gehirns nachempfunden. Bevor diese Netze komplexe Problemstellungen lösen konnten, mussten sie trainiert werden. Allerdings nicht mit Katzen: DeepMind lernte mit tausenden bekannten Proteinstrukturen, bis das Programm die Struktur allein durch Aminosäuren vorhersagen konnte. Dabei konzentrierte sich das Programm besonders auf den Abstand zwischen Aminosäurepaaren und den Winkel der chemischen Bindung, die diese Aminosäuren verbinden.

In einem zweiten Schritt optimierten die Entwickler bei AlphaFold den Strukturentwurf, um die energieeffizienteste Anordnung der Aminosäuren zu erreichen. Neben dem großen Gewinn für die Arbeit mit Proteinstrukturen zeigt das Programm AlphaFold doch gleichzeitig, welch großes Potenzial im Bereich der Künstlichen Intelligenz steckt. Das Problem der Proteinfaltung ist damit noch nicht voll gelöst, aber der Anfang ist gemacht.

Tanja Ascher

Tanja Ascher steht kurz vor Ihrem Bachelorabschluss im Fach Germanistik. Texte schreiben war bereits zentraler Inhalt ihres Studiums. Das „Studentenfutter“ gab ihr die Möglichkeit noch eine ganz andere Art von Textproduktion kennen zu lernen und sich mit fachfremden und gleichzeitig spannenden Themen journalistisch auseinander zusetzen.