Computertechnologie in der Wissenschaft

Wie man maschinellem Lernen auf die Sprünge helfen kann

Große Datenmengen zu verarbeiten ist eine Stärke von Maschinellem Lernen (ML). Auf den Biotechnologietagen 2019 in Würzburg stellte Robin Röhm vor, wie Daten gemeinsam genutzt werden können, ohne dass sie je den lokalen Speicherort wechseln.

Würzburg – In der Forschung wird eine Ressource für die Wissenschaftler immer wichtiger: Daten. Um die enormen Datenmengen, die zum Beispiel im Gesundheitswesen generiert werden, möglichst effizient zu händeln, finden künstliche Intelligenz und Maschinelles Lernen (ML) zunehmend Einsatz.

Maschinelles Lernen

Beim Maschinellen Lernen füttert man einen Algorithmus mit Datensätzen und bringt dem System so z. B. bei, Mikroskopieaufnahmen zu analysieren und gesunde von kranken Zellen zu unterscheiden. Das kann gut funktionieren, wenn die eingespeisten Daten sinnvoll sind. Und das System wird umso besser, je mehr geeignete Daten es zum Einlernen bekommt. Genau hier gibt es noch viel Raum für Verbesserung, meint Robin Röhm von der Firma Apheris AI, der am 10. April 2019 auf den Biotechnologietagen in Würzburg referierte.

Als Beispiel verweist Röhm auf das Gesundheitswesen. Dort gebe es keine großen zentralen Datensammler wie Google, Facebook, Amazon oder Apple. Stattdessen verteilen sich wertvolle Patientendaten über zahlreiche Institutionen, die die jeweiligen Unternehmen wie einen Schatz hüten. Brächte man diese Daten aber zusammen, so ist Röhm überzeugt, dass mit Maschinellem Lernen noch weitaus bessere Fortschritte in der Forschung möglich wären.

Wert und Schutz von Daten als Hürden

Röhm sieht zwei Hürden, die das Teilen der Daten verhindern. Zum einen den Datenschutz, der verbietet, dass personenbezogene Daten einfach an Dritte weitergegeben werden können. Zum anderen ist der finanzielle Wert der Daten ein wichtiger Faktor. Für ein Unternehmen bedeuten die eigenen gespeicherten Daten eine Ressource mit nicht zu verachtendem Marktwert. Diese zu teilen würde zwar dem Forschungsfortschritt helfen, muss dann aber finanziell verwertbar sein.

Wie also kann man die vorhanden Daten der verschiedenen Unternehmen für Maschinelles Lernen einsetzen und gleichzeitig den Datenschutz wahren und den Wert der Daten angemessen monetarisieren? Röhm schlägt dafür das Federated Machine Learning vor. Statt Daten auf einem zentralen Server mit Maschinellem Lernen zu verarbeiten, wird dabei der ML-Algorithmus an die einzelnen Clients ausgesandt. Dort lernt er mit den zur Verfügung stehenden Daten sozusagen vor Ort und wird dann – in der verbesserten Form – zurückgeschickt. Dieser Prozess wird oft wiederholt bis abschließend ein globales ML-Modell entsteht, welches allerdings auf verteilten Datensätzen trainiert wurde. Der Vorteil laut Röhm: Die zugrundeliegenden Daten bleiben bei ihren Besitzern und die Nutzung der Daten kann für jede ML-Anfrage einzeln monetarisiert werden.

"Ein bisschen Zufall" für den Datenschutz

Die technischen Möglichkeiten für besseren Nutzen von Maschinellem Lernen in der Biotechnologie oder Forschung allgemein sind prinzipiell vorhanden, meint Röhm. Der Datenschutz sei durch kryptografische Methoden wie Differential Privacy gewährleistet. Dabei wird z. B. dem ML-Modell während seinem Training am externen Datensatz "ein bisschen Zufall über eine Laplace-Funktion" hinzuaddiert, wie der Experte sagt. So könne man nicht mehr vom zurückgeschickten Algorithmus auf die ursprünglichen Daten schließen. Das hinzuaddierte Rauschen kann dabei so gewählt werden, dass es klein genug ist, um die Aussagekraft des Algorithmus nicht zu beeinträchtigen.

Welche Methoden sich in Zukunft durchsetzen werden, ist schwer abzusehen. Doch gerade die Biotechnologie sollte beim Einsatz und der Weiterentwicklung von Maschinellem Lernen und anderen digitalen Prozessen ganz vorne mit dabei sein, wie Röhm sagt.

Bitte beachten Sie

Die Beiträge in der Rubrik "Trends und Innovationen" sind Inhalte unseres Medienpartners Vogel Communications Group GmbH & Co. KG. Sie spiegeln nicht unbedingt die Meinung von DATEV wider.