Künstliche Intelligenz

Computer lernen, menschliche Emotionen natürlich zu interpretieren

Forscher des MIT Media Lab haben ein maschinelles Lernmodell entwickelt, das Computern näherbringt, menschliche Emotionen so natürlich wie andere Menschen zu interpretieren. Das Modell lässt sich an andere Personenkreise anpassen – und erlaubt beispielsweise eine bessere Einschätzung von Depression, Demenz oder Autismus.

Ein Teilbereich der KI-Forschung ist das sogenannte "affektive Rechnen". Hierbei werden Roboter und Computer entwickelt, um Gesichtsausdrücke zu analysieren, unsere Emotionen zu interpretieren und entsprechend zu reagieren. Anwendungen sind zum Beispiel die Überwachung der Gesundheit und des Wohlbefindens einer Person, die Messung des Interesses der Schüler an Klassenzimmern, die Unterstützung bei der Diagnose von Anzeichen bestimmter Krankheiten und die Entwicklung hilfreicher Roboterbegleiter.

Damit dies jedoch funktioniert, müssen die Systeme lernen, wie Menschen Emotionen ausdrücken. Dies kann, abhängig von diversen Faktoren, sehr unterschiedlich ausfallen. So gibt es etwa allgemeine Unterschiede zwischen Kulturen, Geschlechtern und Altersgruppen. Andere Unterschiede sind noch feiner: Die Tageszeit, wie viel die betreffende Person geschlafen hat, oder die individulle Vertrautheit mit einem Gesprächspartner führt zu subtilen Variationen in der Art und Weise, wie Gefühle in einem bestimmten Moment ausgedrückt werden.

Das menschliche Gehirn fängt diese Abweichungen instinktiv ein. Maschinen beherrschen diese Art des Feingefühle nicht. In den letzten Jahren wurden tiefgehende Lerntechniken entwickelt, um die Feinheiten einzufangen, aber sie sind immer noch nicht so genau und anpassungsfähig, wie sie sein könnten.

Ein Lernmodell für emotionales Feingefühl

Wie die Forscher ausführen, verwenden traditionelle affektive Computermodelle für gewöhnlich ein "one-size-fits-all"-Konzept: Sie trainieren auf einem Satz von Bildern, die verschiedene Gesichtsausdrücke darstellen, optimieren Funktionen - wie z.B. wie sich eine Lippe beim Lächeln wölbt - und bilden diese allgemeinen Funktionsoptimierungen auf eine ganze Reihe neuer Bilder ab. Das Problem bei diesem Ansatz ist, dass sich die Art und Weise, wie eine bestimmte Person seine Gefühle ausdrückt, sich nicht zwangsweise auch direkt auf andere Personen übertragen lässt.

Die MIT-Forscher kombinierten stattdessen eine Technik, die als "Mix ofExperts" (MoE) bezeichnet wird, mit Modellpersonalisierungstechniken, die dazu beitrugen, feinkörnige Gesichtsausdruckdaten von Individuen zu gewinnen. Dies ist das erste Mal, dass diese beiden Techniken für affektivesComputing kombiniert wurden.

"Personalisierter Experten-Mix"

In MoEs werden mehrere neuronale Netzwerkmodelle, sogenannte "Experten", ausgebildet, um sich auf eine separate Verarbeitungsaufgabe zu spezialisieren und eine Ausgabe zu erzeugen. Die Forscher haben auch ein "Gate-Netzwerk" integriert, das die Wahrscheinlichkeiten berechnet, welcher Experte die Stimmungen von unsichtbaren Personen am besten erkennt.

Für ihr Modell haben die Forscher die MoEs personalisiert, indem sie jeden Experten mit einer von 18 individuellen Videoaufzeichnungen in der RECOLA-Datenbank, einer öffentlichen Datenbank von Personen, die sich auf einer Video-Chat-Plattform für affektive Computeranwendungen unterhalten, abgleichen. Sie trainierten das Modell an neun Probanden und bewerteten sie an den anderen neun, wobei alle Videos in einzelne Frames zerlegt wurden.

Jeder Experte und das Gatternetz verfolgten die Gesichtsausdrücke jedes Einzelnen mit Hilfe eines Restnetzes ("ResNet"), einem neuronalen Netz, das zur Objektklassifizierung verwendet wird. Dabei hat das Modell jeden Frame nach dem Grad der Wertigkeit (angenehm oder unangenehm) und der Erregung (Aufregung) bewertet - häufig verwendete Metriken, um verschiedene emotionale Zustände zu kodieren. Getrennt beschrifteten sechs menschliche Experten jeden Rahmen für Wertigkeit und Erregung, basierend auf einer Skala von -1 (niedrige Stufen) bis 1 (hohe Stufen), die das Modell auch zum Trainieren verwendete.

Die Forscher führten dann eine weitere Modellpersonalisierung durch, bei der sie die trainierten Modelldaten von einigen Frames der verbleibenden Videos der Testpersonen einspeisten und das Modell dann an allen unsichtbaren Frames dieser Videos testeten. Die Ergebnisse zeigten, dass das Modell mit nur 5 bis 10 Prozent der Daten aus der neuen Population die traditionellen Modelle um ein Vielfaches übertraf - was bedeutet, dass es die Wertigkeit und Erregung von unsichtbaren Bildern viel näher an die Interpretationen menschlicher Experten heranreichte.

Eine Verbesserung des Mensch-Maschinen-Verhältnisses

Ein weiteres Ziel ist es, das Modell so zu trainieren, dass Computer und Roboter automatisch aus kleinen Datenmengen lernen, um auf natürlichere Weise zu erkennen, wie wir uns fühlen und den menschlichen Bedürfnissen besser gerecht zu werden, sagen die Forscher. Es könnte z.B. im Hintergrund eines Computers oder mobilen Geräts laufen, um die videobasierten Gespräche eines Benutzers zu verfolgen und subtile Mimikveränderungen in verschiedenen Kontexten zu lernen. "Man könnte beispielsweise eine Smartphone-Apps oder Website in die Lage versetzen, zu beurteilen, wie sich die Menschen fühlen, und Wege zu empfehlen, mit Stress oder Schmerzen umzugehen, und andere Dinge, die ihr Leben negativ beeinflussen", sagt Michael Feffer, Bachelor-Student der Elektrotechnik und Informatik und Hauptautor der betreffenden MIT-Studie.

Dies könnte auch bei der Überwachung von z.B. Depressionen oder Demenz hilfreich sein, da sich die Mimik der Menschen aufgrund dieser Bedingungen subtil verändert. Ärzte oder Pflegepersonal wäre dadurch beispielsweise besser in der Lage, Krankheitsverlauf oder das psychische Wohlbefinden ihrer Patienten besser einzuschätzen und zu überprüfen. Eine weitere Version dieses Modells wurde verwendet, um Robotern zu helfen, die Stimmungen von Kindern mit Autismus besser zu interpretieren.

RoddyCowie, emeritierter Professor für Psychologie an der Queen'sUniversity Belfast und affektiverComputerwissenschaftler, sagt, dass die Arbeit des MIT "zeigt, wo wir wirklich sind". "Wir nähern uns Systemen, die von Bildern der Gesichter von Menschen, die auf Skalen von sehr positiv bis sehr negativ und sehr aktiv bis sehr passiv liegen, grob platzieren können", sagt er. "Es scheint intuitiv, dass die emotionalen Zeichen, die eine Person gibt, nicht die gleichen sind wie die Zeichen, die eine andere gibt, und so macht es viel Sinn, dass die Emotionserkennung besser funktioniert, wenn sie personalisiert ist. Die Methode der Personalisierung spiegelt einen weiteren faszinierenden Punkt wider, dass es effektiver ist, mehrere "Experten" auszubilden und ihre Urteile zusammenzufassen, als einen einzigen Superexperten auszubilden. Beides zusammen ergibt ein befriedigendes Paket."

Redakteur: Sebastian Gerstl

(c)2018 Vogel Communications Group

Bitte beachten Sie

Die Beiträge in der Rubrik "Trends und Innovationen" sind Inhalte unseres Medienpartners Vogel Communications Group. Sie spiegeln nicht unbedingt die Meinung von DATEV wider.