Emotionserkennung
Unter Betrachtung wichtiger Faktoren der sozialen Interaktion, beschäftigte sich diese Vertiefungsarbeit mit Technologien zur Erkennung von Emotionen. Es wurden weitreichende Informationen darüber gewonnen, wie eine affektive Interaktion zwischen Mensch und Maschine gestaltet sein kann. Es bietet ein Einblick in unterschiedliche Forschungsarbeiten in diesem Bereich, beschäftigt sich jedoch nicht nutzerspezifisch mit blinden Menschen. Zum Einstieg in die Thematik kann das Paper von Cernea & Kerren von 2015 (siehe Studie 1) empfohlen werden.
Eine Emotion wird als mittelfristiger affektiver Zustand definiert, welcher als eine Reaktion auf einen äußeren oder inneren Reiz gekennzeichnet ist (Cernea & Kerren, 2015). Emotionen lassen sich auf unterschiedlichste Weise ausdrücken: Stimme (Modulation, Tonhöhe), wechselnde Gesichtsausdrücke, Augenbewegungen, Körperhaltungen (Cernea & Kerren, 2015). Laut Albert Mehrabian wird bei der Interaktion zwischen Menschen 7% der Kommunikation durch verbale Informationen, 38% durch stimmliche Hinweise und 55% durch den Gesichtsausdruck beigetragen (Suja & Tripathi, 2016). Damit stellt die Analyse der Mimik eine der wichtigsten Komponenten für die Emotionserkennung dar.
Keywords: emotion recognition, emotion recognition robotic, assistant robotic emotion, human-robot interaction emotion, affective computing
Welche Technologien können genutzt werden um menschliche Emotionen zu erkennen und zu interpretieren und wie werden diese eingesetzt?
A survey of technologies on the rise for emotion-enhanced interaction
Cernea & Kerren (2015)
- Das Paper bietet einen groben Überblick über die Techniken, die im Kontext der affektiven Interaktion zur Emotionsmessung eingesetzt werden.
- Aus technischer Sicht folgen alle Detektionslösungen einem Klassifikationsprozess, der sich aus fünf Stufen zusammensetzt:
1. Datenerfassung, 2. Signalverarbeitung, 3. Mermalsextraktion, 4. Interpretation und Klassifikation, 5. Affektives System. - Die Klassifizierung der Emotionen basiert häufig auf Emotionstheorien (z.B. Ekmans Theorie, Plutchicks Theorie, Russells zirkumplexes Affektmodell)
- Die Geräte schätzen die Emotionen auf Grundlagen von menschlichen affektiven Reaktionen. Man kann zwischen der wahrnehmungsbasierten Schätzung (z.B. Gesichtsausdruck) und der physiologischen Schätzung (z.B. Herzschlag) unterscheiden.
- Auswahl an möglichen Detektionstechnologien:
- Gesichtsanalyse
- Messung: Optical Tracking oder Elektromyographie (EMG)
- Merkmalsextraktion: appearance-based oder geometric feature-based
- Kategorisierung der Emotion: z.B. Theorie Facial Action Coding System
- Eye-Tracking
- Die Augendynamik ist ein subjektives Merkmal, dass die Meisten Informationen im Gesichtsausdruck trägt. Im Mittelpunkt stehen dabei die Augenbewegungen, das Blinzeln sowie die Pupillenerweiterung.
- Brain-computer interfaces (BCIs)
- Brain-Computer-Interface steht für eine Kategorie von Geräten, die die Hirnaktivität eines Benutzers erkennen und aufzeichnen kann. Zu den bekanntesten Technologien zählen: fMRI, fNIRS, PET, EEG (am Häufigsten).
- Brain-Computer-Interface steht für eine Kategorie von Geräten, die die Hirnaktivität eines Benutzers erkennen und aufzeichnen kann. Zu den bekanntesten Technologien zählen: fMRI, fNIRS, PET, EEG (am Häufigsten).
- Gesichtsanalyse
Real-time emotion recognition from facial images using Raspberry Pi II
Suja & Tripathi (2016)
Suja und Tripathi (2016) stellen in ihrem Artikel eine Methode zur Erkennung von Emotionen aus Gesichtsbildern dar. Die Neuheit der Methode liegt in der Implementierung auf einem Raspberry Pi II. Da der Raspberry Pi II sehr klein und leicht ist und wenig Strom benötigt, ist die Methode einfach einsetzbar und kann bspw. auf einem mobilen Roboter montiert werden.
Das Emotionserkennungssystem dieser Studie erkennt die Basisemotionen Wut, Ekel, Glück, Überraschung und Neutralität mit Hilfe einer CMU-MultiPIE-Datenbank (besteht aus 2D-Bildern von Gesichtsausdrücken mit unterschiedlicher Beleuchtungsstärken und Posen).
Die Emotionserkennungssoftware besteht aus drei Stufen (Methoden):
Haar cascade zur Gesichtserkennung (Viola & Jones, 2004), das Active Shape Model (ASM) zur Extraktion von Gesichtspunkten (feature extraction) und der AdaBoost-classifier zur Klassifizierung der Emotionen.
Der Input für die Emotionserkennungssoftware auf dem Raspberry Pi II ist ein Bild, welches über eine Webcam aufgenommen wird. Im ersten Schritt wird das Haar cascade Konzept verwendet. Danach wird das Bild zur weiteren Verarbeitung gespeichert und der Bereich der nicht zum Gesicht gehört wird entfernt. Das zugeschnittene Bild wird dann in ein Graubild umgewandelt (Sobel-Filter zur Glättung). Danach erfolgt die Merkmalsextraktion basierend auf einem geometrischen Ansatz (Active Shape Model). Es werden 26 Merkmalspunkte im Gesicht extrahiert, welche dann an den AdaBoost-classifier übergeben werden. Dieser Klassifikator klassifiziert schlussendlich die Emotion. Das Ergebnis wird als Output auf einem Bildschirm angezeigt.
Mit der in dieser Studie durchgeführten Methode zur Emotionserkennung konnte eine durchschnittliche Erkennungsgenauigkeit von 94% mit einer durchschnittlichen Verarbeitungszeit von 120ms in Echtzeit erreicht werden.
A facial expression emotion recognition based human-robot interaction system
Liu et al. (2017)
In dem Artikel wird ein auf Mimik-Emotionserkennung basierendes Mensch-Roboter-Interaktionssystem (FEER-HRI) vorgestellt. Das System ermöglicht es nicht nur menschliche Emotionen in Echtzeit zu erkennen, sondern auch einen Gesichtsausdruck zur Anpassung an diese Emotion zu erzeugen. FEER-HRI ist ein Subsystem von MEC-HRI. Das MEC-HRI-System besteht aus drei NAO-Robotern, zwei mobile Roboter, Kinect, Workstation, Server, Eye-Tracker, tragbares EEG und andere intelligente Geräte.
Die Prozesse des vorgesetllten System bestehen aus drei Schritten: Zuerst sammelt der Roboter die Bilddaten des menschlichen Gesichts durch den Kinect und leitet sie dann zur Workstation zur Bildverarbeitung weiter. Zweitens wird die Mimikerkennungsmethode verwendet, um die Emotionen der Benutzer zu erkennen. Drittens, generiert das System den Gesichtsausdruck des Roboters als Anpassung an den Benutzer. Die Gesichtsausdrücke werden auf dem LED-Bildschirm durch einfache Cartoon-Sybole dargestellt. Die Einteilung der Emotionen erfolgt in sieben Kategorien: Glücklich, wütend, überrascht, ängstlich, angewidert, traurig und neutral.
Die Erkennung von Gesichtsemotionen gliedert sich in drei Schritte: Merkmalserfassung, Merkmalsextraktion und Emotionserkennung.
Folgende Methoden wurden hierfür verwendet:
- 2D-Gabor
- Uniform Local Binär Pattern (LBP)-Operator zur Merkmalsextraktion
- ELM-Klassifikator (ELM = Extreme Learning Machine)
Die Bilddaten werden zuerst an den Server übertragen, wo sie in drei Regionen (ROI) segmentiert werden: Augen, Nase und Mund. Die Gesichts-ausdrucksmerkmale werden anschließend mittels 2D-Gabor-Filter und LBP-Operator kombiniert extrahiert. Um redundante Merkmale zu vermeiden wurde eine Hauptkomponentenanalyse (PCA) durchgeführt (dies reduziert die extrahierten 800 Gesichtzüge auf 96 Merkmale). Zuletzt wird ein mehrklassiger ELM-Klassifikator eingesetzt um die Emotion zu erkennen.
Die Studie zeigte eine erfolgreiche Kommunikation durch Mimikerkennung des Benutzers und Mimikgenerierung von Robotern innerhalb von 2sec.
Emotion Recognition Based on Multi-View Body Gestures
Shen, Cheng, Hu & Dong (2019)
Das Paper befasst sich mit der Erkennung von Emotionen – ausschließlich abgeleitet von Körpergesten. Dazu wurde mit Deep Learning ein KNN (künstliches neuronales Netz) trainiert, welches wiederum auf den Erkenntnissen vorheriger Forschung aufbaut.
Es wurden sechs Emotionen (Glück, Trauer, Wut, Überraschung, Angst, Ekel) und weitere sechs neutrale Bewegungen (ohne Emotion) gewählt. Nun wurden 80 Probanden für jede Emotion aus 15 verschiedenen Blinkwinkeln gefilmt. Daraus ergaben sich ingesamt 43.200 Videodateien. Mit 48 von 80 Datensets wurde das Modell trainiert. Die anderen 32 dienten im Nachgang zur Validierung der Genauigkeit.
Die Testdaten wurden jeweils mit bestandenen Methoden auf ihren optischen Fluss (Bewegungen) als auch auf Bewegungen im Bezug auf das Skelett der Versuchspersonen untersucht und dienten dann als Ausgangsmaterial für die beiden neuronalen Netze „TSN“ und „ST-GCN“.
Die Ergebnisse beider Netze wurden dann nicht wie in vorheriger Forschung durch sog. „score fusion“ zu einem Ergebnis kombiniert. Zur Kombination wurde ein neues „full-connected residual network“ aufgebaut. Es zeigte sich, dass die Ergebnisse beider Modelle TSN & ST-GCN sich so gut ergänzen lassen, dass die kombinierte Genauigkeit die Genauigkeit beider individueller Modelle deutlich übertrifft. (>10%).
Kern der Forschung war damit die Kombination bestehender Netze zur Emotionserkennung durch ein weiteres neuronales Netz wodurch sich die Ergebnisse deutlich verbessern liesen.
Face and Upper-Body Emotion Recognition Using Service Robot’s Eyes in a Domestic Environment
Vithanawasam & Madhusanka (2019)
Der Artikel beschäftigt sich mit dem Einsatz von humanoider Serviceroboter als Ersatz für Pflegekräfte in der Betreuung. Vithanawasam und Madhusanka (2019) schlagen eine Methode vor, um Emotionen des Gesichts und des Oberkörpers mit Hilfe der Augen eines Serviceroboters zu erkennen.
Das Augenmodell des Roboters imitiert die menschlichen Augen mit 2 Kameras (Schwenk-Neige-Bewegung) und liefert die visuellen Informationen zur Emotionserkennung. Es wurden nur Wut, Langeweile & Angst betrachtet.
Das System muss zuerst die Modalitäten (Gesicht, Oberkörper) erkennen, bevor es die Emotion erkennen kann. Zur Echtzeit-Erkennung des Gesichts wurde der Haar-cascade-classifier (Viola & Jones, 2004) verwendet. Um den Oberkörperbereich zu identifizieren muss der Oberkörper-ROI (Region of Interest) aus dem visuellen Feed extrahiert werden. Die Größe des ROI definiert sich durch die Höhe und Breite des Kopfes.
Die Emotion wird nur auf der GUI des Roboters angezeigt, wenn der erkannte Ausdruck für beide Modalitäten und Augen gleich sind.
Zur Erkennung der Gesichtsemotionen wurde der Fisherface-Algorithmus verwendet. Dies ist ein Gesichterkennungsalgorithmus, der auf der linearen Diskriminianzanalyse (LDA) basiert. Das System wurde so entwickelt, dass es die Emotionen einer bestimmten Person trainiert und erkennt. Daher war es wichtig, dass der Fisherface-Klassifikator mit einem Datensatz trainiert wird, der die Bilder dieser Person in den drei Emotionen enthält. Die Bilder wurden in Graustufenbilder umgewandelt und einheitlich aufs Gesicht zugeschnitten.
Die Emotionen des Oberkörpers können erkannt werden, wenn man die Position der Arme in Bezug auf das Gesicht im Oberkörper-ROI setzt. Die Erkennung der Armposition erfolgt über eine Hauterkennung. Dies ist abhängig von der häuslichen Umgebung sowie der Hautfarbe der Person. Zur Farberkennung wurde der Hue Saturation Value (HSV) verwendet. Bei der Verarbeitung findet unter Anderem Bildglättung und Konturendetektion statt. Das Bild wird in ein Schwarz-Weiß-Bild konvertiert, wobei Schwarz die Hautbereiche der Person darstellt.
Die Ergebnisse zeigten, das das trainierte System die Emotionen für eine bestimmte Person über beide Modalitäten effektiv erkennen können, ohne das die Person hierfür dem Augenmodell viel Aufmerksamkeit schenken muss (Korrektheitsrate: Ärger 81%, Angst 63.33%, Langeweile 78%).
RoCo-Sense: Integrating Robotics, Smart Clothing and Big Data Clouds for Emotion Sensing
Yang et al. (2018)
Jun Yang et al. (2018) beschreiben ein Framework zur Kombination von sechs Datenquellen (Robotern, intelligente Kleidung, Spracherkennung, Spracherzeugung, Gesichtszüge) unter Nutzung von Cloud Computing Technologien um menschliche Emotionen möglichst präzise zu identifizieren.
Im Kern des Frameworks steht smarte Kleidung zur Datenerhebung und die Möglichkeit in Echtzeit die erfassten Daten über eine Cloud mit einem Gesprächspartner auszutauschen. Beide Kommunikationspartner verfügen über ein Empfangs- und ein Sendemodul welche folgende Parameter erfassen: Körpertemperatur, Herzschlag, Atemfrequenz, Ausdruck & Stimme.
Die Daten werden vor dem Versand an die Cloud leicht vorbearbeitet, sodass die Hauptanalyse in der Cloud stattfindet. Dort werden dann durch zwei neuronale Netzen (DCNN, LSTM) die Features extrahiert und anschließend mit einem SVN Classifier fusioniert. Bei jeder Analyse kommt zur Verbesserung der Ergebnisse noch Reinforcement Learning zum Einsatz.
Referenzen
- Cernea, D., & Kerren, A. (2015). A survey of technologies on the rise for emotion- enhanced interaction. Journal of Visual Languages & Computing, 31, 70-86.
- Liu, Z., Wu, M., Cao, W., Chen, L., Xu, J., Zhang, R., Zhou, M., & Mao, J. (2017, January). A facial expression emotion recognition based human-robot interaction system. IEEE/CAA Journal of Automatica Sinica, 4(4), 668-676.
- Shen, Z., Cheng, J., Hu, X., & Dong, Q. (2019, September). Emotion Recognition Based on Multi- View Body Gestures. In 2019 IEEE International Conference on Image Processing (ICIP) (pp. 3317-3321). IEEE.
- Suja, P., & Tripathi, S. (2016, February). Real-time emotion recognition from facial images using Raspberry Pi II. In 2016 3rd International Conference on Signal Processing and Integrated Networks (SPIN) (pp. 666-670). IEEE.
- Viola, P., & Jones, M. J. (2004). Robust real-time face detection. International journal of computer vision, 57(2), 137-154.
- Vithanawasam, T. M. W., & Madhusanka, B. G. D. A. (2019, March). Face and Upper- Body Emotion Recognition Using Service Robot’s Eyes in a Domestic Environment. In 2019 International Research Conference on Smart Computing and Systems Engineering (SCSE) (pp. 44-50). IEEE.
- Yang, J., Liu, M., Wei, Z., Han, C., Li, W., & Miao, Y. (2018, June). RoCoSense: Integrating Robotics, Smart Clothing and Big Data Clouds for Emotion Sensing. In 2018 14th International Wireless Communications & Mobile Computing Conference (IWCMC)
(pp. 1323-1326). IEEE.