L’ AI è in grado di dedurre emozioni tramite una combinazione di riconoscimento facciale e vocale.

Recentemente, alcuni ricercatori hanno combinato le abilità di riconoscimento vocale e riconoscimento facciale di nuove tecnologie AI per migliorare la loro sensibilità alle emozioni.
L’ abilità di riconoscere emozioni, è un obiettivo che i ricercatori portano avanti da anni ed è generalmente considerata come una delle più grandi sfide in termini di sviluppo dell’intelligenza artificiale.

Una ricerca condotta da alcuni esperti all’University of Science and Technology of China, ha fatto numerosi progressi.
Nella ricerca gli esperti hanno dichiarato:


“Automatic emotion recognition (AER) is a challenging task due to the
abstract concept and multiple expressions of emotion.
Inspired by this cognitive process in human beings, it’s natural to simultaneously utilize audio and visual information in AER … The whole pipeline can be completed in a neural network.”


“Il Riconoscimento Automatico delle Emozioni (AER), è una sfida ostica, per via del suo concetto astratto e della moltitudine di modi in cui l’essere umano esprime emozioni.
Ispirandosi a questo processo cognitivo negli esseri umani, diventa naturale utilizzare informazioni audio e visive simultaneamente al fine di sviluppare AER.
L’intera pipeline può essere completata in una rete neurale.”


Struttura

Semplificando il più possibile il processo, il sistema AER è composto da due parti: una video ed una audio.

Nel sistema video, immagini di volti vengono analizzate attraverso due livelli computazionali: un algoritmo di rilevamento del volto di base e tre reti di riconoscimento facciale, ottimizzate per il rilevamento di emozioni.

Per quanto riguarda il sistema audio invece, gli algoritmi che elaborando il suono vengono inseriti con spettrografi vocali per aiutare l’intelligenza artificiale a concentrarsi sulle aree più importanti per la rilevazione delle emozioni.

In fine, caratteristiche quantificabili in dati, sono estratte dai quattro algoritmi di riconoscimento facciale e confrontate con altri dati provenienti dalla parte audio al fine di rilevare associazioni tra le due analisi e dedurre un emozione finale.


Un database, conosciuto come AFEW8.0, contenente film e show televisivi, è stato usato per una challenge organizzata da EmotiW2018.
L’AI ha scansionato 653 video con corrispondenti file dal database.
Nella challenge, i prototipi di intelligenza artificiale hanno performato in maniera strepitosa, determinando correttamente le emozioni ‘rabbia’, ‘disgusto’, ‘felicità’, ‘neutrale’, ‘tristezza’, e ‘sorpresa’ circa il 62.48% delle volte.

Complessivamente, l’intelligenza artificiale ha performato meglio in emozioni quali ‘rabbia’, ‘felicità’ e ‘neutrale’, le quali hanno caratteristiche ovvie e facilmente distinguibili.
Altre, dalle caratteristiche più sfumate, come ‘disgusto’ e ‘sorpresa’, hanno creato maggior problemi nell’essere rilevate.