Auteurs:
(1) Zhihang Ren, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : peter.zhren@berkeley.edu) ;
(2) Jefferson Ortega, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : jefferson_ortega@berkeley.edu) ;
(3) Yifan Wang, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : wyf020803@berkeley.edu) ;
(4) Zhimin Chen, Université de Californie, Berkeley (E-mail : zhimin@berkeley.edu) ;
(5) Yunhui Guo, Université du Texas à Dallas (E-mail : yunhui.guo@utdallas.edu) ;
(6) Stella X. Yu, Université de Californie, Berkeley et Université du Michigan, Ann Arbor (E-mail : stellayu@umich.edu) ;
(7) David Whitney, Université de Californie, Berkeley (E-mail : dwhitney@berkeley.edu).
La reconnaissance des émotions humaines est un sujet important en psychophysique et en vision par ordinateur. Cependant, les ensembles de données actuellement publiés présentent de nombreuses limites. Par exemple, la plupart des ensembles de données contiennent des images contenant uniquement des informations sur les expressions faciales. En raison des limites des ensembles de données précédents, il est très difficile de comprendre les mécanismes de reconnaissance des effets humains ou de bien généraliser les cas courants pour les modèles de vision par ordinateur formés sur ces ensembles de données. Dans ce travail, nous introduisons un tout nouveau grand ensemble de données, l’ensemble de données VEATIC (Video-based Emotion and Affect Tracking in Context), qui peut surmonter les limites des ensembles de données précédents. VEATIC propose 124 clips vidéo de films, documentaires et vidéos personnelles hollywoodiens avec des évaluations continues de la valence et de l'éveil de chaque image via une annotation en temps réel. Parallèlement à l'ensemble de données, nous proposons une nouvelle tâche de vision par ordinateur pour déduire l'effet du personnage sélectionné via à la fois le contexte et les informations sur le personnage dans chaque image vidéo. De plus, nous proposons un modèle simple pour comparer cette nouvelle tâche de vision par ordinateur. Nous comparons également les performances du modèle pré-entraîné utilisant notre ensemble de données avec d'autres ensembles de données similaires. Les expériences montrent les résultats concurrents de notre modèle pré-entraîné via VEATIC, indiquant la généralisabilité de VEATIC. Notre ensemble de données est disponible sur https://veatic.github.io.
Reconnaître l’affect humain est d’une importance vitale dans notre vie quotidienne. Nous pouvons déduire les sentiments des gens et prédire leurs réactions ultérieures en fonction de leurs expressions faciales, de leurs interactions avec d'autres personnes et du contexte de la scène. C’est un élément inestimable de notre communication. Ainsi, de nombreuses études sont consacrées à la compréhension du mécanisme de reconnaissance des émotions. Avec l’émergence de l’intelligence artificielle (IA), de nombreuses études ont également proposé des algorithmes pour percevoir et interpréter automatiquement les effets humains, avec l’implication potentielle que des systèmes comme les robots et les humains virtuels peuvent interagir avec les gens de manière naturaliste.
Lorsqu’ils sont chargés de reconnaître les émotions dans le monde réel, les humains ont accès à bien plus d’informations que les simples expressions faciales. Malgré cela, de nombreuses études portant sur la reconnaissance des émotions utilisent souvent des stimuli statiques d'expressions faciales isolées du contexte, en particulier dans les évaluations des troubles psychologiques [3, 18] et dans les modèles de vision par ordinateur [60, 62]. De plus, alors que des études antérieures continuent d'étudier le processus par lequel les humains perçoivent les émotions, nombre de ces études ne parviennent pas à déterminer comment la reconnaissance des émotions est influencée par des facteurs contextuels tels que la scène visuelle, les informations de base, les mouvements du corps, les autres visages et même nos croyances. désirs et traitement conceptuel [4, 34, 8, 42, 44]. Il est intéressant de noter que les informations contextuelles visuelles s’intègrent automatiquement et sans effort aux expressions faciales [2]. Il peut également remplacer les signaux faciaux lors des jugements émotionnels [26] (Figure 1), et peut même influencer la perception des émotions dès les premiers stades du traitement visuel [7]. En fait, les informations contextuelles sont souvent tout aussi précieuses pour comprendre l'émotion d'une personne que le visage lui-même [8, 9, 10]. Les preuves croissantes de l'importance de l'information contextuelle dans la reconnaissance des émotions [4] exigent que les chercheurs réévaluent les paradigmes expérimentaux dans lesquels ils étudient la reconnaissance des émotions humaines. Par exemple, pour mieux comprendre les mécanismes et les processus qui conduisent à la reconnaissance des émotions humaines lors des interactions sociales quotidiennes, la généralisabilité des études de recherche devrait être sérieusement envisagée. Plus important encore, les ensembles de données pour le suivi des émotions et des affect doivent non seulement contenir des visages ou des personnages spécifiques isolés, mais des facteurs contextuels tels que les informations visuelles de la scène en arrière-plan et les interactions entre les personnages doivent également être inclus.
Afin de représenter l'état émotionnel des humains, de nombreuses études en psychologie et en neurosciences ont proposé des méthodes pour quantifier l'état émotionnel des humains qui incluent des modèles d'émotion à la fois catégoriques et continus. La théorie catégorique de l'émotion la plus célèbre et la plus dominante est la théorie des émotions de base qui affirme que certaines émotions sont universellement reconnues à travers les cultures (colère, peur, bonheur, etc.) et que toutes les émotions diffèrent par leur réponse comportementale et physiologique, leur évaluation, et dans l'expression [16]. Alternativement, le modèle circumplexe de l'affect, un modèle continu d'émotion, propose que tous les états affectifs proviennent de deux systèmes neurophysiologiques liés à la valence et à l'excitation et que toutes les émotions peuvent être décrites par une combinaison linéaire de ces deux dimensions (52, 47, 53). . Un autre modèle de reconnaissance des émotions, le modèle Facial Action Coding System, stipule que toutes les expressions faciales peuvent être décomposées en composants centraux de mouvements musculaires appelés unités d'action [17]. Les modèles précédents de reconnaissance des émotions ont été construits en gardant ces différents modèles à l'esprit [61, 63, 41]. Cependant, peu de modèles se concentrent sur la mesure de l’affect à l’aide de dimensions continues, résultat malheureux du manque de bases de données annotées disponibles pour l’informatique affective.
Sur la base des mesures émotionnelles susmentionnées, de nombreux ensembles de données de reconnaissance des émotions ont été développés. Les premiers ensembles de données, tels que SAL [15], SEMAINE [39], Belfast induit [58], DEAP [28] et MAHNOB-HCI [59] sont collectés dans des laboratoires hautement contrôlés et sont généralement de petite taille. Ces ensembles de données précédents manquent de diversité en termes de personnages, de mouvements, d'éclairage de scène et d'arrière-plans. De plus, les représentations dans les premiers ensembles de données sont généralement discrètes. Des ensembles de données récents, comme RECOLA [49], MELD [46], l'ensemble de données OMG-emotion [5], Aff-Wild [69] et Aff-Wild2 [29, 30], commencent à collecter les états émotionnels via des évaluations continues et à utiliser des vidéos. sur Internet ou appelé « dans la nature ». Cependant, ces ensembles de données manquent d’informations contextuelles et se concentrent uniquement sur les expressions faciales. Les cadres sont dominés par des personnages ou des visages particuliers. De plus, les ensembles de données susmentionnés ont des annotateurs limités (généralement moins de 10). Comme les observateurs humains présentent de fortes différences individuelles et souffrent de nombreux biais [12, 45, 48], des annotateurs limités peuvent conduire à des biais d'annotation substantiels.
Dans cette étude, nous introduisons l'ensemble de données vidéo de suivi des émotions et des effets en contexte (VEATIC, /ve"ætIc/), un vaste ensemble de données qui peut être bénéfique à la fois aux groupes de psychologie et de vision par ordinateur. L'ensemble de données comprend 124 clips vidéo d'Hollywood. films, documentaires et vidéos personnelles avec valence continue et évaluations d'éveil de chaque image via une annotation en temps réel. Nous avons également recruté un grand nombre de participants pour annoter les données. Sur la base de cet ensemble de données, nous proposons une nouvelle tâche de vision par ordinateur, c'est-à-dire. déduire automatiquement l'effet du personnage sélectionné via les informations de contexte et de personnage dans chaque image vidéo. Dans cette étude, nous proposons également une solution simple à cette tâche. Les expériences montrent l'efficacité de la méthode ainsi que les avantages de l'ensemble de données VEATIC proposé. En résumé, les principales contributions de ce travail sont :
• Nous construisons le premier grand ensemble de données vidéo, VEATIC, pour le suivi des émotions et des effets, qui contient à la fois des caractéristiques faciales et des facteurs contextuels. L'ensemble de données comporte des évaluations continues de valence et d'éveil pour chaque trame.
• Afin d'atténuer les biais des annotateurs, nous avons recruté un grand nombre d'annotateurs (192 au total) pour annoter l'ensemble de données par rapport aux ensembles de données précédents (généralement moins de 10).
• Nous fournissons un modèle de base pour prédire l'excitation et la valence du personnage sélectionné dans chaque image en utilisant à la fois les informations sur le personnage et des facteurs contextuels.
Cet article est disponible sur arxiv sous licence CC 4.0.