作者:
(1)加州大学伯克利分校的任志航和本文其他作者对本文的贡献相同(Email: peter.zhren@berkeley.edu);
(2)加州大学伯克利分校的 Jefferson Ortega 和本文其他作者对本文做出了同等贡献(电子邮箱:jefferson_ortega@berkeley.edu);
(3)加州大学伯克利分校的王一凡与本文其他作者对本文贡献相同(电子邮箱:wyf020803@berkeley.edu);
(4)陈志敏,加州大学伯克利分校(电邮:zhimin@berkeley.edu);
(5)郭云晖,德克萨斯大学达拉斯分校(电子邮箱:yunhui.guo@utdallas.edu)
(6)Stella X. Yu,加州大学伯克利分校和密歇根大学安娜堡分校(电子邮箱:stellayu@umich.edu)
(7)加州大学伯克利分校的 David Whitney(电子邮箱:dwhitney@berkeley.edu)。
人类情感识别一直是心理物理学和计算机视觉领域的一个重要课题。然而,目前发布的数据集有很多局限性。例如,大多数数据集包含的帧仅包含有关面部表情的信息。由于以前数据集的局限性,很难理解人类情感识别的机制,也很难很好地概括那些在这些数据集上训练的计算机视觉模型的常见情况。在这项工作中,我们引入了一个全新的大型数据集,即基于视频的情绪和情感跟踪上下文数据集 (VEATIC),它可以克服以前数据集的局限性。VEATIC 有 124 个来自好莱坞电影、纪录片和家庭视频的视频片段,通过实时注释对每帧进行连续的效价和唤醒评级。除了数据集之外,我们还提出了一项新的计算机视觉任务,通过每个视频帧中的上下文和角色信息推断所选角色的情感。此外,我们提出了一个简单的模型来对这项新的计算机视觉任务进行基准测试。我们还将使用我们的数据集的预训练模型的性能与其他类似数据集进行了比较。实验表明,我们通过 VEATIC 预训练的模型具有竞争性结果,表明了 VEATIC 的通用性。我们的数据集可在 https://veatic.github.io 上找到。
识别人类情感在我们的日常生活中至关重要。我们可以根据人们的面部表情、与他人的互动以及场景背景推断他们的感受并预测他们随后的反应。这是我们交流中不可或缺的一部分。因此,许多研究致力于理解情感识别的机制。随着人工智能 (AI) 的出现,许多研究还提出了自动感知和解释人类情感的算法,这可能意味着机器人和虚拟人等系统可以以自然的方式与人互动。
在现实世界中,当人类被要求进行情绪识别时,他们能够获得的信息远不止面部表情。尽管如此,许多研究情绪识别的研究通常使用与背景无关的面部表情的静态刺激,尤其是在心理障碍评估 [3, 18] 和计算机视觉模型 [60, 62] 中。此外,尽管之前的研究仍在继续研究人类感知情绪的过程,但其中许多研究未能探究情绪识别如何受到视觉场景、背景信息、身体动作、其他面孔,甚至我们的信念、欲望和概念处理等背景因素的影响 [4, 34, 8, 42, 44]。有趣的是,人们发现视觉背景信息可以自动且毫不费力地与面部表情整合在一起 [2]。它还可以在情绪判断 [26](图 1)期间覆盖面部线索,甚至可以在视觉处理的早期阶段影响情绪感知 [7]。事实上,对于理解一个人的情绪,背景信息通常与面部本身一样有价值 [8, 9, 10]。越来越多的证据表明情境信息在情绪识别中的重要性 [4],这要求研究人员重新评估他们研究人类情绪识别的实验范式。例如,为了更好地理解日常社交互动中导致人类情绪识别的机制和过程,应该认真考虑研究的普遍性。最重要的是,情绪和情感跟踪的数据集不仅应包含面部或孤立的特定角色,还应包括背景视觉场景信息和角色之间互动等情境因素。
为了表示人类的情绪状态,心理学和神经科学领域的大量研究提出了量化人类情绪状态的方法,包括情绪的分类模型和连续模型。最著名、最主要的情绪分类理论是基本情绪理论,该理论指出某些情绪在不同文化中得到普遍认可(愤怒、恐惧、快乐等),所有情绪在行为和生理反应、评价和表达上都有所不同 [16]。另外,情感的循环模型是一种连续的情绪模型,它提出所有情感状态都来自与效价和唤醒相关的两个神经生理系统,所有情绪都可以用这两个维度的线性组合来描述 [52, 47, 53]。另一种情绪识别模型,即面部动作编码系统模型,指出所有面部表情都可以分解为肌肉运动的核心组成部分,称为动作单元 [17]。以前的情绪识别模型都是基于这些不同的模型构建的 [61, 63, 41]。然而,很少有模型专注于使用连续维度来测量情感,这是情感计算可用的注释数据库缺乏的一个不幸产物。
基于上述情绪指标,许多情绪识别数据集已经开发出来。早期的数据集,如 SAL [15]、SEMAINE [39]、Belfast induced [58]、DEAP [28] 和 MAHNOB-HCI [59],都是在高度控制的实验室环境下收集的,数据量通常较小。这些先前的数据集在人物、动作、场景照明和背景方面缺乏多样性。此外,早期数据集中的表示通常是离散的。最近的数据集,如 RECOLA [49]、MELD [46]、OMG-emotion 数据集 [5]、Aff-Wild [69] 和 Aff-Wild2 [29, 30],开始通过连续评分收集情绪状态,并利用互联网上的或称为“野生”的视频。然而,这些数据集缺乏上下文信息,只关注面部表情。帧以人物或特定的面孔为主。此外,上述数据集的注释者有限(通常少于 10 个)。由于人类观察者具有很强的个体差异,并且存在很多偏见[12, 45, 48],有限的注释者可能会导致严重的注释偏见。
在本研究中,我们引入了基于视频的情绪和情感跟踪上下文数据集 (VEATIC,/ve"ætIc/),这是一个对心理学和计算机视觉群体都有益的大型数据集。该数据集包括来自好莱坞电影、纪录片和家庭视频的 124 个视频片段,通过实时注释对每帧进行连续的效价和唤醒评级。我们还招募了大量参与者来注释数据。基于这个数据集,我们提出了一项新的计算机视觉任务,即通过每个视频帧中的上下文和角色信息自动推断所选角色的情感。在本研究中,我们还为这项任务提供了一个简单的解决方案。实验证明了该方法的有效性以及所提出的 VEATIC 数据集的优势。简而言之,这项工作的主要贡献是:
• 我们构建了第一个大型视频数据集 VEATIC,用于跟踪情绪和情感,其中包含面部特征和背景因素。该数据集对每一帧都有连续的效价和唤醒评级。
• 为了减轻注释者的偏见,与之前的数据集(通常少于 10 个)相比,我们招募了一大批注释者(总共 192 个)来注释该数据集。
• 我们提供了一个基线模型,使用角色信息和上下文因素来预测每帧中选定角色的唤醒和效价。