paint-brush
VEATIC:基于视频的情境数据集中的情感和影响跟踪:实验经过@kinetograph
172 讀數

VEATIC:基于视频的情境数据集中的情感和影响跟踪:实验

太長; 讀書

在本文中,研究人员引入了用于人类情感识别的 VEATIC 数据集,解决了现有数据集的局限性,实现了基于上下文的推理。
featured image - VEATIC:基于视频的情境数据集中的情感和影响跟踪:实验
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

该论文可在 arxiv 上根据 CC 4.0 许可获取。

作者:

(1)加州大学伯克利分校的任志航和本文其他作者对本文的贡献相同(Email: peter.zhren@berkeley.edu);

(2)加州大学伯克利分校的 Jefferson Ortega 和本文其他作者对本文做出了同等贡献(电子邮箱:jefferson_ortega@berkeley.edu);

(3)加州大学伯克利分校的 Yifan Wang 和本文其他作者对本文的贡献相同(电子邮箱:wyf020803@berkeley.edu);

(4)陈志敏,加州大学伯克利分校(电邮:zhimin@berkeley.edu);

(5)郭云晖,德克萨斯大学达拉斯分校(电子邮箱:yunhui.guo@utdallas.edu)

(6)Stella X. Yu,加州大学伯克利分校和密歇根大学安娜堡分校(电子邮箱:stellayu@umich.edu)

(7)加州大学伯克利分校的 David Whitney(电子邮箱:dwhitney@berkeley.edu)。

链接表

4.实验

在本研究中,我们提出了一种新的情境情绪识别任务,即通过每个视频帧中的情境和角色信息推断所选角色的情绪效价和唤醒程度。在这里,我们提出了一个简单的基线模型来对新的情境情绪识别任务进行基准测试。该模型的流程如图 8 所示。我们采用了两个简单的子模块:用于特征提取的卷积神经网络 (CNN) 模块和用于时间信息处理的视觉变换器模块。CNN 模块结构采用 Resnet50 [21]。与 CAER [33] 和 EMOTIC [32] 不同,在这些算法中,面部/角色和情境特征是分别提取并随后合并的,而我们直接对完全知情的帧进行编码。对于单个预测,连续的 N 个视频帧被独立编码。然后,首先将连续帧的特征向量进行位置嵌入,并输入到包含 L 组注意模块的变换器编码器中。最后,唤醒程度和情绪效价的预测由多层感知器 (MLP) 头完成。


图 8. 情境任务中情绪和情感跟踪的基准模型架构。该模型由 CNN 特征提取模块和用于组合连续帧的时间信息的视觉转换器组成。

4.1. 损失函数和训练设置

我们基线模型的损失函数是两个独立损失的加权组合。MSE 损失规范了评分基本事实和模型预测的局部对齐。为了保证评分和预测在更大范围内的对齐,例如学习情绪评分的时间统计数据,我们还利用一致性相关系数 (CCC) 作为正则化。该系数定义如下,


4.2. 评估指标


SAGR 衡量两个向量 X 和 Y 的各个值的符号匹配程度。它取 [0, 1] 中的值,其中 1 表示完全一致,0 表示完全矛盾。SAGR 指标可以比其他指标捕获更多的性能信息。例如,假设价数基本事实为 0.2,预测值为 0.7 和 -0.3 将导致相同的 RMSE 值。但显然,0.7 更合适,因为它是正价数。


表 3. 我们提出的模型在完全知情、仅字符和仅上下文条件下的表现。通过字符和上下文信息进行推理,该模型表现最佳。它显示了上下文和字符信息在情绪和情感跟踪任务中的重要性。


表 4. 我们提出的经过微调的方法与 EMOTIC 和 CARE-S 预训练模型在其数据集上的比较。我们的简单模型取得了有竞争力的结果,表明了 VEATIC 的通用性。

4.3. 基准测试结果

我们使用上述 4 个指标 CCC、PCC、RMSE 和 SAGR 对上下文中的新情绪识别任务进行基准测试。结果如表 3 所示。与其他数据集相比,我们提出的简单方法与最先进的方法在其数据集上的表现相当。


我们还通过将仅上下文和仅字符帧输入到完全知情帧上的预训练模型中,研究了上下文和字符信息在情感识别任务中的重要性。为了获得公平的比较并排除帧像素分布差异的影响,我们还在仅上下文和仅字符帧上对预训练模型进行了微调。相应的结果也显示在表 3 中。如果没有完整的信息,模型在仅上下文和仅字符条件下的性能都会下降。


为了证明 VEATIC 数据集的有效性,我们在 VEATIC 上使用了预训练模型,在其他数据集上对其进行了微调,并测试了其性能。考虑到我们的模型简单且与其他数据集论文中提出的模型相似,我们仅对 EMOTIC [32] 和 CAER-S [33] 进行了测试。结果如表 4 所示。我们的预训练模型的表现与 EMOTIC [32] 和 CAERS [33] 中提出的方法相当。因此,它证明了我们提出的 VEATIC 数据集的有效性。