저자:
(1) 캘리포니아 대학교 버클리 캠퍼스의 Zhihang Ren과 이들 저자는 이 연구에 동등하게 기여했습니다(이메일: peter.zhren@berkeley.edu).
(2) 캘리포니아 대학교 버클리 캠퍼스의 Jefferson Ortega와 이들 저자는 이 작업에 동등하게 기여했습니다(이메일: jefferson_ortega@berkeley.edu).
(3) University of California, Berkeley의 Yifan Wang과 이들 저자는 이 연구에 동등하게 기여했습니다(이메일: wyf020803@berkeley.edu).
(4) 캘리포니아 버클리 대학교 Zhimin Chen(이메일: zhimin@berkeley.edu);
(5) 댈러스 텍사스 대학교 Yunhui Guo (이메일: yunhui.guo@utdallas.edu);
(6) Stella X. Yu, University of California, Berkeley 및 University of Michigan, Ann Arbor (이메일: stellayu@umich.edu);
(7) David Whitney, University of California, Berkeley (이메일: dwhitney@berkeley.edu).
인간의 감정 인식은 정신물리학과 컴퓨터 비전에서 중요한 주제였습니다. 그러나 현재 공개된 데이터 세트에는 많은 제한 사항이 있습니다. 예를 들어 대부분의 데이터세트에는 얼굴 표정에 대한 정보만 포함된 프레임이 포함되어 있습니다. 이전 데이터 세트의 한계로 인해 인간의 감정 인식 메커니즘을 이해하거나 해당 데이터 세트에서 훈련된 컴퓨터 비전 모델의 일반적인 사례를 잘 일반화하는 것은 매우 어렵습니다. 본 연구에서는 이전 데이터 세트의 한계를 극복할 수 있는 새로운 대규모 데이터 세트인 VEATIC(Video-based Emotion and Affect Tracking in Context Dataset)를 소개합니다. VEATIC은 헐리우드 영화, 다큐멘터리, 홈 비디오의 124개 비디오 클립을 보유하고 있으며 실시간 주석을 통해 각 프레임의 지속적인 밸런스와 각성 등급을 제공합니다. 데이터 세트와 함께 각 비디오 프레임의 컨텍스트 및 캐릭터 정보를 통해 선택한 캐릭터의 영향을 추론하는 새로운 컴퓨터 비전 작업을 제안합니다. 추가적으로 우리는 이 새로운 컴퓨터 비전 작업을 벤치마킹하기 위한 간단한 모델을 제안합니다. 또한 데이터 세트를 사용하여 사전 훈련된 모델의 성능을 다른 유사한 데이터 세트와 비교합니다. 실험은 VEATIC을 통해 사전 훈련된 모델의 경쟁 결과를 보여주며, 이는 VEATIC의 일반화 가능성을 나타냅니다. 우리의 데이터 세트는 https://veatic.github.io에서 사용할 수 있습니다.
인간의 영향을 인식하는 것은 우리 일상 생활에서 매우 중요합니다. 우리는 사람들의 얼굴 표정, 다른 사람과의 상호 작용, 장면의 맥락을 기반으로 사람들의 감정을 추론하고 후속 반응을 예측할 수 있습니다. 이는 우리 의사소통의 매우 귀중한 부분입니다. 따라서 정서 인식의 메커니즘을 이해하기 위해 많은 연구가 이루어지고 있습니다. 인공 지능(AI)의 출현과 함께 많은 연구에서는 인간의 감정을 자동으로 인식하고 해석하는 알고리즘을 제안했으며, 이는 로봇 및 가상 인간과 같은 시스템이 자연스러운 방식으로 사람들과 상호 작용할 수 있다는 잠재적인 의미를 담고 있습니다.
현실 세계에서 감정 인식 작업을 수행할 때 인간은 얼굴 표정보다 훨씬 더 많은 정보에 접근할 수 있습니다. 그럼에도 불구하고 감정 인식을 조사하는 많은 연구에서는 특히 심리적 장애 평가[3, 18] 및 컴퓨터 비전 모델[60, 62]에서 상황과 분리된 얼굴 표정의 정적 자극을 사용하는 경우가 많습니다. 또한 이전 연구에서는 인간이 감정을 인식하는 과정을 계속 조사했지만, 이러한 연구 중 다수는 감정 인식이 시각적 장면, 배경 정보, 신체 움직임, 다른 얼굴, 심지어 우리의 신념과 같은 상황적 요인에 의해 어떻게 영향을 받는지 조사하지 못했습니다. 욕망, 개념적 처리 [4, 34, 8, 42, 44]. 흥미롭게도 시각적 맥락 정보는 얼굴 표정과 자동으로 쉽게 통합되는 것으로 밝혀졌습니다[2]. 또한 감정 판단 중에 얼굴 신호를 무시할 수 있으며[26](그림 1), 시각적 처리의 초기 단계에서 감정 인식에도 영향을 미칠 수 있습니다[7]. 실제로 상황에 맞는 정보는 사람의 감정을 이해하는 데 얼굴 자체만큼 가치 있는 경우가 많습니다[8, 9, 10]. 감정 인식에서 상황 정보의 중요성에 대한 증가하는 증거는 연구자들이 인간의 감정 인식을 조사하는 실험 패러다임을 재평가할 것을 요구합니다. 예를 들어, 일상적인 사회적 상호 작용에서 인간의 감정 인식으로 이어지는 메커니즘과 프로세스를 더 잘 이해하려면 연구 연구의 일반화 가능성을 진지하게 고려해야 합니다. 가장 중요한 것은 감정 및 정서 추적을 위한 데이터 세트에는 얼굴이나 고립된 특정 캐릭터가 포함될 뿐만 아니라 배경 시각적 장면 정보, 캐릭터 간의 상호 작용과 같은 상황적 요소도 포함되어야 한다는 것입니다.
인간의 감정 상태를 표현하기 위해 심리학 및 신경과학 분야의 수많은 연구에서는 범주형 및 연속형 감정 모델을 모두 포함하는 인간의 감정 상태를 정량화하는 방법을 제안했습니다. 가장 유명하고 지배적인 감정 범주 이론은 특정 감정(분노, 두려움, 행복 등)이 문화 전반에 걸쳐 보편적으로 인식되며 모든 감정은 행동적, 생리적 반응, 평가, 평가 방식이 다르다는 기본 감정 이론입니다. 그리고 표현 [16]에서. 대안으로, 감정의 연속 모델인 감정의 곡회 모델은 모든 감정 상태가 원자가 및 각성과 관련된 두 가지 신경 생리학적 시스템에서 발생하며 모든 감정은 이 두 차원의 선형 조합으로 설명될 수 있다고 제안합니다 [52, 47, 53] . 감정 인식의 또 다른 모델인 얼굴 동작 코딩 시스템(Facial Action Coding System) 모델은 모든 얼굴 표정이 동작 단위(Action Unit)라고 불리는 근육 움직임의 핵심 구성 요소로 분류될 수 있다고 말합니다. 이전 감정 인식 모델은 이러한 다양한 모델을 염두에 두고 구축되었습니다[61, 63, 41]. 그러나 감정 컴퓨팅에 사용할 수 있는 주석이 달린 데이터베이스가 부족하여 불행하게도 연속적인 차원을 사용하여 감정을 측정하는 데 초점을 맞춘 모델은 거의 없습니다.
앞서 언급한 감정 지표를 기반으로 많은 감정 인식 데이터 세트가 개발되었습니다. SAL [15], SEMAINE [39], Belfast 유도 [58], DEAP [28] 및 MAHNOB-HCI [59]와 같은 초기 데이터 세트는 고도로 통제된 실험실 설정에서 수집되며 일반적으로 데이터 크기가 작습니다. 이러한 이전 데이터 세트에는 캐릭터, 모션, 장면 조명 및 배경 측면에서 다양성이 부족합니다. 더욱이 초기 데이터 세트의 표현은 일반적으로 이산적입니다. RECOLA [49], MELD [46], OMG-emotion 데이터 세트 [5], Aff-Wild [69] 및 Aff-Wild2 [29, 30]와 같은 최근 데이터 세트는 지속적인 평가를 통해 감정 상태를 수집하고 비디오를 활용하기 시작합니다. 인터넷에서 또는 "야생"이라고 불립니다. 그러나 이러한 데이터 세트에는 상황별 정보가 부족하고 얼굴 표정에만 중점을 둡니다. 프레임은 캐릭터나 특정 얼굴이 지배합니다. 게다가 앞서 언급한 데이터세트에는 주석자가 제한되어 있습니다(보통 10개 미만). 인간 관찰자는 개인차가 강하고 많은 편견을 겪기 때문에 [12, 45, 48], 제한된 주석자는 상당한 주석 편견으로 이어질 수 있습니다.
본 연구에서는 심리학 및 컴퓨터 비전 그룹 모두에 도움이 될 수 있는 대규모 데이터 세트인 비디오 기반 감정 및 상황 추적 데이터 세트(VEATIC, /ve"ætIc/)를 소개합니다. 이 데이터 세트에는 할리우드의 124개 비디오 클립이 포함되어 있습니다. 실시간 주석을 통해 각 프레임의 지속적인 Valence 및 Arousal 등급을 갖춘 영화, 다큐멘터리 및 홈 비디오. 또한 이 데이터 세트를 기반으로 새로운 컴퓨터 비전 작업을 제안합니다. 각 비디오 프레임의 컨텍스트 및 캐릭터 정보를 통해 선택한 캐릭터의 영향을 자동으로 추론합니다. 또한 이 연구에서는 이 작업에 대한 간단한 솔루션을 제공하며 실험을 통해 제안된 VEATIC 데이터세트의 이점을 보여줍니다. 간단히 말해서, 이 작업의 주요 기여는 다음과 같습니다.
• 얼굴 특징과 상황적 요인을 모두 포함하는 감정 및 감정 추적을 위해 최초의 대규모 비디오 데이터세트인 VEATIC을 구축했습니다. 데이터 세트에는 각 프레임에 대한 지속적인 원자가 및 각성 등급이 있습니다.
• 주석자의 편향을 완화하기 위해 우리는 이전 데이터세트(보통 10개 미만)와 비교하여 데이터세트에 주석을 달기 위해 대규모 주석자 세트(총 192명)를 모집했습니다.
• 캐릭터 정보와 상황적 요인을 모두 사용하여 각 프레임에서 선택한 캐릭터의 각성 및 Valence를 예측하는 기본 모델을 제공합니다.
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.