लेखक:
(1) झिहांग रेन, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: peter.zhren@berkeley.edu);
(2) जेफरसन ऑर्टेगा, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: jefferson_ortega@berkeley.edu);
(3) यिफान वांग, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: wyf020803@berkeley.edu);
(4) झिमिन चेन, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: zhimin@berkeley.edu);
(5) युनहुई गुओ, यूनिवर्सिटी ऑफ टेक्सास एट डलास (ईमेल: yunhui.guo@utdallas.edu);
(6) स्टेला एक्स. यू, कैलिफोर्निया विश्वविद्यालय, बर्कले और मिशिगन विश्वविद्यालय, एन आर्बर (ईमेल: stellayu@umich.edu);
(7) डेविड व्हिटनी, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: dwhitney@berkeley.edu).
मानव प्रभाव पहचान मनोविज्ञान और कंप्यूटर विज़न में एक महत्वपूर्ण विषय रहा है। हालाँकि, वर्तमान में प्रकाशित डेटासेट में कई सीमाएँ हैं। उदाहरण के लिए, अधिकांश डेटासेट में ऐसे फ़्रेम होते हैं जिनमें केवल चेहरे के भावों के बारे में जानकारी होती है। पिछले डेटासेट की सीमाओं के कारण, मनुष्यों की प्रभाव पहचान के लिए तंत्र को समझना या उन डेटासेट पर प्रशिक्षित कंप्यूटर विज़न मॉडल के लिए सामान्य मामलों पर अच्छी तरह से सामान्यीकरण करना बहुत कठिन है। इस कार्य में, हम एक बिलकुल नया बड़ा डेटासेट, वीडियो-आधारित भावना और प्रभाव ट्रैकिंग इन कॉन्टेक्स्ट डेटासेट (VEATIC) पेश करते हैं, जो पिछले डेटासेट की सीमाओं को जीत सकता है। VEATIC में हॉलीवुड फिल्मों, वृत्तचित्रों और घरेलू वीडियो से 124 वीडियो क्लिप हैं, जिनमें वास्तविक समय एनोटेशन के माध्यम से प्रत्येक फ़्रेम की निरंतर वैलेंस और उत्तेजना रेटिंग है। डेटासेट के साथ, हम प्रत्येक वीडियो फ़्रेम में संदर्भ और चरित्र जानकारी दोनों के माध्यम से चयनित चरित्र के प्रभाव का अनुमान लगाने के लिए एक नया कंप्यूटर विज़न कार्य प्रस्तावित करते हैं। इसके अतिरिक्त, हम इस नए कंप्यूटर विज़न कार्य को बेंचमार्क करने के लिए एक सरल मॉडल प्रस्तावित करते हैं। हम अपने डेटासेट का उपयोग करके पूर्व-प्रशिक्षित मॉडल के प्रदर्शन की तुलना अन्य समान डेटासेट से भी करते हैं। प्रयोगों से VEATIC के माध्यम से हमारे पूर्व-प्रशिक्षित मॉडल के प्रतिस्पर्धी परिणाम दिखाई देते हैं, जो VEATIC की सामान्यीकरणीयता को दर्शाता है। हमारा डेटासेट https://veatic.github.io पर उपलब्ध है।
हमारे दैनिक जीवन में मानवीय प्रभाव को पहचानना बहुत महत्वपूर्ण है। हम लोगों की भावनाओं का अनुमान लगा सकते हैं और उनके चेहरे के भावों, अन्य लोगों के साथ बातचीत और दृश्य के संदर्भ के आधार पर उनकी बाद की प्रतिक्रियाओं की भविष्यवाणी कर सकते हैं। यह हमारे संचार का एक अमूल्य हिस्सा है। इस प्रकार, प्रभाव पहचान के तंत्र को समझने के लिए कई अध्ययन समर्पित हैं। आर्टिफिशियल इंटेलिजेंस (एआई) के उद्भव के साथ, कई अध्ययनों ने मानव प्रभाव को स्वचालित रूप से समझने और व्याख्या करने के लिए एल्गोरिदम का भी प्रस्ताव दिया है, जिसका संभावित निहितार्थ यह है कि रोबोट और आभासी मानव जैसी प्रणालियाँ लोगों के साथ स्वाभाविक तरीके से बातचीत कर सकती हैं।
जब वास्तविक दुनिया में भावना पहचान का काम सौंपा जाता है, तो मनुष्य के पास चेहरे के भावों की तुलना में बहुत अधिक जानकारी तक पहुँच होती है। इसके बावजूद, भावना पहचान की जांच करने वाले कई अध्ययन अक्सर चेहरे के भावों की स्थिर उत्तेजनाओं का उपयोग करते हैं जो संदर्भ से अलग होते हैं, विशेष रूप से मनोवैज्ञानिक विकारों के आकलन में [3, 18] और कंप्यूटर विज़न मॉडल [60, 62] में। इसके अतिरिक्त, जबकि पिछले अध्ययनों ने उस प्रक्रिया की जांच जारी रखी है जिसके द्वारा मनुष्य भावना को समझते हैं, इनमें से कई अध्ययन यह जांचने में विफल रहे हैं कि भावना पहचान दृश्य दृश्य, पृष्ठभूमि की जानकारी, शरीर की हरकतें, अन्य चेहरे और यहां तक कि हमारे विश्वासों, इच्छाओं और वैचारिक प्रसंस्करण जैसे संदर्भ कारकों से कैसे प्रभावित होती है [4, 34, 8, 42, 44]। दिलचस्प बात यह है कि दृश्य संदर्भ संबंधी जानकारी चेहरे के भावों के साथ स्वचालित रूप से और सहजता से एकीकृत पाई गई है [2]। यह भावनात्मक निर्णयों के दौरान चेहरे के संकेतों को भी ओवरराइड कर सकता है [26] (चित्र 1), और दृश्य प्रसंस्करण के शुरुआती चरणों में भावना धारणा को भी प्रभावित कर सकता है [7]। वास्तव में, संदर्भ संबंधी जानकारी अक्सर किसी व्यक्ति की भावना को समझने के लिए उतनी ही मूल्यवान होती है जितनी कि चेहरा [8, 9, 10]। भावना पहचान में प्रासंगिक जानकारी के महत्व के बढ़ते प्रमाण [4] मांग करते हैं कि शोधकर्ता उन प्रयोगात्मक प्रतिमानों का पुनर्मूल्यांकन करें जिनमें वे मानवीय भावना पहचान की जांच करते हैं। उदाहरण के लिए, रोज़मर्रा की सामाजिक बातचीत के दौरान मानवीय भावना पहचान की ओर ले जाने वाले तंत्रों और प्रक्रियाओं को बेहतर ढंग से समझने के लिए, शोध अध्ययनों की सामान्यता पर गंभीरता से विचार किया जाना चाहिए। सबसे महत्वपूर्ण बात यह है कि भावना और प्रभाव ट्रैकिंग के लिए डेटासेट में न केवल चेहरे या अलग-अलग विशिष्ट चरित्र शामिल होने चाहिए, बल्कि पृष्ठभूमि दृश्य दृश्य जानकारी और पात्रों के बीच बातचीत जैसे प्रासंगिक कारक भी शामिल होने चाहिए।
मनुष्यों की भावनात्मक स्थिति का प्रतिनिधित्व करने के लिए, मनोविज्ञान और तंत्रिका विज्ञान में कई अध्ययनों ने मनुष्यों की भावनात्मक स्थिति को मापने के तरीकों का प्रस्ताव दिया है जिसमें भावना के श्रेणीबद्ध और निरंतर दोनों मॉडल शामिल हैं। भावना का सबसे प्रसिद्ध और प्रमुख श्रेणीबद्ध सिद्धांत बुनियादी भावनाओं का सिद्धांत है जो बताता है कि कुछ भावनाओं को संस्कृतियों में सार्वभौमिक रूप से मान्यता प्राप्त है (क्रोध, भय, खुशी, आदि) और यह कि सभी भावनाएं उनके व्यवहारिक और शारीरिक प्रतिक्रिया, उनके मूल्यांकन और अभिव्यक्ति में भिन्न होती हैं [16]। वैकल्पिक रूप से, भावना का एक निरंतर मॉडल, प्रभाव का परिधि मॉडल, प्रस्तावित करता है कि सभी भावात्मक अवस्थाएँ वैलेंस और उत्तेजना से संबंधित दो न्यूरोफिज़ियोलॉजिकल प्रणालियों से उत्पन्न होती हैं और सभी भावनाओं को इन दो आयामों के रैखिक संयोजन द्वारा वर्णित किया जा सकता है [52, 47, 53]। भावना पहचान का एक अन्य मॉडल, फेशियल एक्शन कोडिंग सिस्टम मॉडल, बताता है कि सभी चेहरे के भावों को एक्शन यूनिट्स नामक मांसपेशी आंदोलनों के मुख्य घटकों में तोड़ा जा सकता है [17]। पिछले भावना पहचान मॉडल इन विभिन्न मॉडलों को ध्यान में रखकर बनाए गए हैं [61, 63, 41]। हालांकि, कुछ मॉडल निरंतर आयामों का उपयोग करके प्रभाव को मापने पर ध्यान केंद्रित करते हैं, जो कि भावात्मक कंप्यूटिंग के लिए उपलब्ध एनोटेटेड डेटाबेस की कमी का दुर्भाग्यपूर्ण परिणाम है।
उपर्युक्त भावना मेट्रिक्स के आधार पर, कई भावना पहचान डेटासेट विकसित किए गए हैं। शुरुआती डेटासेट, जैसे SAL [15], SEMAINE [39], बेलफास्ट इंड्यूस्ड [58], DEAP [28], और MAHNOB-HCI [59] अत्यधिक नियंत्रित लैब सेटिंग्स के तहत एकत्र किए जाते हैं और आमतौर पर डेटा आकार में छोटे होते हैं। इन पिछले डेटासेट में पात्रों, गतियों, दृश्य रोशनी और पृष्ठभूमि के संदर्भ में विविधता का अभाव है। इसके अलावा, शुरुआती डेटासेट में प्रतिनिधित्व आमतौर पर असतत होते हैं। हाल के डेटासेट, जैसे RECOLA [49], MELD [46], OMG-इमोशन डेटासेट [5], Aff-Wild [69], और Aff-Wild2 [29, 30], निरंतर रेटिंग के माध्यम से भावनात्मक स्थिति एकत्र करना शुरू करते हैं और इंटरनेट पर वीडियो का उपयोग करते हैं या "इन-द-वाइल्ड" कहलाते हैं। इसके अलावा, उपर्युक्त डेटासेट में सीमित एनोटेटर (आमतौर पर 10 से कम) होते हैं। चूँकि मानव पर्यवेक्षकों में मजबूत व्यक्तिगत अंतर होते हैं और वे कई पूर्वाग्रहों से ग्रस्त होते हैं [12, 45, 48], सीमित एनोटेटर पर्याप्त एनोटेशन पूर्वाग्रहों को जन्म दे सकते हैं।
इस अध्ययन में, हम वीडियो-आधारित भावना और प्रभाव ट्रैकिंग इन कॉन्टेक्स्ट डेटासेट (VEATIC, /ve"ætIc/) प्रस्तुत करते हैं, जो एक बड़ा डेटासेट है जो मनोविज्ञान और कंप्यूटर विज़न समूहों दोनों के लिए फायदेमंद हो सकता है। डेटासेट में हॉलीवुड की फिल्मों, वृत्तचित्रों और घरेलू वीडियो से 124 वीडियो क्लिप शामिल हैं, जिनमें वास्तविक समय एनोटेशन के माध्यम से प्रत्येक फ़्रेम की निरंतर वैलेंस और उत्तेजना रेटिंग शामिल हैं। हमने डेटा को एनोटेट करने के लिए बड़ी संख्या में प्रतिभागियों की भर्ती भी की। इस डेटासेट के आधार पर, हम एक नया कंप्यूटर विज़न कार्य प्रस्तावित करते हैं, यानी, प्रत्येक वीडियो फ़्रेम में संदर्भ और चरित्र जानकारी दोनों के माध्यम से चयनित चरित्र के प्रभाव का स्वचालित रूप से अनुमान लगाना। इस अध्ययन में, हम इस कार्य के लिए एक सरल समाधान भी प्रदान करते हैं। प्रयोग विधि की प्रभावशीलता के साथ-साथ प्रस्तावित VEATIC डेटासेट के लाभों को भी दर्शाते हैं। संक्षेप में, इस कार्य के मुख्य योगदान हैं:
• हमने भावना और प्रभाव ट्रैकिंग के लिए पहला बड़ा वीडियो डेटासेट, VEATIC बनाया है जिसमें चेहरे की विशेषताएं और संदर्भगत कारक दोनों शामिल हैं। डेटासेट में प्रत्येक फ्रेम के लिए निरंतर वैलेंस और उत्तेजना रेटिंग है।
• एनोटेटर्स के पूर्वाग्रहों को कम करने के लिए, हमने पिछले डेटासेट (आमतौर पर 10 से कम) की तुलना में डेटासेट को एनोटेट करने के लिए एनोटेटर्स के एक बड़े समूह (कुल 192) की भर्ती की।
• हम प्रत्येक फ्रेम से चयनित चरित्र की उत्तेजना और वैलेंस की भविष्यवाणी करने के लिए चरित्र जानकारी और संदर्भगत कारकों दोनों का उपयोग करके एक आधारभूत मॉडल प्रदान करते हैं।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।