paint-brush
VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: प्रयोगद्वारा@kinetograph
172 रीडिंग

VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: प्रयोग

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने मानवीय प्रभाव पहचान के लिए VEATIC डाटासेट प्रस्तुत किया है, जो मौजूदा डाटासेट की सीमाओं को संबोधित करता है, तथा संदर्भ-आधारित अनुमान को सक्षम बनाता है।
featured image - VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: प्रयोग
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) झिहांग रेन, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: peter.zhren@berkeley.edu);

(2) जेफरसन ऑर्टेगा, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: jefferson_ortega@berkeley.edu);

(3) यिफान वांग, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: wyf020803@berkeley.edu);

(4) झिमिन चेन, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: zhimin@berkeley.edu);

(5) युनहुई गुओ, यूनिवर्सिटी ऑफ टेक्सास एट डलास (ईमेल: yunhui.guo@utdallas.edu);

(6) स्टेला एक्स. यू, कैलिफोर्निया विश्वविद्यालय, बर्कले और मिशिगन विश्वविद्यालय, एन आर्बर (ईमेल: stellayu@umich.edu);

(7) डेविड व्हिटनी, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: dwhitney@berkeley.edu).

लिंक की तालिका

4. प्रयोग

इस अध्ययन में, हम संदर्भ कार्य में एक नई भावना पहचान का प्रस्ताव करते हैं, अर्थात प्रत्येक वीडियो फ्रेम में संदर्भ और चरित्र जानकारी दोनों के माध्यम से चयनित चरित्र की वैलेंस और उत्तेजना का अनुमान लगाना। यहां, हम संदर्भ कार्य में नई भावना पहचान को बेंचमार्क करने के लिए एक सरल बेसलाइन मॉडल का प्रस्ताव करते हैं। मॉडल की पाइपलाइन चित्र 8 में दिखाई गई है। हमने दो सरल सबमॉड्यूल अपनाए: फीचर निष्कर्षण के लिए एक कन्वोल्यूशनल न्यूरल नेटवर्क (CNN) मॉड्यूल और अस्थायी सूचना प्रसंस्करण के लिए एक विज़ुअल ट्रांसफॉर्मर मॉड्यूल। CNN मॉड्यूल संरचना Resnet50 [21] से अपनाई गई है। CAER [33] और EMOTIC [32] के विपरीत, जहां चेहरे/चरित्र और संदर्भ सुविधाओं को अलग-अलग निकाला जाता है और बाद में विलय कर दिया जाता है, हम सीधे पूरी तरह से सूचित फ्रेम को एन्कोड करते हैं।


चित्र 8. संदर्भ कार्य में भावना और प्रभाव ट्रैकिंग के लिए बेंचमार्क मॉडल की वास्तुकला। मॉडल में एक CNN फीचर एक्सट्रैक्शन मॉड्यूल और लगातार फ़्रेम की अस्थायी जानकारी को संयोजित करने के लिए एक विज़ुअल ट्रांसफ़ॉर्मर शामिल है।

4.1. हानि फ़ंक्शन और प्रशिक्षण सेटअप

हमारे बेसलाइन मॉडल का लॉस फंक्शन दो अलग-अलग लॉस का भारित संयोजन है। MSE लॉस रेटिंग्स और मॉडल भविष्यवाणियों की जमीनी सच्चाई के स्थानीय संरेखण को नियमित करता है। बड़े पैमाने पर रेटिंग्स और भविष्यवाणियों के संरेखण की गारंटी देने के लिए, जैसे कि भावनात्मक रेटिंग्स के अस्थायी सांख्यिकी सीखना, हम नियमितीकरण के रूप में कॉनकॉर्डेंस सहसंबंध गुणांक (CCC) का भी उपयोग करते हैं। इस गुणांक को इस प्रकार परिभाषित किया गया है,


4.2. मूल्यांकन मेट्रिक्स


SAGR मापता है कि दो सदिशों X और Y के अलग-अलग मानों के चिह्न कितने मेल खाते हैं। यह [0, 1] में मान लेता है, जहाँ 1 पूर्ण सहमति को दर्शाता है और 0 पूर्ण विरोधाभास को दर्शाता है। SAGR मीट्रिक दूसरों की तुलना में अतिरिक्त प्रदर्शन जानकारी प्राप्त कर सकता है। उदाहरण के लिए, 0.2 की वैलेंस ग्राउंड ट्रुथ को देखते हुए, 0.7 और -0.3 की भविष्यवाणियाँ समान RMSE मान की ओर ले जाएँगी। लेकिन स्पष्ट रूप से, 0.7 बेहतर अनुकूल है क्योंकि यह एक सकारात्मक वैलेंस है।


तालिका 3. पूर्ण रूप से सूचित, केवल चरित्र और केवल संदर्भ स्थितियों पर हमारे प्रस्तावित मॉडल का प्रदर्शन। चरित्र और संदर्भ जानकारी दोनों के माध्यम से अनुमान लगाने पर, मॉडल सबसे अच्छा प्रदर्शन करता है। यह भावना और प्रभाव ट्रैकिंग कार्यों में संदर्भ और चरित्र जानकारी दोनों के महत्व को दर्शाता है।


तालिका 4. हमारे द्वारा प्रस्तावित विधि की तुलना EMOTIC और CARE-S प्रीट्रेन्ड मॉडल के साथ उनके डेटासेट पर की गई है। हमारा सरल मॉडल प्रतिस्पर्धी परिणाम प्राप्त करता है, जो VEATIC की सामान्यीकरण क्षमता को दर्शाता है।

4.3. बेंचमार्क परिणाम

हमने ऊपर बताए गए 4 मेट्रिक्स, CCC, PCC, RMSE और SAGR का उपयोग करके संदर्भ कार्य में नई भावना पहचान को बेंचमार्क किया है। परिणाम तालिका 3 में दिखाए गए हैं। अन्य डेटासेट की तुलना में, हमारा प्रस्तावित सरल तरीका उनके डेटासेट पर अत्याधुनिक तरीकों के बराबर है।


हम पूरी तरह से सूचित फ़्रेम पर प्रीट्रेन्ड मॉडल में केवल संदर्भ और केवल चरित्र फ़्रेम को फीड करके भावना पहचान कार्यों में संदर्भ और चरित्र जानकारी के महत्व की भी जांच करते हैं। निष्पक्ष तुलना प्राप्त करने और फ़्रेम पिक्सेल वितरण अंतर के प्रभाव को बाहर करने के लिए, हम केवल संदर्भ और केवल चरित्र फ़्रेम पर प्रीट्रेन्ड मॉडल को भी ठीक करते हैं। संबंधित परिणाम तालिका 3 में भी दिखाए गए हैं। पूरी जानकारी के बिना, मॉडल का प्रदर्शन केवल संदर्भ और केवल चरित्र दोनों स्थितियों के लिए गिर जाता है।


VEATIC डेटासेट की प्रभावशीलता दिखाने के लिए, हमने VEATIC पर अपने प्रीट्रेन्ड मॉडल का उपयोग किया, इसे अन्य डेटासेट पर फाइनट्यून किया और इसके प्रदर्शन का परीक्षण किया। हमने अपने मॉडल की सरलता और अन्य डेटासेट पेपर में प्रस्तावित मॉडल से हमारे मॉडल की समानता को देखते हुए केवल EMOTIC [32] और CAER-S [33] के लिए परीक्षण किया। परिणाम तालिका 4 में दिखाए गए हैं। हमारा प्रीट्रेन्ड मॉडल EMOTIC [32] और CAERS [33] में प्रस्तावित विधियों के बराबर प्रदर्शन करता है। इस प्रकार, यह हमारे प्रस्तावित VEATIC डेटासेट की प्रभावशीलता को दर्शाता है।



यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।