208 रीडिंग

VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: उत्तेजनाओं के बारे में अधिक जानकारी

द्वारा Kinetograph: The Video Editing Technology Publication2m2024/05/27

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने मानवीय प्रभाव पहचान के लिए VEATIC डाटासेट प्रस्तुत किया है, जो मौजूदा डाटासेट की सीमाओं को संबोधित करता है, तथा संदर्भ-आधारित अनुमान को सक्षम बनाता है।

featured image - VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: उत्तेजनाओं के बारे में अधिक जानकारी

यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) झिहांग रेन, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: peter.zhren@berkeley.edu);

(2) जेफरसन ऑर्टेगा, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: jefferson_ortega@berkeley.edu);

(3) यिफान वांग, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: wyf020803@berkeley.edu);

(4) झिमिन चेन, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: zhimin@berkeley.edu);

(5) युनहुई गुओ, यूनिवर्सिटी ऑफ टेक्सास एट डलास (ईमेल: yunhui.guo@utdallas.edu);

(6) स्टेला एक्स. यू, कैलिफोर्निया विश्वविद्यालय, बर्कले और मिशिगन विश्वविद्यालय, एन आर्बर (ईमेल: stellayu@umich.edu);

(7) डेविड व्हिटनी, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: dwhitney@berkeley.edu).

लिंक की तालिका

7. उत्तेजनाओं के बारे में अधिक जानकारी

VEATIC डेटासेट में इस्तेमाल किए गए सभी वीडियो ऑनलाइन वीडियो-शेयरिंग वेबसाइट (YouTube) से चुने गए थे। VEATIC डेटासेट में 124 वीडियो क्लिप, हॉलीवुड फिल्मों के 104 क्लिप, होम वीडियो के 15 क्लिप और डॉक्यूमेंट्री या रियलिटी टीवी शो के 5 क्लिप शामिल हैं। विशेष रूप से, हम डॉक्यूमेंट्री वीडियो को ऐसे किसी भी वीडियो के रूप में वर्गीकृत करते हैं जो स्पष्ट सामाजिक संपर्क दिखाते हैं लेकिन उनमें किसी प्रकार का वीडियो संपादन होता है, जबकि होम वीडियो ऐसे वीडियो को संदर्भित करते हैं जो बिना किसी वीडियो संपादन के स्पष्ट सामाजिक संपर्क दिखाते हैं। डेटासेट में सभी वीडियो की फ्रेम दर 25 फ्रेम प्रति सेकंड थी और रिज़ॉल्यूशन में सबसे कम 202 x 360 और सबसे अधिक 1920 x 1080 था।

चित्र 2 में वीडियो फ़्रेम के अवलोकन को छोड़कर, हम चित्र 9 में और नमूने दिखाते हैं। इसके अलावा, पहले प्रकाशित डेटासेट के विपरीत, जहाँ अधिकांश फ़्रेम में मुख्य चरित्र [31, 29, 32] होता है, VEATIC में न केवल चयनित चरित्र वाले फ़्रेम होते हैं, बल्कि अचयनित चरित्र और शुद्ध पृष्ठभूमि वाले बहुत सारे फ़्रेम भी होते हैं (चित्र 10)। इसलिए, VEATIC हमारे दैनिक जीवन परिदृश्यों के अधिक समान है, और इस पर प्रशिक्षित एल्गोरिदम दैनिक अनुप्रयोगों के लिए अधिक आशाजनक होंगे।