लेखक:
(1) प्रेरक गांधी, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई, prerakgandhi@cse.iitb.ac.in, और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया;
(2) विशाल प्रमाणिक, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई, vishalpramanik,pb@cse.iitb.ac.in, और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया;
(3) पुष्पक भट्टाचार्य, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई।
हमने सभी स्क्रिप्ट IMDB और IMSDb डेटाबेस से ली हैं। वेबसाइट पर शोध के लिए अपनी स्क्रिप्ट का उपयोग करने के बारे में एक अस्वीकरण है, जिसे इस लिंक https://imsdb.com/disclaimer.html पर पाया जा सकता है। हमने स्क्रिप्ट का निष्पक्ष और कॉपीराइट उल्लंघन के बिना उपयोग किया है।
हमें दो मामलों में बाहरी एनोटेटर्स की मदद की आवश्यकता थी: (i) स्क्रिप्ट को मैन्युअल रूप से एनोटेट करना और (ii) स्क्रिप्ट से दृश्य और उनके विवरण बनाना। पहले कार्य के लिए, हमने 10 एनोटेटर्स की मदद ली। उनकी उम्र 21-28 के बीच थी, और सभी एशियाई थे। उन्हें एनोटेट करने के उदाहरणों के साथ विस्तृत दिशानिर्देश दिए गए थे। उनकी समझ की पुष्टि करने और उनकी शंकाओं और गलतियों को हल करने के लिए समय-समय पर सत्र भी आयोजित किए गए। दूसरे कार्य के लिए, हमने दो एनोटेटर्स की मदद ली। वे दोनों एशियाई महिलाएं हैं जिनकी उम्र 21-23 के बीच है। दोनों को दृश्य-लेखन कार्य के लिए विस्तृत दिशानिर्देश दिए गए थे। कुछ डेटा बिंदुओं को यादृच्छिक रूप से चुना गया और वैचारिक गलतियों का पता लगाने और उन्हें ठीक करने के लिए जाँच की गई।
मूल्यांकन मेट्रिक्स का वर्णन नीचे दिया गया है:
• पेरप्लेक्सिटी (PPL): पेरप्लेक्सिटी भाषा मॉडल के मूल्यांकन के लिए सबसे आम मीट्रिक में से एक है। इनकी गणना एन्ट्रॉपी के घातांक के रूप में की जाती है। PPL का मान जितना छोटा होगा, उत्पन्न पाठ की प्रवाहशीलता उतनी ही अधिक होगी।
• BLEU: द्विभाषी मूल्यांकन अंडरस्टडी कई NLP कार्यों में एक सामान्य मीट्रिक है, खासकर मशीन अनुवाद के क्षेत्र में। यह उत्पन्न आउटपुट और स्वर्ण मानक डेटा के बीच ओवरलैप को मापता है। हालाँकि यह मीट्रिक मॉडल की रचनात्मकता पर विचार नहीं करता है, हम BLEU का उपयोग करके उम्मीदवार पाठ और संदर्भ पाठ के बीच अंतर का अनुमान लगा सकते हैं। BLEU माप जितना अधिक होगा, उतना ही बेहतर होगा।
• ROUGE: रिकॉल - ओरिएंटेड अंडरस्टडी फॉर गिस्टिंग ई वैल्यूएशन का इस्तेमाल आमतौर पर स्वचालित सारांश का मूल्यांकन करने के लिए किया जाता है। हमारे मामले में, यह उत्पन्न और मूल प्लॉट के बीच सबसे लंबे ओवरलैपिंग अनुक्रम को मापता है। ROUGE माप जितना अधिक होगा, उतना ही बेहतर होगा।
• एन-ग्राम: हम पुनरावृत्ति और अंतर एन-ग्राम स्कोर की गणना करके मूवी प्लॉट की अतिरेक और विविधता को मापते हैं।
एक फिल्म की स्क्रिप्ट या स्क्रीनप्ले का प्रारूप कहानी से अलग होता है। स्क्रिप्ट दृश्यों का एक समूह है। इनमें से प्रत्येक दृश्य में कुछ प्रमुख घटक होते हैं, जिनकी चर्चा नीचे की गई है:
दृश्य शीर्षक/स्लगलाइन- यह घटक दृश्य के कब और कहाँ होने का वर्णन करता है। इसे कैमरे द्वारा किसी नए दृश्य का लिया गया पहला शॉट माना जा सकता है। उदाहरण के लिए, INT. - RESTAURANT - NIGHT यह दर्शाता है कि दृश्य रात में किसी रेस्तरां के अंदर शुरू होता है। स्लगलाइन आमतौर पर बड़े अक्षरों में लिखी जाती हैं और बाईं ओर संरेखित होती हैं।
चरित्र नाम - जब भी कोई चरित्र संवाद बोलने वाला होता है, तो उनका उल्लेख किया जाता है। प्रत्येक चरित्र का नाम बड़े अक्षरों में लिखा जाता है और केंद्र में संरेखित किया जाता है।
संवाद - संवाद वे पंक्तियाँ हैं जो पात्र बोलते हैं। वे स्क्रिप्ट में पात्र के नाम के ठीक बाद दिखाई देते हैं और केंद्र में संरेखित होते हैं।
एक्शन लाइन्स - एक्शन लाइन्स किसी दृश्य के बारे में लगभग सब कुछ बताती हैं। इन्हें प्रत्येक स्क्रिप्ट के वर्णन के रूप में वर्णित किया जा सकता है। एक्शन लाइन्स संवादों या स्लगलाइन के बाद मौजूद हो सकती हैं और बाईं ओर संरेखित होती हैं।
संक्रमण - संक्रमण एक दृश्य से दूसरे दृश्य में परिवर्तन को दर्शाता है। वे यह भी दर्शाते हैं कि एक दृश्य कैसे समाप्त होता है। उदाहरण के लिए, DISSOLVE, FADE, और CUT संक्रमण को इंगित करने के लिए उपयोग किए जाने वाले विभिन्न कीवर्ड हैं। वे आम तौर पर बड़े अक्षरों में होते हैं और दाईं ओर संरेखित होते हैं।
चित्र 8 में पटकथा तत्वों का एक उदाहरण दिखाया गया है।
समय के साथ-साथ कई ऐसे टेम्पलेट विकसित किए गए हैं जो कहानियों को बनाने में मदद करते हैं। सबसे प्रसिद्ध टेम्पलेट में से एक 3-अधिनियम संरचना (फील्ड, 1979) है। यह संरचना एक कहानी को सेटअप, टकराव और समाधान में विभाजित करती है। इस काम में, हमने 4-अधिनियम संरचना का उपयोग किया है जिसका अब हम विस्तार से वर्णन करते हैं।
एक्ट 1 - यह शुरूआती/परिचयात्मक एक्ट है। इसमें नायक के चरित्र का वर्णन किया जाता है और फिल्म के विषय का संक्षिप्त परिचय दिया जाता है। एक्ट का अंत नायक के लिए एक नई यात्रा की शुरुआत के साथ होता है।
एक्ट 2A - एक्ट 2 की विशाल अवधि के कारण, इसे दो एक्ट में विभाजित किया जा सकता है। इस एक्ट में आमतौर पर एक प्रेम कहानी की शुरुआत होती है। यह दर्शकों का मनोरंजन भी करता है क्योंकि नायक अपनी नई यात्रा के लिए खुद को ढालने की कोशिश करता है। यह एक्ट फिल्म के मध्य बिंदु के रूप में समाप्त होता है, जो फिल्म के महत्वपूर्ण क्षणों में से एक है, जिसमें या तो बहुत सकारात्मक या नकारात्मक दृश्य होता है।
एक्ट 2बी - इस एक्ट में आम तौर पर नायक का पतन होता है। खलनायक या प्रतिपक्षी को लाभ मिलना शुरू हो जाता है, और नायक कुछ महत्वपूर्ण चीज़ या व्यक्ति खो देता है। यह एक्ट नायक द्वारा चरम सीमा पर पहुँचने के बाद अपने नए मिशन को समझने के साथ समाप्त होता है।
तीसरा भाग - नायक को अपने अंदर ज़रूरी बदलाव का एहसास हो जाता है और वह एक रोमांचक अंत में प्रतिपक्षी को हराने के लिए तैयार हो जाता है। फिर फ़िल्म नायक में एक स्वागत योग्य बदलाव दिखाते हुए समाप्त होती है जिसकी शुरुआत में कमी थी।
GPT-3 को पिछले साल OpenAI (ब्राउन एट अल., 2020) द्वारा सार्वजनिक रूप से उपलब्ध माना गया था। इसके सर्वश्रेष्ठ मॉडल में 175B पैरामीटर हैं, जो GPT2 के 2.9B पैरामीटर से बहुत अधिक है। हमने GPT-3 के साथ-साथ सीन जनरेशन मॉडल के साथ कई प्लॉट जनरेशन मॉडल को फाइन-ट्यून किया है। प्लॉट जनरेशन मॉडल के कई संयोजन छोटे या लंबे प्रॉम्प्ट हैं और शैलियों के साथ या बिना हैं। GPT-3 मॉडल और हाइपरपैरामीटर उपरोक्त सभी संयोजनों के लिए समान रहते हैं। हमने चार युगों के लिए GPT-3 क्यूरी मॉडल को फाइन-ट्यून किया है। टेक्स्ट जनरेट करने के लिए, GPT-3 हमारे इच्छित परिणामों के करीब पहुंचने और ट्यून करने के लिए विभिन्न हाइपरपैरामीटर प्रदान करता है। परीक्षण के लिए, हमने अन्य हाइपरपैरामीटर इस प्रकार सेट किए हैं: तापमान 0.7, टॉप-पी 1, आवृत्ति दंड 0.1, उपस्थिति दंड 0.1 और अधिकतम टोकन 900।
यह पेपर CC 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।