paint-brush
"কুরোসাওয়া": একজন স্ক্রিপ্ট রাইটারের সহকারী: ডেটাসেটদ্বারা@teleplay
114 পড়া

"কুরোসাওয়া": একজন স্ক্রিপ্ট রাইটারের সহকারী: ডেটাসেট

দ্বারা Teleplay Technology 3m2024/05/23
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা KUROSAWA, প্লট এবং স্ক্রিপ্ট জেনারেশনের জন্য একটি এআই স্ক্রিপ্ট-রাইটিং ওয়ার্কবেঞ্চ, বিনোদন মিডিয়াতে অটোমেশনকে সম্বোধন করে।
featured image - "কুরোসাওয়া": একজন স্ক্রিপ্ট রাইটারের সহকারী: ডেটাসেট
Teleplay Technology  HackerNoon profile picture
0-item


লেখক:

(1) প্রেরক গান্ধী, কম্পিউটার সায়েন্স অ্যান্ড ইঞ্জিনিয়ারিং বিভাগ, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি বোম্বে, মুম্বাই, prerakgandhi@cse.iitb.ac.in, এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন;

(2) বিশাল প্রামানিক, কম্পিউটার সায়েন্স অ্যান্ড ইঞ্জিনিয়ারিং বিভাগ, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি বোম্বে, মুম্বাই, vishalpramanik,pb@cse.iitb.ac.in, এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন;

(3) পুষ্পক ভট্টাচার্য, কম্পিউটার সায়েন্স অ্যান্ড ইঞ্জিনিয়ারিং বিভাগ, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি বোম্বে, মুম্বাই।

লিঙ্কের টেবিল

4. ডেটাসেট

সিনেমার প্লট জেনারেশনের জন্য, আমরা উইকিপিডিয়া থেকে প্লটগুলো নিয়েছি। এই কাজের জন্য অনুরোধগুলি IMDb থেকে নেওয়া হয়েছে। IMDb-এ, এই প্রম্পট দুই ধরনের হতে পারে। প্রথমটি হল মুভিটির একটি সংক্ষিপ্ত বিবরণ (15-40 শব্দ), যখন দ্বিতীয়টি একটি দীর্ঘ গল্পরেখা, যা 30-200 শব্দের মধ্যে পরিবর্তিত হয় এবং মুভির বিভিন্ন চরিত্র এবং ঘটনা সম্পর্কে আরও অনেক বিশদ রয়েছে। আমরা আইএমডিবি থেকে প্রতিটি ছবির জেনারও সংগ্রহ করেছি। তারপরে আমরা একটি 4-অ্যাক্ট কাঠামো ব্যবহার করে প্লটগুলিকে ভাগ করি। দৃশ্য তৈরির জন্য, আমরা IMSDb থেকে স্ক্রিপ্টগুলি নিয়ে থাকি এবং একটি দৃশ্যের মূল উপাদানগুলির সাথে তাদের টীকা করি।

4.1। প্লট জেনারেশন ডেটাসেট

আমরা পাইথনে উইকিপিডিয়া মডিউল ব্যবহার করে উইকিপিডিয়া থেকে নেওয়া বলিউড এবং হলিউড উভয় প্লটের সমন্বয়ে 1000টি প্লটের একটি ডেটাসেট তৈরি করেছি। সংগৃহীত প্লটগুলি গড়ে প্রায় 700 শব্দ দীর্ঘ।

4.1.1। টীকা নির্দেশিকা

আমরা পরিশিষ্ট A.5-এ বর্ণিত 4-অ্যাক্ট কাঠামো ব্যবহার করে প্লটগুলিকে ম্যানুয়ালি 4 ভাগে ভাগ করে টীকা করি। আমরা প্রতিটি কাজের শেষে একটি একক ট্যাগ রাখি: 〈এক〉 (অ্যাক্ট 1), 〈টু-এ〉 (অ্যাক্ট 2 পার্ট এ), 〈টু-বি〉 (অ্যাক্ট 2 পার্ট বি) এবং 〈তিন〉 (অ্যাক্ট 3) ) সীমাবদ্ধকারী হিসাবে। প্লট টীকা জন্য একটি উদাহরণ পরিশিষ্ট (চিত্র 6) দেওয়া হয়েছে.


চিত্র 2: প্লট ডেটাসেটের মধ্যে জেনার বন্টন

4.1.2। সিনেমার ধরন

মডেল দ্বারা উত্পন্ন প্লটগুলিতে কিছুটা নিয়ন্ত্রণযোগ্যতা আনতে, আমরা গল্পের সাথে ডেটাসেটে চলচ্চিত্রের জেনারগুলি চালু করেছি। আমরা গল্পের শুরুতে জেনারগুলিকে একত্রিত করি। চিত্র 2 ডেটাসেটে জেনারগুলির বিতরণ দেখায়।

4.2। দৃশ্য জেনারেশন ডেটাসেট

সিনেমার স্ক্রিপ্ট অনেক লম্বা। একটি 2 ঘন্টার চলচ্চিত্র প্রায় 30,000 শব্দের সাথে মিলে যায়। সৃজনশীল টেক্সট তৈরির জন্য ব্যবহৃত ভাষা মডেল, যেমন GPT-2 এবং GPT-3, যথাক্রমে 1024 এবং 2048-এর টোকেন সীমা রয়েছে, যা একযোগে একটি সম্পূর্ণ স্ক্রিপ্ট পরিচালনা করা অসম্ভব করে তোলে। তাই, আমরা স্ক্রিপ্টগুলিকে দৃশ্যে ভাগ করেছি এবং ম্যানুয়ালি তাদের সংক্ষিপ্ত বিবরণ তৈরি করেছি। এটি পূর্ববর্তী দৃশ্যের উপর নির্ভর না করে স্বাধীনভাবে দৃশ্যগুলিকে প্রশিক্ষণের অনুমতি দেয়।


সিনেমার স্ক্রিপ্টগুলি পরিশিষ্ট A.4-তে বর্ণিত একাধিক উপাদান নিয়ে গঠিত। বিভিন্ন উপাদান প্রতিটি উপাদানকে আলাদা করতে শেখার ক্ষেত্রে মডেলদের অসুবিধা বাড়ায়। এই বাধা অতিক্রম করার জন্য, আমরা স্ক্রিপ্ট জুড়ে চারটি প্রধান উপাদান ট্যাগ করি — স্লগলাইন, অ্যাকশন লাইন, সংলাপ এবং চরিত্রের নাম।

4.2.1। টীকা নির্দেশিকা

আমরা প্রতিটি স্ক্রিপ্টে উপস্থিত চারটি প্রধান উপাদান রাখি — স্লগলাইন, অ্যাকশন লাইন, চরিত্রের নাম এবং সংলাপগুলি — এবং পৃষ্ঠা নম্বর, রূপান্তর বা দৃশ্যের তারিখের মতো অন্য যেকোন তথ্য সরিয়ে ফেলি। চারটি প্রধান উপাদানের ট্যাগিং শুরু এবং শেষ ট্যাগগুলি ব্যবহার করে করা হয় যা উপাদানগুলির চারপাশে মোড়ানো হয়, যেমনটি নীচে দেখানো হয়েছে:


• স্লগলাইন: 〈bsl〉...〈esl〉


• অ্যাকশন লাইন: 〈bal〉...〈eal〉


• চরিত্রের নাম: 〈bcn〉...〈ecn〉


• সংলাপ: 〈bd〉...〈ed〉


চিত্র 3: ছবিটি চারটি প্রধান উপাদান টীকা সহ একটি চলচ্চিত্র দৃশ্যের একটি অংশকে চিত্রিত করে৷


একটি টীকাযুক্ত দৃশ্যের একটি উদাহরণ চিত্র 3 এ দেখা যায়।


এই কাগজটি CC 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ