저자:
(1) Prerak Gandhi, 인도 봄베이 기술 연구소(뭄바이 소재) 컴퓨터 공학부 prerakgandhi@cse.iitb.ac.in 및 이들 저자는 이 작업에 동일하게 기여했습니다.
(2) Vishal Pramanik, 인도 봄베이 기술 연구소(뭄바이 소재) 컴퓨터 공학부, vishalpramanik,pb@cse.iitb.ac.in, 이들 저자는 이 작업에 동일하게 기여했습니다.
(3) Pushpak Bhattacharyya, 뭄바이 인도 봄베이 기술 연구소 컴퓨터 공학부.
영화 플롯 생성을 위해 Wikipedia에서 플롯을 가져왔습니다. 이 작업에 대한 프롬프트는 IMDb에서 가져왔습니다. IMDb에서 이 프롬프트는 두 가지 유형이 될 수 있습니다. 첫 번째는 영화에 대한 짧은 설명(15~40단어)이고, 두 번째는 30~200단어로 다양하고 영화의 다양한 캐릭터와 사건에 대한 훨씬 더 자세한 내용을 포함하는 긴 스토리라인입니다. IMDb에서 각 영화의 장르도 모아봤습니다. 그런 다음 4막 구조를 사용하여 플롯을 나눕니다. 장면 생성을 위해 IMSDb에서 스크립트를 가져와 장면의 핵심 요소로 주석을 달았습니다.
우리는 Python의 wikipedia 모듈을 사용하여 Wikipedia에서 추출한 Bollywood와 Hollywood 플롯으로 구성된 1000개 플롯의 데이터 세트를 만들었습니다. 수집된 플롯의 길이는 평균 약 700단어입니다.
부록 A.5에 설명된 4막 구조를 사용하여 플롯을 수동으로 4부분으로 나누어 플롯에 주석을 달았습니다. 각 막의 끝에는 〈one〉(Act 1), 〈two-a〉(Act 2 파트 A), 〈two-b〉(Act 2 파트 B), 〈3〉(Act 3)이라는 단일 태그를 배치합니다. )를 구분 기호로 사용합니다. 플롯 주석의 예는 부록(그림 6)에 나와 있습니다.
모델에 의해 생성된 플롯에 어느 정도 제어성을 부여하기 위해 스토리라인과 함께 데이터세트에 영화 장르를 도입했습니다. 스토리의 시작 부분에서 장르를 연결합니다. 그림 2는 데이터 세트의 장르 분포를 보여줍니다.
영화 대본은 매우 길다. 2시간짜리 영화는 약 30,000개의 단어에 해당합니다. GPT-2 및 GPT-3과 같이 창의적인 텍스트 생성에 사용되는 언어 모델에는 각각 1024 및 2048의 토큰 제한이 있어 전체 스크립트를 한 번에 처리하는 것이 불가능합니다. 따라서 우리는 스크립트를 장면으로 나누고 짧은 설명을 수동으로 작성했습니다. 이를 통해 이전 장면에 의존하지 않고 독립적으로 장면을 훈련할 수 있습니다.
영화 대본은 부록 A.4에 설명된 여러 요소로 구성됩니다. 서로 다른 요소는 모델이 각 요소를 구별하는 방법을 학습하는 데 직면하는 어려움을 증가시킵니다. 이러한 장애물을 극복하기 위해 우리는 스크립트 전반에 걸쳐 슬러글라인, 액션 라인, 대화 및 캐릭터 이름이라는 네 가지 주요 요소에 태그를 지정했습니다.
우리는 모든 스크립트에 슬러글라인, 액션 라인, 캐릭터 이름, 대화 등 네 가지 주요 요소를 유지하고 페이지 번호, 전환 또는 장면 날짜와 같은 다른 유형의 정보를 제거합니다. 네 가지 주요 요소의 태그 지정은 아래와 같이 요소를 감싸는 시작 및 끝 태그를 사용하여 수행됩니다.
• 슬러그라인: 〈bsl〉...〈esl〉
• 액션 라인: 〈bal〉...〈eal〉
• 캐릭터명 : 〈bcn〉...〈ecn〉
• 대화:〈bd〉...〈ed〉
주석이 달린 장면의 예가 그림 3에 나와 있습니다.
이 문서는 CC 4.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다.