저자:
(1) Prerak Gandhi, 인도 봄베이 기술 연구소(뭄바이 소재) 컴퓨터 공학부 prerakgandhi@cse.iitb.ac.in 및 이들 저자는 이 작업에 동일하게 기여했습니다.
(2) Vishal Pramanik, 인도 봄베이 기술 연구소(뭄바이 소재) 컴퓨터 공학부, vishalpramanik,pb@cse.iitb.ac.in, 이들 저자는 이 작업에 동일하게 기여했습니다.
(3) Pushpak Bhattacharyya, 뭄바이 인도 봄베이 기술 연구소 컴퓨터 공학부.
우리는 IMDB 및 IMSDb 데이터베이스에서 모든 스크립트를 가져왔습니다. 웹사이트에는 연구용 스크립트 사용에 관한 면책 조항이 있으며, 해당 내용은 https://imsdb.com/disclaimer.html 링크에서 확인할 수 있습니다. 우리는 스크립트를 저작권 위반 없이 공정하게 사용했습니다.
(i) 수동으로 스크립트에 주석을 달고 (ii) 스크립트에서 장면과 설명을 생성하는 두 가지 경우에 외부 주석자의 도움이 필요했습니다. 첫 번째 작업을 위해 우리는 10명의 주석자의 도움을 받았습니다. 연령층은 21~28세였으며 모두 아시아인이었습니다. 주석을 달기 위한 예시와 함께 자세한 지침이 제공되었습니다. 이해를 확인하고 의심과 실수를 해결하기 위한 주기적인 세션도 있었습니다. 두 번째 작업에서는 두 명의 주석자의 도움을 받았습니다. 두 사람 모두 21~23세의 아시아계 여성이다. 두 사람 모두 장면 작성 작업에 대한 자세한 지침을 받았습니다. 개념적 실수를 찾아 수정하기 위해 몇 가지 데이터 포인트를 무작위로 선택하고 확인했습니다. 주석 작성자는 STEM 및 예술 분야의 학사 및 석사 학위를 보유하고 있습니다.
평가 지표는 아래에 설명되어 있습니다.
• Perplexity(PPL): Perplexity는 언어 모델을 평가하는 가장 일반적인 측정 기준 중 하나입니다. 엔트로피의 지수함수로 계산됩니다. PPL 값이 작을수록 생성된 텍스트의 유창성이 높아집니다.
• BLEU: 이중 언어 평가 평가 Understudy 는 많은 NLP 작업, 특히 기계 번역 분야에서 일반적인 측정 기준입니다. 생성된 출력과 표준 데이터 간의 중복을 측정합니다. 이 메트릭은 모델의 창의성을 고려하지 않지만 BLEU를 사용하여 후보 텍스트와 참조 텍스트의 차이를 추론할 수 있습니다. BLEU 측정값이 높을수록 더 좋습니다.
• ROUGE: 기본 평가 를 위한 회상 중심 연구는 일반적으로 자동 요약을 평가하는 데 사용됩니다. 우리의 경우 생성된 플롯과 원본 플롯 사이의 가장 긴 중첩 시퀀스를 측정합니다. ROUGE 측정값이 높을수록 더 좋습니다.
• N-그램: 반복 및 구별 N-그램 점수를 계산하여 영화 줄거리의 중복성과 다양성을 측정합니다.
영화 대본이나 각본은 스토리와 형식이 다릅니다. 스크립트는 장면의 그룹입니다. 이러한 각 장면은 아래에 설명된 몇 가지 주요 구성 요소로 구성됩니다.
장면 제목/슬러글라인 - 이 구성 요소는 장면의 시기와 위치를 설명합니다. 카메라가 새로운 장면을 촬영하는 첫 번째 장면이라고 생각할 수 있습니다. 예를 들어 INT입니다. - RESTAURANT - NIGHT는 밤에 레스토랑 내부에서 장면이 시작됨을 나타냅니다. 슬러그라인은 일반적으로 대문자로 작성되며 왼쪽 정렬됩니다.
캐릭터 이름 - 캐릭터가 대화를 할 때마다 언급됩니다. 각 문자의 이름은 대문자로 기재되며 가운데 정렬됩니다.
대화 - 대화는 등장인물이 말하는 대사입니다. 스크립트에서 캐릭터 이름 바로 뒤에 나타나며 중앙에 정렬됩니다.
액션 라인 - 액션 라인은 장면에 대한 거의 모든 것을 설명합니다. 각 스크립트의 내레이션으로 설명할 수 있습니다. 액션 라인은 대화나 슬러글라인 뒤에 나타날 수 있으며 왼쪽 정렬됩니다.
전환 - 전환은 한 장면에서 다음 장면으로의 변경을 표시합니다. 또한 장면이 어떻게 끝나는지도 묘사합니다. 예를 들어 DISSOLVE, FADE 및 CUT은 전환을 나타내는 데 사용되는 서로 다른 키워드입니다. 일반적으로 대문자이며 오른쪽 정렬됩니다.
그림 8은 시나리오 요소의 예를 보여줍니다.
시간이 지나면서 스토리를 만드는 데 도움이 되는 다양한 템플릿이 개발되었습니다. 가장 유명한 템플릿 중 하나는 3막 구조이다(Field, 1979). 이 구조는 이야기를 설정, 대결, 해결로 나눕니다. 이 작업에서는 지금 자세히 설명하는 4막 구조를 사용했습니다.
액트 1 - 오프닝/소개 액트입니다. 주인공의 성격을 설명하고 영화의 주제를 간략하게 소개합니다. 이 행위는 주인공의 새로운 여정의 시작으로 끝납니다.
액트 2A - 액트 2의 범위가 넓기 때문에 두 개의 액트로 나눌 수 있습니다. 이 막에는 일반적으로 러브 스토리의 시작이 포함됩니다. 또한 주인공이 새로운 여정에 적응하려고 노력하는 모습이 관객들에게 즐거움을 선사합니다. 이 행위는 영화의 중요한 순간 중 하나인 영화의 중간 지점에서 매우 긍정적이거나 부정적인 장면으로 끝납니다.
액트 2B - 이 액트는 일반적으로 주인공의 몰락을 담고 있습니다. 악당이나 적대자는 이점을 얻기 시작하고, 주인공은 중요한 무언가나 누군가를 잃습니다. 이 행위는 주인공이 바닥에 도달한 후 새로운 임무를 깨닫는 것으로 끝납니다.
3막 - 주인공은 자신에게 필요한 변화를 깨닫고 스릴 넘치는 피날레에서 적대자를 물리치기 위해 나선다. 그리고 영화는 초반에는 부족했던 주인공의 반가운 변화를 보여주면서 끝난다.
GPT-3는 지난해 OpenAI에 의해 공개적으로 이용 가능한 것으로 간주되었습니다(Brown et al., 2020). 최고의 모델에는 175B 매개변수가 있으며 이는 GPT2의 2.9B 매개변수보다 훨씬 많습니다. 우리는 장면 생성 모델과 함께 GPT-3을 사용하여 다중 플롯 생성 모델을 미세 조정했습니다. 플롯 생성 모델의 다양한 조합은 짧거나 긴 프롬프트이며 장르가 있거나 없습니다. GPT-3 모델과 하이퍼파라미터는 위의 모든 조합에 대해 동일하게 유지됩니다. 우리는 네 가지 시대에 대해 GPT-3 퀴리 모델을 미세 조정했습니다. 텍스트 생성을 위해 GPT-3는 원하는 결과에 더 가깝게 조정하고 얻을 수 있는 다양한 하이퍼매개변수를 제공합니다. 테스트를 위해 다른 하이퍼파라미터를 다음과 같이 설정했습니다. 온도는 0.7, top-p는 1, 빈도 페널티는 0.1, 존재 페널티는 0.1, 최대 토큰 수는 900입니다.
이 문서는 CC 4.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다.