Autores:
(1) Prerak Gandhi, Departamento de Ciência da Computação e Engenharia, Instituto Indiano de Tecnologia de Bombaim, Mumbai, prerakgandhi@cse.iitb.ac.in, e esses autores contribuíram igualmente para este trabalho;
(2) Vishal Pramanik, Departamento de Ciência da Computação e Engenharia, Instituto Indiano de Tecnologia de Bombaim, Mumbai, vishalpramanik,pb@cse.iitb.ac.in, e esses autores contribuíram igualmente para este trabalho;
(3) Pushpak Bhattacharyya, Departamento de Ciência da Computação e Engenharia, Instituto Indiano de Tecnologia de Bombaim, Mumbai.
Para a geração de enredos de filmes, pegamos os enredos da Wikipedia. As instruções para esta tarefa foram retiradas da IMDb. Na IMDb, esse prompt pode ser de dois tipos. A primeira é uma breve descrição (15 a 40 palavras) do filme, enquanto a segunda é um longo enredo, que varia de 30 a 200 palavras e contém muito mais detalhes sobre os diferentes personagens e eventos do filme. Também coletamos os gêneros de cada filme da IMDb. Em seguida, dividimos as parcelas usando uma estrutura de 4 atos. Para geração de cenas, pegamos os scripts do IMSDb e os anotamos com os elementos-chave de uma cena.
Criamos um conjunto de dados de 1.000 gráficos que consistem em gráficos de Bollywood e Hollywood, extraídos da Wikipedia usando o módulo wikipedia em python. Os enredos coletados têm em média cerca de 700 palavras.
Anotamos os gráficos dividindo-os manualmente em 4 partes usando a estrutura de 4 atos descrita no apêndice A.5. Colocamos uma única etiqueta no final de cada ato: 〈um〉 (Ato 1), 〈dois-a〉 (Ato 2 Parte A), 〈dois-b〉 (Ato 2 Parte B) e 〈três〉 (Ato 3) ) como delimitadores. Um exemplo de anotação de plotagem é fornecido no apêndice (Figura 6).
Para trazer alguma controlabilidade aos enredos gerados pelo modelo, introduzimos os gêneros dos filmes no conjunto de dados junto com o enredo. Concatenamos os gêneros no início do enredo. A Figura 2 mostra as distribuições dos gêneros no conjunto de dados.
Os roteiros de filmes são muito longos. Um filme de 2 horas corresponde a cerca de 30.000 palavras. Os modelos de linguagem usados para geração de texto criativo, como GPT-2 e GPT-3, têm limites de token de 1.024 e 2.048, respectivamente, tornando impossível lidar com um script inteiro de uma só vez. Assim, dividimos os roteiros em cenas e criamos manualmente suas breves descrições. Isso permite treinar as cenas de forma independente, em vez de depender de cenas anteriores.
Os roteiros de filmes são compostos por vários elementos descritos no apêndice A.4. Os diferentes elementos aumentam a dificuldade que os modelos enfrentam em aprender a distinguir cada elemento. Para superar esse obstáculo, marcamos quatro elementos principais ao longo do roteiro – sluglines, linhas de ação, diálogos e nomes de personagens.
Mantemos os quatro principais elementos presentes em cada roteiro – sluglines, linhas de ação, nome do personagem e diálogos – e removemos qualquer outro tipo de informação, como número de página, transições ou datas de cena. A marcação dos quatro elementos principais é feita usando tags iniciais e finais que envolvem os elementos, conforme mostrado abaixo:
• Sluglines: 〈bsl〉...〈esl〉
• Linhas de Ação: 〈bal〉...〈eal〉
• Nome do personagem: 〈bcn〉...〈ecn〉
• Diálogo:〈bd〉...〈ed〉
Um exemplo de cena anotada é visto na Figura 3.
Este artigo está disponível no arxiv sob licença CC 4.0 DEED.