Autores:
(1) Prerak Gandhi, Departamento de Ciência da Computação e Engenharia, Instituto Indiano de Tecnologia de Bombaim, Mumbai, prerakgandhi@cse.iitb.ac.in, e esses autores contribuíram igualmente para este trabalho;
(2) Vishal Pramanik, Departamento de Ciência da Computação e Engenharia, Instituto Indiano de Tecnologia de Bombaim, Mumbai, vishalpramanik,pb@cse.iitb.ac.in, e esses autores contribuíram igualmente para este trabalho;
(3) Pushpak Bhattacharyya, Departamento de Ciência da Computação e Engenharia, Instituto Indiano de Tecnologia de Bombaim, Mumbai.
Pegamos todos os scripts dos bancos de dados IMDB e IMSDb. O site possui um aviso de isenção de responsabilidade quanto ao uso de seus scripts para pesquisa, que pode ser encontrado neste link https://imsdb.com/disclaimer.html. Usamos os scripts de forma justa e sem violação de direitos autorais.
Foi necessária a ajuda de anotadores externos em dois casos: (i) Anotando manualmente os scripts e (ii) Criando cenas e suas descrições a partir dos scripts. Para a primeira tarefa, contamos com a ajuda de 10 anotadores. Suas idades variavam de 21 a 28 anos e todos eram asiáticos. Eles receberam orientações detalhadas com exemplos para anotação. Também ocorreram sessões periódicas para confirmar seu entendimento e solucionar suas dúvidas e erros. Para a segunda tarefa, contamos com a ajuda de dois anotadores. Ambas são mulheres asiáticas com idades entre 21 e 23 anos. Ambos receberam orientações detalhadas para a tarefa de escrever a cena. Alguns pontos de dados foram escolhidos aleatoriamente e verificados para descobrir e corrigir erros conceituais. Os anotadores tinham bacharelado e mestrado em STEM e Artes.
As métricas de avaliação são descritas abaixo:
• Perplexidade (PPL): A perplexidade é uma das métricas mais comuns para avaliar modelos de linguagem. Eles são calculados como exponencial da entropia. Quanto menor o valor do PPL, maior será a fluência do texto gerado.
• BLEU: avaliação bilíngue O subestudo é uma métrica comum em muitas tarefas de PNL, especialmente na área de tradução automática. Ele mede a sobreposição entre a produção gerada e os dados do padrão ouro. Embora esta métrica não considere a criatividade do modelo, podemos deduzir a diferença entre o texto candidato e o texto de referência utilizando o BLEU. Quanto maior for a medida BLEU, melhor será.
• ROUGE: R ecall- Oriented Understudy para avaliação de G isting é normalmente usado para avaliar a sumarização automática. No nosso caso, mede a sequência de sobreposição mais longa entre os gráficos gerados e originais. Quanto maior a medida ROUGE, melhor será.
• N-gramas: Medimos a redundância e a diversidade dos enredos do filme calculando as pontuações de repetição e distinção de n-gramas.
O roteiro de um filme ou roteiro tem um formato diferente de uma história. Um roteiro é um grupo de cenas. Cada uma dessas cenas consiste em alguns componentes principais, que são discutidos abaixo:
Títulos/sluglines de cena - Este componente descreve quando e onde da cena. Pode ser pensado como a primeira foto que uma câmera tira de uma nova cena. Por exemplo, INT. - RESTAURANTE - NOITE indica que a cena começa dentro de um restaurante à noite. Sluglines são normalmente escritos em letras maiúsculas e alinhados à esquerda.
Nomes de Personagens - são mencionados toda vez que um personagem vai proferir um diálogo. O nome de cada personagem é mencionado em letras maiúsculas e alinhado ao centro.
Diálogos - os diálogos são as falas que os personagens dizem. Eles aparecem logo após o nome do personagem em um script e são alinhados centralmente.
Linhas de Ação – as linhas de ação descrevem quase tudo sobre uma cena. Eles podem ser descritos como a narração de cada roteiro. As linhas de ação podem estar presentes após diálogos ou sluglines e são alinhadas à esquerda.
Transições – uma transição marca a mudança de uma cena para outra. Eles também retratam como uma cena termina. Por exemplo, DISSOLVE, FADE e CUT são palavras-chave diferentes usadas para indicar uma transição. Eles geralmente estão em letras maiúsculas e alinhados à direita.
A Figura 8 mostra um exemplo dos elementos do roteiro.
Com o tempo foram desenvolvidos vários modelos que ajudam a criar histórias. Um dos modelos mais famosos é a estrutura de 3 atos (Field, 1979). Essa estrutura divide uma história em configuração, confronto e resolução. Neste trabalho, usamos a estrutura de 4 atos que descrevemos agora em detalhes.
Ato 1 - Este é o ato de abertura/apresentação. Descreve o personagem do protagonista e apresenta brevemente o tema do filme. O ato termina com o início de uma nova jornada do protagonista.
Ato 2A - Devido à vasta extensão do Ato 2, ele pode ser dividido em dois atos. Este ato geralmente contém o início de uma história de amor. Também diverte o público enquanto o protagonista tenta se adaptar à sua nova jornada. O ato termina no meio do filme, um dos momentos críticos do filme, com uma cena muito positiva ou negativa.
Ato 2B – Este ato geralmente contém a queda do protagonista. O vilão ou antagonista passa a ganhar vantagem, e o protagonista perde algo ou alguém significativo. O ato termina com o protagonista realizando sua nova missão após chegar ao fundo do poço.
Ato 3 — O protagonista percebeu a mudança necessária e se propõe a derrotar o antagonista em um final emocionante. O filme termina mostrando uma mudança bem-vinda no protagonista que faltava no início.
O GPT-3 foi considerado publicamente disponível no ano passado pela OpenAI (Brown et al., 2020). Seu melhor modelo possui parâmetros de 175B, muito mais do que os parâmetros de 2,9B do GPT2. Ajustamos vários modelos de geração de plotagem com GPT-3 junto com um modelo de geração de cena. As múltiplas combinações de modelos de geração de enredo são prompts curtos ou longos e com ou sem gêneros. O modelo GPT-3 e os hiperparâmetros permanecem os mesmos para todas as combinações acima. Ajustamos o modelo GPT-3 Curie para quatro épocas. Para gerar texto, o GPT-3 oferece vários hiperparâmetros para ajustar e chegar mais perto dos resultados desejados. Para testes, definimos outros hiperparâmetros da seguinte forma: temperatura como 0,7, top-p como 1, penalidade de frequência como 0,1, penalidade de presença como 0,1 e máximo de tokens como 900.
Este artigo está disponível no arxiv sob licença CC 4.0 DEED.