Autores:
(1) Prerak Gandhi, Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología de Bombay, Mumbai, prerakgandhi@cse.iitb.ac.in, y estos autores contribuyeron igualmente a este trabajo;
(2) Vishal Pramanik, Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología de Bombay, Mumbai, vishalpramanik,pb@cse.iitb.ac.in, y estos autores contribuyeron igualmente a este trabajo;
(3) Pushpak Bhattacharyya, Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología de Bombay, Mumbai.
Hemos tomado todos los scripts de las bases de datos IMDB e IMSDb. El sitio web tiene un descargo de responsabilidad sobre el uso de sus scripts para investigación, que se puede encontrar en este enlace https://imsdb.com/disclaimer.html. Hemos utilizado los scripts de manera justa y sin violar los derechos de autor.
Requerimos la ayuda de anotadores externos en dos casos: (i) Anotar manualmente los guiones y (ii) Crear escenas y sus descripciones a partir de los guiones. Para la primera tarea, contamos con la ayuda de 10 anotadores. Sus edades oscilaban entre 21 y 28 años y todos eran asiáticos. Se les dieron pautas detalladas con ejemplos para anotar. También hubo sesiones periódicas para confirmar su comprensión y resolver sus dudas y errores. Para la segunda tarea, contamos con la ayuda de dos anotadores. Ambas son mujeres asiáticas de entre 21 y 23 años. A ambos se les dieron pautas detalladas para la tarea de escritura de escenas. Se seleccionaron al azar algunos puntos de datos y se verificaron para descubrir y corregir errores conceptuales. Los anotadores tenían licenciaturas y maestrías en STEM y Artes.
Las métricas de evaluación se describen a continuación:
• Perplejidad (PPL): La perplejidad es una de las métricas más comunes para evaluar modelos de lenguaje. Se calculan como exponenciales de entropía. Cuanto menor sea el valor del PPL, mayor será la fluidez del texto generado.
• BLEU: E valuación bilingüe La subestudiación es una métrica común en muchas tareas de PNL, especialmente en el campo de la traducción automática. Mide la superposición entre la producción generada y los datos del patrón oro. Aunque esta métrica no considera la creatividad del modelo, podemos deducir la diferencia entre el texto candidato y el texto de referencia usando BLEU. Cuanto mayor sea la medida BLEU, mejor será.
• ROUGE: Suplemento orientado al recuerdo para la evaluación general se utiliza normalmente para evaluar el resumen automático. En nuestro caso, mide la secuencia superpuesta más larga entre las tramas generadas y originales. Cuanto mayor sea la medida ROUGE, mejor será.
• N-gramas: medimos la redundancia y diversidad de las tramas de la película calculando las puntuaciones de n-gramas de repetición y distinción.
Un guión de película o un guión tiene un formato diferente al de una historia. Un guión es un conjunto de escenas. Cada una de estas escenas consta de algunos componentes principales, que se analizan a continuación:
Encabezados de escena/Sluglines: este componente describe el cuándo y el dónde de la escena. Se puede considerar como la primera toma que toma una cámara de una nueva escena. Por ejemplo, INT. - RESTAURANTE - NOCHE indica que la escena comienza dentro de un restaurante por la noche. Las sluglines normalmente se escriben en letras mayúsculas y están alineadas a la izquierda.
Nombres de personajes : se mencionan cada vez que un personaje va a pronunciar un diálogo. El nombre de cada personaje se menciona en mayúsculas y está alineado al centro.
Diálogos : los diálogos son las líneas que dicen los personajes. Aparecen justo después del nombre del personaje en un guión y están alineados centralmente.
Líneas de acción : las líneas de acción describen casi todo lo relacionado con una escena. Se pueden describir como la narración de cada guión. Las líneas de acción pueden estar presentes después de diálogos o sluglines y están alineadas a la izquierda.
Transiciones : una transición marca el cambio de una escena a la siguiente. También representan cómo termina una escena. Por ejemplo, DISOLVE, FADE y CUT son palabras clave diferentes que se utilizan para indicar una transición. Suelen estar en mayúsculas y alineados a la derecha.
La Figura 8 muestra un ejemplo de los elementos del guión.
Con el tiempo se han desarrollado diversas plantillas que ayudan a crear historias. Uno de los modelos más famosos es la estructura de 3 actos (Field, 1979). Esta estructura divide una historia en un escenario, una confrontación y una resolución. En este trabajo hemos utilizado la estructura de 4 actos que ahora describimos en detalle.
Acto 1 : este es el acto de apertura/introducción. Describe el personaje del protagonista e introduce brevemente el tema de la película. El acto finaliza con el inicio de un nuevo viaje para el protagonista.
Acto 2A : debido a la gran extensión del Acto 2, se puede dividir en dos actos. Este acto suele contener el inicio de una historia de amor. También entretiene al público mientras el protagonista intenta adaptarse a su nuevo viaje. El acto termina como el punto medio de la película, uno de los momentos críticos de la película, con una escena muy positiva o negativa.
Acto 2B : este acto suele contener la caída del protagonista. El villano o antagonista comienza a obtener ventaja y el protagonista pierde algo o alguien importante. El acto finaliza con el protagonista dándose cuenta de su nueva misión tras tocar fondo.
Acto 3 : el protagonista se ha dado cuenta del cambio que requiere y se propone derrotar al antagonista en un final emocionante. Luego, la película termina mostrando un cambio bienvenido en el protagonista que faltaba al principio.
OpenAI consideró que GPT-3 estaba disponible públicamente el año pasado (Brown et al., 2020). Su mejor modelo tiene 175B de parámetros, que es mucho más que los 2,9B de parámetros de GPT2. Hemos ajustado múltiples modelos de generación de tramas con GPT-3 junto con un modelo de generación de escenas. Las múltiples combinaciones de modelos de generación de tramas son indicaciones cortas o largas y con o sin géneros. El modelo GPT-3 y los hiperparámetros siguen siendo los mismos para todas las combinaciones anteriores. Hemos ajustado el modelo GPT-3 Curie durante cuatro épocas. Para generar texto, GPT-3 ofrece varios hiperparámetros para ajustar y acercarnos a los resultados deseados. Para las pruebas, configuramos otros hiperparámetros de la siguiente manera: la temperatura en 0,7, top-p en 1, penalización de frecuencia en 0,1, penalización de presencia en 0,1 y tokens máximos en 900.
Este documento está disponible en arxiv bajo licencia CC 4.0 DEED.