Auteurs:
(1) Prerak Gandhi, Département d'informatique et d'ingénierie, Institut indien de technologie de Bombay, Mumbai, prerakgandhi@cse.iitb.ac.in, et ces auteurs ont contribué à parts égales à ce travail ;
(2) Vishal Pramanik, Département d'informatique et d'ingénierie, Institut indien de technologie de Bombay, Mumbai, vishalpramanik, pb@cse.iitb.ac.in, et ces auteurs ont contribué à parts égales à ce travail ;
(3) Pushpak Bhattacharyya, Département d'informatique et d'ingénierie, Institut indien de technologie de Bombay, Mumbai.
Pour la génération d’intrigues de films, nous avons extrait les intrigues de Wikipédia. Les invites pour cette tâche proviennent d'IMDb. Dans IMDb, cette invite peut être de deux types. Le premier est une brève description (15 à 40 mots) du film, tandis que le second est un long scénario, qui varie de 30 à 200 mots et contient beaucoup plus de détails sur les différents personnages et événements du film. Nous avons également rassemblé les genres de chaque film sur IMDb. Nous divisons ensuite les intrigues selon une structure en 4 actes. Pour la génération de scènes, nous prenons les scripts d'IMSDb et les annotons avec les éléments clés d'une scène.
Nous avons créé un ensemble de données de 1000 intrigues comprenant à la fois des intrigues de Bollywood et d'Hollywood, extraites de Wikipédia à l'aide du module wikipedia en python. Les intrigues collectées font en moyenne environ 700 mots.
Nous annotons les intrigues en les divisant manuellement en 4 parties en utilisant la structure en 4 actes décrite en annexe A.5. Nous plaçons une seule balise à la fin de chaque acte : 〈un〉 (Acte 1), 〈deux-a〉 (Acte 2 Partie A), 〈deux-b〉 (Acte 2 Partie B) et 〈trois〉 (Acte 3). ) comme délimiteurs. Un exemple d’annotation de tracé est donné en annexe (Figure 6).
Pour apporter une certaine contrôlabilité aux intrigues générées par le modèle, nous avons introduit les genres de films dans l'ensemble de données ainsi que le scénario. On enchaîne les genres dès le début du scénario. La figure 2 montre la répartition des genres dans l'ensemble de données.
Les scénarios de films sont très longs. Un film de 2 heures correspond à environ 30 000 mots. Les modèles de langage utilisés pour la génération de texte créatif, comme GPT-2 et GPT-3, ont des limites de jetons respectivement de 1 024 et 2 048, ce qui rend impossible la gestion d'un script entier en une seule fois. Par conséquent, nous avons divisé les scripts en scènes et créé manuellement leurs brèves descriptions. Cela permet d'entraîner les scènes indépendamment au lieu de s'appuyer sur des scènes précédentes.
Les scripts de films comprennent plusieurs éléments décrits à l'annexe A.4. Les différents éléments augmentent la difficulté rencontrée par les modèles pour apprendre à distinguer chaque élément. Pour surmonter cet obstacle, nous marquons quatre éléments majeurs tout au long du script : les sluglines, les lignes d'action, les dialogues et les noms des personnages.
Nous conservons les quatre éléments majeurs présents dans chaque script – sluglines, lignes d'action, nom du personnage et dialogues – et supprimons tout autre type d'information tel que le numéro de page, les transitions ou les dates de scène. Le balisage des quatre éléments principaux est effectué à l'aide de balises de début et de fin qui entourent les éléments, comme indiqué ci-dessous :
• Sluglines : 〈bsl〉...〈esl〉
• Lignes d'action : 〈bal〉...〈eal〉
• Nom du personnage : 〈bcn〉...〈ecn〉
• Dialogue :〈bd〉...〈ed〉
Un exemple de scène annotée est présenté sur la figure 3.
Cet article est disponible sur arxiv sous licence CC 4.0 DEED.