作者:
(1) Prerak Gandhi,印度理工学院孟买分校计算机科学与工程系,prerakgandhi@cse.iitb.ac.in,上述作者对本文的贡献相同;
(2)Vishal Pramanik,印度理工学院孟买分校计算机科学与工程系,vishalpramanik,pb@cse.iitb.ac.in,上述作者对本文的贡献相同;
(3) Pushpak Bhattacharyya,印度理工学院孟买分校计算机科学与工程系
对于电影情节生成,我们从 Wikipedia 中获取情节。此任务的提示来自 IMDb。在 IMDb 中,此提示有两种类型。第一种是电影的简短描述(15-40 个字),而第二种是长篇故事情节,长度从 30-200 个字不等,包含有关电影中不同角色和事件的更多细节。我们还从 IMDb 收集了每部电影的类型。然后,我们使用 4 幕结构划分情节。对于场景生成,我们从 IMSDb 获取脚本,并使用场景的关键元素对其进行注释。
我们创建了一个包含 1000 个情节的数据集,这些情节包括宝莱坞和好莱坞情节,这些情节是使用 Python 中的 wikipedia 模块从维基百科中提取的。收集到的情节平均长度约为 700 个字。
我们使用附录 A.5 中描述的 4 幕结构手动将情节分为 4 个部分,从而对情节进行注释。我们在每个情节的末尾放置一个标签:〈one〉(第 1 幕)、〈two-a〉(第 2 幕 A 部分)、〈two-b〉(第 2 幕 B 部分)和〈three〉(第 3 幕)作为分隔符。附录中给出了情节注释的示例(图 6)。
为了使模型生成的情节更具可控性,我们在数据集中引入了电影的类型以及故事情节。我们在故事情节的开头将类型串联起来。图 2 显示了数据集中类型的分布。
电影剧本很长。一部 2 小时的电影大约有 30,000 个单词。用于创意文本生成的语言模型(如 GPT-2 和 GPT-3)的 token 限制分别为 1024 和 2048,因此不可能一次性处理整个剧本。因此,我们将剧本分为多个场景,并手动创建它们的简短描述。这样就可以独立训练场景,而不必依赖任何先前的场景。
电影剧本由附录 A.4 中描述的多个元素组成。不同的元素增加了模型在学习区分每个元素时面临的难度。为了克服这一障碍,我们在整个剧本中标记了四个主要元素——台词、动作台词、对话和角色名称。
我们保留每个剧本中的四个主要元素——标题行、动作行、角色名称和对话——并删除任何其他类型的信息,例如页码、过渡或场景日期。四个主要元素的标记是使用环绕元素的开始和结束标签完成的,如下所示:
• 标题行:〈bsl〉...〈esl〉
• 动作线:〈bal〉...〈eal〉
• 角色名称:〈bcn〉...〈ecn〉
• 对话:〈bd〉...〈ed〉
图 3 显示了带注释的场景的示例。