使用这个矩阵,现在可以使用其中出现频率最高的单词来描述各个主题。但是,该函数通过返回主题中最常见的单词来简化此任务,从而可以通过传递适当的参数自由选择输出的单词数和相应的主题。但是,由于该函数不仅呈现单词本身,还呈现它们的频率,因此可以很容易地使用这些数据为模型中的每个主题创建 n 个最常见单词的词云。特别是因为 R 有各种用于创建词云的包。这包括这里使用的包»wordcloud«。通过简单地迭代主题数量,为每个单独的主题创建一个包含 150 个最常出现的单词的词云,并以 .png 格式保存在本地硬盘上。 (图 1-3)
词云在数字人文学科领域中经常出现。尤其由于这种部分通货膨胀(关键词:Wordl)和部分反映不充分的使用(关键词:tokenizer),词云的使用可以受到批判地看待。特别是在主题建模的情况下,词云似乎是一个有用的工具,可以测试生成的主题是否可以被认为有意义,如果是,则可以估计哪个主题复合体可以用主题来描述。
就主题定位问题或整个语料库中每个单独主题的频率问题而言,此功能被证明 阿根廷电报数据 是极其有用的。这将返回一个矩阵,其行包含文档,其列包含主题。该矩阵的字段反过来包含一个值,该值提供有关在文档中找到某个主题的概率程度的信息。有 634 篇文档(这些是 81 封信件的文本,每 200 个单词拆分一次)和 115 个主题,因此形成了一个有 634 行、115 列和 72,910 个字段的矩阵。现在可以使用 R 包 »heatmap.2«(以及其它工具)以热图的形式对该矩阵进行可视化。 (图4-5)
如果本文的标题宣布了一项图灵测试,那么当然必须进行一项测试,即使副标题已经相当清楚地表明,图灵测试这个术语更多的是用于更广泛地比较人类和机器对大量文本进行内容分析的方法的代码,而不是具体的图灵测试本身。
5.1 人类关键词与机器标签
这种具体的测试可以采取向许多人展示编辑创建的关键字列表或机器生成的关键字(标签)列表的形式。然后,测试对象必须决定他们所面对的是人类产品还是人工智能产品。当然,机器关键词一定不是人类对自动生成的主题的解释浓缩成一个个单词,而必须是由机器直接生成的。这样的列表可以包含每个主题最常用的单词,可以使用 Mallet 函数轻松创建。然而,仅通过直接将从自动生成的标签列表中任意选择的十个关键词与人类定义的十个关键词进行比较,就会发现机器在没有进一步的人为干预的情况下,赢得这场图灵测试的机会并不大。
表 2:关键词和标签
人类[33] 機械[34]
人事问题 学习
邪教 班级
中学 皇后
小学 发音
国籍问题 享有
主教会议 本来
特兰西瓦尼亚 精神
语音请求 社区
行政 学校
大学 选择
在这个例子中,我们已经可以在形式层面上判断它是人类还是机器,甚至不需要考虑这些词的语义。虽然人类指定的关键词都是名词,但机器生成的标签还包括其他类型的语音,例如动词形式»hätten«,它也以变位形式出现,而不是以不定式出现。此外——这可能更加明显——标签始终用小写字母书写。
然而,这些正式的问题可以得到解决——也可以利用现有的数据。例如,可以省去以专属小写字母形式进行的规范化,并且基于大小写单词的区别,只有以大写字母开头的单词才会被纳入主题建模的数据材料中,假设这些单词主要是名词。但即使只考虑标签中的名词,并且这些名词始终大写,只要人类和机器关键词描述历史文本语料库,就可以根据机器关键词中的历史拼写来区分。众所周知,机器只能使用语料库中实际存在的词汇来生成标签。除非(这只是一个侧注),有人试图将这个词汇表(或者只是从这个词汇表生成的标签)链接到一个能够了解和抽象词义的资源上,为此 可以使用 GermNet [35] 。
但也可以相对快速地识别出人工生成的关键词和机器生成的标签的语义和内容质量方面的差异。关键词通常指的是抽象概念,而标签通常指的是其具体表现形式。在上表中,可以从关键词“行政”和标签“市镇”中看到这一点。但在这里,GermaNet 也可以帮助使机器标签“人性化”。
5.2 语义可加载主题
上面隐含的“管理”和“社区”的等式,坦率地说,在没有了解构成该主题的其他词汇的情况下,是大胆的。然而,词云显示,在这一具体案例中,这种说法并非完全没有根据(图6):