Page 1 of 1

挑战:经济因素

Posted: Wed Jan 29, 2025 4:11 am
by suchona.kani.z
研究人员更详细地研究了这一方面,并​​得出结论,法学硕士也受到所谓的“序列位置效应”的影响。这种效应已在大量实证研究中被发现,并表明在一系列连续的项目中,人们往往更好地记住第一个和最后一个项目,而更难回忆起中间的项目。

下图再次说明了这一点。在这里,不同的法学硕士或语言模型针对不同的文档输入长度进行了检查。为此,他们使用“问题和答案”用例并创建了一个测试数据集,在该数据集中,他们为每个问题构建了正确答案,其中最多包含 n 个不相关的文本部分,但没有正确答案。在这个实验中,研究人员证明,当正确答案位于输入文本的中间时,准确性很差,而当正确答案位于输入文本的最前面时,准确性特别好。

研究人员怀疑这是由于模型架构(基于与当前法学硕士相同的 Transformer 架构)和调整造成的。从这些实证研究中,研究人员得出结论,法学硕士的更大背景窗口在使用输入时并不会带来更好的结果。由此我得出的 医疗邮件列表 结论是,与像 Luminous 这样的 2,048 个令牌的上下文窗口相比,像 Claude 这样的 100,000 个令牌的上下文窗口不会带来更好的综合属性。因此,这意味着在每种情况下都需要减少输入以获得更好的总结。这就提出了一个问题:最佳文本长度是多少?


当文本上下文较长时法学硕士的性能损失,摘自 Liu et al (2023),Lost in the Middle: How Language Models Use Long Contexts

不同的方法旨在滑动摘要或通过更精确的提示来完善规范。滑动摘要是文本部分 A 部分的摘要,以便随后将其纳入文本部分 B 部分的摘要中,并再次与其他文本部分组合。希望上下文能够被保留。

作为一个例子,我想总结一篇专业文章(参见图 4)并将其分解(作为示例!)分为三个部分:A 部分(参见下面标记为蓝色的部分)、B 部分(参见下面标记为绿色的部分)和部分C(见下面红色标记)。


图 4:Do Khac 等人 (2022) 的章节,法律与“权利”之间的紧张关系示例摘要

我将这些文本部分输入到机器摘要中(参见图 5 中的“提示”),并将中间摘要(参见图 5 中的“摘要”)拖到下一个摘要中。


图 5:摘要作业的 R 控制台输出

通过这种方法,可以假设代币数量非线性增加,并且成本与之相关。在具有许多事件的业务应用程序中,这可能成为一个重要的成本因素。我试图在下表中说明这一点。在这里,我们看到了三个迭代,每个迭代都使用滑动提示(参见上图)和非滑动提示进行推断。尽管我没有对其进行标准化(这肯定会更清晰但不太现实),但您可以看到滑动提示在第二次迭代中添加了 33 个额外标记,在第三次迭代中添加了 150 个额外标记。可以使每个摘要的标记保持稳定,但这不会添加更多信息。我的结论是,这种方法会导致成本非线性增加。

代币提升概述
滑动提示 不滑动提示
第395章 第395章
442 (33) 409
520 (150) 370
迭代编号
1
2
3
挑战:处理时间和幻觉
从上一节你已经可以猜到,滑动摘要不仅可能会很快变得更加昂贵,而且还会带来最大的处理速度。由于每个总结都必须被接管到下一个工作步骤中,因此并行化实际上是不可能的。要总结的文本越长,可能的迭代次数就越多,这反过来又增加了总体运行时间。