Discuss Data

Posted: **Wed Jan 29, 2025 4:11 am**

研究人员更详细地研究了这一方面，并得出结论，法学硕士也受到所谓的“序列位置效应”的影响。这种效应已在大量实证研究中被发现，并表明在一系列连续的项目中，人们往往更好地记住第一个和最后一个项目，而更难回忆起中间的项目。

下图再次说明了这一点。在这里，不同的法学硕士或语言模型针对不同的文档输入长度进行了检查。为此，他们使用“问题和答案”用例并创建了一个测试数据集，在该数据集中，他们为每个问题构建了正确答案，其中最多包含 n 个不相关的文本部分，但没有正确答案。在这个实验中，研究人员证明，当正确答案位于输入文本的中间时，准确性很差，而当正确答案位于输入文本的最前面时，准确性特别好。

研究人员怀疑这是由于模型架构（基于与当前法学硕士相同的 Transformer 架构）和调整造成的。从这些实证研究中，研究人员得出结论，法学硕士的更大背景窗口在使用输入时并不会带来更好的结果。由此我得出的医疗邮件列表结论是，与像 Luminous 这样的 2,048 个令牌的上下文窗口相比，像 Claude 这样的 100,000 个令牌的上下文窗口不会带来更好的综合属性。因此，这意味着在每种情况下都需要减少输入以获得更好的总结。这就提出了一个问题：最佳文本长度是多少？

当文本上下文较长时法学硕士的性能损失，摘自 Liu et al (2023)，Lost in the Middle: How Language Models Use Long Contexts

不同的方法旨在滑动摘要或通过更精确的提示来完善规范。滑动摘要是文本部分 A 部分的摘要，以便随后将其纳入文本部分 B 部分的摘要中，并再次与其他文本部分组合。希望上下文能够被保留。

作为一个例子，我想总结一篇专业文章（参见图 4）并将其分解（作为示例！）分为三个部分：A 部分（参见下面标记为蓝色的部分）、B 部分（参见下面标记为绿色的部分）和部分C（见下面红色标记）。

图 4：Do Khac 等人 (2022) 的章节，法律与“权利”之间的紧张关系示例摘要

我将这些文本部分输入到机器摘要中（参见图 5 中的“提示”），并将中间摘要（参见图 5 中的“摘要”）拖到下一个摘要中。

图 5：摘要作业的 R 控制台输出

通过这种方法，可以假设代币数量非线性增加，并且成本与之相关。在具有许多事件的业务应用程序中，这可能成为一个重要的成本因素。我试图在下表中说明这一点。在这里，我们看到了三个迭代，每个迭代都使用滑动提示（参见上图）和非滑动提示进行推断。尽管我没有对其进行标准化（这肯定会更清晰但不太现实），但您可以看到滑动提示在第二次迭代中添加了 33 个额外标记，在第三次迭代中添加了 150 个额外标记。可以使每个摘要的标记保持稳定，但这不会添加更多信息。我的结论是，这种方法会导致成本非线性增加。

代币提升概述
滑动提示不滑动提示
第395章第395章
442 (33) 409
520 (150) 370
迭代编号
1
2
3
挑战：处理时间和幻觉
从上一节你已经可以猜到，滑动摘要不仅可能会很快变得更加昂贵，而且还会带来最大的处理速度。由于每个总结都必须被接管到下一个工作步骤中，因此并行化实际上是不可能的。要总结的文本越长，可能的迭代次数就越多，这反过来又增加了总体运行时间。

Discuss Data

挑战：经济因素

挑战：经济因素