法学硕士 (LLM) 如何运作?
早期的 LLM,比如 GPT-1,在生成几句话之后就会崩溃并开始生成无意义的内容,但今天的 LLM,比如 GPT-4o,可以生成数千个有意义的单词。
为了达到这一点,LLM 接受了大量数据的训练。具体细节在不同的 LLM 之间略有不同——取决于开发人员是否认真获取他们所用材料的版权——但一般来说,你可以假设他们接受过整个公共互联网、每本出版过的书籍、报纸和杂志以及早期人工智能模型的合成输出等训练。这就是为什么 LLM 可以在如此广泛的主题上生成听起来如此权威的文本。
通过这些训练数据,LLM 能够使用高维向量来模拟不同单词(或者实际上是单词的片段,称为标记)之间的关系。这一切都变得非常复杂和数学化,但基本原理是每个单独的标记最终都会有一个唯一的 ID,并且相似的概念会分组在一起。然后用它来生成神经网络,这是一种基于人脑工作方式的多层算法——这是每个 LLM 的核心。
尝试 Zapier 的 AI 功能
探索人工智能如何赋予您自动化超能力。
开始使用
神经网络有一个输入层、一个输出层和多个隐藏层,每个隐藏层都有多个节点。这些节点计算输入后应该跟哪些词,不同的节点有不同的权重。例如,如果输入字符串包含单词“Apple”,神经网络将不得不决定是跟进“Mac”或“iPad”,“pie”或“crumble”,“by Charli XCX”,还是其他完全不同的东西。当我们谈论 LLM 有多少个参数时,我们基本上是在比较底层神经网络中有多少层和节点。一般来说,节点越多,模型能够理解和生成的文本就越复杂。
LMM 甚至更加复杂,因为它们还必须合并来自其他模 韩国电报数据库 式的数据,但它们通常以相同的方式进行训练和构建。
当然,在开放的互联网上训练一个几乎没有任何指导的人工智能模型听起来就像噩梦。而且它可能也不会很有用,所以此时,LLM 会接受进一步的训练和微调,以引导它们生成安全有用的响应。其中一种主要方法是调整不同节点的输入和输出的权重,尽管它还有其他方面。
所有这些都表明,虽然 LLM 是黑匣子,但其内部发生的事情并不神奇。一旦你了解了它们的工作原理,就很容易明白为什么它们如此擅长回答某些类型的问题。也很容易理解为什么它们倾向于编造(或产生幻觉)随机的东西。
什么是推理模型?
OpenAI o3 和 DeepSeek R1 等推理模型是经过训练使用思维链 (CoT) 推理生成响应的 LLM 。
当他们收到提示时,他们不会尽快回复,而是将问题分解为多个简单步骤并尝试解决它们。如果他们遇到问题,他们可以重新评估并从不同的角度解决问题。
DeepSeek 推理问题
这种推理需要更多的计算资源,但往往会产生更强大的人工智能模型。