在这个已经挤满了科技巨头的领域，DeepSeek 于 2025 年初崛起，成为人工智能领域的一股变革力量。他们的突破导致英伟达股价在一天内暴跌 6000 亿美元，这是历史上任何公司市值损失最大的一天，引起了全球关注。虽然这种财务影响成为头条新闻，但真正的革命在于 DeepSeek 开创性的机器学习方法：R1 模型。

DeepSeek-R1 的基准性能 — 图片来自原始研究论文：*“DeepSeek-R1：通过强化学习激励 LLM 中的推理能力”*

他们在开创性的论文《DeepSeek-R1：通过强化学习激励法学硕士中的推理能力》中详细介绍了 DeepSeek-R1 的性能，并揭示了一些非凡之处。在标准语言模型基准上与 OpenAI 著名的 o1 系列进行测试时，DeepSeek-R1 不仅匹配，而且经常超越 GPT4-o1 等模型的性能，而计算成本仅为其一小部分。这一成就不仅表明了具有竞争力的性能，还代表了我们对开发人工智能方式的根本性反思。

是什么让它真正具有突破性？ DeepSeek-R1 的初始版本被称为 DeepSeek-R1-Zero，在没有任何监督微调的情况下进行训练，而这一步骤通常被认为是必不可少的。这一举措旨在看看推理是否能够自然而然地出现，纯粹由强化的激励驱动。事实证明，他们是对的。

DeepSeek-R1-Zero 展示了论文中所述的“非凡的推理能力”，甚至表现出自我纠正和反思等有趣的行为，所有这些都是通过强化学习过程学习的。在此基础上，DeepSeek-R1 通过多阶段训练流程进一步开发，在要求苛刻的推理任务上实现了与备受推崇的 OpenAI-o1-1217 相媲美的性能。此外，DeepSeek-AI 探索了如何将这些来之不易的推理技能提炼成更小的模型，使高级 AI 更容易获得。

这不仅仅是 LLM 领域的又一次渐进式改进，更是我们应对 AI 挑战方式的根本性转变。DeepSeek-R1 表明，我们可以超越简单地训练模型来识别数据中的模式，而是教它们以更像人类的方式主动推理、制定策略和解决问题。

在本文中，我们将深入探讨 DeepSeek-R1 的数学和方法核心。我们将介绍他们采用的强化学习技术，并探索导致这些令人印象深刻的结果的创新。

大型语言模型中的推理

本质上，他们正在教授模型如何表达推理，而不是如何实际执行推理行为本身。

强化学习 (RL) 正是在此应运而生，成为一种特别引人注目的替代方案，也是 DeepSeek-AI 在 DeepSeek-R1 中倡导的方法。正如他们在研究论文中所强调的那样，RL 提供了一个框架来直接激励我们与推理相关的行为。想象一下一个正在学习的孩子。他们不会只看到正确的答案，而是被赋予一项任务，当他们取得进步时会得到奖励，当他们偏离正轨时会回到正轨，并鼓励他们探索解决问题的不同途径。RL 为人工智能反映了这一过程。它使我们能够定义什么是“良好的推理”——可能是解决数学问题的准确性，或者一行代码的逻辑一致性——然后设计一个奖励系统，鼓励模型发现和改进自己的策略来实现这些目标。至关重要的是，RL 允许模型通过交互和实验进行学习，开发内部推理机制，这些机制不是简单地预先编程或从人类示例中复制而来，而是真正学习而来的。因此，DeepSeek-R1 不仅是向前迈出的又一步，而且是方向的转变，将强化学习置于其设计的核心，旨在构建不仅仅是信息存储库，而且是主动思考的问题解决者的 LLM。

DeepSeek-R1-Zero

要真正领略 DeepSeek-R1 的创新性，首先必须了解它的前身：DeepSeek-R1-Zero。该模型代表了一项大胆的实验。DeepSeek-AI 开始了一段旅程，仅通过强化学习来训练 DeepSeek-R1-Zero 进行推理，有意识地省略了任何初始的监督微调 (SFT)。

GRPO 算法：一种学习的数学框架

为了实现这一目标，DeepSeek-AI 采用了一种名为组相对策略优化 (GRPO)的特定强化学习算法。在强化学习中，效率至关重要，尤其是在处理大规模大型语言模型时。GRPO 的设计考虑到了这一点，提供了一种计算简化的策略优化方法。其核心是 GRPO 目标函数，这是一个指导学习过程的数学表达式：

群体相对策略优化公式 — 作者提供的图片

此公式的核心是更新模型的“策略”，用 𝜋𝜃 表示。将策略视为模型生成文本的策略，即决定接下来要输入什么单词的方式。𝜋𝜃𝑜𝑙𝑑 是来自上一个训练步骤的“旧”策略。我们需要它来确保更新是渐进且稳定的，防止模型在每一步中大幅改变其行为，这可能会导致混乱的学习。

术语 𝑞 ∼ 𝑃(𝑄) 表示我们正在向模型输入从一组可能的问题 P(Q) 中抽样的问题 q。这些是我们希望学生团队（模型）解决的问题。对于每个问题，我们要求旧策略生成一组答案 {𝑜𝑖}。这就像要求学生集思广益，想出解决问题的不同方法。

现在到了关键部分：奖励。术语 A_i 表示每个答案 o_i 的“优势”。此优势是根据每个答案收到的奖励计算的。在 DeepSeek-R1-Zero 中，奖励主要基于答案的准确性。如果答案正确，则获得高奖励；如果答案错误，则获得低奖励。优势

不仅仅是原始奖励 r_i，而是一个相对奖励。它将答案 o_i 的奖励与组中所有答案的平均奖励进行比较，并通过标准差对其进行归一化。这种归一化对于稳定训练很重要，因为它关注的是每组生成的答案中的相对改进，而不是绝对的奖励值。可以把它想象成在教室里按曲线评分；这不仅仅是在绝对意义上获得好分数，而是在与同龄人相比表现良好。

这部分是一种称为近端策略优化 (PPO) 剪辑的技术。比率

测量在新策略和旧策略之间生成答案 $o_i$ 的概率变化程度。我们希望更新策略以支持具有积极优势的答案（好答案），但我们希望谨慎行事。裁剪函数

限制该比率在单个更新步骤中可以改变的程度，防止过度激进的更新破坏学习的稳定性。这就像轻轻地推动学生朝着正确的方向前进，而不是强行推动他们。

最后，

是一个正则化项。

是 Kullback-Leibler (KL) 散度，用于衡量新策略 𝜋𝜃 与参考策略 𝜋𝑟𝑒𝑓 的差异。在这种情况下，参考策略可以是初始基础模型或之前的检查点。通过惩罚与参考策略的较大偏差，该术语鼓励模型保持接近其先前学习的行为，除非有强烈的理由进行更改。它有助于保持稳定性并防止模型忘记已经学到的内容。𝛽 是控制此正则化强度的超参数。

本质上，GRPO 通过迭代优化模型的策略来工作。对于每个问题，它会生成一组答案，根据奖励评估其质量，然后逐渐调整策略以增加未来生成更好答案的可能性，同时确保稳定且可控的学习。

准确性和格式奖励

对于 DeepSeek-R1-Zero，DeepSeek-AI 采用了基于规则的奖励系统，重点关注两个关键方面：准确性和格式。顾名思义，准确性奖励是在模型给出正确答案时给予的。确定正确性的方法因任务而异。对于数学问题，答案往往是确定性的，基于规则的系统可以可靠地验证以指定格式（如论文中提到的在框内）呈现的最终答案是否正确。同样，对于像 LeetCode 这样的编码挑战，可以使用编译器自动根据预定义的测试用例评估代码，提供有关正确性的客观反馈。这些准确性奖励是主要信号，直接激励模型寻找导致正确解决方案的策略。

然而，准确性本身并不够。为了引导模型不仅找到正确答案，而且找到更结构化、更易于解释的问题解决方法，DeepSeek-AI 引入了格式奖励。这些奖励鼓励模型明确地从最终答案中描述其推理过程。具体来说，模型被激励将其逐步思考封闭在 `<think>` 和 `</think>` 标签中，并在 `<answer>` 和 `</answer>` 标签中呈现最终答案，正如训练模板所规定的那样。这种格式并不是直接提高答案的正确性，而是使模型的推理过程更加透明和易于理解。这是一种对模型说的方式：“展示你的工作！解释你是如何得出答案的。”

这让我们看到了用于 DeepSeek-R1-Zero 的训练模板。为了启动 RL 过程并为模型的输出提供基本结构，DeepSeek-AI 使用了一个非常简单的模板。正如他们在论文中详述的那样，它本质上是一个对话提示：“用户：提示。助手：`<思考>` 推理过程在这里 `</思考>` `<答案>` 答案在这里 `</答案>`。”在训练期间，“提示”将被替换为特定的推理问题。这个模板非常简约。它没有规定任何特定的推理策略，不要求反思，也不偏爱特定的问题解决技巧。它的刻意简单是关键。通过仅施加这种结构约束（思考，然后回答），DeepSeek-AI 旨在观察模型的自然学习轨迹，见证从 RL 过程中有机出现的推理能力，不受“良好推理”应该是什么样子的先入为主的观念的束缚。

适应性思考时间

结果确实令人着迷。研究人员指出，DeepSeek-R1-Zero 完全通过强化学习进行训练，利用这些准确性和格式奖励以及这个简单的模板，开始表现出“非凡的推理能力”。最有趣的观察之一是模型“思考时间”的自我进化。随着训练的进行，DeepSeek-R1-Zero 学会了在面对更复杂的问题时分配更多的计算工作量，有效地“思考”更长时间。这不是预先编程的行为；它是通过强化学习过程自发产生的。该模型发现，对于某些具有挑战性的推理任务，生成更长的思维标记序列并探索更多的内部路径会带来更好的结果和更高的奖励。这是一个至关重要的见解：该模型不仅在模式识别方面变得更好；它正在开发一种更复杂、计算密集型的解决问题的方法。

“顿悟时刻”

也许最吸引人的发现是研究人员所称的“顿悟时刻”的自发出现。在训练 DeepSeek-R1-Zero 中级版本期间，模型表现出自我反省的能力，能够在推理过程中重新评估其最初解决问题的方法。论文中有一个特别具有说明性的例子，在解数学方程时，模型生成的响应包括以下短语“等一下，等一下。等一下。这是一个我可以在这里标记的顿悟时刻。”和“让我们一步一步重新评估一下……”。就好像模型不仅在解决问题，而且还在有意识地监控自己的思维过程，认识到潜在的失误，并决定回溯和重新考虑。这不仅仅是复杂的推理；它是元推理，关于思考的思考。这个“顿悟时刻”不仅是模型的突破；正如研究人员自己所描述的，这对他们来说也是一个“顿悟时刻”，有力地证明了强化学习具有在人工智能系统中解锁意想不到的深层智能水平的潜力。

DeepSeek-R1 和多阶段训练

虽然 DeepSeek-R1-Zero 是一个出色的概念验证，展示了从纯强化学习中产生推理的潜力，但它并非没有局限性。正如 DeepSeek-AI 研究人员在论文中承认的那样，DeepSeek-R1-Zero 面临着“可读性差”和“语言混合”等问题。为了解决这些实际问题，DeepSeek-AI 开发了 DeepSeek-R1，这是一种增强模型，通过精心设计的多阶段训练流程在 R1-Zero 的基础上构建而成。

DeepSeek-R1 的开发由两个关键问题驱动：

通过引入少量高质量数据作为“冷启动”，模型的推理性能是否可以进一步提高，或者训练过程是否可以加速？可以将其视为为我们杰出的数学家提供一些写得很好的数学证明示例，以指导他们自己的写作风格，而不是规定他们的数学思维。
他们如何训练一个模型，使它不仅是一个强大的推理机，而且是一个用户友好的模型，能够产生清晰、连贯且易于理解的推理过程？这些问题导致为 DeepSeek-R1 创建了一个四阶段训练流程，该流程旨在完善模型的原始推理能力及其有效传达推理的能力。

第一阶段：冷启动数据和初始微调

DeepSeek-R1 训练的第一阶段涉及创建“冷启动”数据集并使用它来微调 DeepSeek-V3-Base 模型。这种方法与 R1-Zero 有很大不同，后者从完全未经训练的状态开始 RL 训练。冷启动旨在：

从一开始就提高可读性：通过对精心编写的推理示例进行训练，模型被引导生成更加人性化的输出。
注入人类推理先验：数据集结合了人类衍生的推理模式，可能带来更好的性能和更快的学习速度。

冷启动数据集是通过几种方法创建的：

少量提示：提供详细推理过程的例子。
促使反思和验证：鼓励更加深思熟虑的推理方式。
R1-Zero 输出的细化：提高有机学习推理的可读性。
人工注释：确保数据质量和清晰度。

该数据集包含数千个示例，用于微调 DeepSeek-V3-Base 模型，为后续 RL 阶段创建初始参与者。微调后的输出具有清晰的结构：|special_token|<reasoning_process>|special_token|<summary>，显著提高了可读性并促进了一致的“可读模式”。

第二阶段：推理导向的强化学习

在冷启动微调的基础上，DeepSeek-R1 进入了大规模 RL 训练过程，重点是提高编码、数学、科学问题和逻辑谜题等任务中的推理能力。此阶段的一个关键挑战是思想链推理中的语言混合，尤其是在多语言提示的情况下。为了解决这个问题，DeepSeek-AI 引入了“语言一致性奖励”，以目标语言中单词的比例计算。虽然这可能会导致原始基准性能略有下降，但它显著提高了语言一致性和可读性。最终的奖励信号结合了准确性和语言一致性。这种 RL 训练持续进行，直到模型在目标推理任务上收敛。

第三阶段：拒绝抽样和监督微调（SFT）

此阶段将重点从纯粹的推理增强转移到更广泛的改进和用户友好性。第 2 阶段的 RL 训练检查点用于生成新的 SFT 数据。这些数据扩展了模型的技能组合，包括创意写作、角色扮演和通用任务。该过程涉及：

拒绝抽样：生成推理轨迹并拒绝那些不符合质量标准的轨迹，通过基于规则的奖励和生成奖励模型 (DeepSeek-V3) 进行判断。标准包括语言混合、过长的段落和混乱的代码块。
整合非推理数据：从 DeepSeek-V3 管道和数据集中提取数据，以保持写作、事实问题回答、自我认知和翻译等通用能力。一些非推理数据通过 CoT 提示通过隐性推理得到丰富。

约 800,000 个样本的综合数据集用于微调 DeepSeek-V3-Base 模型，进一步细化推理并拓宽通用能力。

第四阶段：全场景强化学习

最后阶段的目标是与人类偏好整体保持一致，不仅包括推理准确性和可读性，还包括有用性和无害性。使用各种提示和奖励信号实现了次要 RL 过程：

推理数据：继续使用基于规则的奖励，注重准确性。
一般数据：使用神经奖励模型来捕捉细微的人类偏好。
帮助性：奖励以最终总结为重点。
无害性：对整个回应的评价，包括推理和总结。

这个最后的 RL 阶段最终形成了 DeepSeek-R1，这是一个在优先考虑有用性、无害性和整体用户体验的同时，推理能力出色的模型。

提炼：将推理能力转移到更小的模型

创建越来越智能的大型语言模型的趋势导致了模型越来越大，增加了计算需求并阻碍了可访问性和效率。为了解决这个问题，DeepSeek-AI 采用了蒸馏技术，这是一种将知识从大型“教师”模型转移到较小的“学生”模型的技术。在 DeepSeek-R1 的背景下，目标是将其推理能力提炼为更易于管理的模型，以实现更广泛的可访问性。

蒸馏方法

DeepSeek-AI 的提炼方法简单而有效，利用了 DeepSeek-R1 的监督微调 (SFT) 阶段精选的 800,000 个高质量训练样本。该数据集包含推理和非推理示例，可作为较小“学生”模型的训练基础。

基础架构： Qwen 和 Llama 等开源模型由于其广泛的用途和强大的性能而被选为基础架构。
模型尺寸：这些基础模型的各种尺寸都经过了微调，包括 Qwen2.5-Math-1.5B、7B、14B、32B、Qwen2.5–14B、32B、Llama-3.1–8B 和 Llama-3.3–70B-Instruct。
训练方法：至关重要的是，仅使用 SFT 进行蒸馏，故意省略较小模型上的进一步强化学习 (RL)。这隔离了蒸馏技术本身的有效性。

蒸馏结果

蒸馏结果令人印象深刻。

最小模型性能：即使是最小的提炼模型 DeepSeek-R1-Distill-Qwen-1.5B，在各种基准测试中也优于 GPT-4o-0513 等较大的非推理模型。
更大的模型性能：更大的提炼模型取得了更显著的成果。DeepSeek-R1-14B 在所有评估指标上都超越了最先进的开源模型 QwQ-32B-Preview。DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准测试中都显著超过了 OpenAI-o1-mini 的性能。

这些结果证明了蒸馏在将 DeepSeek-R1 的推理能力转移到更小、更高效的模型方面的有效性。

与直接 RL 训练的比较

为了将蒸馏与直接强化学习训练进行比较，DeepSeek-AI 使用类似于 DeepSeek-R1-Zero 的大规模强化学习流程训练了 Qwen-32B-Base，重点关注数学、代码和 STEM 数据，从而生成模型 DeepSeek-R1-Zero-Qwen-32B。然后，将此模型与蒸馏后的模型 DeepSeek-R1-Distill-Qwen-32B 进行比较。

RL 训练模型性能：经过大量 RL 训练后，DeepSeek-R1-Zero-Qwen-32B 实现了与 QwQ-32B-Preview 相当的性能。
提炼模型的优势： DeepSeek-R1-Distill-Qwen-32B 在所有推理基准上的表现均显著优于 DeepSeek-R1-Zero-Qwen-32B。

效率和未来方向

通过这次比较，DeepSeek-AI 得出了两个关键结论：

蒸馏效率：蒸馏是一种非常有效的方法，可以为较小的模型注入强大的推理能力。直接从较大的模型迁移学习到的推理模式比仅通过强化学习在较小的模型中从头开始训练推理更有效（在所采用的规模上）。
人工智能的未来：虽然蒸馏提高了高性能推理模型的可访问性，但突破人工智能的界限可能仍需要开发更强大的基础模型并进一步探索大规模强化学习。蒸馏使当今的高级人工智能更容易获得，但追求更高的智能可能涉及扩展模型大小和强化学习等学习范式。

结论

DeepSeek-R1 在开发具有推理能力的 LLM 方面提供了引人注目的范式转变。通过将强化学习作为核心训练机制，DeepSeek-AI 表明推理可以直接学习和改进，而不是简单地作为规模的副产品出现。多阶段训练过程和随后的提炼的成功凸显了这种方法的强大功能。DeepSeek-R1 的方法为未来的研究提供了宝贵的蓝图，为构建更强大、真正智能的 AI 系统提供了有希望的方向。

DeepSeek-R1 背后的数学

大型语言模型中的推理

DeepSeek-R1-Zero

GRPO 算法：一种学习的数学框架

准确性和格式奖励

适应性思考时间

“顿悟时刻”

DeepSeek-R1 和多阶段训练

第一阶段：冷启动数据和初始微调

第二阶段：推理导向的强化学习

第三阶段：拒绝抽样和监督微调（SFT）

第四阶段：全场景强化学习

提炼：将推理能力转移到更小的模型

蒸馏方法

蒸馏结果

与直接 RL 训练的比较

效率和未来方向

结论

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗？

为什么算法并不总是能够控制我们发现伟大艺术的方式

DeepSeek 发布自己的 AI 图像生成器 Janus-Pro

通过小型语言模型尽可能简单地解释 Transformer

2024年诺贝尔物理学奖：一次思维的模仿

发表回复取消回复

大型语言模型中的推理

DeepSeek-R1-Zero

GRPO 算法：一种学习的数学框架

准确性和格式奖励

适应性思考时间

“顿悟时刻”

DeepSeek-R1 和多阶段训练

第一阶段：冷启动数据和初始微调

第二阶段：推理导向的强化学习

第三阶段：拒绝抽样和监督微调（SFT）

第四阶段：全场景强化学习

提炼：将推理能力转移到更小的模型

蒸馏方法

蒸馏结果

与直接 RL 训练的比较

效率和未来方向

结论

类似文章

发表回复 取消回复

发表回复取消回复