DeepSeek-R1-Zero 或 DeepSeek R1 是一个自发布以来震撼硅谷的中国人工智能模型。是的,DeepSeek R1 已成为复杂推理领域的关键角色,尤其适用于非订阅用户。
在本文中,我们将深入探索 DeepSeek R1 的所有信息,包括其定价、功能和使用的模型。
什么是 DeepSeek R1?
DeepSeek R1 是一个遵循 CoT 提示并通过 RL 训练其数据模型的 AI 模型,使用了 6710 亿个参数。这个革命性的开源人工智能模型由中国 AI 公司“深度求索”(Shēndù Qiúsuǒ)在仅 600 万美元的预算下设计开发。与传统 AI 模型不同,DeepSeek R1 更强调实时问题解决、数学故障排除和逻辑推理。相较之下,传统的美国模型更侧重于文本理解与生成,而 DeepSeek R1 则优先考虑推理和阐释能力的提升。
也许,大多数人认为开源是 DeepSeek 的主要优势。但实际上,它允许开发团队在定义好的边界内部署、修改和探索该模型。极低的运营成本是这个模型的另一大优点。与 OpenAI o1 相比,DeepSeek R1 的计费仅为其 2%。这款 AI 模型于 2025 年 1 月 20 日发布,确实在全球范围内引起了巨大轰动。

DeepSeek R1 定价
使用 DeepSeek-Chat,输入 100 万个 tokens 收费 $0.014,输出收费 $0.28。另一方面,在使用 DeepSeek-Reasoner 时,用户只需支付 $0.55 的输入费用和 $2.19 的输出费用(每 100 万个 tokens)。
OpenAI O1 与 DeepSeek R1 的价格对比
AI 模型 | 输出价格(每百万 tokens) | 输入价格(每百万 tokens) |
OpenAI O1 | $60.00 | $15.00 |
DeepSeek R1 | $2.19 | $0.55 |
DeepSeek R1 的工作原理
让我们通过以下亮点来解释这个 AI 模型:
Chain-of-Thought(CoT)提示
DeepSeek-R1 采用 CoT(Chain-of-Thought)链式思维提示工程方法,而不是标准提示。这种技术不仅 模拟人类 的推理方式,还优化了语言模型的运行效率。CoT 利用大型语言模型(LLMs)的专长来实现更具逻辑性的推理、微调和调试。
换句话说,这种提示工程技术将推理过程逐步拆解。因此,如果发现错误,可以轻松识别其位置,并迅速重新调用模型。

强化学习(Reinforcement Learning)
DeepSeek 采用强化学习(RL)机器学习方法以获得最佳结果。强化学习本质上是一种机器学习实践,其中数据通过预设答案进行自我训练。在这里,RL 根据策略和奖励函数自主学习。通俗地说,DeepSeek r1 使用强化学习(RL)训练其模型,通过不断优化策略(Policy)以最大化结果。随着时间推移,它会学习哪种策略能够更好地优化奖励函数(Reward Function)。此外,你还可以引导该模型修改其策略,以获得更精准的回答。
不过,DeepSeek r1 采用裁剪(clipping)方法来评估变更的幅度,以保持模型的平衡。
模型蒸馏(Model Distillation)
将大型预训练模型的知识迁移到小型模型的过程被称为“蒸馏”。在这种机器学习技术中,小型模型被称为“学生模型”,而大型模型被称为“教师模型”。
这意味着 DeepSeek r1 使用小型语言模型(LLMs)替代那些占用更多 GPU、内存和资源的大型模型。因此,资源有限的用户也可以通过学生模型获得与教师模型相当的准确率。此外,研究人员发现 DeepSeek r1 的小型蒸馏学生模型在性能上超过了许多教师模型,如 GPT-4o-0513 和 OpenAI-o1-mini。
DeepSeek R1 完全免费吗?
DeepSeek R1 对个人用途是免费且开源的。然而,你也可以以低成本使用该 AI 解决方案:每 100 万个输出 tokens 收费 $2.19,输入 tokens 收费 $0.55。
结语
DeepSeek R1 在发布首日便震惊了硅谷,成为一个引人注目的竞争者。它无疑为开发者、企业、AI 代理和新手用户带来了福音。不过,它仍是一款新兴的 AI 模型,我们还需要进一步探索其众多优势与局限。