DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗？

每当一种新的语言模型向公众发布时，我总是想用一些看似简单但实际上很棘手的问题来挑战它。这是我的个人习惯——就像压力测试一样，看看这些模型处理逻辑和推理的能力如何。

前几天，DeepSeek R-1 发布，由于其开源特性和出色的推理能力，立刻引起了全球轰动。基准测试表明，它与 OpenAI 的 o1 和 Anthropic 的 Claude 3.5 Sonnet 等闭源模型相当，有时甚至更好。DeepSeek R-1 的推理能力被大肆宣传，让我们看看它如何解决以下五个棘手的问题：

单词 strawberry 中有多少个 ‘r’ 字母？
给我列出名称中第三个位置上有字母 A 的 5 个国家。
9.9 和 9.11 哪个更大？
0.1 + 0.2 等于多少？
爱丽丝有四个兄弟，还有一个姐妹。爱丽丝的兄弟有几个姐妹？

让我们开始吧。

1. 单词 strawberry 中有多少个 ‘r’ 字母？

去年 9 月，当我对 OpenAI 的 o1 模型进行初步评估时，我注意到 GPT-4o 等模型无法正确回答。你可能会认为，对人工智能来说，计算单词中的字母数很简单，但显然并非如此。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗？ — 图片来源：Jim Clyde Monge

因此，很自然地，我想看看 DeepSeek R-1 将如何处理它。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗？ — 图片来源：Jim Clyde Monge

好的，太棒了。DeepSeek 做对了——它在单词“strawberry”中找到了三个“r”字母。简单吗？是的。但这仍然是一种检查模型是否在基本模式识别方面失败的有效方法。

2. 给我列出 5 个名称中第三个字母为 A 的国家

这个问题很有趣，令人惊讶的是，许多模型都无法回答。例如，当我测试 GPT-4o 和 o1 的预览版本时，它们给出了错误的答案。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗？ — 图片来源：Jim Clyde Monge

“Japan”这个词的第三个字符是“p”，而不是“a”。

我很好奇 DeepSeek R-1 是否也会出错。谢天谢地，它通过了。它毫不费力地正确列出了五个国家。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗？ — 图片来源：Jim Clyde Monge

为了公平起见，我通过 ChatGPT 在最新版本的 o1 模型上重新测试了这个问题，这次它也成功提供了五个正确答案。

3. 9.9 和 9.11 哪个更大？

GPT-4 首次推出时，这类问题在 AI 社区引起了很多困惑。您可能以为数字之间的基本比较不成问题，但 GPT-4 在早期版本中却遇到了困难。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗？ — 图片来源：Jim Clyde Monge

该模型因简单的数学运算而感到困惑。尽管这个问题在 GPT-4o 发布时已经得到解决，但我想看看 DeepSeek 是否不存在与 GPT-4 相同的数学问题。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗？ — 图片来源：Jim Clyde Monge

好的，谢天谢地，它返回了一个正确的值。我也喜欢它如何给我示例和答案的详细解释。

4.0.1 + 0.2 等于多少？

你会惊讶地发现有多少 AI 模型会遇到这个问题。我记得在 Google 的 Gemini 模型发布后不久对其进行了测试，它给出了臭名昭著的答案：0.30000000000000004。这是二进制计算中浮点精度错误的典型例子。

为了保险起见，我用同样的问题测试了 DeepSeek R-1。幸运的是，它返回了预期值：0.3。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗？ — 图片来源：Jim Clyde Monge

但是为什么模型有时会对这种简单的数学运算给出奇怪的结果呢？这里有一个简单的解释：

当您将 0.1 和 0.2 相加时：

0.1 的二进制表示大约为 0.10000000000000000055511151231257827021181583404541015625。
0.2 的二进制表示大约为 0.200000000000000011102230246171379939697265625。

当以二进制形式将这些值相加时，结果并不完全符合十进制形式的 0.3。相反，转换回十进制时会产生微小的舍入误差：0.30000000000000004。

5. 爱丽丝有四个兄弟，还有一个姐妹。爱丽丝的兄弟有几个姐妹？

有些人可能会说这是一个简单的问题，但你会惊讶地发现 ChatGPT 给出了错误的答案。当然，我很好奇 DeepSeek R-1 是否会答对。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗？ — 图片来源：Jim Clyde Monge

值得庆幸的是，它确实做到了。正确答案是爱丽丝的每个兄弟都有两个姐妹：爱丽丝和她的另一个姐妹。我发现 DeepSeek 如何通过内部推理解决这个问题很有趣。

它将问题分解为几个步骤，对家庭结构进行建模并验证每一种可能性。以下是其思维过程的片段：

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗？ — 图片来源：Jim Clyde Monge

有趣的是，该模型的解释非常详细。相比之下，GPT-4o 在测试过程中犯了一个错误，假设只有一个姐妹。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗？ — 图片来源：Jim Clyde Monge

不过，具有推理能力的 o1 答对了这道题。这是一个很好的提醒，如果这道题需要深层次的思考，就切换到像 o1 这样的推理模型。

在对 AI 模型进行早期测试时，很明显，这些简单的问题往往能揭示出其设计中隐藏的问题。从数值错误、逻辑错误到模式识别能力差，这些问题凸显了 AI 需要改进的地方。

一条评论

Pirojokexcus说道：

2025年4月10日下午6:11

dark markets 2025 dark web market links

回复

发表回复取消回复