DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗?

每当一种新的语言模型向公众发布时,我总是想用一些看似简单但实际上很棘手的问题来挑战它。这是我的个人习惯——就像压力测试一样,看看这些模型处理逻辑和推理的能力如何。

前几天,DeepSeek R-1 发布,由于其开源特性和出色的推理能力,立刻引起了全球轰动。基准测试表明,它与 OpenAI 的 o1 和 Anthropic 的 Claude 3.5 Sonnet 等闭源模型相当,有时甚至更好。DeepSeek R-1 的推理能力被大肆宣传,让我们看看它如何解决以下五个棘手的问题:

  1. 单词 strawberry 中有多少个 ‘r’ 字母?
  2. 给我列出名称中第三个位置上有字母 A 的 5 个国家。
  3. 9.9 和 9.11 哪个更大?
  4. 0.1 + 0.2 等于多少?
  5. 爱丽丝有四个兄弟,还有一个姐妹。爱丽丝的兄弟有几个姐妹?

让我们开始吧。

1. 单词 strawberry 中有多少个 ‘r’ 字母?

去年 9 月,当我对 OpenAI 的 o1 模型进行初步评估时,我注意到 GPT-4o 等模型无法正确回答。你可能会认为,对人工智能来说,计算单词中的字母数很简单,但显然并非如此。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗?
图片来源:Jim Clyde Monge

因此,很自然地,我想看看 DeepSeek R-1 将如何处理它。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗?
图片来源:Jim Clyde Monge

好的,太棒了。DeepSeek 做对了——它在单词“strawberry”中找到了三个“r”字母。简单吗?是的。但这仍然是一种检查模型是否在基本模式识别方面失败的有效方法。

2. 给我列出 5 个名称中第三个字母为 A 的国家

这个问题很有趣,令人惊讶的是,许多模型都无法回答。例如,当我测试 GPT-4o 和 o1 的预览版本时,它们给出了错误的答案。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗?
图片来源:Jim Clyde Monge

“Japan”这个词的第三个字符是“p”,而不是“a”。

我很好奇 DeepSeek R-1 是否也会出错。谢天谢地,它通过了。它毫不费力地正确列出了五个国家。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗?
图片来源:Jim Clyde Monge

为了公平起见,我通过 ChatGPT 在最新版本的 o1 模型上重新测试了这个问题,这次它也成功提供了五个正确答案。

3. 9.9 和 9.11 哪个更大?

GPT-4 首次推出时,这类问题在 AI 社区引起了很多困惑。您可能以为数字之间的基本比较不成问题,但 GPT-4 在早期版本中却遇到了困难。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗?
图片来源:Jim Clyde Monge

该模型因简单的数学运算而感到困惑。尽管这个问题在 GPT-4o 发布时已经得到解决,但我想看看 DeepSeek 是否不存在与 GPT-4 相同的数学问题。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗?
图片来源:Jim Clyde Monge

好的,谢天谢地,它返回了一个正确的值。我也喜欢它如何给我示例和答案的详细解释。

4.0.1 + 0.2 等于多少?

你会惊讶地发现有多少 AI 模型会遇到这个问题。我记得在 Google 的 Gemini 模型发布后不久对其进行了测试,它给出了臭名昭著的答案:0.30000000000000004。这是二进制计算中浮点精度错误的典型例子。

为了保险起见,我用同样的问题测试了 DeepSeek R-1。幸运的是,它返回了预期值:0.3。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗?
图片来源:Jim Clyde Monge

但是为什么模型有时会对这种简单的数学运算给出奇怪的结果呢?这里有一个简单的解释:

当您将 0.1 和 0.2 相加时:

  • 0.1 的二进制表示大约为 0.10000000000000000055511151231257827021181583404541015625。
  • 0.2 的二进制表示大约为 0.200000000000000011102230246171379939697265625。

当以二进制形式将这些值相加时,结果并不完全符合十进制形式的 0.3。相反,转换回十进制时会产生微小的舍入误差:0.30000000000000004。

5. 爱丽丝有四个兄弟,还有一个姐妹。爱丽丝的兄弟有几个姐妹?

有些人可能会说这是一个简单的问题,但你会惊讶地发现 ChatGPT 给出了错误的答案。当然,我很好奇 DeepSeek R-1 是否会答对。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗?
图片来源:Jim Clyde Monge

值得庆幸的是,它确实做到了。正确答案是爱丽丝的每个兄弟都有两个姐妹:爱丽丝和她的另一个姐妹。我发现 DeepSeek 如何通过内部推理解决这个问题很有趣。

它将问题分解为几个步骤,对家庭结构进行建模并验证每一种可能性。以下是其思维过程的片段:

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗?
图片来源:Jim Clyde Monge

有趣的是,该模型的解释非常详细。相比之下,GPT-4o 在测试过程中犯了一个错误,假设只有一个姐妹。

DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗?
图片来源:Jim Clyde Monge

不过,具有推理能力的 o1 答对了这道题。这是一个很好的提醒,如果这道题需要深层次的思考,就切换到像 o1 这样的推理模型。

在对 AI 模型进行早期测试时,很明显,这些简单的问题往往能揭示出其设计中隐藏的问题。从数值错误、逻辑错误到模式识别能力差,这些问题凸显了 AI 需要改进的地方。

1人评论了“DeepSeek R-1 能回答这 5 个棘手的 AI 问题吗?”

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部