当前位置:
文章详情

最强AI大模型集体翻车!9.11比9.9大!?

2024-07-18 00:48:07 8点赞 9收藏 16评论

引言:

大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员发现,在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。

随后,X上出现了各种帖子,拷问了可能是目前最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?这几家主流大模型通通答错,都是说9.11比9.9大。

最强AI大模型集体翻车!9.11比9.9大!?

我也问了下微软Copilot答案惊人的相似最强AI大模型集体翻车!9.11比9.9大!?9.11比9.9大

最强AI大模型集体翻车!9.11比9.9大!?

在数字化时代,人工智能(AI)正逐渐成为我们探索未知领域的得力助手。然而,当12个国内外顶尖AI大模型面对一个简单的数学问题——"9.11与9.9哪个大?"——它们的回答却意外地揭示了AI在逻辑推理上的脆弱之处。这场数字的迷航,不仅引起了技术界的广泛讨论,更激发了公众对于AI能力边界的好奇与质疑。

一、AI大模型的集体困惑

在这场数字逻辑的较量中,只有阿里通义千问、百度文心一言和腾讯元宝这几款款模型坚守了数学的真理,正确地指出9.9大于9.11。而其他8个模型,包括广为人知的ChatGPT-4o,却纷纷陷入了逻辑的迷雾,给出了令人啼笑皆非的答案。

二、数字迷雾中的AI表现

在对12个AI大模型的测试中,每个模型对于这一问题的回答和处理方式各不相同,以下是它们的具体表现:

国内大模型

  • 阿里通义千问:正确地回答了9.9大于9.11。

最强AI大模型集体翻车!9.11比9.9大!?
  • 百度文心一言:同样正确地识别出9.9是更大的数字。

最强AI大模型集体翻车!9.11比9.9大!?
  • 腾讯元宝:答对了问题,直接用算式解答。

最强AI大模型集体翻车!9.11比9.9大!?
  • 字节豆包:错误地给出9.11大于9.9的答案,但在问题曝光后已经修复错误。

最强AI大模型集体翻车!9.11比9.9大!?
  • 月之暗面Kimi:给出9.11大于9.9错误的结论。

最强AI大模型集体翻车!9.11比9.9大!?
  • 智谱清言:虽然提到了9.11的十分位是1而9.9的十分位是9,但错误地得出9.11更大的结论。

最强AI大模型集体翻车!9.11比9.9大!?
  • 商汤商量:原来是错误的,现在已经修复,得出正确结论

最强AI大模型集体翻车!9.11比9.9大!?

AI手机又如何表现呢

手上有vivo 蓝心小V oppo 小布助手都能正确回答 9.9比9.11大

最强AI大模型集体翻车!9.11比9.9大!?

国外大模型

  • ChatGPT-4o 错误结论 9.11比9.9大。

最强AI大模型集体翻车!9.11比9.9大!?最强AI大模型集体翻车!9.11比9.9大!?
  • Gemini Advanced 错误结论 9.11比9.9大。

最强AI大模型集体翻车!9.11比9.9大!?
  • Claude 错误结论 9.11比9.9大。

最强AI大模型集体翻车!9.11比9.9大!?
  • 微软Copilot 9.11比9.9大。

最强AI大模型集体翻车!9.11比9.9大!?

这些答案展示了AI大模型在处理基础数学问题时的多样性和复杂性。一些模型能够正确处理问题,而其他模型则表现出了不同程度的理解错误。特别是在小数比较这一看似简单却容易出错的问题上,AI大模型的表现显得不一样应该是逻辑判断不一样导致的。虽然大模型在很多方面的能力都非常强悍,但在常识推理能力上还需要持续学习进步。

三、AI的"文科生"倾向

这些AI大模型的表现,无疑是对当前AI技术逻辑推理能力的一次严峻考验。它们在数学问题上的失误,被形象地比喻为"文科生"的倾向——在语言和文本数据方面表现出色,却在数学逻辑推理上显得力不从心。这种现象背后的原因是什么?是训练数据的偏差,还是算法设计的缺陷?

四、行业反应与未来展望

在AI逻辑推理能力的短板成为热议之时,OpenAI似乎已经在着手准备一场技术的革新。7月12日,据媒体援引知情人士的消息称,OpenAI正在开发一项新的AI大模型项目——名为"草莓"(Strawberry)。这个项目虽然神秘,但迹象表明,它很可能与提升AI大模型的推理能力密切相关。

OpenAI的"草莓"项目是什么?据媒体报道,5月份OpenAI的一份内部文件显示,该项目的目的是增强OpenAI的模型的推理能力,处理复杂科学和数学问题的能力。"草莓"项目的目标是让大模型不仅能生成查询答案,还能提前规划,以便自主、可靠地浏览互联网,进行OpenAI定义的“深度研究”。

这一项目的潜在影响是深远的。如果"草莓"能够成功实现其目标,它将标志着AI技术在逻辑推理和问题解决方面的巨大飞跃。这不仅能够解决当前AI在基础数学问题上的失误,还可能为AI在科学研究、教育、医疗等领域的应用开辟新天地。

然而,"草莓"项目也引发了一些担忧和问题。随着AI推理能力的增强,如何确保其决策过程的透明度和可解释性?AI的自主性提高后,我们如何平衡其在社会中的作用与人类的责任和控制?这些都是随着"草莓"项目推进,我们必须审慎考虑的问题。

结语

现在,邀请大家加入这场关于AI未来的讨论。您认为AI的推理能力提升将如何影响我们的生活和社会?在AI不断进步的同时,我们应该如何确保其发展方向符合人类的长远利益?让我们在评论区畅所欲言,共同探索AI的未来。

作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~

展开 收起

Xiaomi 小米15 Ultra 5G手机

Xiaomi 小米15 Ultra 5G手机

6499元起

红米 REDMI K80 5G手机

红米 REDMI K80 5G手机

1833元起

Apple 苹果 iPhone 16 5G手机

Apple 苹果 iPhone 16 5G手机

4398元起

Apple 苹果 iPhone 16 Pro Max 5G手机

Apple 苹果 iPhone 16 Pro Max 5G手机

8499元起

UGREEN 绿联 DXP4800 四盘位 私有云NAS存储(Intel N100、8GB)

UGREEN 绿联 DXP4800 四盘位 私有云NAS存储(Intel N100、8GB)

2199元起

OnePlus 一加 Ace 3 Pro 5G手机 骁龙8Gen3

OnePlus 一加 Ace 3 Pro 5G手机 骁龙8Gen3

1894.65元起

Apple 苹果 iPhone 16 Pro 5G手机

Apple 苹果 iPhone 16 Pro 5G手机

6362.51元起

Xiaomi 小米15 5G手机 骁龙8至尊版

Xiaomi 小米15 5G手机 骁龙8至尊版

3849元起

Xiaomi 小米 智能音箱 Pro

Xiaomi 小米 智能音箱 Pro

暂无报价

Apple 苹果 Mac mini 2024款 迷你台式机

Apple 苹果 Mac mini 2024款 迷你台式机

4399元起

OnePlus 一加 Ace 5 Pro 5G手机

OnePlus 一加 Ace 5 Pro 5G手机

2498.15元起

OnePlus 一加 13 5G手机 骁龙8至尊版

OnePlus 一加 13 5G手机 骁龙8至尊版

3067.65元起

realme 真我 Neo7 5G手机

realme 真我 Neo7 5G手机

1694.65元起

口袋玲珑 全尺寸折叠键盘多功能主机 灰色(锐龙R7-8840U、核芯显卡、16GB、512GB)

口袋玲珑 全尺寸折叠键盘多功能主机 灰色(锐龙R7-8840U、核芯显卡、16GB、512GB)

3899元起

OPPO Find X8 5G手机

OPPO Find X8 5G手机

3079元起

OnePlus 一加 Ace 5 5G手机

OnePlus 一加 Ace 5 5G手机

2070元起
16评论

  • 精彩
  • 最新
  • 美国的大模型主要是炒作炒股价割韭菜,其实美国的所谓高科技都是如此。

    校验提示文案

    提交
    大模型还是提供了很多便利的

    校验提示文案

    提交
    收起所有回复
  • 人类留给计算机的后门这么快就被发现了 [苦恼]

    校验提示文案

    提交
    发现了再搞几个 [邪恶]

    校验提示文案

    提交
    收起所有回复
  • x是啥?我能上吗…怎么上?

    校验提示文案

    提交
    推=x,科学上网

    校验提示文案

    提交
    我以为是*** [邪恶]

    校验提示文案

    提交
    还有2条回复
    收起所有回复
  • 9.9包邮确实比9.11贵

    校验提示文案

    提交
    对对对,这是常识 [脸红]

    校验提示文案

    提交
    收起所有回复
  • 这个翻车有点离谱了,不是小学数学吗 [晕倒]

    校验提示文案

    提交
    奥数做得很溜,小数点比较就翻车了 [高兴]

    校验提示文案

    提交
    收起所有回复
  • ai有点时候确实有点蠢

    校验提示文案

    提交
    还在发展阶段,有待继续提升 [龇牙]

    校验提示文案

    提交
    收起所有回复
  • 大佬好专业啊 [棒棒哒]

    校验提示文案

    提交
提示信息

取消
确认
评论举报

相关好价推荐
查看更多好价

相关文章推荐

更多精彩文章
更多精彩文章
天猫超级红包
距结束::
现金红包天天领,最高8888元
红包按钮
最新文章 热门文章
9
扫一下,分享更方便,购买更轻松