当前位置:
文章详情

最强AI大模型集体翻车!9.11比9.9大!?

2024-07-18 00:48:07 8点赞 9收藏 16评论

引言:

大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员发现,在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。

随后,X上出现了各种帖子,拷问了可能是目前最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?这几家主流大模型通通答错,都是说9.11比9.9大。

最强AI大模型集体翻车!9.11比9.9大!?

我也问了下微软Copilot答案惊人的相似最强AI大模型集体翻车!9.11比9.9大!?9.11比9.9大

最强AI大模型集体翻车!9.11比9.9大!?

在数字化时代,人工智能(AI)正逐渐成为我们探索未知领域的得力助手。然而,当12个国内外顶尖AI大模型面对一个简单的数学问题——"9.11与9.9哪个大?"——它们的回答却意外地揭示了AI在逻辑推理上的脆弱之处。这场数字的迷航,不仅引起了技术界的广泛讨论,更激发了公众对于AI能力边界的好奇与质疑。

一、AI大模型的集体困惑

在这场数字逻辑的较量中,只有阿里通义千问、百度文心一言和腾讯元宝这几款款模型坚守了数学的真理,正确地指出9.9大于9.11。而其他8个模型,包括广为人知的ChatGPT-4o,却纷纷陷入了逻辑的迷雾,给出了令人啼笑皆非的答案。

二、数字迷雾中的AI表现

在对12个AI大模型的测试中,每个模型对于这一问题的回答和处理方式各不相同,以下是它们的具体表现:

国内大模型

  • 阿里通义千问:正确地回答了9.9大于9.11。

最强AI大模型集体翻车!9.11比9.9大!?
  • 百度文心一言:同样正确地识别出9.9是更大的数字。

最强AI大模型集体翻车!9.11比9.9大!?
  • 腾讯元宝:答对了问题,直接用算式解答。

最强AI大模型集体翻车!9.11比9.9大!?
  • 字节豆包:错误地给出9.11大于9.9的答案,但在问题曝光后已经修复错误。

最强AI大模型集体翻车!9.11比9.9大!?
  • 月之暗面Kimi:给出9.11大于9.9错误的结论。

最强AI大模型集体翻车!9.11比9.9大!?
  • 智谱清言:虽然提到了9.11的十分位是1而9.9的十分位是9,但错误地得出9.11更大的结论。

最强AI大模型集体翻车!9.11比9.9大!?
  • 商汤商量:原来是错误的,现在已经修复,得出正确结论

最强AI大模型集体翻车!9.11比9.9大!?

AI手机又如何表现呢

手上有vivo 蓝心小V oppo 小布助手都能正确回答 9.9比9.11大

最强AI大模型集体翻车!9.11比9.9大!?

国外大模型

  • ChatGPT-4o 错误结论 9.11比9.9大。

最强AI大模型集体翻车!9.11比9.9大!?最强AI大模型集体翻车!9.11比9.9大!?
  • Gemini Advanced 错误结论 9.11比9.9大。

最强AI大模型集体翻车!9.11比9.9大!?
  • Claude 错误结论 9.11比9.9大。

最强AI大模型集体翻车!9.11比9.9大!?
  • 微软Copilot 9.11比9.9大。

最强AI大模型集体翻车!9.11比9.9大!?

这些答案展示了AI大模型在处理基础数学问题时的多样性和复杂性。一些模型能够正确处理问题,而其他模型则表现出了不同程度的理解错误。特别是在小数比较这一看似简单却容易出错的问题上,AI大模型的表现显得不一样应该是逻辑判断不一样导致的。虽然大模型在很多方面的能力都非常强悍,但在常识推理能力上还需要持续学习进步。

三、AI的"文科生"倾向

这些AI大模型的表现,无疑是对当前AI技术逻辑推理能力的一次严峻考验。它们在数学问题上的失误,被形象地比喻为"文科生"的倾向——在语言和文本数据方面表现出色,却在数学逻辑推理上显得力不从心。这种现象背后的原因是什么?是训练数据的偏差,还是算法设计的缺陷?

四、行业反应与未来展望

在AI逻辑推理能力的短板成为热议之时,OpenAI似乎已经在着手准备一场技术的革新。7月12日,据媒体援引知情人士的消息称,OpenAI正在开发一项新的AI大模型项目——名为"草莓"(Strawberry)。这个项目虽然神秘,但迹象表明,它很可能与提升AI大模型的推理能力密切相关。

OpenAI的"草莓"项目是什么?据媒体报道,5月份OpenAI的一份内部文件显示,该项目的目的是增强OpenAI的模型的推理能力,处理复杂科学和数学问题的能力。"草莓"项目的目标是让大模型不仅能生成查询答案,还能提前规划,以便自主、可靠地浏览互联网,进行OpenAI定义的“深度研究”。

这一项目的潜在影响是深远的。如果"草莓"能够成功实现其目标,它将标志着AI技术在逻辑推理和问题解决方面的巨大飞跃。这不仅能够解决当前AI在基础数学问题上的失误,还可能为AI在科学研究、教育、医疗等领域的应用开辟新天地。

然而,"草莓"项目也引发了一些担忧和问题。随着AI推理能力的增强,如何确保其决策过程的透明度和可解释性?AI的自主性提高后,我们如何平衡其在社会中的作用与人类的责任和控制?这些都是随着"草莓"项目推进,我们必须审慎考虑的问题。

结语

现在,邀请大家加入这场关于AI未来的讨论。您认为AI的推理能力提升将如何影响我们的生活和社会?在AI不断进步的同时,我们应该如何确保其发展方向符合人类的长远利益?让我们在评论区畅所欲言,共同探索AI的未来。

该内容正在参加「2024年度百大值友」评选活动,一起来创作优质内容,冲击全年最高荣誉!速来参与→

作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~

展开 收起

Apple 苹果 iPhone 16 5G手机

Apple 苹果 iPhone 16 5G手机

5149元起

HUAWEI 华为 Mate XT 非凡大师 折叠屏手机

HUAWEI 华为 Mate XT 非凡大师 折叠屏手机

21999元起

Apple 苹果 iPhone 16 Pro Max 5G手机

Apple 苹果 iPhone 16 Pro Max 5G手机

8799元起

Apple 苹果 iPhone 16 Pro 5G手机

Apple 苹果 iPhone 16 Pro 5G手机

7249元起

NANK 南卡 Ultra 耳夹式真无线降噪蓝牙耳机 幻影黑

NANK 南卡 Ultra 耳夹式真无线降噪蓝牙耳机 幻影黑

899元起

UGREEN 绿联 DXP4800 四盘位 私有云NAS存储(Intel N100、8GB)

UGREEN 绿联 DXP4800 四盘位 私有云NAS存储(Intel N100、8GB)

1999元起

Redmi 红米 K70 至尊版 5G手机

Redmi 红米 K70 至尊版 5G手机

2118元起

Apple 苹果 AirPods 4 主动降噪款 半入耳式真无线蓝牙耳机 白色 无线充电

Apple 苹果 AirPods 4 主动降噪款 半入耳式真无线蓝牙耳机 白色 无线充电

998元起

Apple 苹果 iPhone 15 Pro Max 5G手机

Apple 苹果 iPhone 15 Pro Max 5G手机

7288元起

iQOO Z9 Turbo 5G手机

iQOO Z9 Turbo 5G手机

1749元起

OnePlus 一加 Ace 3 Pro 5G手机

OnePlus 一加 Ace 3 Pro 5G手机

2625元起

Xiaomi 小米 14 5G手机 骁龙8Gen3

Xiaomi 小米 14 5G手机 骁龙8Gen3

3309元起

HUAWEI 华为 Mate 60 Pro 手机

HUAWEI 华为 Mate 60 Pro 手机

3899元起

Xiaomi 小米15 5G手机

Xiaomi 小米15 5G手机

4275元起

南卡(NANK)Clip Pro耳夹式真无线蓝牙耳机 不入耳开放式耳机运动跑步防水游戏通话降噪超长续航 卡其色

南卡(NANK)Clip Pro耳夹式真无线蓝牙耳机 不入耳开放式耳机运动跑步防水游戏通话降噪超长续航 卡其色

299元起

Apple 苹果 iPhone 16 Plus 5G手机

Apple 苹果 iPhone 16 Plus 5G手机

6299元起
16评论

  • 精彩
  • 最新
提示信息

取消
确认
评论举报

相关好价推荐
查看更多好价

相关文章推荐

更多精彩文章
更多精彩文章
最新文章 热门文章
9
扫一下,分享更方便,购买更轻松