最强AI大模型集体翻车!9.11比9.9大!?
引言:
大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员发现,在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。
随后,X上出现了各种帖子,拷问了可能是目前最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?这几家主流大模型通通答错,都是说9.11比9.9大。
我也问了下微软Copilot答案惊人的相似9.11比9.9大
在数字化时代,人工智能(AI)正逐渐成为我们探索未知领域的得力助手。然而,当12个国内外顶尖AI大模型面对一个简单的数学问题——"9.11与9.9哪个大?"——它们的回答却意外地揭示了AI在逻辑推理上的脆弱之处。这场数字的迷航,不仅引起了技术界的广泛讨论,更激发了公众对于AI能力边界的好奇与质疑。
一、AI大模型的集体困惑
在这场数字逻辑的较量中,只有阿里通义千问、百度文心一言和腾讯元宝这几款款模型坚守了数学的真理,正确地指出9.9大于9.11。而其他8个模型,包括广为人知的ChatGPT-4o,却纷纷陷入了逻辑的迷雾,给出了令人啼笑皆非的答案。
二、数字迷雾中的AI表现
在对12个AI大模型的测试中,每个模型对于这一问题的回答和处理方式各不相同,以下是它们的具体表现:
国内大模型
阿里通义千问:正确地回答了9.9大于9.11。
百度文心一言:同样正确地识别出9.9是更大的数字。
腾讯元宝:答对了问题,直接用算式解答。
字节豆包:错误地给出9.11大于9.9的答案,但在问题曝光后已经修复错误。
月之暗面Kimi:给出9.11大于9.9错误的结论。
智谱清言:虽然提到了9.11的十分位是1而9.9的十分位是9,但错误地得出9.11更大的结论。
商汤商量:原来是错误的,现在已经修复,得出正确结论
AI手机又如何表现呢
手上有vivo 蓝心小V 和 oppo 小布助手都能正确回答 9.9比9.11大
国外大模型
ChatGPT-4o 错误结论 9.11比9.9大。
Gemini Advanced 错误结论 9.11比9.9大。
Claude 错误结论 9.11比9.9大。
微软Copilot 9.11比9.9大。
这些答案展示了AI大模型在处理基础数学问题时的多样性和复杂性。一些模型能够正确处理问题,而其他模型则表现出了不同程度的理解错误。特别是在小数比较这一看似简单却容易出错的问题上,AI大模型的表现显得不一样应该是逻辑判断不一样导致的。虽然大模型在很多方面的能力都非常强悍,但在常识推理能力上还需要持续学习进步。
三、AI的"文科生"倾向
这些AI大模型的表现,无疑是对当前AI技术逻辑推理能力的一次严峻考验。它们在数学问题上的失误,被形象地比喻为"文科生"的倾向——在语言和文本数据方面表现出色,却在数学逻辑推理上显得力不从心。这种现象背后的原因是什么?是训练数据的偏差,还是算法设计的缺陷?
四、行业反应与未来展望
在AI逻辑推理能力的短板成为热议之时,OpenAI似乎已经在着手准备一场技术的革新。7月12日,据媒体援引知情人士的消息称,OpenAI正在开发一项新的AI大模型项目——名为"草莓"(Strawberry)。这个项目虽然神秘,但迹象表明,它很可能与提升AI大模型的推理能力密切相关。
OpenAI的"草莓"项目是什么?据媒体报道,5月份OpenAI的一份内部文件显示,该项目的目的是增强OpenAI的模型的推理能力,处理复杂科学和数学问题的能力。"草莓"项目的目标是让大模型不仅能生成查询答案,还能提前规划,以便自主、可靠地浏览互联网,进行OpenAI定义的“深度研究”。
这一项目的潜在影响是深远的。如果"草莓"能够成功实现其目标,它将标志着AI技术在逻辑推理和问题解决方面的巨大飞跃。这不仅能够解决当前AI在基础数学问题上的失误,还可能为AI在科学研究、教育、医疗等领域的应用开辟新天地。
然而,"草莓"项目也引发了一些担忧和问题。随着AI推理能力的增强,如何确保其决策过程的透明度和可解释性?AI的自主性提高后,我们如何平衡其在社会中的作用与人类的责任和控制?这些都是随着"草莓"项目推进,我们必须审慎考虑的问题。
结语
现在,邀请大家加入这场关于AI未来的讨论。您认为AI的推理能力提升将如何影响我们的生活和社会?在AI不断进步的同时,我们应该如何确保其发展方向符合人类的长远利益?让我们在评论区畅所欲言,共同探索AI的未来。
该内容正在参加「2024年度百大值友」评选活动,一起来创作优质内容,冲击全年最高荣誉!速来参与→
作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~
值友1188579632
校验提示文案
烧饼是头猪
校验提示文案
iamnio
校验提示文案
colourjwh
校验提示文案
无影的风
校验提示文案
L0111
校验提示文案
远航的加菲猫
校验提示文案
远航的加菲猫
校验提示文案
L0111
校验提示文案
无影的风
校验提示文案
colourjwh
校验提示文案
iamnio
校验提示文案
烧饼是头猪
校验提示文案
值友1188579632
校验提示文案