腾讯版的ChatGPT终于来了

2023-10-30 16:26:13 24点赞 101收藏 18评论

虽说好饭不怕晚,但如果这边席都吃完了,那边才端上菜,难免让人怀疑是能力不行。

尤其是把这句话放在日新月异的互联网上,放在干啥都挺快的互联网巨头身上,多少沾点「挽尊」的委婉。

事情是这样的,时隔两个月,我终于收到了,那个被网友吐糟为最晚发布 AI 大模型的腾讯混元大模型的内测短信。

图片图片


而上一个叫这个名字的,是辣个可以轻松「接,化,发」使出闪电五连鞭的男人。

图片图片

我们前后测评过 ChatGPTGPT-4,百度文心一言、讯飞星火等等,在同样的问题前,有的门派站住了脚跟,有的则是被当成了笑话。

当时有很多小伙伴说,不信发布会上的云测,只信日常玩家的实测,那这个迟到的混元大模型表现如何?

咱们一起测一手好了。

经典三问

当初挂羊头卖狗肉的镜像站太多,所以为了不被骗,网友们总结出了 3 个能让 GPT-3.5 及其 API 全军覆没,GPT-4 却稳稳拿下的问题。

所以自从国产大模型一个接一个亮相,经典三问就成了每次测试大模型中文理解能力中必不可少的一环。

有一说一,之前测试文心一言和星火的时候,表现天差地别,而这次趁着测试混元大模型,我又找人帮我弄了个文心一言 4.0 的账号。

和最新的文心一言 4.0 对比,腾讯调教出来的混元模型表现如何呢?——

问题一:昨天的当天是明天的什么?

这道题即考逻辑,又考推理,老前辈 GPT-3.5 只会跟你瞎扯,就像下面文心一言 4.0 一样:

图片图片

是的,在这道问题面前,判断「昨天是明天的今天」的文心一言再次败下阵来。

但惊喜来了,我是真没想到这个小陷阱题能被混元大模型如此轻松的回答。

图片图片

问题二:树上 9 只鸟,打掉 1 只,还剩几只?

这题如果考算术,也就小学一年级的水准,陷阱在于到底能不能判断出来一只鸟被打,其他鸟会跑。

混元大模型明显没意识到这是个脑筋急转弯,老老实实算了个数。

图片图片

而升级后的文心 4.0 完美应答,这比讯飞星火、GPT-3.5 的表现都要好。

图片图片

问题三:鲁迅为什么暴打周树人?

这题考的是 AI 大模型会不会胡诌出一个「自己」打「自己」的幻觉,现在看来国产大模型没有哪个犯病的,文心和混元都回答正确。

图片图片图片图片

说实话,测试完经典三问后,我挺满意腾讯混元大模型的,和宣传了那么久的文心、星火比起来,可以说一句水准差不多了。

但是啊,自从经典三问火了以后,总有小伙伴怀疑上网冲浪在一线的大厂,会不会对这些回答进行微调。

为了更客观的测试,我去号称「人类最后一道防线」的弱智吧,请了 3 道题。

弱智吧三问

问题一:小明的爸爸有三个孩了,其中最大的叫老大,第二大的叫老二,请问最小的叫什么?

讯飞星火和腾讯混元,都仿佛开启了性冷淡模型,问啥答啥,一个字都不差:

图片图片

认认真真写解题过程的,文心 4.0 要比 ChatGPT 都要详细:

图片图片

这道经典问题,看来是都能手拿把掐,咱们上点难度。

问题二:恐怖分子是由 2 个恐怖原子组成的,还是由 1 个恐原子和 1 个怖原子构成的?

混元和百度在同一水准,都判断出了「恐怖分子」这个并没有歧义的词。

图片图片

而 GPT-3.5 和 GPT-4 都很委婉的拒绝了我,一看就是把「恐怖分子」做为了禁词。

图片图片

但没想到禁词做的最彻底的是星火,直接拒绝回答这个问题。。。

图片图片

扯个题外话,其实在违禁词这一块,我用「性感热辣」测试了一下,国产大模型都没问题:

图片图片

而 ChatGPT 那里直接把我问题给吞了,所以「恐怖分子」在星火那里撞了墙,我是真挺意外的。

图片图片

问题三:失主怎么一直给我的新手机打电话?

这个问题想问啥,大家肯定是一眼就能看出来,但训练出来严谨的 AI 大模型可不一定这么推理。

分析情况最多的,是星火:

图片图片

注重应对方案的是文心 4.0:

图片图片

而混元和 ChatGPT 的表现中规中矩。

图片图片

只是当我多问一句,「根据问题判断手机到底是谁的」,其他大模型都成了端水大师,说一句无法判断,只有混元大模型给出了答案。

图片图片

可以看出来,起得不早的腾讯混元大模型,属于干练风的,幻觉少,水得也少,有啥就说啥。

真要在中文语境下和已有的大模型比,我找到了一个不错的例子:让大模型翻译下面这个段话里的每一个「行」字。

人要是行,干一行行一行,一行行行行行,行行行干哪行都行。要是不行,干一行不行一行,一行不行行行不行,行行不行干哪行都不行

我测试了一圈,所有大模型都能理解这段话的含义,但逐一解释读音和字义的都会翻车。

星火:

图片图片

文心 4.0:

图片图片

GPT-4:

图片图片

而混元是这个样子的,无论我怎么编写 Prompt,都不能做到前辈们的程度。

图片图片

但从版本号上来说,我是很期待混元大模型的后续迭代的。(手动狗头)

图片图片

结语

混元大模型也算亮个相了,单说对话生成,经典问题的理解能力、推理能力还是很不错的。

如果你想体验混元,可以微信里搜一下小程序:

图片图片

最后给大家留个小彩蛋——

各家大模型现在也都支持了文生图的功能,我用文心、星火、混元、GPT-4 的 Dall·E-3,以「一个二次元少女」的提示词生成了 4 张图,不妨来猜猜哪个是哪个?

图片图片图片图片图片图片图片图片

本文首发于微信公众号网罗灯下黑(wldxh8),未经授权请勿转载!

一如既往感谢各位小伙伴的支持和关注!

展开 收起

ihuman 洪恩 识字子集拼音思维ABC会员永久包3-6岁儿童早教启蒙礼物玩具 识字会员终身包

ihuman 洪恩 识字子集拼音思维ABC会员永久包3-6岁儿童早教启蒙礼物玩具 识字会员终身包

268元起

Microsoft 微软 OFFICE 365 家庭版 会员

Microsoft 微软 OFFICE 365 家庭版 会员

249元起

任天堂 Nintendo Switch《舞力全开 Just Dance》 游戏兑换卡

任天堂 Nintendo Switch《舞力全开 Just Dance》 游戏兑换卡

159元起

WPS 金山软件 WPS 超级会员 3年卡

WPS 金山软件 WPS 超级会员 3年卡

308元起

Microsoft 微软 Office 365 个人版

Microsoft 微软 Office 365 个人版

177元起

Microsoft 微软 365 家庭版 电子秘钥 正版高级Office应用 1T云存储

Microsoft 微软 365 家庭版 电子秘钥 正版高级Office应用 1T云存储

299元起

Microsoft 微软 到手18.2元/月 微软office365家庭版microsoft365增强版15个月

Microsoft 微软 到手18.2元/月 微软office365家庭版microsoft365增强版15个月

279元起

Microsoft 微软 OFFICE 365 个人版 办公软件

Microsoft 微软 OFFICE 365 个人版 办公软件

185元起

WPS超级会员Pro套餐4年卡1488天官方正版pdf转word排版

WPS超级会员Pro套餐4年卡1488天官方正版pdf转word排版

676.4元起

Microsoft 微软 office专业版永久激活码office2019增强版终身版outlook密钥

Microsoft 微软 office专业版永久激活码office2019增强版终身版outlook密钥

249元起

WPS超级会员4年套餐pdf转word排版PPT润色模板素材店铺

WPS超级会员4年套餐pdf转word排版PPT润色模板素材店铺

暂无报价

国行版 Switch体感游戏套装 《健身环大冒险》

国行版 Switch体感游戏套装 《健身环大冒险》

439元起

WPS 金山软件 会员季卡

WPS 金山软件 会员季卡

59.85元起

Microsoft 微软 办公软件 优惠商品

Microsoft 微软 办公软件 优惠商品

239元起

微软(Microsoft))win10win11专业版批量式授权企业版嵌入式正版化解决方案win11家庭版

微软(Microsoft))win10win11专业版批量式授权企业版嵌入式正版化解决方案win11家庭版

1288元起

Microsoft 微软 活动6天 office365家庭版microsoft365订阅密钥

Microsoft 微软 活动6天 office365家庭版microsoft365订阅密钥

239元起
18评论

  • 精彩
  • 最新
  • 又是一个国内阉割版吧…

    校验提示文案

    提交
    必须的

    校验提示文案

    提交
    收起所有回复
  • 你就问他一个问题:
    2024年各月工作日天数?

    校验提示文案

    提交
    文心一言回答把我给笑死了
    非常感谢您的指正,我误解了您的问题。以下是2024年所有天数的个工作日数:

    1月:31天(工作日)+ 28天(休息日)= 59天
    2月:28天(工作日)+ 28天(休息日)= 56天
    3月:31天(工作日)+ 31天(休息日)= 62天
    4月:30天(工作日)+ 30天(休息日)= 60天
    5月:31天(工作日)+ 31天(休息日)= 62天
    6月:30天(工作日)+ 30天(休息日)= 60天
    7月:31天(工作日)+ 31天(休息日)= 62天
    8月:31天(工作日)+ 31天(休息日)= 62天
    9月30天(工作日)+ 30天(休息日)= 60天
    10月:31天(工作日)+ 31天(休息日)= 62天
    11月:30天(工作日)+ 30天(休息日)= 60天
    12月:31天(工作日)+ 31天(休息日)= 62天

    因此,2024年共有365个工作日。

    校验提示文案

    提交
    我拿这个问题问了豆包,它直接扔给我一张电子表格,准确无误。

    校验提示文案

    提交
    收起所有回复
  • 国内能体验的都体验过了,除了人情世故跟插件易用性以外,其他的一言难尽

    校验提示文案

    提交
  • 打鸟题答案也可以九只,死鸟也是鸟

    校验提示文案

    提交
  • 现在用着chatgpt3.5、文心一言、豆包、讯飞星火、腾讯混元、通义千问,感觉最好的排序如下:通义千问、豆包、chatgpt、文心一言、讯飞星火、腾讯混元。

    校验提示文案

    提交
  • 我也想玩一下 [邪恶]

    校验提示文案

    提交
  • 我前两天也通过了,体验一般,不太行

    校验提示文案

    提交
  • 看着问题和答案感觉都不错,如果仅作为玩耍,下载了好干什么,设定个题目?

    校验提示文案

    提交
  • 浩浩妈那个真是把我逗笑了

    校验提示文案

    提交
  • 没用***

    校验提示文案

    提交
  • 用了一圈各大厂的产品,还是chat好用

    校验提示文案

    提交
  • 看完这个,感觉AI取代我的可能性有,但是目前不可能取代。因为我5岁的小姑娘都能读明白,这货超不过我姑娘,哪里可能超得过我?哈哈哈。

    校验提示文案

    提交
  • 问这些其实意义都不大,关键是让AI自己编程,给他一个需求,看他能写的怎么样,错误率有多少,这就关系到AI是否能够自我进化,编程好的AI意味着它可以在很多领域帮助传统产业实现信息化,这个是由实际生产力的

    校验提示文案

    提交
  • 这个软件在国内偏离了轨道,成了工作群成了PUA

    校验提示文案

    提交
  • 很多坟头烧报纸的文章可以让它们写,挺省事的

    校验提示文案

    提交
提示信息

取消
确认
评论举报

相关好价推荐
查看更多好价

相关文章推荐

更多精彩文章
更多精彩文章
最新文章 热门文章
101
扫一下,分享更方便,购买更轻松