实际上手文心一言4.0,真的媲美GPT-4了?

2023-10-31 11:44:09 3点赞 7收藏 2评论

最近这段时间,大模型世界可以说是再度风起云涌,不断有大模型升级和涌现,作为国内最早推出通用大模型的公司,百度也推出了文心大模型 4.0。

百度创始人、董事长兼 CEO 李彦宏当场表示,文心 4.0 实现基础模型的全面升级,在理解、生成、逻辑和记忆等能力上均有提升,「综合水平与 GPT-4 相比已经毫不逊色。」

文心大模型 4.0 不是唯一一个对标 GPT-4 的大模型,中国有无数个大模型正在追赶 GPT-4,上周就有科大讯飞宣布星火大模型的下一次升级,就将全面对标 GPT-4。但话又说回来,文心大模型 4.0 真的能打了吗?

终究还是得见真功夫。

众所周知,百度在今年 3 月发布了国内第一个大模型——文心大模型 3.5,并以此为基础对话机器人文心一言,当时雷科技就做了上手体验,评价是还有很大的优化空间,但也有不少惊喜。

所以我们干脆先看看过去半年时间,文心 4.0 到底能有多少进步。

文心 3.5 的时候我们就问过如何评价《流浪地球 2》的问题,评价内容水分较大,还提到了「星际战斗场面」等错误信息,上映时间和演员信息上也出现了常见的错误。

微信截图_20230317174846.png微信截图_20230317174846.png

公允地说,那个时候 ChatGPT 上也经常遇到类似的问题,表现最好的可能还是联网的 Bing Chat(GPT-4)。

到了文心 4.0 上,评价会相对更贴近实际内容一些,尽管还是会出现探讨「我们应该如何保护地球」这种「胡话」,但追问上映时间和演员阵容都能给出准确的信息。


Snipaste_2023-10-30_15-18-55.pngSnipaste_2023-10-30_15-18-55.png

此外,我们还问了一个常被用来「拷问」大模型的脑筋急转弯,文心 3.5 的时候显然还没有理解人类:

微信截图_20230317180424.png微信截图_20230317180424.png

但文心 4.0 不仅能从题目本身分析题意,还能将这个问题放到真实环境下进行推理:

Snipaste_2023-10-27_10-065.pngSnipaste_2023-10-27_10-065.png

此外,文心 4.0 还能准确明白近期的网络热梗和「中文十级难题」:

Snipaste_2023-10-30_15-59-39.pngSnipaste_2023-10-30_15-59-39.png

如果说前一个问题意味着文心 4.0 可以降维打击所有「梗百科」产品,后一个问题则代表了文心 4.0 对中文的理解能力又上了一个新台阶,要知道,不少网友也是花了一段时间才真正看懂这个「几等座」的问题。

更多的比较就不展示了,但显然,文心 4.0 比起半年多前已经聪明了不少,对中文的理解能力,联网后对新信息的掌握以及逻辑推理能力都有明显的提升。

但文心 4.0 还远不止于此。

既然大家都认为 GPT-4 是目前最「聪明」的大模型,那我们自然也不能免俗拿 Bing Chat(GPT-4)和文心 4.0 进行对比,比如先来一个比较简单的「请假理由」。

Snipaste_2023-10-30_18-05-12.pngSnipaste_2023-10-30_18-05-12.png

文心一言给出的回答比较泛用,一般而言确实比较好用。

Snipaste_2023-10-30_18-04-06.pngSnipaste_2023-10-30_18-04-06.png

Bing Chat 则给出了更多的理由,比如腹泻、家里断水和身体不适也比较实用。

当然,都到了「4.0」的阶段,我们也尝试提出一些比较高阶且更具实际价值的挑战。

第一个挑战就是直接写一份短视频脚本,分别让文心 4.0 和 Bing Chat 写份关于广州早餐的短视频脚本。


Snipaste_2023-10-30_17-50-44.pngSnipaste_2023-10-30_17-50-44.png

Bing Chat 给出一份完成度相当不错,同时兼具创意和广州特色的脚本,稍微补充修改是真的可以采用。

Snipaste_2023-10-30_17-34-43.pngSnipaste_2023-10-30_17-34-43.png

文心 4.0 创作的脚本就比较空泛,甚至把广州替换成任意一座城市都不会影响内容,更遑论「广州特色」了。但如果多给一些提示,比如指出广州的早茶、肠粉这些元素,文心 4.0 会进一步完善脚本内容,增加「广州特色」的相关内容。

Snipaste_2023-10-30_17-49-50.pngSnipaste_2023-10-30_17-49-50.png

但较真起来,显然还是 Bing Chat 给出的脚本更具备实际价值,包括在画面的细节描述上也更加丰富,更胜文心 4.0 一筹。

第二个挑战则是创建网站教程,我们以比较简单的树洞网站为例,请教文心 4.0 和 Bing Chat。


Snipaste_2023-10-30_19-21-23.pngSnipaste_2023-10-30_19-21-23.png

但 Bing Chat 第一步就歇菜了,只是给出了一个树洞网站及其功能的介绍,进一步追问也只能「理解万岁」,表示「我不能提供全部的代码,因为这超出了我的能力范围。」

相比之下,当我们要求文心 4.0 给出创建一个树洞网站需要的全部代码,可以看到它列出创建一个基本的树洞网站需要的 HTML、CSS 和 JavaScript 代码:

Snipaste_2023-10-30_19-22-36.pngSnipaste_2023-10-30_19-22-36.png

接下来进一步请教如何在百度云上部署这些代码,它也会先提供一些大概的步骤,比如注册百度云账号、创建实例、连接云服务器、上传代码等操作:

Snipaste_2023-10-30_19-23-12.pngSnipaste_2023-10-30_19-23-12.png

同时每一步还要继续展开,比如连接云服务器的步骤:

Snipaste_2023-10-30_19-23-49.pngSnipaste_2023-10-30_19-23-49.png

诚然,现在大模型距离「用嘴」搭建网站、开发 APP 还有很远的距离,但文心 4.0 确实展示了一些改变开发生态的能力,未来如果能够与百度云打通,用文心一言贯穿整个流程,未必不能实现人人都可开发的未来。

不过大模型改变的不仅是内容创作和代码开发,还有翻译。先简单来一段英译中:

稿定设计导出-20231030-192728.jpg稿定设计导出-20231030-192728.jpg

左:Bing Chat,右:文心 4.0

两者的差别不是很大,只有在细节处理上有些微区别,但如果换成文言文风格呢?

稿定设计导出-20231030-193124.jpg稿定设计导出-20231030-193124.jpg

下:Bing Chat,上:文心 4.0

相比 Bing Chat,文心 4.0 的翻译更加准确,没有为了更精简的文辞而略去了一些关键信息,就比如开头第一句的「1985 年」。

如果我们在进一步,要求它们将李白的《侠客行》翻译成英文:

Snipaste_2023-10-30_19-32-39.pngSnipaste_2023-10-30_19-32-39.png

只能说,现如今的大模型还做不太到位。

另外,借助插件系统文心 4.0 还能做到 GPT-4 无法实现的一些功能,比如一镜流影,即通过文字直接生成视频内容。需要解释的是,这并非直接地文字生成视频,而是通过 AI 生成文案、配音,再搭配实际拍摄画面,最后再自动剪辑导出。

Snipaste_2023-10-30_18-54-26.pngSnipaste_2023-10-30_18-54-26.png

目前来看,这个功能还是有很多欠缺之处,生成视频的质量比较一般,又不能导入实际的制作流程,更多可能还是充当创意发散和尝鲜的价值。

尽管如此,文心 4.0 的表现已经足够让我眼前一亮了,不仅在中文语义理解又有了一定的提升,在逻辑推理、知识问答方面也更多避免了大模型「幻觉」的出现。可以说,文心 4.0 在综合能力上确实与 GPT-4 不分上下。

题图来自百度

展开 收起

ihuman 洪恩 识字子集拼音思维ABC会员永久包3-6岁儿童早教启蒙礼物玩具 识字会员终身包

ihuman 洪恩 识字子集拼音思维ABC会员永久包3-6岁儿童早教启蒙礼物玩具 识字会员终身包

268元起

WPS 金山软件 WPS 超级会员 3年卡

WPS 金山软件 WPS 超级会员 3年卡

388元起

Microsoft 微软 OFFICE 365 家庭版 会员

Microsoft 微软 OFFICE 365 家庭版 会员

238元起

统信 UOS桌面操作系统V20/适用于国产型号/官方正版授权/国产专用

统信 UOS桌面操作系统V20/适用于国产型号/官方正版授权/国产专用

598元起

Microsoft 微软 Office 365 个人版

Microsoft 微软 Office 365 个人版

79元起

Microsoft 微软 到手18.2元/月 微软office365家庭版microsoft365增强版15个月

Microsoft 微软 到手18.2元/月 微软office365家庭版microsoft365增强版15个月

275元起

Microsoft 微软 OFFICE 365 个人版 办公软件

Microsoft 微软 OFFICE 365 个人版 办公软件

199元起

WPS超级会员Pro套餐4年卡1488天官方正版pdf转word排版

WPS超级会员Pro套餐4年卡1488天官方正版pdf转word排版

676.4元起

任天堂 Nintendo Switch《舞力全开 Just Dance》 游戏兑换卡

任天堂 Nintendo Switch《舞力全开 Just Dance》 游戏兑换卡

158元起

365office365OfficePLUS Microsoft365 12 -

365office365OfficePLUS Microsoft365 12 -

235元起

WPS 金山软件 会员季卡

WPS 金山软件 会员季卡

64.6元起

WPS超级会员4年套餐pdf转word排版PPT润色模板素材店铺

WPS超级会员4年套餐pdf转word排版PPT润色模板素材店铺

暂无报价

国行版 Switch体感游戏套装 《健身环大冒险》

国行版 Switch体感游戏套装 《健身环大冒险》

439元起

Microsoft 微软 618活动6天 office365家庭版microsoft365订阅密钥

Microsoft 微软 618活动6天 office365家庭版microsoft365订阅密钥

235元起

自助挂号应用服务

自助挂号应用服务

15000元起

WPS超级会员2年pdf转word官方正版思维导图排版简历模板赠AI会员

WPS超级会员2年pdf转word官方正版思维导图排版简历模板赠AI会员

264.1元起
2评论

  • 精彩
  • 最新
提示信息

取消
确认
评论举报

相关好价推荐
查看更多好价

相关文章推荐

更多精彩文章
更多精彩文章
最新文章 热门文章
7
扫一下,分享更方便,购买更轻松