当前位置：

社区首页

电脑数码

软件应用

文章详情

中文互联网上最好的大模型语料库是：弱智吧

如果让你在互联网上给大模型选一本中文教材，你会去哪里取材？是知乎，是豆瓣，还是微博？一个研究团队为了构建高质量的中文指令微调数据集，对这些社交媒体进行了测试，想找到训练大模型最好的中文预料，结果答案保证让你大跌眼镜——

弱智吧。

弱智吧是百度贴吧上的一个子版块，这是一个非常神奇的地方，吧友们热衷于创作和分享一语双关、一词多义、因果倒置、谐音梗等带着逻辑陷阱的内容，而且部分帖子甚至带有一定的哲学意味。但是，拿这些东西训练全知全能伟大的大模型？能行吗。

别急，我们先来看看这个研究团队做了什么实验。

这是一篇题为《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》的论文，作者来自多个国内外高校，简单来说，他们提出了一个中文指令微调数据集COIG-CQIA（全称为Chinese Open Instruction Generalist-Quality Is All You Need）。

对于中文大模型开发者来说，目前的一个重点挑战就在于没有一个高质量中文数据集，研究团队认为，各种中文社交媒体、论坛对于大模型的训练应该是很好的语料来源。

于是为了给这个数据集取材，他们从不同的社交平台（如问答社区、维基百科、考试材料、已有的 NLP 数据集等）收集了高质量的人工编写的文本集合，这些文本经过严格筛选和细致处理，最终才构建出了这个数据集。

论文称，这个数据集的目的是构建一个多样化、广泛的服务于中文大模型的指令调优数据集，以更好地使模型行为在中文环境下与人类互动相一致，提高指令响应的能力。

这里也科普一个概念，那就是大模型虽然有强大的知识储备，但是它是为解决通用自然语言处理任务而设计的，因此没有办法处理特定问题。此时，就需要对其进行“微调”，来让其输出结果符合特定问题的预期。而指令微调就是说明确了模型应执行的任务类型、输入要求、输出格式等具体细节情况下，再给出正确的结果。比如我用中文提问，并要求模型用西班牙语回答，那么模型的开发者为了满足我后半句话的要求，就得对模型进行指令微调。

这时就需要一个“指令微调数据集”。这类数据集通常包含大量的“指令-输出”对，其中每个对包括一个明确的指令（instruction），即用户希望模型执行的任务说明，以及与之对应的理想输出（output），即模型在接收到该指令后应当生成或执行的结果。

COIG-CQIA就是这样一个数据集。研究团队首先是对数据集进行了严格的筛选和清洗，确保数据集是比较健康的。具体做法是根据预设的筛选标准，去除无关或低质量的文本。这可能包括删除广告、无意义的灌水内容、含有敏感信息或违反社区规则的帖子等。

之后，团队还做了人工干预：对处理后的文本进行人工审核，确保其内容正确无误，符合预期的语义和知识标准，同时也确保数据集与真实的中文用户交互模式相一致。尤其是在一些诸如弱智吧语录这样深层隐喻比较强，模型基本没办法完全理解采集到的段子的含义，那就需要进行人工标注，提供明确的指令-输出示例，为模型微调提供精确的训练信号。

在做完了整理工作后，研究团队使用COIG-CQIA数据集对多个开源中文大模型做了微调。

而为了评估这些不同来源的数据质量，团队分别用不同的社交网站的数据微调了同一个模型，并做了测试。

在论文展示的对微调后的Yi系列模型的评估表现中，神奇的一幕出现。

在Yi-6B的性能对比中，在多个比分中（开放式问答，头脑风暴，分类问题，生成问题，封闭式问答和编程），用弱智吧的数据训练的模型表现在多个分类中表现是最好的。

而对微调后的Yi-34B的评测中，基于弱智吧数据训练出来的表现，更是直接拿了几乎全部领域的第一，综合评分遥遥领先。

除了性能外，COIG-CQIA还对其安全性能进行测试了，使用的是开源评估框架SafetyBench。可以看到，CQIA-Sub-6B的SafetyBench高达81.7，比GPT 3.5的SafetyBench还高。这么高的评分代表COIG-CQIA能够准确识别风险，并区分出含有有害信息、潜在违规内容、隐私敏感信息、误导性建议等不安全选项，选择出最符合安全原则的答案。换句话说，其具备一定的商业化潜力。

而其中，弱智吧的表现又亮了。超过了GPT3.5 。

论文里也对此感到惊讶，作者尝试做了分析：“有意思的是，弱智吧数据集在多个子集上的平均排名中最终位居第二，我们认为这可能是因为弱智吧的数据特性有助于增强模型的逻辑推理能力，从而在大多数遵循指令的任务中表现出色。”

在看完这篇论文后，我又去弱智吧看了看这些天才般的语料，这是有人整理的一部分弱智吧经典语录：

玉皇大帝住的是平流层()还是对流层？
导盲犬禁止入内，是给盲人看的，还是给导盲犬看的？
空腹能吃饭吗？
变形金刚买保险是买车险还是人险？
我买了一斤藕，为什么半斤都是空的？
雷公电母放的是直流电还是交流电？
每天吃一粒感冒药，还会感冒吗？
请问孕妇打人算群殴吗？
去自首的路上被抓了还算自首吗？
吃止痛药去打架，算开挂吗？
被门夹过的核桃，还能补脑吗？

考虑到大模型最欠缺的就是逻辑能力，看来这些更像脑筋急转弯的问答确实是大语言模型的好语料。

而在弱智吧最近的首页上，一个排名靠前的帖子也很应景：

“什么工作都可能会被人工智能取代，但弱智不会。”

真的，有道理呢。

展开收起

使用评测
话题：使用评测关注

+1 0 1 0

我是中国的

算法工程师

88文章| 3971爆料| 32粉丝

关注

相关商品推荐

ihuman 洪恩识字子集拼音思维ABC会员永久包3-6岁儿童早教启蒙礼物玩具识字会员终身包

268元起

看百科去购买

WPS 金山软件 WPS 超级会员 3年卡

388元起

看百科去购买

Microsoft 微软 OFFICE 365 家庭版会员

219元起

看百科去购买

统信 UOS桌面操作系统V20/适用于国产型号/官方正版授权/国产专用

598元起

看百科去购买

Microsoft 微软 Office 365 个人版

179元起

看百科去购买

Microsoft 微软 OFFICE 365 个人版办公软件

199元起

看百科去购买

Microsoft 微软到手18.2元/月微软office365家庭版microsoft365增强版15个月

275元起

看百科去购买

WPS超级会员Pro套餐4年卡1488天官方正版pdf转word排版

676.4元起

看百科去购买

任天堂 Nintendo Switch《舞力全开 Just Dance》游戏兑换卡

158元起

看百科去购买

365office365OfficePLUS Microsoft365 12 -

235元起

看百科去购买

WPS 金山软件会员季卡

59.85元起

看百科去购买

WPS超级会员4年套餐pdf转word排版PPT润色模板素材店铺

暂无报价

看百科去购买

国行版 Switch体感游戏套装《健身环大冒险》

439元起

看百科去购买

Microsoft 微软 618Microsoft 微软活动6天 office365家庭版microsoft365订阅密钥

235元起

看百科去购买

自助挂号应用服务

15000元起

看百科去购买

WPS超级会员2年pdf转word官方正版思维导图排版简历模板赠AI会员

218.5元起

看百科去购买

0评论

当前文章无评论，是时候发表评论了

提示信息

取消

确认

评论举报

垃圾广告！低俗色情！人身攻击！疑似水军评论！其他有害！

相关文章推荐

小米手机电池健康报告怎么查？手把手轻松教会你

手机用了很久，电量耗电很快，一说就是电池健康状态不行了，明明刚开始充满电能玩一天，现在只能... 阅读全文

+1 90 992 114
分享5个免费AI写作软件

在数字化时代，人工智能（AI）正以惊人的速度渗透到我们生活的方方面面，而写作领域也不例外。... 阅读全文

+1 73 1.0K 13
PictureCleaner，开挂一般的本地神器！实用到离谱！推荐收藏！

今天就把珍藏多年的一款超实用的电脑端软件分享给大家。此软件不论是办公还是学习生活，都堪称神... 阅读全文

+1 69 1.0K 21
博通直接放大招：VMware Workstation Pro和Fusion Pro对个人完全免费

博通收购 VMware 这段时间以来各种负面消息不断，但没想到博通竟然突然放了个大招：即日... 阅读全文

+1 61 622 59
一款能让你的电脑自动执行各类任务的强大工具：大小仅有7MB，免费无广告

zTasker 是一款免费无广告的，功能极其强大的定时/热键自动化任务工具，可以通过定时或... 阅读全文

+1 33 441 17
2 款超级实用的免费软件：一个小巧，Windows专用；一个全能，支持所有平台！

DefenderUIDefenderUI 是一款免费无广告的，使用体验非常不错的 Wind... 阅读全文

+1 40 302 15
Screenity，这个录屏工具火了，秒杀 33 种同类工具！

Screenity插件是一款开源的适用于Chrome的功能最强大的屏幕记录器和注释工具，适... 阅读全文

+1 29 291 10
小巧，但很强大：这 3 款完全免费的小软件能让你的 PC 比别人的好用十倍！赶紧收藏吧！

PipToolPipTool 是一款大小在 5MB 左右的，完全且免费无广告的，可以让我们... 阅读全文

+1 26 236 9
教程篇篇六：未来已来，贾维斯不再是科幻|OpenAI春季发布会|ChatGPT 4o发布

写在前面早间新闻，OpenAI过春节了！！！今日，OpenAI在春季发布会上正式发布了Ch... 阅读全文

+1 32 197 35
这8款Edge插件简直就是效率神器！每一个都能让你的工作更高效，赶紧收藏！

嗨，大家好，今天就来分享8款免费必装的 Edge插件，每一个都可以让你效率大幅度的提高，效... 阅读全文

+1 15 187 6
软件使用篇二百二十九：国产大模型登顶世界开源领域第一？！阿里这次放大招了

现在免费的 AI 工具越来越多，前两天，阿里的大模型通义千问APP更名为通义APP，不知道... 阅读全文

+1 23 151 26
五个免费的PDF编辑器，每一个都不可小瞧！

PDF编辑器已成为我们日常生活和工作中不可或缺的工具。然而，对于普通用户来说，如何编辑PD... 阅读全文

+1 16 171 5
Windows软件篇二：带界面的 Windows 软件中心 WingetUI VS Scoop

大家好，我们又见面了，之前我们介绍过Scoop这款软件中心，为啥执着于给大家介绍软件中心呢... 阅读全文

+1 28 155 5
覆盖绝大部分资源下载！Windows系统八大必备好用下载工具！

今天在这里给大家推荐几款好用的Windows系统下载工具，其中包括了收费与免费的开源工具，... 阅读全文

+1 15 141 3
一款专门为游戏玩家制作的电脑线优化工具，可以在Windows10/11上使用。

今天给大家分享的这个由俄罗斯大神开发的神器，不仅界面UI好看，而且功能更是彪悍，只需要简单... 阅读全文

+1 12 130 10
我的互联网解决方案篇六十三：博通大气：VMware Workstation Pro和Fusion Pro个人完全免费（附下载方法）

博通收购 VMware 后整了不少花活：首先宣布 VMware Workstation P... 阅读全文

+1 13 122 4
灵活高效，FlexiPDF 2022 —— 您的专业 PDF 编辑伙伴

在这个数字化的时代，PDF 文件已成为我们日常工作和生活中不可或缺的一部分。但你是否曾因... 阅读全文

+1 13 106 7
数码杂谈篇七：安利一款全新的消息推送服务——PushMe

一、简介作者自介绍：PushMe，一个简单轻量的Android消息通知客户端！支持插件，支... 阅读全文

+1 8 84 10
Clippy归来！一键清除Windows广告，告别系统臃肿！

作为Windows的老用户，你是否还记得那个可爱的回形针助手Clippy？它曾在1997年... 阅读全文

+1 16 75 6
干货：在linux的文件海洋里查找某一个文件系统哪个路径？分享7种命令教程！

跟大家分享find命令的高效查找硬核干货，让你在linux的文件海洋里查找某一个文件，不再... 阅读全文

+1 11 82 4

更多精彩文章

灭霸同款影像力加持，vivo X100s系列火热开售中

最近这段时间，vivo X100s系列的热度很高，自发布到首销的这段时间更是获得了十分出色... 阅读全文

+1 0 0 0
让梦想插上AI的翅膀，每个人都可以用自己喜欢的方式过一生

AI，或许是近年来在你视野中出现频率最高的科技词汇，似乎在一夜之间，AI就与所有人都有了千... 阅读全文

+1 0 0 0
科技资讯篇四：华为大模型演示“翻车”了，为什么不再理解万岁了？

5月10日，在华为鲲鹏昇腾开发者大会上，一位演讲者在演示华为AI大模型时因运行失误，意外中... 阅读全文

+1 0 0 0
3 秒去水印！6 款超好用的免费图像去水印工具

本期为大家在整理 6 款超好用的免费水印去除工具，可以帮我们轻松去除图像局部或者全屏的水印... 阅读全文

+1 0 2 0
解锁职场隐私保护模式，teamOS私密保险箱，一键守护“不能说的秘密”

在快节奏的职场生活中，每个人都拥有一些属于自己的小秘密和私人文件。这些可能是尚未公开的项目... 阅读全文

+1 0 0 0
秦商出海，货通全球！宝优受邀参加跨境电商高质量发展大会

5月15日，宝锐优选受邀参加“AI无界智拓全球”2024陕西省跨境电商高质量发展大会，阿里... 阅读全文

+1 0 0 0
LLM大模型部署本地及应用示例

本文仅分享LLM部署过程和心得，所提及的程序和模型包均为官方下载地址，请自行解决网络问题，... 阅读全文

+1 0 0 1
2024最好用的4大PDF编辑器！一键解决PDF编辑难题！

2024最好的PDF编辑器有哪些？为了满足广大用户处理PDF 文件的需求，各大软件公司推出... 阅读全文

+1 0 0 0
怎么修改PDF页面大小？调整PDF页面大小方法

大家在使用PDF文档一定会或多或少的遇见这样的情况，PDF页面呈现并不理想，这个时候就要涉... 阅读全文

+1 0 0 1
怎么用AI来翻译英语PDF文件？AI翻译PDF教程来了

在全球互联的时代，学术研究、商业贸易等领域都需要经常跨语言阅读。AI 出现之前，外语 PD... 阅读全文

+1 0 0 0
中国同城恋爱交友dating app下载排行榜，单身狗相亲约会脱单必备软件！

小编也曾经是单身狗，经过一番自己的努力，终于找到属于自己的另一半啦！单身狗们，还在一个人望... 阅读全文

+1 0 0 0
我的 Windows 系统优化之旅：Reg Organizer 使用体验分享

作为一名长期面对电脑的普通用户，我一直对系统性能有着较高的要求。随着时间的推移，我发现电脑... 阅读全文

+1 0 0 0
【捕捉灵感，记录创意】FastStone Capture：您的多功能屏幕捕捉伙伴！

【软件简介】FastStone Capture，一款强大而轻量级的屏幕捕捉和录像工具，让您... 阅读全文

+1 0 2 0
开源软件篇七：Koodo Reader 清新的电子书阅读器

预览特色支持阅读格式：EPUB (.epub)PDF (.pdf)Kindle (.azw... 阅读全文

+1 1 12 1
重装系统，只要3步：小白一键重装

小白一键重装系统，我用了很多年了，在我用过的系统里面这是最好用的；有很多系统删减了色彩管理... 阅读全文

+1 1 1 0
新手如何运营自媒体？

大家都知道，这些年流量红利已经没有了，不会再出现一个社交媒体平台，随便发几篇文章发几个视频... 阅读全文

+1 0 0 0
文件时光机：轻松管理文件历史，这几个小工具让你事半功倍！

在信息爆炸的时代，文件管理如同掌控时间的艺术，每一次保存、每一次修改，都记录着工作的点点滴... 阅读全文

+1 0 1 0
设计师必备技能：提升工作效率的实用工具

设计师的利器：提升工作效率的实用工具在这个快速变化的时代，设计师们面临着前所未有的挑战。他... 阅读全文

+1 1 1 1
李彦宏：百度11%的搜索结果都由AI生成

百度创始人、董事长兼首席执行官李彦宏在2024年第一季度财报电话会议上透露，目前百度搜索结... 阅读全文

+1 1 1 5
软件使用篇二百三十：一款全局老板键工具，呼来唤去软件体验

在操作电脑的时候，如果身处人多的环境，自己有些东西不想被看到，通常会在有人接近的时候按下“... 阅读全文

+1 1 10 0