天天看点

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

作者:好娱知时节

为了您更好的阅读互动体验,为了您及时看到更多内容,点个“关注”,每天为您分享各种好玩的好看的!

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

文案|摩登游侠

编辑|灵笔行者

最近弱智吧又出了把名,不过这次和弱智吧的无厘头画风有点不搭噶,这次是在正儿八经的学术论文上大出风头了,还是AI这种高新科技!

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

这就让人纳闷了,那个无厘头的弱智吧,还能有这么大能量?

弱智吧,这个在互联网浪潮中经久不衰的神奇存在,犹如一股清流在贴吧的海洋中独自闪耀。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

当其他贴吧在互联网的冲击下逐渐呈现颓势时,它却越发火爆出圈,吸引着无数人的目光。

你可别以为这里真收弱智,两百六十多万粉丝的吧友们统称为“弱智病友”,自我标榜为搞笑类型的贴吧。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

这里有着严格的发帖管理规则,必须原创,内容要短,少发疑问句,吧友们的神回复可不仅仅停留在一问一答之间,那充满思考上的冲击,让人捧腹大笑的同时也不禁陷入深思。

在这里,大家相互称呼为病友,只有说出足够“弱智”的段子才能被批准入院,若是认真发言,那可得“出院!”了。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

帖子的内容丰富多样,时而搞笑,让人忍俊不禁;时而悲伤,触动心底的柔软;时而又充满哲思,令人深思。

弱智吧这个地方,它可不简单呐!好多你可能听过的段子,那都是从“弱智吧”流传出去的。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

那些话瞅着好像没啥条理,傻乎乎的,实际上充满了对各种事情的敏锐观察。

以前呐,“弱智吧”那可真是金句满天飞,随随便便挑一句出来,都能把人笑得肚子抽筋儿。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

就像一位吧友说的:“这世上或许根本没有弱智,又或者人人都是被命运愚弄的弱智。”

这话听起来还真是有点道理。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

有时候你觉得他们是一群傻子,可有时候呢,你又会觉得他们像一面镜子,照着自己的荒唐和可笑。

这“弱智吧”里的人啊,他们不按常理出牌,思维跳跃,总是能给我们带来意想不到的欢乐。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

他们敢想敢说,不在乎别人的眼光,只在乎自己的快乐。

要说起弱智吧的过往呀,那根本没法儿去考证。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

它曾经有过一段乱糟糟的时期,幸亏有那么一批核心吧友整出了些无厘头的规矩,这才给这个贴吧带来了新的生机。

这些吧友老是用“弱智风”说话,招呼大家一块傻乎乎的,一块享受这种单纯又朴实的快乐。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

后来弱智吧火了起来,吸引了好多高水平的网友进吧。

他们搞起了新的花样,借着“弱智”的样子,让有些话变得能引人深思了。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

这种特别的格调跟氛围,让经典的梗越来越多,还整出了一套合集。现在弱智吧都成搞笑的代名词咯。

现在的人们,搞笑都说要竞选弱智吧吧主,仿佛这已经成为了一种潮流,弱智吧也从曾经的“精神病院”摇身一变,成为了互联网的清流。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

或许有人会觉得这里的内容太过“弱智”,但正是这种“弱智”让我们重新审视生活,发现那些被我们忽略的简单快乐。

弱智吧,就是这样一个独特而又神奇的存在。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

它不随波逐流,坚守着自己的风格和理念,成为了互联网世界中一道亮丽的风景线。

咱就说啊,这弱智吧可真是深藏不露!你能想象吗?用弱智吧数据训练的大模型,那跑分居然超过了百科、知乎、豆瓣、小红书等平台。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

这可不是我随口乱说,而是有实打实的数据支撑的!

这研究呢是由中科院深圳先进技术研究院、中科院自动化研究所等好多高校、研究机构一起合作弄出来的。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

他们在中文互联网的各种知识来源那儿收集数据,整出了那个质量高、还多样化的中文指令微调数据集COIG-CQIA。

不过呢,这不是最牛的,这团队从那个COIG-CQIA里又抽出了一个超厉害的子集CQIA-Subset。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

这里面有500个点赞最多的帖子标题,还有人工或者GPT-4的回复,组成了指令微调数据集,那可真是精华里面的精华呀!

接下来,他们就分别用各种数据集去训练开源大模型,然后在BELLE-Eval测试集上使用GPT-4评分得到结果。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

嘿,你猜怎么着?其中那个Yi-34B的弱智吧版本表现得那叫一个突出啊!

这就让研究人员猜测,弱智吧的问题可能增强了AI的逻辑推理能力,这可真是让人想不到啊!谁能想到那些看似无厘头的问题,居然还有这样的效果。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

这事儿在网上可引起了轩然大波,网友们集体笑不活了,还认真讨论起弱智吧有如此奇效的原因。

有人说,弱智吧的题目“异质”,增加了指令的多样性,还有人说,那里的数据文本质量高,所以才能有这样的效果。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

你说这弱智吧是不是挺神奇的?从ChatGPT诞生之初,它就深度参与了大模型的发展,简直就是AI浪潮的重要见证者啊!

现在,弱智吧的问题都成了每个新发布大模型必须要过的一关,这叫弱智吧Benchmark。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

想想当初,网友们为了调戏大模型还专门从弱智吧搜集了不少测试集呢,谁能想到,如今这些测试集都已经成训练集啦!这世界变化快,真是让人跟不上啊!

不过话说回来,这也说明了弱智吧的价值可不小。

弱智吧竟是最佳中文AI训练数据?中科院:8项测试成绩都是第一!

以后啊,说不定还会有更多这样的惊喜呢!咱们就等着瞧吧!

(免责声明)文章描述过程、图片都来源于网络,此文章旨在倡导社会正能量,无低俗等不良引导,如涉及版权或者人物侵权问题,请及时联系我们,我们将第一时间删除内容!如有事件存疑部分,联系后即刻删除或作出更改。

继续阅读