天天看点

强势打榜测评,稳居第一梯队的360智脑已经开始赚钱

作者:CSDN
强势打榜测评,稳居第一梯队的360智脑已经开始赚钱

8月31日,多家媒体报道国内将有十余家大模型陆续通过《生成式人工智能服务管理暂行办法》备案,360 智脑位列其中。

前一天晚间,360 发布了 2023 年半年报,其中 360 智脑已创造近 2000 万元相关业务收入,成为国内首个披露实现营收的大模型产品。

自 ChatGPT 发布后,各大科技公司紧跟技术发展,纷纷发布了自家的大模型。据不完全统计,目前中国 10 亿参数规模以上的大模型已达 79 个,大模型数量已超百家,“百模大战”正式打响。

在这趋势下,作为一名开发者,我们不妨深入思考一个问题:如何全方位评估一个大模型?目前业界评估大语言模型测评标准主要包括如下两个方面:

  1. 在广泛的 NLP 任务上进行评估来考察大模型的知识。
  2. 在高级 LLM 能力上进行评估,比如推理、解决困难的数学问题、写代码,来考察大模型的推理能力。

目前,国内外已经面世的中文测评基准有 CLUE 基准、AGIEval 基准、MMCU 基准,这些基准在不同的领域都有所应用。此外,由清华大学、上海交通大学和爱丁堡大学合作构建的中文语言模型综合性考试评估套件 C-Eval 榜单(C-Eval 全球大模型综合性考试测试榜),包含 13948 道多项选择题,涵盖 52 个不同学科和四个难度级别(初中、高中、大学和专业),是对模型潜力判断最具权威性的大模型榜单之一。

在 8 月 30 日最新发布的 C-Eval 榜单中,国内大模型表现强劲,其中 360 智脑首次打榜就表现不俗

强势打榜测评,稳居第一梯队的360智脑已经开始赚钱

360智脑上榜 C-Eval,表现亮眼

在最新公布的 C-Eval 测评榜单中,360 智脑拿下 69 分的平均得分,在榜单中位居第 4;值得一提的是,该得分甚至高于 ChatGPT 的 68.7 分。

参评细项上,360 智脑在社会科学类评估问题上取得 82 分,人文科学类上得到 70.6 分,其它项目得分也高达 72.9,得分均远高于 GPT-4 的 77.6、64.5 和 67.8 分。

强势打榜测评,稳居第一梯队的360智脑已经开始赚钱

具体来看,360 智脑在社会科学类评估问题上取得 82 分的成绩主要取决于,预训练时的高质量且多样性的语料。依托于 360 搜索 11 年多的数据积累,360 搜索积累了上万亿网页以及完善的数据过滤和清洗手段。语料处理除了低质站点过滤、噪音清洗、多维度去重、基于统计的 ngram 语言模型过滤、基于标注结果训练的 fasttext 模型过滤等常规的数据处理手段外,360 还将语料处理结合到了大模型的训练过程中,基于多个 benchmark 和自有的下游评估数据上 few-shot 的结果,不断指导预训练数据的清洗。最终得到了下游任务上表现足够优秀的基础模型。

而自 3 月 29 日 360 发布智脑大模型发布已来,已取得了诸多不俗的成绩。

最开始的 360 智脑大模型 1.0 版本,将其能力落地在搜索场景;6 月,360 智脑发布最新 4.0 版本,将数字人、多模态应用、360 全端应用等落地。8 月,360 智脑与奇富科技等八家企业签署合作协议,基于 360 智脑共创企业级大模型解决方案,并发布安全大模型。

5 月,360 智脑参与中文模型基准 SuperCLUE 测评,位列“国产第一”。此外,还在 JioNLP、PaperWeekly、机器之心、CSDN 等专业机构测评中,处于国产模型第一梯队。

强势打榜测评,稳居第一梯队的360智脑已经开始赚钱

(SuperClue榜单,360智脑位列国内第一)

6 月,360 智脑通过工信部信通院认证,成为国内首个“可信 AIGC 大模型”。除了5项可选的评估内容,360 智脑在所有 10 部分 36 项基础能力评估中全部通过。

强势打榜测评,稳居第一梯队的360智脑已经开始赚钱

7 月,中国工业互联网研究院测评大模型中文工业领域知识问答能力,从评测结果可以看出,GPT4 表现最佳,国内大模型表现亮眼,360 智脑在多个行业均处于前列,其中装备制造业和纺织行业更是超过 GPT-3.5。

强势打榜测评,稳居第一梯队的360智脑已经开始赚钱

8 月,新华社研究院发布《人工智能大模型体验报告 2.0》,360 智脑大模型在基础能力等方面稳居大模型第一梯队。报告还引用 360 智脑对部分题目的回答作为最佳案例展示,如“山西食客倒醋洗碗”等时效性问题,360 智脑“展现了大模型强大的实时搜索与回复能力”。

强势打榜测评,稳居第一梯队的360智脑已经开始赚钱

从这些亮眼的成绩可以看出,360智脑已稳居大模型第一梯队。

强势打榜测评,稳居第一梯队的360智脑已经开始赚钱

11 年算法积累,打造强大 360 智脑

360 智脑优异表现背后是强大的算法团队支撑, 目前 360 智脑的算法团队分为预训练、微调、对齐、Code、数据、模型应用共 6 个子方向小组,全部由硕博组成。成员均是来自国内各大公司的搜索、图像、推荐、机器翻译等方向的人才。

强大的算法团队保障了 360 智脑的不断进化。在过去不到 3 个月的时间内,360 智脑整体性能提升 14.55%,COT 能力提升 69%,具备更强的逻辑推理能力,并进一步实现支持 50000+ 字的更长文本输入,多轮对话长度提升 18%。

360 搜索拥有 11 年多的算法积累,在自然语言处理、网页质量分析与处理、网页抓取等方向积累深厚。同时,360 搜索还拥有多年积累的近万亿网页的 360 百科、360 问答、360 文库、题库 box 等多种产品及数据。

据了解,发展大语言模型取决于六大关键要素,即 AI 能力、工程能力、数据语料、应用场景、内容安全和大模型安全,360 在以上六大技术要素均长期布局。

强势打榜测评,稳居第一梯队的360智脑已经开始赚钱

在基础算力方面,360 搭建了大规模高性能 GPU 算力中心,算力资源为 A 股第一,可以实现千亿参数模型训练的持续稳定运行。

在预训练阶段,360 已经积累了近万亿的网页以及其他的高质量数据语料,据悉,360 文本大模型预训练语料包括 20 大类,80 小类数据,总共 8TB 的数据。多模态大模型训练过程中则使用了 12 亿对中文图像文本。

360 的数据语料不仅规模大,质量高,搜索引擎的搜索能力以及网页抓取能力能够不断的更新大模型的知识库,有效补齐大模型数据更新不及时的短板。

在文本大模型微调过程中,Batch Size(一次迭代中使用的样本量)、学习率、迭代步数等因素都会对结果产生较大影响。为减少干扰因素的影响。在大模型训练至关重要的人类反馈强化学习阶段,由于强化学习具有收敛难度大等特点,360 做了学习率、剪枝参数、改进探索策略、引入噪声或正则化、改进回报计算、监控和早期停止、KL 散度优化、采样参数调整等大量的优化工作,才使得训练效果和效率取都得到了大幅提升。

据悉,360 集团将依托多年人工智能技术积累及搜索、浏览器等场景优势,进一步布局“两翼齐飞+四路并发”大模型战略,一方面坚持核心技术研发,另一方面做大优势场景。基于“360 智脑” 打造四大场景,具体包括:搜索引擎+浏览器和桌面的 To C 场景、面向中小企业的服务、面向政府及大型企业的专有大模型,以及面向行业的大模型。通过简单化减少 prompt 学习,使得 360 智脑更垂直化产业化、企业化、个人化。

除此之外,360 作为一家安全公司,从一开始就将大模型安全作为重要考量因素,打造了包括数据构建、模型训练、红蓝对抗、安全评估、风险识别、安全管控、应急处置的完整安全方案。

强势打榜测评,稳居第一梯队的360智脑已经开始赚钱

AI 招聘全球热抢

自年初 ChatGPT 爆火后,入局大模型已成为科技公司的新赛道。百模大战开启,大模型技术的持续研发也促使AI行业人才需求大增。领英近日发布的《未来就业报告:人工智能对工作的影响》显示,截至 2023 年 6 月,平台发布的工作职位中,AI 新技术的职位发布比例增长了 21 倍。

大模型的持续研发落地也催生了企业对于 AI人才的迫切需求,据不完全统计,百度、360、阿里巴巴等国内互联网大厂均在官方招聘平台发布 AI 岗位招聘需求。

360 集团创始人周鸿祎更在微博“打广告”,称“迎接超级人工智能时代还需更多人才储备,需要有批判精神、有想象力的奇才怪杰。不管你是领兵打仗的将军还是想当元帅的士兵,都欢迎你来。”

强势打榜测评,稳居第一梯队的360智脑已经开始赚钱

稍早前的今年 4 月,周鸿祎便发内部信要求 360 内部全面拥抱人工智能。信中透露,360 内部已经有非常成熟的大语言模型研究团队,尤其在多模态算法上处于行业领先地位,360 集团将推行“揭榜挂帅”制,招募更多员工加入大语言模型的核心研发,“不管你是领兵打仗的将军还是想当元帅的士兵,希望你自告奋勇”。

继续阅读