“源1.0会不会替代记者?”
这确实是棘手的问题。“源1.0”是全球最大规模中文ai巨量模型,它能诗、能话、能写小说、能写新闻,也能激起现场数十位记者的复杂心情。但刘军并没有直接回答此问题:“李白斗酒诗百篇,贾岛二句三年得。未来‘源1.0’会成为每个人的‘助手’,会成为李白、贾岛这样的‘助手’。”

确实如此。
正如浪潮信息副总裁、浪潮信息ai&hpc产品线总经理刘军所说,人工智能是“助手”和“工具”,浪潮则希望站在人工智能的肩膀上思考,也希望科技产业,能站在人工智能的肩膀上完成创新。aicc 2021期间,浪潮人工智能研究院正式发布“源1.0”,它是目前全球最大规模的中文ai巨量模型,参数规模高达2457亿,训练采用的中文数据集达5000gb。
现在回想,浪潮发布“巨量模型”,应该是早有布局。2018年,浪潮已提出论断——计算力就是生产力。2020年,浪潮又陆续提出“智算中心”、“元脑生态”等概念,这更为“巨量模型”落地,奠定了算力和生态基础。
随后即是“源1.0”。
虽然基础已经奠定,但从计算力到生产力,中间却是鸿沟。这就是从感知智能,到认知智能间的鸿沟,从专用智能,到通用智能间的鸿沟。因为现在的人工智能,还很难理解场景与对象之间的关系,也很难形成微观与宏观之间的回环交互。
企业用户和生态伙伴,对此更显力不从心。他们关注应用,但无法承担动辄上万颗gpu的算力成本,也无法屏蔽多元算力的复杂性;他们也关注算法,但同样无法完成t级数据的采集和训练。
“巨量模式”的出现,提供了解决问题的方向。2020年,openai推出gpt-3模式,参数规模达到1750亿,这将语言模型,乃至人工智能,都推向了新高度。此后谷歌、微软及智源等机构和企业,也陆续推出“大模型”,英伟达联合微软,更是推出模型参数达到5300亿的mt-nlg。
浪潮“源1.0”也是如此。其是复杂的巨系统,也是企业用户和生态伙伴所必须的算法基础设施。“源1.0”更将推动人工智能,在小样本学习、泛化能力、约束推理、逻辑推理等方面,实现关键性突破。
举例说明,传统人工智能局限于一个萝卜一个坑,精雕细刻出来的一个数据模型,只能落地于一个应用场景,但企业应用场景何止成百上千。“巨量模式”支持的小样本学习,则解决了这一问题,以最少的数据量训练出最通用的模型,并适用于不同的场景。
即使如此,“巨大”也并非是浪潮的追求。硅谷创业圈有“十倍思维”的概念,新产品要比别人好十倍,才好意思拿出手。或许,这就产生误解由来——以大模型、大算力、大数据为代表的“十倍思维”,正在“暴力美学”地推动ai产业。
但这并非ai产业发展的核心逻辑。碎片化的“小模型”,对人工智能的推动已是无能为力。“小模型”并无法在小样本学习、泛化能力等方面,表现出良好的价值,只有随着参数规模的逐渐增长,相关能力会得到持续改进。
当然,“暴力美学”也确实是种美学。若对比十年前,起步内存只有16gb,主频只有1ghz的iphone 4,现在的iphone 13确实是“暴力美学”,但想想十年后产业的发展,或许现在的“暴力”也会被视为太温柔,或许那时就会感慨:是算力限制了我们想象力、模型限制了我们的想象力。
不仅如此
在“源1.0”的“图灵测试”中,将“源1.0”模型生成的对话、小说续写、新闻、诗歌、对联,与由人类创作的同类作品进行混合,并由人群进行分辨。测试结果表明,人群能够准确分辨人与“源1.0”作品差别的成功率已低于50%。
这就是“源1.0”的能力。
但“源1.0”不仅有诗,更有产业的远方。“源1.0”聚焦自然语言处理领域,涉及典型应用场景包括:自动生成报告、智能助手、智能客服、智能运维、文字识别、文本搜索、智能翻译等。
看看酒店大堂中,只会卖萌的“花瓶”机器人;听听智能客服里,充满“套路”的所问非所答。你就知道现在的自然语言理解,到底有多少“水分”。以专业语言解释,坐在你对面不一定是条“狗”,但一定是“逻辑顺序引导的计算机系统”,它只是在按照预定步骤,进行“逻辑引导”。
改变也将由此而来。“源1.0”将加快深度问答、多轮对话、记忆网络等关键技术,锤炼打磨的速度,也将推动场景的复制速度。模型经过一次训练,即可用于执行不同任务,就像学会写诗的模型,也将可以写小说,会写散文的模型,也将会写论文,这都是在推动从专用人工智能,到通用人工智能的发展。
与此同时。
基于“源1.0”的开源开放计划,也同步推出。浪潮将通过开源开放的ai算法基础设施,进一步提升自然语言理解领域的ai研究和创新实力,让更多行业能够获取到巨量模型技术带来的生产方式、生产效率变革。
而且这一次,浪潮开放的相当彻底。计划初期,浪潮将面向高校和科研机构、元脑生态伙伴,以及智算中心三类伙伴,提供从数据集,到api、源代码的全面开放。这显然是覆盖了“产-学-研-用”的完整ai生态。
“源1.0”几乎将近5年,中文互联网中浩如烟海的内容全部阅读。通过自研的文本分类模型,其获得了5tb高质量中文数据集。同时,“源1.0”还阅读了约2000个亿词汇,这相当一个人1万年的阅读量。即使是章太炎、王国维这样的“书虫”,也绝不可能达到如此高度。
现在浪潮将这些积累全部开放,将算法基础设施,完整地开放给“产-学-研-用”生态伙伴。也就是说,辅以智算中心这样的算力基础设施,从计算力到生产力间的技术鸿沟、人才鸿沟、生态鸿沟,都将被弥补,“产-学-研-用”之间的合作,终将协同于“源1.0”。此时的浪潮,也将真正成为ai的有“源”人。