天天看点

生成式人工智能的发展趋势和治理策略

作者:小老庄儿
生成式人工智能的发展趋势和治理策略

武丹/制图

特约撰稿|邓辉

责编|薛应军

正文共2781个字,预计阅读需8分钟▼

2023年3月,ChatGPT迭代产品GPT-4正式发布。这促使国内许多互联网头部企业纷纷致力于打造中文语言预训练大模型,计划集中发布相关的生成式人工智能应用产品。与此同时,世界上主要国家和地区也从法律法规、伦理规范、重点政策等方面出台相关保障措施。今年4月,大陆互联网信息办公室和美国商务部分别公布针对ChatGPT等生成式人工智能的监管法规,向社会公开征求意见。因此,加快建设大陆人工智能现代化产业体系、以高质量发展支撑中国式现代化建设,应当准确把握生成式人工智能的产业发展趋势,推动完善安全治理规则体系。

生成式人工智能发展的总体状况

核心技术持续发展,关键能力显著增强。一是以中文语料为基础建立大语言模型,参数规模达到千亿级别。比如,百度“文心”和阿里“通义”等大模型在训练数据中大量使用中文文本,涵盖百科、新闻、小说、行业等不同领域,参数规模达2000多亿,腾讯“混元”大模型参数规模已超万亿。二是搭建深度学习平台,提供有效、快捷、完整的训练框架。比如,百度研发了企业级服务平台“文心千帆”,京东开发了自己的“ChatJD智能人机对话平台”。三是提升深度合成能力,具备多模态任务处理能力。比如,得益于数字孪生技术的发展,阿里“通义”、网易“天音”等大模型能够处理文本、语音、图片和动作在内的多种跨模态任务,能够生成音乐、数字图像和动画视频等内容。

产品类型逐渐丰富,场景应用趋于多元。随着生成式人工智能赛道的细分,相关人工智能产品的类型和应用场景愈加丰富。一是产品功能从文本扩展到声音、视觉内容生成。比如,网易“天音”可通过文字生成歌曲,支持作词、作曲、编曲、演唱等,字节跳动“剪映”可通过文字生成视频。二是应用场景横向扩展,向不同行业延伸。比如,京东“ChatJD”计划在零售、金融等领域承担内容生成、人机对话和用户意图理解等工作,网易“子曰”则在互联网语言教育中推出“AI口语老师”服务。三是促进场景之间的交互融合,寻求新的发展方向。比如,科大讯飞拟通过“语音AI+教育”以高度沉浸式体验深挖教育行业的新特点,研发面向不同端口的智慧教育产品,平衡教育资源、普及全民教育。

产业规模发展迅速,生态建设日益完善。一是立足自身战略规划,奋力开拓新领域。比如,百度、腾讯、阿里、华为、网易和字节跳动等企业分别结合自身在搜索引擎、社交、电商、通讯、教育和短视频等行业的优势,向智能办公、远程教育等其他领域不断扩展。二是赋能产业升级,促进商业模式变革。比如,腾讯“混元”采取多元化业务布局,广泛运用于微信搜索、腾讯广告,极大提升了搜索体验和广告推荐精准度。三是接入整体生态链条,实现商业化纵深应用。比如,腾讯“混元”已运用于搜索领域,在未来还将进一步接入QQ、微信、游戏、短视频、广告、TOB端等业务,阿里“通义”则有望在天猫、钉钉、高德地图、淘宝、优酷、盒马等关联应用上搭载以获得更大发展空间。

生成式人工智能治理的实践难题

尽管大陆生成式人工智能应用迅速跟进,但在产业发展上仍可能面临一些问题。一是大型语言模型的参数规模和性能仍需提升。比如,百度、腾讯、360、科大讯飞等获取非简体中文的信息有限,导致作为训练数据的语料内容并不全面。而大陆目前表现最优的语言大模型在性能上弱于GPT-4,其他大模型只稍强于GPT-2或接近ChatGPT。二是生成式AI简单植入互联网产品,没有形成变革性的应用场景,也没有改变用户与产品之间的交互方式,更没能显著提高产品服务的效率。三是大陆生成式人工智能的研发和部署高度同质化,主要扎堆社交、消费、电商等热门领域,垂直细分领域应用尚不充分,难以满足个性化消费和国家战略发展需求,也不利于人工智能产业的高质量发展。

大陆生成式人工智能应用生成的文本、图像和视频等面临着极大的安全治理挑战。一是侵害民事权益。比如,通过没有合法来源的训练数据进行创造、擅自留存或违法向他人提供用户的输入信息和使用记录,可能引发对他人个人信息权益和知识产权的侵害。二是网络虚假信息泛滥。深度合成后的文本和音视频难辨真伪,可能被利用充当网络智能水军,导致网络平台出现大量难以识别和监管的虚假信息。三是影响意识形态安全、政治安全、国家安全。如果经刻意选择预训练数据或者诱导提问,可能生成攻击大陆基本政策方针和社会制度、违反法律规定、固化价值偏见、挑战道德伦理或带有歧视性的内容。四是其他扰乱经济秩序和社会秩序的行为。比如,非法留存或向他人提供人机问答信息,可能导致商业秘密泄露。同时,由于生成式人工智能在商业全链条生态中的巨大作用,可能被利用加剧行业垄断或不正当竞争活动。

生成式人工智能监管的优化路径

及时更新新一代人工智能发展规划。一是加大对生成式人工智能研发、部署和应用的投入,推动产业发展合理布局,避免高度同质化的重复性建设,防止盲目跟风的人工智能产业发展“泡沫”,促使科技创新和产业发展从对ChatGPT的“跟跑”到“并跑”乃至“领跑”的跨越。二是正确引导生成式人工智能产业发展。在充分尊重市场竞争规律和企业自主经营前提下,整合算法、数据、算力和平台等方面资源,支持和鼓励关键重点领域生成式人工智能的研发和应用,力争在参数规模、多模态任务等方面取得突破性发展。三是总结上海、深圳等地的立法经验,推动出台全国统一的人工智能产业发展促进条例。根据科技创新、产业发展和国家战略需求等因素制定符合大陆人工智能发展的方向和企业重点目录,对纳入目录的企业进行持续观察和重点扶持。

持续推动生成式人工智能安全治理,确保安全可控可信。一是建立人工智能应用安全评估和审查制度,加快研究制定风险管理指南和使用标准,尤其是在关系国家安全、国民经济命脉、重要民生、重大公共利益等领域采取更加严格的管理制度和安全防范措施,要求慎重使用生成式人工智能应用,不上传涉及国家秘密和商业秘密文件及数据、信息关键基础设施或系统的核心代码等相关内容,确保核心领域、关键领域内生成式人工智能应用的安全。二是以生成式人工智能应用服务提供者为治理枢纽,强化训练数据输入端和生成内容输出端的主体责任,采取内容过滤等措施避免生成影响国家安全和统一、民族团结以及其他扰乱经济秩序和社会秩序的违法性、歧视性内容,促进生成式人工智能健康发展和规范应用。三是优化升级人工智能安全监管模式,适时更新安全监管理念和方式。在既有网络信息安全监管基础上,不仅应当要求应用服务提供者依法报送算法、技术和训练方法等必要信息并采取可识别水印或有效警示信息等人工标注防范风险,同时还可引入风险管理、影响评估、监管沙盒、敏捷治理等制度和理念,防止产生虚假和有害的人工智能生成内容对社会造成负面影响。

本文为中国人民公安大学基本科研业务项目“个人信息处理活动民事责任配置研究”(项目编号:2022JKF406)的阶段性成果。

(作者单位:中国人民公安大学法学院、数据法学研究院)

继续阅读