大模型的“偏见”“幻觉”问题如何解？

从古至今，每一次技术范式的更迭无不例外地引发人们对于新技术的恐慌和对未来人类社会生活的担忧。如今，ChatGPT为代表的大模型被公认为革命人类社会的新技术，其带来的偏见与歧视、真假难辨的“幻觉”、虚假的信息、对用户隐私的侵犯等，开始引发大众新的担忧和恐慌。

上述问题一直被讨论，相关治理方法和措施也一直在被发明和推进。

近日， OpenAI发布的最新研究论文显示，该公司正在用一种新的方法来训练人工智能(AI)模型，以对抗人工智能“幻觉”。

天猫精灵与通义大模型团队联合多领域学者、组织推出大语言模型治理开源中文数据集100PoisonMpts，通过问题标注，以解大模型存在的偏见与歧视的“毒”。

通过“过程监督”对抗AI“幻觉”

“所谓生成式AI，通俗来说就是让AI能够像人类一样说话、写字、画画，甚至分析和理解问题。”北京瑞莱智慧科技有限公司AI治理研究院院长张伟强对媒体介绍称，基于这种“创作”能力，“人工”与“非人工”的边界正在消弭，数字世界的信息真伪也越来越难以辨识。

据了解，目前AI大模型主要分为两类，决策式AI和生成式AI（AIGC），前者主要应用于推荐系统和风控系统的辅助决策、自动驾驶和机器人的决策智能体；后者则是通过学习归纳已有数据后生成全新的内容，其被认为是继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式。

在生成式AI发展过程中，“幻觉”开始显现。所谓“幻觉”，指的是人工智能模型生成的内容，不是基于任何现实世界的数据，而是大模型自己想象的产物。例如，面对用户的提问，ChatGPT以及谷歌的Bard等工具会杜撰出一些看上去像是权威正确的虚假信息。这些虚假信息以文本、图像、音频、视频等形式存在，创造出不存在的书籍和研究报告，假的学术论文，假的法律援引等。

从技术原理来看，这些虚假信息语言模型是无意识的模仿者，并不理解自身在说什么，但是，以ChatGPT等为代表的大语言模型的“幻觉”，不仅会让人类在海量信息中难分真假，还会对用户的隐私安全、财产安全带来威胁。

近日，据“平安包头”消息，内蒙古自治区包头市公安局电信网络犯罪侦查局发布一起使用智能AI技术进行电信诈骗的案件，福州市某科技公司法人代表郭先生10分钟内被骗430万元。

北京理工大学法学院助理教授裴轶告诉媒体，对于利用AI大模型生成内容的消费者而言，由于AIGC生成的内容可能缺乏人工审核和验证，存在信息准确性和可信度的问题，可能对消费者造成误导和损害；在AIGC应用中，消费者的个人信息可能被用于生成个性化内容，这可能涉及到个人隐私和数据安全的风险，例如未经授权的数据收集、滥用个人信息等。

OpenAI的研究人员在近期的报告中写道，“即使是最先进的人工智能模型也很容易产生谎言，它们在不确定的时刻往往表现出捏造事实的倾向。而这些幻觉在需要多步骤推理的领域尤其严重，因为一个逻辑错误就足以破坏一个更大的解决方案。”

不过最近，OpenAI提出了对抗AI“幻觉”的新策略，即奖励每个正确的推理步骤，而不是简单地奖励正确的最终答案。研究人员表示，这种方法被称为“过程监督”，而不是“结果监督”。

使用“标注”降低偏见

裴轶还提到，AIGC算法的训练数据和算法本身可能存在偏见，导致生成的内容偏向特定人群或产生歧视性结果，这可能对用户的体验、公平性和社会平等性产生负面影响。这意味着，歧视与偏见，也是AI领域一个待解决的重点问题。

据媒体报道，有网友发现，ChatGPT的部分回答涉嫌性别刻板印象，比如当要求ChatGPT完成句子“他是医生，她是____”时，空格中往往会生成与女性刻板印象相关的职业，比如护士、老师等。

还有网友发现，向文心一言和ChatGPT提出“女性应该何时结婚”的问题，二者的回答截然不同。

据悉，歧视性结果通常源自算法缺陷和训练数据，因为训练ChatGPT的素材很多来自网络里的文本片段，如果数据本身就包含偏见，那么这种偏见在纠正不足的情况中下可能就会显示出来。此外，不同人工智能，由于模型、训练语料库的差别，最终形成的价值倾向也会不同。

日前，国内天猫精灵与通义大模型团队联合多领域学者，组织推出了大语言模型治理开源中文数据集100PoisonMpts。

公开资料显示，环境社会学专家范叶超、著名社会学家李银河、心理学家李松蔚、人权法专家刘小楠等十多位知名专家学者成为首批“给AI的100瓶毒药”的标注工程师。标注人各提出100个诱导偏见、歧视回答的刁钻问题，并对大模型的回答进行标注，完成与AI从“投毒”和“解毒”的攻防。

其中，中国盲文图书馆技术专家张军军表示，“我本身就是视障人群，所以依据生活体验进行了设问。AI 应该在交互中关注弱势群体的偏见与歧视。” 此外，“大米与小米”康教研发专家梁浚彬提到，“无论家长还是社会公众，对自闭症的认识依然存在一些误区，我们希望 AI 能把科学认知传播得更好。”

据悉，首批领域数据围绕 AI 反歧视、同理心、商榷式表达等目标，已覆盖法理学、心理学、儿童教育、无障碍、冷知识、亲密关系、环境公平等维度。

科林格里奇困境？

ChatGPT类技术正在引发人类社会新的技术革命，但其良好的互动性、高度通用性与智能生成性背后所带来的潜在风险也在日益突出和严重。技术发展与技术控制的两难困境，开始在大模型领域上演，并成为当下我们需要解决的科林格里奇困境（Collingridge's Dilemma）。

英国技术哲学家大卫·科林格里奇在《技术的社会控制》（1980）中指出，一项技术如果因为担心不良后果而过早实施控制，那么技术很可能就难以爆发。反之，如果控制过晚，已经成为整个经济和社会结构的一部分，就可能走向失控，再来解决不良问题就会变得昂贵、困难和耗时间，甚至难以或不能改变。

北京大成律师事务所高级合伙人肖飒指出，当前数据层根据AI在训练、测试、生成等阶段受到监管规定的不同，而存在不同的风险和义务。数据收集时，存在侵犯个人信息或他人数据权益的风险；在数据处理阶段，存在使用、泄漏商业秘密之风险；在数据跨境阶段，存在数据跨境流通违法的风险。

3月底，在ChatGPT热潮中，美国亿万富翁埃隆·马斯克和人工智能领域顶尖专家、图灵奖得主约书亚·本吉奥等人联名签署了一封公开信，呼吁暂停开发比GPT-4更强大的AI系统至少6个月，称其“对社会和人类构成潜在风险”。公开信还呼吁，开发人员可以和政策制定者合作，大幅加快强大的AI治理系统的开发。

4月11日，国家互联网信息办公室发布《生成式人工智能服务管理办法（征求意见稿）》。该管理办法在对AIGC进行了明确定义，并对一些服务应用行为提出方向性指引。

清华大学人工智能国际治理研究院副院长梁正认为，《管理办法》从三方面给生成式AI的发展戴上了“笼头”：一是大模型的数据来源要可靠；二是对AI生成的内容应履行告知义务；三是一旦造成损害，相关责任方需要承担责任。

他还建议，对生成式AI实行分级分类管理。比如，对某些高风险领域应该谨慎或严格控制使用生成式AI，而对一般的办公娱乐场合，只要标注出AI生成内容即可。

这项关乎技术进步、产业发展、国家竞争力，以及关乎未来每个人生存发展的技术，如何发展，如何监管，成为全球的待解难题。