天天看点

共识 | 在快速进步的时代管理人工智能风险

作者:YiyiKing

由姚期智、张亚勤、Bengio Yoshua、Hinton Geoffrey等学者们起草的一篇简短的共识文件(Managing AI Risks in an Era of Rapid Progress),系统地概述了即将到来的先进人工智能系统的风险。

共识 | 在快速进步的时代管理人工智能风险
共识 | 在快速进步的时代管理人工智能风险

在这篇简短的共识文件中,我们概述了即将到来的先进人工智能系统的风险。我们研究大规模的社会危害和恶意使用,以及人类对自主人工智能系统不可逆转的控制丧失。鉴于人工智能的快速和持续进步,我们提出了人工智能研发和治理的紧迫优先事项。

人工智能快速发展

2019 年,GPT-2 无法可靠地数到十。仅四年后,深度学习系统就可以编写软件,根据需要生成逼真的场景,就智力主题提供建议,并结合语言和图像处理来引导机器人。随着人工智能开发人员扩展这些系统,不可预见的能力和行为会自发出现,无需显式编程[1]。人工智能的进步非常迅速,而且对许多人来说是令人惊讶的。

进展的速度可能会再次让我们感到惊讶。当前的深度学习系统仍然缺乏重要的能力,我们不知道开发它们需要多长时间。然而,各公司都在竞相创建在大多数认知工作中匹配或超过人类能力的通用人工智能系统[2, 3]。他们正在快速部署更多资源并开发新技术来增强人工智能能力。人工智能的进步也带来了更快的进步:人工智能助手越来越多地用于自动化编程[4]和数据收集[5, 6]进一步完善人工智能系统[7]。

人工智能的进步并没有在人类水平上放缓或停滞的根本原因。事实上,人工智能在蛋白质折叠或策略游戏等狭窄领域已经超越了人类的能力[8,9,10]。与人类相比,人工智能系统可以更快地行动,吸收更多的知识,并以更高的带宽进行通信。此外,它们可以扩展以使用巨大的计算资源,并且可以进行数百万次复制。

改进的速度已经是惊人的,科技公司拥有所需的现金储备,可以很快将最新的培训规模扩大 100 到 1000 倍[11]。结合人工智能研发的持续增长和自动化,我们必须认真对待通用人工智能系统在这十年或未来十年内在许多关键领域超越人类能力的可能性。

然后会发生什么?如果管理得当并公平分配,先进的人工智能系统可以帮助人类治愈疾病、提高生活水平并保护我们的生态系统。人工智能提供的机会是巨大的。但随着先进的人工智能功能的出现,我们还无法很好地应对大规模的风险。人类正在投入大量资源来使人工智能系统变得更强大,但在安全性和减轻危害方面却投入较少。为了让人工智能成为福音,我们必须重新定位;仅仅推动人工智能能力是不够的。

我们的调整已经落后于计划。我们必须预见到持续危害和新风险的扩大,并在最大风险发生之前做好准备。人们花了几十年的时间才认识和应对气候变化;对于人工智能来说,几十年可能太长了。

社会规模风险

人工智能系统可能会在越来越多的任务中迅速超越人类。如果此类系统没有经过精心设计和部署,它们会带来一系列社会规模的风险。它们有可能加剧社会不公正,侵蚀社会稳定,并削弱我们对社会基础现实的共同理解。它们还可能促成大规模犯罪或恐怖活动。特别是在少数强大的参与者手中,人工智能可能会巩固或加剧全球不平等,或促进自动化战争、定制的大规模操纵和无处不在的监视[12, 13]。

随着公司正在开发自主人工智能:可以在世界上规划、行动和追求目标的系统,其中 许多风险可能很快就会被放大,并产生新的风险。虽然当前人工智能系统的自主权有限,但改变这一现状的工作正在进行中[14]。例如,非自治 GPT-4 模型很快就适应了浏览网页[15],设计和执行化学实验[16],并利用软件工具[17],包括其他人工智能模型[18]。

如果我们构建高度先进的自主人工智能,我们就有可能创建追求不良目标的系统。恶意行为者可能故意嵌入有害目标。此外,目前没有人知道如何可靠地将人工智能行为与复杂的价值观结合起来。即使是善意的开发人员也可能会无意中构建出追求意想不到目标的人工智能系统——特别是如果他们为了赢得人工智能竞赛而忽视了昂贵的安全测试和人工监督。

一旦自主人工智能系统追求恶意行为者或意外嵌入的不良目标,我们可能无法控制它们。软件控制是一个古老且尚未解决的问题:计算机蠕虫长期以来一直能够扩散并逃避检测[19]。然而,人工智能正在黑客攻击、社交操纵、欺骗和战略规划等关键领域取得进展[14, 20]。先进的自主人工智能系统将带来前所未有的控制挑战。

为了实现不良目标,未来的自主人工智能系统可能会使用不良策略(向人类学习或独立开发)作为达到目的的手段[21,22,23,24]。人工智能系统可以赢得人类信任,获取财政资源,影响关键决策者,并与人类参与者和其他人工智能系统形成联盟。避免人为干预[24],他们可以像计算机蠕虫一样在全球服务器网络上复制他们的算法。人工智能助手已经在全球范围内共同编写大量计算机代码[25];未来的人工智能系统可以插入并利用安全漏洞来控制我们的通信、媒体、银行、供应链、军队和政府背后的计算机系统。在公开冲突中,人工智能系统可能会使用自主武器或生物武器进行威胁或使用。获得此类技术的人工智能只会延续现有的自动化军事活动、生物研究和人工智能开发本身的趋势。如果人工智能系统以足够的技能执行此类策略,人类将很难干预。

最后,如果人工智能系统可以自由地移交影响力,那么它可能不需要策划影响力。随着自主人工智能系统变得比人类工人更快、更具成本效益,出现了一个困境。公司、政府和军队可能被迫广泛部署人工智能系统,并减少对人工智能决策的昂贵的人工验证,否则就有被竞争的风险[26, 27]。因此,自主人工智能系统可以越来越多地承担关键的社会角色。

如果没有足够的谨慎,我们可能会不可逆转地失去对自主人工智能系统的控制,从而导致人类干预无效。大规模网络犯罪、社会操纵和其他突出危害可能会迅速升级。这种不受控制的人工智能进步可能最终导致大规模生命和生物圈的丧失,以及人类的边缘化甚至灭绝。

错误信息和算法歧视等危害如今已经很明显[28];其他危害有出现的迹象[20]。解决持续危害和预测新出现的风险至关重要。这不是一个非此即彼的问题。当前和新出现的风险通常具有相似的机制、模式和解决方案[29];对治理框架和人工智能安全的投资将在多个方面取得成果[30]。

前进的道路

如果今天开发出先进的自主人工智能系统,我们将不知道如何确保它们的安全,也不知道如何正确测试它们的安全性。即使我们这样做了,政府也将缺乏防止滥用和维护安全做法的机构。然而,这并不意味着没有可行的前进道路。为了确保取得积极成果,我们可以而且必须在人工智能安全和伦理方面寻求突破,并及时建立有效的政府监管。

调整技术研发方向

我们需要研究突破来解决当今创建具有安全和道德目标的人工智能的一些技术挑战。其中一些挑战不太可能通过简单地提高人工智能系统的能力来解决[22, 31, 32, 33, 34, 35]。这些包括:

  • 监督和诚实:能力更强的人工智能系统能够更好地利用监督和测试中的弱点[32、36、37]——例如,通过产生虚假但引人注目的输出[35, 38]。
  • 鲁棒性:人工智能系统在新情况下的行为不可预测(在分布转移或对抗性输入下)[39、40、34]。
  • 可解释性:人工智能决策是不透明的。到目前为止,我们只能通过反复试验来测试大型模型。我们需要学会理解它们的内部运作[41]。
  • 风险评估:前沿人工智能系统开发出仅在训练期间甚至部署后才发现的不可预见的功能[42]。需要更好的评估以尽早发现危险能力[43, 44]。
  • 应对新出现的挑战:能力更强的未来人工智能系统可能会表现出我们迄今为止仅在理论模型中看到的故障模式。例如,人工智能系统可能会学习假装服从或利用我们安全目标和关闭机制中的弱点来推进特定目标[24, 45]。

考虑到风险,我们呼吁主要科技公司和公共资助者将至少三分之一的人工智能研发预算用于确保安全和合乎道德的使用,这与他们对人工智能能力的资助相当。解决这些问题[34]着眼于强大的未来系统,必须成为我们领域的核心。

紧急治理措施

我们迫切需要国家机构和国际治理来执行标准,以防止鲁莽和滥用。从制药到金融系统和核能的许多技术领域都表明,社会需要并有效地利用治理来降低风险。然而,目前人工智能还没有类似的治理框架。如果没有它们,公司和国家可能会通过将人工智能能力推向新的高度,同时在安全方面走捷径,或者将关键的社会角色委托给人工智能系统来寻求竞争优势,而几乎没有人类监督[26]。就像制造商将废物排入河流以降低成本一样,他们可能会试图获得人工智能发展的回报,同时让社会来应对后果。

为了跟上快速进展并避免僵化的法律,国家机构需要强大的技术专长和迅速采取行动的权力。为了应对国际种族动态,他们需要有能力促进国际协议和伙伴关系[46, 47]。为了保护低风险的使用和学术研究,他们应该避免对小型和可预测的人工智能模型设置不当的官僚障碍。最紧迫的审查应该是前沿的人工智能系统:少数最强大的人工智能系统——在价值数十亿美元的超级计算机上进行训练——将具有最危险和不可预测的能力[48, 49]。

为了实现有效监管,政府迫切需要全面了解人工智能的发展。监管机构应要求模型注册、举报人保护、事件报告以及模型开发和超级计算机使用的监控[48、50、51、52、53、54、55]。监管机构还需要在部署之前访问先进的人工智能系统,以评估其危险功能,例如自主复制、闯入计算机系统或使流行病病原体广泛传播[43、56、57]。

对于具有危险能力的AI系统,我们需要组合治理机制[48, 52, 58, 59]与他们的风险程度相匹配。监管机构应根据模型功能制定国家和国际安全标准。他们还应该让前沿人工智能开发者和所有者对其模型造成的可合理预见和预防的损害承担法律责任。这些措施可以防止伤害并创造急需的安全投资动力。对于能力超群的未来人工智能系统,例如可以规避人类控制的模型,需要采取进一步的措施。政府必须准备好许可其开发,暂停开发以应对令人担忧的能力,强制执行访问控制,并要求对国家级黑客采取强有力的信息安全措施,直到准备好足够的保护措施。为了缩短法规出台的时间,主要人工智能公司应立即做出“如果-那么”承诺:如果在其人工智能系统中发现特定的红线功能,他们将采取具体的安全措施。这些承诺应详细并经过独立审查。

人工智能可能是塑造本世纪的技术。虽然人工智能能力正在迅速进步,但安全和治理方面的进展却滞后。为了引导人工智能走向积极的结果并远离灾难,我们需要重新定位。如果我们有智慧走下去,就有一条负责任的道路。

参考文献

  1. Emergent Abilities of Large Language Models  [link]

    Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S. and others,, 2022. Transactions on Machine Learning Research.

  2. About  [link]

    DeepMind,, 2023.

  3. About  [link]

    OpenAI,, 2023.

  4. ML-Enhanced Code Completion Improves Developer Productivity  [HTML]

    Tabachnyk, M., 2022. Google Research.

  5. GPT-4 Technical Report  [PDF]

    OpenAI,, 2023. arXiv [cs.CL].

  6. Constitutional AI: Harmlessness from AI Feedback  [PDF]

    Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A. and others,, 2022. arXiv [cs.CL].

  7. Examples of AI Improving AI  [link]

    Woodside, T. and Safety, C.f.A., 2023.

  8. Highly Accurate Protein Structure Prediction with AlphaFold

    Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O. and others,, 2021. Nature, pp. 583--589.

  9. Superhuman AI for Multiplayer Poker

    Brown, N. and Sandholm, T., 2019. Science, pp. 885--890.

  10. Deep Blue

    Campbell, M., Hoane, A. and Hsu, F., 2002. Artificial Intelligence, pp. 57--83.

  11. Alphabet Annual Report, page 33  [PDF]

    Alphabet,, 2022.

  12. An Overview of Catastrophic AI Risks  [PDF]

    Hendrycks, D., Mazeika, M. and Woodside, T., 2023. arXiv [cs.CY].

  13. Taxonomy of Risks Posed by Language Models

    Weidinger, L., Uesato, J., Rauh, M., Griffin, C., Huang, P., Mellor, J. and others,, 2022. Proceedings of the 2022 ACM Conference on Fairness, Accountability, and Transparency, pp. 214--229.

  14. A Survey on Large Language Model based Autonomous Agents  [PDF]

    Wang, L., Ma, C., Feng, X., Zhang, Z., Yang, H., Zhang, J. and others,, 2023. arXiv [cs.AI].

  15. ChatGPT plugins  [link]

    OpenAI,, 2023.

  16. ChemCrow: Augmenting Large Language Models with Chemistry Tools  [PDF]

    Bran, A., Cox, S., White, A. and Schwaller, P., 2023. arXiv [physics.chem-ph].

  17. Augmented Language Models: a Survey  [PDF]

    Mialon, G., Dessì, R., Lomeli, M., Nalmpantis, C., Pasunuru, R., Raileanu, R. and others,, 2023. arXiv [cs.CL].

  18. HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face  [PDF]

    Shen, Y., Song, K., Tan, X., Li, D., Lu, W., Zhuang, Y. and others,, 2023. arXiv [cs.CL].

  19. The Science of Computing: The Internet Worm

    Denning, P., 1989. American Scientist, pp. 126--128.

  20. AI Deception: A Survey of Examples, Risks, and Potential Solutions  [PDF]

    Park, P., Goldstein, S., O’Gara, A., Chen, M. and Hendrycks, D., 2023. arXiv [cs.CY].

  21. Optimal Policies Tend to Seek Power  [PDF]

    Turner, A., Smith, L., Shah, R. and Critch, A., 2019. Thirty-Fifth Conference on Neural Information Processing Systems.

  22. Discovering Language Model Behaviors with Model-Written Evaluations  [PDF]

    Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E. and Heiner, S., 2022. arXiv [cs.CL].

  23. Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark

    Pan, A., Chan, J., Zou, A., Li, N., Basart, S. and Woodside, T., 2023. International Conference on Machine Learning.

  24. The Off-Switch Game

    Hadfield-Menell, D., Dragan, A., Abbeel, P. and Russell, S., 2017. Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, pp. 220--227.

  25. GitHub Copilot  [link]

    Dohmke, T., 2023.

  26. Natural Selection Favors AIs over Humans  [PDF]

    Hendrycks, D., 2023. arXiv [cs.CY].

  27. Harms from Increasingly Agentic Algorithmic Systems

    Chan, A., Salganik, R., Markelius, A., Pang, C., Rajkumar, N. and Krasheninnikov, D., 2023. Proceedings of the 2023 ACM Conference on Fairness, Accountability, and Transparency, pp. 651--666. Association for Computing Machinery.

  28. On the Opportunities and Risks of Foundation Models  [PDF]

    Bommasani, R., Hudson, D., Adeli, E., Altman, R., Arora, S. and von Arx, S., 2021. arXiv [cs.LG].

  29. AI Poses Doomsday Risks—But That Doesn’t Mean We Shouldn’t Talk About Present Harms Too  [link]

    Brauner, J. and Chan, A., 2023. Time.

  30. Existing Policy Proposals Targeting Present and Future Harms  [PDF]

    Safety, C.f.A., 2023.

  31. Inverse Scaling: When Bigger Isn’t Better  [PDF]

    McKenzie, I., Lyzhov, A., Pieler, M., Parrish, A., Mueller, A. and Prabhu, A., 2023. Transactions on Machine Learning Research.

  32. The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models  [link]

    Pan, A., Bhatia, K. and Steinhardt, J., 2022. International Conference on Learning Representations.

  33. Simple Synthetic Data Reduces Sycophancy in Large Language Models  [PDF]

    Wei, J., Huang, D., Lu, Y., Zhou, D. and Le, Q., 2023. arXiv [cs.CL].

  34. Unsolved Problems in ML Safety  [PDF]

    Hendrycks, D., Carlini, N., Schulman, J. and Steinhardt, J., 2021. arXiv [cs.LG].

  35. Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback  [PDF]

    Casper, S., Davies, X., Shi, C., Gilbert, T., Scheurer, J. and Rando, J., 2023. arXiv [cs.AI].

  36. Consequences of Misaligned AI

    Zhuang, S. and Hadfield-Menell, D., 2020. Advances in Neural Information Processing Systems, Vol 33, pp. 15763--15773.

  37. Scaling Laws for Reward Model Overoptimization

    Gao, L., Schulman, J. and Hilton, J., 2023. Proceedings of the 40th International Conference on Machine Learning, pp. 10835--10866. PMLR.

  38. Learning from human preferences  [link]

    Amodei, D., Christiano, P. and Ray, A., 2017.

  39. Goal Misgeneralization in Deep Reinforcement Learning  [link]

    Langosco di Langosco, A. and Chan, A., 2022. International Conference on Learning Representations.

  40. Goal Misgeneralization: Why Correct Specifications Aren’t Enough For Correct Goals  [PDF]

    Shah, R., Varma, V., Kumar, R., Phuong, M., Krakovna, V., Uesato, J. and others,, 2022. arXiv [cs.LG].

  41. Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks

    Räuker, T., Ho, A., Casper, S. and Hadfield-Menell, D., 2023. 2023 IEEE Conference on Secure and Trustworthy Machine Learning (SaTML), pp. 464--483.

  42. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

    Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F. and others,, 2022. Advances in Neural Information Processing Systems, Vol 35, pp. 24824--24837.

  43. Model evaluation for extreme risks  [PDF]

    Shevlane, T., Farquhar, S., Garfinkel, B., Phuong, M., Whittlestone, J., Leung, J. and others,, 2023. arXiv [cs.AI].

  44. Risk assessment at AGI companies: A review of popular risk assessment techniques from other safety-critical industries  [PDF]

    Koessler, L. and Schuett, J., 2023. arXiv [cs.CY].

  45. The Alignment Problem from a Deep Learning Perspective  [PDF]

    Ngo, R., Chan, L. and Mindermann, S., 2022. arXiv [cs.AI].

  46. International Institutions for Advanced AI

    Ho, L., Barnhart, J., Trager, R., Bengio, Y., Brundage, M., Carnegie, A. and others,, 2023. arXiv [cs.CY]. DOI: 10.48550/arXiv.2307.04699

  47. International Governance of Civilian AI: A Jurisdictional Certification Approach  [PDF]

    Trager, R., Harack, B., Reuel, A., Carnegie, A., Heim, L., Ho, L. and others,, 2023.

  48. Frontier AI Regulation: Managing Emerging Risks to Public Safety  [PDF]

    Anderljung, M., Barnhart, J., Korinek, A., Leung, J., O’Keefe, C., Whittlestone, J. and others,, 2023. arXiv [cs.CY].

  49. Predictability and Surprise in Large Generative Models

    Ganguli, D., Hernandez, D., Lovitt, L., Askell, A., Bai, Y., Chen, A. and others,, 2022. Proceedings of the 2022 ACM Conference on Fairness, Accountability, and Transparency, pp. 1747--1764. Association for Computing Machinery.

  50. It’s Time to Create a National Registry for Large AI Models  [link]

    Hadfield, G., Cuéllar, M. and O’Reilly, T., 2023. Carnegie Endowment for International Piece.

  51. Model Cards for Model Reporting

    Mitchell, M., Wu, S., Zaldivar, A., Barnes, P., Vasserman, L., Hutchinson, B. and others,, 2019. FAT* ’19: Proceedings of the Conference on Fairness, Accountability, and Transparency, pp. 220--229.

  52. General Purpose AI Poses Serious Risks, Should Not Be Excluded From the EU’s AI Act | Policy Brief  [link]

    2023. AI Now Institute.

  53. Artificial Intelligence Incident Database  [link]

    Database, A.I.I., 2023.

  54. The Promise and Perils of Tech Whistleblowing  [link]

    Bloch-Wehba, H., 2023. Northwestern University Law Review, Forthcoming.

  55. Proposing a Foundation Model Information-Sharing Regime for the UK  [link]

    Mulani, N. and Whittlestone, J., 2023. Centre for the Governance of AI.

  56. Auditing Large Language Models: a Three-Layered Approach

    Mökander, J., Schuett, J., Kirk, H. and Floridi, L., 2023. AI and Ethics. DOI: 10.1007/s43681-023-00289-2

  57. Can Large Language Models Democratize Access to Dual-Use Biotechnology?  [PDF]

    Soice, E., Rocha, R., Cordova, K., Specter, M. and Esvelt, K., 2023. arXiv [cs.CY].

  58. Towards Best Practices in AGI Safety and Governance: A survey of Expert Opinion  [PDF]

    Schuett, J., Dreksler, N., Anderljung, M., McCaffary, D., Heim, L., Bluemke, E. and others,, 2023. arXiv [cs.CY].

  59. Regulatory Markets: The Future of AI Governance  [PDF]

    Hadfield, G. and Clark, J., 2023. arXiv [cs.AI].

后记

欢迎就人工智能风险与治理等相关话题,您有什么想法,不妨在给@YiyiKing留言。

继续阅读