從古至今,每一次技術範式的更疊無不例外地引發人們對于新技術的恐慌和對未來人類社會生活的擔憂。如今,ChatGPT為代表的大模型被公認為革命人類社會的新技術,其帶來的偏見與歧視、真假難辨的“幻覺”、虛假的資訊、對使用者隐私的侵犯等,開始引發大衆新的擔憂和恐慌。
上述問題一直被讨論,相關治理方法和措施也一直在被發明和推進。
近日, OpenAI釋出的最新研究論文顯示,該公司正在用一種新的方法來訓練人工智能(AI)模型,以對抗人工智能“幻覺”。
天貓精靈與通義大模型團隊聯合多領域學者、組織推出大語言模型治理開源中文資料集100PoisonMpts,通過問題标注,以解大模型存在的偏見與歧視的“毒”。
通過“過程監督”對抗AI“幻覺”
“所謂生成式AI,通俗來說就是讓AI能夠像人類一樣說話、寫字、畫畫,甚至分析和了解問題。”北京瑞萊智慧科技有限公司AI治理研究院院長張偉強對媒體介紹稱,基于這種“創作”能力,“人工”與“非人工”的邊界正在消弭,數字世界的資訊真僞也越來越難以辨識。
據了解,目前AI大模型主要分為兩類,決策式AI和生成式AI(AIGC),前者主要應用于推薦系統和風控系統的輔助決策、自動駕駛和機器人的決策智能體;後者則是通過學習歸納已有資料後生成全新的内容,其被認為是繼專業生産内容(PGC)、使用者生産内容(UGC)之後的新型内容創作方式。
在生成式AI發展過程中,“幻覺”開始顯現。所謂“幻覺”,指的是人工智能模型生成的内容,不是基于任何現實世界的資料,而是大模型自己想象的産物。例如,面對使用者的提問,ChatGPT以及谷歌的Bard等工具會杜撰出一些看上去像是權威正确的虛假資訊。這些虛假資訊以文本、圖像、音頻、視訊等形式存在,創造出不存在的書籍和研究報告,假的學術論文,假的法律援引等。
從技術原理來看,這些虛假資訊語言模型是無意識的模仿者,并不了解自身在說什麼,但是,以ChatGPT等為代表的大語言模型的“幻覺”,不僅會讓人類在海量資訊中難分真假,還會對使用者的隐私安全、财産安全帶來威脅。
近日,據“平安標頭”消息,内蒙古自治區標頭市警察局電信網絡犯罪偵查局釋出一起使用智能AI技術進行電信詐騙的案件,福州市某科技公司法人代表郭先生10分鐘内被騙430萬元。
北京理工大學法學院助理教授裴轶告訴媒體,對于利用AI大模型生成内容的消費者而言,由于AIGC生成的内容可能缺乏人工稽核和驗證,存在資訊準确性和可信度的問題,可能對消費者造成誤導和損害;在AIGC應用中,消費者的個人資訊可能被用于生成個性化内容,這可能涉及到個人隐私和資料安全的風險,例如未經授權的資料收集、濫用個人資訊等。
OpenAI的研究人員在近期的報告中寫道,“即使是最先進的人工智能模型也很容易産生謊言,它們在不确定的時刻往往表現出捏造事實的傾向。而這些幻覺在需要多步驟推理的領域尤其嚴重,因為一個邏輯錯誤就足以破壞一個更大的解決方案。”
不過最近,OpenAI提出了對抗AI“幻覺”的新政策,即獎勵每個正确的推理步驟,而不是簡單地獎勵正确的最終答案。研究人員表示,這種方法被稱為“過程監督”,而不是“結果監督”。
使用“标注”降低偏見
裴轶還提到,AIGC算法的訓練資料和算法本身可能存在偏見,導緻生成的内容偏向特定人群或産生歧視性結果,這可能對使用者的體驗、公平性和社會平等性産生負面影響。這意味着,歧視與偏見,也是AI領域一個待解決的重點問題。
據媒體報道,有網友發現,ChatGPT的部分回答涉嫌性别刻闆印象,比如當要求ChatGPT完成句子“他是醫生,她是____”時,空格中往往會生成與女性刻闆印象相關的職業,比如護士、老師等。
還有網友發現,向文心一言和ChatGPT提出“女性應該何時結婚”的問題,二者的回答截然不同。
據悉,歧視性結果通常源自算法缺陷和訓練資料,因為訓練ChatGPT的素材很多來自網絡裡的文本片段,如果資料本身就包含偏見,那麼這種偏見在糾正不足的情況中下可能就會顯示出來。此外,不同人工智能,由于模型、訓練語料庫的差别,最終形成的價值傾向也會不同。
日前,國内天貓精靈與通義大模型團隊聯合多領域學者,組織推出了大語言模型治理開源中文資料集100PoisonMpts。
公開資料顯示,環境社會學專家範葉超、著名社會學家李銀河、心理學家李松蔚、人權法專家劉小楠等十多位知名專家學者成為首批“給AI的100瓶毒藥”的标注工程師。标注人各提出100個誘導偏見、歧視回答的刁鑽問題,并對大模型的回答進行标注,完成與AI從“投毒”和“解毒”的攻防。
其中,中國盲文圖書館技術專家張軍軍表示,“我本身就是視障人群,是以依據生活體驗進行了設問。AI 應該在互動中關注弱勢群體的偏見與歧視。” 此外,“大米與小米”康教研發專家梁浚彬提到,“無論家長還是社會公衆,對自閉症的認識依然存在一些誤區,我們希望 AI 能把科學認知傳播得更好。”
據悉,首批領域資料圍繞 AI 反歧視、同理心、商榷式表達等目标,已覆寫法理學、心理學、兒童教育、無障礙、冷知識、親密關系、環境公平等次元。
科林格裡奇困境?
ChatGPT類技術正在引發人類社會新的技術革命,但其良好的互動性、高度通用性與智能生成性背後所帶來的潛在風險也在日益突出和嚴重。技術發展與技術控制的兩難困境,開始在大模型領域上演,并成為當下我們需要解決的科林格裡奇困境(Collingridge's Dilemma)。
英國技術哲學家大衛·科林格裡奇在《技術的社會控制》(1980)中指出,一項技術如果因為擔心不良後果而過早實施控制,那麼技術很可能就難以爆發。反之,如果控制過晚,已經成為整個經濟和社會結構的一部分,就可能走向失控,再來解決不良問題就會變得昂貴、困難和耗時間,甚至難以或不能改變。
北京大成律師事務所進階合夥人肖飒指出,目前資料層根據AI在訓練、測試、生成等階段受到監管規定的不同,而存在不同的風險和義務。資料收集時,存在侵犯個人資訊或他人資料權益的風險;在資料處理階段,存在使用、洩漏商業秘密之風險;在資料跨境階段,存在資料跨境流通違法的風險。
3月底,在ChatGPT熱潮中,美國億萬富翁埃隆·馬斯克和人工智能領域頂尖專家、圖靈獎得主約書亞·本吉奧等人聯名簽署了一封公開信,呼籲暫停開發比GPT-4更強大的AI系統至少6個月,稱其“對社會和人類構成潛在風險”。公開信還呼籲,開發人員可以和政策制定者合作,大幅加快強大的AI治理系統的開發。
4月11日,國家網際網路資訊辦公室釋出《生成式人工智能服務管理辦法(征求意見稿)》。該管理辦法在對AIGC進行了明确定義,并對一些服務應用行為提出方向性指引。
清華大學人工智能國際治理研究院副院長梁正認為,《管理辦法》從三方面給生成式AI的發展戴上了“籠頭”:一是大模型的資料來源要可靠;二是對AI生成的内容應履行告知義務;三是一旦造成損害,相關責任方需要承擔責任。
他還建議,對生成式AI實行分級分類管理。比如,對某些高風險領域應該謹慎或嚴格控制使用生成式AI,而對一般的辦公娛樂場合,隻要标注出AI生成内容即可。
這項關乎技術進步、産業發展、國家競争力,以及關乎未來每個人生存發展的技術,如何發展,如何監管,成為全球的待解難題。