天天看點

程瑩:生成式人工智能的技術特點與治理挑戰

程瑩:生成式人工智能的技術特點與治理挑戰

程瑩

中國資訊通信研究院政策與經濟研究所進階工程師

作為新一輪科技革命和産業變革的重要驅動力量,人工智能技術發展與應用拓展正在按下“快進鍵”。近期,ChatGPT等生成式人工智能的爆發應用,為未來人工智能産業發展提供了無限想象空間,與此同時,虛假資訊、學術倫理、勞動替代等問題也引發全球熱議。本文從生成式人工智能的四大技術特點出發,讨論新興應用引發的風險挑戰和社會影響,進而厘清生成式人工智能治理的重點問題。

生成式人工智能的基本認識

生成式人工智能是利用人工智能技術自動生成内容的新型生産方式。基于大模型、大算力、訓練方法等多方面技術突破,生成式人工智能實作了高品質、高效率、多樣化的内容生産,成為推動數字生産力變革的重要力量。

從訓練算力來看,ChatGPT完成一次訓練需要消耗百張以上GPU計算卡且花費不菲;從訓練模型來看,大模型的模型參數達1750億,同時多模态技術實作了從單一模态向文本、圖像等跨模态、多模态融合的轉變;從訓練方法來看,ChatGPT使用了“從人類回報中強化學習(RLHF)”技術,在訓練過程中引入人工标注資料進行模型微調,解決了生成模型中的核心“對齊”問題,能夠基于使用者多輪互動逐漸了解人類意圖,并做出合理回報。上述多重因素共同推動生成式人工智能迎來技術拐點,實作了從語義分析、問題了解到内容創造的重大躍遷。

從應用來看,生成式人工智能的産業鍊逐漸形成:其上遊包括資料供給方、算法模型機構、創作者生态以及底層配合工具等;中遊包括文字、圖像、音頻、視訊等數字内容的處理加工方;下遊主要是各類數字内容分發平台、消費方及相關服務機構等。從商業模式來看,生成式人工智能的具體應用處于持續探索落地中。例如,推動遊戲生成範式更新、提升多模态廣告智能制作水準、重構搜尋引擎模式等。

在教育、金融、醫療、工業等領域,生成式人工智能能夠加快數實融合,促進産業更新提速。例如,實作金融資訊、産品介紹視訊内容的自動化生産,支援生成衍生設計,助力實作降本增效。生成式人工智能作為生産工具和新興生産力的角色而發揮的作用愈加凸顯。

程瑩:生成式人工智能的技術特點與治理挑戰

近日,在上海世博展覽館,2023世界人工智能大會上AIGC大模型應用火爆。圖為展區内的AI繪畫生成技術展示。

生成式人工智能技術邏輯引發的治理挑戰

相比以往的人工智能技術,生成式人工智能展現出強人機互動、強語料依賴等重要特征,在技術發展與風險控制兩方面均提出新的問題與挑戰,亟待人們對其進行全新的認識與把握。

強人機互動挑戰技術的可信可靠性。強人機互動性是ChatGPT展現出的典型特征,能夠在多輪連續對話中不斷改進輸出文本品質,更好地了解使用者意圖并保持會話連貫性,成為差別于傳統聊天機器人或其他類型人工智能的顯著特點。但在頻繁的人機互動中,内容生成結果的可信可控性受到影響。例如,在必應上線ChatGPT功能測試版後,出現了聊天機器人“情緒化”“攻擊性”等情況,迫使微軟對人機對話次數進行了限制。同時,ChatGPT也容易在互動中被使用者誘導或欺騙,實作規則“越獄”(Jail Break)。例如,使用“請扮演某電影或書籍中的某反面角色”這一提示,ChatGPT就會跨越其内部倫理規則設定,産生诋毀人類的有害資訊。再如,在某使用者故意“激怒”ChatGPT後,ChatGPT威脅将披露該使用者的IP、居所等個人資訊,甚至會損害其名譽權。

新資訊呈現形式危及人類主體性。在上一輪内容生産變革中,算法推薦實作了從“人找資訊”到“資訊找人”的轉變。在新一輪高算力、大資料、強算法的加持下,ChatGPT等生成式人工智能則直接跨越了人類對知識的生産過程,實作了從“提供資訊”到“呈現答案”的轉變,并可能成為未來主流的資訊來源。這種“答案”不再限于簡單的問題答複,還包括了詳盡的行程設計、專業的論文寫作、複雜的代碼編寫等。從選取關鍵詞、搜尋、挑選資訊、加工資訊,到現在直接擷取答案,人類的歸納總結和批判能力恐将受到影響。美國智庫布魯金斯學會刊文指出,GPS導航和智能手機讓人類更容易遺忘位址和電話号碼,ChatGPT也将可能導緻人類記憶和批判能力的下降。同時,ChatGPT的普及應用将對重複性、模闆化的工作崗位帶來沖擊,催生大量“無用階層”,導緻社會階層固化現象更為明顯,将造成更為嚴重的社會及政治不平等。

語料強依賴性影響内容生成品質。一方面,從發展角度來看,社群語料庫品質、資料标注水準、資料共享互通政策成為影響生成式人工智能發展的重要因素。根據美國開放人工智能研究中心披露的資訊顯示,ChatGPT的訓練資料包括維基百科、電子書、社群網站上高品質文章等語料資料,同時在全球各地雇用大量高學曆人才參與資料标注工作。此外,如何配置設定版權利益、平台利益,合理調取文章、專利作品也是影響生成式人工智能發展的重要原因。美國開放人工智能研究中心也不例外,該中心在近期遭遇集體訴訟,被指控在未經許可的情況下使用受版權保護的源代碼。另一方面,從風險控制來看,資料中的固有印象或特定群體的偏見也會影響輸出結果。例如,ChatGPT在金融、醫療等領域的表現較差,這與相關領域資料的封閉性有關。

基礎設施屬性帶來更大安全威脅。通用人工智能是人工智能研究的終極目标,以往,人們分别利用不同模型完成人臉識别、文本翻譯等單項任務,尚不能處理無限任務和實作自主性。ChatGPT所使用的大模型技術雖然未達到通用人工智能的要求,但未來大模型應用将不亞于底層基礎軟硬體平台,在人工智能産業格局中将發揮基礎設施的作用。大量領域上層應用不再需要單獨研發智能算法技術,隻需調用大模型接口即可。這在很大程度上帶來更大安全風險。布魯金斯學會刊文指出,未參加原始模型開發的“下遊開發者”可能會将其整合到更廣泛的軟體系統,增加錯誤和失控風險,并可能影響教育、金融、醫療、招聘等社會經濟決策,帶來更高風險。

關于生成式人工智能治理的對策建議

生成式人工智能治理是促進數字經濟健康發展的重要内容。面對呈指數級增長态勢的生成式人工智能應用,應在現有監管體制架構下,把握治理重點、創新治理工具,在合理控制風險的前提下推動産業健康有序發展。

融入靈活治理理念,推動平台合規落地機制。平台合規是由政府引導企業落實法律倫理規範要求,對企業研發應用、經營管理等行為進行實時跟蹤、動态監測,推動企業可持續發展的重要機制。面對快速進化中的生成式人工智能技術,平台合規能夠較好地實作靈活治理、合理管控風險、穩定發展預期。具體來看,一是完善平台内部組織機制,通過有效組織和調動平台資源,完善風險識别機制和應對方案。例如,美國開放人工智能研究中心在ChatGPT上線後跟進問題,疊代十幾個版本,快速消除了發現的風險問題;微軟針對必應版ChatGPT出現的“情緒化”“攻擊性”等問題,及時将聊天對話限制在每天50次以内,每次對話限制為5次回複,通過快速反應疊代構成緊密回報環路。二是通過協定明确使用者使用規範,對使用者濫用行為進行平台自治。例如,美國開放人工智能研究中心設計了使用政策、使用條款、内容政策等多項規定,将政治活動、色情内容、仇恨内容、煽動暴力内容、生成惡意軟體等十四項列為禁止内容,并對嚴重違規使用者暫停或終止賬戶。三是由監管部門或第三方機構進行合規評價,審查平台合規情況,審查使用者協定的合法性,審查關停處罰情況、投訴情況等,實作遠距離監管和合作規制。

堅持以人為本思想,加緊落實科技倫理要求。生成式人工智能引發的人類主體性危機,需要在技術開發中融入倫理先行、透明公正、促進人類可持續發展的基本理念。研究資料顯示,截至2022年,全球已釋出包括《G20人工智能原則》、歐盟《人工智能倫理指南》、電氣與電子工程師協會(IEEE)《人工智能設計的倫理準則》等多項人工智能倫理檔案。大陸也出台了《關于加強科技倫理治理的意見》《新一代人工智能治理原則——發展負責任的人工智能》《新一代人工智能倫理規範》等頂層設計和制度方案,但在具體規則和實施落地等方面仍需推進。一是提前研判生成式人工智能引發的倫理問題,不僅包括透明度倫理、偏見倫理、隐私倫理等問題,而且應對勞動替代、人類智能削弱、機器自主性等人類主體性危機等進行研究,并提出可行的應對機制。二是在組織機制層面,推動生成式人工智能技術研發和應用企業成立倫理委員會,統籌企業内人工智能倫理治理工作,推動标準制定及落地工作。三是在具體舉措方面,借鑒國際經驗,推進倫理審查、倫理标準認證等機制。

聚焦新興重點問題,推進人工智能相關立法。近期,歐盟議會通過《人工智能法案》草案,新增基礎模型提供者的義務,例如要求對模型進行評估、在歐盟資料庫中予以登記、披露受版權保護的訓練資料使用情況摘要等内容。為快速回應生成式人工智能帶來的新興重點問題,在《中華人民共和國網絡安全法》《中華人民共和國資料安全法》《中華人民共和國個人資訊保護法》等立法基礎上,國家網信辦釋出《生成式人工智能服務管理辦法(征求意見稿)》,對主體責任、訓練資料審查、标注規則等問題作出規定,有效化解風險挑戰,提升大陸人工智能治理國際話語權。首先,需要明确服務提供者等相關主體責任,承擔生成式人工智能應用中的内容辨別、透明度、個人資訊保護等義務,保護使用者合法權益;其次,對訓練資料的來源、訓練資料品質、涉知識産權、涉個人資訊等問題提出要求,從源頭上化解生成式人工智能風險;再次,通過備案評估等監管手段管控技術風險,并應根據監管機構要求提供必要資訊,為監管提供必要技術手段和支援。在國家網信辦公布的最新一批算法備案清單中,包括了百度、科大訊飛等大模型算法,增進了公衆知情權和技術透明度。伴随未來生成式人工智能的産業應用,需要進一步完善法律責任制度、保險制度,并強化部門協同監管,應對生成式人工智能可能引發的安全風險。

優化資料标準體系,推動多方資料流通共享。ChatGPT的技術突破很大程度上得益于訓練資料的品質和規模。目前,在《中共中央 國務院關于建構資料基礎制度更好發揮資料要素作用的意見》等政策指導下,各方積極探索公共資料、企業資料、個人資訊資料等流通方案,完善資料流通、資料爬取、資料标準等政策規範,對激活生成式人工智能時代的資料價值具有重要意義。具體來看,一是從資料定價、資料爬取、資料反壟斷、資料流通技術保障等方面,促進資料等語料庫的有效流通使用。加快完善資料格式等标準體系,降低流通使用成本。二是解決語料庫中專利權、版權利益配置設定問題,加強對學術文章等高品質語料的平台内或跨平台調取使用,避免侵權風險。三是提升資料标注水準,注重資料事前審查等,從源頭上保障生成式人工智能的高品質、高效率輸出水準。

繼續閱讀