天天看點

生成式人工智能對個人資訊保護的挑戰與治理路徑

作者:電子技術應用ChinaAET
生成式人工智能對個人資訊保護的挑戰與治理路徑

作者:萬美秀作者機關:1.南昌大學法學院摘要:以ChatGPT為代表的生成式人工智能技術給各行各業帶來颠覆性變革,但也引發個人資訊洩露、算法偏見、虛假資訊傳播等個人資訊侵權危機。傳統“基于權利保護”的路徑過于強調個人資訊保護而阻礙人工智能産業的發展,“基于風險防範”的路徑則更加凸顯個人資訊的合理利用價值,價值選擇上更優。但以權利保護和風險保護共同治理,才能實作利益平衡并建立個人資訊的長效保護機制。在個人資訊處理規則上,以“弱同意”規則取代僵化嚴苛的知情同意規則;在目的限制原則上,以“風險限定”取代“目的限定”;在個人資訊最小化原則上,以“風險最小化”取代“目的最小化”。在此基礎上,進一步加強生成式人工智能資料來源合規監管,提升算法透明性和可解釋性,強化科技倫理規範和侵權責任追究。

0引言

以ChatGPT為代表的生成式人工智能掀起了全球第四次科技革命浪潮,成為帶動全球經濟增長的新引擎[1]。然而,作為新一代人工智能技術,生成式人工智能在不斷疊代更新與變革生産關系的同時,也帶來了諸多個人資訊保護的法律風險。生成式人工智能的運作以海量使用者的個人資訊為基礎,在輸入端、模拟訓練端、模拟優化端、輸出端等各環節都離不開個人資訊的使用。在大規模的資料處理和不透明的算法黑箱背景下,生成式人工智能便産生了違法收集個人資訊、制造虛假有害資訊、算法偏見與歧視等問題。

對此,各國監管部門廣泛關注,美國、法國、意大利、西班牙、加拿大等多國政府已宣布對ChatGPT進行調查監管,并出台了相應監管規範。2023年7月10日,大陸網信辦等七部門也聯合釋出了《生成式人工智能服務管理暫行辦法》(以下簡稱“《暫行辦法》”),明确了促進生成式人工智能技術發展的具體措施,對支援和規範生成式人工智能發展作出了積極有力的回應。但需要注意的是,《暫行辦法》對個人資訊保護的規定僅在第4、7、9、11、19條中援引《個人資訊保護法》的相關規定,對使用生成式人工智能技術侵犯個人資訊權益呈現出的新問題缺乏專門規定,而繼續延用《個人資訊保護法》面臨諸多适用困境。如何在促進生成式人工智能技術創新發展與個人資訊安全之間尋求平衡,是新一代人工智能技術向人類提出的時代難題。鑒于此,本文拟以生成式人工智能技術的運作邏輯出發,分析生成式人工智能對個人資訊保護帶來的挑戰,并以《民法典》《個人資訊保護法》《暫行辦法》展現的精神為線索,從個人資訊保護的治理原則和治理路徑方面展開讨論,在此基礎上提出具體治理對策,以期為生成式人工智能技術應用對個人資訊保護帶來的系列問題提供初步解決方案,為解決人工智能時代個人資訊保護問題作出有益探索。

1生成式人工智能的運作邏輯

目前人工智能技術主要有兩種類型:決策式人工智能/分析式人工智能(Discriminant/Analytical AI)和生成式人工智能(Generative AI)[2]。其中,決策式人工智能是利用機器學習、深度學習和計算機視覺技術來訓練資料中的條件機率分布情況并做出決策,判斷樣本資料屬于特定目标的機率。而生成式人工智能是利用深度神經網絡學習輸入和訓練資料,并對已有的大規模資料集進行歸納總結,從中抽象出資料的本質規律和機率分布,再基于這些規律和機率分布情況生成新的資料。2014年提出的“生成式對抗網絡”深度學習模型最具影響力,其通過生成器和判别器使生成的資料富有原創性。此後,随着自然語言處理算法“循環神經網絡”“預訓練語言模型”“Transformer”等技術的突破,生成式人工智能迅速發展,廣泛應用于内容生成、人機互動、産品設計等領域。以ChatGPT為例,由美國OpenAI公司推出的GPT4是以Transformer模型為基礎,預訓練用于預測文檔中的下一個指令,使用公開可用的資料(如網際網路資料)和第三方提供商許可的資料,對來自人類的回報強化學習模型進行微調[3]。經過預先訓練,當使用者輸入問題時,ChatGPT會将問題轉換為計算機資料并使用算法模型形成相應的文本、圖檔、視訊等資料集,通過不斷改進和優化,最終從符合要求的資料集中輸出具有一定原創性的新内容。其運作原理如圖1所示。

圖1生成式人工智能的運作原理

從ChatGPT的底層運作邏輯可以看出,新一代生成式人工智能的發展得益于算法、算力與資料的應用和技術突破。在算法層面,它以預訓練語言模型(LM)作為初始模型生成基本符合要求的内容,再收集資料并訓練打分模型(BM)以評估生成内容是否符合人類的方式,最後通過強化學習(RL)疊代式更新打分模型以生成高品質且符合人類認知的内容[4]。在算力層面,生成式人工智能的運作需要有效地執行複雜的計算任務并通過不斷訓練和推理來優化生成内容。在資料層面,訓練和優化人工智能模型需要大量的資料,而運用網絡爬蟲技術便可以獲得來自社交媒體、公共機構、傳感器等多管道的海量資料。是以,生成式人工智能的不斷優化與疊代發展,離不開上述算力、算法與資料三駕馬車的驅動,資料是生成式人工智能訓練的基礎,算法是生成式人工智能優化的核心,算力則為生成式人工智能發展提供技術支撐和保障。然而,作為生成式人工智能訓練基礎的海量資料是開發者通過各種方式收集的,其中涉及大量的個人資訊處理行為,開發者并沒有完全依據《個人資訊保護法》等相關規定來處理,給個人資訊保護帶來諸多風險和挑戰。

2生成式人工智能對個人資訊保護的挑戰

21輸入端:非法抓取與過度收集

生成式人工智能的輸入端是個人資訊洩露的源頭,其法律風險主要集中在兩個階段:一是模拟訓練端的初始資料庫,二是模拟優化端的更新資料庫。

從初始資料庫來看,生成式人工智能存在大量非法抓取個人資訊的“黑曆史”,處理個人資訊的告知同意規則被虛置。大陸《個人資訊保護法》《民法典》等明确規定了處理個人資訊應當履行告知義務并取得個人同意,合理處理公開的個人資訊則無須個人同意,但也應當履行告知義務[5]。以生成式人工智能ChatGPT為例,其初始資料庫主要是利用網絡爬蟲技術從公開管道擷取的2021年之前的資料,其中包含大量賬戶資訊、社交媒體資訊、行蹤軌迹等個人資訊。然而大部分使用者并不知曉個人資料被用于模拟訓練,更談不上“同意”。在深度學習與無監督式學習模式下,大量對個人權益有重大影響的公開個人資訊被非法抓取,告知同意規則形同虛設。據此,對于現階段已經抓取并應用于生成式人工智能模拟訓練的初始資料庫,應當如何確定其合理使用并防止對個人權益造成侵害便成為當下亟需解決的難題。

從更新資料庫來看,生成式人工智能存在長期過度收集個人資訊的“不良行為”,個人資訊最小化原則被架空。與人類一樣,生成式人工智能并不能憑借固有的知識體系一勞永逸地生存,其也需要不斷更新資料以提高輸出内容的準确度和可信度。但事實上,該階段的個人資訊收集和處理規則也并沒有得到貫徹。

第一,目的限制原則面臨适用困境。大陸《個人資訊保護法》第6條第1款規定,處理個人資訊應當具備明确、合理的目的,并與處理目的直接相關。第17條規定,處理個人資訊發生變更的應當及時告知。從OpenAI官網公布的企業隐私政策來看,其宣稱可能将個人資訊用于“改善服務、開發新的項目、防止濫用服務實施犯罪、進行業務轉讓等目的”[6],但該表述具有高度的概括性和模糊性,對個人資訊的儲存期限、删除、變更告知情況也沒有作出相應說明,使用者隻能選擇接受否則便無法繼續使用。此外,從技術層面看,目前生成式人工智能也無法自動識别“與處理目的有關的資訊”,而是采取“一攬子概括協定”全部抓取,無疑加劇了個人資訊權益侵害的風險。

第二,個人資訊最小化原則面臨适用困境。根據《個人資訊保護法》第6條第2款規定,收集個人資訊應當限于實作處理目的的最小範圍,即所謂的“個人資訊最小化原則”。從OpenAI官網公布的隐私政策第1、2、3條來看,其可以收集包括使用者賬戶資訊、通信資訊、技術資訊、社交資訊、輸入或上傳的内容資訊以及提供的其他任何資訊。但諸如通路裝置類型、作業系統、服務互動方式、其他任何可擷取的資訊等并非使用生成式人工智能服務所必備的資訊,OpenAI公司将所有使用者資訊全部囊括其中,顯然屬于過度收集個人資訊的行為,違反個人資訊最小必要原則。

第三,敏感個人資訊處理規則面臨适用困境。《個人資訊保護法》将個人資訊分為一般個人資訊和敏感個人資訊,由于敏感個人資訊洩露将對個人人身、财産造成嚴重威脅,因而法律規定了特别處理規則。根據《個人資訊保護法》第28、29條,處理個人敏感資訊應當在特定目的和充分必要的情況下取得個人單獨同意并采取嚴格的保護措施。然而,生成式人工智能在收集使用者個人資訊時并未作任何區分。更為重要的是,其将使用者使用的所有曆史資訊傳輸至終端伺服器并實時儲存于雲端,用于未來模型的優化訓練。雖然OpenAI官網隐私政策第2條中宣稱ChatGPT收集到的所有個人資訊會進行彙總或辨別化處理,但第3條随即指出将與第三方進行共享。而一旦借助第三方額外資訊和有關技術手段,即使經過匿名化處理的資訊仍然具有可識别性[7]。去辨別化處理的個人資訊将面臨重新識别的風險,由此便加劇了個人資訊洩露危機。2023年3月20日ChatGPT就發生過部分使用者聊天記錄、信用卡付款資訊和電子郵件等敏感個人資訊洩露事件,引發各國監管部門對個人資訊保護的擔憂。由此可見,現行立法對生成式人工智能侵害個人資訊權益的行為缺乏專門性規定,無法給個人提供明确的行為預期。

22模拟訓練端:算法黑箱和過度挖掘

在生成式人工智能的模拟訓練端,離不開算法的運用,而不公開、不透明的“算法黑箱”引發個人資料侵權危機,處理個人資訊的公開透明原則難以貫徹。根據《個人資訊保護法》第7條、24條規定,處理個人資訊應當遵循公開透明原則,利用個人資訊進行自動化決策的也應當保證決策的透明度和結果公平、公正。而生成式人工智能的算法運作的本質是資料輸入、輸出的過程,但在輸入和輸出之間存在無法解釋的“黑洞”,引發“算法黑箱”問題[8]。更為重要的是,生成式人工智能的算法較此前的人工智能有了進一步提升,其并不遵循傳統算法資料輸入、邏輯推理、預測的過程,而是借助于深度學習模型逐漸具備了一定的自主學習、自主決策能力,直接在原始資料的基礎上經過自主學習而生成新作品[9]。随着生成式人工智能算法自主學習的頻次不斷增加,算法不斷疊代,導緻技術隐層愈發複雜,而其邏輯又超越了一般大衆所能了解的範圍,加之資訊上的不對稱更加深了算法的不透明度與不可了解性,加劇了算法的“黑箱”屬性,顯然無法保障算法背後隐含的結果公平公正,直接違背個人資訊處理的公開透明原則。目前ChatGPT至今未曾公布其算法規則,百度推出的“文心一言”、阿裡雲推出的“通義千問”等亦未公布,顯然對《個人資訊保護法》規定的公開透明原則提出了嚴峻挑戰。

在模拟訓練和模拟優化過程中,生成式人工智能通過深度學習的算法模型對個人資訊過度挖掘,使得去辨別化的個人資訊甚至匿名化資訊被重新識别,加劇了個人資訊洩露風險。生成式人工智能對個人資訊的使用并不局限于傳統人工智能的簡單加工,而是通過極強的推理能力進行深度挖掘,發現資訊主體之間隐藏的内在聯系。如加州大學伯克利分校的一項研究表明,人工智能系統可以分析使用者在 AR 和 VR 環境中的運動資料,從中推斷出數百個相關參數,并以驚人的準确性揭示個人資訊。事實上,在現有技術條件下即使生成式人工智能訓練資料集中沒有某人的個人資訊,但結合其他資訊在深度挖掘的基礎上也可以推測出其特征,比如性别、年齡、種族、學曆等。可見,新一代人工智能表現出極強的自主學習能力、深度合成能力和邏輯推理能力,對個人資訊保護帶來極大挑戰。

23輸出端:算法偏見和虛假資訊

在生成式人工智能的輸出端,由于算法本身不具有技術中立性,而“算法黑箱”又加劇了算法非中立性,引發輸出結果偏見。首先,在算法設計上,生成式人工智能的底層算法都是由帶有主觀偏好的開發者設計的,而開發者的固有認知偏見不可避免地會形成算法偏見。其次,在深度學習技術上,生成式人工智能的自主學習能力不斷疊代發展,但機器學習不會對資料庫中的資訊進行價值取向篩選,導緻生成式人工智能形成并加深開發者嵌入其中的算法偏見。最後,在資料來源上,模拟訓練的資料品質參差不齊,大量虛假資料、缺失資料、污染資料、不全面資料輸入導緻最終生成帶有歧視性的内容。另外,“算法黑箱”所具有的不公開、不透明性為“算法偏見”披上了合理的技術外衣,導緻偏見行為難以被發現,進而加劇對特定群體的歧視和偏見,也給傳統的平等權保護帶來危機[10]。盡管OpenAI公司在其官網上聲明,ChatGPT已認證算法設定和模拟訓練進行了優化,能在一定程度上拒絕使用者不合理的請求,比如生成帶有性别歧視、種族歧視、暴力、血腥、色情等違反法律、公序良俗的内容,但事實上,其給使用者和非使用者帶來的風險依然存在。此前亞馬遜便被爆出利用人工智能訓練的算法進行招聘,存在重男輕女的性别歧視問題。可見,算法偏見呈現出種種不合理的差別對待,引發深層次的不平等和歧視問題。

在生成式人工智能的輸出端,行為人還可以利用深度僞造、深度合成等技術生成虛假資訊來實施侮辱诽謗、造謠傳謠、财産詐騙等犯罪,《個人資訊保護法》第7條規定的個人資訊真實性、準确性無法得到保障。由于生成式人工智能對輸入資料的真實性和準确性并沒有甄别能力,是以它也并不保證輸出結果的真實性和準确性,可能出現“一本正經地胡說八道”、輸出“正确的廢話”、制造虛假新聞等問題,進而侵犯個人資訊權益。更為重要的是,這一缺陷很容易被不法分子利用來實施犯罪。2023年4月25日甘肅洪某便利用人工智能技術炮制了一則“今晨甘肅一火車撞上修路勞工,緻9人死亡”的虛假資訊牟利被警方立案調查。可見,生成式人工智能的出現導緻大量虛假資訊的生成和傳播,侵害個人資訊權益,引發嚴重的社會問題。

生成式人工智能對個人資訊保護的挑戰如圖2所示。

圖2生成式人工智能對個人資訊保護的挑戰

3生成式人工智能背景下個人資訊保護的治理路徑

31“權利保護”與“風險防範”共同治理

基于上述,生成式人工智能對個人資訊保護帶來諸多風險和挑戰。對此,《民法典》《個人資訊保護法》《暫行辦法》規定的傳統個人資訊保護規則均面臨适用困境。究其根源,在于個體主義與靜态化的個人資訊保護進路難以适應科技的發展,亟需尋求更為合理的個人資訊保護制度緩和二者之間的張力。基于以人為本的理念,要求強化個人資訊保護;基于促進和規範人工智能産業的發展、鼓勵創新的理念,要求對個人資訊保護進行一定限制。是以,唯有正确認識并協調個人資訊保護與生成式人工智能創新發展之間的關系,才能讓人工智能更好地服務于經濟的發展和社會的進步。

從總體監管原則來看,世界各國對生成式人工智能的發展存在“保守”與“開放”兩種立法态度,并出台了相應法律法規進行規制。歐洲國家基于兩次世界大戰及法西斯大規模嚴重侵害人權的慘劇,高度重視人格尊嚴與人格自由等基本人權的保護[11],是以,長期以來對人工智能的監管較為謹慎,采取“先規範後發展,穩步推動監管”的治理原則,以《通用資料保護條例》《可信AI倫理指南》确立了歐盟地區人工智能發展的倫理架構,以《人工智能法》《可信賴的人工智能倫理準則》進一步加強了可操作化法律規制。美國則基于ChatGPT産生的巨大影響以及維持自身在人工智能領域國際領先地位的需要,對人工智能的治理相對開放,采取“審慎監管以促進産業創新”的治理原則,相繼出台《美國人工智能倡議》《人工智能能力和透明度法案》等以企業自我規制和政府規制相結合推進人工智能産業發展[12]。從大陸《暫行辦法》第3條來看,大陸對生成式人工智能的發展總體上秉持開放包容的态度,穩步推進人工智能産業的發展。一方面,堅持以人為本的理念保障基本人權,維護個人資訊和個人利益以實作個人自治。另一方面,兼顧人工智能時代個人資訊利用的新環境和新方式,對個人資訊保護作出必要限制以維護公共利益和社會利益。換言之,在個人資訊相對安全的前提下調整個人資訊強保護規則,合理開發和利用個人資訊以推動人工智能産業的發展,進而在個人權益保護與企業利益維護之間尋求平衡。

從具體個人資訊保護規則來看,生成式人工智能背景下大陸個人資訊保護存在“基于權利保護”與“基于風險防範”兩種路徑。其中,“基于權利保護”路徑源于美國1973年誕生的公平資訊實踐原則,其通過對個人進行資訊賦權和對資訊處理者施加義務的方式保障個體行使控制性權利[13]。但由于個人資訊不僅關系到個人利益,還具有公共性和社會性[14],個人資訊強保護的規則難以維護公共利益并适應人工智能時代的發展。是以,一種“基于風險防範”的方法被提出,并逐漸應用于各國個人資訊保護的立法。2013年,知名智庫數字歐洲提出了改革歐盟個人資料保護法的方案,從強化企業負責性而非資訊主體的控制權利切入,要求企業設計規則防止風險的發生[15]。其後歐盟《通用資料保護條例》在修改其個人資料保護法時,就引入了這種“基于風險”(risk-based)防範的方法。在歐盟《人工智能法案》中也确立了以風險分級治理的規制路徑并對各等級進行差異化監管。大陸制定的《個人資訊保護法》也展現了“基于風險”防範的理論。比如将個人資訊區分為“一般個人資訊”與“敏感個人資訊”并且分别規定了不同的處理規則,實際上就隐含了一種先驗的、抽象于具體場景的風險推定,即對敏感個人資訊的處理可能對個人和社會産生較為嚴重的不利影響[16]。

筆者認為,“基于風險防範”理論能夠更好地應對生成式人工智能對個人資訊權益侵害帶來的系列問題,适用該理論具有正當性。第一,《暫行辦法》展現了大陸政策制定者嘗試從“基于風險防範”的治理路徑出發解決生成式人工智能帶來的個人資訊保護難題。從《暫行辦法》第5條第2款可以看出,個人資訊處理者仍有義務采取适當措施來防範個人資訊處理過程中可能出現的各種社會風險。從某種意義上看,該政策的出台也為未來人工智能領域法律的制定及風險防範理論的應用提供了有效指引。第二,“風險社會”要求“風險控制”。當代社會是一個“風險社會”,風險無處不在、不可預測且常常帶來難以彌補的損害。一旦生成式人工智能收集的個人資訊被洩露或不當使用,将給個人資訊主體帶來不可逆轉的損害。是以,改變以往單一的賦權保護模式和事後追責機制,從風險防範的角度強化事先風險預防更具有制度優勢,即從風險控制的次元建構個人資訊的全面保護制度,強化資訊處理者的風險防範責任與資訊主體的個人預防責任。第三,“基于風險防範”的路徑有利于實作利益平衡,促進人工智能産業的發展。相較而言,“基于權利保護”路徑對個人資訊進行“強保護”而忽視了個人資訊的合理利用價值,無法應對新時代的發展和風險日益突出的現代社會個人資訊侵權危機。“基于風險防範”路徑則是一種折中治理方案,通過适當擴張個人資訊合理利用的範圍,從風險控制的角度強化資訊處理者的風險防範義務與資訊主體的個人風險責任,并對具體場景可能發生的風險進行事先預防與責任配置設定,在預防風險的發生與事後救濟上價值選擇更優。但需要注意的是,本文主張的“基于風險防範”的治理路徑并非完全抛開“基于權利保護”來談,而是弱化“強權利”保護模式以實作個人資訊的合理利用價值。誠然,個人資訊權益作為自然人最基本的人格權,仍然應當得到基本的權利保護。堅持“基于權利保護”和“基于風險防範”兩種路徑共同治理,才能實作各主體的利益平衡,建構個人資訊的長效保護機制。

32建構資料來源合規監管機制

解決生成式人工智能輸入端的非法抓取和過度收集個人資訊問題,要從資料源頭預防,建立資料來源合規監管機制。對于初始資料庫,由于資訊權利人已經喪失了個人資訊的自主要制權,應當尋求事後補救措施來維護其合法權益。第一,在技術層面上,服務提供者應當采取嚴格的保護措施防止個人資訊洩露。比如對已經去辨別化的資訊采取脫敏、加密等技術手段進一步匿名化,使其無法重新識别到特定自然人。第二,在侵權責任承擔上,要考慮生成式人工智能事先未經許可收集個人資訊存在過錯、對侵權行為發生沒有盡到必要注意義務、事後未采取補救措施等因素對其加重處罰。倒逼服務提供者對已經收集而未經許可擷取的個人資訊原始資料庫定期開展合規監測,強化其個人資訊安全保障義務。

對于更新資料庫,服務提供者也應當強化資料來源合規監管,嚴格遵循個人資訊收集處理規則。第一,建立個人資訊的影響評估機制。大陸《個人資訊保護法》第55條明确了個人資訊處理者對特定個人資訊處理的事先評估義務,其中包括處理敏感個人資訊、對個人權益有重大影響的情形。個人資訊影響評估是服務提供者處理個人資訊的前提,也是其持續、穩定經營的基礎。是以,服務提供者應當在個人資訊處理前開展影響評估,自行評估爬取的資料來源是否合規,是否侵犯個人資訊權益、他人知識産權、公平競争權益等,根據不同影響采取相應保護措施。第二,建構個人資訊分類分級監管機制。《暫行辦法》第3條、第16條兩次提到“分類分級監管”,但并未具體說明。筆者認為,服務提供者在收集個人資訊時,應當區分不同類型的個人資訊,并确立不同的資訊處理機制:(1)區分一般個人資訊與敏感個人資訊。對于一般個人資訊的處理,僵化嚴苛的知情同意原則難以适應維護公共利益和數字經濟發展的需要[17],應當在個人資訊保護與利用之間建立“弱同意”規則并采用“基于風險防範”路徑要求服務提供者事先評估個人資訊處理行為的合法性、合規性和合理性。在目的限制原則上,以“風險限定”取代“目的限定”,企業對個人資訊的後續利用在不超過“原有程度、使用者無法預測”的風險範圍内無須使用者再次授權,将風險控制在實作特定目的的合理水準。在個人資訊最小化原則上,以“風險最小化”取代“目的最小化”,企業對個人資訊的二次利用應當采取匿名化等措施将風險降至實作目的的最低水準[18]。但對于敏感個人資訊則嚴格遵循告知同意規則,避免造成人格權益侵害。在必要情況下處理敏感個人資訊的,嚴格采取匿名化等脫敏、加密技術措施,而非簡單的去辨別化處理。(2)區分對個人權益有重大影響與對個人權益無重大影響。服務提供者在資訊處理之前,應當對個人資訊進行風險評估。對個人權益有重大影響的,嚴格遵循告知同意規則取得個人單獨同意。對個人權益無重大影響的,無需取得個人單獨同意,但仍應當采取技術措施防止對個人權益造成侵害。第三,定期開展企業資料合規監測。生成式人工智能服務提供者應當建立長期的個人資訊處理風險防範機制,定期對産品或服務中涉及個人資訊處理的行為進行合規審查,發現潛在風險或安全隐患的及時采取必要措施加以防範。

33提升算法的透明性和可解釋性

生成式人工智能模拟訓練端存在的“算法黑箱”問題,本質在于複雜的算法既無法觀察,也難以為常人所了解。是以治理“算法黑箱”首先要打開“黑箱”,推動算法的公開化和透明化。但需要注意的是,算法的公開化、透明化并不意味着要公開算法的具體代碼、程式設計等,而是要對算法作出必要說明和解釋[19]。其原因在于,一方面,算法的源代碼異常複雜,即使公開公衆也很難了解,公開甚至會引發黑客攻擊、被不法分子利用實施犯罪。另一方面,算法的公開成本較大,大部分涉及公司商業秘密,企業基于自身利益一般不會自覺公開。是以,推動生成式人工智能算法的透明化,要從算法的設計、算法功能、算法風險、算法邏輯、算法種類等涉及使用者重大利益的方面進行公開說明,接受算法監管部門的審查和社會的監督,以保障算法公平、公正、負責。其次,要加強算法的可解釋性。由于算法具有高度的技術性和複雜性,僅僅憑借公開難以令公衆知曉算法背後的決策,是以要加強算法的可解釋性,利用算法的可解釋性技術最大程度揭示算法開發的過程、結果和應用經過,揭開算法自動化決策内部群體不平等的面紗[20]。比如歐盟《通用資料保護條例》第12條就規定了算法控制者負有以“簡潔、透明、易懂、易擷取并清晰直白的語言”提供資訊的義務。換言之,算法解釋必須以能夠為一般人所知曉的程度來開展,否則算法解釋就失去了意義。當然,對算法可解釋性适用範圍、技術要求等仍有待進一步研究。最後,引入第三方進行算法監管。探索引入第三方獨立組織、支援學術性組織、非營利機構等專業機構對算法進行評估、審查、備案等,化解“算法黑箱”帶來的個人資訊侵害風險,實作算法安全、可控。目前德國已經發展出了由技術專家和資深媒體人挑頭成立的非營利性組織以評估和監控影響公共生活的算法決策過程[21]。美國紐約州也頒布了《算法問責法案》要求将公民組織代表納入監督自動化決策的工作組,以確定算法公開和透明[22]。大陸目前針對算法的監管尚有不足,建立第三方獨立機構監管有待進一步探究。此外,對個人資訊過度挖掘問題同上述資料來源合規方面的監管機制類似,應當在生成式人工智能算法設計中進一步限制個人資訊抓取的範圍、目的和方式,以法律規制手段防範技術風險。

34強化倫理規範和侵權責任追究

在生成式人工智能的輸出端,算法偏見引發輸出結果歧視,嚴重侵害個人資訊權益。唯有對算法偏見善加治理,才能更好地利用算法造福人類。而算法偏見之是以會轉化為算法歧視,本質在于人的作用,算法的開發者和使用者要為算法歧視負責[23]。是以,緩解算法偏見帶來的算法歧視,其根源在于優化人工智能的倫理治理,堅持“以人為本”和“科技為民”的理念對人工智能進行開發設計。《暫行辦法》第4條亦對此作出了回應。提供和使用生成式人工智能服務應當遵守倫理道德要求。第一,完善人工智能行業道德倫理規範,加強算法設計者的倫理審查和考核。通過定期開展科研倫理教育訓練等對算法設計者的行為進行限制以強化其道德自律,并進一步提高算法設計者的行業準入門檻。第二,建構算法備案審查制度,強化事前監督。在算法研發後投入使用之前要求其向有關監管部門報備,經初步審查符合要求的準予進入市場應用,不符合要求的予以退回。通過監管部門的事前監督,可以有效防範存在嚴重偏見的算法投入市場。第三,建立算法分類分級管理和風險監測制度,健全問責機制。服務提供者要對算法進行分類分級管理,規制“資訊繭房”導緻的算法歧視。從損害結果出發,按照“誰設計誰負責,誰主管誰負責”的标準進行事後問責,從源頭上遏制與預防算法歧視[24]。第四,健全人工智能倫理風險評估機制,嚴格進行倫理規範審查。對于嵌入生成式人工智能的算法模型,服務提供者要開展自查和定期評估,梳理倫理風險的來源、種類、原因等并制定相應風險應對方案。算法設計要秉持平等、公平的理念,防止設計人員利用算法進行歧視。

對于生成式人工智能輸出端帶來的虛假資訊治理問題,本質也是人的作用。行為人的非法目的誘使其利用生成式人工智能作為輔助工具制造或傳播虛假資訊、實施犯罪。是以,規制生成式人工智能帶來的虛假資訊問題,應當從侵權責任的事先預防、事中控制和事後處理入手。第一,在事先預防上,對生成式人工智能生成作品進行深度合成辨別。生成式人工智能服務提供者要嚴格依據《網際網路資訊服務深度合成管理規定》《暫行辦法》等規定,對深度合成内容進行辨別和分類分級管理,對生成内容中可能引起公正混淆或誤認的内容作出風險提示,推動生成式人工智能的透明化。使用深度合成辨別技術,也可以有效追蹤虛假資訊來源,提高虛假資訊識别率,同時追究相關責任人的主體責任。第二,在事中控制上,建立多元主體協同共管機制。考慮政府、人工智能企業、使用者等主體在虛假資訊的生成、傳播與治理中的行為模式和參與度,建立平衡各方利益的監管機制。第三,在事後處理上,合理配置設定各方責任。生成式人工智能的研發者、使用者、服務提供者等主體在各自過錯範圍内承擔虛假資訊生成、傳播的法律責任。基于鼓勵創新的理念,适用過錯責任原則,同時基于生成式人工智能侵害個人資訊權益的侵權主體多元性,需要根據具體情況分析各方主體責任,對服務提供者類推“通知删除”規則[25]。由此,進一步完善利用生成式人工智能侵害個人資訊權益的侵權責任追究制度。

綜上,生成式人工智能下個人資訊保護的治理路徑如圖3所示。

圖3生成式人工智能下個人資訊保護的治理路徑

4結論

放眼全球,生成式人工智能的技術革新給世界各國帶來了巨大的發展機遇,但與此同時也引發了個人資訊洩露、算法偏見、虛假資訊傳播等諸多個人資訊侵權危機。究其本質,在于如何平衡個人資訊權益保護與科技創新發展之間的關系。“基于權利保護”路徑過于強調個人資訊保護,僵化嚴苛的告知同意規則難以适應人工智能時代的發展,“基于風險防範”路徑則适度擴張個人資訊合理利用的範圍并綜合考慮各責任主體的風險防範義務,具有穩定性和前瞻性。但應對生成式人工智能對個人資訊保護帶來的挑戰,權利保護和風險防範是兩個不可或缺的次元。堅持以人為本和鼓勵科技創新發展的理念,要進一步加強生成式人工智能輸入端、模拟訓練端、模拟優化端、輸出端等各環節的風險管控,實作個人資訊保護與利用之間的平衡。着眼于未來,我們要更加關注科技發展給倫理道德、人格權保護帶來的系列沖擊,加強人格權保護制度研究,以實作保障基本人權與科技進步之間的平衡。

文章來源:《網絡安全與資料治理》雜志2024年4月刊

生成式人工智能對個人資訊保護的挑戰與治理路徑
生成式人工智能對個人資訊保護的挑戰與治理路徑

☞商務合作:☏ 請緻電 010-82306118 / ✐ 或緻件 [email protected]

生成式人工智能對個人資訊保護的挑戰與治理路徑

繼續閱讀