作者:肖飒法律團隊
核心提示:
ChatGPT等基于自然語言處理技術的聊天AI,就短期來看亟需要解決的法律合規問題主要有三個:
其一,聊天AI提供的答複的知識産權問題,其中最主要的合規難題是聊天AI産出的答複是否産生相應的知識産權?是否需要知識産權授權?;
其二,聊天AI對巨量的自然語言處理文本(一般稱之為語料庫)進行資料挖掘和訓練的過程是否需要獲得相應的知識産權授權?
其三,ChatGPT等聊天AI的回答機制之一是通過對大量已經存在的自然語言文本進行數學上的統計,得到一個基于統計的語言模型,這一機制導緻聊天AI很可能會“一本正經的胡說八道”,進而導緻虛假資訊傳播的法律風險,在這一技術背景下,如何盡可能降低聊天AI的虛假資訊傳播風險?
總體而言,目前大陸對于人工智能立法依然處在預研究階段,還沒有正式的立法計劃或者相關的動議草案,相關部門對于人工智能領域的監管尤為謹慎,随着人工智能的逐漸發展,相應的法律合規難題隻會越來越多。
一、ChatGPT并非是“跨時代的人工智能技術”
ChatGPT本質上是自然語言處理技術發展的産物,本質上依然僅是一個語言模型。
2023開年之初全球科技巨頭微軟的巨額投資讓ChatGPT成為科技領域的“頂流”并成功出圈。随着資本市場ChatGPT概念闆塊的大漲,國内衆多科技企業也着手布局這一領域,在資本市場熱捧ChatGPT概念的同時,作為法律工作者,我們不禁要評估ChatGPT自身可能會帶來哪些法律安全風險,其法律合規路徑何在?
在讨論ChatGPT的法律風險及合規路徑之前,我們首先應當審視ChatGPT的技術原理——ChatGPT是否如新聞所言一樣,可以給提問者回答任何其想要的問題?
在飒姐團隊看來,ChatGPT似乎遠沒有部分新聞所宣傳的那樣“神”——一句話總結,其僅僅是Transformer和GPT等自然語言處理技術的內建,本質上依然是一個基于神經網絡的語言模型,而非一項“跨時代的AI進步”。
前面已經提到ChatGPT是自然語言處理技術發展的産物,就該技術的發展史來看,其大緻經曆了基于文法的語言模型——基于統計的語言模型——基于神經網絡的語言模型三大階段,ChatGPT所在的階段正是基于神經網絡的語言模型階段,想要更為直白地了解ChatGPT的工作原理及該原理可能引發的法律風險,必須首先闡明的就是基于神經網絡的語言模型的前身——基于統計的語言模型的工作原理。
在基于統計的語言模型階段,AI工程師通過對巨量的自然語言文本進行統計,确定詞語之間先後連結的機率,當人們提出一個問題時,AI開始分析該問題的構成詞語共同組成的語言環境之下,哪些詞語搭配是高機率的,之後再将這些高機率的詞語拼接在一起,傳回一個基于統計學的答案。可以說這一原理自出現以來就貫穿了自然語言處理技術的發展,甚至從某種意義上說,之後出現的基于神經網絡的語言模型亦是對基于統計的語言模型的修正。
舉一個容易了解的例子,飒姐團隊在ChatGPT聊天框中輸入問題“大連有哪些旅遊勝地?”如下圖所示:
AI第一步會分析問題中的基本語素“大連、哪些、旅遊、勝地”,再在已有的語料庫中找到這些語素所在的自然語言文本集合,在這個集合中找尋出現機率最多的搭配,再将這些搭配組合以形成最終的答案。如AI會發現在“大連、旅遊、勝地”這三個詞高機率出現的語料庫中,有“中山公園”一詞,于是就會傳回“中山公園”,又如“公園”這個詞與花園、湖泊、噴泉、雕像等詞語搭配的機率最大,是以就會進一步傳回“這是一個曆史悠久的公園,有美麗的花園、湖泊、噴泉和雕像。”
換言之,整個過程都是基于AI背後已有的自然語言文本資訊(語料庫)進行的機率統計,是以傳回的答案也都是“統計的結果”,這就導緻了ChatGPT在許多問題上會“一本正經的胡說八道”。如剛才的這個問題“大連有哪些旅遊勝地”的回答,大連雖然有中山公園,但是中山公園中并沒有湖泊、噴泉和雕像。大連在曆史上的确有“斯大林廣場”,但是斯大林廣場自始至終都不是一個商業廣場,也沒有任何購物中心、餐廳和娛樂場所。顯然,ChatGPT傳回的資訊是虛假的。
二、ChatGPT作為語言模型目前其最适合的應用場景
雖然上個部分我們直白的講明了基于統計的語言模型的弊端,但ChatGPT畢竟已經是對基于統計的語言模型大幅度改良的基于神經網絡的語言模型,其技術基礎Transformer和GPT都是最新一代的語言模型,ChatGPT本質上就是将海量的資料結合表達能力很強的Transformer模型結合,進而對自然語言進行了一個非常深度的模組化,傳回的語句雖然有時候是“胡說八道”,但乍一看還是很像“人類回複的”,是以這一技術在需要海量的人機互動的場景下具有廣泛的應用場景。
就目前來看,這樣的場景有三個:
其一,搜尋引擎;
其二,銀行、律所、各類中介機構、商場、醫院、政府政務服務平台中的人機互動機制,如上述場所中的客訴系統、導診導航、政務咨詢系統;
第三,智能汽車、智能家居(如智能音箱、智能燈光)等的互動機制。
結合ChatGPT等AI聊天技術的搜尋引擎很可能會呈現出傳統搜尋引擎為主+基于神經網絡的語言模型為輔的途徑。目前傳統的搜尋巨頭如谷歌和百度均在基于神經網絡的語言模型技術上有着深厚的積累,譬如谷歌就有與ChatGPT相媲美的Sparrow和Lamda,有着這些語言模型的加持,搜尋引擎将會更加“人性化”。
ChatGPT等AI聊天技術運用在客訴系統和醫院、商場的導診導航以及政府機關的政務咨詢系統中将大幅度降低相關機關的人力資源成本,節約溝通時間,但問題在于基于統計的回答有可能産生完全錯誤的内容回複,由此帶來的風控風險恐怕還需要進一步評估。
相比于上述兩個應用場景,ChatGPT應用在智能汽車、智能家居等領域成為上述裝置的人機互動機制的法律風險則要小很多,因為這類領域應用環境較為私密,AI回報的錯誤内容不至于引起大的法律風險,同時這類場景對内容準确性要求不高,商業模式也更為成熟。
三、ChatGPT的法律風險及合規路徑
初探
第一,人工智能在大陸的整體監管圖景
和許多新興技術一樣,ChatGPT所代表的自然語言處理技術也面臨着“科林格裡奇窘境(Collingridge dilemma)”這一窘境包含了資訊困境與控制困境,所謂資訊困境,即一項新興技術所帶來的社會後果不能在該技術的早期被預料到;所謂控制困境,即當一項新興技術所帶來的不利的社會後果被發現時,技術卻往往已經成為整個社會和經濟結構的一部分,緻使不利的社會後果無法被有效控制。
目前人工智能領域,尤其是自然語言處理技術領域正在快速發展階段,該技術很可能會陷入所謂的“科林格裡奇窘境”,與此相對應的法律監管似乎并未“跟得上步伐”。大陸目前尚無國家層面上的人工智能産業立法,但地方已經有相關的立法嘗試。就在去年9月,深圳市公布了全國首部人工智能産業專項立法《深圳經濟特區人工智能産業促進條例》,緊接着上海也通過了《上海市促進人工智能産業發展條例》,相信不久之後各地均會出台類似的人工智能産業立法。
在人工智能的倫理規制方面,國家新一代人工智能治理專業委員會亦在2021年釋出了《新一代人工智能倫理規範》,提出将倫理道德融入人工智能研發和應用的全生命周期,或許在不久的将來,類似阿西莫夫小說中的“機器人三定律”将成為人工智能領域監管的鐵律。
第二,ChatGPT帶來的虛假資訊法律風險問題
将目光由宏觀轉向微觀,抛開人工智能産業的整體監管圖景和人工智能倫理規制問題,ChatGPT等AI聊天基礎存在的現實合規問題也急需重視。
這其中較為棘手的是ChatGPT回複的虛假資訊問題,正如本文在第二部分提及的,ChatGPT的工作原理導緻其回複可能完全是“一本正經的胡說八道”,這種看似真實實則離譜的虛假資訊具有極大的誤導性。當然,像對“大連有哪些旅遊勝地”這類問題的虛假回複可能不會造成嚴重後果,但倘若ChatGPT應用到搜尋引擎、客訴系統等領域,其回複的虛假資訊可能造成極為嚴重的法律風險。
實際上這樣的法律風險已經出現,2022年11月幾乎與ChatGPT同一時間上線的Meta服務科研領域的語言模型Galactica就因為真假答案混雜的問題,測試僅僅3天就被使用者投訴下線。在技術原理無法短時間突破的前提下,倘若将ChatGPT及類似的語言模型應用到搜尋引擎、客訴系統等領域,就必須對其進行合規性改造。當檢測到使用者可能詢問專業性問題時,應當引導使用者咨詢相應的專業人員,而非在人工智能處尋找答案,同時應當顯著提醒使用者聊天AI傳回的問題真實性可能需要進一步驗證,以最大程度降低相應的合規風險。
第三,ChatGPT帶來的知識産權合規問題
當将目光由宏觀轉向微觀時,除了AI回複資訊的真實性問題,聊天AI尤其是像ChatGPT這樣的大型語言模型的知識産權問題亦應該引起合規人員的注意。
首先的合規難題是“文本資料挖掘”是否需要相應的知識産權授權問題。正如前文所指明的ChatGPT的工作原理,其依靠巨量的自然語言本文(或言語料庫),ChatGPT需要對語料庫中的資料進行挖掘和訓練,ChatGPT需要将語料庫中的内容複制到自己的資料庫中,相應的行為通常在自然語言處理領域被稱之為“文本資料挖掘”。當相應的文本資料可能構成作品的前提下,文本資料挖掘行為是否侵犯複制權目前仍存在争議。
在比較法領域,日本和歐盟在其著作權立法中均對合理使用的範圍進行了擴大,将AI中的“文本資料挖掘”增列為一項新的合理使用的情形。雖然2020年大陸著作權法修法過程中有學者主張将大陸的合理使用制度由“封閉式”轉向“開放式”,但這一主張最後并未被采納,目前大陸著作權法依舊保持了合理使用制度的封閉式規定,僅著作權法第二十四條規定的十三中情形可以被認定為合理使用,換言之,目前大陸著作權法并未将AI中的“文本資料挖掘”納入到合理适用的範圍内,文本資料挖掘在大陸依然需要相應的知識産權授權。
其次的合規難題是ChatGPT産生的答複是否具有獨創性?對于AI生成的作品是否具有獨創性的問題,飒姐團隊認為其判定标準不應當與現有的判定标準有所差別,換言之,無論某一答複是AI完成的還是人類完成的,其都應當根據現有的獨創性标準進行判定。其實這個問題背後是另一個更具有争議性的問題,如果AI生成的答複具有獨創性,那麼著作權人可以是AI嗎?顯然,在包括大陸在内的大部分國家的知識産權法律下,作品的作者僅有可能是自然人,AI無法成為作品的作者。
最後,ChatGPT倘若在自己的回複中拼接了第三方作品,其知識産權問題應當如何處理?飒姐團隊認為,如果ChatGPT的答複中拼接了語料庫中擁有著作權的作品(雖然依據ChatGPT的工作原理,這種情況出現的機率較小),那麼按照中國現行的著作權法,除非構成合理使用,否則非必須獲得著作權人的授權後才可以複制。