南方财經全媒體記者 吳立洋 21世紀經濟報道記者 鄭雪 王俊 實習生陽飄飄 上海,北京報道
梳理世界各國對AI産業的監管政策,隐私、版權、内容安全固然是政策關注的合規焦點,但在極有可能作為下一代科技革命契機的産業更新機會面前,如何推動AI研發與應用與本國産業體系相契合,保護與促進本土AI産業發展,亦成為各國制定AI監管政策時需要首先考慮的施政目标之一。
綜合人工智能産業發展的三大要素——算力、算法與資料來看:算力考驗的是各國基礎設施建設水準,潛在的問題主要在于成本與類似美國對中國晶片出口禁令等外部因素限制,産業發展政策層面的調節空間較小;算法層面,主要依靠的是本國AI産業的發展動力與市場支援力度,政策主要起引導和激勵作用,通過創造良好的發展環境助力相關企業成長。
而作為人工智能發展的基礎,資料,尤其是高品質、與本國AI發展需求密切相關的資料集,成為政策層面左右産業發展的重要着力點。如何整合本國資料資源,制定資料使用标準,開展資料跨境管理,都成為打造人工智能監管體系的切入口,彰顯着各國對這一新興産業發展采取的态度。
政策題眼
作為GDPR體系的制訂者,歐盟各成員國對人工智能産業的資料資源控制延續了其一貫的保守作風。以意大利為例,今年3月底,意大利個人資料保護局(Garante)宣布暫時禁止使用聊天機器人ChatGPT,并就OpenAI涉嫌違反資料收集規則展開調查,同時限制OpenAI處理意大利使用者資料成為首個對AI聊天機器人采取禁令的西方國家。
彼時意大利在解釋發出禁令的原因時表示,ChatGPT平台出現了使用者對話資料和付款服務支付資訊丢失的情況,而該平台沒有就收集處理使用者資訊進行告知,且缺乏收集和存儲個人資訊的法律依據。
4月12日,意大利當局向OpenAI提出了一系列要求,要求其公開ChatGPT的資料處理邏輯、對使用者年齡進行篩查、明确資料主體擁有的權利等。
在4月底滿足上述條件後,ChatGPT重新在意大利上線,但Garante同時表示,将進一步對生成式AI與AI機器學習進行廣泛審查,以了解這些新工具是否存在資料保護與隐私法律合規相關的問題。
事實上,被普遍視為政策環境更注重創新與發展,強調政策靈活性的美國,近年來亦釋放出在具體監管行動上更為積極主動的信号。例如啟用知名反壟斷學者Lina Khan擔任FTC主席,邀請多位人工智能危害研究者加入白宮科技辦公室等。
“在已經取得一定技術領先優勢,并建構了以自身為主導的一套産業發展邏輯後,為打造自身的競争力和技術主導權而加強監管,擡高其他競争者的進入門檻,是部分國家實施技術壟斷的主要方式。”北京某科技領域法學研究者在與記者交流時表示。
而與之相對應的是,日本在AI資料尤其是版權監管領域釋放出極為寬松的監管信号。日前,日本最高教育行政長官、文部科學大臣在會議上重申,日本政府不會對人工智能訓練過程中使用的資料實施版權保護。
6月10日,日本政府在知識産權戰略總部會議上推出了知識産權推進計劃,具體内容包括如何不侵犯著作權,以及何時可以将 AI 生成物視為“著作”。
日本政府表示,為了在保護知識産權同時發揮 AI 技術的作用,“将探讨必要的措施”。生成式 AI 可以解析文學作品、繪畫、音樂等衆多“著作”,并生成新的内容。在 AI 開發過程中,允許無授權地解析著作資料,但不得違反侵權法規,日本将探讨何種情況屬于不恰當侵權。
北京師範大學法學院博士生導師、中國網際網路協會研究中心副主任吳沈括在接受南方财經全媒體記者采訪時指出,整體來看,各國都在基于自身人工智能産業發展的不同定位和戰略訴求,設計和實作自身的治理架構和治理主張,并引入與之比對的治理機制。
壁壘與差距
作為AI産業的源頭活水,充足且高品質的訓練資料是支撐産業發展動能的主要因素。在行業發展早期,資料積累與開發尚且能夠依靠個别企業和科研機構推動,但随着AI産業鍊向不同應用場景延伸,資料量呈指數級上升,牽涉資料主體與類型更為多元且複雜,宏觀層面的資料庫整合亦逐漸被納入多國AI政策架構中。
事實上,整合與開發公共資料資源,為人工智能産業發展提供基礎資料支援,已成為多國一以貫之的AI産業發展政策。
美國早在2016年推出的《國家人工智能研究和發展戰略計劃》中的戰略五就提出:開發用于人工智能教育訓練及測試的公共資料集和環境。其中包括“開發滿足多樣化人工智能興趣與應用的豐富資料集”,并指出AI教育訓練和測試資料集的完整性和可用性對確定科學的可靠結果至關重要,缺乏具有确認來源的經審查和可用公開資料集來保障再現性,是影響AI充分發展的關鍵因素。
2021年英國釋出的《國家人工智能戰略》中也将“投資AI生态系統的長期需求”作為中長期的關鍵行動計劃,具體措施包括釋出政府在促進更廣泛的經濟中實作更好的資料可用性作用的架構,咨詢國家網絡實體基礎設施架構的作用和選擇,并通過教育部支援AI、資料科學和數字技能的發展。
長久以來的産業建設與扶持使得英美等西方國家主導的AI産業鍊在資料庫層面提前進行了布局與積累,一定程度上成就了目前以英文文本為主導的資料庫在數量與品質層面均領先于其他資料庫的發展格局。
“首先,英語作為國際通用語言,使用的國家較多,覆寫的領域内容也更廣,資訊來源相對更為全面;其次,英語語料的UGC基數更大,也能夠支撐更多高品質問答社群生态,進而貢獻更多的資料量;最後,例如Github高品質代碼庫等專業資料庫仍主要以英文為主,垂直領域的專業内容很難找到替代品。”北京某算法工程師在與記者交流時指出,資料品類、基數與專業性,是目前人工智能訓練英文語料庫的優勢所在,也是目前部分非英語國家開發人工智能時仍需一定程度上依賴英文資料庫的原因。
綠盟科技天樞實驗室主任顧杜娟則表示,由于多年的資料積累,國外資料庫除豐富度和多樣性外,資料的品質和産業認可度往往也更高,其中一些語料庫常作為算法訓練和評估資料。
宏觀整合
在整體資料積累存在可見差距的背景下,後起者如何發力追趕也成為各國制定宏觀政策時首要考慮的問題之一,專業資料庫、國家資料庫等舉措亦成為政産學研關注的焦點課題。
“國家資料庫的建立對縮小國内外AI産業資料集之間的差距、推動對國内語料庫的重視和建設至關重要。”顧杜娟表示,國家語料庫的建構需整合多領域中的不同資料資源,對語料庫的品質、規模、多樣性、準确性和一緻性都提出很高的要求。
事實上,目前大陸多地已開啟資料集層面的協調打通與公共資料開放等工作,地方資料整合實踐正在逐漸推進中。
上海市于去年10月釋出的《上海市促進人工智能産業發展條例》提出,推動人工智能領域高品質資料集建設。支援相關主體将資料與行業知識深度融合,開發資料産品,服務算法設計、模型訓練、産品驗證、場景應用等需求。
近期北京市釋出的《北京市促進通用人工智能創新發展的若幹措施(2023-2025年)(征求意見稿)》亦表示,将聯合相關機關建構大規模預訓練基礎資料集、高品質微調資料集。建立訓練資料的供給和使用協調機制,強化相關行業主管部門、相關區政府和重點研發機關、平台企業、資料交易機構等市場主體的溝通協作。
“對于各類網際網路主體而言,高品質資料集由于平台間的壁壘往往難以整合,依靠市場的力量進行綜合利用是較為困難的,此時依靠行政力量加以打通和監管可能相對更為可行。”上述人工智能算法架構師表示。
更多内容請下載下傳21财經APP