為了規避隐私、肖像權等方面的糾紛,該 APP 不支援上傳名人照片。是以,機器之心編輯部選取了某粉絲的照片作為換臉素材。

機器之心粉絲換臉後的呂秀才視訊動圖。
除了視訊之外,該 APP 還有制作 GIF 動圖的功能,也就是說,你也可以變身「中年王子曉明哥」了。
機器之心粉絲版「我不要你覺得,我要我覺得」。
由于上傳的照片是戴眼鏡的,是以換臉後的人物也戴上了眼鏡。
除了上面展示的片段之外,這一 APP 還提供了很多其他可以選擇的素材,分為合演、換裝、名場面、愛豆同台等主題,使用者可以自由選擇換臉對象。
嘗試上傳某名人照片之後,APP 跳出以上提示。
但是,讓使用者上傳私人照片的做法不免令人擔心,這家公司會如何處置我們上傳的照片呢?果然,在《使用者協定》裡,Zao 明确告知使用者:同意上傳照片之後,我們怎麼用你就管不着了。
《使用者協定》裡的霸王條款
刷屏的ZAO換臉APP你玩了嗎?裡面的霸王條款你造嗎? 從《使用者協定》裡我們可以讀出以下資訊:
1. 使用者上傳照片=授權 Zao 使用該照片。而且,其關聯公司也享有同樣的權利;2. 該授權是免費、不可撤銷、永久、可轉授權、可再許可的;3.Zao 及其關聯公司有權對使用者上傳的内容進行全部或部分的修改;4.Zao 及其關聯公司享有修改後的内容著作權。……
以上隻是我們從《使用者協定》中讀出的部分内容,其中必然還有很多我們沒有讀出的隐含内容。但僅從目前能了解的部分來看,這一協定也是相當霸道了,部分網友大呼「離譜」。是以,部分法律人士提醒公衆:上傳照片有風險,要多注意隐私安全。
換臉到底是什麼樣的操作
盡管「Deepfake」這類應用非常吸引人,但落到實處還是會引發很多的問題,不論是倫理還是隐私。不過機器之心的讀者可能更關心它背後的技術,後面我們将介紹生成對抗網絡和變分自編碼器兩種換臉的解決方案,也許大規模應用還能進一步催生效果更好、算力更少的解決方案。
直覺而言,GAN 這類生成模型可以生成非常逼真的人臉圖像,那麼現在需要将某個人的特點遷移到另一張人臉上,這就需要更多的子產品來定義需要遷移的位置與特點。
總體上,「Deepfakes」換臉主要分為以下過程:
- 人臉定位
- 人臉轉換
- 圖像拼接
其中人臉定位已經非常成熟了,一般定位算法可以生成人臉的特征點,例如左右眉毛、鼻子、嘴和下巴等等。人臉轉換也就是采用 GAN 或 VAE 等生成模型,它的目标是生成擁有 A 表情的 B 臉。最後的圖像拼接則是将人臉融合原圖的背景,進而達到隻改變人臉的效果。
當然,如果生成 ZAO 這種小視訊,那麼還需要一幀幀地處理圖像,然後再将處理後的結果重新拼接成小視訊。
人臉定位也就是抽取原人臉的表情特征,這些特征點大緻描述了人臉的器官分布。我們可以直接通過 dlib 和 OpenCV 等主流的工具包直接抽取,但它們一般采用了經典的 HOG 的臉部标記算法。這種算法根據像素亮度差确定一些「箭頭」,進而找到人臉顯著的特征點。
如上是一些人臉特征點,如果我們像換臉的表情更加真實和準确,那麼也可以使用目前主流的人臉識别算法,它利用卷及網絡能生成更完美的特征點。但是這類深度模型需要更大的算力,尤其是在處理高分辨率圖像時。
後面就是「Deepfake」應用最核心的部分了:換臉。一般我們可以通過 VAE 或 GAN 兩種方式實作,這裡主要介紹一下它們的思路。
首先對于變分自編碼器(VAE),我們知道它希望通過無監督的方式将人臉圖像壓縮到短向量,再由短向量恢複到人臉圖像。這樣短向量就包含了人臉圖像的主要資訊,例如該向量的元素可能表示人臉膚色、眉毛位置、眼睛大小等等。
是以如果我們用某個編碼器學習所有人,那麼它就能學習到人臉的共性;如果再用某個解碼器學習特定的某個人,那麼就能學習到他的特性。簡單而言,當我們用通用編碼器編碼人臉 A,再使用特定解碼器 B 解碼隐藏向量,那麼就能生成出擁有 A 的人臉表情,但卻是 B 人臉的圖像。
這就是 VAE 的解決方案,對于 GAN 來說,它會利用抽取的人臉特征點,然後根據生成器生成對應的目标人臉圖像。這時候,編碼器同樣也會将真實的目标人臉編碼,并和生成的目标人臉混合在一起。是以,如果判别器不能區分根據某人特征點生成的人臉和真實人臉有什麼差別,那麼生成的人臉就非常真實了。
如上所示為論文 Few-Shot Adversarial Learning of Realistic Neural Talking Head Models 的解決方案,它隻需要幾張目标人臉圖,就能根據原人臉的特征點生成極其逼真的效果。
如何識别和應對「Deepfakes」照片或視訊?
知道了如何制作換臉視訊,我們還要掌握一些識别換臉視訊的技術,因為這些換臉技術給大衆帶來歡樂的同時,也在被不少人濫用。這種濫用不僅給公衆人物造成了困擾,甚至還威脅到了普通大衆。
如前段時間火爆網絡的 DeepDude 應用軟體,這款 APP 僅輸入一張女性照片,即可借助神經網絡自動「脫掉」女性的衣服,進而展現其裸體。這款侵犯女性隐私的 APP 在上線僅數小時後即宣告下架。
雖然這些換臉 APP 會因人們的抵制或其他原因而強制下架,但類似的 APP 還會出現,網絡上也依然會充斥着真假難辨的照片或視訊。是以,從技術層面來看,我們需要一些方法來幫助識别這些 Deepfake 照片或視訊。
不自然的眨眼
由于用來訓練神經網絡的圖像資料往往是睜着眼睛的,是以 Deepfake 視訊中人物的眨眼或不眨眼的方式通常是不自然的。
去年,奧爾巴尼大學(University of Albany)的研究人員發表了一篇論文,提出了一種可以檢測這種不自然眨眼的技術。有趣的是,這項技術使用的也是深度學習,和制作假視訊的技術是一樣的。研究人員發現,利用眨眼視訊訓練出的神經網絡可以在視訊中定位眨眼片段,找出非自然眨眼運動的一系列幀。結果發現,Deepfake 視訊中人物的眨眼不符合正常的生理學規律,由此可以識别出哪些是原始視訊,哪些是 Deepfakes 視訊。
原始視訊(主持人,圖上)和 Deepfake 視訊(尼古拉斯凱奇,圖下)中人物眨眼的檢測示例。結果顯示,原始視訊中 6 秒内可以檢測到人物的眨眼,而 Deepfake 視訊中 6 秒内未檢測到人物眨眼,這不符合生理學規律。
追蹤頭部運動
每個人都有獨特的頭部運動(如開始陳述事實時點頭)和面部表情(如表達觀點時得意得笑),但 Deepfakes 中人物的頭部動作和面部表情都是原人物而非目标人物的。
基于此,加州大學伯克利分校的研究者提出了一種檢測換臉的 AI 算法。其基本原理是:利用一個人的頭部動作和面部表情視訊訓練一個神經網絡,然後拿這個神經網絡去檢測另一個視訊中的人物動作和表情是否屬于這個人。模型準确率達到 92%。
(a)原始人物;(b,c)分别是 Deepfake 人物。
制作換臉視訊和識别換臉就像一場貓鼠遊戲,造假技術日新月異,打假技術也在不斷疊代。但僅在技術層面打擊這一技術的濫用是不夠的,我們還需要法律的支援。
政府會允許此類 Deepfake 應用逍遙法外嗎?
Deepfakes 等技術的濫用也引起了各國政府的注意。
今年 6 月,美國民主黨衆議員 Adam Schiff 在衆議院情報委員會聽證會上發出警告稱,由 Deepfake 生成的視訊可能會對 2020 年美國大選産生災難性影響。是以,他要求國會考慮修改法律,以規定對合理稽核做法的豁免權。而與此同時,也有議員提出法案,建議所有 AI 生成的視訊都必須打上标記。
今年 7 月,弗吉尼亞州擴大了其「色情報複法」(revenge porn law)範疇,将 deepfake 也包含在内,修正後的法律已于當地時間 7 月 1 日生效。依照新規定,未經當事人允許即分享他人的裸露照片或視訊(無論該照片或視訊是真實的還是僞造的)屬于違法行為,用于「脅迫、騷擾或恐吓」目的将被定為第一類輕罪(Class 1 misdemeanor),最高可判 12 個月的監禁,罰款額高達 2500 美元。
那麼國内是否有相關的規定呢?
中華人民共和國《民法通則》第一百條規定,「公民享有肖像權,未經本人同意,不得以營利為目的使用公民的肖像。」
最高人民法院關于貫徹執行《民法通則》若幹問題的意見第 139 條規定:以營利為目的,未經公民同意利用其肖像作廣告、商标、裝飾櫥窗等,應當認定為侵犯公民肖像權的行為。
今年 4 月,第十三屆全國人大常委會第十次會議審議通過的《民法典人格權編(草案)》中新增加了一條規定,即任何組織或者個人不得以利用*資訊技術手段僞造*的方式侵害他人的肖像權。雖然沒有明确說明,但這類資訊技術手段理應包含 Deepfake 這類換臉應用。
部分人士分析道,Zao 現在也遊走在危險地帶。雖說它可以自動識别公衆人物,但其識别率肯定達不到百分之百。是以,一旦出現相關問題,産生了某些不良影響,被封停或下架也不是沒有可能。