天天看點

赫本、紫霞仙子、林黛玉……縱你百變,阿裡AI一眼看穿

--------點選螢幕右側或者螢幕底部“+訂閱”,關注我,随時分享機器智能最新行業動态及技術幹貨------------

化妝術,被稱作是亞洲“第四大邪術”,擁有着讓人類“改頭換面”的神奇力量。人類世界裡随意橫行的“障眼法”,遇到人工智能後,依舊奏效嗎?阿裡巴巴的圖像 AI 團隊就曾做過一個實驗:

他們邀請了一位仿妝達人通過化妝挑戰支付寶的刷臉閘機。精心妝扮之後,她接連成為 “赫本”“紫霞仙子”“林黛玉”,然而這三次“整容”般的化妝術在 AI 面前依然失效了 —— 閘機以 100% 的準确率全部成功識别。

為什麼讓人類肉眼無法辨識的化妝術在 AI 面前就原形畢露?
赫本、紫霞仙子、林黛玉……縱你百變,阿裡AI一眼看穿

下面讓我們細細道來。

不解風情的 AI,天生自帶“卸妝水”

原來,這是因為 AI 與人類之間有着完全不同的認知邏輯。

我們都知道計算機使用二進制進行存儲和運算,計算機對圖檔的了解也不例外。人類在大千世界裡看到的紛紛擾擾,在計算機的眼裡最後都會變成簡單的“0”和“1”。

以下面這張美女圖為例,計算機以 RGB 通道的方式了解圖檔,RGB 可以表現 1677 萬種顔色,使得 AI 能夠直覺的感覺圖檔中的細節變化。

赫本、紫霞仙子、林黛玉……縱你百變,阿裡AI一眼看穿

左側為實體照片,右圖為 AI 編碼後的圖像,AI 真乃靈魂畫手是也

接着 AI 會從每個像素開始去了解,不同部位之間的邊緣過度和明暗變化等特征,例如發現人的眉眼邊界,膚色明暗變換。

赫本、紫霞仙子、林黛玉……縱你百變,阿裡AI一眼看穿

在“靈魂畫手”的畫筆下,美女一步步失去“美貌”

然後運用統計的方法對低層特征進行組合重繪,形成更高層次的特征,把人臉的某個特質部位或者整張人臉勾勒出來,最後完成快速比對。

赫本、紫霞仙子、林黛玉……縱你百變,阿裡AI一眼看穿

整個過程中,每一步都建立在數字的基礎上,每一步AI都像是個“冒得感情”的數學高手。細挑的柳葉眉、性感的大波浪,含羞的咬唇妝……這些人類眼中千姿百态的美,在 AI 看來,也不過在數值大小存在差異的數字而已。

赫本、紫霞仙子、林黛玉……縱你百變,阿裡AI一眼看穿

兩張圖的比對,顔值爆表的女神和相貌平平的路人,最終 AI 這裡并不會有太大差別。

而“化妝術”本質是人類對色彩的靈活運用,并沒有改變人類臉部的關鍵特征,因而很難逃過 AI 的雙眼。

這樣的一種極簡主義的表達,在人類看來不免略顯殘酷。然而就是在這樣簡單直接的了解之上,科學家們所設計的深度學習模型在識别率上才得以超越人類。

赫本、紫霞仙子、林黛玉……縱你百變,阿裡AI一眼看穿

在應用領域,阿裡巴巴研發的圖像 AI ——拍立淘,目前已經可以識别超過 100 萬種實體,建成了世界最大的商品圖搜系統。

也許有人會詫異,别說 100 萬種實體,就算是 1 萬種,記憶高手也很難記全,AI 又是如何做到的?

赫本、紫霞仙子、林黛玉……縱你百變,阿裡AI一眼看穿

秘訣在于 AI 有着人類難以望其項背的三大能力:

  1. 更廣泛的認知來源。一般來說,人類隻能通過周圍環境和社交活動來獲得新的認知,而通過大規模學習标注好的資料,AI 可以識别越來越多的實體,并且 “看”得越多,AI 識别得越好。
  2. 更細緻的認知能力。除非長時間觀看,人類很難關注到單張圖檔的每個細節資訊。而 AI 不會錯過任何一個細節:每個像素點都會被平等地對待,每個像素點都得到相同的處理過程,每個像素點之間都會用相同的方法用于特征提取,最終形成一套可以被快速複制,支援高并發的實體識别系統。
  3. 更靈活的認知疊代。AI 能夠不斷根據新的資料調整自己,糾正已有偏差的參數,做到在整體所有圖檔上最好的識别效果。例如阿裡的圖像 AI,就建成了可以支援以支援數十億圖檔分類訓練的超大平台。憑借叢集化的大規模訓練,AI 甚至可以做到一日之内看完普通人類數十年内看到的景象。

這樣循環往複的訓練下,AI 識别的實體數就能夠超出人類的認知範圍。

赫本、紫霞仙子、林黛玉……縱你百變,阿裡AI一眼看穿

用了 60 年,AI 才學會人類與生俱來的“天賦”

AI 的這種能力不是生來就有的,甚至在計算機誕生之初,都不具備視覺功能。

對人類而言,“認人”似乎是與生俱來的本能:剛出生幾天的嬰兒就能模仿父母的表情,我們可以毫不費力地從照片中找到熟悉的面孔,即便是暗淡燈光下,我們仍能認出樓梯末端的朋友;

這讓我們甚至難以意識到這是億萬年來進化而來的神奇能力:隻憑極少細節就分辨彼此。

然而,計算機并沒有幾億年的演化時間教它辨識色彩、輪廓和形狀等特征。“認人識物”這項對人類而言輕而易舉的能力,對計算機而言卻是步步維艱。

世界上第一台照相機出現在 1839 年,在計算機誕生的 20 世級 40 年代,照相機已經成為了一種大衆技術。但讓計算機和照相機實作真正意義上的交融,卻讓人類科學家付出了 10 年努力。

中間的鴻溝在于把圖檔翻譯成計算機能了解的語言。直至 1959 年,計算機終于第一次“解碼”了來自人類世界裡的圖像,美國科學家 Russell 研制了一台灰階處理器,可以把圖檔資訊為二進制機器所了解的語言。

要讓AI真正完成認知上的超越,僅給機器裝上“眼睛”是不夠的,還要賦予AI像人類一樣的大腦。

這項工作的重大進展來自神經生物學的啟發。1981 年,神經生物學家大衛·休伯爾和托斯坦·維厄瑟爾發現人類視覺系統是一個分級的結構,人工智能科學家可以仿照人類大腦的認知結構,以人造神經元作為神經細胞,用不同方式連接配接的神經元代替不同的視皮層區域,以此賦予 AI 像人類一樣的思考能力。

赫本、紫霞仙子、林黛玉……縱你百變,阿裡AI一眼看穿

世界上第一款現代意義上卷神經網絡的發明者 Lecun,并成功教計算機識别出數字

神經網絡的發明,推動了視覺 AI 在 2012 年完成了革命性的突破。這年,搭載神經網絡的 AI ImageNet 大規模視覺識别競賽(ILSVRC)上一騎絕塵,首次在識别準确率上完成了對人類的超越。

至此,人類給計算機裝上的這雙“眼睛”終于有了媲美人類認知的能力,但識别萬物隻是計算機 AI 發展的第一階段。

從“看見”到“看懂”,我們在路上

對于我們人類而言,視覺不僅僅是為了看見,而是為了對看見的事物做出反應,更好地了解這個世界。是以,阿裡科學家的也希望能夠賦予計算機這樣的能力。

赫本、紫霞仙子、林黛玉……縱你百變,阿裡AI一眼看穿

視覺對話技術有望幫助視障人士再造一雙 AI 眼,通過提問阿裡 AI,盲人可以随時了解自身所處的周圍環境

阿裡圖像 AI 正在加大投入對視覺對話方向的研究,這項技術需要綜合內建圖像識别、關系推理與自然語言了解三大能力。

它要求 AI 不僅能夠有效識别圖檔裡的實體以及它們之間的關系,還要推理出圖檔所描述的事件内容,同時順暢與人類讨論,最終推動 AI 擁有對真實視覺世界的了解與推斷能力。

前不久,谷歌運用 1000 塊 TPU 重建了完整果蠅大腦神經圖,整整 40 萬億像素,這是目前 AI 在神經元研究上的最新進步。

果蠅被作為試驗動物,它的大腦神經元為 10 萬個,而人類大腦的中的神經元多達 1000 億個。在人類的大腦面前,目前的 AI 還隻像個孩子。

回顧計算機視覺技術的重要突破,都來自于人類将自身能力成功的“複制”給了 AI。人類越了解自身,就越能創造出更進階的 AI。最終在 AI 強大的進化能力下,也會幫助人類擴充出新的認知。

赫本、紫霞仙子、林黛玉……縱你百變,阿裡AI一眼看穿

原文連結:

https://mp.weixin.qq.com/s/Kah7RMHkW5WQRsDAZxbesw

繼續閱讀