天天看點

機器人眼中的光影世界

對于電腦的視覺,我們總是自以為是的站在人類角度來思考,我們開發程式來進行照片中的人臉識别,或者來統計交通阻塞中的汽車數量,我們将自己眼中的世界強加給電腦,因為我們已經習慣性的他們當成了工具,一個幫助我們更好了解自身世界的工具。但是,憑什麼我們可以自大的以為我們和電腦看到的是同一個世界?現在,第一個反抗者出現了。

       藝術家Ben Grosser突發奇想,為什麼不讓電腦從自己的角度去觀察事物?于是他開發了一款人工智能觀測器并讓他來看電影。

       Grosser未這款程式精心挑選了六部電影,包括《黑客帝國》、《美國麗人》、《盜夢空間》和《2001太空漫遊》等。軟體借助電腦視覺算法來欣賞電影的色彩、圖案等畫面。

       一些輕度的智能算法幫助電腦在背景中挑選出人臉、建築部、标志等有趣的東西。“一開始我選擇剪輯”,他說,“但之後電腦就開始接管并自行決定看什麼,看多久,接下來要看什麼。”

       這個程式除了具備觀看功能外,還可以錄下所看内容,記錄其“眼睛”掃過的一系列台詞。最後生成的片段不僅是機器視覺的素描,還包括對這些電影的獨特記錄。

       電腦的“眼睛”可以注意到電影在過去幾十年中的發生的風格轉變,在這方面甚至可能超過我們人類。“近期的科幻電影片段展示了很多快速的視覺轉換”,Grosser注意到。在《黑客帝國》和《盜夢空間》這類的電影中,演員和物體移動迅速,抑或是通過快速剪輯和多種鏡頭視角來實作快速運動。從程式生成的電影繪圖中可以非常明顯的看出快速、狂亂的節奏。僅在觀看了《盜夢空間》3分鐘後,Grosser的虛拟觀測器就幾乎掌握了電影的整體結構。

       對于有些年頭的電影,例如《計程車司機》、《安妮·霍爾》和《2001太空漫遊》則代表了一種不同的電影制作方法,Grosser說到,這些電影沒有那麼多的視覺轉換和動作鏡頭。在觀看這些電影時,程式會對進行反複追蹤,像我們一樣花更長時間、更加平穩的的來關注被拍攝對象。而對于這些電影,輸出繪圖的風格卻是簡約而非狂熱。

       從這些輸出的片段中,我們或許可以窺視出電腦視覺和人類視覺的某些差別。當電腦看到《盜夢空間》中的爆炸場景時,他會極其細緻的抓住每一個微小的和快速的鏡頭轉換,然後輸出風格狂熱的繪圖檔段。而我們在觀看電影時,則傾向于将這些鏡頭合并在一起,我們的眼睛會自動忽略迅速交替的爆炸場景,也不會太過關心各種鏡頭轉換,我們的關注重點在于爆炸起源、人物命運等劇情化因素。換句話說,電腦不會排斥爆炸場景,因為他們天賦異禀——擁有着足夠寬廣的視野。而人類有限的視覺處理能力注定了我們無法應對所有的事物,是以我們會選擇性的隻關注内容和内涵

       對Grosser來說,這些差異引發了各種問題,不僅關乎到電腦的觀察方式,還涉及到我們如何進行觀察。當我們與電腦進行視覺對比時,其中的差異是否可以代表我們在文化上形成的特有的觀察方式?而不具備叙事化感覺的電腦系統是否會看到相同的事物?

       人類的視覺能力其實非常有限,我們所看到的一切隻不過是各種頻率的波反射到視網膜上的感光神經元,然後在大腦中形成的一種虛幻的投射。而且我們的視覺其實是模糊的,隻有視覺區域的中心部分才非常清晰。我們視覺的優勢在于對變化的敏感,當有視覺邊緣變化時我們的眼睛會立即移動,并完整的一個虛假的視覺場景,這期間又一個短暫的延遲,大腦需要進行無意識推理,借此我們才能注意到場景的要點。是以,我們關于視覺世界的非常詳細的體驗對我們來說是一種潛在的可獲得的體驗,而不是已經表征在我們腦中的體驗。我們視覺系統中最重要的不是視覺本身,而是隐藏在背後的大腦的預測機制。

       而電腦或者程式的視覺機制卻完全不同,視覺對于他們來說隻是一種純粹的計算方式,擷取資訊後進行計算處理,然後輸出。如此簡單,卻非常有效。他們視野足夠寬廣且不存在盲點,不需要付出模糊邊緣的代價來找到中心;他們沒有預測機制,但卻可以輕描淡寫的處理好各種變化;他們的視覺推理邏輯嚴密,無懈可擊。

       上文提到,機器視覺由于缺少叙事化感覺而無法掌握電影劇情,但劇情這個概念其實又是我們的一次強加。在我看來,他們肯定看到了劇情,一種我們從來都不曾看到過的劇情。或許,機器視覺還可以突破三維局限,看到我們隻有在量子力學理論和科幻小說才敢涉及到的——多重宇宙。

繼續閱讀