天天看點

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

作者:DeepTech深科技

本文首先結合蘋果公司最新推出的 Vision Pro 詳細回顧“虛拟現實”“增強現實”和“混合現實”等技術的來龍去脈,然後結合一家混合現實創業公司的發展曆程展望 Vision Pro 為世界帶來的可能性。

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

增強現實和空間計算

人類文明在近代突飛猛進地發展,許多技術的出現極大改變了我們的生産力和看待世界的方式。

技術對一個單獨的人類個體的幫助主要有兩點:

第一點,減少該個體擷取資訊的難度。舉例來說,從印刷術到電報、電話,再到網際網路、移動網際網路,技術幫助人們更快地把資訊傳遞和分發給不同的人。而從另一個角度說,馬車、火車、飛機這些交通工具讓人類個體更快地移動,也可以看作是幫助個人更快去到不同的地方收集更多的資訊。人們對這些資訊分發、資訊收集的速度要求主導了過去近 200 年的主要技術進步。

第二點,提供對世界量化的認知。對時間和空間的量化需求同樣在人類曆史發展中扮演了重要的角色,例如早期的鐘表采用日晷、滴水計時,随後在中世紀發展了出擒縱機構、複雜齒輪組,然後在當代發展到了石英電路、原子鐘,這每一項在量化時間方面的技術進步都來自于各種科學和工程領域對量化世界的追求。

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

圖 | 本文作者楊碩(來源:楊碩)

擷取資訊和量化世界不僅提高生産力,還可以提供發自人類本能的安全感。一個人身處野外雖然感到惶恐,但如果通過手表知道離天黑還有多少小時(對時間的量化認知)、通過 GPS 接收機知道自己離附近的城鎮還有多遠距離(對空間的量化認知)、通過對講機或者手機可以實時與熟悉的人交流(擷取資訊),則這個人可以獲得極大的安全感。

是以,擷取資訊和量化世界可以說源自生物趨利避害的本能,或者說他們也就是人類本能的一部分,它讓技術的洪流不可阻擋地在曆史長河中前進。

由于對這些技術的追求是人類的本能,是以從古至今、無論實作與否,每個人都明白任何一件幫助我們擷取資訊和量化世界的技術的極限是什麼——越快越好、越精确越好:2000 年前通過鴿子傳遞文書的羅馬人,一定幻想過未來會出現讓自己手中的資訊瞬間傳遞到千裡之外的技術;中世紀的鐘表匠隻懂得重力擒縱機構,但他們明白在長期技術發展之後一定會有未來的工匠造出運作萬年依然分秒不差的鐘表。

同樣地,每個人都會因為自己本能地追求擷取資訊和量化世界而能夠幻想出一些所有人都會喜歡和追求的技術。比如,古往今來一定有無數人類個體曾想象過這樣一種技術——我們睜開眼看世界,視野中不僅有我們身邊其他人類個體以及自然和人造的物體的影像,還有對于這些物體量化的或者描述性的資訊——一個非洲的原始人迫切需要知道視野中樹根邊的一片蘑菇裡哪些有毒哪些沒毒、一個歐洲的石匠希望可以實時知道手中正在加工的石槽的寬度、一個當代的辦公室職員想要努力回想自己昨天随手把一個 U 盤放在了桌上哪個角落……如果我們看向周圍就能額外看到蘑菇的類型、石料的長度、辦公桌上特定物體的位置等資訊,我們的生活将會多麼安全和高效!

這就是我們今日津津樂道的“增強現實”技術。它源自人類内心的本能,代表了人類對擷取資訊和量化世界的極緻追求,一代一代人類都曾經幻想過它的存在以及可能的實作方式。

二十一世紀二十年代的人類基于目前時代的科技發展水準,對這種技術的可能實作方式是這樣思考的:這是一台佩戴在人眼前方的機電裝置,重量和制造成本越低越好,最好重量能夠忽略不計,人眼透過這台裝置看到周圍環境反射的光線,同時這台裝置會投射光線到人眼中,讓人看到虛拟的、關于周圍環境物體的量化資訊。這台裝置有自己的計算單元、資訊存儲器,可以分析了解周圍環境中物體的資訊,還能夠接入網際網路擷取更多的相關資訊。我們可以用如下的架構圖來表示:

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

(來源:楊碩)

蘋果最新推出的 Vision Pro 以及此前已經存在的微軟 Hololens 正是實作了這樣功能的機電裝置。不過兩者還有一些小差別,這差別與“混合現實”的概念有關。

當代人類還想出了另一種方式來達到極緻擷取資訊和量化世界的目的:如果我們身處的不是現實世界,而是數字和計算構成的世界,那麼在這個本身就是由人類自己建構的世界中自由移動、量化一切事物就是自然而然的事情。将人類的意識接入數字化的虛拟世界,就是被稱為“虛拟現實”的技術。這種技術的極限超出了當代人類的想象,我們現有的被稱為虛拟現實裝置的大部分機電産品隻是一些拙劣的實作,因為人類有視覺、聽覺、觸覺等等不同的感覺,我們不知道如何把所有的感官資訊都用數字化的資訊來取代。當代的虛拟現實裝置往往隻替換人類視覺系統輸入的資訊,采用如下的架構方式:

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

(來源:楊碩)

采用上述架構的虛拟現實裝置有一個巨大的缺點幾乎難以用現有的技術手段克服——頭暈。每一個人類個體無時無刻不在大腦中進行“傳感器融合”,通過幾種感官傳感器來确定自己在空間中的狀态。其中最重要的一種傳感器融合行為是對頭部運動速度的測量。

當我們轉動頭部和身體時,人腦會通過視覺系統看到的圖像計算自己的運動速度;另外人的耳蝸中存在一些固體狀的顆粒稱為耳石,它們受到慣性力加減速時會牽引耳石膜,讓耳蝸感覺頭部的運動速度。

再者,人體運動時,各個相關肌肉的伸長和縮短情況也提供了一些關于運動的資訊。當這三者測量的運動速度不一緻時,人就很容易出現頭暈的症狀。暈車是一個典型的例子,暈車的主要原因是人看向車内,通過視覺系統認為自己沒有運動,但此時車輛的加減速和颠簸會讓耳石告訴大腦說身體正在運動,大腦是以會出現混亂。

另一個例子是恐高症,人在高處看地面時,由于地面的景象離自己太遠,視覺系統測量不出運動,和耳蝸感覺到的微小運動資訊出現了不一緻,大腦又進入了眩暈狀态,此時如果人趕快坐下、扶住欄杆或者扶住地面,通過身體肌肉資訊向大腦傳達身體的運動資訊狀況(此時至少身體肌肉和耳蝸測量的運動資訊是一緻的),就可以減弱頭暈的反應——在下圖右側的幾種姿勢中,從上到下頭暈反應越來越嚴重:

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

(來源:楊碩)

是以可想而知,隻替換視覺系統輸入的虛拟現實裝置給大腦将造成多少迷惑。當然,就像暈車和恐高可以通過訓練來克服一樣——通過反複經曆傳感器資訊不一緻的場景鍛煉大腦隻關注耳蝸和身體肌肉提供的運動資訊——虛拟現實裝置也可以通過使用者自己的訓練來減少甚至消除眩暈感,但這對使用者提出了很高的要求。

另外一個折衷的解決方案是虛拟現實裝置還是要讓使用者的大腦感受到視覺系統該看到的資訊,把一個随着使用者視線移動的相機捕捉的圖像同樣顯示給使用者作為虛拟世界的背景,這樣使用者的視覺系統依然可以獲得和其他感官一緻的運動速度測量。這種設計被稱為“混合現實”,如下圖所示:

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

(來源:楊碩)

在混合現實裝置中,使用者不僅看到虛拟世界呈現的資訊,還可以看到背景中的環境圖像,進而讓大腦明白自己在空間中的運動狀态。

另外,“混合現實”裝置和“增強現實”裝置的結構有相似之處,差別是環境光線是直接通過裝置的開口通路進入人眼(這種設計學名叫做光學透視,Optical See-through),還是被裝置的數字攝像頭轉換成數字圖像再發給人眼。把環境轉換為數字圖像的便捷之處是裝置可以利用當代的計算機視覺算法對圖像做處理和分析,這樣能夠結合分析結果呈現更多更準确的資訊。根據蘋果釋出會中 Vision Pro 的介紹,我們可以看出它是一台混合現實裝置。

我們可以說混合現實裝置是一種對虛拟現實的頭暈問題的補償方案,又是對增強現實技術的另一種實作和優化方式。但是,混合現實裝置如果性能不好,反而會加重頭暈的問題,因為使用者看到的不是直接來自環境的光線,而是經過了計算裝置後處理的圖像的光線。

如果計算裝置采集圖像、處理圖像需要的時間太久,圖像的延遲還是會造成視覺系統和耳蝸的運動估計資訊不一緻:視覺系統通過數字圖像估計目前時刻減去一小段時間前的頭部運動速度,而耳蝸估計的是目前時刻的速度。計算裝置的圖像延遲越大,估計不一緻越明顯,頭暈的問題越嚴重。

一般的理論認為這個延遲必須小于人眼視覺暫留效應的時間(約 1/16 秒或 60 毫秒)。在蘋果釋出 Vision Pro 的介紹中,提到了一個 12 毫秒把數字圖像顯示到螢幕的數值,但是并沒有詳細介紹究竟這個數值是轉換數字圖像的處理時間,還是包含了轉換圖像、疊加虛拟資訊的全部時間。不論是哪一種,這個數值都是很驚人的,因為目前市面上所有的類似裝置,延遲基本都在 100 毫秒上下。

微軟的 Hololens 号稱延遲可以做到 60 毫秒以下,但是它隻是增強現實裝置,光學透視節省了處理數字圖像的時間,而疊加資訊的圖像通過類似擡頭顯示器的光路呈現,而這些圖像的像素比較低,最終觀看體驗應該不如 Vision Pro 的紙面數值。

這種種不同的方案和對裝置性能的追求是因為虛拟現實本質是一種欺騙大腦的技術,但是大腦是人類智慧的核心,豈是這麼容易好欺騙的,大腦總是能夠敏銳地意識到身體感官傳感器信号之間的誤差,然後拒絕正常工作。

最合理的虛拟現實技術一定是直接替換掉大腦所有的感官輸入,不過人類尚不知道有什麼簡單的機電系統可以在不損傷人體的情況下代替掉耳石提供的運動速度測量和肌肉感覺到的運動資訊,也許未來我們會發展出直接替換掉大腦入口神經鍊路上的資訊的技術,但這個時代的人類對此沒有任何系統性的了解。“虛拟現實”在當代不是一個準确被實作的技術,也往往和增強現實技術和混合現實技術混淆。

是以,在逐漸發展之後,“虛拟現實”“增強現實”和“混合現實”三個概念開始變得非常相似,采用了類似的技術實作方式。用這三個概念作為相關的機電裝置的分類方式并不準确,普通消費者感到迷惑、從業人士多有争議。可能正是因為如此,蘋果在釋出會中隻談到了 Vision Pro 是一台“空間計算”(spatial computing)裝置,而沒有強調它是一台混合現實裝置。

“空間計算”一詞更好地突出了這類顯示裝置最大的技術難點:資訊呈現需要考慮人與周圍環境物體的空間關系。我們已經用了相當多的篇幅讨論為什麼虛拟現實裝置(從這裡開始我們統稱它們為空間計算裝置)必須調整方案、優化性能來保證人的大腦始終具備對自身空間狀态的認知。

接下來,我們要着重介紹一下“資訊呈現”環節中對空間關系的關注。有些時候簡單的架構圖會讓人産生其中某些部件非常容易實作的錯覺,但其實空間計算裝置最浩瀚的工程隐藏在這一個環節中。

簡單來說,就像我們看電影的時候經常通過字幕獲得額外的資訊一樣,空間計算裝置也可以把一些資訊直接像字幕那樣顯示在使用者的視野中的固定位置。但是,我們的大腦很聰明也很蠢,如果視野中出現了很多字,而我們又在認真讀這些字,視覺系統就會開始把這些字當作是環境中的物體并通過它們來估計自身的運動資訊,而它們是相對視野靜止的——于是又要頭暈了。

更妥當的辦法是把資訊呈現在環境物體之間,讓可視化的資訊看起來是環境的一部分。比如使用者在視野中看到一個人在說話,相對應的語言翻譯顯示在這個人的胸口處,使用者稍微動一動頭,顯示的翻譯資訊也跟着人運動,看起來是固定在人的身體上,而不是固定在自己眼前的螢幕上。

為了實作這個功能,“資訊呈現”部分中其實發生了下面這樣一些子環節:空間計算裝置計算出自身在空間中的位置、裝置計算出另一個人在空間中的位置、收集語音資訊并翻譯、把翻譯語句可視化并虛拟出一個字句的圖形、把文字圖形調整在合适的三維空間位置并渲染出二維圖像、把圖像疊加在環境的數字圖像上然後顯示在使用者的視野中。

實作這些子環節涉及到的技術各有千秋,橫跨計算機視覺、深度學習、自然語言處理、機器人學等不同工程和科學領域。更重要的是,所有這些子環節運作的時間要求非常嚴格,如果使用者看到的圖像不能延遲超過 60 毫秒,那麼每一個子環節都隻能配置設定到幾十毫秒甚至不到十毫秒的時間。

下面的架構圖是筆者根據已有的技術構思的子環節關系和各個環節的延遲要求,它可能與 Vision Pro 實際的情況有差别(裝置整體輸入輸出的總延遲數值究竟是多少在釋出會中沒有明确,實時語音翻譯也不是他們展示的功能),但是足夠說明空間計算裝置的複雜和對實時計算的嚴苛程度。

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

(來源:楊碩)

其中,實時語音識别和翻譯是自然語言處理領域的“聖杯”,今年開始通過大語言模型我們終于窺見了這種技術的曙光,但是怎麼能在 50ms 或者更短的時間内做到實時的翻譯和呈現還是很有技術挑戰性。在有些應用場景下,即使翻譯和顯示語句慢一點可能也不會太影響使用者體驗,是以我們可能不需要追求這種技術的極緻。

通過實時定位與地圖重建技術(Simultanous Localization And Mapping)進行傳感器融合,進而确定裝置和環境物體的空間位置是過去二十年機器人學領域最蓬勃發展的一個課題,相關的技術業已成熟,難點同樣在于如何優化算法減少時間消耗。

這個環節的時間消耗是整體系統的性能瓶頸,因為空間計算裝置的體驗來自于呈現的資訊融入環境的融洽程度,是以每一毫秒的延遲縮減都能提高裝置的使用體驗。當然,每一毫秒的延遲縮減也需要從硬體到軟體不同層面巨量的工程投入:采用更好的傳感器和處理器硬體、盡可能使用并行計算處理傳感器資料、盡量利用融合算法中出現的矩陣的稀疏性、使用優化的彙編語言編寫矩陣計算的數學庫……

釋出會中展示的 R1 晶片可能就是專門負責這些子環節的晶片,它就像是一個站在奔流的大河邊的漁夫試圖在幾十毫秒内數清自己面前經過了多少條魚一般,從多路相機、雷射雷達、慣性導航元件的資訊洪流中總結出自身和環境物體的空間資訊。

這個架構圖并沒有涉及 Vision Pro 的手勢識别和眼動追蹤功能,這兩個互動性的功能并不影響系統整體的空間計算性能,屬于錦上添花。但是能夠在滿足空間計算的大計算量需求之外還能塞入這兩個功能,足見 Vision Pro 硬體性能的強大。

回到我們開頭所說的人們對“增強現實”的美好幻想,Vision Pro 達到我們的美好幻想了嗎?遠遠沒有。我們腦海中想要的的增強現實應該一毫秒延遲都沒有(60 毫秒或者 12 毫秒聽起來可太差了)、毫不笨重(而不是一大坨戴在頭上的金屬)、戴上可以用一整天(而不是在懷裡揣着電池才隻能用兩小時)。

但是,它是走向未來的關鍵一步,我們确信沿着這條路走下去,繼續一毫秒一毫秒地減少延遲,同時繼續減少裝置的發熱、重量、成本,我們總會到達增強現實技術的極緻。

八十年前,面對占地超過一個籃球場的電腦的科學家可能想象不到,幾十年後性能更強的電腦可以友善地揣進人的口袋;同樣地,三十年後比 Vision Pro 性能更好的空間計算裝置可以作為隐形眼鏡佩戴并不是癡人說夢。我們正在這條路的起點。

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

空間計算可以做什麼?

Vision Pro 并不完美,但是低延遲、高分辨率、兩小時續航以及一些試用者對重量的良好回報都讓人感覺非常樂觀。但是,和虛拟現實相關的熱潮在過去十年中幾次高漲又幾次衰退,這些年中我們經曆了太多的新裝置的誕生,也經曆了太多戴完這類裝置之後的頭暈腦脹,這一次我們又是虛假的樂觀嗎?

在讨論我們可以用 Vision Pro 做什麼之前,我想先講一位朋友的故事。我對空間計算技術的思考大多來自他的幫助。

2014 年,我随大疆的團隊拜訪矽谷的公司和投資人,行程期間突然有一位人人網的朋友聯系我希望我去他的車庫看看。一向樂于結交工程師的我和這位叫 Amber 的朋友約在斯坦福購物中心的蘋果店見面,然後他帶我驅車去向矽谷房價最貴的富人區阿瑟頓——這個區一棟豪宅的主人把車庫租給了他——說是車庫但是車庫附帶一套傭人住的套間,比一般人的家都大。在那裡我看到 Amber 在早期的 HTC Vive 開發者版本上開發的一些虛拟現實應用。第一次進入虛拟世界的我每隔十分鐘就會頭昏腦脹得難受,必須停下來躺在地上讓大腦重新把傳感器們配準。但是,在大腦不出問題的間隙中,我還是能感受到虛拟現實的壯麗。

直到我玩了一陣子虛拟現實以後,才坐下來和 Amber 好好聊天。我才知道他畢業于清華姚班,大學期間在香港科技大學跟著名計算機科學家楊強教授做科研,在斯坦福大學讀完計算機碩士之後并不想安于在大科技公司打工,而是想創業探索虛拟現實和數字媒體藝術。多年以後再回想起來我總覺得認識 Amber 的經曆非常超現實,Amber 自己也覺得很超現實,畢竟不是每個人都有機會在青年時期住在矽谷的核心地區的豪宅車庫裡。此後的多年裡,每次有機會到矽谷我總會去 Amber 的車庫做客。

2015 年我開始與 Amber 合作開發結合四旋翼飛行器的虛拟現實應用。我在大疆工作的早期參與了 DJI SDK 的開發,通過 DJI SDK 使用者可以程式設計控制四旋翼飛行器在空中的位置和相機朝向角度等行為。2016 年,Amber 的公司公布了一款基于 DJI SDK 開發的應用叫做 Skywand,它的想法非常酷:很多時候我們在規劃飛行器航線之前缺乏對航線上飛行器會看到什麼東西的直覺了解。

為了解決這個問題,可以先用 Google Earth 的航拍資料建構和現實世界一樣的虛拟世界,然後在數字世界裡規劃和預覽飛行器的航線,通過虛拟現實頭顯裝置來從空中檢視航線非常直覺(除了隔一陣子要停下來從頭暈中恢複)。航線規劃完成後,接着把航線發送給飛行器,真實世界中的飛行器可以啟動一個航線任務,在現實空間中飛過一模一樣的航線。這項技術非常适合電影拍攝時重複執行相同的航拍鏡頭。

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

(來源:Skywand)

Skywand 想法很好,但是它必須适配特定版本的 HTC Vive 虛拟現實裝置和改裝的 DJI Inspire 飛行器,這使得軟體對硬體的相容性非常難維持。此後一年多,在 HTC 和 DJI 各種進行了硬體疊代之後,繼續維護 Skywand 變得非常困難。

另外,虛拟現實的頭暈問題也限制了它能夠給航拍帶來的生産力提升。這讓我們相信虛拟現實——更準确地說是我們前面讨論的這種拙劣的版本——本身的上限很低。讓使用者還是看到環境光線的增強現實或者混合現實技術才更加有用。

2017 年,恰逢蘋果推出了 ARKit 功能,Amber 開始探索如何結合 ARKit 低成本地實作增強現實技術,并且希望能在增強現實眼鏡成熟之前,提供一種低成本的替代品用于實驗和研究,于是他發明出了 HoloKit 這款裝置。

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

(來源:楊碩)

Holokit 是一款便宜又巧妙的增強現實裝置,售價僅僅 129 美金。它本身隻有一套實作光學透視的鏡片組,同樣用擡頭顯示器的原理把安裝至其中的 iPhone 手機螢幕圖像疊加在使用者看到的環境光線中,原理雖然很簡單,但呈現效果和昂貴的 Hololens 非常類似,有 60 多度的視場角度,所有的空間計算都依托蘋果手機的 ARKit。

Amber 用了多年的時間自己摸清了深圳的消費電子供應鍊,實作了 Holokit 的量産。Amber 偶爾會找我讨論我們可以用 Holokit 做什麼,由于他對數字媒體藝術的熱情,他更多關注的是此類裝置的多人遊戲屬性 (Co-presence),以及通過虛拟的場景和現實場景的結合來展示藝術。比如在 Holokit 上最令人印象深刻的示範是下面這個視訊所展示的多人協作和龍戰鬥的場景,這個展示剛剛在人機互動頂級會議 CHI2023 上拿到最佳示範獎:

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

(來源:Holokit)

在這個示範中,多個玩家和一名觀察者都身處紐約市的 World Trade Center,所有人帶上 Holokit 進入到一個相同的虛拟遊戲空間中,這個空間裡有一條飛龍。玩家們手上佩戴蘋果手表,手表内内置運動感應元件,手表通過藍牙和手機連接配接,這樣當他們揮動手臂時就可以像用魔杖發射咒語一般攻擊龍。

玩家被龍攻擊時,可以通過左右跑動來躲開龍焰。這個示範極好地利用了低成本空間計算裝置的優勢并避免了劣勢——在巨大的開闊空間裡使用者主要通過光學透視看清周圍環境,是以不容易産生眩暈。手機的性能有限,龍的定位有一定的延時,但是由于環境開闊,延遲不會太影響體驗;延遲影響了發射咒語的方向精度,但這反而增加了遊戲的随機性和趣味性。

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

(來源:Holokit)

Holokit 高度依托于蘋果手機的生态,确實在誕生之初也得到了蘋果的關注。在 Amber 基于 Holokit 做出一些示範之後不久,2018 年開始蘋果公司有團隊與他接觸,想要把 Holokit 打造成蘋果 ARkit 生态中重要的開發者的實驗平台。後來因為疫情等種種原因,這項合作沒能繼續進行下去,非常可惜。在蘋果公司内部有多個空間計算項目和計劃在運作,有的項目組希望推動 Holokit 這樣低成本、以 iPhone 為中心的組合式平台。

有的項目組希望推動 Vision Pro 這樣從軟體到硬體都重頭打造,一起共同優化的全新項目。現在看來最後蘋果公司高層決定了巨額投入全新的空間計算平台開發,這樣的決定可謂是極有魄力。但就像我們在上一節分析的那樣,iPhone 的 ARkit 再加上 Holokit 是一個非常好的方案,但是手機的硬體設計為實作其他的通用功能做出了妥協,是以它不是一個專門為空間計算打造的裝置,隻有項目組自身能夠對軟體和硬體全面掌握,設計專用的硬體系統全力支援空間計算軟體的性能,一毫秒一毫秒地摳系統的性能,才能把空間計算技術推到極緻。

在 Vision Pro 釋出之後,Holokit 依然有不小的優勢可以與之互補。一方面它很便宜,另一方面 HoloKit 相對于其他獨立的混合顯示裝置又能利用目前 Apple iPhone 的軟體和硬體體系(如 ARKit 和 LiDAR)。這樣的價格和适配性更加适合 Amber 研究的多人 AR 互動場景(因為目前用 VisionPro 玩 3-4 人的 AR 遊戲,買裝置一共都要投入上萬美金)。另外,Vision Pro 的開發環境可能會和 ARkit 有相關性,Holokit 可能可以為 Vision Pro 上的應用做低成本驗證。不論如何,Amber 和他的 Holokit 是空間計算技術的先行者,他們開拓和啟發了這項技術的種種可能性。

Amber 第一次把他和同伴在紐約 World Trade Center 多人打龍的視訊發給我的時候,我正在匹茲堡蕭瑟的莫農加希拉河南岸找加油站,鏽帶區的城鎮夜晚人煙稀少,我停在加油站看他發來的視訊,贊歎于 World Trade Center 本就恢弘的内部空間被這個遊戲襯托得更加宏偉。心想如果在加油站空曠的場地上玩這個遊戲,可能這個荒涼的地方會顯得更有生機一些。這讓我進一步意識到,空間計算應用喚起人們對空間的認知,本質上是在響應人們量化世界的本能。

打龍的空間計算遊戲讓我們認識一個大尺度空曠空間具有的價值,并且獲得改造它的途徑。在更微觀和精細一些的層面上,空間計算裝置也可以幫助我們丈量空間,獲得空間可以如何被應用的資訊。比如說 ARkit 最受歡迎的一些應用包括宜家和亞馬遜網站上把家具實時放入家中的功能:

是以,我覺得思考空間計算裝置的用處時,一定要從我們最本能的擷取資訊和量化世界的需求出發。玩遊戲、看電影、打電話等已有的一些混合現實應用并沒有直接去滿足我們的這些需求,或者說和已有的其他裝置的功能有重疊,并沒有凸顯空間計算裝置擷取資訊和量化世界的優勢。頭戴式的空間計算裝置解放了雙手,呈現的資訊能夠幫助我們更好地量化世界。有哪些人類日常的行為是需要雙手操作空間中的物體的同時,需要大量的關于空間的新資訊來提高工作效率的呢?從這個思路出發我們能夠想到許多嶄新的 Vision Pro 提供的應用場景:

第一個,藝術和設計創作者的效率提升。比如畫家可以通過空間計算裝置在自己的畫布上呈現輔助線和線稿、蛋糕師可以在自己的蛋糕坯上疊加蛋糕花樣的設計思路、陶藝制作者可以看到自己的物件的尺寸和外形、插花師可以獲得插花的建議。家居空間設計師可以和客戶一起在毛坯房裡預覽設計的實際空間感并讨論改進意見、電影導演可以和特效師在片場預覽增加特效後的場景并指揮演員和攝影師。所有這些輔助都可以幫助工作者在不停手的情況下獲得自己正在互動的空間中物體的額外資訊。

第二個,機械、家具等物件組裝的效率提升。不管是專業還是非專業人士,在組裝一些物件的時候經常會感到煩惱,比如說宜家的家具,雖然會有詳細的說明書,但有的複雜家具裡中會有非常相似、僅長度不同的螺絲,這種情況下,通過空間計算裝置更好地呈現組裝說明、提示零件的長度、類型等資訊可以大大提升組裝效率。這類組裝任務在家庭生活中大量出現,在工業生産中也無處不在,十分容易針對性進行空間計算應用的開發。

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

(來源:楊碩)

第三個,需要搜尋和尋找的場景效率提升。比如圖書管理者需要在書架中尋找該歸還的書籍的位置,頭戴式空間計算裝置可以大幅減少搜尋耗時。

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

(來源:Pixabay)

同樣的需求也出現在商場貨架、滿是零件和工具的工作台、放有大量檔案的辦公桌等場景。在這些場景中,使用者通常身處一個固定的工作區域,可以把空間計算裝置連接配接外部電源來保證長時間工作。影響長時間佩戴的負面因素可能是空間計算裝置的重量會給頸椎額外的壓力,有消息說 Vision Pro 的重量不是特别理想,希望明年釋出的量産版本可以進一步優化一些。

Vision Pro空間計算技術和深度學習結合,将給諸多領域帶來革命

總結

我們在一波空間計算技術發展浪潮的起點,過往在虛拟現實、增強現實和混合現實技術領域開拓的先行者們已經證明了相關技術的潛力,如今随着蘋果 Vision Pro 的誕生,空間計算技術即将得到更大的發展和應用。

空間計算如果能夠和逐漸成熟的深度學習技術以及大語言模型結合,将會給很多領域帶來革命,本文中談論的種種潛在應用隻是冰山一角,作者權當抛磚引玉,未來等待廣大的開發者和使用者來創造。

作者簡介:楊碩,美國卡内基梅隆大學在讀博士生,研究足式機器人的運動控制和感覺,即将加入 Tesla Optimus 人形機器人項目組任職進階控制工程師。曾在大疆創新上司開發智能導航算法、無人機平台、RoboMaster 等項目。在 TRO、 RAL、 ICRA 和 IROS 等機器人學術雜志和會議發表論文多篇,擁有 5 項傳感器融合方面的美國發明專利。長期從事機器人技術科普與教學工作,在中文網際網路有較高知名度。

繼續閱讀