
胡 璇騰訊研究院進階研究員
王煥超騰訊研究院研究員
2021 年底,微軟亞洲研究院以論文形式釋出了一項沉浸式 3D 視訊交流系統——VirtualCube,并一舉拿下虛拟現實與圖形學領域 IEEE VR 2022(& IEEE TVCG)的最佳期刊論文獎。
從技術層面看,VirtualCube 為建構出每個使用者的實時 3D 影像,硬體方面采用包括用于擷取使用者 3D 模型的六台錄影機,以及由三個 65 寸 4K 螢幕組成的環繞顯示裝置,位于隔間之内。同時,利用軟體系統和專用算法保障視覺還原度,包括參與者的形體、相對位置關系、互相注視,并保證視訊流幀率穩定。研發團隊也在探索未來加入空間音頻支援和複雜手勢處理等更多元度。
簡單來說,VirtualCube 的作用,是把傳統視訊會議中的“紙片人”(由每秒 24 幀圖檔構成的視訊),還原成了真正的“大活人”:即使對方保持不動,你也能轉過頭看到 ta 的側臉。
在傳統的視訊會議中,經典難題就是與會者缺乏眼神交流:如果發言者注視攝像頭,會感覺自己在和螢幕而非人類對話;而一旦注視螢幕中的人臉,就更無法與對方“對視”,看起來心不在焉。VirtualCube 創造性地解決了這一問題:視訊雙方不必看攝像頭,也會有自然的眼神交流。
根據官方的介紹,VirtualCube 系統的核心目标正是實作“參與者位于同一房間中”的臨場感,進而讓不同時空環境下的參會者,都能夠更沉浸和放松,更專注于溝通本身。在它之前,谷歌的 Starline、Facebook 的 Horizon Workrooms 也都是解決這一需求的先行者。
在新冠疫情的大背景下,遠端辦公成為不少公司的選擇,而視訊會議作為兼顧體驗與溝通效率的一項工具,成為遠端辦公的标配。但與真實的線下交流相比,視訊會議仍顯得不夠自然,前述的缺乏眼神交流等問題的存在,都讓參與者無法沉浸。從這一角度出發,我們自然就能了解 VirtualCube 等技術努力的意義所在。
對于遠端辦公者來說,VirtualCube 是以一種比視訊會議更生動的方式,把你的同僚和老闆搬到了你的面前,進而實作了媲美線下的臨場感。
但也有不少觀點認為,所謂的“臨場感”可能是一種僞需求,對于遠端辦公來說,連接配接才是第一性的目标,視訊甚至是語音通話的作用已經足夠,對臨場感的追尋顯然并不必要。問題來了,對遠端辦公乃至更廣義上的工作模式而言,“臨場感”真的是備援的嗎?通過技術追求“臨場感”到底有什麼意義?
接下來,我們就讨論這個問題。
比起線下,
遠端辦公到底差了點啥?
得益于各種數字化技術和工具的存在,遠端辦公不再是一件稀奇事。通過語音通話和即時通訊軟體,我們可以與同僚保持聯系;通過線上會議工具,能夠參加大大小小的會議或研讨;通過線上協同工具,可以與團隊同步工作進度,流程化地完成長鍊條任務。
是以,在新冠疫情暴發之後,遠端辦公很快就成為許多公司選擇的工作模式。艾媒咨詢資料顯示,2020 年複工期間,中國有超過 1800 萬家企業采用了線上遠端辦公模式,超過 3 億使用者使用遠端辦公應用。騰訊研究院 T-ask 的一項調研也發現,接近 7 成(69.8%)被調研者都有過遠端辦公經曆。不久前,攜程公司官宣了混合辦公的規定,全球範圍内,微軟、Google、Meta 等公司也都推出相關措施。
可以說,遠端辦公正在成為大多數人所接受的常态。但是,随着常态化過程的深化,遠端的一些弊端或者說劣勢也在逐漸凸顯出來。
先把時間線拉回到世紀之初,彼時的科技界也曾有過一波遠端辦公浪潮。以 IBM 為例,其在 2009 年的一項報告中宣稱,全球 38.6 萬公司員工中有 40% 都居家辦公,十年間,公司将節省下來的辦公空間出售就獲益 19 億美元。但這波浪潮很快就退卻了,原因就在于,這些先行者發現,遠端辦公在員工溝通效果、工作效率以及企業文化的形成方面存在諸多問題,是以仍不能替代線下辦公。
其中最有代表性的是雅虎。2013 年,雅虎頒布了一項規定,明确禁止員工遠端,而是必須到最近的辦公區中辦公,否則将被辭退。2017 年,IBM 也将員工召回辦公室現場工作。彼時的雅虎全球人力資源總監 Jackie Reses,在内部備忘錄中寫道:“作為一個雅虎人,不僅僅要做好日常工作,更重要的是要互動和體驗。而互動和體驗隻有在辦公室才能完成。”
是的,互動和體驗,正是對比遠端與現場辦公的關鍵線索。遠端辦公雖然以某種方式實作了“互動”和“體驗”,但并不完整。
在現場辦公中,工作者能夠直接進行面對面溝通,在這種溝通模式中,除了口語交流,雙方能看到彼此的眼神、表情、手勢、動作這些語言之外的要素。同時,交流時所處的環境也相當重要:氣味、光線、現場布置、雙方所處的位置,甚至是對方的毛孔、飛濺的唾沫。它們的存在,賦予每次交流以深刻的獨特性。
這些因素的加總,共同構成了交流的“語境”,它對于傳達意涵與感情,進而使交流雙方建立更好的了解與合作而言相當重要。用一個統一的詞來定義,這些東西就是“臨場感”,它涵蓋了你在交流語境中的所見、所聽、所聞、所思、所感,以及由這些全部觀察與感受形成的綜合感覺。對比之下,遠端辦公可以借助各種工具,實作語音、視訊畫面的傳遞,并在某種程度上模拟現實,但它缺少的就是這種“臨場感”。
瓦爾特·本雅明曾經提出過“靈韻”(Aura)的概念,用以描述藝術品實體以及線下劇場的演出所具有的一種綜合的真實特質。當機械複制時代來臨,通過大規模的複制(本雅明主要指攝影),藝術品和演出的傳播範圍廣了,但“靈韻”卻消失了。而遠端辦公所不具備的,正是線下辦公的“靈韻”。
靈韻的消失是一個觸發點。與面對面的現場辦公相比,遠端辦公無疑增加了溝通成本。線下幾句話能說明白的事情,要經過很多次低效的線上溝通才能達成目的。同時,面對面的互動決定了要在同一時間内和空間内進行同一件事,是以有利于更快地做出決策。而遠端辦公就不行,你不會知道網線另一端的同僚到底在幹什麼:撸貓、哄娃,還是蹬劃船機。即便同在一個視訊會議上,也不能保證同僚有沒有開着其他視窗。
第二個層面是工作關系。在工作場所中,員工通過觀察同僚的表現和行為,能夠了解公司的制度、規範和文化,這是一個學習的過程。同時,員工之間的真實互動,有助于建立起良好的工作關系,這不僅能增強團隊凝聚力和公司文化,而且緊密、融洽的工作關系本身就是工作效率和創造力的一部分。
對于新員工來說,類似互動尤為重要。如果缺少這些環節,直接進入到遠端辦公的模式中,很可能面臨難以融入的問題。《華爾街日報》的一篇報道寫到一名年輕人在工作一年半後,才有機會和其他同僚見面:“開會時,大家關掉了攝像頭,我甚至不知道他們長什麼樣。”顯然,這無助于工作者之間建立起正常的關系,并進一步影響工作的開展。
鮑曼在《工作、消費主義和新窮人》中指出,工作場所承載了最主要的社交融合功能。現代社會中,成年人大部分時間都是在工作中度過的,這意味着工作中的人際關系,不僅僅是純工作層面,也是我們作為與他人建立連接配接、參與社會化的一種必須。
這或許是工作制度更深遠的意義,也是遠端辦公缺失臨場感最嚴重的後遺症:長時間以工作和任務導向,缺乏人際互動,不但會促成焦慮和抑郁等不良情緒,也嚴重影響了成年人正常的社會化過程。
這些技術在
努力追求“數字臨場感”
正是考慮到遠端辦公的一系列負面影響,不少遠端辦公的支援者紛紛“反水”。2021 年 2 月,谷歌在送出給監管機構的年度報告中指出,居家辦公影響了公司的工作效率、競争力和企業文化,并表示更多員工将會回歸到線下辦公。
回到傳統模式當然是一種選擇,但考慮到遠端辦公仍然可能是未來重要的工作模式之一,哪怕隻着眼于疫情反複的近期,它也是實用主義的應對之策,是以,彌補遠端辦公在“臨場感”方面的不足,未嘗不是一種可選項。
試想一下,如果能通過 VirtualCube 這樣的方式,把同僚的 3D 形象投影到你的身旁,即便是居家辦公,同僚也坐在你旁邊或與你面對面,随時能閑談或開會交流(空間音頻完美還原),其實已經在很大程度上解決了“臨場感”不足的問題。
其實在 VirtualCube 之前,谷歌于 2021 年 5 月公開的視訊通話 Starline 項目,就已實作了令人驚歎的“隔空傳人”,遠在千裡外的家人影像如此清晰、立體,仿佛觸手可及。示範了 3D 全息影像對“臨場感”的有力加成,也初步克服了最大挑戰:在手機、電視、VR 等 2D“平闆”顯示裝置上還原 3D 内容。
對面的女士是實時影像,既非真人,也非普通視訊
VirtualCube 和 Starline 效果相似,但技術路徑不同。下面從視覺原理和技術脈絡兩方面來看全息影像如何步步進化,我們距離科幻電影中的“真全息”還有多遠。
全息投影是鋼鐵俠衆多黑科技之一
3D 視覺是人類的生存法寶,多種線索幫助大腦形成空間感。狩獵求生時,祖先依靠雙眼來判斷獵物的遠近、大小、形态;直到今天,視覺仍是各種感官中最主要的資訊來源,對空間、光影、運動等保持高度靈敏。
第一類是平面線索,包括近大遠小、遮擋關系、光影紋理等,這也是繪畫、攝影中立體感的基礎。我們憑借生活經驗,将圖像視作三維物體在二維平面的投影,“腦補”其原本的模樣。
左圖:立方體,而非三個鄰接的平行四邊形
右圖:陰影、遮擋、近大遠小在繪畫中應用的執行個體
畫面動起來,立體效果翻倍:比如“添加兩條白杠變 3D“的例子。白杠遮擋了部分原圖,将視訊切割成了前景(魁地奇)中景(白杠)和背景(哈利波特)三部分,模糊效果進一步拉遠了三個景别的心理距離。
當心!魁地奇要飛到你鼻尖上啦
第二類是深度線索,它們是突破“臨場感”的關鍵。即在 XY 軸構成的平面外、Z 軸上的更多資訊,包括:雙目視差,移動視差和聚焦模糊。雙目視差的典型應用是 3D 電影和 VR 眼鏡,戴上特制的眼鏡後,左右眼接收到的畫面會有些微差異,經由大腦重新加工為立體的畫面。
移動視差更為重要,現實中“橫看成嶺側成峰”,對着手機圖檔可沒這效果。畢竟顯示器中每一幀畫面的像素排列都是恒定的,無論晃頭看還是調節焦點,圖像不會有任何差異,是以立體感也是不完整的。
實作移動視差,就要確定觀看者在不同的位置和角度看到不同的内容,大緻有兩條技術路徑:第一是在顯示器本身做文章,第二是追蹤觀看者并發送正确的畫面。
借用lookingglass的效果示意圖
路線一的典型代表是 LookingGlass、京東方等生産的新型光場顯示器,谷歌 Starline 中使用的也是這種裝置。原理是在顯示層上疊加一層柱狀透鏡,使不同視角下進入眼睛的光線不同。外觀上和普通顯示器差別不大,隻是很厚,像一塊大玻璃。這本身并不是一項黑科技,你小時候一定見過。
在 2010 年前後曾興起過一陣裸眼 3D 電視風潮,飛利浦在 2010 柏林電子展就率先展出,東芝、索尼也有布局;最大的瓶頸是晶片算力,要增加多少微視角,就要同時渲染多少倍的畫面,很快因為體驗不佳而被遺忘。
飛利浦的專利到期後,多家廠商又重新撿起這一科技樹。在強勁顯示卡支援下,LookingGlass 在 2018 年推出首台裝置,2021 年初釋出了體積更小的消費級産品 portrait,可同時渲染 45 個視角畫面,可視範圍更大;能配合各種外接裝置使用,進而實作與全息内容的進階互動,包括 VR 搖桿,傳感器,觸覺回報系統等。
LookingGlass與傳感器關聯效果示意
路線二的典型代表是 VirtualCube 項目中搭建的裝置。原理為根據使用者眼睛的位置,持續顯示正确的圖像和視角,相比 Lookingglass 等更為節約算力;缺點是體積稍大,同時隻支援 1 人觀看。
也有産品融合以上兩種方式,如 Sony 的 ELFD 3D 顯示器,在 2020 年的 CES 上展出 15 英寸原型機後受到廣泛關注。ELFD 采用了索尼的三項專利技術:高速、高精度、實時傳感;實時光場渲染;高精度 3D 顯示。既追蹤使用者,以最小的延遲實作精确的眼部檢測;也結合微光透鏡實作更立體的效果。
不要因為熟悉,就覺得“必須”
本文的讨論主要是從“遠端辦公”出發,但“臨場感”及相關的技術努力,顯然不局限于這一個場景。數字技術在大大小小的領域推進着範式變革,也自然會引出傳統範式與新興範式的特性對比。沿着這一思路,再來思考“臨場感”這個概念,恐怕也沒有那麼簡單了。
我們對于臨場感的了解與認知,建立在面對面人際交往的傳統模式的基礎之上,我們認為它是“好”的,是要去追尋的,在很大程度上是因為臨場感是舊範式的固定屬性,是以具備了合理性,也自然而然地成為我們評價和衡量新範式的标準。但是随着數字時代的延伸,“臨場感”的定義也會發生變化,說不定“線上連接配接”的時代也會發展出屬于自己的“光韻”,正如攝影也已經成為嚴肅藝術的代表一樣。
是以我們不必過于糾結。每一代人都有所屬的媒介環境和所處的時代背景,據此又會形成不同的價值觀念和認知。沒有什麼是變動不居的,時代在發展,工具和技術在進步,我們對于事物的認知和态度也會是以發生變化。“工作”的定義也在發生漂移,生活在 21 世紀的我們所了解的“工作”,與 16 世紀紡織工廠勞工的認知幾乎完全不同,同理,一直處線上上辦公模式中的人,對于工作的認知,顯然也會與我們這一代人有很大差别。
這就意味着,我們對“臨場感”這種傳統範式屬性的追尋,很可能缺少合理性的支撐。因為對于新一代或者說下一代工作者來說,他們對工作的認知可能就是“分散各地的人們,通過線上協同工具,互相溝通與協作,子產品化、流程化完成任務”,既然遠端連接配接能夠提供這些條件,那為什麼還要有一個實體的工作空間呢?為什麼還要追求什麼“臨場感”呢?
是以,當我們讨論臨場感時,要保持警惕,它可能不是未來工作模式中所必須的,避免因為熟悉,就覺得必須。不能因為傳統事物的固有認知,限制了我們對新事物的想象。這跟我們對元宇宙等新事物的态度應該是一緻的,所有人都在讨論元宇宙,但它到底是什麼樣貌,不是以現在的技術形态為标準的。與其按照舊思維去構想,去定義,去框定,不如打開想象空間,不設限,靜待它自我發展與延伸,這就可以了。
注:文中提到的微軟 VirtualCube 論文位址:
https://www.microsoft.com/en-us/research/project/virtualcube/