天天看點

Rokid祝銘明:未來5年,希望把所有人的眼鏡換成智能眼鏡

作者:量子位

編輯部 整理自 MEET2024

量子位 | 公衆号 QbitAI

彭博社馬克·古爾曼(Mark Gurman)消息,蘋果2024年的重點是Vision Pro等,而非iPhone。

爆料稱,蘋果堅信Vision Pro将會成為2024年使用者的關注焦點,并相信它有望會在數年内“成為其财務故事的重要組成”。

這便是大模型浪潮之下,空間計算趨勢正在逐漸升溫的一個縮影。

無獨有偶,就在這則消息釋出前幾天,在MEET 2024大會上,相同的趨勢判斷也被Rokid創始人&CEO祝銘明(Misa)提了出來:

明年是XR的一個大年,如果不出意外,明年XR的熱度将會強過AI。

甚至表示希望在未來5年,将所有人的眼鏡換成智能眼鏡。

Rokid祝銘明:未來5年,希望把所有人的眼鏡換成智能眼鏡

為何如此肯定?做出判斷的依據是什麼?

有Rokid作為一家人機互動平台公司将近10年的探索積累,當然也有來自創始人Misa對AI/作業系統/AR的技術了解。

為了完整展現Misa有關空間計算技術趨勢的思考,在不改變原意的基礎上,量子位對他的演講内容進行了編輯整理。希望也能給你帶來新的啟發。

關于MEET 智能未來大會:MEET大會是由量子位主辦的智能科技領域頂級商業峰會,緻力于探讨前沿科技技術的落地與行業應用。今年共有數十家主流媒體及直播平台報道直播了MEET2024大會,吸引了超過300萬行業使用者線上參會,全網總曝光量累積超過2000萬。

演講要點

  • AI和AR其實是一件事。
  • AR涉及感覺/了解/互動/協同/内容創作五方面能力。
  • 空間計算方面,VST和OST兩條技術路線并進。
  • 明年XR的熱度将會強過AI。
  • 未來5年,希望把所有人的眼鏡換成智能眼鏡。

AI和AR是一件事

謝謝大家,謝謝量子位,這是我今年唯一的一次公開的演講。我剛才發了個朋友圈,前後左右全是講AI的,是以我應不應該來這個講台呢?

實際上我覺得應該來,不僅僅是說我應該作為另外一個技術方向來跟大家進行分享,實際上我要跟大家講的就是:AI和AR其實是一件事情。

我給大家分享一個故事,2014年,我離開阿裡巴巴,那個時候大老闆從美國飛回來,跟我有一個4個小時的溝通,為什麼要離開阿裡?溝通了很多很多東西,但本質上的一點我就跟他說,未來的20年有兩件事情會改變人和這個世界,一個是AI,一個就是AR,而我自己離開阿裡巴巴,一個使命就是把這兩件事情變成一件事情。

Rokid祝銘明:未來5年,希望把所有人的眼鏡換成智能眼鏡

是以為什麼我說我今天來這裡,如果大家了解Rokid的背景,了解我自己的背景,大家應該知道我是一個堅定的AI信仰者。

我們在2014年成立,今天Rokid被大家所了解到的或者感受到的是 AR,因為我們的眼鏡作為一個硬體産品比較耀眼,大家可能會認為Rokid是一家眼鏡公司,但Rokid從來沒有把自己定位成一家眼鏡公司。

Rokid 從2014年成立,15年的時候我們就在北京和矽谷分别成立了兩個實驗室,A Lab 和 R Lab。A Lab 就是AI,R Lab 就是Reality,加在一起就是AR。

是以大家看到Rokid從第一天起,就沒有隐瞞我們是一家什麼樣的公司。但隻是因為Rokid本身有不斷的産品疊代,從AI産品到AR産品的整個演進路線,是以大家經常容易被硬體的東西所抓住眼球,但實際上我希望大家知道 Rokid是做AI和AR的人機互動、新一代人機互動平台的一家公司。

這是我第一次跟大家正式闡述Rokid是一家什麼樣的公司。我記得2016年的時候跟董事會去講這個,大家其實還是不大了解AI和AR為什麼未來會是一個人機互動的平台?

但現在已經沒有人去懷疑這件事情。另外大家也可以看到一個發展路徑,就是我們從一些B端産品到C端産品的演進,本質上來講,也正是因為這個行業在很早期,我們必須在很多領域裡面進行細緻、耐心地打磨,再将它推向消費者市場。

其實到今天為止,我們很多很新的技術,包括接下來我要講到的spatial computing(空間計算), hardware chipset(硬體晶片), algorithm(算法),包括一些 operating system(作業系統),其實都是不斷的在進行打磨中,所有現在驅動這些變革的,大頭仍舊在B端,而不是在C端,我們也不應該讓 C 端來承擔這麼高的代價。

一家藏在硬體産品中的軟體系統公司

剛才我跟大家講到Rokid是一家人機互動的平台公司,但實際上還有一個更簡單的描述,就是——

Rokid本質上是一家藏在精美硬體産品中的系統軟體公司。

因為我自己上一個創業在被阿裡巴巴收購之前,是做作業系統的。是以我們是有非常強的作業系統基因。但Rokid現在給大家所感覺到更多的是硬體,是我們AR産品,是我們的AR的一個 ecosystem生态系統,為什麼會這樣?

因為這個行業特别早期,你需要有一個作業系統,也要有非常堅實的硬體,才能展示它的能力。是以 Rokid 必須從最底層,去建構一套完整的全棧能力。

Rokid祝銘明:未來5年,希望把所有人的眼鏡換成智能眼鏡

Rokid也是今天在AR領域裡面,在國内、哪怕是在全球,為數不多的擁有全棧能力的一家公司。

首先關于晶片的平台,其實我們跟很多的晶片公司,包括剛才咱們演講的高通,包括國内像海思,幾乎所有的晶片公司都在跟Rokid讨論未來的晶片應該怎麼做。甚至有的晶片公司的工程師就是在Rokid辦工的,這也是我們的第一個能力。

我們首席科學家周軍博士本來就是三星半導體研究所的所長,當時三星半導體研究所幾乎有一半的精英加入Rokid。我們自己不做晶片的設計,也不做它的生産,我們更願意的是将我們的系統和平台的訴求,能夠告訴行業裡走在前沿的這些晶片公司。

作為一個真正的AR 産品公司,我們需要一個什麼樣的晶片?包括AI和AR。另外我們要把我們的很多想法、能力變成解決方案、變成産品,給到每一個人,給到我們的客戶/使用者。當然還有現在最熱門的,我們把它叫多模态的AGI。

我們有語音、NLP,有這種生成式的内容。對于 AR 來講還有空間計算,比如說SLAM空間定位等。那麼這個跟AI有什麼關系呢?Rokid在AI方面的比重特别大,相比其他傳統的AR公司,Rokid幾乎很多能力都是用AI去重新定義和重新去發明過的,包括顯示和硬體設計,這個是大家看得見摸得着的。

Rokid祝銘明:未來5年,希望把所有人的眼鏡換成智能眼鏡

AR的五種能力

我們來看AR它涉及的能力。

第一個能力,是感覺這個世界的能力。通過傳感器,比如說camera(相機),通過microphone(麥克風)這些傳感器來感覺這個世界,這是第一個能力,這個跟半導體就有關系。

第二個能力就是去了解這個世界。當你感覺到這個事情,你怎麼去了解它?這個了解包括了解客觀的實體世界,也包括了解人、了解人的意圖、人跟人的關系以及他過去的行為習慣諸多的這些東西。

第三個東西是互動。就是當我了解這個世界之後,我怎樣給人用更好的方式,更自然的方式去展現對這個世界了解的結果,以及怎麼樣提供有效的、有價值的資訊給到使用者,同時用更友善、更自然的方式去做這件事。這就是我說為什麼AI和AR會改變未來的世界。

我們都知道現在AI在生産内容,尤其是最近我們看到很多文字、圖檔、影像,包括3D的一些模型,這些東西都已經開始通過AI生成,還有很多文字。但這些豐富的内容,最後以一種什麼樣的方式給大家進行互動和展現,這個就是 AR 要去解決的這個問題。

Rokid祝銘明:未來5年,希望把所有人的眼鏡換成智能眼鏡

第四個是協同。大家都知道在虛拟世界跟真實世界怎麼進行融合協同,那人跟人之間在虛拟和真實世界裡面如何去協同?原來說社交網絡,通常講的是人和人在虛拟世界裡的協同,那現在多了一個次元,就是人要跟虛拟世界的人,同時還有現實中的人(協同),它的複雜度是提升了。雖然隻是加了一個場景,但實際上是提升了一個數量級。

最後一個是數字内容創作。這是現在大家比較關注的Web3、 AGI 相關的這些東西,都在第五個能力裡面。是以作為Rokid這樣的新一代人機互動公司,它實際要涉及這五個方面的能力。這就是為什麼過去 10 年 ,Rokid一直在打造這種全棧的能力。

Rokid:3到5年内把大家的眼鏡換成智能眼鏡

空間計算後面會有很多感性的展示,但我跟大家講,空間計算要回答一些問題,它才會真正進入到每一個人的生活。

第一個當然就是它的實時性。其實作在AGI、AI這些東西比較流行,我非常相信在未來, edge computing 邊緣計算将會變得非常重要,尤其是AI和edge computing。這樣的話就保證它的實時性,因為在空間計算領域裡面是沒有太多的空間去留給cloud computing(雲計算) 去做延遲的,是以實時性就會變得非常非常重要。

第二個,精度會變得非常重要。我們知道,如果你要做虛實融合,尤其是我們的技術路線是OST(Optical see-through),如何保證這個精度?一旦資訊以空間的方式進行展示,對人的了解和處理能力是增加了負擔。我們要知道人類花了可能 10 萬年甚至更久的時間,去将真實的資訊壓縮成簡單的資訊,比如壓縮成繪畫,壓縮成平面,壓縮成符号,但是AR時代,我們又重新将這些資訊進行放大,在虛拟的世界裡面進行放大,把數字化搬到我們眼前。

實際上對人來講,如何更好地處理這些能力,其實是一個新的話題。人是不大擅長處理那麼多複雜的東西。如何保證新的互動能更舒服、更自然地擷取到這些資訊,了解這些資訊?對我們來說也是挑戰。

第三個是安全性。因為AR 這個時代,或者我們叫空間計算時代,人幾乎能夠接觸到所有東西,比如說你的實體世界,甚至包括你的意圖,很多東西都是會被科技所掌握。那這個時候你如何保證個人的安全性?我們也要去回答。

第四個是個性化。每個人看到的東西不一樣,每個人用的功能會不一樣,他對知識的了解和意圖也會有所不同,相同的話題他關注的點也有所不同。怎麼樣能夠進行個性化的呈現和展示?

在未來的3到5年,Rokid将會有一個使命,就是把大家的眼鏡換成智能眼鏡,所有的眼鏡預設就是智能的,就像現在所有的手機預設是智能的一樣。

你們所在的空間,每個人看到的東西是不一樣的,你關注的東西也是不一樣的,你參照的資訊也是不同的。個性化如何做?這也是我們要去充分考慮的問題。

Rokid祝銘明:未來5年,希望把所有人的眼鏡換成智能眼鏡

空間計算的本質就是實體世界和數字世界的融合,以及在這種融合的前提下,如何用更自然、更易用的方式進行資訊的展示和交流。

這是我們要說的東西。一方面是對實體世界和數字世界的了解、感覺、融合,一方面是怎麼樣讓人跟這個融合後的世界進行互動。要解決是要解決這兩個問題。

Rokid是OST的堅定信仰者

空間計算是什麼?

包括空間的視覺,就是怎麼把資訊在實體世界裡進行布置展示,跟真實實體世界進行互動和融合。也包括空間的聽覺,就是聲音,虛拟的聲音應該跟真實物體的聲音來自一個方向,同樣的力度,模拟它在真實空間裡的感受。包括傳統的資訊,比如說二維資訊、書、浏覽器。像Vision Pro在年中的時候展示的,舊的生态系統裡面的内容,怎麼在新的空間裡展示,如何進行更有效的互動?

大家都知道二維世界裡面的互動是比較簡單的,觸控即所得,所見即所得。但如果你要去操作空間中的物體和空間中的資訊,其實是非常複雜的。那Vision Pro眼手關聯,Rokid也有大量的這個東西——微手勢、頭手關聯,眼手關聯也會成為一個大的未來。

這個會長成什麼樣?就開始有一個大的分歧,前面都沒分歧。

那今天在行業裡面有兩個技術路線,一個是以 Apple 為代表的VST叫 Video see-through,它的本質上來講還是把你包在一個純粹的數字世界,實體世界是通過傳感器可以數字化,把實體世界在虛拟世界裡面進行重建。

這是VST 的路線, Rokid是不碰 VST 的路線,我們本質上就不大認可這個路線。雖然這個路線有很多優勢,而且長期的兩者會共存。但是我們堅信的路線還是輕量化,讓大家能夠用肉眼去感覺真實的世界,将數字的世界在真實世界進行疊加。有沒有對錯?短期不會有,誰是更好,誰不好,這個還是交給時間去解決。但 Rokid是OST的堅定信仰者,讓人用肉眼去看到真實的世界,是我們的一個底線。

我們在今年8月26号提出的空間計算套裝,這裡面用的是高通的骁龍XR 2+晶片,是以它的算力也是非常強的。Rokid從來不講故事,一旦我們講出來的,一定是我們全部完成的東西。

講了這麼多,回到咱們今天的主題,Rokid為什麼會來這個AI的大會。

首先大家知道 Rokid有一個很核心的技術,我們大概花了四年的時間做的研究成果——就是用one single camera(單目攝像頭)做整個空間識别和 3D手勢。其實你用一個眼睛是沒有辦法感覺空間和深度的。原來我們也一直認為這是不可能的任務,實際上到今天為止,仍然有很多人在質疑這個東西,直到Rokid産品扔在他眼前,他才接受了,原來這個是可以做到的。

但這裡面沒有黑魔法,隻有一個東西,它所有的深度資訊靠AI 生成。手的資訊,整個空間資訊全部靠AI生成。是以雖然它是一個空間計算的技術,但裡面有 70%-80% 是用來做AI計算。

one single camera for everything,我們叫 soft define everything,這是 Rokid的一個理念,軟體定義一切。

大家都知道,如果你要做成普通的眼鏡形态,你是沒有辦法往上面堆傳感器的,是以你隻能通過軟體定義所有的東西。這個不是 Rokid的技術偏好,是一旦我們選擇了這個路線和我們的理念之後,不得不做的權衡。正是因為這個,我們要付出太多的努力。其實要想得到很好的體驗,最簡單的方式就是堆硬體,堆傳感器,堆成本。

Rokid祝銘明:未來5年,希望把所有人的眼鏡換成智能眼鏡

Rokid要做的事一方面是為了做得更輕量化,更重要的還是希望這個技術能夠普惠所有人。我們不想賣幾萬塊錢,我們希望幾乎每一個人能夠用他能夠承受得起的代價得到這個産品。是以這也是 Rokid為什麼要選擇這樣的技術路線。但這個技術路線非常難,每減一顆傳感器就要帶來巨大的軟體計算和AI訓練。

得益于最近這兩年邊緣計算在AI ,在端上的推理能力,我相信在未來的一年到兩年,甚至可以做到超過百億規模的大模型,我100%相信。是以 Rokid也是AI在邊緣計算的充分信仰者。

再強調一遍,XR一定是越來越強調邊緣裝置上的計算能力。因為大家都知道手機可以有延遲,我劃的慢一點,沒有太大的問題。但如果你在眼鏡上面慢一點的話,所有人在 5 分鐘之内就要暈趴下了。這個是實體上決定的,給我們設定了一個巨大的門檻——它是沒有辦法做 70 分以下的體驗的,甚至沒有辦法做 80 分以下的體驗,這個會非常強調 AI 的能力,在邊緣去處理這些資訊的能力。

大家可以看到基于one single camera,我們有厘米級的定位精度——如果帶着這個眼鏡,我在這個空間裡面放一個物體,你從外面走一圈回來,這個物體漂移要在厘米範圍内。這個延遲在20毫秒以内,20毫秒就意味着人和資訊的互動,它的延遲不能夠高于20毫秒,因為人的延遲感覺暈線就在20毫秒,一旦超過,它就會有非常強烈的變化。

手勢方面也是一樣,通過one single camera我們可以做到厘米級的貼合。如果大家來用我們的産品,就會發現你的手和數字的手之間的差别就在一個關節不到,幾乎是貼合的,遠遠超過以前大家所知道的Hololens的手勢精度。

我們隻是用了一顆普通的攝像頭,沒有加任何的深度攝像頭去做,全靠 AI 的方式去做。

底層作業系統支撐體驗

回到Rokid 本身的能力,Rokid OS是從AOSP開始,我2007年回國開始做operating system,底層不需要重新造輪子了。AOSP還是安卓的基座,往上幾乎所有能力都做了重建。Rokid可能是現在支援XR的engine(引擎)最完整的一家公司。

我們支援了Cocos、Unity、WebXR以及Hololens的MRTK,還全棧支援OpenXR。因為我們全棧支援 OpenXR,是以很多國内的Graphics engine(圖像引擎)公司比如粒界也和我們有合作。我們也是唯一一個把國内這個閉環最後一個環節走完的公司,我非常自豪地彌補了在OS和Graphics engine之間的空白。

這個是蠻值得大家關注的一件事情,意味着在這個領域裡開始有自己選擇的權利。當然上層還有很多的tool(工具),包括最近我們還幫 Unity 做了JS的engine,很多外部開發者可以不需要懂JAVA、C++,就可以用最熟悉的前端語言來進行開發,我們很多開發者大概在一個月之内,就可以完成産品的設計、開發和部署。

這也是為什麼我們要做作業系統。大家知道新的體驗最終一定需要新的作業系統去支撐,是沒有辦法在一個舊的作業系統上去補出一個全新的體驗。

Rokid祝銘明:未來5年,希望把所有人的眼鏡換成智能眼鏡

“明年XR會大熱”

空間即螢幕。大家如果去我們公司看,這是我正常的工作方式。我已經不用電腦的螢幕,(用Rokid的眼鏡)通常我的空間裡面會擺5個屏。基本上就是一個螢幕是浏覽器,一個螢幕是釘釘,一個螢幕是微信,一個螢幕是我的 source code(源代碼),我自己每天還寫代碼。還有一個螢幕是B站。

在To B的應用裡,它可以把指揮中心挪到家裡去。不管是工業、政府安保、消防還是醫療,都可以變成這樣,像鋼鐵俠一樣。

這是Rokid 的空間搜尋,基本上就是把鋼鐵俠想象的故事搬過來了,這裡面也用到了 AI 的能力。

如果大家戴上眼鏡進入空間搜尋,說“搜尋XR”,或者“搜尋Rokid、搜尋量子位、搜尋AI”,那大家就可以看到在空間裡面就會鋪滿這些資訊。

這些資訊原來的做法在手機上,因為螢幕受限,是以它是一個瀑布流的方式。那現在所有的資訊一次性展現在你面前。最相關的離你最近,相關性比較差的較遠一點。當你去選中任何一個目前的資訊的時候,它背後的所有資訊都會因為你這個動作,根據大模型上下文重新做選擇。也謝謝Microsoft把Bing的這個接口對 Rokid進行了開放,背後也是直接接入了大模型,也是跟這個大會主題又重新結合上了。

接下來我們還會有淘寶的搜尋、B站的搜尋,都會有這種空間的方式全部加入進來。包括未來它會改變直播,改變短視訊的展示方式個非常非常有趣,這個值得大家關注。

Rokid祝銘明:未來5年,希望把所有人的眼鏡換成智能眼鏡

我們還可以幫助大家通過普通的手機,看到AR效果。今天你拿着手機拍一段視訊,就是正常的視訊,沒有 3D 資訊,沒有深度資訊的視訊,到我們靈境ARMaz平台上會自動生成3D模型,在這裡可以布置成一個數字的樂園。

上傳半個小時之後,就可以看到你家裡的3D模型,可以在你家裡布置一個虛拟的花瓶\虛拟的寵物\放一隻恐龍\放一個虛拟的男女朋友,可以戴上眼鏡,或者用手機可以看到整個空間裡的虛實融合的東西。

我們最快部署基本上在半個小時完成,這個技術将會很快在釘釘裡面,大概在明年1月份向所有人開發,在座各位如果安裝了釘釘,更新到最新版本,掃碼的上面加了一個icon叫做AR,如果看到,恭喜你們,你們就是最新的版本,就可以玩這個東西了。

另外Rokid也有大量的生态,包括Uinty,包括剛才講到很多開發者都可以參與進來。Rokid在8月26日開放空間計算平台,開發者社群到現在有2000多個開發者加入,其中有1000多個企業,應該是國内最大的AR開發者的社群了。我們會提供很多能力,多模态互動的能力、原子算法的能力、各種編輯和友善開發的工具,以及多生态的支援。

更重要的是把所有的原子能力對大家進行開放,所有算子的能力,所有算法輸出的單一結果,大家都可以單一拿出來使用,比如隻抽取手勢,隻抽取一些基礎原子能力和結果來組裝成自己開發的東西,是以我們也有非常多有趣的應用在開發,基本上每天都有新應用上線,這是我非常開心的一件事情。有很多很有趣的東西,有教育的,有醫療的,甚至有很多完全沒想到的,尤其是最近還有人在上面開發出做模拟手術的,真的非常驚人。

Rokid還在做什麼,我們有公共服務,我非常自豪,人類曆史上第一個上太空正式服役的AR産品就是來自我們Rokid,産品在工業、企業、文旅等領域都有應用。

國家200多個二級以上博物館,我們有150家合作。教育行業已經有40幾所學校現在開始使用空間計算的方式,對小孩子進行科普教育,一些K12的教育已經使用這樣的方式來做。

Rokid前一陣子比較熱門的東西,就是小孩子戴上AR的眼鏡,在商場裡面去玩奧特曼,玩空間競賽的遊戲。我們剛剛推出,就破了當時在杭州西溪印象城中庭的使用紀錄,那一天付費的家庭就超過500人。在我今天上台之前,我們剛剛在常州,一個不大的城市也破了一個紀錄,就同樣是空間計算的體驗展,有超過1萬人使用這個産品,是以它已經開始慢慢進入老百姓的生活。

Rokid祝銘明:未來5年,希望把所有人的眼鏡換成智能眼鏡

醫療跟大家講一下,我們現在在醫療手術遠端協助上,已經治療和挽救了幾百人的生命。院前急救,病人在救護車上,醫院的專家直接遠端參與治療方案。

也歡迎生态裡面合作夥伴參與到Rokid整個大的玩家生态裡面來,期待更多人的參與Rokid。

最後再講一個Rokid的理念,是希望科技用來造福人類,我們希望用新的AI和AR技術來彌補人和高科技之間的隔閡,讓小孩子,讓沒有科技背景的老人都能夠很自然和流暢的使用最新的技術,不管是AGI還是AR,還是科技的能力。

我再做一個判斷,今年是AI的熱年,大家覺得XR是下行的,AI是上行的,我一直跟大家強調XR和AI是一件事情,我可以向大家保證,明年是XR的一個大年,如果不出意外,明年XR的熱度将會強過AI的熱度。

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀