天天看點

“天貓精靈之父”創業打造「鼻尖上的GPT」,掃射豆包、Kimi盲區

作者:智東西
“天貓精靈之父”創業打造「鼻尖上的GPT」,掃射豆包、Kimi盲區

作者 | 三北

編輯 | 漠影

擁有一款“鼻尖上的GPT”是一種什麼體驗?

近期,杭州李未可科技公司推出了首款AI眼鏡Chat,支援使用者通過語音與眼鏡中的智能助手進行互動,比如答疑解惑、日程安排、語音導航、英語翻譯等,都不在話下。

同時,這款AI眼鏡背後的多模态AI大模型平台WAKE-AI也随之開放。據悉,這是國内首個面向AI眼鏡等可穿戴裝置的大模型平台,既支援李未可科技内部團隊做開發,同時也為廣大AI開發者夥伴提供技術共享。

當下,市面上已經有豆包、Kimi等多款支援大模型語音互動的平台,但它們大多以比對PC、手機為主;WAKE-AI則率先切入AI眼鏡這一新形态,試圖為使用者帶來更自然的互動、更人性化的陪伴、更場景化的精準服務。

李未可科技創立于2021年10月,創立之初便聚焦“AI+AR”眼鏡賽道,公司成立僅三個月便拿下位元組跳動的融資,其創始人茹憶曾是阿裡AI實驗室智能終端負責人、天貓精靈硬體&産品總經理,也是這波大模型浪潮中最具代表性的創業者之一。

“天貓精靈之父”創業打造「鼻尖上的GPT」,掃射豆包、Kimi盲區

▲李未可科技創始人兼CEO茹憶

當下,随着Ai Pin、Rabbit R1等AI新硬體産品在國外嶄露頭角,掀起大模型智能終端的新風口,國内“天貓精靈之父”帶隊的新銳團隊也交出了答卷,成為智能硬體産業關注的一個焦點。

AI智能眼鏡是否會成為一種主流的AI新硬體?面向“AI+終端”的多模态AI大模型平台WAKE-AI有什麼過人之處?通過對話李未可科技創始人兼CEO茹憶、AI首席架構師莊博宇,本文對此進行了深入探讨。

一、在豆包、Kimi的射程盲區,打造“鼻尖上的GPT”陪伴助手

盡管豆包、Kimi等各種大模型App風靡手機端,但它們卻遲遲未攻入智能眼鏡等可穿戴裝置。

背後的一大“攔路虎”是時延問題。莊博宇告訴智東西,使用者在眼鏡上對機器時延的容忍度比在手機上更低,1.8秒是一個容忍時間,如果超過這個時間點,使用者就會感到互動不流暢自然。然而,包括豆包等市面上的多個大模型落地眼鏡都需要5秒左右。

為此,李未可科技自研了WAKE-AI大模型平台,試圖為使用者打造一個随叫随到的“鼻尖上的GPT”陪伴助手。

據悉,該平台專門面向可穿戴裝置等終端優化研發,能在500毫秒内快速精準地識别使用者指令,且将大模型實時回答回報控制在2秒左右,具備文本生成、語言了解、圖像識别及視訊生成等多模态互動能力。

從體驗來說,這意味着使用者将可以在AI智能眼鏡上享受到自然流暢的AI互動,比如讓眼鏡搜尋新聞、導航目的地或增加日程,都不會太費功夫。AI智能眼鏡可能取代手機的部分功能,讓使用者真正體驗到AI融入生活。

“技術的一小步,使用者體驗的一大步。”茹憶說。從2016年3月阿爾法狗打敗李世石到2022年的12月份ChatGPT 釋出,中間經曆了六年六個月時間,AI算法架構從CNN、BERT改進到Transformer,模型參數擴充帶來智能湧現,茹憶對此感到很興奮,認為這将為語音互動體驗帶來巨大提升。

與在上一波AI浪潮中押準智能音箱風口不同,這一次,茹憶認為,眼鏡将成為AI落地的最佳載體之一。這與Meta首席科學家、圖靈獎得主楊立昆的觀點不謀而合,楊立昆在前不久也曾提到:“通過智能眼鏡通路的AI助手是未來的趨勢。”

“天貓精靈之父”創業打造「鼻尖上的GPT」,掃射豆包、Kimi盲區

面向這一趨勢,李未可科技近期推出的AI智能眼鏡Chat是其小試牛刀之作。

以低至699元的價格讓使用者低門檻地邁入AI體驗大門,Chat可以說非常親民。這款AI眼鏡的外形與日常佩戴的眼鏡幾乎沒有差異,但簡約卻不簡單,一個貼身陪伴助手的雛形已經出現。

“天貓精靈之父”創業打造「鼻尖上的GPT」,掃射豆包、Kimi盲區

二、自研WAKE-AI大模型平台,三大技術護城河打造互動新體驗

可以預測,大模型未來将重新定義智能眼鏡等可穿戴裝置。可穿戴裝置将不再隻是工具,而是好像有一個真人助理在使用者旁邊,或者一個虛拟人在使用者鼻尖上的眼鏡裡,幫使用者解決各種複雜的問題。

WAKE-AI大模型平台推出的意義,則是将大模型運用到AI硬體裝置上的諸多暢想落地實際,不僅實作更自然的互動,還帶來更人性化的陪伴,更精準的服務。

那麼從技術角度來看,WAKE-AI大模型平台究竟有什麼過人之處?

據悉,李未可科技通過三種方式提升WAKE-AI大模型平台的效果:

第一,使用定向優化的分發大模型,幫助AI助手能快速地分發使用者的指令,打造更自然的互動。

第二,基于情感大模型,使使用者和裝置産生深度信任,讓AI助手形成更有溫度的陪伴。

第三,針對室外場景需要大量的資料,使用多模态的VQA(視覺問答)模型,讓使用者可以指哪問哪,獲得更精準的服務。

1、分發大模型+Agent,讓互動更自然

作為一款C端産品,AI智能眼鏡的互動體驗被李未可科技放在首位。WAKE-AI大模型平台能提供更豐富的互動功能,同時耗時比同行更低。

莊博宇談道,比如當使用者與豆包語音聊天,往往需要2秒才能完成語音互動,時間主要花在語音與文本互相轉化及大模型推理上。但這一互動體驗僅限于聊天,而不能執行網絡搜尋、導航等更複雜的任務。

但是,基于WAKE-AI大模型平台,使用者在AI智能眼鏡上調用大模型的時延大大降低,一般對話時延控制在1.8秒左右、2秒以内;同時,使用者還可以體驗主動搜尋、語音導航、眼鏡操控等多樣化的功能,複雜的互動反應也能縮短至3-5秒。

背後,李未可科技團隊使用分發大模型,通過語音輸入來快速分發使用者意圖,為使用者提供回報;同時,大模型支援不同的AI Agent的能力,能快速執行使用者的導航、買票、備忘錄等可能存在的剛需意圖。

“天貓精靈之父”創業打造「鼻尖上的GPT」,掃射豆包、Kimi盲區

此外,團隊也在降噪技術、收音、ASR(自動語音識别)技術等方面也做了大量優化,進而使得使用者能與智能助手更絲滑地進行互動。

2、情感大模型+超拟人TTS,讓陪伴更人性化

茹憶和莊博宇都提到了《她》(Her)這部科幻電影,片中的機器人由于與主人公建立了情感連接配接,進而能進行更有深度的聊天和陪伴,這是李未可科技希望打造的智能助手的一個理想形态。

基于這樣的願景,李未可科技與市面上同行的一大差異化是做情感搭配。

為了讓AI眼鏡産品具備更拟人化的特征,李未可科技團隊一是基于情感大模型研發了長記憶系統、情感類的Agent,二是打磨了拟人化的TTS(文本轉語音)技術,以此打造使用者能夠天天使用AI智能眼鏡的核心基礎。

“天貓精靈之父”創業打造「鼻尖上的GPT」,掃射豆包、Kimi盲區

在情感大模型方面,對标國内外的Claude等相關模型,莊博宇及其團隊發現了一個行業核心的問題:大模型的記憶力是有上限的,不利于長時間陪伴使用者。

為此,李未可科技團隊通過核心記憶和長期記憶,不斷更新使用者的畫像,進而使得智能助手在對話中能夠更充分地了解使用者想要什麼,更懂使用者。

而在打造拟人化的語氣方面,目前市面上能上線情感表述的文本轉語音TTS能力的廠家并不多,因為它有一個延時的考量,AI抽取、了解和表述會耗費大量的時間,是以速度上面需要優化;第二是成本上的優化,比如豆包雖然在App上能夠提供情感表達,但它并沒有把這個API能力開放出來,智能終端廠商無法擷取。

但是,李未可科技率先将超拟人TTS上線,把它輕量化到時延和成本都可承受的範圍,然後開放出來,供自己的團隊和合作夥伴使用。

3、多模态+LBS能力,讓服務更精準

多模态大模型+LBS(基于位置的服務)會産生什麼樣的化學反應?

李未可科技已經找到了驗證場景。Citywalk(城市漫步)是當下備受年輕人青睐的室外項目,多模态大模型可以讓Citywalk的人做到“指哪兒問哪兒”,比如指着嶽王廟裡的碑問“碑上寫的到底是什麼”,一套精準的智能導覽服務就誕生了。

據悉,李未可科技已經打造了“旅遊助手+城市漫遊系統”,核心是資料内容,以景區作為核心供給,現在大概有2000多個景區資料。

結合這些景區資料,團隊已經打造了景點遊玩導覽、自動巡航系統、地點彈幕等多個服務,而多模态大模型的加持則讓“指哪兒問哪兒”、自動生成路線、自動生成遊記等更多豐富功能湧現,進而為使用者提供更精準的服務。

“天貓精靈之父”創業打造「鼻尖上的GPT」,掃射豆包、Kimi盲區

莊博宇告訴智東西,大模型使得原本碎片化的場景走向大一統,進而使精準服務的成本大大降低。一方面,WAKE-AI大模型可以更好地了解和消化海量的景區資料,另一方面,Agent可以對資料進行更加自動化地處理,這使得團隊能夠在精準度和資訊數量基礎上提供更好的服務。

可以看到,通過從模型了解意圖、搜尋資料、轉化風格、分析情緒、轉化聲音的各個環節去做優化,李未可科技試圖打造互動更自然、陪伴更人性化和服務更精準的AI眼鏡裝置,進而交出其大模型應用創業的“答卷”。

三、Meta蘋果看中的新賽道,“天貓精靈之父”帶領國産搶跑

當下,已經有不少大廠盯上了“AI+AR”眼鏡賽道。比如Meta與雷朋合作的AI智能眼鏡已經在測試多模态大模型,并在近期宣布将推出首副“AI+AR”眼鏡;蘋果近期也傳出正研究端側大模型,可能将落地Vision Pro……

與此同時,也有一些知名企業似乎在抽火。比如近期OPPO被傳出了暫停XR探索,相關人員将轉向AI裝置方向的開發,或許意味着其“AI+XR”眼鏡業務踩下了刹車。

對此,茹憶認為這是由于産業發展仍處于初級階段,大家還未形成共識。這就考驗創業者對事情的認知,以及如何與自身優勢做結合。

站在李未可科技的角度來看,“AI+AR”眼鏡的發展已經處于一個臨界點,即将突破使用者體驗差,為此團隊進行了積極布局。

李未可科技打法的一大特點是不強行創造出一種産品形态,而是在已存在的産品上進行AI更新,進而在存量市場基礎上拓展出新的增量市場。根據知名資料分析機構Statista資料,2023年全球眼鏡市場總規模超1400億美元,2015-2025年全球眼鏡市場規模從1183 億美元提升至1552億美元。

“未來我們的眼鏡都會智能化,就像手表智能化一樣。”茹憶說,“它的标志是體驗成本大大降低,使用者買一副AI智能眼鏡和買一副傳統眼鏡價格也差不多,那為什麼不買一個AI智能眼鏡?現在手表就是這樣。”

AI智能眼鏡市場的發展壯大需要生态共融。目前,李未可科技已經将WAKE-AI大模型平台面向夥伴開放,與夥伴一起來建設AR眼鏡+AI能力、在室外等多個場景的生态。

“天貓精靈之父”創業打造「鼻尖上的GPT」,掃射豆包、Kimi盲區

結語:大模型卷入裝置端,AI智能眼鏡或成室外最佳載體

當下,大模型加速落地端側,我們可以看到AI PC、AI手機、AI智能眼鏡以及各色的AI新硬體如雨後春筍般冒了出來。憑借便攜、可擴充等多重優勢,眼鏡或許成為大模型在室外落地的一大最佳載體。

現階段大模型在端側落地應用仍處于初級階段。可以預測,未來雲邊端異構架構将發展得更加龐雜,同時多模态互動變得更加豐富,這對速度、性能和成本的平衡會提出新的要求,也将成為AI硬體賽道玩家需要直面的新挑戰。