天天看點

大模型卷進智能音箱,戰火重新點燃

作者:智東西
大模型卷進智能音箱,戰火重新點燃
智東西 作者 | 程茜 編輯 | 雲鵬

銷量緩踩刹車的智能音箱,與狂飙的ChatGPT,能擦出什麼火花?

ChatGPT帶來的生成式AI熱潮正在席卷各行各業,各類智能硬體産品上也不斷湧現出新的功能和應用。

在出貨量逐年下跌、消費者熱情逐漸消退的智能音箱産業,生成式AI強大的語義了解、使用者意圖了解以及内容生成能力,給了這一産業的玩家們尋找新機遇的絕佳機會。

前有小度科技融合文心一言打造的針對智能裝置場景的人工智能模型“小度靈機”,後有天貓精靈接入“鳥鳥分鳥”模型打造“AI嘴替”,并官宣将接入阿裡大模型通義千問……智能音箱在生成式AI的加持下,正在變得更“聰明”,更有“人情味”。

那麼,現在有哪些玩家已經入局生成式AI與智能音箱的內建?生成式AI如何賦能智能音箱,而搭載生成式AI技術的智能音箱距離大規模普及還有多遠?我們試圖通過追蹤各家智能音箱玩家的最新動作并與智能音箱行業從業者對話來找到這些問題的答案。

一、巨頭動作頻發,ChatGPT是智能音箱的下一個風口嗎?

智能音箱與生成式AI技術的結合已經在巨頭玩家中出現雛形。2月9日,小度宣布将融合文心一言,打造針對智能裝置場景的AI模型“小度靈機”,并将其應用到小度全系産品中。4月11日,天貓精靈宣布将正式接入阿裡巴巴通義千問……

衆所周知,小度、天貓精靈已經穩坐國内智能音箱市場前三甲多年。洛圖科技的資料顯示,2022年中國智能音箱全年銷量達到2631萬台,百度(35%)、小米(31%)、天貓精靈(27%)、華為(4%)四個品牌合計占據了高達96.5%的市場佔有率。

當下,這些智能音箱玩家也成為了生成式AI浪潮中的主力軍,走得快的一批已經拿出了基于生成式AI技術的智能音箱測試産品,還有一類智能音箱玩家正在競相釋出生成式AI技術領域的成果積累,而走得最慢的一類玩家,還尚未透露大模型領域的相關布局。

大模型卷進智能音箱,戰火重新點燃

部分智能音箱玩家的生成式AI技術布局(來源:官方公開資訊)

1、小度、天貓精靈搶跑,ChatGPT版智能音箱已公開測試

一類就是以小度、天貓精靈為代表的智能音箱玩家,它們已經大踏步入局,并初步亮出了自己的成果。

小度這邊亮出的是人工智能模型“小度靈機”,借助小度靈機大模型,現有智能音箱中的語音助手可以變成“超級助理”。

在官方釋出的測試視訊中,測試員告訴超級助理,他要在周末做各種各樣的事情,而在叙述這些事的時候,測試員會故意提出“修改時間”的要求,比如原定于周日要做的A事件被B事件替換。

即使面對測試員的一系列複雜要求,這位超級助理也可以從中提煉出真正有效的資訊,并據此給測試員生成一份正确的時間安排表。

此前小度智能音箱并沒有了解這樣複雜描述并提取資訊、進行整合的能力,小度靈機模型的作用展現的比較明顯。

此外,在智能家居場景中的裝置控制環節,小度靈機大模型可以化身智能管家,更準确地識别出使用者的真實需求。

在示範中,測試員告訴智能管家,“我每天早上七點半一定要起床,周末可以晚一些,大概九點左右,幹脆就九點半吧。冬天室内溫度不能低于23度,夏天溫度可以定在26度。”此時超級助理可以根據這些描述,确定要在什麼時候開啟家中的空調、調整到什麼樣的溫度比較合适。

相比傳統智能助手隻會了解“打開空調”這樣的簡單單一指令,靈機模型可以認識到:“使用者到家時,家裡溫度與使用者期望的不一樣,是以需要打開空調,并且根據現在的季節調節到合适的溫度”。

顯然,大模型的加入,可以讓智能音箱實作認知能力上的提升。

大模型卷進智能音箱,戰火重新點燃

小度靈機大模型

天貓精靈的政策是針對于智能音箱訓練出一個個性更為鮮明的大模型。4月11日,天貓精靈宣布将接入通義千問,據阿裡巴巴集團董事會主席兼首席執行官、阿裡雲智能集團首席執行官張勇透露,未來,天貓精靈除了能回答使用者的提問外,還會成為更人性化的智能助手。

不同于知識面更為廣泛的通識性大模型,更加垂直的“個性化大模型”面向的是家居場景中相對更個性化的需求,在這種個性化的大模型加持下,這些智能音箱産品可以産生一些特定的“人格化”特征,比如“鳥鳥分鳥”,這一模型的語氣、語調與脫口秀演員鳥鳥如出一轍,使得智能音箱在内容生成、了解能力更強的基礎上,還增強了可玩性。

大模型卷進智能音箱,戰火重新點燃

天貓精靈“鳥鳥分鳥”

2、智能音箱+生成式AI雙雙參與,華為、亞馬遜、谷歌仍緘口不言

第二類是此前在生成式AI技術以及智能音箱領域均有布局,但尚未透露是否會将兩者進行結合的玩家,包括華為、亞馬遜、谷歌等。

擁有“盤古系列AI大模型”的華為,是智能音箱産業的重要參與玩家,從其應用領域來看,華為雲盤古大模型将在氣象、醫藥、遊戲、稅務等方面應用,但對于大模型在智能音箱領域的布局未有相關動向公布。

亞馬遜穩坐智能音箱市場出貨份額第一多年,上周,亞馬遜的Bedrock生成式AI服務和自有大模型泰坦(Titan)剛剛面世,相比于微軟、谷歌等,其動作已經落後。

不過,亞馬遜還未透露是否将其相關技術應用于智能音箱Echo中。

今年3月,谷歌釋出聊天機器人Bard後,就有外媒報道,該公司正在重組其虛拟助理部門Assistant的彙報架構,以專注于其此前推出的聊天機器人Bard研發。

谷歌副總裁兼助理業務部門負責人Sissie Hsiao說:“随着Bard團隊繼續這項工作,我們希望確定繼續支援并執行未來的機會。今年,我們比以往任何時候都更加專注于為使用者提供有影響力的傳遞。”

而谷歌的智能音箱産品Echo是否會融入Bard的能力,谷歌尚未給出準确答複。

3、蘋果、小米尚未官宣,内測或已開啟

最後一類是以蘋果、小米為代表的玩家,這些玩家已經深耕智能音箱市場多年,但尚未透露與大模型相關的技術研發具體進展。

小米曾透露,其很早就在AI大模型領域有嘗試,采用多技術路線并行,其中,小愛同學就是典型的大模型落地應用場景。

作為國内智能音箱玩家前三甲,小愛同學的實踐應用經驗已經非常豐富。據了解,截至2022年12月小愛同學全球月活躍使用者1.15億。上周五,小米雷軍在微網誌談到大模型,并着重提到了小愛同學團隊在AI領域已耕耘多年。

并且,他還透露:“我們正在研發一些有趣的技術和産品,等我們打磨好了,再給大家展示。”

此外,蘋果也曾在2月的内部會議上透露,蘋果正在重點關注人工智能和大模型,Siri開發團隊等在定期測試“語言生成概念”。此外據外媒9to5Mac報道,蘋果已經在tvOS 16.4中引入了“Siri自然語言生成”的新架構。

ChatGPT的出現與爆火證明了生成式AI這一路線的正确性,先行的巨頭玩家也證明了智能音箱與生成式AI結合的可行性,以及生成式AI技術正在為逐漸沒落的智能音箱産業帶來新變量的必然性。

回溯過往,2014年亞馬遜推出全新硬體品類Echo,将智能語音互動技術植入傳統音箱,帶動了智能音箱的火爆熱潮。時至今日,這一曾被科技圈衆星捧月的“黃金賽道”,卻聲勢漸熄。

二、熄火的智能音箱,在ChatGPT浪潮裡尋找新變量

從市場資料來看,市場調研機構洛圖科技的報告顯示,2022年全球智能音箱市場出貨量為1.2億台,同比下降25%;國内智能音箱市場銷量2631萬台,同比下降28%。IDC釋出的2023年中國智能家居市場的十大洞察也透露,智能音箱和視訊娛樂裝置的市場需求正在逐漸消退,整個市場呈現下滑趨勢。

大模型卷進智能音箱,戰火重新點燃

2017年-2022年中國智能音箱市場銷量規模變化(圖源:洛圖科技)

智能音箱産品中存在的互動體驗、應用場景單一、産品缺乏創新、互聯互通差等問題使得一些裝置被放在使用者家中“吃灰”。

當下,以ChatGPT為代表的生成式AI技術在上下文了解、多輪對話、内容生成等方面展現出了極高的互動水準,巨頭玩家的入局也展現了其與智能音箱的可行性,那麼從整個行業來看,生成式AI技術能為智能音箱帶來什麼新的變量?

首先從基本功能來看,智能音箱曾被看好的語音互動和智能家居入口兩大功能在實作上與生成式AI的特性有一定相似之處。這些功能都需要智能音箱去了解使用者的真實意圖,并且生成品質更高的答複,或者能通過對使用者說話内容上下文的了解來控制相應的智能家居裝置。

此前,智能音箱大多情況下隻能實作一問一答或者十分簡單的溝通,依托于生成式AI技術在内容生成和了解能力上的優勢,智能音箱可以在進一步了解使用者意圖的基礎上,讓回答内容的品質能夠更趨向于真人的表現。

除了基本功能,生成式AI技術能制定計劃、生成摘要等強大了解能力的技術将進一步擴充智能音箱的應用場景。智能音箱在語音互動方面具有聲音大而清晰的天然優勢。未來,智能音箱的功能可能并不止于家庭,或許會走進辦公場所成為人們工作的助手等。

從互動方式來看,生成式AI技術将會讓人與機器互動的體驗更加流暢。ChatGPT的互動方式是文本,需要使用者打開電腦或者手機,鍵入文字才能得到回應,而智能音箱則不同,其主要依靠語音,使用者不需要借助其它裝置,隻要智能音箱能聽到使用者聲音就可以觸發互動。

除此以外,在市場上,ChatGPT也正在帶動智能音箱産業成為資本的焦點。據證券之星的消息,奮達科技、漫步者、國光電器等智能音箱概念股都出現大漲行情,資金湧入迹象明顯。

在智能音箱産業進入瓶頸期的當下,生成式AI、大模型的出現又将其重新拉回大衆視野,并且迅速帶來颠覆性革新,其能為這一産業帶來多少新變量,還需要搭載着新技術的智能音箱真正走進家庭,我們才可能知道答案。

三、“ChatGPT版”智能音箱普及背後的三大挑戰

不過,想要讓搭載着生成式AI技術的智能音箱真正在每一個使用者家中實作普及,背後還有算力、資料、隐私等天然壁壘。

前段時間,生成式AI浪潮中最炙手可熱的ChatGPT也被踩下刹車,ChatGPT Plus暫停付費、多國的監管機構禁止ChatGPT使用,這背後同樣折射出生成式AI進入C端市場需要面臨的算力、資料安全、隐私保護的考量。

首先從算力層面來看,面對參數規模的大幅增長,“暴力堆疊”(利用大量高性能GPU)已經成為企業提升大模型訓練效果的主要手段,這背後高昂的成本可能成為“ChatGPT版”智能音箱落地普及的門檻。

不過算力成本高昂的問題并非無解,此前,創新奇智推出制造業預訓練大模型,創新奇智CTO張發恩在接受媒體采訪時透露,同樣規模參數的大模型,其訓練精度和所需算力水準其實在快速下降。

更直覺的來看就是,随着開源大模型的出現,一些企業不需要自己從0到1去訓練大模型,前人被訓練好的大模型可以直接調用,再在這一基礎上進行優化,這相比于從頭開始訓練的大模型,其成本将少得多。

并且,未來随着算法進化,大模型訓練過程中對算力的依賴度也會大大降低。

第二個挑戰是,ChatGPT爆火的很大一部分原因是它可以颠覆式提升生産效率,而這種輸出方式主要以文字、圖檔、視訊為主。智能音箱則更注重語音互動,但在人們的日常生活、工作中,需要音頻回報的内容可能隻占一小部分,大部分還是以文本、圖檔、視訊輸出為主。是以,“ChatGPT版”智能音箱的普及落地需要找到一個能切準使用者真正剛需,并且适配于語音互動的場景。

物聯網音視訊技術底層服務商相關負責人告訴智東西,站在大模型的角度,它對意圖了解、情緒了解、個性塑造和反思能力有很強的表現并擅長内容創作等,但此前智能音箱的互動還停留在機械式問答。

他補充道,未來可能會誕生一些陪伴型的裝置形态,當然也有可能有别于現有的智能音箱。

如果仍然以聊天對話、控制智能家居裝置的功能為主,搭載“ChatGPT”的智能音箱可能很快也會褪去熱度,再次沉寂,因為這看起來與之前的智能音箱相比并沒有很大差別。

第三個挑戰就是,對于使用者家庭資料、隐私安全的保護。消費者對于智能音箱收集個人資料的問題一直比較敏感,如果想要搭載生成式AI技術的智能音箱可以更好地了解使用者需求,并給出個性化解決方案,那麼生成式AI勢必會涉及到對使用者個人資訊的收集。

此時使用者對于這類産品是否會接受,以及相關法規法律的健全完善,都會是行業要面對的挑戰。

是以,當一個更聰明的智能音箱出現在使用者家庭中,勢必會經曆較長的市場教育階段。

一項新技術的革新以及對整個産業産生實際的影響必然是長期過程,而這一波AI新浪潮仍處于發展的早期,是以其對于智能音箱這一産業産生的切實影響可能還未明确展現出來。

現在,我們還無法給出類ChatGPT技術在智能音箱中廣泛應用、引起真正革命的确切時間,但可以預見的是,ChatGPT引爆的熱潮正在加速這一程序。

結語:解密AI帶給智能音箱的想象空間

随着生成式AI技術的快速發展,日漸熄火的智能音箱産業将有望找到新的增長空間。在此基礎上,智能音箱等智能終端裝置的人機互動模式也将帶來新的變革。

多年以來,曾靠語音助手紅極一時的智能音箱一直沒發展出什麼爆款新功能,也沒有出現令人驚豔的重磅更新,使得消費者的換新需求大打折扣,如今這類上知天文下知地理、還能擁有情感陪伴的生成式AI技術,未來如能和智能語音助手結合在一起并落地到使用者家中,将有望帶給智能音箱産業新的生機。

不過對于其未來能産生哪些新的場景、新的應用?智能音箱的形态又會發生什麼樣的變革?目前還未有定論。

GTIC峰會預告:

做Matter+ChatGPT時代的瞭望者!4月28日下午2點,GTIC 2023全球AIoT智能家居峰會将于AWE同期,在上海卓美亞喜瑪拉雅酒店三樓歡宴會廳舉行。完整議程正式公布,歡迎報名參會。

大模型卷進智能音箱,戰火重新點燃

繼續閱讀