大廠的AI正踏入另一條河流
今天關于大模型的狂熱裡充滿了各種誤解。
其中最深入人心的一個,就是“AGI” (Artificial General Intelligence,通用人工智能)馬上就要實作,而實作的方式是由一個全知全能的模型,解決你自己現在都不知道還需要去解決的某個無比重要的任務。實作的載體就是一個比人還聰明的對話框。
是以,一切都需要被立刻颠覆、馬上重來。
這可以是個令人期待的未來,但并不是馬上就要發生的事情。最近的一系列事情都在讓人們回過神來。比如作為标杆的GPT-5一再延遲,如紮克伯格首次明确了對ChatGPT類單一全能AI産品的拒絕;比如一份被稱為“AI墓地”的名單在網上熱傳,收錄了738個已死去或停止運作的AI項目。
與此同時,幾個重要的AI産品,都在展現另一種浪潮的方向:不是推倒重建,而是在已有大量使用者的系統裡納入大模型能力,借此大幅提升使用者體驗;不是無中生有,而是用大模型把已積累的資源真正調用起來,更好服務使用者原本就存在的需求。
上個月的蘋果WWDC 釋出會在第一時間被認為令人失望,很大程度就是因為外界對蘋果釋出一個全知全能模型的預期太高了,但接下來股價高漲等市場的回報扭轉了人們的判斷,也展現了人們對蘋果所代表的這條AI路線的重新思考。
蘋果沒有自己的全能模型,而是建設了一個三層的模型體系:本地模型用于處理簡單任務,私有雲端模型來確定加密和安全,第三方的模型提供更多的能力。這個體系是為了它複雜的生态系統而建,為了增強它自己已有的能力而設,目的是提高使用者在已有需求上的體驗。
這也是為什麼後來大家明白,OpenAI在裡面并不是一個吃掉蘋果的角色,哪怕ChatGPT是目前最強的大模型産品,也無法“接住”蘋果的使用者需求,依然隻有蘋果能服務他們。
再往前Google在年度大會Google I/O上的思路同樣如此,抛去在OpenAI壓力下應對性的“期貨”産品Astra,它更多的釋出都是在把Gemini融入它已有的億萬級使用者産品線中,而非對一個單獨的全新Gemini app本身的更新。
在最近一些國内國民級産品的更新上,也有相似趨勢。在剛結束的世界人工智能大會(WAIC),支付寶重點展示了最新的AI應用——內建在支付寶App裡的智能助理,你可以在支付寶首頁下拉找到它,過往多次點選才能完成的如訂票、點餐、問診挂号等服務,用說話的方式就能更簡單地辦好。
與那些充滿科幻片色彩、但遲遲無法體驗的場景不同,蘋果在釋出會上舉的例子是,“假設我的一個會議被重新安排到下午晚些時候,我想知道這是否會影響到我按時參加我女兒的演出”,在Siri後續更新後這些功能就可以實作。
相似的,支付寶同樣關心AI能幫人解決生活問題,在智能助理展示的已實作的功能中,就包括“幫我點一杯星巴克的大杯冰美式”、“幫我交200塊錢話費”、“上個月我花了多少錢”、“幫我查明晚七點後從上海飛北京的航班”等服務。
今年4月開始,支付寶就在首頁測試這個全新的智能助理,它不是側重聊天交流的“AI原生應用”,更像是融入支付寶平台生态的AI生活管家,不隻是“有腦有嘴能對話”,同樣“有手有腳能辦事”。
“生活搭子”之外,也有“工作搭子”—— 今年1月,釘釘上線的“AI超級助理”,就成了可調用釘釘幾乎所有功能的入口。更早之前,微軟同樣将Copilot(AI助手)嵌入Word、Excel等旗下所有的辦公應用中。
這些都是典型平台或App的自我改造。他們沒有抛下原有億萬使用者的日常需求,它們不因AI大模型出現而改變,但新技術會使需求的滿足變得大不一樣。
這種對産品的自我重塑,從使用者需求出發,看起來不那麼“炫技”,甚至是個下“笨功夫”的活兒,需要既有生态保障,甚至是系統性二次開發。
比如蘋果智能需要基于大模型,在安全的環境裡對使用者的個人資訊進行處理,進而進一步“判斷使用者的日程是否沖突”。支付寶智能助理要完成訂票這樣的任務,背後是系統性的生态和技術支撐形成閉環,需要在隐私保護基礎上對使用者個人資訊進行個性化的處理。
這些公司往往也都是在隐私和資料保護上最在意的公司,是以你會看到相關功能釋出時,都帶着“枯燥”的對資料隐私的配套技術保障的介紹,它們當然沒有一個斯嘉麗約翰遜口音的AI化身吸引眼球,但對在日常生活裡依賴這些服務的人們是至關重要的。
AI要融入使用者的生活場景,提供更有人情味的服務。至于大模型本身,則無需喧賓奪主,非要出來把一切桌子都掀了,它完全可以躲在最後面。
“讓AI像掃碼支付一樣簡單”是一個很形象的說法。一個二維碼簡化了許多繁瑣的流程,同樣讓諸多技術上的複雜革新隐藏在了後面。支付寶提出的這句話,說清了許多國民級應用使用大模型的新方向,也是通往“AGI”的另一條路——不止是All in AI,更應該AI in All。
大模型落地的三股浪潮
諸多國民級産品的“不謀而合”背後,是把大模型放在更長的技術發展視野裡來看待的産物。
從技術的演進來看,大模型的突破,可以被認為是機器智能漫長發展曆程裡的一個全新階段,而非自成一體的某種“創世紀”時刻,抛棄過去、颠覆一切。
某種程度上,我們可以把網際網路基礎設施的成熟、是以而産生的大量資料及資料處理技術、因資料豐富而進步的算法模型、進一步誕生的推薦算法等,以及移動網際網路的最終繁榮,都看作一整個不間斷程序裡的組成部分,而今天大模型的爆發,則提供了徹底釋放過往積澱技術和資料資産的能力。
這也意味着,大模型是個十分重要但依然獨木難支的“大腦”,它需要與其他重要技術一起發揮作用,需要一整個系統來支撐,才能幫助這個系統完成更新。
這與人們一開始的嘗試已經很不同。在如何把大模型通過應用落地的事上,短短不到兩年時間已經有了三股浪潮。
第一波浪潮是AI聊天應用。但人們總是忘記ChatGPT是個“意外”的産物,最初隻是用來展示模型已有能力的一個demo,OpenAI自己也沒有準備好,沒人預料到它引發的一系列變革。
是以在最初的第一個階段,震驚的人們把一切幻想都寄托在一個神奇的對話框上——既然它可以表現出智能,那麼我跟他對話就應該能解決一切問題。于是,各種大模型以一個對話框的形态變成産品,紛紛推出。
第二股浪潮,則是希望通過簡單的Prompt等方法,來把這個對話框變成某些垂直場景的專家,進而來重建對應的垂直應用。GPT store等就是這個階段的産物。
現在各個大廠正理性邁入第三階段:基于前兩個階段的嘗試,它們發現想要單純依賴一個對話框就重塑自己有些想當然,大模型的落地需要和已有的系統進行融合,利用已有的技術和資源來服務使用者,而不是徹底重新來過。
看一看微軟的一系列嘗試,就能更好地了解這樣的趨勢。作為OpenAI的最大推手,微軟在ChatGPT出現後,也第一時間希望通過一個萬能對話框來拯救Bing,成為未來AI時代的入口。
然而ChatGPT加持的Bing,在争奪市場佔有率上效果一般。之後微軟快速擁抱了OpenAI的GPTs理念,在它提供給B端使用者的Copilot Pro服務中第一時間內建了GPT store的功能,但就在3個月後,它又決絕地下線了這個功能。
最終,微軟真正一直延續下來的AI戰略,還是把大模型融入已有的産品和生态中——從Office Copilot,到最新的AI PC裡最明星的産品Recall,都是聚焦讓大模型在已有的複雜的資源裡挖掘潛能,進而真正落地。
這個技術路線現在被很多人定義為“AI Agent”(智能體),一個明顯的共識是,AI Agent越來越多地強調大模型能智能調用現有工具、服務和計算資源的能力。
大模型不是一切,但它能真正智能地調用一切。是以,它也需要一切。而這個“一切”在哪裡呢?
在那些已融入生活的國民級産品和它已服務的萬千複雜場景裡。
蘋果展示的“大模型增強版Siri”可以帶來的服務,正是基于它各種軟硬體結合的系統級調用能力。支付寶智能助理在做的,同樣是一個系統級工程。
以支付寶智能助理正在測試的“智能點單”功能舉例:當使用者說出“請給我點一杯星巴克的大杯冰拿鐵”,大模型先讓AI具有螢幕感覺能力,能“看到”小程式頁面,再通過仿真執行能力,快速完成所有過去需要使用者點選的步驟,使用者确認并付款後,就能到附近的線下門店取咖啡了。
支付寶沒有選擇簡單調用資料接口,而是選擇這一名為ACT(Transformer for Actions)的智能服務技術,正是希望未來能通過AI,連接配接背後數百萬的小程式,乃至平台原有的數千種數字生活服務。
我們可以想見,未來的智能助理可以用一句話就能幫我們訂票、挂号、制定出門行程……AI也能從“通用”的大模型,變成“有用”的小工具,服務更多的普通人。
可以看到,無論是蘋果或微軟,還是支付寶或釘釘,國内外的平台産品,都不再執迷于以一種上帝視角去創造全新的需求。
它們決定讓大模型從幻想的全能對話框裡走出來,讓AI融入生态,也讓AI落入生活——這也許并不前瞻,但人人可見的大模型落地路徑,反而能推動這個技術的真正潛能開始逐漸兌現。