夢晨 衡宇 發自 凹非寺
量子位 | 公衆号 QbitAI
生成式AI要取代搜尋引擎的聲音,出現在ChatGPT釋出的第一天。
後來越傳越邪乎,有人設想以後大家找資料都不說google一下了,而是geept一下。
還有人說,搜尋引擎給的一頁10個藍藍的連結,以後就像老式撥号電話的轉盤一樣成為曆史。
谷歌剛開始還滿不在乎,随着ChatGPT爆火出圈也感受到威脅,内部拉響紅色警報,調整AI産品政策。
微軟則把這視作彎道超車的機會,計劃在必應搜尋中繼承ChatGPT的能力。
……
不過,持不同觀點的也大有人在。
随着大家使用加深,ChatGPT會用權威的語氣輸出錯誤資訊,無法擷取最新知識等弱點暴露出來。
△一本正經胡說八道
OpenAI的CEO也表示,現階段ChatGPT容易給人帶來一種假象,依賴它來做重要事情是不靠譜的。
Keras之父則認為,搜尋與生成根本就是兩個問題,原理上就決定了兩者無法互相取代。
有意思的是,另一搜尋巨頭百度的觀點也站在這一邊。
近日,百度剛剛舉辦Create AI開發者大會,大會前夕,百度搜尋宣布将基于百度自研的生成式模型,更新“生成式搜尋”能力,并指出,生成式AI和搜尋引擎是互補關系而不是替代,還說搜尋底層技術和AI底層技術是相通的。
其實你已經用上了
百度這番話不是說說而已,而是從2021年就開始嘗試把AIGC與搜尋兩者結合起來了。
十年前點選“百度一下”的按鈕時,搜尋引擎背後的工作原理相對簡單,就是通過關鍵詞索引,經過算法篩選排序,生成結果頁。
而現在,結果頁有時候已經不是單純呈現連結排列。
比如,買了新款iPhone的你,把手機翻了個底朝天,也沒找到錄音功能藏在哪。
無奈求助于百度,在搜尋框輸入“蘋果怎麼錄音?”,生成頁面最頂端出現的不是連結,而是一個小卡片。
AI選出最能幫到你的答案并做摘要,顯示在最上方,無需再從搜尋結果翻找。
點進去看,還是圖文并茂,步驟清晰的那種。
(世界未解之謎:蘋果的錄音機到底為什麼要叫語音備忘錄???)
又或者網絡沖浪時看到一幀截圖,想要知道出自哪部劇,描述一下,搜尋引擎可基于深度語義了解問題并比對結果,也能搜出答案來。
不信可以一起口語化描述下面這張劇照,“南韓有部電影野獸輪船在空中飄着叫什麼名字”,然後在評論區告訴我們答案。
再比如,想了解“北京GDP和上海GDP誰高”,百度可以基于權威資料自動生成多年兩地GDP走勢圖。
高低對比直接呈現,不用自己分别另行搜尋和自行計算。
這些功能背後都是AI技術在支撐,也是AIGC和搜尋技術的結合,隻是用起來過于順滑,大家習以為常了,就像手機上的指紋識别一樣。
搜尋引擎雖然有20多年曆史,但對大多數網民來說仍然是難以替代的高頻剛需,并且需求也一直在變化。
從簡單的關鍵詞命中搜尋,到自然語言搜尋,再到語音(特别是方言)搜尋,人們使用搜尋引擎的方式越來越靠近本能和直覺。
從基礎的把網頁當成文檔去搜尋,到搜尋知識、服務,人們越來越期待搜尋提供更大的價值。
由此帶來的複雜需求與龐大計算量,使搜尋依然是技術壁壘非常高的産品。
據了解,自百度發力AI十年來累計研發投入超過1000億元,每年研發占比都超過15%,2021年更是達到23%。
與此同時,搜尋則是百度20年來的核心業務,也是離大衆最近的“視窗”之一,每天處理海量的請求。
百度領先的AI技術都會最先落地在搜尋上,讓搜尋不斷跟上需求的發展,同時也是AI技術最好的試煉場。
兩大“殺手锏”技術公開亮相
提起百度的AI技術,最被人熟知的是文心大模型,産業級、知識增強是其特色。
背後還有飛槳深度學習平台,提供一系列基礎設施和工具。以及更底層的自研昆侖晶片,兼具超強算力與高成本效益的成本優勢。
那麼這些技術怎麼用于搜尋引擎呢?
這就要說到在百度Create大會上亮相的兩大“殺手锏”技術,跨模态大模型“知一”,新一代索引技術“千流”。
先看跨模态大模型知一,是AI技術在搜尋場景落地的代表。
簡單來說,知一大模型可以從全網形态各異的資源中持續學習,無論是文本、圖檔、視訊還是結構化資訊都可以融會貫通。
打破了資源形态的界限,就更容易了解使用者的搜尋需求。
從技術層面講,知一使用了百度文心大模型技術。大規模預訓練技術提升模型性能,蒸餾壓縮率高達99%的模型小型化技術以降低成本,得以在搜尋場景全面應用。
據了解,目前知一在百度搜尋的各場景中每天要進行上萬億次的推理。如此巨大的使用規模又帶來新的問題,如何把滿足需求的結果高效呈現給使用者。
這就要提到新一代索引技術千流,負責把不同次元的資訊進行智能有序的組織。
千流與之前的索引技術相比,主打多領域、多元度表達的立體栅格化索引。
如何了解栅格化?
在過去,搜尋引擎為提高效率會把内容按品質橫向切開,做分層處理。先從高品質内容開始檢索,滿足需求就可以及時傳回結果,還未滿足再進入下一層。
在千流中,進一步把品質最高的一批内容按領域垂直分層。品質分層+内容命中結合,一橫一縱把内容切分成栅格按需檢索,大大減少每次檢索的計算量。
這是對搜尋引擎後端架構的徹底改造,做到成本降低一半、速度快兩倍。
但這又不光是節省成本的問題。
百度工程師透露,節省下的計算量還可以投入到對内容的精耕細作中,如綜合利用多種算法提升索引品質,或者加入最新的生成式AI技術。
此外,在不同的栅格間也可以使用個性化算法,就好比“一魚多吃”,不同的部分使用不同的烹饪方法。
知一和千流兩者配合起來,一方面對使用者搜尋意圖的了解更精确,一方面提高内容的品質和資訊檢索效率,為搜尋打開了更多可能性。
使用者的高頻需求,驅動着AI技術變革。新技術又能激發新使用者需求表達,兩者構成“雙輪驅動”,持續推動搜尋進化。
在這樣不斷回報疊代之下,下一個質變即将到來。
搜尋即創作
回到最初的話題:生成式AI會取代搜尋引擎嗎?
作為國内最大的搜尋引擎,百度的答案已經明了:
AIGC和搜尋引擎是互補而非取代關系。
百度搜尋傑出架構師辜斯缪解釋了百度如此判斷的思維路徑:
目前的AIGC對話系統,哪怕是最火最出圈的ChatGPT,尚有自身能力的明顯瓶頸, (比如有時胡說八道,以及不能及時擷取最新消息) ,且不能保證未來技術一定能夠解決這些問題。
因為從工業應用和落地可能性角度看,現有模型規模并不能支撐一個模型能記錄所有知識。
尤其是使用者需求量巨大的強時效性内容。
解決辦法,就是換個角度,利用AIGC為使用者開放式的搜尋提問或定制化的資訊需求“創作答案”。
從單邊的搜尋或生成,融合為檢索+生成,會達到更好的效果。
這也是從2021年,百度就已經着手研發生成式搜尋的重要原因。
檢索和生成的結合模式,注定了百度搜尋更新後的産品形式會有變化。
據了解,最終産品會與ChatGPT有很大不同,即雖是多輪互動,但并非單純的多輪對話。
簡而言之,使用者可以更高效地向搜尋引擎提出需求,生成式搜尋則在滿足需求的同時,疊代和調整這個需求。
不會PS的人,可以利用生成式搜尋搜出一張圖檔,再用語言描述想要怎麼修改這張圖檔,搜尋引擎就能根據要求,通過百度的NLP技術對圖檔進行修改,給予回報。
更新後,生成式搜尋會實作三個方面的體驗提升。
- 資訊智能整合組織。在保證權威性和準确性的前提下,梳理檢索結果,提供整合後的結構化答案。
- 内容創作。基于文心·NLP大模型,發揮自然語言處理能力,可以滿足諸如“寫文章”“寫公告”“智能聊天對話”等創作型搜尋需求。
- 個性化内容體驗。基于不同使用者畫像和閱讀偏好,同一内容也有差異化、個性化的具體表達。
△「内容創作」示意效果圖
據介紹,百度即将在近期更新全網首個生成式搜尋。
提綱挈領地梳理下來,不論是AIGC,ChatGPT,還是生成式搜尋,都是技術、尤其是AI技術發展到一定地步産生出來的新的機會。
如2022年底,百度CEO李彥宏在全員大會上的發言所說:
把AIGC這麼酷的技術變成人人需要的産品,這一步才是最難的。
百度生成式搜尋會是下一個人人需要的“酷”産品嗎?
拭目以待。
— 完 —
量子位 QbitAI · 頭條号簽約
關注我們,第一時間獲知前沿科技動态