夢晨衡宇發自凹非寺

量子位 | 公衆号 QbitAI

生成式AI要取代搜尋引擎的聲音，出現在ChatGPT釋出的第一天。

後來越傳越邪乎，有人設想以後大家找資料都不說google一下了，而是geept一下。

還有人說，搜尋引擎給的一頁10個藍藍的連結，以後就像老式撥号電話的轉盤一樣成為曆史。

谷歌剛開始還滿不在乎，随着ChatGPT爆火出圈也感受到威脅，内部拉響紅色警報，調整AI産品政策。

微軟則把這視作彎道超車的機會，計劃在必應搜尋中繼承ChatGPT的能力。

……

不過，持不同觀點的也大有人在。

随着大家使用加深，ChatGPT會用權威的語氣輸出錯誤資訊，無法擷取最新知識等弱點暴露出來。

△一本正經胡說八道

OpenAI的CEO也表示，現階段ChatGPT容易給人帶來一種假象，依賴它來做重要事情是不靠譜的。

Keras之父則認為，搜尋與生成根本就是兩個問題，原理上就決定了兩者無法互相取代。

有意思的是，另一搜尋巨頭百度的觀點也站在這一邊。

近日，百度剛剛舉辦Create AI開發者大會，大會前夕，百度搜尋宣布将基于百度自研的生成式模型，更新“生成式搜尋”能力，并指出，生成式AI和搜尋引擎是互補關系而不是替代，還說搜尋底層技術和AI底層技術是相通的。

其實你已經用上了

百度這番話不是說說而已，而是從2021年就開始嘗試把AIGC與搜尋兩者結合起來了。

十年前點選“百度一下”的按鈕時，搜尋引擎背後的工作原理相對簡單，就是通過關鍵詞索引，經過算法篩選排序，生成結果頁。

而現在，結果頁有時候已經不是單純呈現連結排列。

比如，買了新款iPhone的你，把手機翻了個底朝天，也沒找到錄音功能藏在哪。

無奈求助于百度，在搜尋框輸入“蘋果怎麼錄音？”，生成頁面最頂端出現的不是連結，而是一個小卡片。

AI選出最能幫到你的答案并做摘要，顯示在最上方，無需再從搜尋結果翻找。

點進去看，還是圖文并茂，步驟清晰的那種。

（世界未解之謎：蘋果的錄音機到底為什麼要叫語音備忘錄？？？）

又或者網絡沖浪時看到一幀截圖，想要知道出自哪部劇，描述一下，搜尋引擎可基于深度語義了解問題并比對結果，也能搜出答案來。

不信可以一起口語化描述下面這張劇照，“南韓有部電影野獸輪船在空中飄着叫什麼名字”，然後在評論區告訴我們答案。

再比如，想了解“北京GDP和上海GDP誰高”，百度可以基于權威資料自動生成多年兩地GDP走勢圖。

高低對比直接呈現，不用自己分别另行搜尋和自行計算。

這些功能背後都是AI技術在支撐，也是AIGC和搜尋技術的結合，隻是用起來過于順滑，大家習以為常了，就像手機上的指紋識别一樣。

搜尋引擎雖然有20多年曆史，但對大多數網民來說仍然是難以替代的高頻剛需，并且需求也一直在變化。

從簡單的關鍵詞命中搜尋，到自然語言搜尋，再到語音（特别是方言）搜尋，人們使用搜尋引擎的方式越來越靠近本能和直覺。

從基礎的把網頁當成文檔去搜尋，到搜尋知識、服務，人們越來越期待搜尋提供更大的價值。

由此帶來的複雜需求與龐大計算量，使搜尋依然是技術壁壘非常高的産品。

據了解，自百度發力AI十年來累計研發投入超過1000億元，每年研發占比都超過15%，2021年更是達到23%。

與此同時，搜尋則是百度20年來的核心業務，也是離大衆最近的“視窗”之一，每天處理海量的請求。

百度領先的AI技術都會最先落地在搜尋上，讓搜尋不斷跟上需求的發展，同時也是AI技術最好的試煉場。

兩大“殺手锏”技術公開亮相

提起百度的AI技術，最被人熟知的是文心大模型，産業級、知識增強是其特色。

背後還有飛槳深度學習平台，提供一系列基礎設施和工具。以及更底層的自研昆侖晶片，兼具超強算力與高成本效益的成本優勢。

那麼這些技術怎麼用于搜尋引擎呢？

這就要說到在百度Create大會上亮相的兩大“殺手锏”技術，跨模态大模型“知一”，新一代索引技術“千流”。

先看跨模态大模型知一，是AI技術在搜尋場景落地的代表。

簡單來說，知一大模型可以從全網形态各異的資源中持續學習，無論是文本、圖檔、視訊還是結構化資訊都可以融會貫通。

打破了資源形态的界限，就更容易了解使用者的搜尋需求。

從技術層面講，知一使用了百度文心大模型技術。大規模預訓練技術提升模型性能，蒸餾壓縮率高達99%的模型小型化技術以降低成本，得以在搜尋場景全面應用。

據了解，目前知一在百度搜尋的各場景中每天要進行上萬億次的推理。如此巨大的使用規模又帶來新的問題，如何把滿足需求的結果高效呈現給使用者。

這就要提到新一代索引技術千流，負責把不同次元的資訊進行智能有序的組織。

千流與之前的索引技術相比，主打多領域、多元度表達的立體栅格化索引。

如何了解栅格化？

在過去，搜尋引擎為提高效率會把内容按品質橫向切開，做分層處理。先從高品質内容開始檢索，滿足需求就可以及時傳回結果，還未滿足再進入下一層。

在千流中，進一步把品質最高的一批内容按領域垂直分層。品質分層+内容命中結合，一橫一縱把内容切分成栅格按需檢索，大大減少每次檢索的計算量。

這是對搜尋引擎後端架構的徹底改造，做到成本降低一半、速度快兩倍。

但這又不光是節省成本的問題。

百度工程師透露，節省下的計算量還可以投入到對内容的精耕細作中，如綜合利用多種算法提升索引品質，或者加入最新的生成式AI技術。

此外，在不同的栅格間也可以使用個性化算法，就好比“一魚多吃”，不同的部分使用不同的烹饪方法。

知一和千流兩者配合起來，一方面對使用者搜尋意圖的了解更精确，一方面提高内容的品質和資訊檢索效率，為搜尋打開了更多可能性。

使用者的高頻需求，驅動着AI技術變革。新技術又能激發新使用者需求表達，兩者構成“雙輪驅動”，持續推動搜尋進化。

在這樣不斷回報疊代之下，下一個質變即将到來。

搜尋即創作

回到最初的話題：生成式AI會取代搜尋引擎嗎？

作為國内最大的搜尋引擎，百度的答案已經明了：

AIGC和搜尋引擎是互補而非取代關系。

百度搜尋傑出架構師辜斯缪解釋了百度如此判斷的思維路徑：

目前的AIGC對話系統，哪怕是最火最出圈的ChatGPT，尚有自身能力的明顯瓶頸，（比如有時胡說八道，以及不能及時擷取最新消息），且不能保證未來技術一定能夠解決這些問題。

因為從工業應用和落地可能性角度看，現有模型規模并不能支撐一個模型能記錄所有知識。

尤其是使用者需求量巨大的強時效性内容。

解決辦法，就是換個角度，利用AIGC為使用者開放式的搜尋提問或定制化的資訊需求“創作答案”。

從單邊的搜尋或生成，融合為檢索+生成，會達到更好的效果。

這也是從2021年，百度就已經着手研發生成式搜尋的重要原因。

檢索和生成的結合模式，注定了百度搜尋更新後的産品形式會有變化。

據了解，最終産品會與ChatGPT有很大不同，即雖是多輪互動，但并非單純的多輪對話。

簡而言之，使用者可以更高效地向搜尋引擎提出需求，生成式搜尋則在滿足需求的同時，疊代和調整這個需求。

不會PS的人，可以利用生成式搜尋搜出一張圖檔，再用語言描述想要怎麼修改這張圖檔，搜尋引擎就能根據要求，通過百度的NLP技術對圖檔進行修改，給予回報。

更新後，生成式搜尋會實作三個方面的體驗提升。

資訊智能整合組織。在保證權威性和準确性的前提下，梳理檢索結果，提供整合後的結構化答案。
内容創作。基于文心·NLP大模型，發揮自然語言處理能力，可以滿足諸如“寫文章”“寫公告”“智能聊天對話”等創作型搜尋需求。
個性化内容體驗。基于不同使用者畫像和閱讀偏好，同一内容也有差異化、個性化的具體表達。

△「内容創作」示意效果圖

據介紹，百度即将在近期更新全網首個生成式搜尋。

提綱挈領地梳理下來，不論是AIGC，ChatGPT，還是生成式搜尋，都是技術、尤其是AI技術發展到一定地步産生出來的新的機會。

如2022年底，百度CEO李彥宏在全員大會上的發言所說：

把AIGC這麼酷的技術變成人人需要的産品，這一步才是最難的。

百度生成式搜尋會是下一個人人需要的“酷”産品嗎？

拭目以待。

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

ChatGPT取代搜尋引擎？谷歌急了，百度不慌：早已布局

其實你已經用上了

兩大“殺手锏”技術公開亮相

繼續閱讀

一個視訊教你做谷歌seo。今天要分享的是谷歌seo優化的技巧。是否有遇到過這樣的情況：網站排名一直上不去，甚至找不到？别

網際網路商規-part2

ElasticSearch：部署ElasticSearch & Kibana

TF-IDF超級算法概述

關鍵詞權重的量化方法TF/IDF

seo技巧篇

最新資料：微信及WeChat月活12.5億多，2021年第二季遊戲收入430億元

ubuntu設定全攻略

超詳細robots.txt寫法大全和禁止目錄收錄及指定頁面

正确了解和判斷PR劫持的方法（站長必看）

傳說中比google和百度牛的十佳搜尋類網站

百度、新浪、Mixi、Apache社群贊助的開源key-value分布式存儲系統[轉載]

門戶通專訪月光部落格：第一部落格是如何打造成的

門戶通專訪草根站長九天狼：做站貴在堅持

專家訪談：搜尋開源力量：Lucene技術前景

30天了解30種技術系列---(10)面向Cloud的搜尋引擎 ElasticSearch