作者:Cage
編輯:Cage、penny
排版:Scout
麥克盧漢說過,舊的媒介會成為新的媒介内容的一部分。Google 中搜尋到的知識成就了 ChatGPT 學習到的海量語料,但 ChatGPT 本身無法取代 Google。因為 ChatGPT 記不住所有的知識,也無法保證知識的實時性。是以,檢索 (Retrieval) 技術被引入 LLM 應用中,問答引擎這個結合搜尋和 LLM 的産品品類就出現了。
Perplexity AI 是目前産品體驗最好、知識擷取最準确的問答引擎,在使用者中口碑顯著優于 Google Bard 和 Bing Chat。其最大的特點是産品疊代速度快,Retrival 系統優化好:具體展現在生成速度快、模型 Hallucination 少,且回答中的每一句話都明确标注了引用來源。但由于核心使用者都在知識領域使用 Perplexity,目前尚很難成為一款低門檻的大衆化使用産品。生活/購物助手等更高價值的場景可能是其使用者泛化的路徑,但該領域要競争的是對于 Workspace、Shopping、Map 等深入積累的 Google。
作為創業公司,Perplexity 的重心在于打磨産品和召回系統,而不是自模組化型+搜尋技術棧。後者現在用的是 OAI 和 Google/Bing 的api,但這樣做成本偏高,且定價權掌握在别人手裡,Bing 已經将其 search api 的價格上調了 10 倍。
作為一款知識生産力向的産品,Perplexity 目前以 20 美元的訂閱制進行商業化,但這個商業模型對于問答引擎這樣高 inference 成本的産品是不可持續的,尤其所挑戰的搜尋引擎有一套極其成熟的商業化模型,能使使用者、商家、創作者同時受益。接下來 Perplexity 必須要在商業化方面發力:如何幫助開發者和企業優化其搜尋體驗,如何将廣告無縫地銜接入 AIGC 和 UGC。如果沒有長期新的商業模式出現,Perplexity 目前的形态更可能成為 Gen AI 時代的新 Quora + Wikipedia;如果探索出了 LLM native 的商業模式,Perplexity 具備挑戰傳統搜尋的潛力。
以下為本文目錄,建議結合要點進行針對性閱讀。
👇
01 資訊組織粒度的變化:從搜尋引擎到回答引擎
02 産品:精心打磨的問答引擎
03 技術:定位應用層,使用技術巨頭的 api 開發産品
04 團隊與商業化發展
01.
資訊組織粒度的變化:從搜尋引擎到回答引擎
歡迎關注海外獨角獸視訊号
擷取最前沿的科技行業資訊
在網際網路時代,搜尋引擎将資訊以網頁為最小粒度為使用者進行排序和推薦。
LLM 的出現使資訊組織的最小粒度發生了變化:LLM 學習了所有 Google 上能得到的資訊,将知識以詞彙為最小粒度生成相應的内容。很多使用者更青睐靈活度更優的後者,開始與 ChatGPT 互動擷取各類知識。
LLM 本身是好的知識擷取平台嗎?著名科幻作家 Ted Chiang 對 ChatGPT 取代搜尋引擎是相當悲觀的,他說:“ChatGPT 是對網絡模糊壓縮的 JPEG。” 在這篇著名的紐約客文章中,他認為網際網路使用者需要有精确的索引和參考依據。不然過度依賴 ChatGPT 那樣的有損壓縮,會讓人們失去對事物追根溯源的思考能力。
而有損壓縮在生産力場景很難嚴肅使用有一個重要原因:Hallucination。模型會模仿人類的口吻說出一些實際不符合事實的内容,有時很難分辨其真僞。是以,大家目前普遍使用的解決方案是 Retrieval Augmentation —— 把與問題相關的事實交給模型一起加工和學習。
這樣模糊與精确兼備的産品,是“回答引擎” —— 目前最接近下一代搜尋引擎的産品形态。Google Bard、Bing Chat 和本文的主角 Perplexity AI 都是這一品類的代表。接下來就将從産品、技術棧等方向去詳細分析各回答引擎、尤其是 Perplexity AI 的主要特點。
02.
産品:
精心打磨的問答引擎
出色的産品疊代速度
Perplexity AI 是一家 Gen AI 應用層公司,模型或技術棧能力不是核心價值,産品疊代能力強是重要特點。Nat Fridman,Github 前 CEO 在今年初稱贊過 Perplexity:創立不到六個月,比很多公司全生命周期釋出的産品疊代都更多。
回到其産品公測的第一天:22年12月8日,Perplexity 釋出了其 beta 版本的搜尋産品 Ask。根據使用者的問題,輸出用 Bing 搜尋引擎結果驗證過的 GPT 3.5 回答。其最早的産品與搜尋引擎很接近,将文字輸入頂端對話框之後,出現下面兩段式内容:
第一部分是 AI 生成的總結,其中包含有引用内容和索引;第二部分是 AI 生成過程中參考的連結來源,會且隻會出現 3 條。在生成内容下方可以給回報:like 和 dislike,也可以轉發到推特促使自然裂變。
最早産品形态
12 月 16 日,Perplexity 緊接着釋出了第二款産品:Bird SQL,能夠根據自然語言搜尋推特中的内容。其實作方式是,用 OpenAI Codex 模型将自然語言變成 SQL,從當時還開放的 Twitter SQL 接口去查詢到最相關的 post。
由于 Twitter 自身的搜尋功能優化得很差,這一功能在早期受到了很多好評。因為産品的查詢是基于 SQL 實作的,還産生了很多有趣的資料可視化,與 ChatGPT 最近受到熱議的 code interpreter 有些相似。
可惜在今年 2 月底,Twitter 關閉了這個接口。從這個産品能看出 Perplexity 對搜尋了解很深,且能抓住當時 Google、Bing、Twitter 都沒有通過 LLM 優化自己搜尋能力的時機,快速推出市場認可的産品。Twitter 的搜尋經驗在未來也能幫助其他公司的資料庫優化其搜尋能力。
今年 5 月,Perplexity 又大幅疊代了産品,問答引擎中的 Agent 實踐:推出基于 GPT-4 了解和規劃能力的 Copilot。在這款産品中,輸入的問題中缺失的細節會由 Copilot 給出一些選項和輸入框,使其能夠讓使用者更精準地傳達自己的需求。這一能力在輸入複雜問題的時候,能給到更可控且準确的回答。目前的 copilot, 雖然隻是一個界定了能力邊界問答引擎助手,但卻可能在嘗試定義和探索未來基于 LLM 能力的 AI agent UI 形态。
與這一産品釋出的還有 AI profile 和 Perplexity Pro 方案,前者是使用者自己的背景和偏好介紹,在使用 Copilot 的時候能體驗到一定的個性化内容;而後者是一個月 20 美元無限使用 Copilot 的額度。
根據 Lilian Weng 最新部落格中的定義,Agent = Planning + Memory + Action with tools。Copilot 本身是 planning 的展現,AI profile 是 memory 的形式,而 Actions with tools 是目前 Perplexity 目前相對缺失的,也是最可能在之後和 Google 的競争中落下風的:Google Workspace 中可以給 Bard 使用的工作和地圖工具很多。
除了上文中這些重要疊代,Perplexity 産品還經曆了一系列小疊代:
Perplexity 推出産品已經 7 個月了,開發和疊代速度很快,對 LLM 的想法也非常的應用思維:用好模型是第一位的,盡管他們有了自己的模型也不做任何宣傳,因為認識到模型能力很難和 GPT-4 level 直接競争。他們對搜尋也有着很深的執念,目前 Ask、Bird SQL、Copilot 都圍繞着核心命題:如何用 LLM 優化搜尋的體驗。
産品評價與回報
Quantative Analysis
搜尋引擎有一套嚴謹的名額體系,如 Precision@10(前十個結果是否解決使用者的問題)、CTR(點選數/展示數),但這些名額對單個生成式的結果并不合适。Percy Liang 團隊今年 4 月的一篇論文 Evaluating Verifiability in Generative Search Engines 中提出了一套對于生成式搜尋引擎,也就是回答引擎的評價标準:
1. 體感效果:
• 文本流暢度
• 内容有用性
2. 引用能力:
• Recall(引用是否完整)
• Precision(引用是否準确)
經過他們對每個問答引擎 1450 道題的提問,評分如下:
根據這一套評價體系,各回答引擎的生成體感效果總體都不錯,其中 Youchat 的體感是最好的,Perplexity AI 排名第二,Bing Chat 墊底。
而到了引用能力部分,總體的表現就差了些。尤其是第一part表現良好的 Youchat 就出現了嚴重的可用性問題,大部分内容都沒有得到文本支援。Perplexity 是在準召率上做得最平衡全面的,而 Bing Chat 盡管引用準确,但也和 Youchat 類似召回率偏低。和體感評分相比,這一項各産品的評分都不算高,Perplexity 是目前相對最好的。
是以,将以上評估名額投射到坐标軸上,可以看到在量化評估中 Perplexity AI 收到的評價是最好、最全面的。(注意,評測時 Perplexity 用的是免費版本不用 GPT-4 的,而 Bing 的是已經用上了 GPT-4 的版本,可見 Bing Chat 的表現不如人意):
Qualitative Analysis
Perplexity
Perplexity 作為回答引擎有兩個重要的産品特點:
1. 很強的知識産品屬性,閱讀和分享體驗與 Google 相比,接近 Wikipedia 和 Quora:
• 顯示文本引用來源:每次生成的回答中會有 3-5 個連結,來佐證其生成内容的準确性。閱讀體驗非常類似學術文獻閱讀,且來源可以控制:如果不喜歡華盛頓郵報的内容,就可以将其從 source 中删除,重新生成。
• 有完善的查詢曆史和内容分享:每次對話會生成一個連結 permalink,成為與其他使用者分享的知識百科頁,自己過去查詢的曆史也會完全記錄下來。(詳見reference)
其他的産品更多的是将查詢内容當作聊天記錄随用随抛,而 Perplexity 則将其作為維基百科,可見其對自己生成内容是更有信心的。
• 焦點搜尋功能:在搜尋框下方,有個下拉菜單,其中包含多個領域,例如YouTube、新聞、Reddit、學術等(學術專區增加了 SemanticScholar、Arxiv 和 NIH 等資源)。這個能力可以使搜尋效果更為聚焦,使用者調研中常見使用于學術研究和創意寫作相關。
2. 将 LLM 和搜尋結合得很好,盡可能減少了 Hallucination:
• 生成内容簡潔且可靠:在與多問題引擎對比的時候,Perplexity 是最能用有限的字數準确回答問題的産品。Bing Chat 有時回答過于簡短需要反複追問,Google Bard 有時回答太過冗長,需要從中提煉出關鍵資訊。結合有使用者回報 Perplexity 生成的内容有大約 650 字的字數限制,能夠精煉地提供言之有物的回答,是問答引擎這個場景的重要标準。
• 了解問題并拆解、主動反問的能力:在 Copilot 産品中,AI 能夠根據問題了解,并且深入問題的細節反問得到更多資訊,再去進行搜尋。這裡是靈活使用 GPT-4 的規劃和了解能力,通過 prompt engineering 去引導其提問和反問,使生成的内容品質更高,可控性更強。
• 多輪對話:在同一次搜尋中可以不斷追問,得到更接近自己想要的内容,在産品形态上兼具了 Chat 和 Search 的優點。實際使用時,偶爾會有多輪記憶和了解上的遺忘現象。
• 基本沒有Hallucination:有主動表示搜尋結果中沒有符合問題答案的能力。
• 多語言能力不錯,生成速度快:Google Bard 目前隻支援英語,Bing Chat 在浏覽那一步的速度較慢。
Comparison with Bard and Bing
03.
技術:定位應用層,使用技術巨頭的 api 開發産品
技術對比:傳統搜尋引擎技術棧
Google/Bing 搜尋引擎的大緻技術子產品包括以下幾個子產品:
1. 内容收集和整理:
這一層負責抓取網絡、下載下傳網頁并解析它們以提取内容。它還包括一些過濾和優化内容的過程,如删除重複頁面、檢測垃圾郵件和按主題分類頁面。
• 抓取:谷歌的抓取器,也稱為Googlebot,負責通路網站并下載下傳頁面。它們使用各種技術來避免使網站過載,例如限制每秒通路的頁面數量和遵循robots.txt檔案。
• 解析:頁面下載下傳後,會對它們進行解析以提取内容。這包括頁面上的文本、圖像和其他媒體。解析器還識别頁面的标題、關鍵字和其他中繼資料。
• 過濾和整理:從頁面中提取的内容接着進行過濾和整理。這包括删除重複頁面、檢測垃圾郵件和按主題分類頁面。
2. 搜尋核心:
這一層負責對内容進行索引并建立搜尋索引。它還包括一些用于在搜尋結果中對頁面進行排序的算法,如PageRank,它根據頁面與其他頁面的連結關系衡量頁面的重要性。
• 索引:經過過濾和整理的内容随後被索引。這涉及到建立一個包含頁面及其内容、中繼資料和排名資訊的資料庫。
• 排序:索引中的頁面使用各種算法進行排名。這些算法考慮到頁面的内容、指向頁面的連結等因素。
3. 使用者和應用程式接口:
這一層負責與使用者互動并向他們提供搜尋結果。它包括谷歌搜尋網站以及允許其他應用程式通路搜尋結果的API。
• 谷歌搜尋網站:谷歌搜尋網站是谷歌搜尋引擎最著名的使用者界面。它允許使用者輸入搜尋查詢并檢視搜尋結果。
• API:谷歌還提供了一些 API,允許其他應用程式通路搜尋結果。這使得開發人員可以建立與谷歌搜尋引擎內建的自定義搜尋應用程式。
這些技術子產品共同構成了 Google/Bing 搜尋引擎的基本架構,而 Perplexity 的搜尋能力是建立在這些巨頭的能力之上的。
而 Perplexity 的技術棧則直接基于 Google/Bing 的技術來繞過了需要長時間積累和工程複雜度的爬蟲、資料庫系統。其流程可以分為以下幾個部分:
1. Google/Bing 搜尋傳回:
從他們的查詢引擎 api 傳回與使用者 query 有關的網頁内容。
2. 索引系統:
将内容向量化進行細粒度的處理群組織,目标有二,其一是友善排序時能了解和定位到網頁中與使用者問題最相關的内容,其二是可以将 api 傳回的内容存儲以用作之後複用。
3. 排序系統:
以語義搜尋的方式 retrieve 最相關的内容,交給 LLM 作為 input 進行學習。
4. 問答系統與 LLM 調用:
LLM 根據召回的内容進行學習,輸出對使用者 query 的解答,并在其中對引用内容進行标注。學習過程中根據使用者選擇和系統判斷決定使用自研模型還是 OpenAI 的模型。
成本測算:長期需要自研 search stack 以降低成本
使用大公司的 api 使他們能專注于優化産品,但也會拉高成本。他們意識到這點,回到了 ML Researcher 的老本行開發了 7B 的自研模型,成功将 query 中 LLM 生成成本降低到了相對低的水準。
但與此同時,和 Twitter 關掉自己的資料庫一樣,Google/Bing 也察覺到了搜尋引擎 startup 的動向,将其 search api 的價格擡高了 10 倍左右,對 Perplexity 等不自建 search stack 的公司造成了壓力。以 Bing Search API 為例:
漲價後,單次 Bing Search 的成本在 0.015 美元,而 LLM 互動成本(如果自研模型成本能達到 GPT-3.5 一半的話)也就在 0.02 美元左右。是以接下來如果要将産品可持續地擴大使用量,search stack 的自研會使成本降低 30% 左右。按目前的假設估算,Perplexity 維持目前的搜尋量和技術棧,一年需要的成本在 1000萬美元以上。技術非自研會對其未來的 runway 有比較大的影響。
04.
團隊與商業化發展
團隊:創始科學家比例高,
LLM/search/ranking 經驗豐富
Perplexity 團隊目前有 18 人,其中一半以上是 Engineering Team 的。團隊優點明顯:創始團隊對 LLM 有很深入的了解,工程團隊對 Ranking /問答系統有很豐富的經驗。大部分之前都在獨角獸或大廠工作,有 3 位成員之前在 Quora 工作過。接下來重點介紹幾位團隊中的重要成員。
CEO Aravind Srinivas 來自印度,博士期間才移民來到美國。Aravind 是 UCB 的 CS Phd,主攻方向是在計算機視覺和強化學習中融入 Transformer 模型。Phd 期間,他先後分别在 OpenAI、DeepMind 和 Google 做 Research Intern。畢業後,他加入 OpenAI 工作了一年,研究語言模型和擴散模型。22 年 8 月,離開 OpenAI 創立 Perplexity。
和他一起創業的是 CTO Denis,有很強的搜尋和工程背景。11-13 年期間,他是 Bing 團隊的工程師,之後來到 Quora 成為排序算法的 Tech Lead。16 年從 Quora 離開後加入 Facebook FAIR,同樣開始做計算機視覺和強化學習相關的研究,18 年開始在紐約大學做 AI Phd。
Aravind 在訪談中誇過 Denis 很會招聘,團隊第三人就是 Denis 招來的:CSO Johnny Ho。他是哈佛大學數學/CS 雙學位,畢業後在 Quora 待過一年,當時在 Denis 的 team 工作。離開 Quora 之後,他成為了職業程式設計競賽選手、量化交易員。用 Aravind 的話說,Johnny 是 Perplexity 運轉疊代速度高效的重要原因。在官方的 Discord 和 Reddit 中,Johnny 是主要的營運和收集使用者回報的那位,在團隊中是複合型的多面手。
Andy 是 Databricks 的 Co-founder,CS Phd 出身的他在 Databricks 承擔了很多創業公司營運相關的工作,先後做過 VP of professional services 和 VP of Product。在 Perplexity 早期,Andy 作為 President 以其連續創業的經驗幫助公司少走了很多彎路。
Henry Modisett 是 Perplexity 的 Founding Designer。在加入 Perplexity 前,他在 Quora 待了 8 年,從産品早期的年輕設計師一直成長為産品的 design lead & manager。Quora 的 feed 流、問答和 Google 郵箱 iOS 産品設計都有他的參與。他在今年 2 月加入,那之後的産品疊代 feature 設計可能與他緊密相關,比如 4 月的網頁設計風格改版和 6 月的 Copilot。
融資曆史:天使投資陣容豪華
值得一提的是,團隊的天使投資人陣容極其豪華,基本全是海外 AI/ML 的核心人物:
商業化進展:
早期核心使用者穩定,尚需跨越鴻溝
在今年初創始人 Aravind 接受采訪的時候提到,Subscription 對問答引擎不是一個好的商業模式,Google 才是 role model。6 月,GPT-4 的接入和 Copilot 功能釋出後,高額的 api 成本使 Perplexity 開始推出會員制産品:付費會員所有 query 回答都以 GPT-4 進行回答和生成,每天有 300+ 次 Copilot 使用額度。
對于 20 美元一個月的産品而言,使用者的評價相對兩極分化。有一部分使用者認為其價格與 ChatGPT/Poe 持平是比較貴的,因為其提供的就是一個更可靠的 ChatGPT + Browsing 能力,而 ChatGPT 還有其他更豐富的 plugin offering,Poe 有 Claude 等其他 LLM 的接入。
Pro 方案推出三天後就有了 1000+ 付費使用者。使用者評價以大多是好評,認為 Pro 産品并不是單純換了個模型 api,而是做了更用心的優化,使用 GPT-4 之後的查詢體驗更好,Hallucination、Latency 等效果好于 ChatGPT。商業化收入的快速成長,代表 Perplexity 已經有了穩定的核心商業化客戶。
此外,團隊還有其他的商業化想法:
1. 提供問答引擎 api:成熟需求,上千開發者來詢問過。
2. 專業版個性化 Indexing:
• To C:個性化體驗(使用者自己的連結、書簽);
• To B:工作流工具,Index 工作中的合作儀表盤等。
3. 廣告:如何用 Gen AI 做營銷是目前最有趣的 Open Question。
未來發展分析
Upside:
颠覆搜尋引擎市場,
争奪 Google 的市場佔有率
搜尋引擎是一個巨大的壟斷市場。在過去的五年中,Google 都保持着 90% 以上的市場占有率。在榜單上的公司都已經有 10 年以上的曆史。一方面,這讓他們積累了非常深的系統 Infra 優勢,讓後來者很難超越;但另一方面,這也使這些公司有着很深的 Legacy Problem,很難讓産品徹底的轉型。
Data Summarized by Perplexity
同時,搜尋引擎市場也非常大:2022年谷歌搜尋的收入是 $283B,Bing 的收入是 $11.5B。即使是市占率 5% 以下的玩家仍然收入不錯。
但要侵蝕一部分 Google 的搜尋市場占比,最大的挑戰會是商業模型。Google 商業模型除了給使用者提供高品質的搜尋引擎外,還有兩個非常重要的輪子。其一是廣告主營銷,隻有實作了滿足廣告主的商業化系統,才能有良好的現金流使使用者免費地用上高品質的搜尋系統;第二是創作者激勵,内容釋出者能夠通過在網際網路上釋出高品質内容,得到平台和廣告主的激勵,是其源源不斷釋出内容的動力。盡管 AI 看似減少了創作端需求,但還是需要使用者去創作高品質的内容交給 AI 來學習和召回。
除了商業化上的難點之外,還有産品形态上的難點。廣告模型下的搜尋引擎,天然是有良好的資料飛輪的:使用者的浏覽和點選行為,反應了使用者的偏好,同時回報到排序系統和廣告競價系統,使搜尋引擎的效果更佳。
這樣的資料飛輪在當下的問答引擎中還未出現:Chat 的形式并不友善使用者直接去做偏好回報,使用者也不會有額外的時間去專門為答案做編輯或修改,Like/Dislike 類标簽的比例也隻有 10% 使用者給出。問答引擎需要一個好的産品形态,來讓使用者使用的同時自然地給回報,才能讓産品在 Google 面前有競争力。
當商業模式和産品資料飛輪的問題都能有原創的新解法,且不容易被複制時,相信 Perplexity 有潛力成為一家撼動巨頭的公司。
Neutral:
Gen AI 時代的 Quora/Wikipedia
撼動 Google 的市場可能暫時是一個好高骛遠的目标,而成為新時代的 Quora/Wikipedia 這樣的知識平台是完全有可能的。
在網際網路時代,這兩家公司都以優秀的知識産品出名,但是苦于沒有好的商業化能力,沒法持續的激勵創作者留在平台上,流量價值進一步減少形成了負回報循環。而 Gen AI 的出現正減少了内容供給上的壓力,AI 替代大部分人類創作者組織和整理知識成為可能。從 Perplexity 目前的産品形态上,有很多知識産品的理念,核心使用者群也常常使用其做知識研究類工作。
Downside:
獨到的收購價值,Tech Giants 可能都需要 LLM + Retrieval 能力
Perplexity 團隊是很獨樹一幟和清醒的:他們把使用者的信任而不是技術棧作為自己的 moat。盡管從表面上來看,Perplexity 用的是 Bing Search 和 OpenAI 的 api,但技術棧類似的 Bing Chat 比 Perplexity 使用體驗糟糕很多。可見其中有很多 Indexing、Prompting 等相關的技術和設計是比較複雜有技巧的,要做到嚴肅場景下的使用是一件很有門檻的事情。
最近巨頭開始了一波收購潮,Snow 收購了 Neeva(之前Perplexity 的競争對手,由于其完整的 search stack,被收購後專心做 enterprise search),Databricks 收購了 MosaicML,都還在技術棧查缺補漏的階段。但經過這一階段的探索,大家都會發現隻有好的 LLM 是很難在商業環境下有好的使用效果的,LLM + Retrieval 是必要的解決方案。這時,Perplexity 這樣一個深入了解 LLM 和 Retrieval 技術與應用、在一個紅海賽道階段性領先巨頭的團隊是否會有着更高的收購價值呢?
Reference
https://www.perplexity.ai/search/4f22f1bd-e957-4a50-bc9e-591f16f42464?s=c。
OpenAI基金首批投資賽道,Kick是下一代ERP雛形?
GPT-4 的“秘密”:MoE、參數量、訓練成本和推理設計
AI Agents大爆發:軟體2.0雛形初現,OpenAI的下一步
拾象矽谷見聞系列:打破圍繞開源LLM的6大迷思
ChatGPT Plugin:被高估的“App Store時刻”,軟體和SaaS生态的重組開端