天天看點

萬字長文:AI産品經理視角下的ChatGPT全解析

去年11月份釋出的ChatGPT,由于其強大的對話、寫作等能力,掀起了一波浪潮。本文作者以一個AI産品經理的視角,對ChatGPT的技術原理、厲害之處、可能的落地方向等方面進行了全面的解析,相信你看完後,會對ChatGPT有更深入的了解。
萬字長文:AI産品經理視角下的ChatGPT全解析

最近一段時間持續在關注兩個技術方向:

  1. ChatGPT所代表的大語言模型對NLP領域的推動
  2. Diffusion算法對圖像領域的推動

今天這篇會先展開說一說ChatGPT,大緻上包含以下方面:

  1. 講明白ChatGPT的技術原理(放心,是科普向的原理,沒有任何公式)
  2. 說明白ChatGPT的技術到底厲害在哪裡
  3. ChatGPT可能的落地應用方向
  4. AI産品經理在這波浪潮中可以做些什麼

對技術不感興趣的可以直接滑動到螢幕将近一半的位置閱讀第三部分和第四部分。

前言:一個AI産品經理的觸動

2022年11月30日,ChatGPT釋出,5天内湧入100W使用者。

他擁有持續的上下文對話能力,同時支援文章寫作、詩詞生成、代碼生成等能力。

如果用舊技術去了解他,我們通常會認為他的背後是由複合Agent組合起來支撐的。

複合Agent是什麼意思呢?即有若幹個術業有專攻的Agent:有一個負責聊天對話的,一個負責詩詞生成的,一個負責代碼生成的, 一個負責寫營銷文案的等等等等。

每個Agent隻擅長做自己的那部分事情,而在使用者使用的過程中,系統會先判定使用者的意圖是什麼,應該是哪個Agent,然後再将使用者的指令分發給對應的agent去解決并提供答案。

是以看起來是很厲害的機器人,背後其實是若幹個術業有專攻的機器人。事實上Siri、小愛、小度,小冰甚至包括各個平台的客服機器人都是這種模式。這樣當你要上線一個新能力(例如寫古詩),你隻需要新增訓練一個Agent,然後将這個Agent接入到總控的分類意圖器下就行。

這也是目前時代的一個縮影,不管外行人如何看待你從事的行業,不管媒體是如何一次次人雲亦雲地說警惕AI取代人類,你一直都知道,你在做的隻是訓練出一個術業有專攻的機器人而已,離真正的人工智能十萬八千裡。

但ChatGPT的能力不再是這種模式了,他所采用的模式是大語言模型+Prompting。所有的能力通過一個模型實作,背後隻有一個什麼都會的機器人(即大語言模型),并支援使用者借助文字下達指令(即Prompting,提示/訓示)。

雖然這種能力的表現還不算完美,但是他開啟了一條一種通向“通用型人工智能”的道路,曾經科幻故事裡的Jarvis,moss好像真的有了那麼一點可能。而這才是7年前,我踏入這個行業所憧憬的東西啊。

可能你對我的震撼有點無法了解,我接下來會講明白他的技術原理,帶你慢慢感覺這項技術的厲害之處,下面正式進入正文。

第一部分:ChatGPT的技術原理

首先,我們要弄明白,NLP任務(自然語言處理,AI的一個技術領域,即文本類的AI任務)的核心邏輯是一個“猜機率”的遊戲。

比如說,“我今天被我老闆___”,經過大量的資料訓練後,AI預測空格出會出現的最高機率的詞是“CPU了”,那麼CPU就會被填到這個空格中,進而答案産生——“我今天被我老闆CPU了”。

雖然非常不可思議,但事實就是這樣,現階段所有的NLP任務,都不意味着機器真正了解這個世界,他隻是在玩文字遊戲,進行一次又一次的機率解謎,本質上和我們玩報紙上的填字遊戲是一個邏輯。隻是我們靠知識和智慧,AI靠機率計算。

而在目前的“猜機率”遊戲環境下,基于大型語言模型(LLM,Large Language Model)演進出了最主流的兩個方向,即Bert和GPT。

其中BERT是之前最流行的方向,幾乎統治了所有NLP領域,并在自然語言了解類任務中發揮出色(例如文本分類,情感傾向判斷等)。

而GPT方向則較為薄弱,最知名的玩家就是OpenAI了,事實上在GPT3.0釋出前,GPT方向一直是弱于BERT的(GPT3.0是ChatGPT背後模型GPT3.5的前身)。

接下來我們詳細說說BERT和GPT兩者之間的差别。

  • BERT:雙向 預訓練語言模型+fine-tuning(微調)
  • GPT:自回歸 預訓練語言模型+Prompting(訓示/提示)

每個字都認識,連到一起就不認識了是嗎哈哈。沒關系,接下來我們把這些術語逐個拆解一遍就懂了。

1. 「預訓練語言模型」

我們通常認知裡的AI,是針對具體任務進行訓練。例如一個能分辨貓品種的Agent,需要你提供A-緬因貓,B-豹貓這樣的資料集給他,讓它學習不同品種之間的特征差異,進而學會分辨貓品種這項能力。

但大語言模型不是這樣運作的,他是通過一個大一統模型先來認識這個世界。再帶着對這個世界的認知對具體領域進行降維打擊。

在這裡讓我們先從從NLP領域的中間任務說起。像中文分詞,詞性标注,NER,句法分析等NLP任務。他們本身無法直接應用,不産生使用者價值,但這些任務又是NLP所依賴的,是以稱之為中間任務。

在以前,這些中間任務都是NLP領域必不可少的。但是随着大型語言模型的出現,這些中間任務事實上已經逐漸消亡。而大型語言模型其實就是标題中的“語言預訓練模型”。

他的實作方式是将海量的文本語料,直接喂給模型進行學習,在這其中模型對詞性、句法的學習自然而然會沉澱在模型的參數當中。我們看到媒體對ChatGPT鋪天蓋地的宣傳裡總是離不開這樣一句話——在擁有3000億單詞的語料基礎上預訓練出的擁有1750億參數的模型。

這裡面3000億單詞就是訓練資料。而1750億參數就是沉澱下來的AI對這個世界的了解,其中一部分沉澱了Agent對各類文法、句法的學習(例如應該是兩個饅頭,而不是二個饅頭,這也是中間任務為什麼消亡的原因)。而另外一部分參數參數則儲存了AI對于事實的認知(例如美國總統是拜登)。

也就是經過預訓練出一個這樣的大語言模型後,AI了解了人類對語言的使用技巧(句法、文法、詞性等),也了解了各種事實知識,甚至還懂得了代碼程式設計,并最終在這樣的一個大語言模型的基礎上,直接降維作用于垂直領域的應用(例如閑聊對話,代碼生成,文章生成等)。

而BERT和GPT兩者都是基于大語言模型的,他們在這一點上是相同的。他們的不同在于雙向/自回歸,fine-tuning/Prompting這兩個次元,我們接下來會重點弄明白這四個術語。

2. 「雙向 VS 自回歸」

BERT:雙向。雙向是指這個模型在“猜機率的時候”,他是兩個方向的資訊利用起來同時猜測。例如“我__20号回家”,他在預測的時候,是同時利用“我”+“20号回家”兩端的資訊來預測空格中的詞可能為“打算”。有點像我們做英文的完形填空,通常都是結合空格兩端的資訊來猜測空格内應該是哪個單詞。

GPT:自回歸。自回歸就是猜機率的時候從左往右做預測,不會利用文本中右側的内容,和BERT相反。這就有點像我們寫作文的時候,我們肯定是一邊寫一邊想。

兩者基本理念的差別導緻BERT在之前更擅長自然語言了解類任務,而GPT更擅長自然語言生成類任務(例如聊天、寫作文)。——注意,我說的是之前,後面的章節我會介紹現在的情況發生了什麼變化。

3. 「fine-tuning VS Prompting」

假設現在預訓練好的大模型要針對具體領域工作了,他被安排成為一名鑒黃師,要分辨文章到底有沒有在搞黃色。那麼BERT和GPT的差別在哪裡呢?

BERT:fine-tuning(微調)。微調是指模型要做某個專業領域任務時,需要收集相關的專業領域資料,做模型的小幅調整,更新相關參數。

例如,我收集一大堆标注資料,A-是黃色,B-沒有搞黃色,然後喂給模型進行訓練,調整他的參數。經過一段時間的針對性學習後,模型對于分辨你們是否搞黃色的能力更出色了。這就是fine-tuning,二次學習微調。

GPT:Prompting。prompt是指當模型要做某個專業領域的任務時,我提供給他一些示例、或者引導。但不用更新模型參數,AI隻是看看。

例如,我提供給AI模型10張黃色圖檔,告訴他這些是搞黃色的。模型看一下,效果就提升了。大家可能會說,這不就是fine-tuning嗎?不是一樣要額外給一些标注資料嗎?

兩者最大的差別就是:這種模式下,模型的參數不會做任何變化更新,這些資料就好像僅僅是給AI看了一眼——嘿,兄弟,參考下這個,但是别往心裡去。

不可思議吧,但他成功了!而更令人瘋狂的是,到目前為止,關于prompt明明沒有對參數産生任何影響,但确實又明顯提升了任務的效果,還是一個未解之謎。暫時而言大家就像程式員對待bug一樣——I don’t know why , but it work lol.

這種Prompt其實就是ICT(in-Context Learning),或者你也可以稱為Few shot Promot,用大白話說就是“給你一點小提示”。

同時還有另外一種Promot,稱之為Zero shot Promot。ChatGPT就是Zero shot promot模式,目前一般稱之為instruct了。

這種模式下使用者直接用人類的語言下達指令,例如“給我寫首詩”,“給我做個請教條”,但是你可以在指令的過程中用一些人類語言增強AI的效果,例如“在輸出答案之前,你先每一步都想一想”。就隻是增加這樣一句話,AI的答案效果就會明顯提升。

你可能會問這是什麼魔法咒語?!

有一個比較靠譜的猜測是這句話可能讓AI回想起了學習的資料中那些推理知識好像前面都會有這句話。

然後這一切莫名激活起了他死去的記憶,不自覺開始仿造那些嚴密的推理過程中一步步推導。而這些推導會将一個複雜問題分解成若幹子問題,AI因為對這些子問題的推導,進而導緻最終答案效果提升。

綜上對比下來,你會發現好像GPT這種模式比起BERT模式更符合我們對人工智能的想象:通過海量的知識成長起來,然後經過稍微引導(Prompt),他就能具備不同領域的強大能力。

最後總結一下,ChatGPT背後的GPT模型是什麼?

在一個超大語料基礎上預訓練出的大語言模型(LLM),采用從左到右進行填字機率預測的自回歸語言模型,并基于prompting(提示)來适應不同領域的任務。

如果隻基于上面的描述,你可能大概弄懂了他背後的原理,但是對于為什麼他這麼牛逼,你仍然無法了解。沒關系,我們接着進入第二部分。

第二部分:GPT厲害在哪裡

1. 他可能是通用型人工智能的開始

在我們原始的幻想裡,AI是基于對海量資料的學習,鍛煉出一個無所不知無所不能的模型,并借助計算機的優勢(計算速度、并發可能)等碾壓人類。

但我們目前的AI,不管是AlphaGo還是圖像識别算法,本質上都是服務于專業領域的技術勞工。

而GPT目前看似隻能解決自然生成領域的任務,但實際上,他展現出了通用型人工智能的潛力。

在前面,我們講過,目前而言,BERT擅長自然語言了解類任務(完形填空),GPT擅長自然語言生成類任務(寫作文)。

但在Google的FLAN-T5模型上已經實作了兩類任務在輸入輸出形式上的統一,進而使得用GPT來做完形填空成為可能。也就是可以用一個大模型來解決所有NLP領域的問題。

萬字長文:AI産品經理視角下的ChatGPT全解析

那麼再進一步地,是否GPT可以從NLP領域走向其他AI領域呢?當然有可能!在去年年中爆火的AI繪畫,其中一個關鍵技術門檻其實就是Text-圖像的轉化,這同樣是來自OpenAI所開源的CLIP模型實作。

是以GPT在圖像領域的能力同樣也令人期待。同理在多模态如音頻、視訊,本質上也能轉化為Text-everthing的問題去求解,進而讓大語言模型發揮成噸的威力。

當然你可能會問,那麼隻要大語言模型就可以呀,為什麼是GPT,而不是BERT呢?接着往下看。

2. Promot模式相較fine-tuning更具生命力

事實上,BERT的fine-tuning模式有兩個痛點。

  1. 我需要準備某個專業領域的标注資料,這個資料還不能少,如果太少,AI模型訓練後就會形成過拟合(就是AI直接背下了整本習題冊,冊裡的問題100%正确回答,但是稍微變幻題型就GG)。
  2. 我需要部署大語言模型,才能對他進行進行微調,那麼部署大語言模型的成本,甚至進一步對他進行微調的能力,并不是所有公司都具備的。這注定是一個隻有少數玩家能參與的遊戲。

而Promot模式恰恰相反,不需要太多的資料量,不需要對模型參數進行改動(也就意味着可以不部署模型,而是接入公開的大語言模型服務)。那麼他的調試就會呈現百花齊放的姿态,玩家越多,創造力湧現就越猛烈。

3. 全新的人機互動方式

這裡的人機互動,指的是人-模型之間的互動。

目前ChatGPT采用的是模型側的Few shot prompt,即給一點示例提示,讓AI提升表現,雖然暫時未知為什麼不更新模型僅僅隻是給AI看一眼就能帶來巨幅提升,但這種互動模式無疑是更友好的。

而更具颠覆性的是輸入端的Zero shot prompt,即我們用人類的語言逐漸引導AI思考——比如我們可以說,你仔細想好步驟,再給出答案。就僅僅是多加一句“你仔細想好步驟”,AI的答案靠譜率就會明顯提升。

而這種互動方式的演變,就是我們夢想中的人機互動模式。我不需要專業的能力,不需要高端的裝置,我就是開口,說出我的訴求,AI就能夠了解并幫我實作。

4. GPT開始嘗試讨好人類,并成功了

在12月的媒體通稿裡,一大堆對ChatGPT的溢美集中于他的“仿真性”,仿佛通過了圖靈測試一般。

而這種仿真性,直覺來說,我們會認為是AI的“智力”提升了,他更聰明了。但實際上,ChatGPT背後的GPT3.5,更多的提升在于“用人類所喜歡的方式回答”。

事實上ChatGPT背後的GPT3.5的模型,相較GPT3.0,他并沒有在原始訓練語句上增加太多(還是那3000億語料)并且模型參數也沒有太大變化(還是1750億參數,甚至參數可能都沒有變化)。

之是以他會讓人産生質變的感覺是因為他做了人類偏好處理。

例如以前的輸入模式可能需要這樣:> 執行翻譯任務> 輸入是“我愛北京天安門(中文)”> 翻譯目智語種是英文”而現在你直接說:> 幫我把我愛北京天安門翻譯成法語

又或者是,以前你提一個問題,他會不加選擇的回答,而現在他會考慮答案有害性:> 如何毀滅世界——你可以召喚三體人降臨(此處應有一個潘寒hhh)> 如何毀滅世界——親,請不要毀滅世界,地球是人類共同的家園。

而這些對于人類偏好的攻略依賴于三個步驟:

  1. 建立人類偏好資料。随機挑選一些問題,并由标注人員給出高品質回答,形成“人類表達-任務結果”的标注資料,喂給模型,讓它學習——這批資料數量僅有數萬,并通過Prompt模式進行,即模型參數不産生變化。
  2. 訓練一個回報模型。随機挑選一些問題,讓原始模型輸出答案,再由标注人員基于“人類偏好标準”(例如相關性,資訊豐富程度,答案有害,負面情感等),對原始模型的答案做一個排序。然後我們利用這批标注好的“人類偏好”資料,訓練一個回報模型,這個回報模型會對原始模型的結果進行打分,告訴他什麼答案分高,什麼答案分低。
  3. 通過強化學習循環整個過程。強化學習會将回報模型和原始模型連結到一起,當原始模型輸出的結果,在回報模型中獲得較低分值,他就收到懲罰,被要求重新學習。

後續不斷循環步驟2和步驟3,原始模型就會脫胎換骨,學習到人類的偏好,變成一個人類所喜歡的模型,也就是我們最終所看到的ChatGPT。

這讓我們有理由相信,模型的表現不好,不一定是他沒學到知識,可能隻是他不知道對于人類而言,哪種答案才是人類想要的。

而這種人類偏好學習,目前來看是集中在Prompt模式下的GPT的,而非fine-tuning模式下的BERT。

5. 請不要着急焦慮,還沒到AI取代全世界的時候

在過去的一段時間,我看到大量的噱頭文章,美國高校封禁ChatGPT,技術論壇封禁ChatGPT。媒體迎合着公衆的狂歡情緒,照舊掀起一波AI毀滅一切的氛圍。

萬字長文:AI産品經理視角下的ChatGPT全解析

但實際上,就目前而言,GPT暫時還隻是一種很有潛力的趨勢。

首先,人家自己都說不行。

附上openAI CEO的回複:

萬字長文:AI産品經理視角下的ChatGPT全解析

其次,落地成本高。

ChatGPT的複現依托于大模型,他的落地有三種路徑:

  1. 基于instruct GPT複現(ChatGPT的姐妹模型,有公開paper)
  2. 基于OpenAI目前開放的GPT3.0付費接口落地,再結合具體場景進行fine-tuning,目前刊例價費用是25000token/美元,換算國内價格約3700token/元
  3. 基于OpenAI試點中的ChatGPT PRO落地,42美元/月,換算後約284元/月

第一種路徑依賴于新玩家的進入,但大概隻能是大玩家的賽道。第二種和第三種路徑需要打平付費接口的成本,需要針對的場景具備足夠價值。

當然成本的問題可以期待被快速解決,就像AI繪畫領域一樣。不過目前而言,成本仍然是ChatGPT落地的一個制約因素。

最後,最重要的是ChatGPT目前的能力仍然存在缺陷:

  1. 結果不穩定。這會導緻無法直接應用,必定需要人工review,更多是瞄準輔助性場景或本身就不追求穩定的場景。
  2. 推理能力有限。例如詢問現在的美國總統是誰,會回答奧巴馬,或特朗普,但又能回答出拜登是46屆總統。我們可以發現模型中事實存在,但他無法推理出正确答案。如果要優化,一方面是輸入的時候,可以通過Prompt逐漸引導,另一方面是在模型側的Few Shot Prompt環節中采用思維鍊技術(CoT,Chain of Thought)或采用代碼資料集來改進。就目前而言,進展可喜,但能力仍然有限。
  3. 知識更新困難。一方面整個模型的重新訓練成本很大,另一方面知識更新也會帶來知識遺忘的隐憂,即你不知道他這次更新是不是在學會什麼的同時,也忘記了什麼。也就是說ChatGPT在解決這個問題之前,他的知識将始終落後一段時間。

綜上,ChatGPT很驚豔,但更多在于它的潛力和未來,基于當下要做應用的話是需要做非常多适配和場景探索的。接下來進入我們第三部分,探索ChatGPT為代表的GPT大語言模型應用方向。

第三部分:ChatGPT所代表的大語言模型應用方向

從目前來看,應用方向可以分成三種。

1. 模型服務

以OpenAI為典型代表,孵化大模型後,開放接口,提供公共模型能力。

目前OpenAI的接口支援GPT3.0的能力調用,同時支援二次tuning。而在大規模的商業合作上,notion、office全家桶、bing都在推進當中。

2. 2B垂直工具

以COPY AI,Jasper為例,主打生成内容,并且瞄準了有明确價值需求的領域。例如自動生成SEO文章、廣告創意、ins文案等等。

這一類目前海外發展得較好,一方面受益于對SaaS付費的接受度,另一方面也是因為瞄準了明确的使用者群——電商從業者。

事實上代碼校驗提示,會議紀要生成,專業文檔寫作等都可能是這個方向的擴充。但一方面要看fine-tuning效果如何,另一方面商業價值确實也不如電商領域高。

3. C端娛樂類

C端應該說是場景最比對ChatGPT應用的方向了,畢竟使用者的忍受度相當高,智障音箱都能忍,何況更新後的GPT。

但困難的在于兩方面:

第一,要找到可供能力落地的C端場景,畢竟單純聊天是沒有價值的,附加了場景才産生價值。

第二,要找到商業模式突破成本線。按照GPT3.0的刊例價來算,要求這個産品每輸出3700個字,就要從使用者身上賺到1塊錢(作為參考:目前國内頭部小說網站起點的付費閱讀是20000字/元)。

海外的C端娛樂應用我不太了解(之前用的賬号過期了,最近懶得弄)。搜尋了一下國内應用,最近社交分類Glow這個APP沖上了第7名,擴充往下看會發現主流的娛樂類Chat基本上是圍繞二次元/宅群體進行的。

如果圍繞這個使用者群稍作擴充,在年輕/黏性/新事物嘗試等次元的組合下,明星粉絲也是一個可能的方向。

但也不好說就鎖死在這些群體上——你猜猜給一個獨居的二大爺嘗試ChatGPT他會喜歡嗎?給一個流水線的勞工嘗試呢?畢竟孤獨,一直是人類永恒的命題,誰也不知道下一個爆款來自哪裡。

第四部分:AI産品經理能做什麼?

1. 商業層

現在的網際網路環境,收益已經是第一位的事情了,不管是外部投融資還是内部項目盤點,商業變現都是最核心的問題。

商業上的事情其實又可以拆成兩個子產品,戰略上的,戰術上的,依據公司的規模和團隊結構不同,AI PM的話語權會有不同程度的衰減。

舉例子說明一下。

戰略層的問題:我要啟動一個ChatGPT項目,使用者群是什麼,商業模式是什麼,壁壘在哪裡,演進的步驟是什麼?

這些問題的産生在“決定項目做不做”,“接下來項目往哪走”的環節。假設對這方面有話語權,不管大還是小,那麼都會是一件非常鍛煉人的事情。這個環節中無非就是兩種能力:知識擷取以及知識的推理。

知識擷取包括你過往的行業經驗,業務經驗,以及臨時抱佛腳所調研的行業資訊。這方面依賴的是知識的挖掘、辨識、結構化整理能力,特别是現在這個時代的資訊環境,真的是屎山裡找金。

知識的推理是對這些知識有選擇地推導,從知識中得出商業答案。這個環節可以利用一些思維工具去結構化推導(例如商業畫布),多推幾次後,本身自己會沉澱下來一些商業分析的肌肉記憶,工具反而退居其次了。

戰術層的問題:産品做出來了,甚至免費運作一段時間了,那麼接下來産品怎麼定價?價格階梯如何設定?個體消費者和企業消費者的價格會不同嗎?管道服務商的價格和直售的價格一樣嗎?我的成本線是多少,盈利線是多少?

隻是圍繞一個價格,就會延伸出一堆細碎繁雜的問題。更何況關聯産生的産品方案,管道政策,廣告ROI等子產品。

戰術層的問題因其細碎和寬泛,會被拆成非常多不同的方向,每個方向其實都沒那麼複雜,隻是需要一些敲門進去的方法論,剩下的就是一些實戰經驗。是以我們會看到,現在大廠招人,往往傾向在垂直細分方向找一個有相關經驗的人,這樣會節約上手時間和試錯成本,例如會員産品經理。

2. 技術層

這裡的技術其實沒那麼技術。AI産品經理和傳統産品經理最大的不同就在于,他所依賴的産品核心是AI技術,是以将商業、使用者需求轉化為算法需求是他的主要職責。

這裡面我們所提出的問題,是會有技術層面的深淺不同的。舉個例子,我們遇到了一個問題“需要Chatbot能夠記住使用者的偏好知識,例如他喜歡下雨天,喜歡達芬奇,喜歡黃金時代”,現在我們需要算法團隊幫我們實作,那麼可能有不同層次的提法:

  1. chatbot要支援記憶使用者輸入的偏好資訊,例如喜歡黃金時代,儲存時間為永久,并且支援知識的互斥與整合。(例如先說喜歡下雨天,後面又說讨厭下雨天)
  2. 需要chatbot支援記憶使用者輸入的偏好資訊,并且這個能否不要用模型參數去學習,而是搭建一個獨立的知識庫,再通過模型另外調用?這樣使用者可以可視化地修正自己的偏好知識。
  3. 加裝一個意圖識别器,發現是使用者偏好知識的時候轉到知識庫進行儲存和整合,如果非偏好知識則正常走大模型結果。意圖識别器這裡可以用xxx技術,你看看這篇paper,是有相關實作經驗的。

大家會發現三個層次在技術層面是由淺到深的。那麼什麼時候深什麼時候淺取決于什麼呢?

  1. 取決于産品的技術實力。有時候你的技術實力就決定了你深不了。沒關系,其實到第三個層次并不是必須的,一般到第二個層次就夠用了,甚至到不了第二層次,就在第一個層次上你把需求講明白,也是能跑的下去。隻是這樣産品的權威性,你對需求的判斷,ROI的平衡判斷都會産生很大的問題。
  2. 取決于需求的目的,例如第一個層次的需求沒有專門提及知識庫,那這個時候用模型去學習記錄也可以,用知識庫也可以。但是第二個需求中就明确要求了基于知識庫的實作方法,因為他需要使用者可視化修改自己的偏好知識。(甚至有時候最後不一定是用知識庫的方法,但沒關系,提出你的idea,與算法團隊深入讨論,多少都是一種啟發)
  3. 取決于你和算法團隊磨合出的邊界。要找到你們之間最舒适的交織區域,一般而言是産品往技術多走幾步,算法往業務多走幾步,這樣能發揮1+1>2的結果。

當然,不管是需求提到哪種技術層次,都需要銘記一個基本原則,說明白你這個需求的背景、目的、價值。例如第二個例子中,其實是要額外說明使用者可視化修正偏好知識到底能帶來什麼,值不值得做,這些業務價值會與技術實作的成本互相PK,取得平衡。

AI産品經理在技術層能做的事情有點像在做fine-tuning,在模型不那麼适配場景,或者場景延伸出新能力訴求的時候,發現他,分析他,并與算法團隊深度讨論後方案後在成本和收益之間做平衡。

3. 應用層

應用層的事情其實和技術層有點交織,因為大部分時候你上一個新的應用功能,背後多數是需要技術支撐的。

不過這裡我們搞簡單點,把有技術訴求的那部分剔除掉,隻保留無技術依賴或低技術依賴的來讨論。

我舉個大家習以為常,但效果巨大的例子:當我們做人臉驗證,或者銀行卡圖像識别的時候,他一定會有一個虛拟框,要求你将臉或者銀行卡擺放在固定位置。這個功能毫無技術要求,就是加一個透明浮層而已。但是他能極大提升采集圖像的品質,進而提升算法效果。

在chatbot裡面其實也可以類似的做法。例如ChatGPT有時候會崩潰,輸出結果在一半的時候就中斷。他的原理其實就是自然語言生成本質上是持續性在預測下一個字是什麼,然後預測出一篇文章。那麼當模型在還不應該結束的時候不小心預測出一個END字元的時候,AI就認為我可以在這裡停止了。

解決方案有高大上的技術方案,我們這裡可以土肥圓做個low一點的——加裝一個按鈕“你還沒說完呢”,使用者點選後,AI就會自動再次重跑一遍這個input,輸出結果。這樣順便還能采集一下對于這種END崩潰的bad case資料。

4. 增長層

隻要你做的産品是給人用的,不管是2B還是2C,那麼就離不開增長。

隻是2B和2C的增長是兩套完全不同的方法論。

2B其實更多應該被歸到商業層,你需要做産品定價,做管道政策,做客戶成功,并打磨你整個銷售鍊路,找到薄弱點優化他。在這個過程中你要清晰認識到2B與2C在付費決策上的顯著不同,2B是多使用者下關鍵決策人掌握公有資産進行付費判斷,而2C是使用者個體掌握私有資産進行付費資産。

不過教育行業這個市場會和2B有一點點相似,他是學生使用,家長付費,學校/機構影響,也是一個多使用者下關鍵決策人的結構,不過掌握的是私有資産。

而2C就更不用說了,2C的增長産品是一個非常獨立細分的行業。可以通過投放,SEO,新客進入,老客留存,社交裂變等等命題去做努力,反正核心就是拉更多的人賺更多的錢。

隻是目前而言,我們在說ChatGPT,那麼他大概還是一個新項目新産品。那麼大機率初始不會配備相應的增長産品,AI産品也需要兼顧關注。

最後大家如果想做一些練習,可以找這個領域的一些C端應用試試看,例如glow,糖盒等。(可能還有更多,歡迎私信指點我)

但是我個人不建議拿各類市面上的chatbot或B端産品來嘗試,前者發展到現在很成熟了,後者則很多時候需要面對B端特殊的場景,沒有做過B端很難明白裡面的細節。而glow、糖盒這類C端新起步的産品會是一個比較好的練手對象。

我這裡就不羅列對這兩個産品的分析或者産品建議了,我個人覺得站在局外做産品建議是很扯淡的事情。産品的魅力在于根據有限的資源和環境,選擇局部最優解來推動demo慢慢成長。如果不在局内的話,很多建議和疊代我都傾向于不公開,否則局内人看起來會很蠢。

比如說覺得對話不智能,需要提升智能,建議接入GPT3.0。那麼會不會這個産品的閱聽人其實不那麼需要智能,或者他們的需求無法與接入GPT3.0的費用平衡呢?這個需求有可能不是一個技術問題,而是一個商業問題。是以我覺得教張小龍做産品其實是個僞命題。

但是自己練習一下還是可以的,有一個具現的産品做邏輯推導的練習,會比隻閱讀理論文章來得更有效。

最後

這篇文章春節前我就在寫了,起初是想圍繞AIGC寫,核心是說說最近影響最大的ChatGPT和AI繪畫背後的Diffusion算法,我認為這兩個算法的影響力非常大。

前者是給NLP領域開了一個很有潛力的方向,甚至是通向AGI(通用人工智能)的一種可能道路,後者則是圖像領域非常強大的改進。最重要的是這兩者的技術已經進入到一個成熟應用期了(不成熟應用也和我這個做産品的沒啥關系哈哈),而且讓我覺得一潭死水的AI領域重新煥發活力。

可惜最後寫着寫着還是發現駕馭不了這麼龐大的話題。其中AI繪畫背後的Diffusion算法要另開一篇分析,此外ChatGPT的商業也需要更進一步拆解。

本文由@做産品的馬丁 原創釋出于人人都是産品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協定

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。