
作者| 宇多田
出品| 虎嗅科技組
封面| 視覺中國
就在袁行遠興高采烈地講自己的新軟體在B站多受00後歡迎時,我的心情卻逐漸沉入谷底。
這是一個叫“彩雲小夢”的AI故事續寫程式。隻要輸入幾十字,它就會給你一個令人頭秃的故事導向。
在B站上,不少喜歡網文的年輕up主們,雖然沒有從它身上獲得什麼寫作靈感,但卻似乎找到了流量密碼。因為,算法顯然比人類要可愛多了:
在AI的世界裡,“特朗普可以在愛上拜登後,第二天愛上馬克龍…”;
三國演義裡的曹操,可以借錢和借糧給劉備;
以“中國足球赢得了世界杯”為開頭,沒幾段就出現了“世界杯後國足遭受重創,被網絡群嘲”的夢回式預言……
來自B站流量讓年輕人打了雞血的續寫結果
動辄幾十萬的播放量,是小夢受到年輕人群體追捧的最好證據。隻是在捧腹大笑之後,任何一家盈利組織,都不得不去追溯這款程式的商業想像空間。
坦率講,在過去6年時間裡,這種帶有娛樂性質的算法用途并不少見。
即便是身處人工智能圈外的大衆,也都見證了AlphaGo在遊戲競技場的巨大成功到其制作公司Deepmind陷入的營收困境;從換臉軟體Zao的爆火到僅僅一年便迅速過氣兒;還有谷歌、百度等科技公司的AI彈琴與作畫寫詩的“綜合技術營銷套餐”層出不窮,商業意義也僅僅停留在技術驗證層面。
可以說,在産業6年我看到的是,不依賴大平台、以娛樂為導向的AI算法與系統,在中國市場上的“熱度時長”,大部分平均隻有一個春節假期的時間。
“是以,如果新鮮感過了,他們還會來玩兒嗎?” 比起這個應用累積100多萬的下載下傳量,我對年輕人的忠誠度更好奇。
而這個軟體的開發者袁行遠很誠實。因為這是網際網路時代開啟以來,所有應用開發者的痛症。這個在2021年下半年推出的應用,雖然使用者增長幅度還不錯,但留存率并不高。
“7日留存有5%,而30日留存可能更低。”
畢竟年輕人好奇心來的快,去的也快。一旦掌握和習慣了AI續寫故事的套路,就很難保證他們再長時間呆在一個隻有文字和簡單邏輯構成的世界裡。
作為創業公司彩雲科技的創始人,袁行遠曾在過去6年裡推出了兩款非常具有口碑的AI軟體産品——彩雲天氣與彩雲小譯(大部分人應該更熟悉前者)。
前者是據稱是中國第一個将下雨時間精确幾點幾分的天氣預報軟體,這要歸功于他們在人工智能技術的分支——自然語言處理領域的算法手藝;
來自手機APP截圖
而後者,則是一個記者朋友曾極力推薦我在谷歌浏覽器上“一定要下載下傳”的外文翻譯插件神器。
不過,在全球龐大的手機應用市場,這兩個産品都不能算是極緻的成功,但至少是“小而美”。這也就保證了,即便是在人工智能商業潛力起伏不定的過去5年裡,公司也能有持續和相對穩定的營收進賬。
但是,很明顯,這兩款軟體都是市場相對青睐的“生産力工具型應用”。也就是說,你可以因為“不得不用”而産生更久且持續的留存;
而這次的“彩雲小夢”,暫時來看,則更像一個“隻能博年輕人一笑”和“文學與藝術價值遠高于商業價值”的算法程式,而這也是我最大的疑慮之一。
“今天有虎嗅的記者來訪”是我輸出的一句話
最難的那座堡壘,攻不下
從另一個角度來看,正是由于這套算法跟“商業化”的弱關聯,袁行遠應該是我見過對人工智能技術懷有最真摯情感的技術創業者之一。
比起,圖像識别、人臉識别這些現階段在工業應用界已經“卷出花兒來”的技術,人工智能的另一個重要分支——“自然語言處理”,如今無法得到大規模應用的根本原因,是因為它還無法對現實世界中的大量抽象概念,語義和邏輯推理做“代碼級描述”。
舉個例子,兩個文盲不識字,但他們倆聊天就能完全無障礙。
這段對話裡,“200次”更像是一種形容詞或表達心情的感歎詞,然而從語義角度,機器很難了解。
近年來,深度學習的崛起,一下子解決了計算機視覺(CV)“用手工提取特征費勁兒”的難題,是以帶來了CV領域爆發性的進展。
然而從本質來看,即便是計算機視覺,也僅僅是在感覺層面取得了突破,并未在下一次層——語義和邏輯推理上多大突破。這也是為何自動駕駛的“規劃決策”如此難。
而比起直覺的圖像,必須要越過“感覺”,對“高層語義、記憶、知識抽象以及邏輯推理”要求極高的自然語言處理(圖像識别也需要,隻是在感覺階段商業化好一些),難度顯然要大,成就感更強。
來自網上Siri的對話
你可能會質疑,怎麼能說“自然語言處理”沒有大規模應用?蘋果的Siri、智能音箱、機器翻譯,還有隐藏在各種電商與社交平台背後的算法推薦,都是這項技術的存在形式。
但實際上,這些都是“自然語言處理”山腳下最好收割的第一批果實。
就像智能音箱無論賣5000萬台還是1億台,仍然被冠以“智障”的頭銜。因為,它仍然不能“了解這個世界背後的運作邏輯”——這才是山頂上最有價值的藥材。
“除了寫作之外,其他都不值得人工智能去研究!” 袁行遠很堅決。他讓這個項目,更像是一個算法工程師或科學家,在跟市場和技術難度較勁兒。
“就像‘寫作文’是國文試卷上的最後一道題。它比什麼下圍棋,比自動駕駛和人臉識别都要難!因為難,才有做的價值!
因為圖像資料是高密度、低資訊量資料;而文字則是高密度,同時又高度抽象化資料,背後的資料空間比我們想像地大太多。”
當然,産業裡并不隻有袁行遠抱有相同的“理想”。國外不但開始地更早,而且已向外界展示過自己的強大。
微軟CEO納德拉(左)與Open AI CEO 阿特曼(右)在2021微軟Build大會上
2020年5月,OpenAI 推出了被稱為“全球最先進語言模型”的GPT-3。這個由馬斯克等矽谷大佬在2015年支援建立的人工智能研究組織,在2018年與馬斯克 Say Goodbye之後,便于第二年正式走上商業化之路,并馬上接受了微軟投資的10億美元。
如今,新一代語言生成器GPT-3,被以一種雲服務的方式,賣給想用它自動續寫文本的機構。毋庸置疑,它建立在自然語言處理技術之上——
在網絡上搜集了近1萬億字的文本,在一台嵌了幾十萬塊處理器的超級計算機上做訓練。對了,這台計算機是微軟做的,後者也算是把投資的10億美元多少收回了一些本兒。
有趣的是,英國衛報曾用GPT-3寫了一篇專欄文章——《你害怕了嗎?人類》。大緻中心思想就是“雖然我是一個會思考的機器人,但别怕,我不會消滅你們,我是人類的命運共同體”。
截自英國衛報
然而,我同時覺得微軟這10億美元的投資,可能有一小部分會打水漂兒。
因為在釋出兩年過去,這個語言生成器模型,雖然在技術層面取得了重大突破,甚至被澳洲哲學家與認知學家大衛·查爾莫斯稱為“史上最重要、最有趣的人工智能系統之一”;但是,它并沒有獲得太多企業界使用者的青睐——
除了以研究和訓練為目的企業,隻有一些“起到文本微調作用”的教育輔助工作。
雖然我沒有接觸過GPT-3,但同樣作為另一種形式的“文本生成器”,既然關鍵基礎技術尚未取得突破,那麼彩雲的故事續寫算法,其實本質上也沒有脫離“會犯傻”的範疇。
但的确長了幾歲。
首先,雖然在續寫的段落裡,它不僅可以重制文本的模式,還能夠在邏輯上表現十分正常,甚至比一些寫拼湊水文的網文作家要好(下圖,表現的确不錯)。但由于對世界缺乏常識性了解,它才會不假思索說出“特朗普愛上馬克龍”。或許,這是工程師們将其屬性定義為“寫小說”的一大原因。
其次,它仍然受限于原始訓練文本的知識屬性。算法是由3萬本網文小說訓練出來的,那麼我在輸入科技産業的新聞報道與非虛構故事時,續寫的内容就會驢唇不對馬嘴。
第三,很多時候,我發現它一直在說正确的廢話(如下圖)。也就是說,AI在不斷對你輸出的文本進行模仿與複制,對原始句做若幹次同義句意的替換。
AI更擅長廢話文學
第四,前幾點決定了,它還不能講一個超長、完整且邏輯架構正确的故事。是以程式也隻能限制你可以輸入的字數和它能夠輸出的字數。
有趣的是,袁行遠在說做這個項目的緣由時,多次提及“實驗”、“研究”以及那個更加宏大的主題——“推動人類文明進入下一個階段”,對《三體》的崇敬之心溢于言表。
雖然作為一名普通的科技編輯,我還遠不能與工程師天馬行空的想象力同頻,隻能聽着對方執着于“科幻小說《三體》描述的充滿光速飛船的未來,便是當代科學的目标”,從附和,再到逐漸陷入沉默。
但我很清楚,解決眼下的問題也同等重要。
很顯然,除了基礎科學遭遇的瓶頸,彩雲也絕對避免不了會遇到GPT-3遇到的商業化難題。
讓年輕人付費,不能靠好玩兒
盡管袁行遠很樂觀地告訴我,目前這個項目的确“是在開開心心做公益”,完全免費,隻圖年輕人能享受算法帶來的一時快樂。但作為一個創業者與企業管理人,他必然要考慮設計一個面向中國C端年輕人市場的付費方案。
而目前他們關于此的想法,在我看來,尚存有較大縫隙——還不具備足夠産品力。
首先,最簡單粗暴的商業化模式,就是讓使用者為“續寫”買單。
不過,按照公司團隊預設的100元/月定價,幾十萬的日活,以及“将網絡文學作者作為目标使用者”的前提,這款産品的營收空間能否超過他的前兩個應用,可能會讓人産生一些疑問。
我們找到了中國音像與數字出版協會在2020年釋出的《2019年度中國網絡文學發展報告》。 其中明确提到,2019年網絡文學作者數量雖然達到1936萬人,但簽約作者數量為77萬,網文作者平均月收入5133.7元。
當然,我們不能将TAM(某産品在市場中的總量)作為這款續寫軟體能cover住的市場規模,而是應該圈出它的SOM(有能力得到的市場)。
按照目前這款程式當下的娛樂屬性、大衆知名度、續寫段落長度受限、故事核心建構能力欠佳,以及“原創性作品在文學領域更容易被承認”(不過抄襲問題很嚴重)等因素來看,它将作為一款生産力工具産品的市場覆寫率,還需進一步驗證。
2021年11月閱文釋出的網文作家資料,其中末煙是00後
其次,做一個面向内容生産者與内容消費者的中介對接平台。每個使用者在裡面建立自己的“故事小世界”。袁行遠覺得,内容消費者們應該願意為自己喜歡的故事創意買單。
他打開背景,每個使用者ID對應了自己創立的“小世界”——故事主角名稱、執行的主要任務,以及故事主線。在這裡,你可以感受到年輕人想象力的天馬行空:秦始皇對話特朗普、哈利波特大戰魂鬥羅、吸血鬼愛情故事、星際都市修仙……
“3~5年裡,我們平台上會有大量使用者貢獻的‘世界’,這些設定世界的人可以把它Share出來,是以他就是我們平台上的内容生産者;
而有意向使用這些世界設定的人,也就是我們的内容消費者,會向生産者付費。我就相當于做了一個遊戲平台,抽取一定費率。”
這樣乍聽似乎沒有問題,而且很類似于開源平台的商業模式。但一方面,作為内容從業者,我深知國内内容付費産業并不好過,絕不能跟代碼相提并論;另一方面,我很快發現,這些使用者建構的故事,水準參差不齊:
有人建構了一個完整的故事主線,但故事情節并不吸引人;
有人寫了一半就離開了;
有人連故事主線都寫不清楚,故意胡亂輸入一通。譬如,有人隻記錄了一個“粑粑很好吃”的名字,就沒有後續了……
不可忽視的是,資料品質除了影響算法品質,更會影響商業化的可持續性。而這樣的“小世界”即便有100萬個,對創意内容有需求的消費者也不會為之付費。
袁行遠同意我提出的疑問——隻有“精品世界”才會有付費的可能性,而現在更多呈現出一種無序狀态。但至少,他們堅持已經看到一種可能性,就是“年輕人願意付出時間在這個軟體上”。
來自《矮人要塞》,被譽為世界上最難上手、最複雜的遊戲之一
第三,就是做一款十分完整的遊戲。
如果把小夢看作一個帶有遊戲玩樂性質的創意性軟體,那麼它就具備了做為一款遊戲或元宇宙産品的部分特質。而現在往遊戲和元宇宙靠攏,的确…可以吸引投資人的注意。
袁行遠覺得這個尚未得到進化的算法,未來可以變成一套文字版《我的世界》。後者是微軟一款非常有名的沙盒遊戲,有點像虛拟版樂高。其最大特點,就是允許玩家在一個3D世界裡采集各種資源來自由打造和定制屬于自己的世界。
但是,無論是要做下一個《我的世界》,還是做《矮人要塞》;無論玩家會遇到多少随機生成的“世界”,在遊戲設計和開發過程中,不會全部呈現讓AI給出随機結果的無序狀态。
譬如,洞穴、神殿、怪物的巢穴、廢棄的高塔這些元素,是遊戲設計劇本裡本就存在的,但最終取決于玩家怎麼去激活并擷取它,并拿這些元素去創造自己的世界。
當然,更重要的一點是,将一款純粹基于文字的算法應用,進化為一款面向全球遊戲玩家的2D或3D圖像+文字的沙盒遊戲,中間存在一個巨大的經驗與成本鴻溝。
遊戲市場競争激烈程度,即便外行如我也略知一二:
每年有幾萬款遊戲在開發,每天都有幾十款遊戲在測試,而能活下來的可能每年不過數百款,大火的就隻有我們聽過的那幾個了;
此外,企業除了要另組建至少5人以上遊戲開發團隊,還要負擔營運與發行所需的巨額資本。這些都是一家以“自然語言處理技術”發家的應用軟體公司很難承擔的。至少在交流過程中,我并沒有聽到關于團隊的具體規劃細節。
當然,從另一個角度來看,自然語言處理技術依靠的既然是“文字”,那麼彩雲就必然跳不出“文字”設定的商業模式——是以,從“彩雲天氣”、“彩雲小譯”,再到“彩雲小夢”,本質上,都沒有跳出“文字世界”的五指山。
而現有的消費端大趨勢,是以自然語言、圖像、視訊以及元宇宙相關技術所綜合建構的商業模式;單純的文字世界,是否是一種逆向而行?
圖檔來自視覺中國
而打造單純的文字世界,這讓我有種似曾相識的不詳預感:6年來,多少人工智能公司,都試圖用單維技術打開需要綜合素質才能穩赢的競賽大門。
但有一點,我必須承認袁行遠利用AI做遊戲的靈感是有據可尋的——他看到了一個遊戲産業存在多年的弊病:
把文字與圖像僅僅作為遊戲的殼。大多遊戲都在追求把每個人的汗毛畫的非常精細,但他們說出的話卻非常弱智。
“可能開發成本90%都在這上面。然後都是我打你一拳,你不動;你打我一拳,我不動。世界都是圍繞一個固有規則在運轉,遊戲畫面遠超智能度。這個需要自然語言處理技術的提高來改變。”
是以,我們在彼此提出的想法、質疑、反駁與預設中,不斷尋找一個更可行、不全靠想像支撐的商業交叉點——
或許,為更具備綜合能力的遊戲工作室提供API的技術輸出,進行聯合營運,更适合“小而美”的公司。
更重要的是,靠向其他企業輸出API技術的商業模式,在他們推出的第一個成功應用——彩雲天氣上做了有效驗證:90%市面上有“分鐘級降水預報”的應用軟體,都是彩雲天氣提供的相關底層技術。
譬如我們打勞工常用的外賣軟體“餓了麼”,你每次在下雨天,看到外賣小哥在降雨模式下進行派送的頁面,就使用了彩雲的技術。
而至于這樣的單維産品與技術,是否遭遇過大廠圍堵與競品模仿。當然,如今市場上排名第一的某天氣app就“模仿”彩雲,緊随其後釋出了同樣的産品。這讓袁行遠感到既憤怒又無奈。
2017年袁行遠路演時,一個投資人曾站起來用同樣的問題拆台:
“你這算法再牛逼,我不能再花幾千萬做的比你更好,不就幹掉你了嗎?”
而袁行遠的回答倒是有一個技術人的脾氣和尊嚴:
“那你就跟我比一比!”
其實按照我這幾年的觀察,大廠雖然綜合實力極強,但似乎“需要偏寵的孩子”太多,在很多細分垂直領域反倒總也扶不起來。
譬如某遊戲大廠,旗下的AI、自動駕駛還是醫療、半導體項目,說不行就不行,說不要就不要。
是以,對于細分技術“拿來主義”适用于大廠;對于較重的産品模式,小而美的軟體技術創業公司除非有孤注一擲的勇氣、資本鼎力支援與強大執行力,否則我隻見過兩個結局:
與“科技改變人類與生活”相關的嘴炮打得叮咚響,但不願做髒活累活兒,演變成了吃老本和靠山吃飯的“内容創作公司”或房地産公司;
關掉了公司,回學校或回家繼承家業去了。
寫在最後:荒腔走闆的可能性
雖然在交流過程中,我屢次提出對這款程式商業化的質疑與憂慮,但我對袁行遠持有的技術信心,未曾改變。
這首先來自于對彩雲小譯的好感:作為一名每天都會頭秃的文字工作者,這款每月12塊人民币的翻譯插件,友善到可以給我打開難懂晦澀的外文技術文章的些許勇氣。
其次,它還來自于我對中國一批網際網路軟體技術人秉性的信心:無論是否在自由市場,工程師們天生似乎跪服于“絕對實力”——雖然表情總是沒有變化,但嘴裡總會蹦出幾個“幹翻他”的豪言壯志。
這是一種什麼感覺呢?
就像我們在看冬奧會時,為何會面對王濛等名将的“絕對實力”由衷感到傾慕,為何又對中國足球“像山一樣不能被動搖”的垃圾實力而感到心痛?
在技術的世界,每一個人都想挑戰最難的東西,摘下最高處的那顆果實,最終利用這種以技術次元為唯一标準的“絕對實力”,沖出商業重圍。
隻是,我們的确需要讓好技術有一個好殼,以及靠譜的應用方式。
一個爛了,其他就會爛的特别快
實際上,讓我最擔心的,反而不是自然語言處理技術的瓶頸和AI故事續寫的“不賺錢”。
而是,往往人類在尋找商業模式的過程中,到頭來,挖掘出的最容易商業化成功模式,恰恰是一些随着正常産業發展衍生出來的“歪門邪道”。
舉個例子,人臉識别技術從論文走進門禁與閘機,整個過程從來沒有人提過,它能被房産中介用來殺熟,辨識出老客戶以此提高幾十萬房價。
但這種應用不僅發生了,而且仔細想想,這恰恰是2B技術最容易被人買單的商業路徑。
而AI故事續寫會發生什麼呢?
它可能會被應用在教育市場的一些旁門左道生意裡(我本來不想寫出來的)。譬如,“論文幫寫”、“作業代寫”“考試作弊”,甚至加劇“作品抄襲”機率的發生。
其中,國外學術界已經發生了一些對GPT-3引發的學生負面行為的激烈讨論。
但從純銅臭角度來看,這些難道不比“娛樂”和“遊戲開發”更具有讓人買單的剛需性嗎?
希望我的擔心與憂慮,不會因為下次自然語言處理技術突破瓶頸後的爆發,而變成現實。