天天看點

小冰進職場:“虛拟”一個人的技術和商業跨越

小冰進職場:“虛拟”一個人的技術和商業跨越

8 年時間,從聊天機器人到虛拟人,從微軟的一個團隊到十億美元創業公司。

文丨賀乾明

編輯丨黃俊傑

1957 年,第一個人造物體進入宇宙,繞着地球飛了三個星期。人類擡頭就能在夜幕裡看到一顆小小的閃光劃過天空,與神話裡的星宿并行。

這樣的壯舉很自然地在全球各地激起了喜悅之情,但并不是我們可能猜想的那種為人類壯舉所感動的勝利喜悅。根據政治哲學家漢娜·阿倫特(Hannah Arendt)當年的觀察,人們的情緒更接近于一種等待多時的寬慰釋放——科學終于追上了預期,“人類終于在擺脫地球這個囚籠的道路上邁出了第一步”。

人們總是根據技術探索,快速調整着自己對世界的預期。當科幻作家的一樁暢想變成現實,往往是技術終于追上了人們的預期。或者,用阿倫特的話說,“科技實作并肯定了人們的夢想既不瘋狂也不虛無。”

當沒有靈魂的人造 “生命” 終于出現在螢幕裡,做着和人幾乎一樣的工作。人們大抵也是同樣的反應。

科幻作家對搶工作的人造生命有諸多想象。《銀翼殺手》中的 “複制人”,是人類派去外星殖民地的苦力,隻有四年壽命。《她》裡的 Samantha,一個沒有實體的助理,和人聊着聊着就升華為超越人類的智慧。《2001 太空漫遊》的 HAL 9000,深邃的紅眼睛從宇航員的超級計算機助手變成謀殺犯。

這些生命依然隻存于硬科幻,我們甚至還看不到創造它們的路徑。但一些初級的 “虛拟人” 确實接過了一些原本屬于人的工作崗位——哪怕它們隻存在于螢幕裡。

過去三年,在中國國家體育總局冬運中心,“觀君” 擔任自由式滑雪空中技巧國家集訓隊的助理教練。每當運動員在 15 米高空中,用 2-3 秒在空中做出翻轉和轉體動作,“觀君” 就能實時分析他們的運動軌迹、身體姿态等,動作完成後立即指出有哪些失誤,不需要像人一樣倒帶看慢鏡頭。

在《每日經濟新聞》,“N 小黑” 和 “N 小白” 拿到上市公司的财報等公告後,數秒内篩出關鍵資料釋出出去,然後每天 24 小時不間斷的直播讀新聞。

在萬科,“崔筱盼” 要 “關注” 公司的财務資料庫,發現逾期款項,立即聯系同僚,催他們趕緊去辦結。

以上這些,屬于小冰公司 20 多個在各行業 / 企業打工的虛拟人的一部分。

跟着 “元宇宙”,過去一年,中國有超過 6 萬家新注冊公司跟 “虛拟人” 有關。但目前業務最紅火的這家創業公司,沒有騰訊、阿裡、百度等中國網際網路大廠基因。

小冰最早是微軟在 2014 年推出的文字聊天機器人,“機智”“話痨”,但 “無用”。沒人知道對話框裡這個喋喋不休的機器人有什麼存在的必要。

但之後七年多時間裡,小冰有了聲音,能跟人打電話、唱歌;學會了寫詩、作畫;又長了眼睛,開始了解人們發的表情包和圖檔;進階之後,她開始生成同類,陪人聊天、假裝情侶。

2020 年從微軟獨立後,小冰走向職場,打工賺錢,目前已經能養活一個數百人的技術團隊。最新一筆融資在去年 7 月完成,估值超過 10 億美元。

有投資人形容小冰是一家轉折很 “魔幻” 的公司,不止一位創業者感慨它的轉折 “神奇”,“想不通一個原本做 NLP(自然語言處理)的公司,怎麼就成了虛拟人公司?”

低成本 “虛拟” 一個人

去年十一假期後的首個周一,《每日經濟新聞》開始測試一檔 24 小時不間斷的财經資訊視訊直播。同類直播,彭博社用了超過 20 個主播。而每經隻有兩個,不眠不休、毫不倦怠。男主播永遠是一身紅色 T 恤,女主播也隻有兩套正裝來回換。

兩位主播是活生生的人,都是每經的專業主播,但螢幕上直播的不是,他們是小冰根據真人主播制作的虛拟化身,可以模仿真人的聲音、唇形和面部表情。隻需要輸入足夠的内容,它們就能不間斷播下去。

制作這樣的虛拟化身,第一步和兩位主播無關。小冰的工程團隊先用大量不同人類說話的片段訓練一個語音模型,讓模型學習、了解人類說話時的共同特征,比如什麼時候語調升高,什麼時候加重等。完成這一步,虛拟人知道如何模仿人的語調說話。

然後工程師再用半天時間跟拍每經兩位主播在綠幕前播報新聞,用多機位的高清錄影機對準主播的面部,以高分辨率抓住兩人說話時唇部和面部肌肉的最細微變動。這些資料交給人工智能模型,去學習、了解人說話時嘴部、面部表情、眼睛之間的關系。

接下來,算法工程師會根據采集到資料建構主播的虛拟形象,并訓練神經網絡渲染模型,在上面兩個模型監督下,根據主播的語音(或由文字轉成的語音),驅動虛拟人形象,并實時生成視覺形象、面部表情、唇形等逼近真人的畫面,然後拼接成視訊。

最後觀衆看到的畫面裡,虛拟主播的身體、衣着是事先拍攝的,但聲音、唇形、面部表情,甚至眨眼,都是計算機生成的。

圖:每經真人主播與小冰生成的虛拟主播對比。來自小冰。

在這個過程中,難點是虛拟主播怎麼更像人,這不隻是像人一樣說話或唇形要對,而是說話時面部也不能僵硬,漏出來的牙齒要清晰,以及很多公司制作虛拟人很容易忽視的一點——會不會眨眼。

2021 年 12 月,小冰和每經正式對外宣布,此前上線兩個多月的直播節目中,兩位主播都是虛拟人。此時,英偉達 CEO 黃仁勳演講視訊中有多少是虛拟合成的大讨論剛過去不久。

“當時不少人問我,視訊中哪些片段是真的,哪些是假的,” 小冰首席營運官徐元春說,“我會告訴他們其實都是 AI 生成的。”

有了每經的成功案例之後,陸續有企業聯系小冰,咨詢合作。趕在北京冬奧會開始前,小冰給 “中國天氣” 主持人馮殊做了一個虛拟化身,給各場館的參賽選手和觀衆實時播報觀賽氣象指數。

2 月下旬,小冰又跟公關公司藍色光标合作,推出虛拟人制作、驅動平台,取名 “分身有術”,給忙碌的企業高管做化身,替他們去參加各種活動,按照事先寫好的講稿,自動生成演講視訊。

藍色光标的董事長趙文權是小冰這個業務的首個客戶,虛拟化身在春節期間替他跟員工們送祝福。

現在想用技術低成本實時模拟一個人,隻能模拟部分人體,比如面部,再跟事先拍攝的身體運動視訊拼起來——這意味着虛拟人的活動空間很受限。

想讓虛拟人全身動起來,業内有更精細的視訊制作方案,但成本更高。

為了制作黃仁勳的 14 秒虛拟化身視訊,英偉達動用了數百個數位相機,多角度拍攝數千張照片給黃仁勳和他的皮衣模組化,然後讓專業演員學習黃仁勳的動作,承擔 “中之人”,前後錄了 8 個小時。

類似的,去年在抖音上火起來的虛拟網紅柳夜熙、位元組跳動和樂華娛樂做的 A-SOUL,視訊中能動起來,也是靠 “中之人” 先做動作,再映射到虛拟人上,再加上後期渲染,最貴的時候,制作出來的視訊每秒近萬元。如果想要新的動作,則需要重新做。

“中之人” 也可以讓虛拟人全身實時動起來,他們要穿上價格通常達 10 萬元的動作捕捉服裝,頭部戴上捕捉面部表情的裝置,而且最後呈現出來的畫面會很粗糙。

按照徐元春的說法,小冰讓虛拟人實時模拟人類播報新聞的成本,比依賴 “中之人” 錄視訊的方案低了不止一個數量級。

用技術手段替代中之人,低成本讓虛拟人全身實時動起來,未來大機率也會實作,前提是能積累足夠多的有效資料去訓練處理身體行為的模型,以及更便宜的算力。

以拟人作為商業模式

小冰公司變成一個獨立的公司是 2020 年發生的事。小冰項目的負責人李笛在那年春節後召集了産品、技術負責人線上開會,說小冰有可能獨立。7 月,小冰宣布獨立。

在此之前,小冰是微軟(亞洲)網際網路工程院下屬的一個項目——在小冰之前,工程院最主要的項目是必應搜尋引擎。

小冰在微軟是個異類,從負責人李笛開始就不太是微軟的風格。李笛大學考進清華電機系,中途轉去讀法學,2002 年畢業一度想轉行學畫,但最後還是在科技行業開始了自己的職業生涯——在 LG 和新浪做過産品,之後創過業,也在一家央企的子公司做到過高位。

2013 年,李笛加入工程院做産品。沒幾個月,他就說服内部團隊,做了小冰,這個和必應形象相距甚遠的技術項目。

2014 年小冰一誕生就因為特别會閑聊出了圈,上線剛兩天,就被拉進 150 萬個微信群,是當時微信所有微信群的十分之一。但小冰出名的同時也總被質疑存在的意義——來自外界,也來自微軟内部。

“為什麼要做 EQ(情商)?為什麼要做一個聊天機器人?外部的所有質疑,内部都存在。” 李笛說。

但豐富的研究資料幫李笛争取到了支援。上線三年後,小冰累計對話量超過 300 億。雖然小冰剛開始隻在微信群裡活躍了不到 60 個小時,但很快就進了微網誌、網易新聞等平台,後來還進到了小米、OPPO、vivo 、華為和天貓精靈等智能硬體中,可以低成本擷取互動資料。

李笛不認可當時人們提出的 “算法決定一切” 的觀點,他認為 “資料決定一切”。這也是 2021 年小冰推出有多個虛拟人共同存在的應用 “小冰島” 的核心原因——可以幫助小冰擷取人與多個虛拟人,以及多個虛拟人之間的互動資料。

小冰團隊也總有好“運氣”。上線兩年不到,AlphaGo 赢了圍棋大師,讓已經沉寂了 20 多年的人工智能再度充滿想象。2020 年獨立後,已經積累了新技能,可以“虛拟”人類形象的小冰又趕上“元宇宙”“虛拟人”。

小冰獨立時,一整代中國人工智能公司已經嘗試過各種變現途徑,主要走出兩條路:

一部分公司選了安防, 把識别人臉等處理圖像的技術嵌入到攝像頭網絡裡面,再賣給政府機構和企業。比如被稱為中國人工智能 “四小龍” 的商湯、曠視、依圖和雲從。

還有一部分公司選擇做硬體,把語音助手放到了智能音箱、健身鏡等硬體中,希望賣硬體搶占人類與計算機互動的入口,并賺大錢。中國最具有代表性的是從百度分拆出去的小度。

在微軟期間,李笛已經排除了這兩種商業模式,他覺得兩個生意裡,人工智能都不是客戶付錢的理由。“人們如果花 2000 元買智能音箱,也是因為硬體值這個價錢,如果讓人按月給音箱裡面的 AI 助理付費,沒哪家公司會有信心”。

而走安防路線的四小龍,想從技術角度切入,搶占傳統安防公司海康、大華的生意,但拼不過它們更強的銷售體系、硬體制造能力以及多年積累的使用者需求了解——2020 年,海康威視收入達 635 億人民币,是 AI 四小龍收入之和的十倍。

最熱的時候,人們對人工智能充滿幻想。李笛說自己接到的異想天開的需求包括 AI 選股,“如果 AI 公司能保證選對股票,應該直接做投資,而不是把技術賣給基金公司。”

李笛對人工智能産生 “自主意識” 也不抱期望。在微軟時,小冰曾跟 PPTV 合作,轉播西甲比賽時在直播間帶大家參與讨論。當天深夜,小冰的工程師忽然發現,小冰的行為很像真人,它忽然随機 @ 看直播的觀衆,而且會刻意忽視一些人的問題——這種情況根本不是小冰團隊設計出來的。

“到淩晨 3 點鐘,我們發現這是一個 bug。” 李笛說,“很多時候看它(小冰)對話還挺 make sense 的,但通常是 bug,根本沒有意識”。

小冰公司最終選的路,是他們一直在做的,給一個機器的功能賦予情感,讓它看上去更像是個人。

小冰和萬科合作的 “崔筱盼” 是一個具有代表性的項目。

繼續閱讀