人工智能時代，語音技術怎麼賺錢？

雷鋒網(公衆号：雷鋒網)按：本文由deeperblue釋出于雷鋒網。轉載請聯系授權，不得删減内容。

半個月前的錘子手機釋出會讓全國人民（包括我媽）知道了一家叫科大訊飛的公司，以及語音智能這件事。我沒有在現場。據說老羅向觀衆們介紹了錘子的主要合作夥伴科大訊飛的一款産品——訊飛輸入法。老羅用很快的語速說出一大段長文字，訊飛做到了無時差翻出文字版本，并且識别結果幾乎沒有任何偏差，堪稱完美，現場一片歡呼。訊飛輸入法支援 19 種方言輸入，相比蘋果的 siri，以及微軟的 cortana，訊飛輸入法顯然在本土化上占盡優勢。訊飛輸入法背後的公司叫科大訊飛，是目前國内最大的智能語音技術提供商。第二天，科大訊飛的股價在開盤點迎來了新高。鑒于從 2008 年科大訊飛上市開始股價表現平平，不少人表示終于熬到了可以套現的時刻。除了訊飛，國内在近幾年内崛起了一連串緻力于智能語音的創新公司，典型代表有思必馳、聲智科技，以及雲知聲。人工智能時代來臨，語音技術公司的春天又來了。圍繞 ai 的創業團隊如雨後春筍，智能語音技術的應用成為它們打開市場的首要選擇，幾乎每個月都會有數款語音互動機器人釋出。除了硬體，語音服務平台也迅速被建立。鍵盤作為輸入系統即将被停留在上個時代，人類将用語言和機器進行互動。智能家居和車載成為語音産業最集中的領地，也即将誕生出爆發市場。然而，高新技術怎麼賺錢、做什麼賺錢，是一個永恒的話題。事實上，熱炒的訊飛輸入法、訊飛語點以及訊飛語音雲，僅占訊飛的總營收 3% 左右，收入不足千萬。道聽途說的還有一件事，科大訊飛每年 20 多億的收入，其中絕大多數來源于鋪網線和做教育工程的內建，并非是高精尖的智能語音技術。上個月，在深圳舉辦的一場小型内部智能語音研讨會上，思必馳副總裁、聲智科技創始人，以及來自峰瑞資本、祥峰投資的兩位關注人工智能的早期投資人進行了關于“語音技術如何賺錢”的話題讨論。恰好我在現場，覺得說得非常不錯，有些段落簡直堪稱精彩。于是要來了錄音記錄和版權，分享給大家。這裡也許有你想要聽的實話、真話。

以上内容來自deeperblue季星。

（參與研讨的嘉賓）

2012 年智能手機出現後，短短幾年内，國内就湧現了一大批語音相關的公司，像雲知聲、思必馳、科大訊飛，發展都非常迅速，很快進入了公衆的視野。這也得益于手機這個智能終端的發展，使得語音成為手機上的一個重要應用。

而在 2015 年，我們依然認為語音是一個非常好的投資機會。原因有以下兩點：首先，雖然在過去的兩到三年裡，人工智能的發展使得語音技術取得了很大進步，但我們發現實際準确率仍然不夠高——雖然大家根據實驗資料進行宣傳，說準确率達到了 95% 以上或者更高，但實際情況是，在實際使用時并沒有那麼高。

抛開算法和技術方面不談，前端的很多問題我們還沒有解決。我打個最簡單的比方：過去我們讨論的語音識别技術，有點像人類的大腦——在聽到聲音之後，我們如何進行翻譯，或是怎樣把它變成大腦可以了解的資訊。但實際上，關于耳朵的問題我們還沒有解決——如何排除噪聲幹擾？如何在多人講話的時候會聽清想聽的内容？如何在距離較遠時分别聲音的方位？前端的語音/聲學互動的很多問題如果得不到解決，整體的體驗始終不夠好。

第二點，從資料上看，蘋果上語音搜尋的使用率其實并沒有那麼高，原因在于，手機雖然不是鍵盤的，但觸屏的體驗還是很好的。發展的前景在于智能硬體：在手機之後，大量智能終端的爆發，包括家居、車載、可穿戴裝置、機器人等，這些智能終端上的鍵盤——或者說手指就變得更加不重要以及不友好，而語音則變得更加友好和重要。

思必馳語音智能後視鏡，駕駛員在跟機器交流的時候，可以随時打斷機器的說話，讓他去執行其他任務，讓機器做你臨時想做的事情。可以解放雙手，讓駕駛更安全。

基于以上兩點，我們認為，語音技術還會有更多發展和進步。

關于語音技術，大家其實一直都面臨一個問題，就是怎麼賺錢？科大訊飛 20 多億的收入，其中絕大多數是鋪網線和做項目工程，前沿科技類的東西其實是沒有賺到錢的。

線上上，我們本來可以提供 api 賺錢，但後來百度免費了，那其他人也隻能免費了。做 app 去對接服務，大家會覺得手機上的使用者習慣、行為習慣還沒建立起來。是以我想問就這個很實際的問題聽聽大家怎麼看。

這個問題很好，也很難回答。對思必馳來說，我們現在是在考慮怎樣把錢燒掉，并沒有考慮怎麼賺錢這件事，這件事情确實是比較難。

現在其實大家能夠看到，從 pc 和網際網路到移動網際網路、再到其他，語音很可能是一個方向。語音作為一個便捷的互動方式之一，随着智能硬體裝置的疊代更新，它有可能會成為替代觸屏的互動模式。這也是為什麼資本和技術都聚焦在這一塊，使得人工智能的一個小春天在寒冬中誕生。

賺錢這件事情，目前我們确實看不清。

但是圍繞着這個方向，我們可以看到一些大方向：一個是核心技術以及産品體驗的提升，這是必須要做的。第二個則是，我相信大部分公司，在未來肯定會有一筆相對不多也不少的技術授權費之類，雖然這部分不足以滿足資本需求。

然而我仍舊相信，未來無論是 2c 也好、2b 也好，在這個環節上大家都在探索。這條路徑是曲折的，但方向一定是正确的。

我先簡單介紹一下祥峰投資，我們是新加坡淡馬錫旗下的 vc，主要關注消費和技術領域的中早期投資，在人工智能方向投資了地平線、maxent 等。下面我從投資方的角度簡單談一些看法。

要看怎麼賺錢，最主要的是找到需求在哪。在看了這麼多創業項目後，我們會思考在中國的消費生态下，那些賺錢的公司是怎麼來的？其實核心是抓住使用者的真正的需求點，從需求點出發，考慮怎麼樣去做産品，然後追溯到你的上遊，再到頂層甚至是晶片，找到哪裡有機會。

首先，在手機端，語音作為輸入方式是有需求的，但剛才大家都說，現在如今隻是在手機上做一個語音識别的技術，提供一個輸入的方式，希望通過輸入法建立 app 來收費，顯然這在今天已經是不太可能的事情了——現在，沒有一個類似百度輸入法這樣鍵盤輸入的 app 還是收費的。

即便語音是不一樣的輸入方式，但想要收費還是很困難的，特别是當大佬們都已經在做的時候了。這個時候，就要找到一個需求場景，并且上面沒有其他方案可以和你競争——一個語音可以扮演重要角色的場景。

比如智能家居中的音箱，就是一個很好的例子：你不可能在音箱上去觸摸，也很難用其他鍵盤去輸入。是以，如果你找到一個和音箱産生互動的方式，那麼顯而易見你就是最好的，因為沒有其他強有力的替代者。

再說汽車。其實汽車裡面，多年來大家使用的旋鈕、按鍵，本身是一個非常好的人機互動方式——它未必比語音輸入的效率低，反而效果很好，因為你可以做到盲操作。設想一下，在車裡面我要換電台的時候，我不用看中控，就可以摸到旋鈕去操作，或者在方向牌上有一個旋轉的輪子，可以讓我調整音量之類，這已經是最好的人機互動方式了，而通過語音增大音量或是切換頻率，則未必能更加直接和準确。

但是，在車中還有很多旋鈕無法解決的其他需求。比如。後排的一客需要和車發生互動——現在很多車都有後排獨立的空調系統，當乘客覺得後排的溫度太低了，希望空調調高一點的時候，現在的情況是隻能讓駕駛者把後排的空調調一調，或者後排有自己調整的方式，但它未必是自動的方式。

如果能夠做到，通過一個很好的語音識别的陣列工具，很好的分辨出不同乘客的方位，到底是在主駕、副駕，還是後排的左邊或右邊，根據他們發出的語音指令滿足不同人的需求，就能産生一種新的互動方式。除了空調，還有的需求比如切換一個電台、換一首歌，等等。

那麼從産業鍊上遊來看，這麼多年，晶片一直都是一個可以賺錢的事情。在語音識别這一塊，做語音的處理晶片，比如 iphone 使用的 cirrus logic，在語音處理這一塊的算法做得非常好，它解決了語音降噪、方位識别上的關鍵問題。有了晶片作為載體，就可以基于傳統晶片的商業模式去掙錢。

cirrus logic 推出的 cs44130 可以為整個音頻信号鍊提供晶片,包括模拟或、數字輸入和揚聲器喇叭輸出之間的各個部分。它精小的設計可以大大簡化産品的設計。

往下走，在晶片的下遊，子產品也有賺錢的機會，就像今天聲智科技在做的事情一樣。如今的産業鍊分工是非常細的，很難再有像過去的飛利浦、西門子這樣的大公司，核心的部件、全器件的研發，一直到最終的産品都是由一家公司來做。在分工很細的情況下，晶片公司不可能再去做一個産品，也很難再去做一個子產品，中間其實需要的是一個做陣列的公司：把産品以一個子產品的形式提供，同時不僅僅做一個 pcb 闆把晶片放上去，而是把算法結合在裡面，展現出附加值。

最後，生産使用者真正使用的一些産品也有賺錢的機會。比如類似于 echo 這樣的終端産品，京東和訊飛也在做，之前也有一些創業公司在做。不過，真正有機會的創業公司是能夠去開拓一個新的市場領域的。就音箱來說，這是一個長期存在的行業和産品，那麼，可不可以創造出一個新的産品形态？在這方面，創業公司往往擁有更大的機會，比如大疆在無人機領域能做到今天的體量，是因為它完全開創了一個新的産品品類。

圖為 echo dot，它的場景就不是用來聽歌的，而是一個語音助理。

比如說機器人，雖然現在大家還沒有普遍使用機器人，但是它一定是一個趨勢性、未來性的東西。在家庭場景中，使用最為廣泛的其實是掃地機器人。很多人買了一段時間就未必再用掃地機器人了，其中有各種各樣的原因，可能掃得不夠幹淨，也有它不夠智能的原因——它是在完全沒有規劃路徑地在亂掃。如果現在我們能夠加入更多智能的東西，包括語音的互動，它就有可能成一個真正的智能機器人。你可以呼喚它：“掃地機器人，到我這裡來，把這個房間打掃一下。” 而不是拿一個搖控器操作，或者走過去把它提過來。你的聲音傳遞給他，他就知道你的方位，就會自動朝你的方向走，這也是一個可以提升使用者體驗的方向。

為什麼會說語音技術賺不到錢？其實是一開始沒搭建好商業模式。剛開始提供雲識别，是 to vc 的模式，強調的是公司的品牌影響力。那一旦開了免費的口子，之後就無法再收費了。

我們現在希望能先把 “蛋糕做大了”，之後怎麼分蛋糕大家再商量。但現在整個市場還沒有起來，所有做語音技術的都在燒錢。

聲智科技的起步有點特殊：它一開始就做硬體，大家看到很多的展示的産品，有我們授權的，也有我們自己的，都可以讓我們從硬體中直接得到收入，相對來說，我們最初的商業模式是非常簡單的。

圖為聲智科技的主要産品方向

但就像剛才我說過的一樣，這個是有問題的。光看硬體，是不足以吸引公司對我們的定義産生了解的，我們很難再做一個大規模的公司，這個時候，我們對硬體加軟體後端的了解就和訊飛産生了一些差異，我們并不把語音互動隻看作一個輸入法，也就是說，我們把它定義為類似于其他的操作方式的更新。我們把它看作搜尋的更新，也就是讓語音互動可能成為下一代的搜尋。而我們現在做的是現代搜尋的一個入口，有點像以前的浏覽器和後面的百度、谷歌之類。可能我說得比較大一點，就是将我們原先的互動方式更新。

我們回想一下，在 pc 端時代，我們用得比較多的是谷歌和百度。那個時候，我們要打開浏覽器、輸入内容，再去查找網頁，但是到了移動互聯時代，用手機時我們會發現，在手機上，我們很少去打開一個浏覽器，打開百度、谷歌，再去搜尋内容，至少頻次明顯比原先在 pc 上的頻率小很多。現在，我們已經更習慣打開 app ——實際上，通過 app 的形式，搜尋已經被折疊化了。

我們現在知道，谷歌和亞馬遜對智能音箱很感興趣。提到智能音箱，我們又會發現，當我們面對沒有螢幕的音響是，你就不會去輸入或者打開 app 了——也就是把搜尋進一步折疊了，折疊的結果是，你去直接問它，這個效率明顯比前兩個的效率更高。實際上，這些都是由人性決定的——人的本性就是，喜歡向着簡單、高效去發展。

這個時候我們會發現，語音會改變未來搜尋的狀态：現在的小朋友如果适應了智能音響的互動方式，很多時候他就會直接提問，而不是打開 app，或者像 pc 時代一樣，輸入很多需要查找的資訊。

電影《 her 》的海報，電影中的主角愛上了他的智能裝置——一個來自語音識别系統中的聲音。電影預言：在未來，人們都離不開基于語音識别技術的智能系統。

我們現在有一些微薄的收入，但是以後我們在裡面怎樣能夠産生更好的方式，對我們來說，就是硬體+晶片，這在以後會産生更好的營收。移動端有很多 ap、很多的巨頭，但是這到底能産生一種什麼樣的新的商業模式，可能還都是在探讨和摸索中。

現在很多巨頭，不用考慮營收，是以它們會盡量去做。對我們來說，隻能先有硬體，然後下一步加輕量的方式，維持公司正常的商業運轉，然後下一步，看看會不會像我們預想的一樣，語音能夠下一代的搜尋入口、甚至發生入口大戰，然後形成新的商業模式，能夠改變我們很多的行為習慣。這就需要各方面去探讨和摸索，甚至還會掉進很多坑。

我相信第一波會有很多家公司做進去，因為大家經常說，第二波公司會做得很好，每個時代的發展都經常出現這樣的情況。關于定位，我們也不敢說什麼，隻是先給大家提供完整的解決方案，不管是機器人、智能音響、車載，我們都更希望，大家共同開拓這個市場。同時，我們本身也是非常開放合作的。

注：本文來自微信公号深藍deeperbule（id：depperbluetech），轉載可聯系深小藍（id：minideeperbule）。

本文作者：deeperblue

人工智能時代，語音技術怎麼賺錢？

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普