天天看點

機緣巧合誕生的訊飛語音輸入法,如何累積了 4 億使用者?

在 10 月 18 日的錘子釋出會上,除焦點 M1L 之外,語音輸入部分驚豔了不少觀衆。

台上的老羅對着手機說出「今天上午,我們一行人從火車站來到了洲際酒店」,被迅速識别轉換成文字出現在手機螢幕上。接着,老羅開始「長時間的胡說八道」,講了一段自己沒吃晚飯不舒服、吃藥、喝冰水、來不及去醫院、直接上釋出會的過程。16 秒不間斷的高語速大段口語内容,不到 1 秒便準确呈現在螢幕上,現場雷鳴般的掌聲和歡呼聲久久不能平息。

機緣巧合誕生的訊飛語音輸入法,如何累積了 4 億使用者?

老羅現場「胡說八道」的内容

老羅的現場示範展示出語音輸入的便捷、可靠與高效。支援這一切的,正是訊飛輸入法的語音輸入功能。自 2010 年釋出以來,訊飛輸入法已累積超 4 億使用者,活躍使用者超 1.1 億。據稱,随着深度學習技術的不斷突破和應用,其語音識别準确率高于 97%,1 分鐘可識别 400 字。

在 11 月 2 日的訊飛輸入法溝通會上,訊飛輸入法産品總監翟吉博分享了訊飛輸入法背後的故事,包括這是一個最初僅 4 人的「小項目」、漣漪效應為這款輸入法帶來的提升、以及他們對輸入法這一産品的思考。

三個月,四個人

2010 年 6 月 8 日,蘋果釋出了擁有「100 多項創新設計」的經典産品 iPhone 4,引發全球排隊購機熱潮。據稱,iPhone4 的全球銷量雖次于諾基亞「神機」1100,但總銷售量也超過 1 億大關。

不過 iPhone 4 螢幕僅為 3.5 英寸。雖說在當時已經算「大屏」,但現在看來也不過是 iPhone7plus 螢幕的二分之一,用全鍵盤打字時仍有不少困難。

既然用手指輸入文字型驗不好,可不可以用語音輸入?當時做語音相關工作的翟吉博「基于純技術的思維,将手寫輸入、語音識别和拼音放在一起,做出了輸入法的 Demo」。雖然自己不以為意,但當時的上司看到成果,認為這個産品應該讓更多人使用。于是技術出身的翟吉博,開始了學習了解市場、分析使用者需求,成為了一名「産品經理」。

機緣巧合誕生的訊飛語音輸入法,如何累積了 4 億使用者?

通過訊飛聽見,嘉賓分享的内容可以實時呈現在螢幕上

2010 年 10 月,在 iPhone4 發售 4 個月後,訊飛輸入法正式上線。6 年積累,曾經由 4 人小團隊封閉 3 個月打造的産品,已經牢牢占據各大應用商店輸入法類下載下傳量第二。

為什麼是訊飛?回想這款輸入法出現的時機,雖然 PC 上已有搜狗輸入法、百度輸入法等相關産品,但移動端市場還處在前期,針對手機端優化的輸入法還是空白。「我們認為手機端的輸入方式會發生變化,語音互動的比重會越來越大。而且語音輸入已經達到可使用的基本門檻,加上對漣漪效應的了解,我們認為通過幾年的時間,訊飛輸入法可以成熟。」

如今的訊飛輸入法團隊成員,最開始多是熱心使用者。曾在論壇裡吐槽功能不好用、給産品經理提建議的粉絲成為了訊飛輸入法的營運經理,機鋒論壇裡做 ROM 的「大神」正在負責起管道推廣。曾在電腦城賣過CD光牒、做過網站,因設計輸入法皮膚獲獎的使用者,也成為了訊飛輸入法的專職皮膚設計師。

如何擷取更多使用者?

滿足了使用的基本需求後,如何讓更多人使用這款産品?

經過細緻的思考和調研,翟吉博團隊發現使用者在使用語音輸入時有四種需求需要被滿足:

首先是網絡,當時的訊飛輸入法需要調用雲端極度依賴網絡,但移動網際網路并不穩定,使用者對流量也很敏感;其次是方言,不同方言區的使用者的特殊詞難以被識别;再其次是個性化語言,不同的人有不同的語言習慣、說話方式和自己的慣用詞彙;最後是跨語言交流,讓不同語言的人可以通過文字互相了解,友善溝通。

通過推出離線版、方言版、學習個人習慣和中英文實時翻譯等版本和功能,訊飛輸入法不斷滿足着這些需求。目前訊飛輸入法支援包括粵語、東北話、河南話、四川話能在内近 20 種方言,「秃噜皮兒」、「辣子」等名詞都能被迅速識别;選擇中英文翻譯功能,對準話筒說中文,螢幕上會自動翻譯為英文。

機緣巧合誕生的訊飛語音輸入法,如何累積了 4 億使用者?

産品總監翟吉博現場展示方言版效果,「巴适」、「馬路牙子」都能識别出來

除此之外,為滿足明星粉絲使用者的需求,推出了明星皮膚和圖檔;為滿足二次元使用者,可以用訊飛輸入法上輕松打出顔文字,甚至還有鬥圖功能……

這大概是對使用者最友好的輸入法了。作為高依賴度的工具類産品,獲得 4 億累計使用者,1.1 億活躍使用者似乎也就不足為奇。

為什麼識别得快又準?

世界上最早的語音識别系統是由 AT&T 貝爾實驗室開發的 Audrey,可以識别 10 個英文數字。到了 1960 年代,人工神經網絡被引入語音識别,兩大突破是線性預測編碼(Linear Predictive Coding,LPC) 與動态時間彎折(Dynamic Time Warp),不過大都是基于單詞、孤立詞或是特例人的研究。上世紀 80 年代末,李開複實作了基于隐馬爾科夫模型的大詞彙量語音識别系統 Sphinx,才完成了語音識别向随機内容、非特例人的句子識别的轉變。

直到 2010 年,深度神經網絡技術開始應用于語音識别,識别的效果和速度才得到了跨越式的提升。通過海量訓練語料基礎上的高精度聲學模型和語言模型訓練,結合解碼引擎工程技術,人工智能技術的加入給語音識别帶來全新的發展前景。

機緣巧合誕生的訊飛語音輸入法,如何累積了 4 億使用者?

主流語音識别系統架構

不過僅有核心技術的提升是不夠的,對于深度神經網絡來說,真實的資料就是養料和智慧。科大訊飛輪值總裁胡郁曾用「漣漪效應」解釋過資料和技術應用的關系:當某一項核心技術剛剛被大衆所使用時,就像一滴水滴入水面,水波紋的起伏就是核心技術與使用者期望之間的誤差。水波紋逐漸傳播,就像核心技術正在逐漸被更多的使用者所使用,雖然這時效果還不太好,接觸到的使用者也不多,但這些使用者不知不覺中貢獻的經驗和資料已經被系統自動學習和更新。當水波紋向外擴散,接下來接觸到核心技術的人已經在使用更新過的系統。随着使用的人群越來越多,水波紋擴散的越來越廣,大家會發現其實水波的振幅也越來越小,系統的性能也大幅提高。

正是 6 年間使用者不斷的貢獻真實資料,才讓訊飛輸入法達到了「語音輸入通用識别率為 97%,正常的語音輸入文字已經不再有很大障礙」的程度,使用者體驗也在這一過程中逐漸提升。

除了語音識别,訊飛輸入法的手寫識别部分也用到了神經網絡和圖像識别技術,還可以支援連續書寫的文字識别。

在這樣一個「低頭時代」,又會有多少人選擇語音輸入?

答案可能遠比想象的多。訊飛輸入法背景資料顯示,雖不是主要輸入手段,語音輸入的使用者比例一直在提升,已經接近手寫輸入的比例。在這個追逐效率的時代,選擇語音輸入的使用者大概會越來越多。

以及,如果真的很忙來不及發文字,可以考慮試一試語音輸入。畢竟在微信上收五條 60 秒語音的經曆,有過一次就不想再有一次啦。

©本文由機器之心原創,轉載請聯系本公衆号獲得授權。

繼續閱讀