背 景
随着深度學習技術的興起,人們已經看到了 AI 在感覺識别層面如語音、視覺等領域取得的驚人成果,AI 智能語音技術也正在快速走向實用。搜狗近年來一直在 AI 領域持續布局,語音識别在搜狗輸入法的大規模應用也呈現出漸行漸好的趨勢。
借此契機,陳偉于 2012 年 8 月加入搜狗,負責帶領搜狗 AI 互動技術團隊,圍繞搜狗“自然互動 + 知識計算”的 AI 戰略,重點布局搜狗多模态人機互動技術的研發和産品化工作,研究的領域覆寫了多模态人機互動系統的各項技術,同時重點研究如何結合感覺和認知方向的技術打造出自然的人機互動體驗,期間還帶領團隊研發了搜狗分身、機器同傳、個性化合成、變聲等前沿性的 AI 創新能力,目前研發的技術重點服務于搜狗的輸入法、搜尋、AI 硬體等核心産品,同時也在以搜狗 AI 開放平台的方式對外輸出。
搜狗 AI 互動技術的發展曆程
近年來,搜狗在智能語音互動上取得了一定成績,在車載、智能家居、可穿戴移動裝置上都有規模化落地。但在智能語音互動技術的推進過程中,搜狗也是在不斷的嘗試和探索中蜿蜒前行。
通常,語音錄入和轉寫的準确率要依賴于真實場景而定,受限于噪聲、口音、講話方式等因素的影響,準确率會有一定的差異。但是目前搜狗在轉寫上已經具備了較強的魯棒性,針對不同場景的識别效果波動性已經有明顯減小。廣義的語音識别不僅限于内容的識别,還包括了語音分析等核心技術,例如搜狗的同傳 3.0 技術以“多模态”和“自主學習“為核心,加入視覺 (OCR) 和思維能力(知識圖譜),讓機器同傳不僅會聽,還首次具備了會看、能了解會推理的能力。
在采訪中,陳偉表示,搜狗在智能語音互動技術的發展,主要分為以下幾個階段:
1、語音搜尋階段
語音搜尋友善了使用者在搜狗搜尋上快捷的檢索,早期識别準确率不夠高,但是搜尋可以傳回多個檢索結果,很大程度可以降低識别錯誤帶來的影響。目前搜狗識别準确率已經達到較高的水準,搜狗搜尋已經可以根據使用者語音搜尋請求直接給出答案,使用者體驗感有了較大提升。
2、語音輸入階段
搜狗語音輸入能幫助使用者更高效、快捷地輸入内容,語音輸入的最高輸出效率目前能達到每分鐘 300~400 個字,特别是伴随着資料、算法和算力的不斷提升,語音輸入識别準确率也得到了大幅提升,近幾年,搜狗每年的識别字錯誤率都能保持 30% 以上的下降,語音輸入的日 PV 已經達到 10 億 +。但是,快速發展的背後也讓搜狗發現通用的語音輸入無法解決使用者個性詞的識别,比如通訊錄、工作領域的詞彙等,是以去年搜狗釋出了個性化語音識别能力,能夠基于使用者在搜狗輸入法的使用者詞庫,實時優化語音識别效果,針對個性化詞的識别錯誤率下降了 40%。
3、語音翻譯階段
語音翻譯能夠友善使用者進行實時跨語言的交流,結合搜狗在語音識别、機器翻譯、語音合成領域的技術積累,2016 年搜狗推出了首款商用 AI 同傳系統—搜狗同傳,能夠實時檢視或收聽同傳譯文,目前已經支援了大會演講、線上直播、遠端會議等多個場景,同時在輸入法、錄音筆等産品上也上線了同傳的功能。此外,搜狗還推出了搜狗翻譯機,這是業内較早地将語音翻譯能力進行離線化的嘗試,不聯網也可以實時進行跨語言交流。産品背後,是搜狗智能語音團隊在模型壓縮、低算力推理、知識提純等方面的不斷探索。
4、語音互動階段
2011 年的 Siri 和 2014 年的 Ehco 有效推動了語音助手類産品的快速成熟,也帶動了國内一大批語音互動類産品的釋出。在通用語音互動上的研發過程中,研究團隊逐漸發現目前智能語音互動的産品,核心在于對話能力仍無法滿足使用者的預期,無法做到自然地對話。是以,搜狗 AI 團隊的研究重點主要放在了面向于垂直剛需場景的任務型對話研究上,語音互動側重于車載、智能家居、可穿戴移動裝置等領域,提供全雙工的語音互動能力,并在 2016 年釋出了自有的語音互動 VUI- 知音 OS。
5、多模态互動階段
搜狗的人機互動主張是自然互動,如何做到自然互動,搜狗認為這一問題的答案,一定是多模态互動。不局限于語音,而是語言、視覺等多種模态資訊相結合,共同提升互動體驗。是以,搜狗在多模态感覺、多模态人機互動、多模态表達等方向都在持續研發,特别是其釋出的搜狗分身,實作了以數字人的形象和人進行對話和互動,形成了搜狗在互動領域最具差異化和代表性的互動産品。
結 語
據陳偉介紹,未來 AI 語音互動産品将會走向多模态,搜狗同傳也不例外。就搜狗同傳産品而言,在經過多重“感官”的調用後,搜狗同傳不僅可以做到翻譯更加快速和準确,而且會更加自然、專業、智能。資料顯示,在“聽”“看”“思考”三位一體的作用下,搜狗多模态同傳系統針對 PPT 内容的識别準确率提升 21.7%,翻譯正确率提升 40.3%。