天天看點

開放下載下傳!《阿裡語音與信号處理技術》精選集

據說,一位阿裡員工買了天貓精靈給家中老父聽相聲,回家一看,老父竟然把天貓精靈綁在了牛棚裡?!

老父說:“放在牛棚,開燈友善,還能随時給牛聽音樂。”據說聽了音樂的牛,長得更肥了。

智能音箱為什麼能掀起一場購買熱潮?正是因為,它能聽,能看,能說,能感覺,人機互動成為未來的一個趨勢,而支撐這一切的正是語音技術。

不管是語音文書速記、線上購物、兒童教育或者是智能家居,它正在讓生活變得更加便捷、智能以及富有趣味,甚至離不開。為了幫助更多技術人深入了解AI語音的落地實踐,阿裡技術釋出《阿裡機器智能:語音與信号處理技術精選專輯》電子書。這本書共計五篇内容,分别涵蓋了語音識别、語音合成以及情感識别三個語音技術領域的重要方向。

開放下載下傳!《阿裡語音與信号處理技術》精選集

點此下載下傳:

https://yq.aliyun.com/download/3588

為什麼建議你閱讀本書?

離開具體問題,談方法論隻能得到一堆空洞而無用的原理。隻有在真實的案例中,發現問題,理清思路,解決問題,總結方法,才能将經驗完美地内化,成為自我成長和專業精進的養料。本書包含五篇論文,每篇論文都提出了具體問題以及解決方法,相信能夠在最短的時間内,幫助你建立語音技術架構,了解相關原理。

本書的五篇論文皆被 ICASSP2018 收錄,保證了内容的優質性。ICASSP 是國際語音領域最著名、影響力最大的學術會議之一,側重聲學、語音信号以及語音模組化相關的學術讨論,包含了語音技術相關的各個方面,堪稱國際語音行業的一個年度盛會。

開放下載下傳!《阿裡語音與信号處理技術》精選集

本書目錄

該書有哪些精彩幹貨?

《基于深層前饋序列記憶網絡,如何将語音合成速度提升四倍?》中,作者提出了一種基于深度前饋序列記憶網絡的語音合成系統,該系統在達到與基于雙向長短時記憶單元的語音合成系統一緻的主觀聽感的同時,模型大小隻有後者的四分之一,且合成速度是後者的四倍,非常适合于對記憶體占用和計算效率非常敏感的端上産品環境。

《為了更精确的情感識别,A-LSTM 出現了》中,作者針對 LSTM 時間依賴局限性問題,提出了進階長短期記憶網絡(advanced LSTM (A-LSTM))模型,利用線性組合,将若幹時間點的本層狀态都結合起來,以打破傳統 LSTM 的這種局限性。在這篇文章中,我們将 A-LSTM 應用于情感識别中。實驗結果顯示,與應用傳統 LSTM 的系統相比,應用了 A-LSTM 的系統能相對提高5.5%的識别率。

《為了讓機器聽懂“長篇大論”,阿裡工程師建構了新模型》中,作者提出了一種改進的前饋序列記憶神經網絡結構,稱之為深層前饋序列記憶神經網絡(DFSMN),進一步地将深層前饋序列記憶神經網絡和低幀率(LFR)技術相結合建構了 LFR-DFSMN 語音識别聲學模型。該模型在大詞彙量的英文識别和中文識别任務上都可以取得相比于目前最流行的基于長短時記憶單元的雙向循環神經網絡(BLSTM)的識别系統顯著的性能提升。而且 LFR-DFSMN 在訓練速度,模型參數量,解碼速度,而且模型的延時上相比于 BLSTM 都具有明顯的優勢。

《示範了200句後,我的聲音“雙胞胎”誕生了!》中,作者提出了基于線性網絡的語音合成說話人自适應算法,該算法對每個說話人學習特定的線性網絡,進而獲得屬于目标說話人的聲學模型,通過該算法,使用 200 句目标說話人的自适應語料訓練的說話人自适應系統能夠獲得和使用 1000 句訓練的說話人相關系統相近的合成效果。

《朋友,我能分享你的喜怒嗎?阿裡語音情感識别架構揭秘》中,作者提出了一套包含多個子系統的複合情感識别架構。這一架構會深入挖掘輸入語音中與情感相關的各個方面的資訊,進而提高系統的頑健性。

近年來,語音領域的相關産品問題随之暴露和慢慢地被解決,整個語音技術已經逐漸走到了實際應用的階段,越來越多的語音裝置産品問世和火爆也說明了這一點。希望通過本書,能和學術界、工業界更多的同行共同探讨、共同進步,衷心地希望語音技術繼續百家争鳴、百花齊放,早日把靠譜的語音互動能力帶到各行各業、帶進千家萬戶,真正地幫助到人們的工作和生活!

原文釋出時間為: 2019-06-05

本文作者: 與你共進步的

本文來自雲栖社群合作夥伴“

阿裡技術

”,了解相關資訊可以關注“

”。

繼續閱讀