今日淩晨,Facebook AI研究中心宣布開源語音識别工具包wav2letter!這是一款簡單高效的端到端自動語音識别(ASR)系統,wav2letter 實作的是論文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 中提出的架構。
16年11月,Facebook的三位研究者Ronan Collobert, Christian Puhrsch, Gabriel Synnaeve在arXiv.org上釋出文章,正式提出了wav2letter。
文章中研究者介紹,這是一個簡單的端到端語音識别模型,結合了基于卷積網絡的聲學模型和圖解碼。其被訓練輸出文字,轉錄語音,而無需強制對齊音素。wav2letter還引入了一個自動的序列标注訓練分割準則,而不需要與CTC一緻的對齊方式,這種方式更簡單。
項目代碼已經釋出至GitHub,如果你想直接開始進行語音轉錄,你可以使用同時被開源的預訓練好的一些模型,前提是完成必要的安裝。當然,目前能識别的隻有英文語音哦!
開源代碼GitHub連結:
https://github.com/facebookresearch/wav2letter
論文arXiv連結:
https://arxiv.org/abs/1609.03193
Facebook也釋出了公開信介紹這一開源項目,包括該項目主要負責人Ronan Collobert、Facebook AI研究中心負責人Yann Lecan等在内的研究者都在推特上介紹了這一釋出。
文摘菌摘錄了部分公開信内容如下:
我們剛剛開源我們的語音識别工具:wav2letter!
代碼位址:
https://github.com/facebookresearch/wav2letter
我們将其與在LibriSpeech語料庫中預先訓練的一些模型一起釋出,支援我們的最新論文Letter-Based Speech Recognition with Gated ConvNets。
wav2letter是在Torch上編寫的一個簡單的工具包,簡化了對端到端語音識别系統的訓練,并提供了一個允許快速解碼的獨立解碼器。
它使我們能夠複現我們最近的3篇論文(詳見參考資料)。
敬請期待我們的更多研究。
Gabriel Synnaeve,Vitaliy Liptchinsky,Neil Zeghidour和Christian Puhrsch。
更多參考資料:
語料庫 LibriSpeech。
http://www.openslr.org/12
論文 Letter-Based Speech Recognition with Gated ConvNets。
https://arxiv.org/abs/1712.09444
論文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System。
https://arxiv.org/abs/1609.03193
論文 Learning Filterbanks from Raw Speech for Phone Recognition。
https://arxiv.org/abs/1711.01161