快訊 | Facebook開源語音識别工具包wav2letter

今日淩晨，Facebook AI研究中心宣布開源語音識别工具包wav2letter！這是一款簡單高效的端到端自動語音識别（ASR）系統，wav2letter 實作的是論文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 中提出的架構。

16年11月，Facebook的三位研究者Ronan Collobert, Christian Puhrsch, Gabriel Synnaeve在arXiv.org上釋出文章，正式提出了wav2letter。

文章中研究者介紹，這是一個簡單的端到端語音識别模型，結合了基于卷積網絡的聲學模型和圖解碼。其被訓練輸出文字，轉錄語音，而無需強制對齊音素。wav2letter還引入了一個自動的序列标注訓練分割準則，而不需要與CTC一緻的對齊方式，這種方式更簡單。

項目代碼已經釋出至GitHub，如果你想直接開始進行語音轉錄，你可以使用同時被開源的預訓練好的一些模型，前提是完成必要的安裝。當然，目前能識别的隻有英文語音哦！

開源代碼GitHub連結：

https://github.com/facebookresearch/wav2letter

論文arXiv連結：

https://arxiv.org/abs/1609.03193

Facebook也釋出了公開信介紹這一開源項目，包括該項目主要負責人Ronan Collobert、Facebook AI研究中心負責人Yann Lecan等在内的研究者都在推特上介紹了這一釋出。

文摘菌摘錄了部分公開信内容如下：

我們剛剛開源我們的語音識别工具：wav2letter！

代碼位址：

https://github.com/facebookresearch/wav2letter

我們将其與在LibriSpeech語料庫中預先訓練的一些模型一起釋出，支援我們的最新論文Letter-Based Speech Recognition with Gated ConvNets。

wav2letter是在Torch上編寫的一個簡單的工具包，簡化了對端到端語音識别系統的訓練，并提供了一個允許快速解碼的獨立解碼器。

它使我們能夠複現我們最近的3篇論文（詳見參考資料）。

敬請期待我們的更多研究。

Gabriel Synnaeve，Vitaliy Liptchinsky，Neil Zeghidour和Christian Puhrsch。

更多參考資料：

語料庫 LibriSpeech。

http://www.openslr.org/12

論文 Letter-Based Speech Recognition with Gated ConvNets。

https://arxiv.org/abs/1712.09444

論文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System。

https://arxiv.org/abs/1609.03193

論文 Learning Filterbanks from Raw Speech for Phone Recognition。

https://arxiv.org/abs/1711.01161