羿閣發自凹非寺

量子位 | 公衆号 QbitAI

逼近人類水準的語音識别系統來了？

沒錯，OpenAI新開源了一個名為「Whisper」的新語音識别系統，據稱在英文語音識别方面擁有接近人類水準的魯棒性和準确性！

不僅如此，對于不同口音、專業術語的識别效果也是杠杠的！

一經釋出就在推特上收獲4800+點贊，1000+轉發。

網友們紛紛對它意料之外的強大功能表示驚訝。

不僅是英文，有人用法國詩人波德萊爾的《惡之花》進行了語音測試，得到的文本幾乎與原文一緻。

OpenAI聯合創始人&首席科學家Ilya Sutskever就表示：

終于有一個靠譜的語音識别系統能聽懂我的口音了。

前任特斯拉人工智能總監Andrej Karpathy甚至轉發評論：OpenAI正處于最好的狀态中。

話不多說，讓我們看看這個被“好評如潮”的語音系統究竟是怎麼回事。

逼近人類水準的語音識别系統

首先，Whisper最大特點是它使用的超大規模訓練集：

它使用從網絡上收集的68萬小時的多語言、多任務監督資料進行訓練。

這導緻資料集的内容非常多元化，涵蓋了許多不同環境、不同錄音裝置下、不同語言的音頻。

具體而言，65%(438218小時)是英語音頻和比對的英國文本，大約18%(125739小時)是非英語音頻和英國文本，而最後17%(117113小時)則是非英語音頻和相應的文本。

其中，非英語部分共包含98種不同語言。

不過，雖然音頻品質的多樣性可以幫助提高訓練模型的魯棒性，但轉錄文本品質的多樣性并不是同樣有益的。

初步檢查顯示，原始資料集中有大量不合格的、現有自動語音識别(ASR)系統生成的轉錄文本。

而以往的研究表明，在人工和機器混合生成的資料集上進行訓練，會顯著損害翻譯系統的性能。

為了解決這個問題，研究團隊開發了幾種自動過濾方法來識别和删除低品質的資料源。

但值得一提的是，沒有說話内容的片段會被留下，作為語音活動檢測的訓練資料。

其次，Whisper體系結構是一種簡單的端到端方法，具體來說就是Transformer的編碼器-解碼器格式。

輸入音頻被分成30秒的片段，再轉換成log-Mel譜圖，然後傳入編碼器。

解碼器被訓練來預測相應的文本标題，并混合特殊标記，訓示單一模型執行諸如語言識别、多語言語音轉錄和英語語音翻譯等任務。

除此之外，研究人員還為Whisper設定了5種不同的型号，以下是各模型大緻的記憶體需求和相對速度，使用者可以自行選擇。

但需要注意的是，隻有“large”型号支援多語言，前4個模型都隻支援英語。

不過不需要擔心，與其他模型相比，英文語音識别正是Whisper的核心競争力。

實驗結果證明，Whisper在Librispeech test-clean測試的錯誤率達到2.7%。

雖然這一數值與Wav2vec 2.0一樣，但在零樣本性能上，Whisper明顯更穩健，平均誤差減少了55%。

甚至零樣本Whisper模型還縮小了與人類魯棒性之間的差距。

可以看出，與人類Alec相比，LibriSpeech模型的錯誤率大約是人類的兩倍，而Whisper模型的魯棒性邊界則包括Alec95%的置信區間。

研究團隊

Whisper的研究團隊來自OpenAI，共同一作有兩位：Alec Radford、Jong Wook Kim。

Alec Radford，OpenAI的機器學習研究員，也是indico.io的聯合創始人。

Jong Wook Kim，在紐約大學獲得了音樂技術專業的博士學位，研究方向包括多模态深度學習和音樂了解，目前是OpenAI的研究人員。

值得一提的是，研究團隊指出，雖然目前Whisper還沒有實時功能，但它的運作速度和記憶體大小表明，在這一基礎上搭建實時語音識别和翻譯功能是可行的。

他們希望Whisper的高精度和易用性，将允許開發人員将語音接口添加到更廣泛的應用程式中。

論文和GitHub連結附在文末，感興趣的小夥伴們可以自取～

論文連結：

https://cdn.openai.com/papers/whisper.pdf

GitHub連結：

https://github.com/openai/whisper#approach

參考連結：

[1]https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb

[2]https://techcrunch.com/2022/09/21/openai-open-sources-whisper-a-multilingual-speech-recognition-system/?guccounter

[3]https://news.ycombinator.com/item?id=32927360

[4]https://twitter.com/alecrad

[5]https://jongwook.kim/

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

能聽懂口音的開源語音系統來了：OpenAI出品，支援99種語言

逼近人類水準的語音識别系統

研究團隊

繼續閱讀

ChatGPTAndroid版來啦！期待已久！！！來自官方的APP上架GooglePlay，并直接開放預注冊，上架自動安

OpenAI 推出适用于 Android 的官方 ChatGPT 應用程式

對話前OpenAI科學家：愛、滅亡和人工智能

OpenAI聯創Karpathy愛上羊駝:純C代碼實作嬰兒Llama2,已攬1.6k星

【安卓版ChatGPT今日全球上線！】AI奇點網7月26日報道丨來自OpenAI官方推特的消息，當地時間7月25日晚間，

準确性極低！OpenAI下架AI檢測器，ICML傑出論文被打臉

【編碼能力超越ChatGPT！揭秘華為新一代代碼大模型】AI奇點網7月30日報道丨去年7月，華為諾亞方舟實驗室旗下的語音

谷歌新AI阿法星，C位出道爆錘人類職業遊戲玩家！

【中文生成竟然比英文貴兩倍！ChatGPT處理不同語言運算成本差距極大】AI奇點網7月31日報道丨牛津大學最新的一項研究

OpenAI關閉内容檢測工具，借助密碼學，C2PA正在成為新的替代者

OpenAI假設被推翻！大模型輸小模型，Llama 2訓練與GPU計算關聯度

被黃仁勳和OpenAI接連點名，這家向量資料庫公司終迎“iPhone時刻”｜年度AI對話

java調用ChatGPT的API接口

我去，AI開花結果的時代，偏逢[我想靜靜]微軟、華為之類的神對手，谷歌硬是沒過上幾天安心的日[捂臉]子！年初的時候，Ch

Meta硬剛OpenAI，國産“小模型”官宣開源，“百模大戰”走向何方？

OpenAI 的 GPT 簡化版：函數調用