天天看點

機器學習執行個體:深度學習如何做語音識别!

  

機器學習執行個體:深度學習如何做語音識别!

  Aleax,給我訂一個pizza!

  Echo Dot 在2015年的聖誕假期一經推出就大受歡迎,在亞馬遜上面立刻售罄。

  但其實語音識别已經存在很多年了,那為什麼現在才成為主流呢?因為深度識别終于将語音識别在非受控環境下的準确度提高到了一個足以投入實用的高度。

  吳恩達教授曾經預言過,當語音識别的準确度從95%提升到99%的時候,它将成為與電腦互動的首要方式。

  下面就讓我們來學習與深度學習進行語音室識别吧!

  機器學習并不總是一個黑盒

  如果你想知道神經機器翻譯是如何工作的,你應該猜到了我們可以簡單地将一些聲音送入神經網絡,然後訓練它使之生成文本:

機器學習執行個體:深度學習如何做語音識别!

  這是使用深度學習進行語音識别的最高追求,但是很遺憾我們現在還沒有完全做到這一點(至少在筆者寫下這一篇文章的時候還沒有–我敢打賭,再過幾年我們可以做到)

  一個大問題是語速不同。一個人可能會很快的說出”Hello!”,而另一個人可能非常緩慢的說”heeeelllllllllllllooooo’!’,産生了一個擁有更多資料也更長的聲音檔案。這兩個檔案都應該被識别為同一個文本–“Hello!”。而事實證明,把各種長度的音頻檔案自動對齊到一個固定長度的文本是很難的一件事情。

  為了解決這個問題,我們必須使用一些特殊的技巧,并進行一些深度神經網絡以外的特殊處理。讓我們看看它是如何工作的吧!

  将聲音轉換為比特(Bit)

  顯然,語音識别的第一步是–我們需要将聲波輸入到電腦中。

  我們應該怎麼将聲波轉換為數字呢?讓我們使用我說的「hello」這個聲音片段舉個例子:

機器學習執行個體:深度學習如何做語音識别!

  聲波是一維的,它在每個時刻都有一個基于其高度的值。讓我們把聲波的一小部分放大看看:

機器學習執行個體:深度學習如何做語音識别!

  為了将這個聲波轉換成數字,我們隻記錄聲波在等距點的高度:

機器學習執行個體:深度學習如何做語音識别!

  這被稱為采樣(sampling)。我們每秒讀取數千次,并把聲波在該時間點的高度用一個數字記錄下來。這基本上就是一個未壓縮的 .wav 音頻檔案。

  “CD 音質”的音頻是以 44.1khz(每秒 44100 個讀數)進行采樣的。但對于語音識别,16khz(每秒 16000 個采樣)的采樣率就足以覆寫人類語音的頻率範圍了。

  讓我們把“Hello”的聲波每秒采樣 16000 次。這是前 100 個采樣:

機器學習執行個體:深度學習如何做語音識别!

  每個數字代表聲波在一秒鐘的16000分之一處的振幅。

  數字采樣小助手

  因為聲波采樣隻是間歇性的讀取,你可能認為它隻是對原始聲波進行粗略的近似估計。我們的讀數之間有間距,是以我們必然會丢失資料,對吧?

機器學習執行個體:深度學習如何做語音識别!

  但是,由于采樣定理(Nyquist theorem),我們知道我們可以利用數學,從間隔的采樣中完美重建原始聲波——隻要我們的采樣頻率比期望得到的最高頻率快至少兩倍就行。

  我提這一點,是因為幾乎每個人都會犯這個錯誤,并誤認為使用更高的采樣率總是會獲得更好的音頻品質。其實并不是。

  預處理我們的采樣聲音資料

  我們現在有一個數列,其中每個數字代表 1/16000 秒的聲波振幅。

  我們可以把這些數字輸入到神經網絡中,但是試圖直接分析這些采樣來進行語音識别仍然很困難。相反,我們可以通過對音頻資料進行一些預處理來使問題變得更容易。

  讓我們開始吧,首先将我們的采樣音頻分成每份 20 毫秒長的音頻塊。這是我們第一個 20 毫秒的音頻(即我們的前 320 個采樣):

機器學習執行個體:深度學習如何做語音識别!

  将這些數字繪制為簡單的折線圖,我們就得到了這 20 毫秒内原始聲波的大緻形狀:

機器學習執行個體:深度學習如何做語音識别!

  雖然這段錄音隻有 1/50 秒的長度,但即使是這樣短暫的錄音,也是由不同頻率的聲音複雜地組合在一起的。其中有一些低音,一些中音,甚至有幾處高音。但總的來說,就是這些不同頻率的聲音混合在一起,才組成了人類的語音。

  為了使這個資料更容易被神經網絡處理,我們将把這個複雜的聲波分解成一個個組成部分。我們将分離低音部分,再分離下一個最低音的部分,以此類推。然後将(從低到高)每個頻段(frequency band)中的能量相加,我們就為各個類别的音頻片段建立了一個指紋(fingerprint)。

  想象你有一段某人在鋼琴上演奏 C 大調和弦的錄音。這個聲音是由三個音符組合而成的:C、E 和 G。它們混合在一起組成了一個複雜的聲音。我們想把這個複雜的聲音分解成單獨的音符,以此來分辨 C、E 和 G。這和語音識别是一樣的道理。

  我們需要傅裡葉變換(Fourier Transform)來做到這一點。它将複雜的聲波分解為簡單的聲波。一旦我們有了這些單獨的聲波,我們就将每一份頻段所包含的能量加在一起。

  最終得到的結果便是從低音(即低音音符)到高音,每個頻率範圍的重要程度。以每 50hz 為一個頻段的話,我們這 20 毫秒的音頻所含有的能量從低頻到高頻就可以表示為下面的清單:

機器學習執行個體:深度學習如何做語音識别!

  但是把它們畫成圖表時會更容易了解:

機器學習執行個體:深度學習如何做語音識别!

  你可以看到,在我們的 20 毫秒聲音片段中有很多低頻能量,然而在更高的頻率中并沒有太多的能量。這是典型「男性」的聲音。

  如果我們對每個20毫秒的音頻塊都重複這個過程,我們最後會得到一個頻譜圖(從左到右每一列都是一個29毫秒的音頻塊)

機器學習執行個體:深度學習如何做語音識别!

  頻譜圖很酷,因為你可以在音頻資料中實實在在地看到音符和其他音高模式。對于神經網絡來說,相比于原始聲波,從這種資料中尋找規律要容易得多。是以,這就是我們将要實際輸入到神經網絡中去的資料表示方式。

  從短音頻中識别字元

  現在我們已經讓音頻轉變為一個易于處理的格式了,現在我們将要把它輸入深度神經網絡。神經網絡的輸入将會是 20 毫秒的音頻塊。對于每個小的音頻切片(audio slice),神經網絡都将嘗試找出目前正在說的聲音所對應的字母。

機器學習執行個體:深度學習如何做語音識别!

  我們将使用一個循環神經網絡——即一個擁有記憶,能影響未來預測的神經網絡。這是因為它預測的每個字母都應該能夠影響它對下一個字母的預測。例如,如果我們到目前為止已經說了「HEL」,那麼很有可能我們接下來會說「LO」來完成「Hello」。我們不太可能會說「XYZ」之類根本讀不出來的東西。是以,具有先前預測的記憶有助于神經網絡對未來進行更準确的預測。

  當通過神經網絡跑完我們的整個音頻剪輯(一次一塊)之後,我們将最終得到一份映射(mapping),其中标明了每個音頻塊和其最有可能對應的字母。這是我說那句「Hello」所對應的映射的大緻圖案:

機器學習執行個體:深度學習如何做語音識别!

  我們的神經網絡正在預測我說的那個詞很有可能是「HHHEE_LL_LLLOOO」。但它同時認為我說的也可能是「HHHUU_LL_LLLOOO」,或者甚至是「AAAUU_LL_LLLOOO」。

  我們可以遵循一些步驟來整理這個輸出。首先,我們将用單個字元替換任何重複的字元:

  · HHHEE_LL_LLLOOO 變為 HE_L_LO

  · HHHUU_LL_LLLOOO 變為 HU_L_LO

  · AAAUU_LL_LLLOOO 變為 AU_L_LO

  然後,我們将删除所有空白:

  · HE_L_LO 變為 HELLO

  · HU_L_LO 變為 HULLO

  · AU_L_LO 變為 AULLO

  這讓我們得到三種可能的轉寫——「Hello」、「Hullo」和「Aullo」。如果你大聲說出這些詞,所有這些聲音都類似于「Hello」。因為神經網絡每次隻預測一個字元,是以它會得出一些純粹表示發音的轉寫。例如,如果你說「He would not go」,它可能會給出一個「He wud net go」的轉寫。

  解決問題的訣竅是将這些基于發音的預測與基于書面文本(書籍、新聞文章等)大資料庫的可能性得分相結合。扔掉最不可能的結果,留下最實際的結果。

  在我們可能的轉寫「Hello」、「Hullo」和「Aullo」中,顯然「Hello」将更頻繁地出現在文本資料庫中(更不用說在我們原始的基于音頻的訓練資料中了),是以它可能就是正解。是以我們會選擇「Hello」作為我們的最終結果,而不是其他的轉寫。搞定!

  稍等一下!

  你可能會想「但是如果有人說Hullo」怎麼辦?這個詞的确存在。也許「Hello」是錯誤的轉寫!

機器學習執行個體:深度學習如何做語音識别!

  當然可能有人實際上說的是「Hullo」而不是「Hello」。但是這樣的語音識别系統(基于美國英語訓練)基本上不會産生「Hullo」這樣的轉寫結果。使用者說「Hullo」,它總是會認為你在說「Hello」,無論你發「U」的聲音有多重。

  不識别「Hullo」是一個合理的行為,但有時你會碰到令人讨厭的情況:你的手機就是不能了解你說的有效的語句。這就是為什麼這些語音識别模型總是處于再訓練狀态的原因,它們需要更多的資料來修複這些少數情況。

  我能建立自己的語音識别系統嗎?

  這裡有另外一個例子:你知不知道,當你在一個嘈雜的房間裡說話時,你會不自覺地提高你的音調,來蓋過噪音。人類在什麼情況下都可以了解你,但神經網絡需要訓練才能處理這種特殊情況。是以你需要人們在噪音中大聲講話的訓練資料!

  要建構一個能在 Siri、Google Now! 或 Alexa 等平台上運作的語音識别系統,你将需要大量的訓練資料 。如果你不雇上數百人為你錄制的話,它需要的訓練資料比你自己能夠獲得的資料要多得多。由于使用者對低品質語音識别系統的容忍度很低,是以你不能吝啬。沒有人想要一個隻有八成時間有效的語音識别系統。

  對于像谷歌或亞馬遜這樣的公司,在現實生活中記錄的成千上萬小時的人聲語音就是黃金。這就是将他們世界級語音識别系統與你自己的系統拉開差距的地方。讓你免費使用 Google Now!或 Siri,或是隻要 50 美元購買 Alexa 而沒有訂閱費的意義就是:讓你盡可能多地使用它們。你對這些系統所說的每一句話都會被永遠記錄下來,并用作未來版本語音識别算法的訓練資料。這才是他們的真實目的!

  不相信我?如果你有一部安裝了 Google Now! 的 Android 手機,請點選這裡收聽你自己對它說過的每一句話:

機器學習執行個體:深度學習如何做語音識别!

  你可以通過 Alexa 在 Amazon 上找到相同的東西。然而,不幸的是,蘋果并不讓你通路你的 Siri 語音資料。

  是以,如果你正在尋找一個創業的想法,我不建議你嘗試建立自己的語音識别系統來與 Google 競争。相反,你應該想個辦法,讓人們把自己講了幾個小時的錄音交給你。這種資料可以是你的産品。

作者: 小數點

來源:IT168

原文連結:機器學習執行個體:深度學習如何做語音識别!

繼續閱讀