<b>1.
什麼是特定人語音喚醒</b>
人的語音中含有大量的資訊,除了語音内容(說了什麼)外,還有語種(中文、英語)、身份(張三、李四)、情緒(平靜、開心)等資訊。
特定人語音喚醒,就是通過識别語音中所含的内容和人的身份資訊,來實作特定人語音喚醒功能。這是一種較為新穎、具有一定安全性、便捷性和趣味性的功能,同時可以增強個性化體驗。在yunos語音助手中,就應用了此功能。此時機主可以通過“你好小雲”這個語音密碼,解鎖手機并且喚醒yunos語音助手。
和常見的語音喚醒相比,特定人語音喚醒功能不僅要求說對喚醒密碼、還會判斷是誰在說出這個密碼。一旦密碼不對或者身份不對,則會拒絕解鎖手機和喚醒yunos語音助手。
<b>2.
特定人語音喚醒的基本架構</b>
特定人語音喚醒方案整體框圖如下:

語音喚醒使用之前需要一個初始設定,特定人語音喚醒也一樣,這是讓智能裝置認識使用者自己聲音的過程,初始設定在這裡稱之為“注冊”,對應于模式識别的訓練過程。預設情況下,使用者根據頁面提示,說出三遍“你好小雲”就可以完成初始設定。注冊完了之後,使用者就可以使用特定人語音喚醒了。使用時,隻有預設的語音密碼内容、說話人身份都比對的時候,手機才能解鎖或者打開特定程式。
<b>3.
分層次gmm(higmm)模型</b>
除了vad(靜音檢測)、特征提取、評分等子產品之外,模型是是整個方案中的關鍵。為了實作同時完成語音喚醒和特定人判别,我們設計了一個分層次gmm(higmm)方案。模型訓練如下圖所示。
其中,需要完成的步驟有:1. 訓練一個和說話人無關、内容無關的全局gmm模型;2. 根據注冊資料,訓練一個特定人、和内容無關的gmm模型;這一步的gmm模型,可以根據最大後驗準則,用全局gmm和訓練資料獲得;3. 根據注冊資料,訓練一系列的特定人、特定内容的gmms。這個過程中,首先需要把整個句子合理地切分成幾個語音段,對于每個語音段,根據2的gmm,訓練一個gmm。由于每一個語音段都表示了特定說話内容是以訓練得到的gmm,代表了特定人、特定文本内容;gmm序列組合起來,則代表了特定人、特定密碼内容。
<b>4.
特定人語音喚醒應用</b>
目前雲手機上,yunos語音助手內建了特定人聲紋喚醒功能,使用者可以通過“你好小雲”喚醒yunos語音助手。
yunos語音助手聲紋功能還可以“被鍛煉”,随着喚醒次數增多,可以使yunos語音助手更熟悉使用者的聲音,并且減少他人的聲音或者噪聲帶來的誤操作。
以後,具有特定人語音喚醒功能的手機,還可以有更多的應用。比如:當你找不到自己手機的時候,你喊出“你好小雲”就能将手機喚醒,此時手機可以響鈴,做出“我在這裡”的回應。另一種用途是當你想聽自己喜歡的歌的時候,喊出“hey,
小y,
放首歌”,此時裝置根據說話人的身份,播放個人喜歡的音樂。