多語種發音詞典制作方法分享
本文分享者:資料堂 AI-Lab & 資料産品中心 王麗媛
一、為什麼制作發音詞典
(一)、因為發音詞典使用廣泛
語音識别、語音合成。在語音合成資料制作中,文本标注環節需着重處理音素标注問題。
(二)、獨立資料資産
資料産品市場的熱門資料資源産品
發音詞典和語種一一對應:一個語種隻需要一個發音詞典
發音詞典裡包含的詞彙盡可能全,至少包含語音資料裡的所有詞
可以一直添加新詞彙及對應的音标,不斷擴充詞典規模
二、什麼是發音詞典
(一)、标音系統
IPA、 SAMPA、X-SAMPA、 Kirshenbaum、 K.K.音标、 CMU音标 …
1、IPA
每一個可分辨的讀音使用一個符号來表示
107個單獨字母用于表示輔音和元音;
31個變音符号用于修飾輔音和元音;
19個用于表示超音段成分(包括音長、聲調、重 音、語調等)的特殊符号;
舉例:馬來語單詞:pʰə̆ŋə̆mbaɾɐ
每種語言都有專門的音位系統
怎麼列印音标符号?
- 選擇合适字型:包含标音系統中的所有符号
- 下載下傳IPA輸入法:将EN鍵盤模式轉換成IPA模式
- 轉換标音系統:使用ASCII符号标音系統
支援IPA音标的可用字型
下載下傳IPA輸入法
2、SAMPA
以IPA為基礎,隻使用 ASCII值在 [32,126] 區間的可列印的符号。
解釋:在郵件、部落格、論壇等網站上支援的字型非常有限,且在跨平台、跨語言傳輸時許多符号不可以被正确接收。比如,從英國鍵盤傳送過來的英鎊符号(£,ASCII 156)在其他國家可能被接收為!、#等符号。
符号
包括大小寫字母A-Za-z、數字0-9、标點符号! “ ‘ ( ) , - . / : ; ? [ ] { }、其他符号# $ % & * + < = > @ \ ^ _ ` | ~、空格。
與IPA的映射
- 小寫字母a-z保持不變
-
其他字元由上述符号
重新編碼
大多數歐洲語言都已發展了SAMPA表,每張表中都包含了該語言裡的所有語音
3、X-SAMPA & Kirshenbaum
SAMPA
SAMPA表有多種語言版本,每種版本設計時都隻針對該語言所用到的音标,是以不同版本的SAMPA表互不相容。
X-SAMPA
X-SAMPA是為了統一各種SAMPA字母表而産生的,并且擴充至包含所有國際音标符号,能夠把所有音标轉寫成可列印符号。
Kirshenbaum
也稱作ASCII-IPA,是另一種ASCII标音系統
4、多樣性
K.K.音标
CMU音标
- 很多語言學家把國際音标做局部修改以标記他們所研究的語言,是以國際音标也有很多種。
- K.K.音标是将國際音标中符合美式英語的符号截取出來,再加上美音特有的兒音組成的音标符号。
- 可以把國際音标當作英式音标,把K.K.音标當作美式音标,但注意, K.K.音标也是國際音标的一種。
- CMU音标更便于語音識别的訓練和解碼。
(二)、标音方法
國際音标【音标】隻有一種,但用法【标音法】有兩種
根據語音标示的嚴謹程度,可分為嚴式标音和寬式标音
1、嚴式标音
[方括号]
通常包括較多的語音細節,即使那些細節在該語言中并不被用于區分語義。
2、寬式标音
/斜線/
通常僅記錄能區分語義的語音特征,而忽略無關的細節。
小結
嚴式标音法在标注時較不會有模棱兩可的情況
嚴式标音法過于追求細節而導緻過于複雜
在通常使用中,使用寬式标音法比較合适
為什麼寬式标音法也正确?
【音位系統】
音位并不是一種實際的語音,一種音位可以有數種不同的發音,但人們在心理上認為它們是相同的。
比如在現代漢語中,音位/a/可以表示[ɛ]、[ʌ]、[a]、[ɑ]、[œ]、[æ]等
比如在英語中,音位/p/可以表示[p]、[pʰ]等
在寬式标音中,同一音位内的音素變化,在一門語言中是自然而然發生的。
三、怎麼制作發音詞典
(一)、流程
1、語料搜集
自有語料
開源語料
以韓語為例:
自有語料 —> 444372條詞彙
zeroth_korean 開源項目 —> 486727條詞彙
維基詞條 —> 63745條詞彙
||
總語料 —> 883724條詞彙
2、文本處理
3、發音規則整理
請教專家、調研論文、維基查詢
4、字形-音标轉換
5、發音詞典
以韓語為例:
兩個檔案:姓名詞彙.xlsx 非姓名詞彙.xlsx
三列資料:韓語詞彙 IPA音标 羅馬音标
四、思考
清晰的發音規則
幹淨的語料
程式的開發
五、總結
關鍵點:
在開始之前,必須了解該語言的字形結構、音韻結構
為達到98%以上的準确率,必須充分了解專家意見、確定發音規則的準确性