天天看點

如何制作多語種發音詞典?多語種發音詞典的制作方法!

多語種發音詞典制作方法分享

本文分享者:資料堂 AI-Lab & 資料産品中心 王麗媛

如何制作多語種發音詞典?多語種發音詞典的制作方法!

一、為什麼制作發音詞典

(一)、因為發音詞典使用廣泛

語音識别、語音合成。在語音合成資料制作中,文本标注環節需着重處理音素标注問題。

如何制作多語種發音詞典?多語種發音詞典的制作方法!

(二)、獨立資料資産

資料産品市場的熱門資料資源産品

發音詞典和語種一一對應:一個語種隻需要一個發音詞典

發音詞典裡包含的詞彙盡可能全,至少包含語音資料裡的所有詞

可以一直添加新詞彙及對應的音标,不斷擴充詞典規模

二、什麼是發音詞典

(一)、标音系統

IPA、 SAMPA、X-SAMPA、 Kirshenbaum、 K.K.音标、 CMU音标 …

1、IPA

每一個可分辨的讀音使用一個符号來表示

107個單獨字母用于表示輔音和元音;

31個變音符号用于修飾輔音和元音;

19個用于表示超音段成分(包括音長、聲調、重 音、語調等)的特殊符号;

舉例:馬來語單詞:pʰə̆ŋə̆mbaɾɐ

如何制作多語種發音詞典?多語種發音詞典的制作方法!
如何制作多語種發音詞典?多語種發音詞典的制作方法!

每種語言都有專門的音位系統

如何制作多語種發音詞典?多語種發音詞典的制作方法!
如何制作多語種發音詞典?多語種發音詞典的制作方法!

怎麼列印音标符号?

- 選擇合适字型:包含标音系統中的所有符号

- 下載下傳IPA輸入法:将EN鍵盤模式轉換成IPA模式

  • 轉換标音系統:使用ASCII符号标音系統

支援IPA音标的可用字型

如何制作多語種發音詞典?多語種發音詞典的制作方法!
如何制作多語種發音詞典?多語種發音詞典的制作方法!

下載下傳IPA輸入法

如何制作多語種發音詞典?多語種發音詞典的制作方法!
如何制作多語種發音詞典?多語種發音詞典的制作方法!

2、SAMPA

以IPA為基礎,隻使用 ASCII值在 [32,126] 區間的可列印的符号。

解釋:在郵件、部落格、論壇等網站上支援的字型非常有限,且在跨平台、跨語言傳輸時許多符号不可以被正确接收。比如,從英國鍵盤傳送過來的英鎊符号(£,ASCII 156)在其他國家可能被接收為!、#等符号。

符号

包括大小寫字母A-Za-z、數字0-9、标點符号! “ ‘ ( ) , - . / : ; ? [ ] { }、其他符号# $ % & * + < = > @ \ ^ _ ` | ~、空格。

與IPA的映射

  • 小寫字母a-z保持不變
  • 其他字元由上述符号

    重新編碼

    如何制作多語種發音詞典?多語種發音詞典的制作方法!
    大多數歐洲語言都已發展了SAMPA表,每張表中都包含了該語言裡的所有語音

3、X-SAMPA & Kirshenbaum

SAMPA

SAMPA表有多種語言版本,每種版本設計時都隻針對該語言所用到的音标,是以不同版本的SAMPA表互不相容。

X-SAMPA

X-SAMPA是為了統一各種SAMPA字母表而産生的,并且擴充至包含所有國際音标符号,能夠把所有音标轉寫成可列印符号。

Kirshenbaum

也稱作ASCII-IPA,是另一種ASCII标音系統

4、多樣性

K.K.音标

CMU音标

如何制作多語種發音詞典?多語種發音詞典的制作方法!
  • 很多語言學家把國際音标做局部修改以标記他們所研究的語言,是以國際音标也有很多種。
  • K.K.音标是将國際音标中符合美式英語的符号截取出來,再加上美音特有的兒音組成的音标符号。
  • 可以把國際音标當作英式音标,把K.K.音标當作美式音标,但注意, K.K.音标也是國際音标的一種。
  • CMU音标更便于語音識别的訓練和解碼。

(二)、标音方法

國際音标【音标】隻有一種,但用法【标音法】有兩種

根據語音标示的嚴謹程度,可分為嚴式标音和寬式标音

1、嚴式标音

[方括号]

通常包括較多的語音細節,即使那些細節在該語言中并不被用于區分語義。

2、寬式标音

/斜線/

通常僅記錄能區分語義的語音特征,而忽略無關的細節。

如何制作多語種發音詞典?多語種發音詞典的制作方法!
如何制作多語種發音詞典?多語種發音詞典的制作方法!

小結

嚴式标音法在标注時較不會有模棱兩可的情況

嚴式标音法過于追求細節而導緻過于複雜

在通常使用中,使用寬式标音法比較合适

為什麼寬式标音法也正确?

【音位系統】

音位并不是一種實際的語音,一種音位可以有數種不同的發音,但人們在心理上認為它們是相同的。

比如在現代漢語中,音位/a/可以表示[ɛ]、[ʌ]、[a]、[ɑ]、[œ]、[æ]等

比如在英語中,音位/p/可以表示[p]、[pʰ]等

在寬式标音中,同一音位内的音素變化,在一門語言中是自然而然發生的。

如何制作多語種發音詞典?多語種發音詞典的制作方法!

三、怎麼制作發音詞典

(一)、流程

如何制作多語種發音詞典?多語種發音詞典的制作方法!

1、語料搜集

自有語料

開源語料

以韓語為例:

自有語料 —> 444372條詞彙

zeroth_korean 開源項目 —> 486727條詞彙

維基詞條 —> 63745條詞彙

||

總語料 —> 883724條詞彙

2、文本處理

如何制作多語種發音詞典?多語種發音詞典的制作方法!

3、發音規則整理

請教專家、調研論文、維基查詢

如何制作多語種發音詞典?多語種發音詞典的制作方法!

4、字形-音标轉換

如何制作多語種發音詞典?多語種發音詞典的制作方法!
如何制作多語種發音詞典?多語種發音詞典的制作方法!
如何制作多語種發音詞典?多語種發音詞典的制作方法!
如何制作多語種發音詞典?多語種發音詞典的制作方法!

5、發音詞典

以韓語為例:

兩個檔案:姓名詞彙.xlsx 非姓名詞彙.xlsx

三列資料:韓語詞彙 IPA音标 羅馬音标

如何制作多語種發音詞典?多語種發音詞典的制作方法!
如何制作多語種發音詞典?多語種發音詞典的制作方法!

四、思考

清晰的發音規則

幹淨的語料

程式的開發

五、總結

關鍵點:

在開始之前,必須了解該語言的字形結構、音韻結構

為達到98%以上的準确率,必須充分了解專家意見、確定發音規則的準确性

繼續閱讀