天天看点

如何制作多语种发音词典?多语种发音词典的制作方法!

多语种发音词典制作方法分享

本文分享者:数据堂 AI-Lab & 数据产品中心 王丽媛

如何制作多语种发音词典?多语种发音词典的制作方法!

一、为什么制作发音词典

(一)、因为发音词典使用广泛

语音识别、语音合成。在语音合成数据制作中,文本标注环节需着重处理音素标注问题。

如何制作多语种发音词典?多语种发音词典的制作方法!

(二)、独立数据资产

数据产品市场的热门数据资源产品

发音词典和语种一一对应:一个语种只需要一个发音词典

发音词典里包含的词汇尽可能全,至少包含语音数据里的所有词

可以一直添加新词汇及对应的音标,不断扩充词典规模

二、什么是发音词典

(一)、标音系统

IPA、 SAMPA、X-SAMPA、 Kirshenbaum、 K.K.音标、 CMU音标 …

1、IPA

每一个可分辨的读音使用一个符号来表示

107个单独字母用于表示辅音和元音;

31个变音符号用于修饰辅音和元音;

19个用于表示超音段成分(包括音长、声调、重 音、语调等)的特殊符号;

举例:马来语单词:pʰə̆ŋə̆mbaɾɐ

如何制作多语种发音词典?多语种发音词典的制作方法!
如何制作多语种发音词典?多语种发音词典的制作方法!

每种语言都有专门的音位系统

如何制作多语种发音词典?多语种发音词典的制作方法!
如何制作多语种发音词典?多语种发音词典的制作方法!

怎么打印音标符号?

- 选择合适字体:包含标音系统中的所有符号

- 下载IPA输入法:将EN键盘模式转换成IPA模式

  • 转换标音系统:使用ASCII符号标音系统

支持IPA音标的可用字体

如何制作多语种发音词典?多语种发音词典的制作方法!
如何制作多语种发音词典?多语种发音词典的制作方法!

下载IPA输入法

如何制作多语种发音词典?多语种发音词典的制作方法!
如何制作多语种发音词典?多语种发音词典的制作方法!

2、SAMPA

以IPA为基础,只使用 ASCII值在 [32,126] 区间的可打印的符号。

解释:在邮件、博客、论坛等网站上支持的字体非常有限,且在跨平台、跨语言传输时许多符号不可以被正确接收。比如,从英国键盘传送过来的英镑符号(£,ASCII 156)在其他国家可能被接收为!、#等符号。

符号

包括大小写字母A-Za-z、数字0-9、标点符号! “ ‘ ( ) , - . / : ; ? [ ] { }、其他符号# $ % & * + < = > @ \ ^ _ ` | ~、空格。

与IPA的映射

  • 小写字母a-z保持不变
  • 其他字符由上述符号

    重新编码

    如何制作多语种发音词典?多语种发音词典的制作方法!
    大多数欧洲语言都已发展了SAMPA表,每张表中都包含了该语言里的所有语音

3、X-SAMPA & Kirshenbaum

SAMPA

SAMPA表有多种语言版本,每种版本设计时都只针对该语言所用到的音标,因此不同版本的SAMPA表互不相容。

X-SAMPA

X-SAMPA是为了统一各种SAMPA字母表而产生的,并且扩展至包含所有国际音标符号,能够把所有音标转写成可打印符号。

Kirshenbaum

也称作ASCII-IPA,是另一种ASCII标音系统

4、多样性

K.K.音标

CMU音标

如何制作多语种发音词典?多语种发音词典的制作方法!
  • 很多语言学家把国际音标做局部修改以标记他们所研究的语言,所以国际音标也有很多种。
  • K.K.音标是将国际音标中符合美式英语的符号截取出来,再加上美音特有的儿音组成的音标符号。
  • 可以把国际音标当作英式音标,把K.K.音标当作美式音标,但注意, K.K.音标也是国际音标的一种。
  • CMU音标更便于语音识别的训练和解码。

(二)、标音方法

国际音标【音标】只有一种,但用法【标音法】有两种

根据语音标示的严谨程度,可分为严式标音和宽式标音

1、严式标音

[方括号]

通常包括较多的语音细节,即使那些细节在该语言中并不被用于区分语义。

2、宽式标音

/斜线/

通常仅记录能区分语义的语音特征,而忽略无关的细节。

如何制作多语种发音词典?多语种发音词典的制作方法!
如何制作多语种发音词典?多语种发音词典的制作方法!

小结

严式标音法在标注时较不会有模棱两可的情况

严式标音法过于追求细节而导致过于复杂

在通常使用中,使用宽式标音法比较合适

为什么宽式标音法也正确?

【音位系统】

音位并不是一种实际的语音,一种音位可以有数种不同的发音,但人们在心理上认为它们是相同的。

比如在现代汉语中,音位/a/可以表示[ɛ]、[ʌ]、[a]、[ɑ]、[œ]、[æ]等

比如在英语中,音位/p/可以表示[p]、[pʰ]等

在宽式标音中,同一音位内的音素变化,在一门语言中是自然而然发生的。

如何制作多语种发音词典?多语种发音词典的制作方法!

三、怎么制作发音词典

(一)、流程

如何制作多语种发音词典?多语种发音词典的制作方法!

1、语料搜集

自有语料

开源语料

以韩语为例:

自有语料 —> 444372条词汇

zeroth_korean 开源项目 —> 486727条词汇

维基词条 —> 63745条词汇

||

总语料 —> 883724条词汇

2、文本处理

如何制作多语种发音词典?多语种发音词典的制作方法!

3、发音规则整理

请教专家、调研论文、维基查询

如何制作多语种发音词典?多语种发音词典的制作方法!

4、字形-音标转换

如何制作多语种发音词典?多语种发音词典的制作方法!
如何制作多语种发音词典?多语种发音词典的制作方法!
如何制作多语种发音词典?多语种发音词典的制作方法!
如何制作多语种发音词典?多语种发音词典的制作方法!

5、发音词典

以韩语为例:

两个文件:姓名词汇.xlsx 非姓名词汇.xlsx

三列数据:韩语词汇 IPA音标 罗马音标

如何制作多语种发音词典?多语种发音词典的制作方法!
如何制作多语种发音词典?多语种发音词典的制作方法!

四、思考

清晰的发音规则

干净的语料

程序的开发

五、总结

关键点:

在开始之前,必须了解该语言的字形结构、音韵结构

为达到98%以上的准确率,必须充分理解专家意见、确保发音规则的准确性

继续阅读