一、目录结构
目录组织形式如下:
/<语料库>/<用处>/<方言种类>/<性别><说话者ID>/<句子ID>.<文件类型>
在这里:
语料库:timit
用法:train | test
方言种类:dr1 | dr2 | dr3 | dr4 | dr5 | dr6 | dr7 | dr8
性别:m | f
说话者ID:<说话者缩写><0-9任意数字>
句子ID:<文本类型><句子编号>,其中,文本类型:sa | si | sx
文件类型:wav | txt | wrd | phn
举例:
(1) /timit/train/dr1/fcjf0/sa1.wav
(2) /timit/test/df5/mbpm0/sx407.phn
二、文件类型
TIMIT语料库包括一些与话语句子相关的文件,除了语音波形文件(.wav)外,还包括对应的句子内容(.txt),经过时间对齐(time-aligned)的单词内容(.wrd),经过时间对齐(time-aligned)的音素内容(.phn)三种类型的文件。这些文件的格式如下:
<采样起始点> <采样结束点> <文本内容>
… … …
… … …
… … …
<采样起始点> <采样结束点> <文本内容>
在这里:
采样起始点:语音段的开始位置(整数)。对于每一个文件,第一个起始位置总是0。
采样结束点:语音段的结束位置(整数)。由于翻译方法(transcription
method)的使用,最后一个采样结束位置的值可能比对应的.wav文件。
文本内容:<完整句子> | <单词标签> | <音素标签>
举例:(/timit/test/dr5/fnlp0/sa1.wav):
.txt:
0 61748 She had your dark suit in greasy wash water all year.
.wrd:
7470 11362 she
11362 16000 had
15420 17503 your
17503 23360 dark
23360 28360 suit
28360 30960 in
30960 36971 greasy
36971 42290 wash
43120 47480 water
49021 52184 all
52184 58840 year
.phn:(开始和结束的静音区以h#标记,展示部分内容)
0 7470 h#
7470 9840 sh
9840 11362 iy
11362 12908 hv
12908 14760 ae
14760 15420 dcl
15420 16000 jh
16000 17503 axr
17503 18540 dcl
18540 18950 d
18950 21053 aa
21053 22200 r
22200 22740 kcl
22740 23360 k
参考文献:
1. Documentation for TIMIT