TIMIT数据库（二）：文件目录及结构

2023-04-13 01:53:05

一、目录结构

目录组织形式如下：

/<语料库>/<用处>/<方言种类>/<性别><说话者ID>/<句子ID>.<文件类型>

在这里：

语料库：timit

用法：train | test

方言种类：dr1 | dr2 | dr3 | dr4 | dr5 | dr6 | dr7 | dr8

性别：m | f

说话者ID：<说话者缩写><0-9任意数字>

句子ID：<文本类型><句子编号>，其中，文本类型：sa | si | sx

文件类型：wav | txt | wrd | phn

举例：

(1) /timit/train/dr1/fcjf0/sa1.wav

(2) /timit/test/df5/mbpm0/sx407.phn

二、文件类型

TIMIT语料库包括一些与话语句子相关的文件，除了语音波形文件(.wav)外，还包括对应的句子内容(.txt)，经过时间对齐(time-aligned)的单词内容(.wrd)，经过时间对齐(time-aligned)的音素内容(.phn)三种类型的文件。这些文件的格式如下：

<采样起始点> <采样结束点> <文本内容>

… … …

<采样起始点> <采样结束点> <文本内容>

在这里：

采样起始点：语音段的开始位置（整数）。对于每一个文件，第一个起始位置总是0。

采样结束点：语音段的结束位置（整数）。由于翻译方法(transcription

method)的使用，最后一个采样结束位置的值可能比对应的.wav文件。

文本内容：<完整句子> | <单词标签> | <音素标签>

举例：（/timit/test/dr5/fnlp0/sa1.wav）：

.txt:

0 61748 She had your dark suit in greasy wash water all year.

.wrd:

7470 11362 she

11362 16000 had

15420 17503 your

17503 23360 dark

23360 28360 suit

28360 30960 in

30960 36971 greasy

36971 42290 wash

43120 47480 water

49021 52184 all

52184 58840 year

.phn:(开始和结束的静音区以h#标记，展示部分内容)

0 7470 h#

7470 9840 sh

9840 11362 iy

11362 12908 hv

12908 14760 ae

14760 15420 dcl

15420 16000 jh

16000 17503 axr

17503 18540 dcl

18540 18950 d

18950 21053 aa

21053 22200 r

22200 22740 kcl

22740 23360 k

参考文献：

1. Documentation for TIMIT

TIMIT数据库（二）：文件目录及结构

继续阅读

数据集 | 服装员工生产率预测数据集

语音识别，语义理解一站式解决（android平台&olami sdk）

Android语音识别SDK语义理解与解析方法

语音识别之HTK重理解

电话机器人API接口-空号识别-座席WEBAPI

目标检测系列（IV）：YOLO V1、YOLO V2、YOLO V3

数据集 | 心脏病发作分析和预测数据集

数据集 | 克利夫兰诊所基金会心脏病数据集

数据集 | 心脏病患者数据集

数据集 | 各国人口寿命数据集

数据集 | 土耳其航空股价数据集

基于改进FCOS的钢带表面缺陷检测

车道线检测数据集

数据集 | 网络钓鱼网站数据集

数据集 | 金融反欺诈数据集

数据集 | 2021东京奥运会奖牌榜数据集