天天看點

Mozilla 開源語音資料集已擁有兩萬小時内容,新支援粵語、閩南語

IT之家 5 月 1 日消息,本周早些時候,Mozilla 宣布其 Common Voice 資料集現在包含超過 20000 小時的内容,世界各地的任何人都可以使用這些内容來改進他們的語音識别軟體,幾乎是一年前的兩倍。

Mozilla 開源語音資料集已擁有兩萬小時内容,新支援粵語、閩南語

IT之家了解到,最新的英語資料集有 71 GB,支援的語言也比以往任何時候都多,增加了蒂格雷語、閩南語、Meadow Mari、孟加拉語、道本語和粵語。

Mozilla 開源語音資料集已擁有兩萬小時内容,新支援粵語、閩南語

根據 Mozilla 的說法,Common Voice 項目允許任何人為項目貢獻自己的聲音,進而讓虛拟助手能夠了解更多的口音。此外,Common Voice 項目是開源的,可確定大型科技公司無法獨占,為小型開發商和公司提供了建構競争産品和服務的機會。

Mozilla 開源語音資料集已擁有兩萬小時内容,新支援粵語、閩南語

Mozilla 在最新資料集版本中指出的亮點如下:

6 種新語言:蒂格雷語、閩南語、Meadow Mari、孟加拉語、道本語和粵語。

27 種語言至少有 100 小時的語音資料,包括孟加拉語、泰語、巴斯克語和弗裡斯蘭語。

9 種語言至少有 500 小時的語音資料,包括基尼亞盧旺達語(2383 小時)、加泰羅尼亞語(2045 小時)和斯瓦希裡語(719 小時)。

9 種語言有至少 45% 的性别标簽為女性,包括馬拉地語、迪維希語和盧幹達語。

繼續閱讀