天天看點

Mozilla釋出最大公共語音資料集Common Voice資料品質更常見的聲音:8個月内從3種語言到22種語言改進貢獻者的體驗,包括可選配置檔案授權去中心化的産品創新:馬拉松而非沖刺

文 / George Roter

翻譯 / 咪寶

原文

https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/

Mozilla釋出了可供使用的最大人類語音資料集,包括18種不同的語言,累計記錄了超過42,000多名貢獻者的近1,400小時的語音資料。

從一開始,我們對Common Voice的願景就是建構世界上最多樣化的語音資料集,為建構語音技術進行優化。我們還做出了開放的承諾:向初創公司、研究人員以及對語音技術感興趣的任何人公開我們收集到的高品質語音資料。

今天,我們很高興與大家分享我們的第一個多語種資料集,其中包含18種語言。包括英語、法語、德語和國語(繁體),以及威爾士語和卡比爾語。總的來說,新的資料集囊括了超過42000人的大約1400個小時的語音片段。

在這個版本中,不斷增長的Common Voice資料集目前是同類資料集中規模最大的,成千上萬的人将他們的聲音和原始的手寫文字貢獻給公共領域(CC0)。完整的資料集可以在Common Voice站點上(

https://voice.mozilla.org/zh-CN/datasets )進行下載下傳。

資料品質

Common Voice資料集不僅在其大小和許可模型(

https://github.com/JRMeyer/open-speech-corpora

)方面是獨一無二的,而且在其多樣性上也是獨一無二的。它代表了一個由語音貢獻者組成的全球社群。貢獻者可以選擇提供諸如他們的年齡、性别和口音等中繼資料,這樣他們的語音片段就會被标記上在訓練語音引擎中有用的資訊。

這是一種不同于其他可公開擷取的資料集的方法,這些資料集要麼是手工制作的多樣性資料集(即男性和女性數量相等),要麼是語料庫與“已發現”的資料集一樣的多樣性資料集(例如,TED演講中的TEDLIUM語料庫是男性和女性的3倍)。

更常見的聲音:8個月内從3種語言到22種語言

自2018年6月啟用多語言支援以來,Common Voice已變得更加全球化,更具包容性。這已經超出了我們的預期:在過去的8個月中,社群積極響應該項目,以22種語言開展資料收集工作,在Common Voice網站上,還有70種語言正在進行中,令人難以置信。

作為一個社群驅動的項目,世界各地關心用自己的語言建立語音資料集的人們負責每一個新項目的啟動——有些是熱情的志願者,有些是作為語言學家或技術專家日常工作的一部分。每一項工作都需要翻譯網站,以允許投稿和添加句子閱讀。

我們最新增加的語言包括荷蘭語、Hakha-Chin語、世界語、波斯語、巴斯克語和西班牙語。在某些情況下,Common Voice上釋出一種新語言代表着該語言在網際網路上出現的開始。這些社群的努力證明了:所有語言,不僅僅是那些能夠為科技公司帶來高收入的語言都值得成為代表。

我們将繼續與這些社群合作,確定他們的聲音成為代表,甚至幫助他們自己開發語音技術。本着這種精神,我們最近與Deutsche Gesellschaft für Internationale Zusammenarbeit(GIZ)合作,在基加利聯合主辦了一場創意黑客馬拉松,為Kinyarwanda建立了一個語音語料庫,為盧旺達當地的技術人員開發基于他們自己語言的開源語音技術奠定了基礎。

改進貢獻者的體驗,包括可選配置檔案

Common Voice網站是我們建構語音資料集的主要工具之一,這些資料集對語音互動技術非常有用。它今天的樣子是一個不斷疊代的過程産生的結果。我們聽取了社群對有關貢獻者痛點的回報,同時也進行了可用性研究,以使得貢獻、投稿更容易、更有吸引力、更有趣。

參與貢獻的人不僅可以在錄制和驗證中看到每種語言的進度,而且還改進了不同片段之間的提示; 新的功能,以審查,重新記錄,并跳過剪輯作為一個內建部分的經驗;在說話與傾聽之間快速切換; 以及選擇退出會話的功能。

我們還添加了建立已儲存配置檔案的選項,允許參與者跟蹤多種語言的進度和名額。提供一些可選的人口統計資訊同時改善了用于訓練語音識别準确度的音頻資料。

Mozilla釋出最大公共語音資料集Common Voice資料品質更常見的聲音:8個月内從3種語言到22種語言改進貢獻者的體驗,包括可選配置檔案授權去中心化的産品創新:馬拉松而非沖刺

Common Voice最初作為概念證明原型,在過去的一年中一直在協作疊代。

授權去中心化的産品創新:馬拉松而非沖刺

Mozilla的目标是建立一個更加多樣化和創新的語音技術生态系統。我們的目标是既釋出自己的語音産品,同時也支援研究人員和小型玩家。通過Common Voice提供資料隻是其中的一部分,開源的語音到文本和文本到語音引擎以及由我們的機器學習小組驅動的、經過訓練的DeepSpeech項目模型也是其中的一部分。

我們知道這需要時間,我們相信盡早釋出和公開工作能夠吸引技術人員、組織和公司的參與和回報,進而使這些項目更加健壯。目前,這兩個項目都處于研究階段,DeepSpeech在産品化方面取得了很大的進步。

到目前為止,有了來自普通語音和其他來源的資料,DeepSpeech在技術上能夠“實時”地将語音精确地轉換為文本,即在流式傳輸音頻時實時轉換。這允許當講座、電話交談、電視節目、廣播節目和其他直播流發生時進行轉錄。

DeepSpeech引擎已經被許多非mozilla項目所使用:例如,在Mycroft中,一個開源的基于語音的助手;在利昂,一個開源的個人助理;在電話内線交換機(FusionPBX)中,安裝在私人機構并為其服務的一種電話交換機,用于記錄電話資訊。在未來,Deep Speech将針對更小的平台裝置,如智能手機和車載系統,開啟Mozilla内外的産品創新。

對于Common Voice,我們在2018年的重點是建構概念,使其成為能夠被任何語言社群使用、優化網站和建構強大後端(例如,帳戶系統)的工具。在接下來的幾個月裡,我們将集中精力嘗試不同的方法,通過社群努力和新的合作夥伴關系來增加我們能夠收集的資料的數量和品質。

我們的總體目标仍然是:為世界上所有尋求建構和使用語音技術的人提供更多、更好的資料。因為競争和開放有利于創新。因為較小的語言是一個通路和公平的問題。因為隐私和控制很重要,尤其是對你的聲音。

————————————————

版權聲明:本文為CSDN部落客「LiveVideoStack_」的原創文章,遵循CC 4.0 BY-SA版權協定,轉載請附上原文出處連結及本聲明。

原文連結:

https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/88266146
「視訊雲技術」你最值得關注的音視訊技術公衆号,每周推送來自阿裡雲一線的實踐技術文章,在這裡與音視訊領域一流工程師交流切磋。
Mozilla釋出最大公共語音資料集Common Voice資料品質更常見的聲音:8個月内從3種語言到22種語言改進貢獻者的體驗,包括可選配置檔案授權去中心化的産品創新:馬拉松而非沖刺

繼續閱讀