天天看點

AI的新故事,藏在李彥宏的《智能交通》音頻書裡

AI的新故事,藏在李彥宏的《智能交通》音頻書裡

智東西(公衆号:zhidxcom)作者 | 李水青編輯 | 漠影

近日,百度董事長兼CEO李彥宏新書《智能交通》的音頻版上線喜馬拉雅APP,值得一提的是,它是由李彥宏親自獻聲。

打開音頻,隻聽到一個幹淨、富有磁性而不失溫柔的聲音娓娓講述,這些年來發生在人、車、路之間的無聲變化,讓人似乎親眼看見這場或許影響人類未來10-40年的重大變革的場景。

“涉足自動駕駛、智能交通這些年,我到過全國很多城市,感受到交通的點滴變化。小到交通信号燈的控制優化,大到搭建城市交通AI引擎;從公交到地鐵,從公路到港口,交通各行業、各領域都在開展智能化嘗試,局部的效率改善比比皆是。”

▲《智能交通》有聲書片段截取

不得不說,雖然不是專業播音,但由作者李彥宏本人親自講述,這套有聲書已經接近專業播音水準,且更有真情實感。

實際上,究其背後制作,這并不是由李彥宏自己在錄音棚配音完成,而是來自他的一位助理——人工智能(AI)。

AI在對李彥宏的一段不到1小時的錄音素材學習後,自動生成了這本超20萬字作品的逼真音頻版。

AI的新故事,藏在李彥宏的《智能交通》音頻書裡

你永遠可以相信AI在音視訊創作上的天賦。此前我們剛剛報道了AI修複張國榮2000年《熱·情》演唱會的案例,今天,AI又再次顯現出改變音頻産業的潛力。

那麼,AI是怎樣合成李彥宏的聲音的?背後又有什麼樣的技術難點?在本文中,我們通過對話這一項目的深度參與者,來解讀背後的技術和産業奧秘。

一、AI學習300句話後,幫李彥宏完成20萬字配音

首先,讓我們來聽幾個《智能交通》有聲書裡的片段,感受一下。

2015年,在李彥宏剛剛帶領團隊做自動駕駛兩年時,他就開始關注包括駕駛安全、道路擁堵等更宏大的交通方面的問題。7年後成書之際,他在《智能交通》裡坦言,自己看待自動駕駛的次元發生了顯著變化:

“随着我對交通問題的關注越來越深,看待自動駕駛的次元也發生了顯著的變化。百度的發展方向也從自動駕駛,逐漸延伸到車路協同、智能交通、數字城市營運。在這個過程中,有很多的實踐,也踩過很多的坑。但是,我越來越确定以下的事情。”

▲《智能交通》有聲書片段截取

“随着我對交通問題的關注越來越深,看待自動駕駛的次元也發生了顯著的變化。百度的發展方向也從自動駕駛,逐漸延伸到車路協同、智能交通、數字城市營運。在這個過程中,有很多的實踐,也踩過很多的坑。但是,我越來越确定以下的事情。”語氣懇切,語調自然起伏。

那麼李彥宏确定了什麼事情呢?他在書中娓娓道來:

“一個智能交通系統,可以大大降低交通事故發生的機率。大約94%的交通事故是人為因素導緻的,包括上面講過的酒駕等危險駕駛行為。我相信,随着時間的推移,人們會越來越認識到,自動駕駛比人類駕駛更安全些。而随着無人駕駛進一步成熟,“聰明的車”、“智能的路”、車路協同、智能的交通管理系統等,都會讓交通事故發生的機率降低,無論是騎自行車的人、騎機車的人,還是步行的人,出行都更加安全。”

▲《智能交通》有聲書片段截取

“解決擁堵問題隻能靠“限購”“限行”嗎?我認為,可以通過智能交通更好地解決。通過測算,以車路協同為基礎的智能交通,将能夠提升15%—30%的通行效率,5年之内,中國的一線城市将不再需要“限購”“限行”;10年之内,靠交通效率的提升,基本上擁堵問題就可以解決了。。”

▲《智能交通》有聲書片段截取

擁堵問題,也可以通過智能交通更好地解決。“通過測算,以車路協同為基礎的智能交通,将能夠提升15%—30%的通行效率……10年之内,靠交通效率的提升,基本上擁堵問題就可以解決了。”

“越來越大的城市、越來越多的汽車、越來越多的人口,讓交通問題變得前所未有的迫切、前所未有的嚴峻。這也是本書出版的初衷,為交通安全、交通擁堵、碳排放等問題,尋找最優解,讓我們每個人的出行變得安全、高效、經濟和綠色”

▲《智能交通》有聲書片段截取

而在自序的最後,李彥宏還講述到自己寫這本書的初衷——“越來越大的城市、越來越多的汽車、越來越多的人口,讓交通問題變得前所未有的迫切、前所未有的嚴峻。這也是本書出版的初衷,為交通安全、交通擁堵、碳排放等問題,尋找最優解,讓我們每個人的出行變得安全、高效、經濟和綠色。”

總之,聽完這個李彥宏親自講述的自序,我已經被成功安利了這本書。

因為這就好像李彥宏本人親自在來到我身邊,真誠懇切地述說這些年他的所見、所聞、所想,也邀我一起打開這幅智慧交通變革的大畫卷。這本書會探讨智能交通解決三大問題、六大創新理念,以及智能交通7個領域12個案例,作者本人李彥宏的講述都會陪伴着我去一一解鎖它們。

而當我知道“配音”工作其實由總裁AI助理完成的時候,更是對背後的技術産生了興趣。

因為它完全不像印象中的AI語音,非常呆闆、僵硬,仿佛不這樣就不能表現出這是人工智能一樣。但本次的《智能交通》有聲書,卻幾乎聽不出來機器合成的痕迹。

本項目的參與者告訴我們,這次《智能交通》的語音合成項目,隻是基于李彥宏參加某訪談節目中的1小時視訊内容完成。其中的可用資料隻有約300句左右,訓練語料少,可以說與此前我們看到的AI合成語音有很大的進步。

二、方言英語都搞定,AI“舉一反三”的奧秘是什麼?

AI生成這樣一本音頻書大概需要多久呢?

這位項目人士告訴我們,整體制作僅花了大概2-3天的時間,這是遠低于專業配音演員親自參與的。

簡單來說,整個項目流程主要分為模型制作和音頻生成兩步:

1、AI模型制作,大概需要花費幾天時間。其中流程包括資料音字标注、特征提取和模型訓練。

2、AI生成《智能交通》音頻,一本書接近20萬字,隻需數小時就可以生成完畢。

項目人士告訴我們:“目前大部分流程都是自動化的,資料音字标注部分需要人工操作,從耗時講,自動化比例占80%以上。”可以看到,AI在合成《智能交通》作者聲音這件事情上,是遊刃有餘。

不過,在這個項目中,AI其實也遇到了一些難題。

其中,最大的難題主要還是如何解決訓練語料數量少、品質低和期望得到媲美原聲的合成效果之間的沖突。

具體來說:

首先,如何隻利用300句話,高度還原李彥宏的說話風格?為此,團隊使用了百度最新研發的端到端細粒度模組化技術,可以更加高效的利用資料,提升風格還原度。

然後,如何隻利用中文資料,合成出音色、風格一緻的中、英文混合播報效果?團隊引入了獨創的解耦式模組化技術,它可以對說話的内容、風格、音色進行區分,并獨立模組化,通過大資料的學習,遷移英文能力。

接着,如何隻利用少量單一語境的資料,保證各語境下合成效果的流暢自然?團隊則采用了百度研發的前後端聯合模組化技術,依托百度在語言處理上的優勢,聯合學習了大量不同文本語境下的發音方式。

除此之外,針對訓練語料音質不好的問題,團隊還采用了百度獨創的通用聲碼器合成技術,以修複錯誤發音并提升合成音頻的品質。

總的來說,AI要成功來為你讀書,還是需要很強的“舉一反三”的能力的。

AI合成語音的效率是沒的說了,那麼如何來衡量效果品質呢?

該項目人員告訴我們,百度基于專業的MOS評測來考察最終的合成效果,主要包括以下幾個次元:

1、可懂度——播報是否能讓使用者聽懂,發音是否正确。

2、流暢度——字與字、句子成分之間的連接配接是否流暢自然。

3、拟人度——音色還原度是否與原聲相近,音質水準是否滿意。

最終的結果顯示,在以上幾大評測緯度中,此次AI合成語音的得分甚至明顯優于用來對比的原始錄音。

據悉,目前百度已面向企業使用者提供不同領域、不同規模的私有化合成服務部署,支援300句定制化合成技術。

三、AI成“外挂”,讓普通人勝任專業播音

其實,近年來,我們已經看到了不少AI合成語音進入應用場景中。

比如,在百度地圖上線各家明星的語音包,是由AI學習明星的說話風格後生成。還比如,一些智能音箱廠家也公布過學習主人喜愛的聲音,來自定義語音助手的功能,不過這一功能好像還沒有大範圍推廣應用。

本次百度項目的相關人士告訴我們,近年來,AI語音合成已從自然、流暢的大庫語音合成,走向追求拟人度的高表現力語音合成,走向追求小資料量的個性化、定制化語音合成以及支援風格遷移的多風格語音合成。

這位項目人士回顧,百度的語音合成在2019年進入到了全面深度化的階段,此時無論是前端的文本處理技術,還是後端的聲學、聲碼器技術,都已經更新到了深度學習的新技術架構。

團隊花了約半年時間,推進了各業務線的産品更疊,也在産品更新中發現了諸如文本錯誤如何快速修複,英文與中文發音風格不一緻,新音庫的制作周期長,發音人的風格少等問題。正當團隊準備着手解決的時候,新冠疫情不期而至。

發音人在家中無法錄制新資料,資料源頭斷了大半;第三方資料公司停擺,資料标注工作進展緩慢……最終,團隊開啟了向少量資料、少量人工參與的合成方案突進,并嘗試降低合成系統對訓練語料的敏感度。

不能錄制英文,那就考慮從别的英文發音人那裡借鑒;沒有專業錄音棚,就在家裡錄制低品質資料,或者直接從網上已有的音視訊節目裡抽取;資料标注困難,就研發無需韻律标注的語音合成技術;至于制作周期長,就把制作過程流程化、自動化。

可以說,新冠疫情從一個側面,加快了百度語音合成技術向自動化方向的發展。

而将視野拉得更遠一些,過去十幾年,從自然語言處理到語音互動領域,百度已投入了大量研發資源。目前,百度在業内首批實作大規模離/線上部署全深度神經網絡合成,并在系統響應時間、高并發及可靠性方面處于行業領先地位,支援百度資訊流、小度音箱、百度地圖等數十億次的合成請求。

從今天我們聚焦的AI合成語音技術來看,百度擁有業内第一個9句小資料量個性化語音合成技術,隻需要5分鐘的等待,就可以實作對使用者聲音的複刻。該技術已在百度地圖支援超過600位明星紅人入駐語音廣場,實作個性化定制語音包,每日播放次數達2億。

目前,百度的AI合成語音技術已經逐漸推進落地到百度的各個産品線中,包括智能呼叫中心、個性化語音導航、新聞播報、多情感有聲小說、車載語音互動、智能家居助手等等。

結語:AI合成語音,智能助手“新故事”

作為人工智能技術的一顆“明珠”,智能語音正在孕育一個新故事——用AI合成語音,能用到個性化導航、多情感有聲小說、智能家居助手等衆多具有人機互動想象空間的場景。

百度在這一領域深耕多年,目前已實作5分鐘9句小資料合成語音的工具鍊,并且面對企業客戶提供300句話實作語音合成的服務。

百聞不如一試,從效果來看,AI語音生成可以說已經栩栩如生。相信不久之後,每一個普通人都可以享受這種AI“打工”服務。

繼續閱讀