AI的新故事，藏在李彥宏的《智能交通》音頻書裡

智東西（公衆号：zhidxcom）作者 | 李水青編輯 | 漠影

近日，百度董事長兼CEO李彥宏新書《智能交通》的音頻版上線喜馬拉雅APP，值得一提的是，它是由李彥宏親自獻聲。

打開音頻，隻聽到一個幹淨、富有磁性而不失溫柔的聲音娓娓講述，這些年來發生在人、車、路之間的無聲變化，讓人似乎親眼看見這場或許影響人類未來10-40年的重大變革的場景。

“涉足自動駕駛、智能交通這些年，我到過全國很多城市，感受到交通的點滴變化。小到交通信号燈的控制優化，大到搭建城市交通AI引擎；從公交到地鐵，從公路到港口，交通各行業、各領域都在開展智能化嘗試，局部的效率改善比比皆是。”

▲《智能交通》有聲書片段截取

不得不說，雖然不是專業播音，但由作者李彥宏本人親自講述，這套有聲書已經接近專業播音水準，且更有真情實感。

實際上，究其背後制作，這并不是由李彥宏自己在錄音棚配音完成，而是來自他的一位助理——人工智能（AI）。

AI在對李彥宏的一段不到1小時的錄音素材學習後，自動生成了這本超20萬字作品的逼真音頻版。

你永遠可以相信AI在音視訊創作上的天賦。此前我們剛剛報道了AI修複張國榮2000年《熱·情》演唱會的案例，今天，AI又再次顯現出改變音頻産業的潛力。

那麼，AI是怎樣合成李彥宏的聲音的？背後又有什麼樣的技術難點？在本文中，我們通過對話這一項目的深度參與者，來解讀背後的技術和産業奧秘。

一、AI學習300句話後，幫李彥宏完成20萬字配音

首先，讓我們來聽幾個《智能交通》有聲書裡的片段，感受一下。

2015年，在李彥宏剛剛帶領團隊做自動駕駛兩年時，他就開始關注包括駕駛安全、道路擁堵等更宏大的交通方面的問題。7年後成書之際，他在《智能交通》裡坦言，自己看待自動駕駛的次元發生了顯著變化：

“随着我對交通問題的關注越來越深，看待自動駕駛的次元也發生了顯著的變化。百度的發展方向也從自動駕駛，逐漸延伸到車路協同、智能交通、數字城市營運。在這個過程中，有很多的實踐，也踩過很多的坑。但是，我越來越确定以下的事情。”

▲《智能交通》有聲書片段截取

“随着我對交通問題的關注越來越深，看待自動駕駛的次元也發生了顯著的變化。百度的發展方向也從自動駕駛，逐漸延伸到車路協同、智能交通、數字城市營運。在這個過程中，有很多的實踐，也踩過很多的坑。但是，我越來越确定以下的事情。”語氣懇切，語調自然起伏。

那麼李彥宏确定了什麼事情呢？他在書中娓娓道來：

“一個智能交通系統，可以大大降低交通事故發生的機率。大約94％的交通事故是人為因素導緻的，包括上面講過的酒駕等危險駕駛行為。我相信，随着時間的推移，人們會越來越認識到，自動駕駛比人類駕駛更安全些。而随着無人駕駛進一步成熟，“聰明的車”、“智能的路”、車路協同、智能的交通管理系統等，都會讓交通事故發生的機率降低，無論是騎自行車的人、騎機車的人，還是步行的人，出行都更加安全。”

▲《智能交通》有聲書片段截取

“解決擁堵問題隻能靠“限購”“限行”嗎？我認為，可以通過智能交通更好地解決。通過測算，以車路協同為基礎的智能交通，将能夠提升15％—30％的通行效率，5年之内，中國的一線城市将不再需要“限購”“限行”；10年之内，靠交通效率的提升，基本上擁堵問題就可以解決了。。”

▲《智能交通》有聲書片段截取

擁堵問題，也可以通過智能交通更好地解決。“通過測算，以車路協同為基礎的智能交通，将能夠提升15％—30％的通行效率……10年之内，靠交通效率的提升，基本上擁堵問題就可以解決了。”

“越來越大的城市、越來越多的汽車、越來越多的人口，讓交通問題變得前所未有的迫切、前所未有的嚴峻。這也是本書出版的初衷，為交通安全、交通擁堵、碳排放等問題，尋找最優解，讓我們每個人的出行變得安全、高效、經濟和綠色”

▲《智能交通》有聲書片段截取

而在自序的最後，李彥宏還講述到自己寫這本書的初衷——“越來越大的城市、越來越多的汽車、越來越多的人口，讓交通問題變得前所未有的迫切、前所未有的嚴峻。這也是本書出版的初衷，為交通安全、交通擁堵、碳排放等問題，尋找最優解，讓我們每個人的出行變得安全、高效、經濟和綠色。”

總之，聽完這個李彥宏親自講述的自序，我已經被成功安利了這本書。

因為這就好像李彥宏本人親自在來到我身邊，真誠懇切地述說這些年他的所見、所聞、所想，也邀我一起打開這幅智慧交通變革的大畫卷。這本書會探讨智能交通解決三大問題、六大創新理念，以及智能交通7個領域12個案例，作者本人李彥宏的講述都會陪伴着我去一一解鎖它們。

而當我知道“配音”工作其實由總裁AI助理完成的時候，更是對背後的技術産生了興趣。

因為它完全不像印象中的AI語音，非常呆闆、僵硬，仿佛不這樣就不能表現出這是人工智能一樣。但本次的《智能交通》有聲書，卻幾乎聽不出來機器合成的痕迹。

本項目的參與者告訴我們，這次《智能交通》的語音合成項目，隻是基于李彥宏參加某訪談節目中的1小時視訊内容完成。其中的可用資料隻有約300句左右，訓練語料少，可以說與此前我們看到的AI合成語音有很大的進步。

二、方言英語都搞定，AI“舉一反三”的奧秘是什麼？

AI生成這樣一本音頻書大概需要多久呢？

這位項目人士告訴我們，整體制作僅花了大概2-3天的時間，這是遠低于專業配音演員親自參與的。

簡單來說，整個項目流程主要分為模型制作和音頻生成兩步：

1、AI模型制作，大概需要花費幾天時間。其中流程包括資料音字标注、特征提取和模型訓練。

2、AI生成《智能交通》音頻，一本書接近20萬字，隻需數小時就可以生成完畢。

項目人士告訴我們：“目前大部分流程都是自動化的，資料音字标注部分需要人工操作，從耗時講，自動化比例占80%以上。”可以看到，AI在合成《智能交通》作者聲音這件事情上，是遊刃有餘。

不過，在這個項目中，AI其實也遇到了一些難題。

其中，最大的難題主要還是如何解決訓練語料數量少、品質低和期望得到媲美原聲的合成效果之間的沖突。

具體來說：

首先，如何隻利用300句話，高度還原李彥宏的說話風格？為此，團隊使用了百度最新研發的端到端細粒度模組化技術，可以更加高效的利用資料，提升風格還原度。

然後，如何隻利用中文資料，合成出音色、風格一緻的中、英文混合播報效果？團隊引入了獨創的解耦式模組化技術，它可以對說話的内容、風格、音色進行區分，并獨立模組化，通過大資料的學習，遷移英文能力。

接着，如何隻利用少量單一語境的資料，保證各語境下合成效果的流暢自然？團隊則采用了百度研發的前後端聯合模組化技術，依托百度在語言處理上的優勢，聯合學習了大量不同文本語境下的發音方式。

除此之外，針對訓練語料音質不好的問題，團隊還采用了百度獨創的通用聲碼器合成技術，以修複錯誤發音并提升合成音頻的品質。

總的來說，AI要成功來為你讀書，還是需要很強的“舉一反三”的能力的。

AI合成語音的效率是沒的說了，那麼如何來衡量效果品質呢？

該項目人員告訴我們，百度基于專業的MOS評測來考察最終的合成效果，主要包括以下幾個次元：

1、可懂度——播報是否能讓使用者聽懂，發音是否正确。

2、流暢度——字與字、句子成分之間的連接配接是否流暢自然。

3、拟人度——音色還原度是否與原聲相近，音質水準是否滿意。

最終的結果顯示，在以上幾大評測緯度中，此次AI合成語音的得分甚至明顯優于用來對比的原始錄音。

據悉，目前百度已面向企業使用者提供不同領域、不同規模的私有化合成服務部署，支援300句定制化合成技術。

三、AI成“外挂”，讓普通人勝任專業播音

其實，近年來，我們已經看到了不少AI合成語音進入應用場景中。

比如，在百度地圖上線各家明星的語音包，是由AI學習明星的說話風格後生成。還比如，一些智能音箱廠家也公布過學習主人喜愛的聲音，來自定義語音助手的功能，不過這一功能好像還沒有大範圍推廣應用。

本次百度項目的相關人士告訴我們，近年來，AI語音合成已從自然、流暢的大庫語音合成，走向追求拟人度的高表現力語音合成，走向追求小資料量的個性化、定制化語音合成以及支援風格遷移的多風格語音合成。

這位項目人士回顧，百度的語音合成在2019年進入到了全面深度化的階段，此時無論是前端的文本處理技術，還是後端的聲學、聲碼器技術，都已經更新到了深度學習的新技術架構。

團隊花了約半年時間，推進了各業務線的産品更疊，也在産品更新中發現了諸如文本錯誤如何快速修複，英文與中文發音風格不一緻，新音庫的制作周期長，發音人的風格少等問題。正當團隊準備着手解決的時候，新冠疫情不期而至。

發音人在家中無法錄制新資料，資料源頭斷了大半；第三方資料公司停擺，資料标注工作進展緩慢……最終，團隊開啟了向少量資料、少量人工參與的合成方案突進，并嘗試降低合成系統對訓練語料的敏感度。

不能錄制英文，那就考慮從别的英文發音人那裡借鑒；沒有專業錄音棚，就在家裡錄制低品質資料，或者直接從網上已有的音視訊節目裡抽取；資料标注困難，就研發無需韻律标注的語音合成技術；至于制作周期長，就把制作過程流程化、自動化。

可以說，新冠疫情從一個側面，加快了百度語音合成技術向自動化方向的發展。

而将視野拉得更遠一些，過去十幾年，從自然語言處理到語音互動領域，百度已投入了大量研發資源。目前，百度在業内首批實作大規模離/線上部署全深度神經網絡合成，并在系統響應時間、高并發及可靠性方面處于行業領先地位，支援百度資訊流、小度音箱、百度地圖等數十億次的合成請求。

從今天我們聚焦的AI合成語音技術來看，百度擁有業内第一個9句小資料量個性化語音合成技術，隻需要5分鐘的等待，就可以實作對使用者聲音的複刻。該技術已在百度地圖支援超過600位明星紅人入駐語音廣場，實作個性化定制語音包，每日播放次數達2億。

目前，百度的AI合成語音技術已經逐漸推進落地到百度的各個産品線中，包括智能呼叫中心、個性化語音導航、新聞播報、多情感有聲小說、車載語音互動、智能家居助手等等。

結語：AI合成語音，智能助手“新故事”

作為人工智能技術的一顆“明珠”，智能語音正在孕育一個新故事——用AI合成語音，能用到個性化導航、多情感有聲小說、智能家居助手等衆多具有人機互動想象空間的場景。

百度在這一領域深耕多年，目前已實作5分鐘9句小資料合成語音的工具鍊，并且面對企業客戶提供300句話實作語音合成的服務。

百聞不如一試，從效果來看，AI語音生成可以說已經栩栩如生。相信不久之後，每一個普通人都可以享受這種AI“打工”服務。

AI的新故事，藏在李彥宏的《智能交通》音頻書裡

繼續閱讀

AI到底有多可怕？人工智能繪畫Midjourney火了

劉澍泉對話周光:順應人工智能2.0，端到端讓自動駕駛更有“人味”

人工智能會搶走工作嗎？

航空航天的未來在AI？美國NASA任命首位首席人工智能官

人工智能與競争法規制路徑

人工智能驅動的“深度醫學”正在變革目前醫療保健實踐

日媒觀察：中國雲服務提供商仍在等待人工智能的雨露滋潤

人工智能向新而行，行業大模型推動新質生産力，賦能千行百業

人工智能助手感悟親情：孫衛東博士的孤獨流浪與家庭紐帶之重要性

人工智能與外星文明，人類未來的兩個威脅，哪個會先到來？

以色列上校将中國做為假想敵，提醒防範中國的人工智能網絡攻擊

《我是領袖》AI人工智能探索未來

抓住人工智能這個“牛鼻子”，加快培育發展新質生産力

觀點｜人工智能時代博物館如何緻力于教育和研究

人工智能發展如何影響勞動力就業

2024 年十大人工智能晶片制造公司