文 / 李先剛
策劃 / LiveVideoStack
LiveVideoStack:李先剛你好,非常榮幸代表LiveVideoStack采訪你。能否向LiveVideoStack的讀者介紹下自己,以及目前關注的領域。
李先剛:我目前任職于滴滴出行AI Labs首席算法工程師,負責滴滴語音相關的技術和應用,關注的領域包括語音相關前沿算法(包括語音識别、說話人識别和自然語言處理等)和他們的産業應用(尤其是在出行場景中的應用)。
LiveVideoStack:大家對滴滴的了解可能還限于“一家出行服務公司”,作為一名工程師,你看到的滴滴是什麼樣的?與國内外其他科技公司相比有什麼不同?
李先剛:滴滴作為移動網際網路巨頭,一直以來都緻力于“讓出行更美好”。平台連接配接了大量的司機和乘客,在這個過程中,怎麼樣通過技術手段來為使用者提供更好的服務,并賦能平台上的司機,提升其服務、營運效率和收入,一直以來都是滴滴技術團隊在努力的方向。
從技術層面上來看,與大多數網際網路公司不同,滴滴的業務也是一個線上線下結合的公司。滴滴出行業務線下場景的複雜性,以及線下資料的豐富性,給技術帶來了非常大的挑戰,也給AI技術落地帶來了非常大的空間。例如,當司乘有糾紛投訴的時候,行程中錄音會被用于責任判定的資料;而如何利用AI技術幫助客服人員提效,便是一個極富挑戰性的課題。
LiveVideoStack:我注意到你在北大讀博時就在研究語音識别和聲學模組化,在學校做研究與在企業中做研發和産品,最大的不同是什麼?
李先剛:在學校做研究和在企業中做研發,不太的地方還是蠻多的。首先是在研發驅動力方面,學校的研究更多來自于推動技術邊界,而企業的研發更多來自于基于技術手段解決企業所面臨的業務問題。例如,在企業,項目立項時會需要論證項目的業務價值,或許是提升使用者體驗,或許是提升企業的營運效率。有了立項,才有對應的研發資源去驗證。其次,在學校和企業中,推動研究工作時的優勢也會有所不一樣,企業往往會有明顯的資料和伺服器優勢。一方面,一般情況下,在企業中,尤其是大量的AI算法的應用中,通過增加資料規模得到性能收益往往相對确定;另外一方面,在企業中也會更加關注基于海量資料的算法性能的展現。
LiveVideoStack:過去九年,你一直專注在語音識别和聲學模組化領域,有沒有考慮過更換方向?或者更大膽的去創業呢?
李先剛:語音相關的技術方向一緻以來都是我專注的主要方向。一方面,深度學習技術已經使得語音的各個技術方向的性能都得到了顯著的提升,另外一方面,企業界也越來越重視語音相關的AI應用。進而,我也一直專注在語音相關的應用場景中的技術,例如:語音識别,說話人識别,語音合成,情緒識别,口語對話處理等。
語音這些年來也引來了其應用落地的黃金期,在方方面面都在産生其價值。以滴滴為例,語音技術就至少在三個方面起到了非常大的應用:語音智能客服,車載語音互動以及遇到糾紛投訴時基于行程中錄音資料更好地判責,賦能業務管控。這些應用也對語音技術提出了越來越高的要求,這也是我過去幾年一直在努力推動的方向。
LiveVideoStack:您可介紹下,AI技術對于語音識别、聲學模組化帶來了哪些變化?最新的研究趨勢是怎樣的?
李先剛:AI技術使得語音識别等任務的基礎性能都得到顯著的提升。在企業中,在一些場景下,甚至會有這樣的預期,隻要能夠建構起資料回流的正向循環,其系統的性能就會不斷地提升。這也是深度學習的強大之處,隻要有足夠多的資料,企業的研發人員并不用擔心深度學習模型最終學到的模型性能。
而從研究角度,語音聲學模組化中的AI技術過去幾年也一直在不斷突破着,包括最初在HMM結構下研究采用不同的神經網絡結構,而後開始從HMM到CTC再到Attention,深度學習技術也給語音技術架了一座橋,拉進了語音任務和圖像還有NLP等任務的距離,使得研究者們能夠有機會更多地借鑒相關領域的研究突破。
LiveVideoStack:語音識别、聲學模組化還存在哪些瓶頸或難點待突破?
李先剛:目前,得益于深度學習的強大,當資料足夠充分的情況下,很多語音識别任務的性能都能達到一個還比較不錯的水準。但在一些特殊場景下,依然還需要突破。例如code-switch的場景,一個典型的例子,上海地區會發現這樣的情況,一段話中,上海話,國語,英語,随時切換。例如在複雜的會場場景,尤其是面對所謂類似的雞尾酒會場景時。随着語音技術的疊代,研究者們也逐漸将研究精力越來越多地投入到了這些更複雜的場景中。
LiveVideoStack:我在工作中使用過國内一些主流的語音轉文字服務,在環境音嘈雜或遠場情況下,識别的效果就大打折扣。如何改進這一狀況?
李先剛:這裡所提到的語音轉文字服務,其實也可以從兩個方面來看。首先是從企業角度,流量和需求大的應用往往能夠得到更多的企業資源來打磨更好的服務。由于語音識别性能是需要依托于特定場景來談的。可以看到,例如語音輸入法,語音搜尋,智能音箱,這些裝置的語音識别效果都已經很不錯了。這些場景都帶有大量的使用者需求和使用者價值,各大公司也很快積累了大量的針對性的語音訓練資料。而其他場景,由于其訓練資料的積累相對慢,其性能也相對差。
其次,從技術角度,如果需要做好一款針對記者的轉文字服務,也得考慮下該服務需要面臨的挑戰,會涉及到相對口語化的說話風格,以及是否需要使用特殊硬體裝置實作嘈雜或遠場情況下的拾音,等等。
LiveVideoStack:能否展望未來幾年語音識别、聲學模組化的發展成果,對于滴滴使用者而言,會有哪些體驗提升?
李先剛:随着研究者們的努力,可以相信,未來幾年,語音識别在更多複雜場景下的語音識别性能也将取得顯著的提升。滴滴的語音應用,可以作為出行場景與語音技術結合的典型案例。具體地,在司乘遇到糾紛投訴時,通過語音技術實作對司乘糾紛責任識别,更好地賦能業務管控;在客服場景,通過語音互動技術實作智能輔助以及客服質檢的自動化;在車載智能互動場景,通過打造針對司機營運相關的車載語音助手提升體驗。随着語音技術的性能提升,可以預期,平台營運效率的提升将使得平台體驗顯得更規範,客服效率的提升也會使得滴滴對司乘的服務更到位,車載語音助手則會能夠真正逐漸成為司機們工作時的助手。
LiveVideoStack:在擷取使用者(語音)資料的同時,如何保護好使用者的隐私,以及保證使用者資料不被濫用,您看到了哪些技術手段或規則?
李先剛:使用者資料的隐私問題一直以來都是一個需要重點關注的問題。據我所看到的,大公司針對使用者的資料安全都是非常重視的,其實國家相關法律也都是有明确規定的。例如在滴滴,行程中錄音需要乘客授權,首先如無行程糾紛,七天後會自動删除,其次也隻有在有糾紛投訴并獲得使用者授權的情況下,相關從業人員才會調取,内部也有嚴密的流程和規範。
LiveVideoStack:分享最近看的一本書或一部電影吧。
李先剛:推薦一本書《原則》
————————————————
版權聲明:本文為CSDN部落客「LiveVideoStack_」的原創文章,遵循CC 4.0 BY-SA版權協定,轉載請附上原文出處連結及本聲明。
原文連結:
https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/96060378「視訊雲技術」你最值得關注的音視訊技術公衆号,每周推送來自阿裡雲一線的實踐技術文章,在這裡與音視訊領域一流工程師交流切磋。
