天天看點

阿裡全資收購先聲互聯 前中科院聲學大牛付強帶隊加盟

一支曾被媒體稱為“扼住了智能音箱咽喉”的研發團隊,近日加盟阿裡巴巴。

近日,阿裡對北京先聲互聯科技有限公司(以下簡稱先聲互聯)進行全資收購,先聲互聯創始人、中科院聲學所前研究員付強博士入職阿裡達摩院機器智能技術實驗室,負責語音互動前端處理技術和方案的研發。

和付強一同入職的,包括先聲互聯創始團隊的多名資深專家,他們多為付強在中科院的原班人馬,其中有一位來自著名的杜比實驗室。

付強帶隊加盟,将成為阿裡IoT場景落地的關鍵一環

先聲互聯是國内最早從事語音增強、遠講語音互動接口技術的團隊,曾為阿裡、百度、小米等多家公司提供遠講語音互動軟硬體的解決方案。

付強及團隊在語音增強等領域創造了多項國内第一,甚至打破了國外的技術壟斷。創始人付強擁有二十餘年語音信号處理研發經曆,在美國OGI等語音研究機構從事過博士後工作,曾牽頭完成了國家自然科技基金國家、省部委幾十項科研課題,在包括IEEE Trans.在内的國際權威學術刊物上發表論文近百篇,發明專利近二十項,多項成果被相關部委列裝。

4月初,阿裡宣布全面進軍物聯網領域。付強帶領聲學團隊加入,将成為阿裡IoT場景落地的關鍵一環。

去年下半年,前寶利通首席工程師馮津偉加入阿裡,進行上海地鐵語音售票機的研發,這是全球首個強嘈雜環境下的語音互動産品。

付強加盟後将整合資源,推動語音識别技術的場景落地,形成軟硬結合、端雲一體的商用方案。他還将籌建兩個實體聲學實驗室。

4月20日,阿裡全資收購大陸唯一的自主嵌入式CPU IP Core公司中天微,很多技術也是面向IoT領域。

“阿裡IoT戰略必須要做資源可控、技術可控、擁有核心競争力的事情。”阿裡巴巴CTO張建鋒說,這也是達摩院組建以來最重要的研究突破方向之一。

去年10月,阿裡宣布成立以“達摩院”為名的全球研究院,目前已在全球多點設立科研機構,立足基礎科學、颠覆性技術和應用技術研究。

将來會在語音專用晶片上有進展

問:先聲互聯總計多少技術人員會加盟阿裡?團隊陣容的介紹?

答:是全資收購,主要是技術、人才的收購。

加盟的技術人員加上我共5人,其中4人是聲學所原班人馬,也都是在該領域中技術沉澱較久,實際落地經驗非常豐富的。

團隊核心算法人員包括我之前帶的學生和從杜比實驗室出來跟我一起創業的。他們的共同特點都是能文能武,既能寫出IEEE trans.這樣的領域内國際頂級刊物學術文章,又能深入到實際産品研發。對貫徹理論到實踐的統一理念,起了重要的作用,也使得我們技術有自己的原創特色,并非跟随。

問:您為什麼選擇做聲學研究這條路線,為什麼後來選擇創業,為什麼選擇加入阿裡巴巴?

答:做語音處理是碩士起就開始了,至今已有20多年了。那時談不上選擇,就是導師的課題需要做語音就開始做了,那時做語音也并不吃香,雖然有機會轉别的方向,不過我喜歡做事做透,就一直做下來了。

“和有情有義的人,一起做有價值的事”,一直是我堅持的原則。有機會去實作自己的理想,自然也就沒什麼猶豫,選擇創業是這樣,選擇加入阿裡更是這樣。

問:先聲互聯此前研究和要解決的核心問題是?

答:語音互動,作為人機互動中最自然的方式,其真正的價值是讓人在無限制的場景說話,然而語音互動應用在實際的場合經常會受到背景噪聲、非平穩幹擾、裝置回聲、以及房間混響等聲學不利因素的影響。可以說,機器聽覺的噪聲魯棒性與人的聽覺機制比還是不少差距的。

先聲互聯綜合利用了多麥克風空間濾波、語音分離、解混響和聲源定位等多項基于實體模組化的信号處理技術,并融合了基于機器學習的資料模組化機制,甚至是語義層面的資訊,為複雜聲學條件下的語音互動提供前端處理技術和方案。

問:目前您負責研究的這一技術,在全球行業内的相對位置是怎樣的?在這一領域,中國和世界處在同一起跑線嗎?我們的相對優勢有哪些?

答:國内的相關技術積累并不落後,但缺乏成功的産品帶動。

我們在中科院聲學所時,團隊在前端處理技術環節上就比較成熟了,相比于國外這些産品級的技術并不落後,在信号處理與喚醒和識别等語義層面的資訊融合方面還是更進一步的,也暨此落地了不少實際産品,但由于語音互動技術鍊條很長,在缺乏對端到端互動系統流程把控和優秀的産品設計前提下,一些更好的想法很難展現出來。

相信在阿裡這個大平台會有更好的機會發揮價值。

問:目前在機器智能技術實驗室,有哪些重點攻克的難題或研發項目可以透露?

答:短期目标是幫助語音互動技術在多種場景和終端上落地,在複雜環境下保持正确的識别率。

從PC時代、移動網際網路時代,到物聯網時代,對人機自然互動、沉浸式的體驗越來越高。這對語音互動前端處理技術的挑戰是不同的。如:

阿裡全資收購先聲互聯 前中科院聲學大牛付強帶隊加盟

地鐵機場等場景:有人流聲音、有喇叭音,背景音嘈雜

阿裡全資收購先聲互聯 前中科院聲學大牛付強帶隊加盟

家庭場景:噪音沒那麼複雜,但涉及到混響、回聲處理

阿裡全資收購先聲互聯 前中科院聲學大牛付強帶隊加盟

車載場景:不遠不近、混響小,但涉及到胎噪、風噪等擴散場噪聲

在這些場景中,我們都有不同的終端産品已經或即将落地量産,在業界也都引起不小的影響。在這些已有成績的基礎上,我們會在技術深度和方案的可複制性上有更多的布局。

特别地,針對IoT化的智能家居的需求,我們正在研發基于小陣列語音增強技術的低功耗、低成本、高內建的端雲一體語音互動技術和硬體方案。随着阿裡在晶片上的戰略布局,我們也會在語音專用晶片上有更多進展。

問:關于未來,還有哪些計劃是可以透露的?

答:我和團隊最近在籌建專門用途的聲學實驗室。

這個聲學實驗室主要目的是用于複雜聲學環境下的語音互動系統線上端到端測試。

有别于現有的遠講語音互動測試認證方法,它的主要特色是基于多揚聲器系統聲場重建的原理在局部區域内建立真實的聲場,也就是說家庭、車載和戶外等場景的聲場條件,使得待測終端在實驗室内就能置于近似真實的聲場中。在此基礎上,更重要的是建立自動化的,包括前端信号處理能力、喚醒率、識别率乃至對話成功率的,全鍊路端到端測試系統和流程。該實驗室的建設和系統搭建,将會大大提升阿裡對語音互動IoT終端裝置賦能效率和産品品質。

問:目前我們機器“聽清”的能力,和人相比在一個怎麼的水準?機器的耳朵會比人更靈敏嗎?

答:現在實際的語音互動系統,尤其在遠講條件下,與人類的聽覺機制相比還是有不小的差距的,主要表現在極低信噪比和多人說話(所謂的雞尾酒會問題)的情況。

随着多模态融合和深度神經網絡模組化技術的進展,這些問題會有更好的解決方案,阿裡在這方面的技術布局也早就開始了。

原文釋出時間為:2018-05-3

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”。

原文連結:

阿裡全資收購先聲互聯 前中科院聲學大牛付強帶隊加盟

繼續閱讀