都說今年是“人工智能之年”,科大訊飛在迎來了年底收官之作。如果說,萬物互聯對坊間而言還是一個比較模糊的概念的話,那麼,今天下午,以“AI複始,萬物更新”為主題的科大訊飛2015年年度釋出會就是對人工智能的全景性思考。科大訊飛董事長劉慶峰現場指出,已經發展了60年的人工智能未來将迎來三種機遇:
第一,在萬物互聯的浪潮下,以語音為主、以鍵盤觸摸為輔的人機互動時代已經到來。未來3到5年,我們周圍的90%的裝置,将不是手機,而是穿戴式裝置、智能家居以及可能是服務機器人。這時候沒有螢幕離你很遠,不可能觸摸它,而語音為主的時代正在到來。
第二,人工智能未來一定會像水和電一樣無所不在,廣泛而深入到影響到我們每一個人生活。我們甚至認為在未來5年之内在這樣的會場,一定會有機器人給大家端茶倒水,否則這樣一個釋出會實在是太沒有科技含量。
第三,以語音和語言為入口的認知革命,将推動人工智能夢想成真,這是一條人工智能走認知計算的必由之路。
現場,劉慶峰釋出了基于語音互動技術基礎上的互動界面——AIUI,以及錄音寶、錄音筆、訊飛聽見網、智學網和E聽說等To C産品。
科大訊飛董事長劉慶峰
1956年的達特茅斯會議是人工智能研究的曆史起點,至今正好是一個60年甲子。在這60年中,人工智能研究本身經曆了兩次波峰與波谷,而從2006年起始至今愈發升溫的人工智能熱,是第三次人工智能浪潮,而當下,正處于人工智能爆發的前夜。在這第三次浪潮中,中國、美國和歐洲,不約而同地将人類大腦研究上升為國家戰略科研高度。
“人工智能未來會像水和電一樣無所不在”劉慶峰表示。而在人工智能的三個層次——計算智能、感覺智能和認知智能之中,前兩者機器的能力已經超越人類,讓機器實作認知智能是目前人工智能科研的焦點,這也是人差別于動物的最本質能力。
而從人類自身的發展來看,産生認知智能的标志是語言的廣泛使用。是以,在第三次人工智能浪潮中,世界上衆多的科學家都不約而同地從“自然語言了解”這個研究方向上,尋找人工智能的突破口,即從語音與語言入手實作機器的認知革命。科大訊飛也正是從這個方向上取得了成果。
從1998年成功研發出可實用的中文語音互動系統開始,至2014年釋出“訊飛超腦”的這17年間,科大訊飛的這些成果中,包括獲得NIST全球語種識别比賽的冠軍,包括獲得JWSLT機器翻譯評測冠軍,包括其産品在國内替代人工進行英語口語測試與國語級别考試,包括其産品在教育、車載、家居、通信、硬體和國家安全等衆多領域的産業化高速推進,并在這個過程中從一家大學生創業公司,成長成為目前市值超過500億的中國高科技公司。
AIUI:機器人未來能參加聯考
在産品釋出環節,劉慶峰首先定義了認知智能的三大核心支撐能力:人機互動、知識管理與推理學習。而随後科大訊飛釋出的訊飛超腦2.0科研項目,正是圍繞這三方面持續展開,不但賦予機器“能聽會說”的能力,還能賦予機器“能了解會思考”的能力,使機器人能夠同人一樣參加聯考。
而在訊飛超腦的産業化應用産品層面,劉慶峰釋出了對科大訊飛具有裡程碑意義的人機互動新産品——AIUI。劉慶峰認為,在實際上已經到來的“萬物互聯”時代,客觀上對人機互動提出了更高的要求。但是,一方面目前大多數裝置沒有螢幕并且與使用者之間有一定的距離,另一方面随時随地的多方互動的需求越發明顯。
于是,科大訊飛又在此次大會上定義了“萬物互聯”時代的人機語音互動标準,其基本能力應該包括三方面:遠場識别、全雙工、多輪互動。
AIUI內建了包括雙全工技術、麥克風陣列技術、聲紋識别技術、方言識别、語義了解技術和内容服務等——科大訊飛一些系列尖端科研成果和完善服務,代表業界最高水準的技術産品。開發者将可以一鍵擷取解決方案,通過內建麥克風陣列、內建SDK以及定制雲端服務等方式。
科大訊飛此次也将AIUI應用到了釋出會中,現場,所有發言人的演講被實時同步轉寫成文字,顯示在兩側大螢幕上。
也許你對年初那個被車載語音導航逼瘋的山東大漢還印象深刻,一個國語不标準的山東人,在環境嘈雜的車上,遠距離與不那麼智能的導航交流,産生的結果就是讓人抓狂的識别與互動。而本次釋出會上,科大訊飛通過遠場抗噪、方言識别、全雙工互動、多輪對話、糾錯等系列技術,成功打破了山東大漢的困境。
科大訊飛通過定位、麥克風波束形成、回聲消除、抗混響、喚醒一系列技術形成的系統解決了遠距離識别問題。其次,科大訊飛實作了人機對話控制由單工(如手機語音助手的按一下說一下)轉變成全雙工(人和機器可以像打電話那樣同時聽和說)的互動轉變。
多輪互動實作了機器對上下文連貫了解,使得人機交流不再是單調的一問一答,而是可以連續交流。再加上對話糾錯機制,人可以随時糾正對話中雙方的錯誤,使說過的話不再是覆水難收。通過以上一系列技術形成的系統,極大降低了環境、說法、習慣等對人機互動的幹擾,實作高度自然的人機互動體驗。
在訊飛超腦的應用層上,科大訊飛面向教育市場推出了智學網與E聽說。
目前,已有全國31個省市的8000萬師生在使用科大訊飛面向K12教育所推出的高科技教學與考評産品,希望解決“老師忙、學生盲、資源茫”的教育行業痛點。
具體産品方面,不僅實作了語音與文字的識别、合成與分類,還實作了智能批改、全科閱卷、資源庫自動建設等真正具備“人工智能”的産品目标,在教育資源的高效和個性化輔導方面做了試水。
劉慶峰表示,智學網與E聽說是之前推出的訊飛超腦的應用産品,未來還将有更多人工智能技術在C端教育市場發力。
目前,科大訊飛中文作文機器閱卷技術在2015年合肥、安慶中學會考上已經取得應用,人機閱卷對比結果顯示機器閱卷已經比人工閱卷更準确。
針對大型會議、現場采訪、個人交流等場景下的内容整理需求,科大訊飛內建了單麥克解混響技術、陣列解混響技術、口語化識别等衆多最新研究成果,全球首發語音科技産品——訊飛聽見錄音寶、錄音筆和訊飛聽見網。
劉慶峰表示,實際上,音文轉寫是當下都市生活的一種經常性需求,在正式釋出之前,錄音寶産品已經有了超過100萬的使用者就是這種需求的證明。而随着流媒體的不斷演進與普及,相信,在未來的圖文直播時代,科大訊飛的音文轉錄産品的價值将會更加凸顯。
在現場,科大訊飛還邀請了10家知名速記公司的從業人員,進行同台PK。從現場兩側大螢幕效果看,其速度和準确率可能會在未來淘汰很大一部分速記從業人員。
據悉,科大訊飛網能夠實作雙屏智能編輯、角色自動分離、音頻精準定位、快速按句回聽、發言實時上屏、格式多種多樣等功能;錄音寶能解決常見的錄音回聽不友善、導出錄音複雜、錄音檔案無法重命名等問題;錄音筆既增強了傳統錄音筆的錄音音質、播放效果,更配備智能語音轉文字服務。
從科大訊飛釋出的産品來看,訂票、改簽、開空調、關加濕器、批改作文等等一律完成,國語、英語、方言也都能分辨,俨然一個聰明的生活助手,并在沒有螢幕的情況下,通過語音完成互動。
正如劉慶峰所說,在實際上已經到來的“萬物互聯時代”,語音為主,觸摸、圖像、手勢為輔,将成為人機互動的新常态,而在這種人類生活的新常态中,人工智能技術的突破是用來延伸人類能力而非替代人類的。
原文出處:科技行者
轉載請與作者聯系,同時請務必标明文章原始出處和原文連結及本聲明。