雷鋒網消息,目前我們正處于5G爆發的邊緣,5G與AI的結合将真正促使AIoT智慧物聯的落地與實作。可以預見的是,未來巨量的多元資料(如語音、圖像、視訊等)集中處理與邊緣式分布計算的需求,将進一步挑戰AI晶片的計算能力。
2019年1月2日,雲知聲在北京召開新聞釋出會,正式公布了其多模态AI晶片戰略與規劃,并同步曝光了在研的三款定位不同場景的AI晶片。
AIoT造就AI晶片新形态
2018年,“多模态”逐漸成為了業界研究的一個重點。如果把模态了解為感官,那麼多模态即是調用多種感官的互動方式,它跨過了自然語言,其方式也更加貼近人,是AI未來的一個發展方向。

雲知聲創始人兼CEO黃偉認為,随着AIoT場景的逐漸豐富,未來應用對于端雲互動有更強的需求,二者需要緊密結合,這要求對晶片設計和雲端架構進行統一考量,具備多元度AI資料集中處理能力的多模态AI晶片将成必由之路。雲知聲接下來将依托AI算法與AI晶片建構場景優勢,關鍵就在于多模态AI晶片戰略。
基于此,雲知聲進一步對傳統SoC(System on Chip)概念提出全新定義,其中S代表不同的AI服務能力即Skills,O代表雲端與邊緣側的互動On/Off Cloud,C代表具備智能處理能力的AI晶片。
同時,雲知聲釋出了DeepNet2.0多模态人工智能核心IP,其AI處理能力也從1.0的語音進化到2.0的多模态,支援語音、圖像等處理能力。DeepNet2.0可相容LSTM/CNN/RNN/TDNN等多種推理網絡,支援可重構計算與Winograd處理,最高可配置算力達4Tops。目前雲知聲DeepNet2.0已在FPGA上得到驗證,将在今年的全新多模态AI晶片海豚(Dolphin)上落地。
在會後的交流中,黃偉特别向雷鋒網強調“多模态不是為了做視覺而做視覺,而是産品真正需要這種能力”。他以自動駕駛為例,可以通過面部圖像識别司機注意力是否集中、是否疲勞駕駛,并根據識别結果提醒司機安全駕駛。“又如夜間行車時視野不如白天清晰,這時如果有實時圖像增強的幫助就能大大提升安全性。”
多模态演進之路
作為一家國内領先的AI企業,雲知聲2014年開始切入物聯網AI硬體晶片方案(IVM),并于2015年開始量産出貨。在深入場景提供服務的過程中,為彌補通用晶片方案在給定成本和功耗條件下的能效比問題,以及在邊緣算力、多模态AI資料處理方面的能力短闆,2015年雲知聲正式啟動自研AI晶片計劃。
去年5月,雲知聲推出業内首款面向IoT的AI晶片UniOne及其解決方案雨燕(Swift),加速商業擴張與應用。該晶片采用雲知聲自主AI指令集,擁有具備完整自主知識産權的DeepNet1.0、uDSP(數字信号處理器),并支援DNN/LSTM/CNN等多種深度神經網絡模型,性能較通用方案提升超50倍。
雲知聲聯合創始人李霄寒曾指出,“UniOne不是一顆晶片,而是一系列晶片,它代表了雲知聲對于物聯網AI晶片發展戰略的整體構想”。在今天的釋出會上,李霄寒再次從三方面論證了物聯網多模态AI晶片的必要性。他認為,目前物聯網産品線的AI晶片越來越明顯地展現出三個趨勢:
場景化:晶片設計正在由原來的片面追求PPA,即性能(Power)、功耗(Performance)和面積(Area),逐漸演變成基于軟硬一體,甚至包括雲端服務的方式來解決某個垂直領域的具體問題,晶片本身上升成為整個解決方案中的重要部分,而非唯一;
端雲互動:在物聯網的不同應用場景下,海量終端裝置要實作功能智能化必須端雲配合,即形成邊緣算力和雲端算力的動态平衡。端雲互動的命題需要AI晶片的強有力支援,進一步也深刻影響到晶片的設計,以及最終的傳遞;
資料多模态:在以5G驅動的萬物智聯場景下,晶片所接觸到的資料次元将由原來的單一化走向多元化,晶片所需處理的資料也由單模态變成多模态,這對晶片尤其是物聯網人工智能晶片的設計提出了新的挑戰。
以此來看,面向物聯網終端場景的AI晶片核心是解決垂直場景問題的能力,其呈現形式将不再是一個單一的硬體,而是承載着邊緣能力與雲端能力的多模态AI軟硬一體解決方案。
三款晶片蓄勢待發
在首款量産晶片雨燕已有大批客戶導入,占領市場先發優勢的背景下,2019年雲知聲在晶片落地規劃方面仍将保持積極态度。
李霄寒向雷鋒網(公衆号:雷鋒網)透露,在持續疊代更新現有雨燕晶片的性能與服務之外,目前雲知聲多款面向不同方向的晶片也已在研發中,包括适用性更廣的超輕量級物聯網語音AI晶片雨燕Lite、可面向智慧城市場景提供對語音和圖像等多模态計算支援的多模态AI晶片海豚(Dolphin),以及與吉利集團旗下生态鍊企業億咖通科技共同打造的面向智慧出行場景的多模态車規級AI晶片雪豹(Leopard),三款晶片計劃于2019年啟動量産。
為實作多模态AI晶片的戰略落地,目前雲知聲已在加速技術布局,并在機器視覺方面取得飛速進展。其中,面向機器視覺的輕量級圖像信号處理器已可實作在不依賴外部記憶體的情況下,在30fps的速率下實時對傳感器的圖檔進行預處理,以進一步提高後續機器視覺處理子產品的處理速度和效果。
據悉,借助基于人臉資訊分析的多模态技術,已可實作人臉/物體識别、表情分析、标簽化、唇動狀态跟蹤等功能,可為産品互動和使用者體驗提供更多的可玩性和靈活性。
此外,在圖像與晶片技術的産學研合作方面,雲知聲還與杜克大學所上司的美國自然科學基金旗下唯一人工智能計算中心ASIC達成深度合作,緻力于AI晶片算法壓縮與量化技術,以及非馮·諾依曼架構的新型AI晶片計算架構研究,将進一步為雲知聲多模态AI晶片戰略的推進夯實基礎。
目前,依托在家居、車載等真實場景下豐富的産品經驗,以及具備先發優勢的AI晶片能力,雲知聲将業務覆寫到包括智能家居、智能汽車、智能兒童機器人、智慧酒店、智慧交通等諸多場景。未來雲知聲将持續發力多模态AI晶片,不斷拓展技術與場景生态,以實作面向未來AIoT時代的全面賦能。