天天看點

盤點麥克風技術及市場,遠場語音互動如何選型麥克風?

智能語音互動市場的火熱逐漸輻射到産業鍊的供應商,其中最直接受益就是作為聲音的傳感裝置——麥克風。特别是麥克風陣列的興起,未來可以讓麥克風廠家的銷量翻倍增長。在此之前,由于受制于智能手機和平闆電腦的增長速度下滑,樓氏、歌爾和瑞聲等麥克風廠商的股票相繼在2016年中旬左右創下了低谷。

2017年的語音互動局勢趨于明朗,資本市場專注研究智能語音互動的投資機構也明顯多了起來。那麼,這就有必要深入了解一下麥克風這個行業以及技術的趨勢。

麥克風作為業界通俗的一種叫法,是英文Microphone的音譯名稱,國内的稱呼亂一些,有時候也簡單稱作話筒,香港和台灣地區也會稱作微音器、拾音器。麥克風的中文學術名稱正式是譯作傳聲器,這是一種将聲音轉換成電子信号的換能器,即把聲信号轉成電信号,這其實和光電轉換的原理是完全一緻的。 

消費級市場的麥克風基本都是标量麥克風,也就說隻能采集單一的實體量資訊——聲壓。聲壓是指聲波通過媒質時,由振動所産生的壓強改變量,也可以了解為聲音的幅度或者強度。聲壓常用字母"p"表示,機關是帕斯卡(符号Pa)。聲壓的帕斯卡機關由于不友善記憶(比如20x10-6Pa~20Pa),一般就以對數尺衡量有效聲壓相對于一個基準值的大小來表示,即聲壓級,其機關是分貝(符号dB)。

人類對于1KHz的聲音的聽阈為20 x10-6Pa,通常以此作為聲壓級的基準值。這樣講可能晦澀難懂,我們來簡單的類比一下:人類的呼吸聲壓是60x10-6Pa左右,聲壓級大約10dB,火箭發射的聲壓是4000Pa左右,聲壓級大約165dB,閃光彈的聲壓超過1萬Pa,聲壓級大約175dB。 

分析上述這些晦澀難懂的數字,自然就引出麥克風的參數名額,其實我們關注的就是麥克風還原真實聲音的能力,這是一個很難的挑戰,因為聲電轉換即意味着失真。

為了描述麥克風的性能,有幾個性能名額是非常關鍵的,這包括了靈敏度、指向性、頻率響應、阻抗、動态範圍、信噪比、最大聲壓級(或AOP,聲學過載點)、一緻性等。這幾個名額其實都好了解,決定了麥克風的性能,而且每個名額都非常關鍵,缺一不可。當然這些名額相對于喇叭的T-S參數來說,真的是簡單的了許多。

麥克風是典型的傳感器産業,其技術疊代非常迅速,外觀也發生了不少變化,估計很多人從下面的麥克風陣列中準确找到麥克風就很困難。

現在麥克風陣列主要使用的是數字MEMS麥克風,其最長尺寸僅有3.76MM。MEMS麥克風也是手機中大量使用的傳感器件,一般手機至少有2個以上這類麥克風。MEMS麥克風實際上隻是工藝上的改進,其原理依然屬于電容式麥克風。與MEMS麥克風直接PK的,就是駐極體麥克風。

這兩種麥克風是消費電子領域的主力軍,比如亞馬遜的Echo和聲智科技的開發闆主要是MEMS麥克風,科大訊飛的開發闆則主要是駐極體麥克風。這兩種麥克風從性能名額來看,沒有實質性差别,駐極體麥克風的性能名額還更高,是以聲智科技的單麥系列也是駐極體麥克風,但是,MEMS麥克風的優點是一緻性比較好,更适合遠場語音互動用的麥克風陣列。

電容式麥克風還有另外一個形狀,就是錄音棚常用的專業麥克風,這與我們KTV唱歌的麥克風是有本質差別的。KTV的麥克風一般都是動圈式麥克風,這種麥克風的性能不如電容麥克風,優點是适合人聲收錄,缺點是靈敏度低,這在KTV反而是優點,因為可以有效避免KTV環境的嘯叫。

當然,還有帶式麥克風和碳精麥克風,這兩種麥克風已經不常見了,特别是碳精麥克風,以前主要在老式電話中使用,現在基本被淘汰了。這幾種麥克風可以從圖中對比一下,有時候就會慨歎,技術總是這樣颠覆式發展。

當然,新型的麥克風還包括壓電麥克風、光纖麥克風、雷射麥克風等等,甚至可以直接把電視螢幕或者揚聲器(喇叭)也當作麥克風使用。另外,國防領域也在研究部署矢量麥克風等更複雜的麥克風。事實上,聲音的發展軌迹和雷達比較類似,麥克風陣列也是目前技術發展的一個階段,傳感技術的疊代是技術和市場疊代的重要原因。

毫無疑問,在半導體生态體系中,MEMS正扮演着越來越重要的角色,其應用範圍包含了消費電子、汽車工業、工業控制乃至生物醫學、航空航天等領域,且仍在迅速擴大。随着消費電子市場的增長,消費類應用已經成為MEMS傳感器市場的主要推動力。2014年MEMS傳感器市場規模達到130億美元,最大的消費類應用規模達到59億美元,到2019年預計将超過250億美元,年複合增長率約11.2%。

我們比對了最新的行業調研資料,從2013年到現在其市場格局變化并沒有想象的變化,反而是這幾年MEMS廠商集體進入了低速發展的時期,還好今年的語音互動市場火爆,也給MEMS麥克風市場帶來了想象空間。

下面還是以網際網路公開的資料來概況介紹下市場,已經公開報道了3年,相信很多質疑的聲音也都消失了。這些資料并不能代表真實情況,特别是目前的市場狀态,但是可以作為一個重要的參考。

根據IHS的統計資料,美國公司樓氏電子在2013年是全球最大的已封裝MEMS麥克風(直接進行印刷電路闆組裝)供應商;而德國公司英飛淩則是MEMS麥克風裸晶(供應給MEMS麥克風制造商)的龍頭廠商。樓氏的營收在已封裝MEMS麥克風市場中占據59%的比例,英飛淩出貨量則在MEMS麥克風裸晶市場占據78%。

全球已封裝MEMS麥克風供應商營收排行榜(機關:百萬美元)

全球MEMS麥克風裸晶供應商出貨量排行榜

在已封裝MEMS麥克風市場,排名第二的供應商為瑞聲(AAC),營收市占率13%;排名第三的則是歌爾(Goertek),營收市占率7%。瑞聲與歌爾都是中國廠商,其業務也重度依賴蘋果和三星;

瑞聲供應iPhone5三顆高性能MEMS麥克風中的一顆,也進駐了iPhone5S;歌爾則是iPhone專用的耳機MEMS麥克風主要供應商。瑞聲2013年營收成長8%,歌爾則因為開始供應手機用高性能麥克風,2013年營收成長率高達35%。當然,經過這3年市場變化,樓市、瑞聲和歌爾這三家的市場佔有率其實也發生了悄然改變,樓氏繼續強化了其行業龍頭的地位。

排名全球第四大已封裝MEMS麥克風供應商的是南韓BSE,其業績表現來自于擁有蘋果最大對手三星這個大客戶;BSE的2013年營收與2012年相較,成長率超過250%。緊追在BSE之後排名第五大的廠商則是歐洲業者意法半導體(ST),該公司的MEMS麥克風業務因為赢得了iPad設計案而持續擴張。

全球排名前50位MEMS廠商

國内包括台灣也有一些麥克風廠商,這些廠商主要依靠價格制勝,技術方面并沒有建立起太高的壁壘。國内外也出現了一些創業公司,比如美國的Vesper MEMS,以壓電麥克風作為主要技術特點,但是這些技術本身就是一線大廠掌握的技術,隻是考慮市場因素而沒有産線部署。是以這類創業公司當進入量産的時候壓力還是非常大的,因為這個行業确實需要重資産和重投入。

遠場語音互動的概念其實是相對的。我們知道,語音互動涉及了非常複雜的技術鍊條,包括了聲學處理、語音識别、語義了解和語音合成等核心技術。

聲學處理主要是仿真人類的耳朵,保證機器能夠聽得準真實環境下人的聲音;

語音識别則是把聽到的人聲翻譯成文字;

語義了解則分析這些文字的意義;

語音合成就把機器要表達的文字翻譯成語音。

這四項技術雖然獨立發展,但實際上無法割裂,同時在其他技術的配合下,才能形成一次語音互動的完整鍊條。

以Siri為代表的近場語音識别已經發展了60多年,特别是在2009年以後借助深度學習有了實質性提高,但是正如紮克伯格所說的,當真正産品落地的時候,我們發現使用者真正需要的卻是類似Echo所倡導的遠場語音識别。

顯然,這又是一個嶄新的技術領域,因為拾音距離的擴大帶來的問題不僅僅是語音信号的衰減,而且還帶來了複雜的真實環境以及複雜的使用者習慣。

近場語音識别要求必須是低噪聲、無混響、距離聲源很近的場景,比如使用者總是要對着手機講話才能獲得符合近場語音識别要求的聲音信号,同時還要求使用者滿足标準發音,其識别率才有可能達到95%以上。

但是,若聲源距離較遠,并且真實環境存在大量的噪聲、多徑反射和混響,導緻拾取信号的品質下降,這就會嚴重影響語音識别率。同樣的,我們人類在複雜遠場環境的表現也不如兩兩交耳的竊竊私語。

通常近場語音識别引擎在遠場環境下,若沒有聲學處理的支援,比如麥克風陣列技術的适配,其真實場景識别率實際不足60%。而且,由于真實場景總是有多個聲源和環境噪聲疊加,比如經常會出現周邊噪聲幹擾和多人同時說話的場景,這就更加重了語音識别的難度。因為目前的語音識别引擎,都是單人識别模式,無法同時處理多人識别的問題。

麥克風陣列是目前解決上述問題的主要途徑,但是麥克風陣列也有諸多缺陷,其中之一就是對于硬體的要求較高,這包括了麥克風和晶片器件。是以麥克風陣列如何選型麥克風也是非常細緻認真的一個工作。那麼,如何選型智能語音互動的麥克風呢?

首先選型前我們要對産品有一個清晰的定義,比如産品銷量、産品壽命、産品場景等等,這非常重要。即便性能名額完全一緻的情況下,也需要考慮麥克風供應廠商的成本、生産工藝、供貨能力等因素,因為傳感器件廠商歸根結底還是一個生産工藝的問題,比如國内的很多麥克風廠商其實就是直接購買國外英飛淩的MEMS麥克風方案直接封裝,并不具有技術研發能力,其生産工藝和生産規模就是國内很多廠商的主要差異。

其次選型要重點評估麥克風的性能名額,這包括了靈敏度、指向性、頻率響應、阻抗、動态範圍、信噪比、最大聲壓級(或AOP,聲學過載點)、一緻性這幾個名額,其中指向性、信噪比、AOP和一緻性是麥克風陣列最主要考慮的名額。

一般來說,指向性也就如下圖所示的幾種類型,各大廠商之間沒有實質性差異。 而信噪比(SNR)和AOP對于樓氏、歌爾和瑞聲三個巨頭來說,相差也不是太大,比如SNR基本都在65dB以上,AOP也都大于120dB,這個參數以上的麥克風品質是目前較為可靠和成熟的,也是一線大廠的主要供應型号。 一緻性對于麥克風陣列則是需要特别考量的名額,因為MEMS麥克風需要焊接,這不能對于焊機廠商提出太苛刻的要求,當焊接以後麥克風是否還能保證一定的性能,這對于麥克風廠商來說就是巨大的考驗。是以,并不要輕信麥克風廠商提供的技術名額和承諾,需要認證考察他們的工廠以及生産工廠中的房間及管理。

最後選型必須實際抽檢麥克風的品質,即良品率。從聲智科技的經驗來看,當批量生産的時候,有時候批次不一樣,導緻麥克風的差異會很大,特别是一些中小的麥克風供應廠商。而且尤為麻煩的是,MEMS的更換成本也很大,一旦貼片焊接,若出現問題往往導緻批量的麥克風報廢。當然,這隻是量大的時候才需要重點考慮,當量小的時候這個問題不是太過關鍵。

但是不得不說,MEMS的市場競争實際上一直非常激烈,前面也提到了這個市場已經誕生了包括樓氏、歌爾、瑞聲、STM、Invense等巨頭,并且占據了其中80%以上的市場。雖然現在市場從手機和平闆,逐漸向IOT裝置過渡,但是目前的存量市場仍然還是手機和平闆,IOT的量并不是太大。那麼這就産生了兩個問題。

雖然新興的語音互動市場對于麥克風器件是一個強需,但是這種場景變化會不會導緻巨頭的市場變化?未來真的是都很難說,隻能給出幾點思考以供參考:

一是語音互動市場的強需是麥克風陣列,并非麥克風的元器件,因為對于麥克風廠商來說,除了增加了更多客戶,其客戶實質上并沒有變化,也沒有更高技術方面的需求。從這點來看導緻現有MEMS市場格局變化的理由還不夠充分。

二是若從技術層面來看,所有的技術廠商都需要關注技術的更新疊代,比如對于低功耗、高內建、矢量化麥克風的需求,若這些一線廠商不跟蹤技術的進展,當技術颠覆的時候很可能就會被取代,駐極體麥克風的供應商很可能短期内就會面臨這個嚴峻問題。當然,總會有些公司的處境比較尴尬,特别是一些廠商當遇到麥克風技術和市場挑戰的時候選擇退縮轉型,轉型經常會做成轉行,這對于傳感器廠商來說是巨大的挑戰。

從機會均等的角度來看,任何一個行業都存在衆多創業的機會,核心就在于如何把握和利用。這和晶片行業有些類似,麥克風的行業屬性決定了其必然是重資産的模式,包括裝置和産線的規模投入,另外成本把控、産線管理和加工工藝也都是其核心要素,這些核心技術事實上每項都是極大的投入。

另外,有理想的廠商應該是堅持走技術驅動的路線,比如瑞聲科技和歌爾聲學剛開始都是購買英飛淩的MEMS和ASIC晶片,然後封測賣給客戶,這樣長時間技術積累,再利用收購,這兩家公司也逐漸掌握了MEMS麥克風技術。那麼對于其他廠商來說,這條路是不是可以複制或者超越,再或者幹脆轉型,這是一個非常痛苦的過程。

MEMS麥克風未來的市場空間必然更大,其技術要求也會越來越高,在巨頭已經林立的情況下,新興的創業公司如何抓住機會突圍或者分享蛋糕,這是一個痛苦的考驗。到底是頂住壓力直面競争,還是退縮轉型其他市場,這是經常擺在所有創業者面前現實的問題。

本文作者:陳孝良

繼續閱讀