語音應用帶動全球 MEMS 麥克風需求

作者 | 發布日期 2019 年 02 月 12 日 8:45 | 分類 周邊 , 零組件 follow us in feedly


人工智慧崛起強化語音辨識能力,促使語音成為重要人機介面,應用層面從手機拓展到智慧音箱、電視與車用等終端產品,進而帶動市場對 MEMS 麥克風需求。但不同類型終端產品需要的麥克風陣列不盡相同,各廠商相繼推出麥克風陣列解決方案,也成為廠商競爭的一大利器。

語音應用推升 MEMS 麥克風需求,產值達 15 億美元

語音控制一直被視為最直覺的操控方式,早在 2011 年蘋果便推出手機語音助理 Siri,但由於當時語音辨識不成熟,導致語音助理成為手機娛樂產品。隨著人工智慧興起,各廠商透過自然語言處理(Natural Language Processing)訓練電腦人類語言邏輯,提升語音辨識能力,加上亞馬遜、Google、阿里巴巴與小米等廠商透過低價智慧音箱打入市場,讓消費者快速了解語音的應用範疇,包含資訊詢問、家電控制與購物等,大幅擴增語音應用的可能性,促使語音成為新人機介面。

隨著語音應用興起,各廠商希望將新人機介面放到自家終端產品,因此推升麥克風需求,其中又以半導體製程 MEMS 麥克風需求成長最高。MEMS 麥克風具備較高可靠性、穩定性與一致性,聲音採集品質佳,對語音辨識有很大幫助,進而提升市場對 MEMS 麥克風需求。

因為各類型產品的外型、應用環境與使用方式不同,所以使用的麥克風數量和陣列模型也有差異,從麥克風使用數量來看,手機 MEMS 麥克風需求為 2~4 顆;智慧音箱需求範圍較廣,依照產品設計和價格定位,MEMS 麥克風需求 2~8 顆不等。

由於智慧音箱市場在 2017 年快速成長,推升整體 MEMS 麥克風產值達 13.81 億美元;隨著 2018 年 MEMS 麥克風進一步拓展到電視和穿戴裝置,推升產值年增 11% 至 15 億美元。

汽車是語音應用的另一大市場,透過語音控制能讓駕駛人在不移轉視線情況下直覺性操控,提升行車安全,因此車廠也開始導入語音控制系統,MEMS 麥克風數量 2~6 顆不等,甚至採用更多顆麥克風抑制噪音,有望帶動另一波 MEMS 麥克風需求。

MEMS 麥克風陣列型態與對應產品

MEMS 麥克風陣列隨著語音互動系統需求增加而開始受到重視,語音互動存在的環境相當複雜,若使用時相隔距離較遠,收音就會遇到回聲干擾、室內混響與多信號源干擾等問題,導致訊噪比(Signal to Noise Ratio,SNR)降低,影響語音辨識率。

過去智慧型手機大多採用單麥克風系統,能在低噪音、無混響與近距離下,獲取訊號品質較高的聲音信號。但當環境中存在多個聲源和環境噪音,例如客廳、廚房與戶外等場域,就無法做到聲源分離,進而無法對聲源定位和辨識。為了實現遠距離語音辨識,多麥克風系統應運而生,透過幾何結構組合成線型、環型與球型等陣列,數量從 2~1,000 顆不等,目的是為了採集不同空間方向的聲音訊號,進行噪聲抑制、混響去除與人聲干擾抑制後,方能做到聲源側向,再透過波束成形(Beamforming)做聲音定位。

近年隨著語音辨識能力提高,加上廠商希望縮小產品設計並降低成本,因此開始減少 MEMS 麥克風使用量,一般消費性產品採用的 MEMS 麥克風陣列型態以線型和環型為主。但線性麥克風陣列仍舊有其限制,僅能做到 180 度聲源定位,無法針對全方位做空間指向性,像亞馬遜第三代 Echo Dot 就採用 4 顆麥克風,雖較前一代減少 3 顆,但仍採用環型陣列。

1. 線型 MEMS 麥克風陣列:寬邊陣列

電視和 NB 等產品適合採用線性麥克風陣列中的寬邊陣列,寬邊陣列是指聲波方向和麥克風陣列垂直,透過聲波相加得出聲源方位,且抑制來自陣列側邊的聲音,使得前方和後方的響應一致,但該陣列具有軸對稱性,無法分辨出前方和後方聲源,因此適合聲音僅來自前方或後方的產品,透過增加橫向 MEMS 麥克風數量則能更有效抑制側邊聲音,藉此增加聲源定位距離,不過 MEMS 麥克風間若間距過窄,會降低低頻衰減,增加低頻噪音干擾,但過寬又會造成機構設計困難,降低混疊頻率,因此在產品設計需特別衡量橫向麥克風數量與其距離的安排。

以電視為例,擺放空間大多在較空曠的客廳,且人往往距離電視較遠,因此電視需搭載遠場語音辨識讓用戶控制,要強化遠場語音辨識的能力和距離,需要將數個 MEMS 麥克風排列成寬邊陣列,除了可抑制電視兩側揚聲器所製造的噪音外,也能增強聲源定位距離,但遠距離容易造成聲音在室內不斷反射,導致麥克風不斷收到重覆訊號,造成辨識困難。

2. 線型 MEMS 麥克風陣列:端射陣列

針對單方向做聲音偵測的產品,例如手機、耳機、助聽器、智慧手環與智慧手錶等產品,就適合採用線性麥克風陣列中的端射陣列。端射陣列是指聲波方向與麥克風陣列平行,當前方比後方先接收到聲波時,就能透過麥克風拾取聲波的時間差得知聲波來源,透過訊號處理抑制其他方向的聲音干擾,形成空間指向性。

以穿戴裝置為例,由於產品體積較小,難以透過多個麥克風做橫向排列抑制周遭噪音,加上消費者使用穿戴裝置做語音控制時,往往會靠近嘴巴,代表定向聲源只有一個方向,而需抑制的噪音源同樣是來自嘴巴,並非聲源的反方向,因此透過端射陣列設計,能專注收取單一方向的聲音。

3. 環型 MEMS 麥克風陣列

環型 MEMS 麥克陣列是端射陣列的延伸應用,適用於需要針對全方位做聲源定位和辨識的產品,設計上各 MEMS 麥克風需要等距且均勻分布於圓周,且對角排列形成多個端射陣列,以利針對不同角度的聲源做降噪、側向與定位。目前運用最廣的語音辨識產品智慧音箱,即是使用環型 MEMS 麥克風陣列。

由於智慧音箱使用不具方向性,多擺設在客廳、廚房與臥房等區域,因此會受環境多樣性使噪聲干擾方式不同,例如在客廳會收到多信號源干擾,在廚房則有諸多環境音干擾,臥房則可能透過智慧音箱播放音樂,導致噪音出現,加上用戶聲音可能來自四面八方,因此需透過環型陣列做波束成形的指向性收音和降噪,提高語音辨識率。

MEMS 麥克風陣列市場發展

隨著語音應用興起,MEMS 麥克風陣列成為語音交互系統中第一道關卡,若 MEMS 麥克風陣列收音狀況不佳,將嚴重影響語音辨識率,因此 MEMS 麥克風陣列解決方案成為各廠商重點角逐市場。當前全球最大 MEMS 麥克風廠商為 Knowles,市占率超過三成,同時也掌握 MEMS Die 設計、MEMS 麥克風封測與 MEMS 麥克風陣列模組,因此受亞馬遜青睞。

▲ MEMS 麥克風供應鏈。(Source:拓墣產業研究院,2019.1)

不過,並非所有廠商都有一條龍生產模式,多數廠商涵蓋設計到封測,或封測到系統整合廠部分,最後再由系統整合廠將 MEMS 麥克風模組或陣列出貨給品牌廠商。像是 STMicroelectronics 只提供 MEMS Die 設計到 MEMS 麥克風封測,原因在於 MEMS 麥克風供應鏈呈現金字塔狀,若 STMicroelectronics 跨足 MEMS 麥克風陣列模組,將會與原先的合作廠商競爭,因此若廠商無法在 MEMS 麥克風陣列模組市場占領先地位,則不必冒著失去客戶風險切入市場;此外,語音廠商也開始進入 MEMS 麥克風陣列模組市場,將使競爭更加激烈。

歌爾和瑞聲不具備 MEMS Die 設計能力,僅提供封測到系統整合,為各類型產品提供不同解決方案,包含手機、穿戴裝置與智慧音箱等,但隨著語音廠商開始切入 MEMS 麥克風陣列模組市場,該市場競爭更加激烈,因此模組廠商開始向上游發展,像是瑞聲開始研發數位 ASIC 晶片,不僅優化自身 MEMS 麥克風模組,同時也能增加產品毛利。

歌爾則透過封裝方式將多個感測器整合,使得單一元件擁有多種功能,減少基板使用面積而具有成本優勢。此外,部分聲學廠商同時提供代工服務,例如歌爾、共達電聲、奮達科技與美律等廠商皆提供智慧音箱和耳機等產品代工,其優勢在於聲學相關產品的機構設計是聲學廠商強項,且能直接提供聲學模組給品牌廠商,因此受到品牌廠商青睞。

近期語音廠商開始朝麥克風陣列模組發展,原因在於語音廠商希望達到最佳語音辨識率,若採取非官方認證的麥克風陣列,語音辨識可能會出現誤差,導致消費者體驗不佳,因此為了讓實際收音和訓練樣本一致,語音廠商開始推出麥克風陣列解決方案,像是亞馬遜、科大訊飛與阿里巴巴等廠商都提供相關解決方案;此外,語音廠商可以透過麥克風陣列模組進行語音資料蒐集,以優化自家語音辨識,同時也能擴大自家生態圈,從而拓展到更多產品,可謂一舉數得。

語音廠商的跨入導致下游 MEMS 麥克風陣列模組市場開始出現變化,語音廠商透過軟硬整合方式吸引廠商採用,採用廠商則能直接進入語音廠商的生態圈中,這對硬體開發商而言有相當強的吸引力。面對語音廠商的擠壓,原先的麥克風陣列模組廠商開始朝上游或代工發展,藉此強化自身產品競爭力,否則只能轉向中低階市場,最終面臨被市場邊緣化的風險。

(首圖來源:shutterstock)