新聞類別

東莞市鳴躍電子科技有限公司

電話：0769-89916160

手機：13729959073

傳真：0769-87790237

郵箱：peirong2005@yeah.net

地址：東莞市長安鎮(zhèn)宵邊上洋管理區(qū)長興三街8號

常見問題

您的位置：首頁 > 常見問題 > 機器人麥克風陣列

機器人麥克風陣列

編輯：瀏覽：1289 發(fā)布時間：2018-01-02【下載完整文檔】

機器人麥克風陣列

在嘈雜的環(huán)境下，機器想要聽懂聲音，它必須能夠聽的更遠更清晰，麥克風陣列充當?shù)木褪侵犉鞯慕巧�。然而，現(xiàn)在市場上不少機器人或者智能硬件產(chǎn)品，在面對多人說話時依舊表現(xiàn)的手足無措。哪些因素在影響機器的“聽力”？到底該怎么選擇麥克風陣列，讓機器的“耳朵”更靈敏？

什么是麥克風陣列

由一定數(shù)目的聲學傳感器（麥克風）組成，對聲場的空間特性進行采樣并處理的系統(tǒng)。

麥克風陣列由一定數(shù)目的聲學傳感器（一般是麥克風）組成，用來對聲場的空間特性進行采樣并處理的系統(tǒng)。

遠場拾音，指運用遠場識別和降噪技術，使拾音距離達到5米。

聲源定位，利用麥克風陣列，實現(xiàn)360°語音信號采集，并能通過聲源定位來確定目標說話人的方向。

人工智能，未來已來

人工智能(Artificial Intelligence)是指能夠和人一樣進行感知、認知、決策、執(zhí)行的人工程序或系統(tǒng)。人工智能為何能夠工作，主要因為三大法寶：首先是深度神經(jīng)網(wǎng)絡，隨著數(shù)據(jù)量增加，性能不斷提升；其次是大數(shù)據(jù)，互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的普及有利于獲取真實的統(tǒng)計大數(shù)據(jù)，來自于各種真實環(huán)境的數(shù)據(jù)使模型訓練變得更加高效；最后一個很重要的是漣漪效應，在移動互聯(lián)網(wǎng)下，因為軟件免費，用戶愿意花時間用這些產(chǎn)品，且不會產(chǎn)生抱怨或反抗。當推出一個不好的人工智能算法（包括圖像、語音、自然語言理解）時，就像水滴滴在水面，只有一小部分人才會用到。一旦使用，數(shù)據(jù)會送到云計算服務器，云計算服務器可以立即學習更新。當水波擴大到更廣泛的人群時，系統(tǒng)的性能已經(jīng)提高。水波的振幅就是系統(tǒng)的誤差。當水波擴散，振幅越來越低。當水波紋擴散到第1000萬人時，10000001個人是第一次使用這一系統(tǒng)，他會覺得系統(tǒng)很好。利用漣漪效應，可以把不熟的、需要在真實環(huán)境中訓練出來的系統(tǒng)，真正培養(yǎng)出來。

人機最自然的交互方式

最新的研究結(jié)果顯示，相比于傳統(tǒng)的鍵盤輸入，語音輸入方式在速度及準確率方面更具優(yōu)勢。正常來說語音輸入的速度是傳統(tǒng)輸入方式的三倍以上，而隨著深度學習技術的發(fā)展，當前語音的識別率可以達到97%。

大家可以試想一下這樣的場景，回家之前對著手機說一聲“我五分鐘之后到家”，就會得到回復“好的，按照您的習慣，空調(diào)已經(jīng)調(diào)到26度，熱水器調(diào)到35度”；甚至通過我們的智能硬件交互平臺，智能設備互聯(lián)互通，出差去賓館，對著賓館的智能設備說一聲“家庭模式”，也能享受到如家一般的感覺。

人機交互痛點

1.識別距離近：語音交互受限距離不能進行遠場的識別

2.對話不智能：不能持續(xù)進行多輪對話不能打斷

3.嘈雜環(huán)境：在嘈雜環(huán)境下識別率低飽受噪聲干擾

4.響應時間慢：不能即時快速響應交互不流暢導致體驗下降

陣列麥克風對人工智能的意義

1.遠場拾音

人機之間的語音交互（這里主要指智能硬件、機器人等），區(qū)別于傳統(tǒng)的有屏手持設備，涉及到復雜的環(huán)境和遠距離拾音的問題。通過麥克風陣列使語音交互距離大大增加，使人機交互更加自然，更趨向于人人交互。

2.聲源定位

麥克風陣列可以自動檢測聲源位置，跟蹤說話人，聲源定位信息既可以用于智能交互，也可以用于后續(xù)的空域濾波，對目標方向進行語音增強。

3.空域處理

對多信號空時頻三維的處理實現(xiàn)回聲抑制，混響抑制及語音增強，讓我們的智能設備在復雜的環(huán)境中都可以提供更好的智能語音體驗。

麥克風陣列的功能

人機交互過程中的噪聲可以分為以下幾類：回聲，混響，干擾和背景噪聲；相應的麥克風陣列具備這樣的功能：回聲控制，回聲消除，回聲抑制；去混響；波束形成，聲源定位，語音增強，盲源分離，干擾抑制；噪聲控制，主動噪聲控制，降噪；

麥克風陣列

麥克風陣列產(chǎn)品主要分為二麥、四麥、六麥克風陣列。陣列結(jié)構(gòu)如下圖所示：

麥克風陣列構(gòu)型

以六麥陣列為例，具備以下功能特性：波束形成（波束形狀是陣列對不同頻率及方向的信號的響應，它與陣列麥克風數(shù)目、幾何形狀、源信號位置以及頻率有關。）、回聲消支持信噪比-30dB左右、平穩(wěn)噪聲濾波、方向性非平穩(wěn)噪聲抑制、語音增強和去混響、聲源定位精度±10°等功能。

六麥陣列包括六麥硬件陣列模塊方案和軟核方案，硬件模塊方案包括一塊XFM10621硬件模塊，通過連接麥克風、參考信號、供電和I2C即可實現(xiàn)陣列遠場拾音和降噪后音頻輸出，同時支持連續(xù)喚醒并輸出喚醒信號。

六麥模板硬件示意圖

軟核方案包括：錄音模塊、陣列算法、和ADC、FPGA驅(qū)動三個部分。

其中軟件模塊通過ALSA接口錄制96K、32bit雙聲道音頻數(shù)據(jù)。陣列算法可以提供語音喚醒、聲源定位、回聲消除和語音降噪功能。算法接收96K、32bit雙聲道音頻數(shù)據(jù)，語音喚醒之后通知上層應用，并給出聲源角度。輸出回聲消除和降噪之后的16k、16bit語音數(shù)據(jù)。算法加密芯片進行加密，通過i2c接口和加密芯片進行通信驗證。六麥陣列軟核的運算性能要求 600MIPS，支持硬浮點運算。

陣列模塊和軟核方案都具備去混響和回聲消除功能。

去混響

混響是指聲波在室內(nèi)傳播時，要被墻壁、天花板、地板等障礙物反射，當聲源停止發(fā)聲后，聲波在室內(nèi)要經(jīng)過多次反射和吸收，最后才消失。這種現(xiàn)象稱為混響。因此，當聲源和麥克風之間的距離越遠，反射聲占的比例就越高，混響就嚴重。

經(jīng)典的去混響方法包括形成拾音波束來減少反射聲和基于反卷積的去混響方法。

回聲是指遠端說話人的聲音通過揚聲器播放出來包括其反射聲，又被近端的麥克風收集再傳送回遠端。聲學回聲主要出現(xiàn)的場合包括：模擬電話免提模式、手機免提模式、車載藍牙電話等場景。

用于打斷的回聲消除技術難點：喇叭播放的音樂一般為立體聲，甚至是環(huán)繞立體聲，因此需要真正的多通道回聲消除技術。設備的喇叭和麥克風一般距離很近，使用者距離較遠；麥克風信號的信噪比很低（一般在-10dB~-30dB）。

經(jīng)典的回聲消除方法包括非線性回聲消除處理，通過非線性的回聲抑制技術，顯著改善了非線性情況下的效果。

麥克風陣列結(jié)構(gòu)設計參考

Mic 孔的孔深孔徑比越小越好，即開孔越大越好，深度越小越好，盡量向1:1靠近�？咨钆c孔徑比值越大，麥克頻響的震點越像低頻靠近，要求震點在12KHz以上。最少也要在8KHz以上。喇叭腔體不能漏氣。這是因為，喇叭正反兩面的聲波相位相差180度，當音腔有漏氣時，聲波會發(fā)生抵消，尤其是低頻頻段。

麥克和喇叭的失真都要小。麥克失真小于4%，喇叭失真小于10%，由于喇叭低頻失真嚴重些，會超過10%，可以考慮增加濾波器濾掉低頻成分。

喇叭腔體四周與其他機構(gòu)件保留1mm的距離，防止腔殼與機構(gòu)接觸產(chǎn)生異音。

喇叭鼓膜上方與機構(gòu)件保留1.5mm的距離，以防鼓膜振動碰到機構(gòu)件產(chǎn)生異音。

喇叭與機構(gòu)件有接觸的地方，要增加泡面，以起到緩沖、減振的效果，防止喇叭振動時與機構(gòu)件碰撞產(chǎn)生異音。

麥克風陣列聲學結(jié)構(gòu)確認流程

1.遠程會議或現(xiàn)場結(jié)構(gòu)設計評估

確認麥克陣列構(gòu)型，確認聲腔及安裝結(jié)構(gòu)設計，確認進聲孔深度、直徑大小等；

2.聲學實驗室錄音效果評估-第一階段

計算裸麥和帶聲腔結(jié)構(gòu)的麥克風之間的錄音之間諧波程度，根據(jù)分析結(jié)果確定是否通過。

3.聲學實驗室錄音效果評估-第二階段

分別利用裸麥和帶聲腔結(jié)構(gòu)的麥克風信號做基于相位的聲源定位，如果兩者定位誤差小于5°，則認為通過該項測試。

4.聲學實驗室錄音效果評估-第三階段