冠捷顯示科技(廈門)有限公司 王衍軍
2014年亞馬遜推出智能音箱Echo產(chǎn)品,將遠(yuǎn)場語音應(yīng)用到傳統(tǒng)音箱中,從而賦予音箱人工智能的屬性。在其他應(yīng)用領(lǐng)域也在嘗試導(dǎo)入遠(yuǎn)場語音技術(shù),比如教育機器人、汽車語音助手、白色智能家電、智能廚電等。近年來智能電視開始配置遠(yuǎn)場語音技術(shù),帶給用戶更便捷的人機交互方式,真正實現(xiàn)解放雙手,帶來全新的交互體驗。
電視產(chǎn)品遠(yuǎn)場語音系統(tǒng)硬件實現(xiàn)框架如圖1,采用4個麥克風(fēng)線性陣列,數(shù)字麥克風(fēng)輸出PDM信號給DSP處理,DSP采用的是一款中等成本專用32位DSP音頻處理微控制器,可支持8通道音頻輸入的采樣和處理,內(nèi)置1MKB SRAM,工作頻率高達250MHz,同時配備了閃存控制器,它允許用戶更新程序而不需要將芯片從實際的最終產(chǎn)品中移除。兩顆ADC ES7210將從功放輸出回采的模擬音頻信號轉(zhuǎn)成IIS數(shù)字信號傳輸給DSP處理,麥克風(fēng)采集到的PDM信號與回采的IIS數(shù)字信號經(jīng)DSP算法處理,消除回聲成分后得到有用的音頻數(shù)據(jù),再通過USB2.0傳輸給TV SOC,SOC再將音頻數(shù)據(jù)上傳到語音服務(wù)器,與數(shù)據(jù)庫連接識別語意返回給SOC電視端按語音指令做出響應(yīng)。
圖1 硬件框架
麥克風(fēng)選型要符合語音算法廠商設(shè)計要求,國內(nèi)常用的語音算法有科大訊飛、思必馳、騰訊、百度等,本文采用思必馳語音算法,要求的性能指標(biāo)包括:(1)靈敏度>-42dBFS,測試條件1KHz 94dB SPL;(2)靈敏度一致性≤±1.5dBFS;(3)信噪比(S/N)≥63dBA;(4)總諧波失真(THD)≤1%(1kHz);(5)聲學(xué)過載點(AOP)≥120dBSPL;(6)自由場頻率(100-10kHz內(nèi))響應(yīng)波動≤3dB。
本文采用背收音數(shù)字硅麥克風(fēng)3SM222KMB1HA,靈敏度-26dBFS且誤差在±1dBFS內(nèi)、信噪比64dBA、總諧波失真小于0.2%、AOP 120dBSPL。此麥克風(fēng)集成前置放大器和模數(shù)轉(zhuǎn)換器,可提供電容式音頻傳感器的高信噪比輸出。采用最常見的數(shù)字麥克風(fēng)接口方式:特性脈沖密度調(diào)制器(PDM)輸出接口,支持在一條數(shù)據(jù)線上同時連接兩個麥克風(fēng),本文使用4個麥克風(fēng)只需要兩條數(shù)據(jù)線輸出,簡化輸出數(shù)據(jù)線。
電視正常播放過程中,聲音的失真會影響消回聲算法的處理,造成語音識別率低,所以電視選擇的揚聲器總諧波失真越小越好,要求的性能指標(biāo)包括:左右揚聲器50、70、100音量分別播放100-8kHz掃頻文件,此時100-200Hz THD≤8%、200-400Hz THD≤5%、400-8kHz THD≤3%,一般揚聲器在低頻部分總諧波失真會比較高,建議通過功放端調(diào)節(jié)EQ,降低低頻頻段EQ曲線或是在語音算法中加濾波器濾除低頻成份,同時在整機機構(gòu)裝配上減少機振以改善喇叭非線性失真。
整機機構(gòu)裝配上改善喇叭非線性失真對策實際案例:(1)左右喇叭本體靠近背板面各貼1PCS海棉(防止喇叭聲音通過背板傳導(dǎo)到麥克風(fēng));(2)Panel地側(cè)貼附不織布,沿上邊緣由中間往兩邊貼附(地側(cè)喇叭出聲位置,防止喇叭出聲導(dǎo)致地側(cè)共振的產(chǎn)生)。
語音識別算法,需要外接回聲消除電路,經(jīng)算法消除回聲成分后得到有用的麥克風(fēng)音頻數(shù)據(jù),采樣點優(yōu)選功放后端。從功放后端采集到的模擬音頻信號經(jīng)兩級濾波、分壓后得到的信號需滿足ADC ES7210輸入幅值≤1Vrms要求。
本方案選用4麥克風(fēng)線性陣列方案,PCB layout時相鄰麥克風(fēng)收音孔間距控制在35mm,麥克風(fēng)電源濾波電容靠近麥克風(fēng)供電引腳放置,clk信號走線兩側(cè)需鋪銅進行包地處理,防止電磁輻射干擾。本方案采用背收音麥克風(fēng),麥克風(fēng)收音面需要緊貼PCB且收音孔周圍需增加接地環(huán)焊盤,防止聲音通過PCB與麥克風(fēng)之間間隙進入,影響麥克風(fēng)模組氣密性。PCB收音通道開孔直徑使用麥克風(fēng)廠家推薦的0.75mm。如圖2所示。
圖2 麥克風(fēng)收音孔周圍接地環(huán)及開孔
(1)人聲能直達每個麥克風(fēng),避免遮蔽效應(yīng),即產(chǎn)品正常使用場景下,保證聲源的直達聲(非反射聲)到達每個麥克的機會是均等的,建議:麥克風(fēng)陣列裝配應(yīng)該盡可能朝向使用者,在產(chǎn)品裝配或放置后,麥克風(fēng)孔應(yīng)該利于拾音且不被其它物品遮擋。
(2)麥克風(fēng)組件應(yīng)該裝配于一個比較穩(wěn)固的結(jié)構(gòu)上,如果裝配位置很薄,固定不牢會抖動,麥克風(fēng)會在里面晃蕩,這個時候會發(fā)現(xiàn)采集的音頻里,就會出現(xiàn)一些很奇怪的磕磕碰碰的聲音。
(3)聲音到達麥克風(fēng)的路徑盡可能短、寬,要求諧振點頻率在8KHz以上。對于背收音麥克風(fēng)建議:塑料結(jié)構(gòu)開孔直徑≥密封層開孔直徑≥PCB開孔直徑≥麥克風(fēng)進音孔直徑,裝配后塑料結(jié)構(gòu)、密封層、PCB疊加總厚度≤5mm,越小越好。
(4)麥克風(fēng)要遠(yuǎn)離干擾或震動。對于震動,建議麥克風(fēng)板與塑料結(jié)構(gòu)間增加密封層(如泡棉雙面膠,軟硬度可根據(jù)實際結(jié)構(gòu)形式進行匹配驗證),一方面可以防止喇叭聲音通過塑料結(jié)構(gòu)直接傳遞給麥克風(fēng),還可以提高麥克風(fēng)的氣密性。
(5)結(jié)構(gòu)設(shè)計要避免喇叭本體結(jié)構(gòu)引發(fā)的失真,喇叭要進行減震處理,避免結(jié)構(gòu)震動對麥克風(fēng)造成較大影響。
(6)喇叭腔體四周與其它機構(gòu)件至少保留1mm的間距,振膜上方與機構(gòu)件至少保留1.5mm的間隙,防止振膜碰到結(jié)構(gòu)件產(chǎn)生振動和異音。
(7)避免整機結(jié)構(gòu)內(nèi)聲音傳播,即喇叭的聲音不能在電視機結(jié)構(gòu)內(nèi)部泄露到麥克風(fēng),只能通過結(jié)構(gòu)外的空氣傳播到麥克風(fēng),建議喇叭和麥克風(fēng)放在不同腔體內(nèi)或喇叭出聲口應(yīng)距離麥克風(fēng)收音開口10cm以上,越大越好,也可以選用性能好的密封材料對腔體內(nèi)麥克風(fēng)部分進行密封,防止內(nèi)部串聲。
(8)IR/KEY/Wifi/BT等板子,不建議僅用卡勾固定,需用螺絲鎖付防止震動。
(1)在半消聲室內(nèi)將監(jiān)聽音箱放置在麥克風(fēng)模組前方50cm位置,循環(huán)播放粉噪音頻信號pink_noise.wav。
(2)調(diào)節(jié)監(jiān)聽音箱音量,使麥克風(fēng)模組位置量測音壓為63dB。
(3)在不堵孔情況下,保存麥克風(fēng)模組錄制的音頻數(shù)據(jù)。
(4)使用阻尼、橡皮泥類材料分別密封各個麥克風(fēng)收音孔,保存麥克風(fēng)模組錄制的音頻數(shù)據(jù)。
(5)選取一段時間讀取平均RMS振幅,比較堵孔前后差異。
(6)氣密性規(guī)格:思必馳要求堵孔前后音壓差>15dB。
(1)測試地點:20~30㎡左右的房間(確認(rèn)混響狀況),測試距離及角度:距電視中心位置1m、5m。
(2)環(huán)境底噪40~50dBA,語音指令聲壓級≈65dBA@1M,測量設(shè)備:聲壓計。測試人員:男生/女生分別測試一次。
(3)電視在無音頻輸出狀態(tài)下(如主頁面/節(jié)目菜單頁面等),分別在不同距離測試遠(yuǎn)場語音喚醒、識別功能。
(4)播放電視節(jié)目音量level30(70dB左右),分別在不同距離測試遠(yuǎn)場語音喚醒、識別功能。
結(jié)束語:本文介紹了采用背收音式數(shù)字硅麥克風(fēng)方案的電視遠(yuǎn)場語音系統(tǒng)設(shè)計,詳細(xì)闡述了電視遠(yuǎn)場語音系統(tǒng)麥克風(fēng)、揚聲器的選型,回采電路及PCB設(shè)計注意事項,并結(jié)合設(shè)計產(chǎn)品完成相關(guān)測試。本產(chǎn)品帶給終端用戶更便捷的人機交互方式,真正實現(xiàn)解放雙手,帶來全新的交互體驗。