陳 林 洪志云
(廣東美的制冷設(shè)備有限公司 佛山 528311)
隨著智能音箱[1]和語音家電的普及,AI語音已經(jīng)逐步滲透到人們的生活中,人們越來越樂于使用語音交互和控制(家電),而語音交互的體驗也越來越被重視。2018年來,無論是國內(nèi)外AI語音方向的巨頭還是國內(nèi)的統(tǒng)一語音解決方案廠商,都發(fā)布了自己的全雙工對話技術(shù)。語音家電作為語音入口之一,無論是控制家電還是播放音樂,都實現(xiàn)了全雙工對話技術(shù)的應(yīng)用。雖然全雙工對話這種模式各大廠商都已發(fā)布,但對于該技術(shù)(功能)至今都沒有一個統(tǒng)一的標(biāo)準(zhǔn)去規(guī)范它的技術(shù)要求和實驗方法。而語音家電和智能音箱天然不同的應(yīng)用屬性,決定了語音家電全雙工對話技術(shù)要求和實驗方法迫切需要定義和實踐,源于語音家電作為語音入口,因為有控制的屬性,在全雙工對話中,噪聲很有可能誤入繼而被識別成可控制設(shè)備的指令詞,這種情況對于很多大功率家電其實是一件非常影響用戶體驗和危險的事情。
本文將聚焦語音家電全雙工對話技術(shù)的識別率、語義打斷、噪聲誤打斷3個語音性能方面的測試要求和測試方法。
語音家電全雙工對話技術(shù),實際上是語音家電錄音的同時可以播放聲音,即一邊回答問題一邊聽用戶說話,這個過程中VAD[2]是常開的。因為是常開,那么噪聲(外部噪聲、回聲噪聲)就很容易誤入并被識別成有意義的指令詞。對于語音家電來說,一個有意義的指令詞很有可能會觸發(fā)家電的控制,這是我們最關(guān)心的問題?;诖?,對于語音家電上全雙工對話技術(shù)的應(yīng)用,我們需要較好的用戶體驗,就要在要求較高的識別率[3]的同時,要求噪聲環(huán)境下的語義打斷和噪聲誤打斷指標(biāo)也要足夠好。
語音家電(雙麥)全雙工狀態(tài)下的識別率要求如表1。
表1 雙麥語音家電全雙工狀態(tài)下識別率
語音家電(雙麥)全雙工狀態(tài)下的語義打斷要求如表2。
表2 雙麥語音家電全雙工狀態(tài)下語義打斷要求
語音家電(雙麥)全雙工狀態(tài)下的噪聲誤打斷要求如表3。
表3 雙麥語音家電全雙工狀態(tài)下噪聲誤打斷要求
表4 雙麥語音家電全雙工對話技術(shù)測試設(shè)備一覽表
人工嘴位于語音家電麥克風(fēng)正前方(注:其他角度如 45 °和 135 °結(jié)果僅作為參考),水平直線距離L米(有1 m、3 m、5 m三種方案);聲級計、語音家電麥克風(fēng)位于同一平面處,噪音源與語音家電麥克風(fēng)距離≥1 m;聲級計與語音家電麥克風(fēng)盡量靠近(兩者之間距離≤50 mm),但不能碰到被測設(shè)備的外殼,避免發(fā)音震動引起的干擾。DUT(被測物)的位置有三種情況,分別時室內(nèi)居中放置、室內(nèi)靠墻放置、室內(nèi)角落放置,具體選擇哪種位置因被測物實際使用情況而定,比如風(fēng)扇,可選擇室內(nèi)居中位置、立式空調(diào)可選擇室內(nèi)角落、電飯煲可選擇室內(nèi)靠墻等。實際測試可按照產(chǎn)品實際情況選擇圖1~6的任意兩種或者一種布局方式進行測試。
圖1 DUT室內(nèi)居中放置噪聲朝里布局示意圖
圖2 DUT室內(nèi)居中放置噪聲朝外布局示意圖
圖3 DUT室內(nèi)靠墻放置噪聲朝里布局示意圖
圖4 DUT室內(nèi)靠墻放置噪聲朝外布局示意圖
圖5 DUT室內(nèi)角落放置噪聲朝里布局示意圖
圖6 DUT室內(nèi)角落放置噪聲朝外布局示意圖
2.3.1 識別率測試數(shù)據(jù)要求如表5。
表5 雙麥語音家電全雙工對話技術(shù)指令詞測試數(shù)據(jù)要求
2.3.2 噪聲測試數(shù)據(jù)要求如表6。
表6 雙麥語音家電全雙工對話技術(shù)噪聲測試數(shù)據(jù)要求
分別調(diào)節(jié)音箱和人工嘴音量,使前述兩種設(shè)備單獨發(fā)聲時聲級計測出的分貝值計算信噪比,所有測試均保證信噪比SNR[4]≥10 dB。用人工嘴依次播放測試集語音命令,采用自動記錄設(shè)備記錄識別結(jié)果。需要注意的是:
1)所有測試均在產(chǎn)品結(jié)構(gòu)合理并且達(dá)到結(jié)構(gòu)設(shè)計ID的標(biāo)準(zhǔn)后進行測試;
2)所有測試均在典型混響環(huán)境[5]下測試(T60的值在200~400 ms);
3)聲音分貝以設(shè)備接收到的聲音的分貝為準(zhǔn);
4)噪聲源的朝向(朝里、朝外)不同的情況下,準(zhǔn)確率要求不變;
5)本文提到的語音性能自動化測試環(huán)境單位dB均為dBA。
2.4.1 識別率測試
測試環(huán)境:滿足表1的要求;
測試數(shù)據(jù):家電控制指令詞,≥100人&≥200條/人,且滿足3.3的要求;
通判標(biāo)準(zhǔn):滿足表1的要求;
測試方法:
①切換到全雙工鏈路(很多語音設(shè)備可能同時存在半雙工鏈路和全雙工鏈路),
②進行全雙工鏈路的識別率測試:
播放喚醒詞→確認(rèn)已經(jīng)被喚醒→播放指令詞→匹配識別結(jié)果→重復(fù)上述4個步驟。
2.4.2 語義打斷測試
測試環(huán)境:滿足表2的要求。
測試數(shù)據(jù):全雙工技能指令詞,≥5人&≥100條/人,同時滿足3.3的要求。
通判標(biāo)準(zhǔn):滿足表2的要求:
-實際播放指令次數(shù)為A,
-本地記錄打斷成功次數(shù)為B,
-本地記錄打斷成功且識別正確次數(shù)為C;
腳本設(shè)計:
①喚醒(判斷喚醒標(biāo)志,保證喚醒成功且上一輪全雙工已經(jīng)退出);
②本地播放有長TTS下發(fā)的指令詞(判斷識別正確且成功激活全雙工狀態(tài));
③檢測到“start tts”標(biāo)志后等待1 s(期間無“end tts標(biāo)志”且無全雙工退出標(biāo)志);
④播放測試指令詞,并記錄播放時間到本地excel;
⑤等待5 s;
⑥重復(fù)①~⑥,直到待測的指令詞播完,結(jié)束自動化測試(待測指令此總數(shù)為A)。
按照上面的步驟,每次播完一個指令詞就重新喚醒再進入全雙工。保存200條測試指令詞測試過程中的全部嵌入式端的日志到本地,測試完成后對該日志進行數(shù)據(jù)處理,處理方法如下:
①按照進入全雙工&退出全雙工為一組,通過腳本分析日志并統(tǒng)計數(shù)據(jù)如表7。
表7 進入全雙工&退出全雙工統(tǒng)計數(shù)據(jù)
②計算語義打斷精確率和召回率:
-實際播放指令次數(shù)為A;
-本地記錄打斷成功次數(shù)為B=sum N1(200組N1的和);
-本地記錄打斷成功且識別正確次數(shù)為C=sum N2(200組N2的和);
2.4.3 噪聲誤打斷測試
測試環(huán)境:滿足表3的要求。
測試數(shù)據(jù):只需要測試噪聲環(huán)境的時候按照3.3的要求準(zhǔn)備噪聲數(shù)據(jù)。
通判標(biāo)準(zhǔn):
安靜環(huán)境,全雙工狀態(tài)下,噪聲誤打斷≤0次/100輪;
噪聲環(huán)境,全雙工狀態(tài)下,噪聲誤打斷≤10次/100輪。
腳本設(shè)計:
前置條件:安靜環(huán)境的測試直接執(zhí)行下述腳本,噪聲環(huán)境的測試則同時啟動噪聲播放和下述自動化腳本的執(zhí)行。(有條件的話,可以對測試全過程進行錄音,方便排查問題。)
①喚醒(判斷喚醒標(biāo)志,保證喚醒成功,且上一輪全雙工已經(jīng)退出);
②播放指令詞;
③判斷進入全雙工狀態(tài),成功進入計數(shù)N則+1,N的初始值為0;
④等待X s(X為對話主動退出定義的超時時間);
⑤重復(fù)①~⑤,直到N=100后結(jié)束自動化測試。
按照上面的步驟,每次播完一個指令詞成功進入全雙工狀態(tài)后,則一直等到該全雙工狀態(tài)自然超時退出,中間不播放除待測噪聲外的任何音頻數(shù)據(jù),隨后再重新喚醒播放指令詞進行下一輪全雙工的觸發(fā)。保存測試過程中的全部嵌入式端的日志到本地,測試完成后對該日志進行數(shù)據(jù)處理,處理方法如下:
①按照進入全雙工&退出全雙工為一組,通過腳本分析日志并統(tǒng)計數(shù)據(jù)如表8。
表8 進入全雙工&退出全雙工統(tǒng)計數(shù)據(jù)
②計算噪聲誤打斷
安靜環(huán)境和噪聲環(huán)境的測試分開統(tǒng)計,噪聲誤打斷次數(shù)=sum N3(100組N3的和)。
測試報告應(yīng)包括以下內(nèi)容:
1)語音家電種類;
2)使用的測試設(shè)備;
3)測試環(huán)境的詳細(xì)描述(房間噪聲值、混響值、測試設(shè)備擺放、距離、角度);
4)測試使用的數(shù)據(jù)詳細(xì)描述;
5)表1、表2、表3中各測試項目的數(shù)據(jù)指標(biāo)。
采用以上測試方法,選取市場了一款宣稱“全雙工對話”技術(shù)的空調(diào)DF100作為試驗樣機,按照以上試驗步驟,部分測試結(jié)果如表9,部分測試過程數(shù)據(jù)見圖7,部分測試環(huán)境見圖8。
表9 DF100全雙工語音性能部分測試結(jié)果
圖7 部分測試過程數(shù)據(jù)
圖8 部分測試環(huán)境
家電的語音功能成為近年來各大家電企業(yè)宣稱重要賣點之一,消費者也從“能動口就不動手”的角度出發(fā),希望購買集解放雙手和娛樂為一體的語音家電,而全雙工對話技術(shù)又是家電語音功能的一大亮點,能夠為人們提供自然流暢的一次喚醒多輪問答的類人化的交互體驗。本文解讀了語音家電全雙工對話技術(shù)的關(guān)鍵測試指標(biāo)、測試要求和方法,并結(jié)合語音空調(diào)產(chǎn)品的測試結(jié)果,為今后各家電企業(yè)及測試機構(gòu)針對語音家電全雙工對話技術(shù)測試提供了指引方法。