王秀旭,李川鵬,王耀福
(中國汽車技術(shù)研究中心有限公司,天津 300300)
隨著居民生活水平的逐漸提高,以及科學(xué)技術(shù)的飛速發(fā)展,終端商品銷售渠道向無人化趨勢發(fā)展;其中無人售貨機器將成為推動終端“新零售”的主力軍,用戶作為無人零售機器的終端用戶,用戶體驗的便捷性、高效性直接關(guān)系到零售機器產(chǎn)品本身的銷量和零售機器貨物的銷售額,傳統(tǒng)零售機器的控制主要采用手動觸摸顯示屏,在觸摸屏上選擇購買的商品,電機結(jié)算,然后選擇支付方式(刷臉支付或二維碼支付),最后支付完成。對于智能化高度發(fā)展的今天,普通的點觸方式已不能滿足消費者的需求,在零售過程中如何更智能、更便捷地操作,成為亟需解決的問題,同時也影響著消費者的用戶體驗。
隨著智能語音識別技術(shù)的發(fā)展,語音識別率的逐漸增加,智能語音技術(shù)在智能家居場景開始不斷應(yīng)用,在智能語音零售機器的產(chǎn)品已成為未來的發(fā)展趨勢,也將在未來市場中占有更高的市場保有率。本文將以智能零售控制技術(shù)為基礎(chǔ),結(jié)合智能語音識別技術(shù),進行數(shù)據(jù)的嵌入融合,對智能語音控制系統(tǒng)進行設(shè)計,實現(xiàn)零售機器可通過語音完成商品的無接觸購買,使得消費者擁有更便捷、高效的交互體驗。
系統(tǒng)包括軟件和硬件系統(tǒng),系統(tǒng)操作軟件將在Linux平臺下,運用語音識別技術(shù)和零售控制技術(shù),實現(xiàn)零售的智能語音控制。包括嵌入式(Linux)軟件平臺、語音識別處理平臺、通訊技術(shù)、硬件平臺(Cortex-A7),實現(xiàn)零售機器的智能控制??傮w設(shè)計如圖1所示。
圖1 總體設(shè)計
嵌入式(Linux)軟件平臺包括語音識別處理APP、零售控制平臺和無線通信處理模塊,實現(xiàn)語音識別算法處理、語義分析處理、零售控制邏輯處理以及遠程控制等功能。語音識別處理平臺通過云知聲識別模塊,實現(xiàn)系統(tǒng)的語音喚醒、語音識別和語音合成。硬件平臺(Cortex-A7)包括處理器模塊、MIC語音輸入、Speaker語音輸入、顯示模塊、通信模塊組成,實現(xiàn)語音采集、輸出及通信控制[1]。系統(tǒng)主要實現(xiàn)以下功能:
(1)實現(xiàn)語音控制零售機器開機和關(guān)機;
(2)實現(xiàn)語音選擇商品的種類、數(shù)量;
(3)實現(xiàn)語音選擇商品支付方式,并可刷臉支付;
(4)實現(xiàn)智能語音對話,天氣查詢、地理信息查詢等技能。
在上述功能需求下,以及軟件的要求,對市場中各硬件模塊組件進行調(diào)研,篩查包括語音交互模塊、處理器模塊、顯示模塊、通訊模塊等并對其進行分析:
(1)語音交互模塊:對市場中語音設(shè)備進行分析,語音硬件設(shè)備將選用同心雙環(huán)陣列布局,根據(jù)同心雙環(huán)特點車身外殼進行了對應(yīng)的出音孔設(shè)計,最遠可實現(xiàn)4米語音識別,識別率在95%以上;并配備有一個智能擴音器,同時受自身和外界雜音干擾小。
(2)處理器模塊:對比分析后選用 Cortex-A7內(nèi)核的RK3308處理器,四核、主芯片內(nèi)置音頻CODEC和ADC,為滿足支持多喚醒詞和命令詞,選用64M內(nèi)存和256M滿足計算和存儲要求,整體硬件系統(tǒng)支持多種喚醒詞,可滿足用戶正常的零售商品購買需求[2][3]。
(3)顯示模塊:選用高精度一體式工業(yè)顯示屏,通過觸屏可實現(xiàn)控制零售機器開啟、關(guān)閉、購買、宣傳等信息;語音購買流程的顯示,以及下一步的提示都會在顯示屏中呈現(xiàn)。
(4)通訊模塊:本系統(tǒng)通過總線與零售機器進行通訊,依據(jù)兩芯雙絞線實現(xiàn)無極性通信及供電,不用另外布置線束供電。
語音識別與零售機器控制軟件:可以實現(xiàn)語音接收、語音的智能識別和智能語音播報,語音識別和零售機器控制之間建立通訊連接,并在一個服務(wù)器下運行,根據(jù)特定的串口信號通信。語音識別模塊可通過串口將控制命令發(fā)送給零售機器控制板上,售賣機器控制板根據(jù)語音識別模塊發(fā)送的控制命令,對語音進行識別解析處理,將需要播放顯示的提示內(nèi)容發(fā)送到工業(yè)顯示模塊中,同時發(fā)送給語音識別模塊,語音識別模塊對需要播報的內(nèi)容進行在智能擴音器上播報。
語音模塊和顯示屏中購買APP都是由無線通訊組成,實現(xiàn)在線語音識別時,與人的交互以及與服務(wù)器的交互,語音識別 APP將識別的語音字段發(fā)送到服務(wù)器進行語義分析和識別,語義服務(wù)器將識別結(jié)果反饋到語音開發(fā)板中,通過與零售機器的通訊連接,將實現(xiàn)對售賣APP的智能控制,從而可實現(xiàn)通過語音選擇商品種類和數(shù)量,并可完成移動支付(刷臉支付),從而實現(xiàn)無接觸式商品購買。
整體采用云端語音識別技術(shù),加入內(nèi)置算法組件,可實現(xiàn)在無網(wǎng)離線狀態(tài)下進行語音識別,通過無線連接可同云端語義服務(wù)器實現(xiàn)在線語音識別服務(wù)。語音接收模塊可通過語音引擎中的回聲消除、抑制混響、空域濾波等處理技術(shù),將雜亂聲音過濾掉,實現(xiàn)對清晰語音的獲??;在通過語音識別和語義理解,實現(xiàn)自然語言命令的解析,并通過語音合成技術(shù),實現(xiàn)對操作軟件中的命令指令的控制處理。
實現(xiàn)語音購買商品的目標,為提高不同環(huán)境、不同人員、不同發(fā)音、非特定距離等情況下的識別效果要求,對語音模塊進行了多喚醒詞設(shè)計、隱含命令詞設(shè)計、多領(lǐng)域設(shè)計。多喚醒詞設(shè)計主要針對不同的使用對象,可突出不同的主體,本系統(tǒng)喚醒詞分別為:小智小智、小美小美、小虎小虎等;隱含命令詞設(shè)計最主要方便用戶交互溝通,無需對固定話語進行死記硬背,通過識別特定命令詞的固定組合并可支持擴展隱含命令詞的使用,通過不同組合、不同順序、相近含義的命令詞設(shè)計,可很大程度減輕用戶的記憶壓力,同時提高用戶體驗;多級喚醒設(shè)計;多知識領(lǐng)域設(shè)計針對零售機器涉筆的使用性能,識別中增加了天氣預(yù)報、在線/離線音樂、熱點新聞、交通限行咨詢等,滿足用戶日常生活咨詢需求,增加語音交互服務(wù)體驗感。
根據(jù)語音識別功能的使用環(huán)境和性能要求,選擇在安靜和有雜音環(huán)境兩種不同環(huán)境下進行測試。選取男聲和女聲不同音色,對喚醒率和識別率兩個指標進行了實測,在1米距離內(nèi)分別選擇了100個男聲和100個女聲,男聲和女聲主要選擇了16至55歲區(qū)間的年輕主力消費群體,通過實測男聲和女聲對喚醒率和識別率基本一致,受影響程度可忽略不計,最終平均喚醒率為 99.5%,平均識別率為 99.3%,整體性能較為穩(wěn)定。另外又對這100人(50男聲和50女聲)在安靜和有雜音兩種環(huán)境下同系統(tǒng)設(shè)備的相對識別距離進行測試,最終在4米以內(nèi)識別率可達95%以上,4-5米之間識別率在80%左右,5-6米之間識別率在50%左右,6米以上識別率在20%以下。上述測試都是在同一分貝音量下進行的,當聲音分貝增大時,喚醒率和識別率整體略有增加;當聲音分貝減輕時,喚醒率和識別率整體略有減少。
本系統(tǒng)通過語音識別技術(shù)、嵌入式、通訊技術(shù),將終端零售機器的控制與語音應(yīng)用相結(jié)合,實現(xiàn)了零售機器產(chǎn)品語音智能控制。本方法將商品終端售賣方式做到了全程語音交互、無接觸式使用體驗,實現(xiàn)正常距離內(nèi)自然語音下95%以上識別率的效果,目前該系統(tǒng)以搭載到智能售賣車中性能穩(wěn)定、體驗良好。相信隨著智能家居和物聯(lián)網(wǎng)應(yīng)用場景下的不斷成熟,語音識別技術(shù)、AI技術(shù)和通信技術(shù)的不斷進步,智能終端售貨機器的語音控制系統(tǒng)將會不斷更新優(yōu)化,用戶體驗更加人性化,實現(xiàn)更高效、便捷、友好的交互體驗[4]。