楊 都 張光旭 賴東鋒 葉鐵英 黃佳星
(珠海格力電器股份有限公司 珠海 519070)
人作為空調(diào)設(shè)備人機交互的主體,用戶體驗的好壞、控制便捷性高低直接決定產(chǎn)品的受歡迎程度。傳統(tǒng)空調(diào)的控制方式主要采用遙控器、線控器或是手機APP進行控制,仍需依賴特定設(shè)備進行人工觸發(fā)式操控[1],在智能操控、隨時隨心使用空調(diào)方面存在一定不足,影響了用戶體驗的提升以及空調(diào)智能化程度的提高。
隨著語音識別技術(shù)的發(fā)展以及智能家居[2]場景的不斷完善,基于語音識別的智能控制器產(chǎn)品在家電領(lǐng)域的應(yīng)用取得了飛速發(fā)展。智能語音空調(diào)[3]已成為行業(yè)發(fā)展趨勢并逐步擁有更高的市場占有率。
本文以空調(diào)控制技術(shù)為基礎(chǔ),結(jié)合智能語音識別技術(shù)以及嵌入式技術(shù),完成智能語音控制系統(tǒng)的設(shè)計,實現(xiàn)空調(diào)產(chǎn)品零觸摸、全語音化的控制,全面提升空調(diào)產(chǎn)品的智能化程度和用戶體驗。
本系統(tǒng)基于ARM-Linux軟硬件平臺,結(jié)合專業(yè)語音識別引擎及空調(diào)控制技術(shù),實現(xiàn)空調(diào)的智能語音控制。系統(tǒng)主要由基于ARM Cortex-A35的硬件平臺[4]、基于嵌入式Linux的軟件平臺以及語音識別處理平臺[5]構(gòu)成,結(jié)合HBS通訊技術(shù)、WiFi通訊技術(shù)實現(xiàn)空調(diào)的智能控制。
系統(tǒng)總體框如圖1所示。
基于ARM Cortex-A35的硬件平臺主要由ARM處理器模塊、MIC語音輸入、Speaker語音輸出、LCD顯示模塊、HBS通訊模塊和WiFi通訊模塊構(gòu)成,實現(xiàn)語音采集、輸出及通訊控制,是整個系統(tǒng)的硬件支撐。
圖1 系統(tǒng)總體框圖
基于嵌入式Linux的軟件平臺主要由語音識別處理APP、空調(diào)控制APP和WiFi通訊處理APP構(gòu)成,實現(xiàn)語音識別算法處理、語義分析處理、空調(diào)控制邏輯處理以及遠程控制等功能。APP之間主要通過UDS(Unix Domain Socket)通訊,APP內(nèi)部主要通過多線程技術(shù)實現(xiàn)數(shù)據(jù)交互。
語音識別處理平臺主要通過云知聲語音識別引擎,實現(xiàn)系統(tǒng)的語音喚醒、語音識別和語音合成。語音識別支持離線和在線識別功能,在線識別通過WiFi通訊連接語義服務(wù)器,實現(xiàn)復(fù)雜語音控制命令的識別,達到更為智能的控制效果。
本系統(tǒng)主要實現(xiàn)如下功能:
1)實現(xiàn)空調(diào)開機和關(guān)機;
2)實現(xiàn)空調(diào)模式轉(zhuǎn)換,包括制冷、制熱、除濕、送風(fēng)和自動等;
3)實現(xiàn)空調(diào)溫度設(shè)定,包括16-30度調(diào)節(jié);
4)實現(xiàn)空調(diào)風(fēng)速設(shè)定,包括低速、中速、高速、自動風(fēng)速等;
5)實現(xiàn)空調(diào)掃風(fēng)控制,包括上下定格掃風(fēng)、左右掃風(fēng)等;
6)實現(xiàn)其他特殊功能,例如播放音樂、天氣查詢、新聞速遞等服務(wù)。
為滿足系統(tǒng)功能和性能設(shè)計要求,同時綜合考慮用戶體驗和成本,對硬件各模塊進行了詳細的選型和設(shè)計:
1)ARM處理器模塊[6]:系統(tǒng)采用基于ARM Cortex-A35內(nèi)核的RK3308處理器,四核1 GHz頻率的高性能滿足實時離線語音識別算法的需求。主芯片內(nèi)置音頻CODEC和ADC/DAC,省去部分外圍硬件成本,同時也提高了硬件集成度。同時,為滿足支持多喚醒詞和命令詞,特選用32 M DDRII內(nèi)存和128 M Flash滿足計算和存儲要求,系統(tǒng)設(shè)計支持喚醒詞32個,離線命令詞160條,滿足家用空調(diào)及中小型中央空調(diào)的語音控制需求。
2)語音輸入輸出模塊:硬件平臺采用雙麥克風(fēng)陣列左右排布,并進行mic密封性結(jié)構(gòu)設(shè)計,配合雙麥降噪技術(shù),最遠實現(xiàn)五米的高精度語音識別,綜合準確率可達90 %以上。采用高性能揚聲器配合智能功放芯片,配合mic實現(xiàn)三角形陣列排布,最大限度減小底噪,實現(xiàn)語音識別的準確度及播報的高保真效果。
3)LCD顯示模塊:采用一體化液晶面板設(shè)計,通過IIC接口實現(xiàn)液晶的驅(qū)動,實現(xiàn)空調(diào)開關(guān)、模式、風(fēng)速等狀態(tài)信息的顯示,語音識別狀態(tài)的提示,喚醒詞選擇等功能,在保留傳統(tǒng)空調(diào)控制器功能的同時也增強了語音控制系統(tǒng)的人機交互便捷性。
4)通訊模塊:本系統(tǒng)通過HBS(HomeBus)總線與空調(diào)內(nèi)機進行通訊,HBS通訊在商用空調(diào)領(lǐng)域應(yīng)用廣泛,可以通過兩芯雙絞線方便的實現(xiàn)無極性通信及供電,無需單獨走線供電。系統(tǒng)采用MM1192芯片實現(xiàn)HBS總線的構(gòu)建,具備成本低、可靠性和實時性高的特點,保證了語音命令和空調(diào)控制的穩(wěn)定、高效交互。同時,為滿足在線語音識別及OTA等功能,通訊模塊還包含WiFi模組,實現(xiàn)無線數(shù)據(jù)傳輸功能,通過RTL8188WiFi芯片建立網(wǎng)絡(luò)連接,滿足系統(tǒng)與語義服務(wù)器、OTA服務(wù)器進行交互的需求。
系統(tǒng)硬件框圖如圖2所示。
圖2 系統(tǒng)硬件框圖
系統(tǒng)軟件主要完成嵌入式Linux系統(tǒng)的移植、對應(yīng)硬件接口驅(qū)動的實現(xiàn)以及應(yīng)用APP的實現(xiàn)。
1)嵌入式Linux移植:嵌入式Linux內(nèi)核基于Rockchip Buildroot Linux SDK進行裁剪和移植,Buildroot是 Linux 平臺上一個開源的嵌入式 Linux 系統(tǒng)自動構(gòu)建框架,由Makefile 腳本和 Kconfig 配置文件構(gòu)成,通過Buildroot 配置,實現(xiàn)Linux 系統(tǒng)的快速生成。
Linux系統(tǒng)版本采用V4.4,主要實現(xiàn)LCD、Audio、Flash、DDR、Input、電源管理、wifi和USB等驅(qū)動的移植,ALSA、glibc、DBUS等基礎(chǔ)lib的移植,以及滿足應(yīng)用、調(diào)試等需求的busybox、supplicant、voice assistant、OTA等應(yīng)用模塊的移植。
2)語音識別處理與空調(diào)控制應(yīng)用軟件:語音識別處理APP實現(xiàn)語音的采集、命令識別和語音播報,空調(diào)控制APP負責(zé)通過HBS總線根據(jù)語音識別結(jié)果向空調(diào)發(fā)送控制命令,并反饋控制結(jié)果。
語音識別APP和空調(diào)控制APP之間采用 UDS(Unix Domain Socket)方式進行應(yīng)用程序間通訊,二者各有一個服務(wù)端和客戶端,連接成功后按規(guī)定格式進行應(yīng)用間通訊,通訊數(shù)據(jù)包采用JSON格式傳輸。
語音識別APP通過UDS 把JSON控制命令發(fā)送給到空調(diào)控制APP,JSON命令包括空調(diào)的基本控制內(nèi)容,空調(diào)控制APP根據(jù)語音識別APP發(fā)送過來的JSON內(nèi)容,進行解析控制,并把需要播放的提示內(nèi)容通過UDS 發(fā)送給語音識別APP,語音識別APP收到該JSON內(nèi)容,解析后播放對應(yīng)的內(nèi)容。
語音識別與控制示意圖如圖3所示。
3)WIFI通訊處理APP:WiFi通訊模塊主要實現(xiàn)在線語音識別時,與語義服務(wù)器的交互,語音識別app將采集到的語音字段發(fā)送給語義服務(wù)器進行語義分析與識別,語義服務(wù)器將識別結(jié)果反饋給語音APP,并通過UDS通訊與空調(diào)控制APP進行交互,從而實現(xiàn)智能控制功能。
在線語音控制示意如圖4所示。
同時,WiFi模塊還負責(zé)實現(xiàn)系統(tǒng)軟件的OTA升級、廠家重要信息推送等功能。
本系統(tǒng)采用云知聲語音識別引擎,通過內(nèi)置算法模塊實現(xiàn)離線語音識別,以及云端語義服務(wù)器實現(xiàn)在線語音識別服務(wù)。
圖4 在線語音控制示意圖
云知聲語音引擎通過回聲消除、混響抑制、空域濾波等DSP前端處理技術(shù)實現(xiàn)清晰語音獲取,然后通過語音識別和語義理解,實現(xiàn)自然語言命令的解析,并通過TTS合成技術(shù),實現(xiàn)語音處理APP的軟件功能。關(guān)于語音識別處理算法屬云知聲核心技術(shù),本系統(tǒng)屬于應(yīng)用范疇,不在此詳述。
為了滿足空調(diào)領(lǐng)域的智能應(yīng)用需求,本系統(tǒng)針對空調(diào)特別是中央空調(diào)一拖多的特點,聯(lián)合云知聲進行了如下設(shè)計,以滿足非特定人、非特定房間、非特定距離的識別控制需求:
1)多喚醒詞設(shè)計:針對一個家庭有多個房間多臺空調(diào)的情況,如使用1個喚醒詞,存在多個房間同時被喚醒和控制的情況,本系統(tǒng)預(yù)置8個喚醒詞供用戶選擇,實現(xiàn)每個房間具有各自的喚醒詞,解決其他房間被誤控制的問題。
2)隱含命令詞設(shè)計:由于離線命令詞為固定組合,存在用戶記不住命令詞或是命令詞順序顛倒而導(dǎo)致無法便捷控制的問題,本系統(tǒng)對離線命令詞進行了擴展,支持部分隱含命令詞的使用,通過不同組合、不同順序、相近含義的命令詞設(shè)計,減輕用戶的記憶壓力,同時提升用戶體驗。
3)多知識領(lǐng)域設(shè)計:針對空調(diào)用戶的使用特性,在在線識別模式下,增加了在天氣預(yù)報、音樂、新聞速遞、限行情況等領(lǐng)域的限定,滿足空調(diào)用戶在日常生活中的識別需求,同時也提升在線識別的服務(wù)精度和體驗。
4)多級喚醒設(shè)計:針對中央空調(diào)集中控制的需求,實現(xiàn)一個語言控制系統(tǒng)同時控制多臺空調(diào)的情況,本系統(tǒng)設(shè)計了多級喚醒模式,通過第一級喚醒命令,使系統(tǒng)進入語言識別狀態(tài),通過第二級喚醒實現(xiàn)目標空調(diào)的選擇,之后進入語音命令輸入狀態(tài),達到準確控制用戶所期望房間空調(diào)的目的。
本系統(tǒng)作為集成語音功能的空調(diào)控制系統(tǒng),在保證空調(diào)控制功能完整的前提下,語音識別功能也需達到較高的準確率,才能滿足設(shè)計和使用的需求。
根據(jù)語音識別功能的使用環(huán)境和性能要求,選用了安靜、有人聲環(huán)境和電視聲環(huán)境三種不同環(huán)境,5 m的距離進行測試驗證,分別選取男聲和女聲不同音色,10個人共260條語音命令,對喚醒率、識別率和誤喚醒率三個指標進行了考評,測試結(jié)果如表1所示。
表1 語音識別準確性測試結(jié)果統(tǒng)計表
由表1可知,在不同的環(huán)境噪聲條件下,系統(tǒng)語音識別率均達到90 %以上,滿足設(shè)計指標要求。
本文在ARM-Linux的軟硬件平臺上,采用語音識別技術(shù)、嵌入式和通訊技術(shù),將空調(diào)的控制與語音應(yīng)用相結(jié)合,實現(xiàn)了空調(diào)產(chǎn)品語音智能控制的目的。本系統(tǒng)真正意義上滿足了用戶全場景零觸摸、全語音化的使用體驗,實現(xiàn)非特定人自然語音高達90 %以上識別率的效果,目前該系統(tǒng)相關(guān)成果已應(yīng)用在產(chǎn)品中,性能穩(wěn)定、體驗良好。相信隨著智能家居和物聯(lián)網(wǎng)應(yīng)用場景的不斷成熟,語音識別技術(shù)、AI技術(shù)和通訊技術(shù)的不斷進步,智能家電的語音控制系統(tǒng)將會不斷更新優(yōu)化,用戶體驗不斷升級,實現(xiàn)更為智能和友好的交互效果。