莊偉瑋 張 馳 孔睿迅 張明珠 許蘊(yùn)盈
(1.廣東中創(chuàng)智家科學(xué)研究有限公司 廣州 510663;2.威凱檢測(cè)技術(shù)有限公司 廣州 510663)
隨著技術(shù)的演進(jìn)和成本的降低,語音控制器的應(yīng)用場(chǎng)景越來越多。傳統(tǒng)家用電器通過安裝語音控制器具備了語音識(shí)別與交互控制功能,提升了用戶體驗(yàn)。作為一類新型控制器,語音控制器其安全和性能日益受到關(guān)注。本文研究現(xiàn)行標(biāo)準(zhǔn)對(duì)語音控制器的適用性,并提出了語音控制器的標(biāo)準(zhǔn)化需求。
一般地,語音控制器由麥克風(fēng),電控板,揚(yáng)聲器等部件組成。
裝有語音控制器的電器設(shè)備通過麥克風(fēng)采集聲音信號(hào)后,傳輸給電控板,利用軟硬件系統(tǒng)將其解析成可供識(shí)別的電信號(hào),并做出相應(yīng)的操作。
在這個(gè)過程中,語音控制器需要用專門詞匯進(jìn)行“喚醒”(圖1中步驟1),以確定用戶此時(shí)說出的話是對(duì)特定電器設(shè)備而言的。在匹配完聲音信號(hào),確定用戶是正在對(duì)電器設(shè)備進(jìn)行交互控制之后,通常會(huì)反饋一個(gè)信號(hào)給用戶(圖1中步驟2),提示“喚醒”成功,此時(shí),用戶就可以開始通過語音發(fā)出實(shí)際控制需求(圖1中步驟3)。
因此,這個(gè)過程可以大體分為兩個(gè)階段:通過喚醒詞“喚醒”語音控制器階段(圖1中步驟1和步驟2)和操作階段(圖1中步驟3和步驟4)。
圖1 語音交互一般流程圖
“喚醒”階段的功能基本比較固定,就是激活語音控制器進(jìn)入操作階段,因此一般都是本地軟硬件離線解析完成即可。在本文中,不考慮通過手動(dòng)按鍵激活等非語音“喚醒”的模式。
在操作階段,若僅是簡(jiǎn)單功能控制(如開關(guān)電源,溫度調(diào)節(jié)等)的語音控制器可繼續(xù)本地軟硬件離線解析即可滿足應(yīng)用需求;但對(duì)于功能豐富的電器設(shè)備,則語音控制器需要通過互聯(lián)網(wǎng)將語音信號(hào)發(fā)送到云端系統(tǒng),利用云端算法進(jìn)行解析,以實(shí)現(xiàn)復(fù)雜的語義識(shí)別(如自然語言理解,獲取天氣信息等)。
目前并未有現(xiàn)行國(guó)家標(biāo)準(zhǔn)對(duì)語音控制器進(jìn)行專門要求。
參考GB/T 14536.1-2008《家用和類似用途電自動(dòng)控制器 第1部分:通用要求》中給出的“電控制器”的定義:
“在設(shè)備內(nèi)或與設(shè)備連用的,用于改變?cè)O(shè)備輸出的裝置,它包括激勵(lì)、傳輸和操作三個(gè)部分,其中至少有一個(gè)部分是電的或電子的。”
可將語音控制器與其他類型電子式控制器進(jìn)行簡(jiǎn)要比對(duì),如表1所示。
表1 不同類型電子控制器的三個(gè)控制部分對(duì)比
可見,語音控制器在功能實(shí)現(xiàn)上符合“電控制器”的定義,并契合常見的控制器類型對(duì)控制器三個(gè)部分的劃分,因此,GB/T 14536.1-2008適用于對(duì)語音控制器的考核。
表1中對(duì)各種電子式控制器的劃分依據(jù)是功能用途,且不同電子式控制器在基本電氣安全方面的要求大同小異,故選取GB/T 14536.1-2008第6.3條款中,根據(jù)用途給出的多種控制器分類,進(jìn)行語音控制器適用類型的進(jìn)一步研究。
狹義上的語音控制器到輸出指令就結(jié)束了,因?yàn)槿鐪囟日{(diào)節(jié)這類功能性控制,都有相應(yīng)的后續(xù)模組(如溫控器)來實(shí)現(xiàn),所以排除GB/T 14536.1中6.3條款的各種專有功能的分類,如熱切斷器、定時(shí)器、電動(dòng)閥門等,選取“人工控制器”,“敏感控制器”,“操作控制器”三種與語音控制器有關(guān)聯(lián)度的類型進(jìn)行研究。
對(duì)于“人工控制器”,GB/T 14536.1-2008的2.2.2中的定義為:
“一種由起動(dòng)而激勵(lì)的控制器,其傳輸和操作都是直接完成的,無任何故意的時(shí)間延遲?!?/p>
該定義中有兩個(gè)關(guān)鍵點(diǎn):
1)要求“激勵(lì)”是由“起動(dòng)”產(chǎn)生;
2)“傳輸”和“操作”不再受其他環(huán)節(jié)控制(如其他環(huán)境因素限制)。
語音控制器在“傳輸”和“操作”時(shí)不再需要對(duì)其他控制因素進(jìn)行判斷,故第2)點(diǎn)符合要求。至于第1)點(diǎn)語音“喚醒”是否可以作為一種“起動(dòng)”的判斷,需要進(jìn)一步研究“起動(dòng)”的定義。
“起動(dòng)”的定義在GB/T 14536.1-2008的2.3.7中給出:
“由使用者以手、腳或其他人為活動(dòng)使控制器的起動(dòng)元件產(chǎn)生的移位。”
姑且認(rèn)為從人口中發(fā)出聲音這一動(dòng)作產(chǎn)生的聲波對(duì)麥克風(fēng)上的振膜產(chǎn)生了移位,從而形成激勵(lì),因此僅需確認(rèn)麥克風(fēng)及聲學(xué)處理電路是否可以作為 “起動(dòng)元件”。
引用GB/T 14536.1-2008的2.8.3中對(duì)“起動(dòng)元件”的定義為:
“通過人工推、拉、旋轉(zhuǎn)來引起控制器動(dòng)作所需的激勵(lì)的或用于由使用者的設(shè)定的部件?!?/p>
用戶和麥克風(fēng)之間的語音喚醒的動(dòng)作不屬于“推、拉、旋轉(zhuǎn)”,于是需要確認(rèn)語音“喚醒”控制器是否可以屬于“使用者的設(shè)定”。
一般喚醒詞及操作階段的交互用語屬于“控制器制造商的設(shè)定”(GB/T 14536.1 -2008 2.3.18定義),即語音控制器在出廠時(shí),就由制造商將產(chǎn)品的交互用語音頻特性寫入控制器,或者經(jīng)過數(shù)據(jù)訓(xùn)練后形成特定算法,后期使用中無法經(jīng)由用戶權(quán)限進(jìn)行修改。例外情況是少數(shù)產(chǎn)品的喚醒詞可以由使用者自行設(shè)定喚醒詞,故再研究“設(shè)定”在標(biāo)準(zhǔn)語境中的意義。
根據(jù)GB/T 14536.1-2008的2.3.17對(duì)“設(shè)定”的定義:
“為了選定操作值而對(duì)控制器的部件進(jìn)行的機(jī)械定位?!?/p>
顯然,喚醒詞的設(shè)定是完全由電子電路處理完成的,不涉及“機(jī)械定位”,不能作為一種“設(shè)定”。
因此,各種情況對(duì)照條款定義分析下來,可以得出語音控制器不符合“人工控制器”的定義。
對(duì)于“敏感控制器”,GB/T 14536.1-2008的2.2.4中的定義為:
“一種自動(dòng)控制器,其激勵(lì)是通過對(duì)所聲明的特殊起動(dòng)量,這些特殊的起動(dòng)量包括溫度、電流、濕度、光、液位、位置、壓力或速度等一個(gè)敏感的元件來完成的?!?/p>
雖然定義中給出的“起動(dòng)量”示例類型沒有指明聲音,但是聲波的變化與其他所列物理特性的變化是可以相類比的,為了進(jìn)一步確定聲波是否可以作為一種“起動(dòng)量”,需要進(jìn)一步研究它的定義。
“起動(dòng)量”的定義在GB/T 14536.1-2008的2.3.10中給出:
“介質(zhì)的一種可感知其變化或穩(wěn)定的物理特性?!?/p>
語音控制器通過軟硬件對(duì)音頻信號(hào)進(jìn)行一系列處理的過程包含了多種和復(fù)雜的物理特性變化,若將其視作成一種“物理特性”來理解則顯然太過于簡(jiǎn)化與抽象,不能表達(dá)實(shí)際技術(shù)內(nèi)涵。
因此,語音控制器也不符合“敏感控制器”的定義。
對(duì)于“操作控制器”,GB/T14536.1-2008的2.2.12中的定義為:
“由電氣原動(dòng)機(jī)構(gòu)來實(shí)現(xiàn)傳輸?shù)淖詣?dòng)控制器。在這種控制器中,控制器的操作控制一個(gè)電路且沒有故意的延時(shí)?!?/p>
定義要求“傳輸”需由“原動(dòng)機(jī)構(gòu)”來實(shí)現(xiàn)?!霸瓌?dòng)機(jī)構(gòu)”的定義在GB/T14536.1-2008的2.8.6中給出:
“用于產(chǎn)生自動(dòng)控制器的傳輸所需的機(jī)械能的機(jī)構(gòu),例如電動(dòng)控制器、電動(dòng)閥、電動(dòng)機(jī)構(gòu)或時(shí)基控制器?!?/p>
語音控制器對(duì)音頻信號(hào)進(jìn)行語義解析后,輸出指令,調(diào)動(dòng)或激活其他模塊進(jìn)行電器設(shè)備控制(如激活空調(diào)啟動(dòng)模組)。在語音控制器的交互框架之外,還需要其他類型控制器或電子電器模塊作為組合模組來實(shí)際執(zhí)行控制電器設(shè)備的動(dòng)作。因此,單從拾音開始到解析完成輸出控制指令就結(jié)束而言,語音控制器基本是由電子電路實(shí)現(xiàn)功能操作,不涉及機(jī)械機(jī)構(gòu)的動(dòng)作,故不符合“操作控制器”的定義。
開關(guān)和控制器均是用于配合其他電器設(shè)備使用,改變它們的工作狀態(tài)。語音交互控制器具具有類似的聯(lián)系,因此可擴(kuò)展研究開關(guān)標(biāo)準(zhǔn)對(duì)語音控制器的適用性。
參照GB/T 15092.1-2020 《器具開關(guān) 第1部分:通用要求》第1章給出的范圍:“這類開關(guān)由人通過操動(dòng)件操作、間接操作或者靠激發(fā)傳感器操作”。
此處“操動(dòng)件”的英文原文與前文2.2中分析過的“起動(dòng)元件”相同,只是不同歸口單位翻譯時(shí)的差異。此外,GB/T 15092.1-2020 的3.4.11還補(bǔ)充了“電子操動(dòng)件”的定義:
“控制傳動(dòng)機(jī)構(gòu)或開關(guān)器件的部件、元件或元件組。注:光學(xué)或聲學(xué)傳感器是元件組的一個(gè)例子?!?/p>
帶有聲學(xué)傳感器的聲控開關(guān)是符合上述規(guī)范的一類產(chǎn)品。與語音控制器僅受特定聲波觸發(fā)不同,聲控開關(guān)只要聲波達(dá)到一定響度,即可被激發(fā)。雖然從功能角度簡(jiǎn)化語音交互模型后,語音控制器的作用類似于“傳感器”受激發(fā)后產(chǎn)生電信號(hào)啟動(dòng)了對(duì)應(yīng)的操作階段,與聲控開關(guān)的作用相同,但參考GB/T 2900.83-2008《電工術(shù)語 電的和磁的器件 》中對(duì)“傳感器”的定義:“被某一物理現(xiàn)象激發(fā)后產(chǎn)生一個(gè)電信號(hào)來表征此物理現(xiàn)象的器件”后就發(fā)現(xiàn),會(huì)陷入與前文2.3中研究的“物理特性”一樣的困境,無法對(duì)底層技術(shù)實(shí)現(xiàn)進(jìn)行表達(dá)。目前市面上的語音控制器產(chǎn)品方案中,有的設(shè)計(jì)成數(shù)字信號(hào)處理器(DSP)專門處理降噪、“喚醒”、離線指令識(shí)別,操作階段的邏輯運(yùn)算交由另一款芯片處理;也有使同一塊芯片處理完所有邏輯運(yùn)算。但不管哪一種方式,所有模塊都高度集成化,在軟硬件上難以按“喚醒”階段與操作階段進(jìn)行剝離獨(dú)立考核,這與聲控開關(guān)具有不同的技術(shù)實(shí)現(xiàn)路徑。
此外,控制器與開關(guān)的最大區(qū)別在于:開關(guān)旨在修改其端子之間的電氣連接,控制器的核心功能是計(jì)算,側(cè)重于分析和處理。相比之下,語音控制器更加復(fù)雜,能實(shí)現(xiàn)的功能更多,其對(duì)聲音的辨識(shí)要求更苛刻,技術(shù)難度遠(yuǎn)在聲控開關(guān)之上。特別是對(duì)于具有復(fù)雜交互能力的在線語音控制器已經(jīng)超出了開關(guān)的概念。
因此,器具開關(guān)標(biāo)準(zhǔn)難以覆蓋語音控制器的底層技術(shù)方案,若以器具開關(guān)標(biāo)準(zhǔn)考核語音控制器,將極大弱化語音控制器與前沿智能技術(shù)之間的關(guān)系。
控制器是實(shí)現(xiàn)新型云計(jì)算、物聯(lián)網(wǎng)、新一代人工智能等新技術(shù)領(lǐng)域的最核心支撐部件,是各項(xiàng)新技術(shù)的實(shí)現(xiàn)基礎(chǔ)。
但是歸結(jié)前文的分析,語音控制器都難以從GB/T 14536.1-2008 或GB/T 15092.1-2020中找到相應(yīng)的類別來進(jìn)行規(guī)范。
語音交互涉及電器的功能控制,一旦出現(xiàn)安全漏洞,可造成人身和財(cái)產(chǎn)傷害。而且由于用戶的隱私可能長(zhǎng)時(shí)間暴露在拾音環(huán)境中,對(duì)于隱私保護(hù)的要求是傳統(tǒng)電器產(chǎn)品未曾遇到的情況。
此外,不同于手機(jī)、麥克風(fēng)等產(chǎn)品,帶有語音交互功能的家用電器的應(yīng)用場(chǎng)景更為多樣化,拾音條件較為惡劣(如電器工作時(shí)自身的噪聲、振動(dòng)),這些都可能對(duì)語音模組的正常應(yīng)用造成影響。
事實(shí)上,語音控制器由人主觀意識(shí)啟動(dòng)后,發(fā)揮控制的作用,與“人工控制器”的定義初衷是相符的。但傳統(tǒng)控制器的操作和調(diào)節(jié)是通過人的接觸操作完成,受外部條件影響較??;語音交互則屬于非接觸式的交互操作,不同用戶口音、語速,不同的使用環(huán)境,不同的設(shè)備安裝情況,都可能對(duì)交互結(jié)果產(chǎn)生影響。
再者,經(jīng)過多年的發(fā)展,基于物理特性研發(fā)的傳統(tǒng)電子器件已相對(duì)穩(wěn)定可靠,而現(xiàn)代前沿語音交互技術(shù)一般是基于大數(shù)據(jù)訓(xùn)練出來的復(fù)雜算法,其工作原理如黑盒一般,對(duì)于各種可能出現(xiàn)的輸出結(jié)果具有不確定性。
可見在語音交互功能已成為日常生活助手的今天,傳統(tǒng)電氣安全標(biāo)準(zhǔn)亟需針對(duì)新型激勵(lì)引入新的技術(shù)規(guī)范,對(duì)可能出現(xiàn)的問題進(jìn)行預(yù)防,降低具備語音控制功能產(chǎn)品的潛在著安全風(fēng)險(xiǎn),為新技術(shù)的應(yīng)用保駕護(hù)航。