田懷谷,孔令云,龔元霞,徐教禮,戴 浩
(西京學(xué)院理學(xué)院,西安 710123)
在大多數(shù)的情況下,語音控制機(jī)器人是方便的。但不可避免的是,有些事情不能用言語來表達(dá),而此時(shí),一個(gè)直觀的手勢(shì)可以讓機(jī)器人知道用戶的意圖。因此,將語音和手勢(shì)相結(jié)合,可以使人機(jī)交互更加方便和準(zhǔn)確。
在此人機(jī)交互模型中,當(dāng)用戶發(fā)出語音命令,通過Microsoft Speech SDK 獲取命令并轉(zhuǎn)換為文本。采用最大熵模型對(duì)文本進(jìn)行處理,從而讓機(jī)器人理解用戶的意圖。與此同時(shí)機(jī)器人確定是否有手勢(shì)指示在講話中,如果語音中包含了某些手勢(shì)指令,那么用戶的手勢(shì)就會(huì)被手部追蹤控制器(厲動(dòng))所捕獲并進(jìn)行處理,處理后的數(shù)據(jù)將被視為用戶意圖的一部分。在此過程中如果語音指令是一個(gè)完整的命令,則語音指令將單獨(dú)控制機(jī)器人。否則即將手勢(shì)指令和語音指令相結(jié)合,為機(jī)器人控制提供完整的指令。人機(jī)交互模型的實(shí)現(xiàn)過程如圖1所示。
圖1 人機(jī)交互模型的實(shí)現(xiàn)過程
在文獻(xiàn)的基礎(chǔ)上,通過對(duì)多個(gè)控制指令庫(kù)的分析以及引入的四個(gè)屬性變量( 、 、 、 ),設(shè)計(jì)了機(jī)器人控制命令。四個(gè)屬性變量表示機(jī)器人操作方向的關(guān)鍵字,即上、下、前、后、左或右,這四個(gè)屬性變量的定義使指令更加系統(tǒng)化,提高機(jī)器人的性能。例如,如果運(yùn)算符發(fā)送的“向上10mm”指令,它將被轉(zhuǎn)換為屬性變量[上,移動(dòng),10,mm]等。在這種情況下,用戶的語音可以組合成大量特定的可執(zhí)行機(jī)器人命令。由于控制指令庫(kù)的存在,機(jī)器人的執(zhí)行效率會(huì)更高。
最大熵的概念最早由杰恩提出,并首次應(yīng)用于語音的處理中。目前,最大熵模型在語音的處理任務(wù)中得到了廣泛的應(yīng)用。作為一種判別模型,最大熵模型的優(yōu)點(diǎn)是它可以將多個(gè)特征融合在一個(gè)模型中,并將這些特征建模并后驗(yàn),另外,最大熵模型的分布是指數(shù)分布便于計(jì)算。最大熵模型的核心思想是在預(yù)測(cè)隨機(jī)變量的概率分布時(shí),在滿足所有已知條件的情況下,不對(duì)未知條件作任何假設(shè)。此時(shí),概率分布的信息熵是最大的,這就使各種可能性和預(yù)測(cè)的風(fēng)險(xiǎn)相吻合。
通過最大熵模型,可以識(shí)別用戶語音,轉(zhuǎn)換成文本并提取文本中包含的交互指令。然后將文本轉(zhuǎn)換為機(jī)器人控制指令,以控制機(jī)器人的運(yùn)動(dòng)。
手部追蹤控制器(厲動(dòng))可以檢測(cè)和跟蹤類似手指的手指和工具。厲動(dòng)軟件分析了設(shè)備可見范圍內(nèi)的對(duì)象,如果對(duì)象存在于當(dāng)前幀中,則查詢函數(shù)將返回對(duì)象的引用。如果對(duì)象不存在,則查詢函數(shù)將返回一個(gè)特殊的無效對(duì)象。通過手勢(shì)識(shí)別算法,可以從測(cè)量數(shù)據(jù)中得到加速度和方位。
在本研究中,手勢(shì)是對(duì)語音的補(bǔ)充,主要用于指示方向。每個(gè)手指有三個(gè)關(guān)節(jié),每?jī)蓚€(gè)關(guān)節(jié)的位置用區(qū)間卡爾曼濾波估計(jì),以提高機(jī)器人界面的精度,與標(biāo)準(zhǔn)卡爾曼濾波[7]相比,可以用統(tǒng)計(jì)參數(shù)和不準(zhǔn)確的動(dòng)力學(xué)來處理這種情況。估計(jì)的數(shù)據(jù)將被視為用戶意圖的一部分。
手勢(shì)與語音的人機(jī)交互包括兩部分:語音和手勢(shì)。機(jī)器人將首先分析Microsoft Speech SDK 轉(zhuǎn)換的四個(gè)屬性變量。如果機(jī)器人得到某一動(dòng)作的方位和距離的具體描述,機(jī)器人就會(huì)知道語音指令可以在沒有手勢(shì)輔助的情況下單獨(dú)工作。相反,如果四個(gè)屬性變量不包含方位和距離的屬性,則手部追蹤控制器將捕獲用戶的手勢(shì)。對(duì)手勢(shì)進(jìn)行分析,利用區(qū)間卡爾曼濾波估計(jì),作為對(duì)語音的補(bǔ)充估計(jì)的數(shù)據(jù)被視為用戶意圖的一部分。用語音來處理人與機(jī)器人之間的交流是非常方便和直接的,而手勢(shì)通常是在很難用言語來表達(dá)的情況下使用的。根據(jù)語音和手勢(shì)的結(jié)合,易于構(gòu)造四個(gè)屬性變量,使人機(jī)交互變得更加自然和高效。
本文綜合考慮了前人研究的優(yōu)缺點(diǎn),提出了一種改進(jìn)的人機(jī)交互方法。智能機(jī)器人的運(yùn)動(dòng)是由用戶的語音和手勢(shì)共同控制的。事實(shí)上,在現(xiàn)實(shí)環(huán)境中,機(jī)器人面臨著更復(fù)雜的任務(wù)和指令,語音與手勢(shì)交互的關(guān)鍵技術(shù)以及其他交互方式相結(jié)合等方面有許多問題亟待解決。
總之,智能機(jī)器人交互技術(shù)經(jīng)過近幾年的飛速發(fā)展,證明其具有很大的潛在市場(chǎng),也是網(wǎng)絡(luò)時(shí)代最為方便的一種交流工具。基于語音和手勢(shì)的智能機(jī)器人必將在未來發(fā)揮重要作用,在家庭、教學(xué)、服務(wù)等領(lǐng)域獲得廣泛應(yīng)用。