陶加貴, 陳清淼, 宋思齊, 陳昱彤
(1.國(guó)網(wǎng)江蘇省電力有限公司電力科學(xué)研究院,江蘇,南京 211103;2.國(guó)網(wǎng)電力科學(xué)研究院武漢南瑞有限責(zé)任公司,湖北,武漢 430074)
人工智能語(yǔ)音識(shí)別技術(shù)在當(dāng)今互聯(lián)網(wǎng)及電子科技蓬勃發(fā)展的時(shí)代有著很大的上升空間與利用價(jià)值。語(yǔ)音識(shí)別作為人機(jī)之間最便捷且高效的交換信息的途徑,能夠?qū)C(jī)器人發(fā)出指示命令,使其能依照人類的意愿做出行動(dòng)。語(yǔ)音識(shí)別技術(shù)的發(fā)展使產(chǎn)品兼具信息化與智能化[1],而在軍事領(lǐng)域及民用領(lǐng)域中常見小型雙足機(jī)器人,它更具備小體積、低成本、強(qiáng)機(jī)動(dòng)性等產(chǎn)品優(yōu)勢(shì)而被廣泛推廣并使用。文獻(xiàn)[2]介紹了一種針對(duì)特定對(duì)象的小詞匯量語(yǔ)音識(shí)別系統(tǒng),用了嵌入式語(yǔ)音識(shí)別系統(tǒng)中的DTW在線并行算法。文獻(xiàn)[3]提出了一種漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng),這種系統(tǒng)是在隱馬爾科夫模型框架下建立的,通過(guò)HMM進(jìn)行了理論分析,獲得了較準(zhǔn)確的識(shí)別率,但實(shí)驗(yàn)數(shù)據(jù)較少。
本文提出基于SDK的ABB機(jī)器人語(yǔ)音控制方法,以ABB工業(yè)機(jī)器人作為研究對(duì)象,采用PC SDK通信二次開發(fā)接口構(gòu)建語(yǔ)音識(shí)別平臺(tái),利用語(yǔ)音識(shí)別技術(shù)提取語(yǔ)音命令用于機(jī)器人控制,并結(jié)合機(jī)器人運(yùn)動(dòng)控制模型來(lái)設(shè)計(jì)整個(gè)語(yǔ)音控制系統(tǒng)[4]。
開發(fā)人員可借助IRC5控制器中的RobotWare系統(tǒng)預(yù)留的開發(fā)接口PC SDK所提供的通信功能,完成PC端與IRC5控制器間的通信過(guò)程[5-6]。此外,獲取并讀寫日志信息及I/O信號(hào)、在機(jī)器人運(yùn)行中對(duì)其過(guò)程運(yùn)行狀態(tài)數(shù)據(jù)的獲取行為、在操作及控制程序或文件等過(guò)程中,也都依賴于PC SDK所提供的通信功能[7-9]。
PC SDK通信類庫(kù)包含很多類和域,其中:控制類是不同類訪問(wèn)控制類的端口;配置域主要用于開發(fā)人員在配置文件中設(shè)定控制類中的材料數(shù)據(jù);日志域主要進(jìn)行機(jī)器人狀態(tài)以及控制運(yùn)行狀態(tài)的查詢;發(fā)現(xiàn)域主要進(jìn)行網(wǎng)絡(luò)監(jiān)控,實(shí)現(xiàn)PC端和IRC5之間的通信;文件域主要進(jìn)行文件的操作;消息域是指?jìng)鬟f消息;信號(hào)域是指在讀寫過(guò)程中發(fā)出輸入輸出的信號(hào)。
圖1 機(jī)器人底盤
圖2 運(yùn)動(dòng)模型
機(jī)器人的運(yùn)動(dòng)狀態(tài)表示形式為q=(v,ω)T。運(yùn)動(dòng)學(xué)模型為
(1)
機(jī)器人的移動(dòng)方位與最終到達(dá)地點(diǎn)都需要遵循用戶所發(fā)出的指令完成。在這個(gè)運(yùn)動(dòng)過(guò)程中,控制中心通過(guò)操作驅(qū)動(dòng)電機(jī)與驅(qū)動(dòng)器,并將移動(dòng)路徑的變化過(guò)程轉(zhuǎn)化為對(duì)2個(gè)獨(dú)立工作的驅(qū)動(dòng)輪的角速度隨時(shí)間發(fā)生變化的控制,從而實(shí)現(xiàn)對(duì)2個(gè)驅(qū)動(dòng)輪的驅(qū)動(dòng)。
機(jī)械臂共有6個(gè)自由度,可以進(jìn)行移動(dòng)、旋轉(zhuǎn)、抓取等操作。根據(jù)機(jī)械臂的結(jié)構(gòu),進(jìn)行正向運(yùn)動(dòng)學(xué)建模。六自由度機(jī)器人D-H坐標(biāo)系如圖3所示。
六自由度機(jī)器人位置變換矩陣可以表示為
(2)
式中,TA、TB、TC、TD表示為
(3)
(4)
(5)
(6)
式(2)~式(6)中,θi為連桿轉(zhuǎn)角,αi-1為連桿扭角,di為連桿偏距。根據(jù)式(2),將每一個(gè)關(guān)節(jié)變換矩陣相乘,得到的最后結(jié)果如下:
T0-6=T0-1T1-2T2-3T3-4T4-5T5-6=
(7)
式(7)中,矩陣元素都是關(guān)于θi、αi-1和di的函數(shù)。通過(guò)進(jìn)行上述計(jì)算分析,可以實(shí)現(xiàn)六自由度機(jī)器人的精準(zhǔn)定位。
本文提出一種基于SDK的語(yǔ)音識(shí)別模塊來(lái)實(shí)現(xiàn)機(jī)器人運(yùn)動(dòng)的語(yǔ)音控制,系統(tǒng)流程如圖4所示。
圖4 基于語(yǔ)音識(shí)別的機(jī)器人控制系統(tǒng)框架
研究對(duì)象為ABB機(jī)器人,系統(tǒng)結(jié)構(gòu)如圖5所示。
圖5 機(jī)器人控制結(jié)構(gòu)
機(jī)器人控制系統(tǒng)由上位機(jī)、區(qū)域控制器和中央控制中心等3部分組成。
語(yǔ)音識(shí)別經(jīng)過(guò)訓(xùn)練和識(shí)別2個(gè)過(guò)程。在訓(xùn)練的時(shí)候,首先對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理和特征提取,得到語(yǔ)音的特征參數(shù),并創(chuàng)建聲學(xué)模型來(lái)識(shí)別基本單元。在識(shí)別過(guò)程中,根據(jù)一定的標(biāo)準(zhǔn)和措施進(jìn)行對(duì)比輸入語(yǔ)音信號(hào),然后得到最終的識(shí)別結(jié)果。語(yǔ)音識(shí)別過(guò)程如圖6所示。
圖6 語(yǔ)音識(shí)別過(guò)程
HMM是一種概率模型,它使用馬爾科夫鏈來(lái)模擬雙重隨機(jī)過(guò)程,其中信號(hào)的統(tǒng)計(jì)特性會(huì)發(fā)生變化。語(yǔ)音識(shí)別過(guò)程中,首先根據(jù)需要識(shí)別的單詞組建語(yǔ)音庫(kù),再對(duì)庫(kù)中的所有單詞分別建立HMM模型,通過(guò)不斷訓(xùn)練來(lái)調(diào)整模型中的參數(shù),進(jìn)而得到最佳的模型。
基于SDK的ABB機(jī)器人語(yǔ)音控制方法,采用PC SDK通信二次開發(fā)接口搭建語(yǔ)音識(shí)別平臺(tái),然后使用語(yǔ)音識(shí)別技術(shù)提取語(yǔ)音指令,根據(jù)機(jī)器人運(yùn)動(dòng)控制模型進(jìn)而設(shè)計(jì)語(yǔ)音控制系統(tǒng),實(shí)現(xiàn)語(yǔ)音控制機(jī)器人的一系列動(dòng)作。
在相對(duì)安靜的實(shí)驗(yàn)室中測(cè)試語(yǔ)音識(shí)別的效果。隨機(jī)抽取8個(gè)人進(jìn)行10次語(yǔ)音的識(shí)別,第一組為4個(gè)男生,第二組為4個(gè)女生,規(guī)定每個(gè)人隨機(jī)測(cè)試40次,測(cè)試結(jié)果如表1所示。從表1可知,在40次測(cè)試中,準(zhǔn)確率達(dá)到94%以上,共測(cè)試500次,準(zhǔn)確率達(dá)93.2%,可見重復(fù)性較高。
表1 語(yǔ)音訓(xùn)練的識(shí)別結(jié)果
圖7展示了機(jī)器人在不同時(shí)刻下的左轉(zhuǎn)狀態(tài),(a)為初始狀態(tài)的位置,在給出左轉(zhuǎn)命令后,(b)和(c)則顯示出機(jī)器人在不同時(shí)刻下的左轉(zhuǎn)狀態(tài)。
(a) 初始狀態(tài)
圖8展示了機(jī)器人在不同時(shí)刻下的機(jī)械臂旋轉(zhuǎn)狀態(tài),(a)為初始狀態(tài)的位置,(b)和(c)分別為大關(guān)節(jié)和小關(guān)節(jié)模塊旋轉(zhuǎn)狀態(tài)下的位置。
由圖7、圖8可知,在用戶對(duì)機(jī)器人發(fā)出語(yǔ)音指令后,機(jī)器人根據(jù)接收到的指令內(nèi)容能正確地完成工作。
人工智能語(yǔ)音識(shí)別技術(shù)在當(dāng)今互聯(lián)網(wǎng)及電子科技蓬勃發(fā)展的時(shí)代有著很大的上升空間與利用價(jià)值。語(yǔ)音識(shí)別作為人機(jī)之間最便捷且高效的交換信息的途徑,能夠?qū)C(jī)器人發(fā)出指示命令,使其能依照人類的意愿做出行動(dòng)。基于SDK的ABB機(jī)器人語(yǔ)音控制方法,采用PC SDK通信二次開發(fā)接口搭建語(yǔ)音識(shí)別平臺(tái),然后使用語(yǔ)音識(shí)別技術(shù)提取語(yǔ)音指令。實(shí)驗(yàn)表明,相對(duì)安靜的實(shí)驗(yàn)室中測(cè)試語(yǔ)音識(shí)別的效果較好,采用SDK構(gòu)建的語(yǔ)音識(shí)別系統(tǒng)的語(yǔ)音識(shí)別率可以達(dá)到94%,該系統(tǒng)具有較強(qiáng)的語(yǔ)音指令接收和識(shí)別能力,同時(shí)對(duì)實(shí)時(shí)語(yǔ)音控制具有準(zhǔn)確可靠的成效。