李煥貞,孫 茜
(江西科技學(xué)院,江西 南昌 330098)
隨著科技的不斷發(fā)展,智能機(jī)器人已經(jīng)成為現(xiàn)代工業(yè)生產(chǎn)和生活中不可或缺的組成部分。智能機(jī)器人可以被應(yīng)用于各種不同的領(lǐng)域,如制造業(yè)、醫(yī)療保健、家庭服務(wù)等。在這些領(lǐng)域中,智能機(jī)器人的語(yǔ)音識(shí)別技術(shù)被廣泛應(yīng)用,以幫助機(jī)器人與人類(lèi)之間的交流和互動(dòng)。語(yǔ)音識(shí)別技術(shù)可以讓機(jī)器人通過(guò)聽(tīng)懂人類(lèi)的語(yǔ)言指令來(lái)執(zhí)行任務(wù)。為了實(shí)現(xiàn)這一目標(biāo),本文開(kāi)發(fā)了一種基于語(yǔ)音識(shí)別技術(shù)的智能機(jī)器人控制系統(tǒng)。該系統(tǒng)可以讓用戶(hù)通過(guò)語(yǔ)音指令來(lái)控制機(jī)器人的運(yùn)動(dòng)、執(zhí)行任務(wù)等操作。
語(yǔ)音識(shí)別技術(shù)原理包括:語(yǔ)音信號(hào)特征提取、語(yǔ)音識(shí)別模型、語(yǔ)音識(shí)別算法3個(gè)基本單位?;窘Y(jié)構(gòu)如圖1所示。
圖1 語(yǔ)音識(shí)別基本機(jī)構(gòu)
語(yǔ)音信息的特征提取是基于語(yǔ)音信號(hào)進(jìn)行分析和處理,將其轉(zhuǎn)化為機(jī)器學(xué)習(xí)模型能夠處理的數(shù)字化特征。常見(jiàn)的語(yǔ)音特征包括聲譜圖、梅爾頻率倒譜系數(shù)(MFCC)、線性預(yù)測(cè)編碼系數(shù)(LPCC)等。聲譜圖是語(yǔ)音信號(hào)的時(shí)頻圖,表示語(yǔ)音信號(hào)在時(shí)間和頻率上的變化。它可以通過(guò)短時(shí)傅里葉變換(STFT)得到,將語(yǔ)音信號(hào)分成多個(gè)時(shí)間窗口,并對(duì)每個(gè)時(shí)間窗口進(jìn)行傅里葉變換,最終得到聲譜圖。聲譜圖可以直觀地反映語(yǔ)音信號(hào)的能量和頻率分布情況。
MFCC是一種常用的語(yǔ)音特征,它在人類(lèi)聽(tīng)覺(jué)模型的基礎(chǔ)上設(shè)計(jì)而來(lái)。MFCC通過(guò)將聲譜圖映射到梅爾頻率尺度上,再對(duì)其進(jìn)行離散余弦變換(DCT)處理,得到多個(gè)頻帶的系數(shù)。這些系數(shù)通常被認(rèn)為是語(yǔ)音信號(hào)的主要特征,可以用于語(yǔ)音識(shí)別任務(wù)。LPCC也是一種常用的語(yǔ)音特征,它將語(yǔ)音信號(hào)看作是一個(gè)線性濾波器的輸出,通過(guò)對(duì)該濾波器的參數(shù)進(jìn)行建模,得到語(yǔ)音信號(hào)的特征。LPCC與 MFCC相似,但在處理高頻分量時(shí)更為準(zhǔn)確。
語(yǔ)音識(shí)別模型是基于語(yǔ)音特征對(duì)輸入語(yǔ)音進(jìn)行分類(lèi)和識(shí)別的機(jī)器學(xué)習(xí)模型。常見(jiàn)的語(yǔ)音識(shí)別模型包括:隱馬爾可夫模型(HMM)、深度神經(jīng)網(wǎng)絡(luò)(DNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。
語(yǔ)音識(shí)別算法是指通過(guò)對(duì)語(yǔ)音信號(hào)進(jìn)行分析和處理,將其轉(zhuǎn)換成相應(yīng)的文字或命令的一種算法。常用的語(yǔ)音識(shí)別算法主要有隱馬爾可夫模型、深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)。
語(yǔ)音識(shí)別技術(shù)作為一種重要的人機(jī)交互方式,被廣泛應(yīng)用于智能音箱、語(yǔ)音助手等領(lǐng)域。然而,目前在機(jī)器人控制領(lǐng)域中,語(yǔ)音控制仍存在一些問(wèn)題。(1)識(shí)別準(zhǔn)確度不高:由于語(yǔ)音信號(hào)受到環(huán)境噪聲、語(yǔ)音發(fā)音不準(zhǔn)確等因素的影響,導(dǎo)致語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確率不高。(2)命令語(yǔ)音多樣性不足:目前的語(yǔ)音識(shí)別系統(tǒng)對(duì)于命令語(yǔ)音的多樣性支持不足,無(wú)法識(shí)別復(fù)雜的語(yǔ)音指令。(3)實(shí)時(shí)性不足:語(yǔ)音識(shí)別系統(tǒng)的處理時(shí)間較長(zhǎng),無(wú)法滿足對(duì)機(jī)器人實(shí)時(shí)控制的需求?;谝陨蠁?wèn)題分析,針對(duì)語(yǔ)音識(shí)別技術(shù)在機(jī)器人控制領(lǐng)域中存在的問(wèn)題,需要設(shè)計(jì)一種解決方案來(lái)提高語(yǔ)音識(shí)別的準(zhǔn)確率、多樣性和實(shí)時(shí)性。
本文提出了一種基于語(yǔ)音識(shí)別技術(shù)的智能機(jī)器人控制系統(tǒng)設(shè)計(jì)方案。該方案主要包括以下步驟:(1)語(yǔ)音信號(hào)采集。通過(guò)麥克風(fēng)等設(shè)備采集用戶(hù)的語(yǔ)音指令。(2)語(yǔ)音信號(hào)處理。對(duì)采集的語(yǔ)音信號(hào)進(jìn)行降噪、預(yù)處理等處理,提高信號(hào)的質(zhì)量。(3)語(yǔ)音識(shí)別。利用深度學(xué)習(xí)技術(shù),訓(xùn)練語(yǔ)音識(shí)別模型,實(shí)現(xiàn)對(duì)用戶(hù)語(yǔ)音指令的識(shí)別。(4)控制信號(hào)生成。根據(jù)識(shí)別結(jié)果生成對(duì)機(jī)器人的控制信號(hào)。(5)機(jī)器人控制。將生成的控制信號(hào)傳輸給機(jī)器人,實(shí)現(xiàn)對(duì)機(jī)器人的控制。該方案采用深度學(xué)習(xí)技術(shù),能夠提高語(yǔ)音識(shí)別的準(zhǔn)確率和多樣性,并通過(guò)實(shí)時(shí)性?xún)?yōu)化算法實(shí)現(xiàn)對(duì)機(jī)器人的實(shí)時(shí)控制。
智能機(jī)器人控制系統(tǒng)的總體設(shè)計(jì)是一個(gè)復(fù)雜的過(guò)程,需要綜合考慮機(jī)器人的任務(wù)、結(jié)構(gòu)、PLC、傳感器、執(zhí)行器、人機(jī)交互界面和網(wǎng)絡(luò)通信模塊等多個(gè)因素;總體框架包括:執(zhí)行器模塊、PLC控制模塊、人機(jī)交互模塊、語(yǔ)言識(shí)別模塊,如圖2所示。
圖2 系統(tǒng)總體結(jié)構(gòu)
3.1.1 執(zhí)行器模塊
執(zhí)行器模塊是智能機(jī)器人控制系統(tǒng)不可或缺的部分,它主要負(fù)責(zé)控制機(jī)器人的動(dòng)作和執(zhí)行任務(wù)。該模塊由電機(jī)、舵機(jī)、氣動(dòng)元件等設(shè)備組成,用于驅(qū)動(dòng)機(jī)器人的運(yùn)動(dòng)和動(dòng)作。實(shí)際應(yīng)用中通過(guò)執(zhí)行器模塊可以實(shí)現(xiàn)機(jī)器人的各種運(yùn)動(dòng)、動(dòng)作和任務(wù),如移動(dòng)、轉(zhuǎn)彎、抓取、放置等作業(yè)。
3.1.2 PLC控制模塊
PLC是智能機(jī)器人控制系統(tǒng)的核心。該模塊由傳感器、網(wǎng)絡(luò)通信模塊、運(yùn)動(dòng)控制模塊、自動(dòng)化控制模塊等構(gòu)成。起著控制機(jī)器人行動(dòng),監(jiān)測(cè)機(jī)器人狀態(tài)功能作用。
3.1.3 人機(jī)交互界面
該模塊是人與機(jī)器人之間的橋梁,直接影響著用戶(hù)的使用體驗(yàn)和操作效率,包括觸摸屏、語(yǔ)音控制、手柄等。
3.1.4 語(yǔ)音識(shí)別模塊
語(yǔ)音識(shí)別模塊主要負(fù)責(zé)將用戶(hù)的語(yǔ)音指令轉(zhuǎn)化為可執(zhí)行的指令,以實(shí)現(xiàn)機(jī)器人的控制和操作,通常由自學(xué)習(xí)模塊、語(yǔ)音輸入識(shí)別模塊、語(yǔ)音輸出合成模塊、語(yǔ)意理解模塊等構(gòu)成。
智能機(jī)器人控制系統(tǒng)的硬件設(shè)計(jì)需考慮機(jī)器人功能需求、控制器選型、傳感器與執(zhí)行器選型、通信接口設(shè)計(jì)等多方面因素,具體有以下幾點(diǎn)。
3.2.1 機(jī)器人結(jié)構(gòu)設(shè)計(jì)
機(jī)器人的結(jié)構(gòu)設(shè)計(jì)要考慮機(jī)械結(jié)構(gòu)、機(jī)器人部件的安裝方式及各部件之間的連接方式,并根據(jù)機(jī)器人的具體應(yīng)用場(chǎng)景,設(shè)計(jì)出穩(wěn)定性和可靠性強(qiáng)的機(jī)械結(jié)構(gòu)[1]。
3.2.2 控制器選型
控制器選型要結(jié)合機(jī)器人的作業(yè)復(fù)雜度選擇合適的控制器,如PLC、單片機(jī)等。同時(shí),在選型時(shí)要考慮控制器的穩(wěn)定性、擴(kuò)展性、運(yùn)算速度等方面影響。
3.2.3 傳感器與執(zhí)行器選型
傳感器與執(zhí)行器的選型需要考慮傳感器的測(cè)量范圍、精度、響應(yīng)時(shí)間等因素。
3.2.4 通信接口設(shè)計(jì)
考慮智能機(jī)器人需要與上位機(jī)、外設(shè)設(shè)備進(jìn)行通信,需要考慮通信的穩(wěn)定性、帶寬、傳輸速度等因素并設(shè)計(jì)合適的通信接口,如串口、以太網(wǎng)、CAN等。
智能機(jī)器人控制軟件框架主要分為硬件驅(qū)動(dòng)層、控制算法層、網(wǎng)絡(luò)通信層、用戶(hù)界面層、自動(dòng)化控制層、語(yǔ)音識(shí)別層、視覺(jué)識(shí)別層、數(shù)據(jù)存儲(chǔ)層、故障診斷層。具體功能分類(lèi)如下:
一是硬件驅(qū)動(dòng)層。該層主要負(fù)責(zé)與硬件設(shè)備進(jìn)行通信,如與電機(jī)驅(qū)動(dòng)器、傳感器、執(zhí)行器等設(shè)備進(jìn)行通訊。二是控制算法層。該層主要功能是實(shí)現(xiàn)機(jī)器人控制算法,如運(yùn)動(dòng)控制算法、力矩控制算法、姿態(tài)控制算法等[2]。三是通信層。該層主要功能是實(shí)現(xiàn)機(jī)器人與上位機(jī)、其他設(shè)備之間的通信,如通過(guò)TCP/IP、CAN等通信協(xié)議進(jìn)行數(shù)據(jù)交互。四是用戶(hù)界面層。該層承擔(dān)著用戶(hù)與機(jī)器人人機(jī)交互,能夠提供圖形化的指令輸入界面、可視化顯示機(jī)器人的位置和狀態(tài)等。五是自動(dòng)化控制層。該層承擔(dān)著自動(dòng)化控制功能,如自動(dòng)裝配、拆卸、檢測(cè)等。六是語(yǔ)音識(shí)別層。該功能模塊成集成著語(yǔ)音識(shí)別技術(shù),可以實(shí)現(xiàn)機(jī)器人對(duì)用戶(hù)語(yǔ)音指令的識(shí)別和理解。七是視覺(jué)識(shí)別層。該層承載著機(jī)器人對(duì)物體、障礙物等的識(shí)別和分析功能。八是數(shù)據(jù)存儲(chǔ)層。該層實(shí)現(xiàn)著機(jī)器人的數(shù)據(jù)存儲(chǔ)功能,將機(jī)器人的運(yùn)行數(shù)據(jù)、歷史數(shù)據(jù)等存儲(chǔ)在數(shù)據(jù)庫(kù)中,便于后續(xù)分析和優(yōu)化。九是故障診斷層。該層主要功能是實(shí)現(xiàn)機(jī)器人故障智能診斷與處理,如自動(dòng)檢測(cè)和判斷可能出現(xiàn)的故障,并提供相應(yīng)的解決方案。
3.4.1 傳感器功能模塊
傳感器功能模塊主要用于采集機(jī)器人周?chē)h(huán)境的數(shù)據(jù),包括距離、顏色、聲音、溫度等信息,以實(shí)現(xiàn)機(jī)器人的感知和控制。傳感器功能模塊通常由以下幾部分組成:(1)傳感器采集器。用于采集機(jī)器人周?chē)沫h(huán)境信息,如聲音、圖像、溫度、濕度等。(2)信號(hào)處理器。對(duì)采集的信號(hào)進(jìn)行濾波、增益、降噪等處理,以提高信號(hào)的質(zhì)量。(3)特征提取器。對(duì)處理后的信號(hào)提取特征,如圖像特征、聲音特征等,以便后續(xù)的感知和識(shí)別處理。(4)感知識(shí)別引擎。根據(jù)不同的感知需求,采用不同的識(shí)別算法,對(duì)特征向量進(jìn)行處理,以識(shí)別環(huán)境中的物體、人物等信息[3]。(5)控制器。將識(shí)別后的信息傳輸給機(jī)器人執(zhí)行器模塊,以控制機(jī)器人的運(yùn)動(dòng)和動(dòng)作。
3.4.2 硬件驅(qū)動(dòng)模塊
硬件驅(qū)動(dòng)層是智能機(jī)器人控制系統(tǒng)的底層,主要功能是與硬件設(shè)備進(jìn)行通信和控制。常見(jiàn)的硬件設(shè)備包括:電機(jī)、舵機(jī)、傳感器、顯示屏、鍵盤(pán)等。硬件驅(qū)動(dòng)層功能模塊主要包括以下幾個(gè)方面:(1)電機(jī)驅(qū)動(dòng)模塊。該模塊用于控制機(jī)器人的運(yùn)動(dòng),包括前進(jìn)、后退、左右轉(zhuǎn)等。電機(jī)驅(qū)動(dòng)模塊需要能夠控制各種類(lèi)型的電機(jī),包括直流電機(jī)、步進(jìn)電機(jī)等。(2)舵機(jī)驅(qū)動(dòng)模塊。該模塊用于控制機(jī)器人的舵機(jī),包括頭部、手臂等各個(gè)部位的舵機(jī)。舵機(jī)驅(qū)動(dòng)模塊需要能夠控制不同類(lèi)型的舵機(jī),包括模擬舵機(jī)、數(shù)字舵機(jī)等。(3)傳感器驅(qū)動(dòng)模塊。該模塊用于接收傳感器采集到的數(shù)據(jù)。傳感器驅(qū)動(dòng)模塊需要能夠驅(qū)動(dòng)多種類(lèi)型的傳感器,包括超聲波、紅外線、光電等。(4)顯示屏驅(qū)動(dòng)模塊。顯示屏驅(qū)動(dòng)模塊需要能夠控制各種類(lèi)型的顯示屏,包括液晶顯示屏、OLED顯示屏等。能夠清晰地顯示出機(jī)器人運(yùn)行的狀態(tài)信息、用戶(hù)指令等信息數(shù)據(jù)。(5)通信接口模塊。該模塊主要包括串口、SPI、I2C等通信接口。通信接口模塊需要支持多種通信協(xié)議,以實(shí)現(xiàn)不同設(shè)備的連接和數(shù)據(jù)傳輸。(6)電源管理模塊。該模塊用于管理機(jī)器人的電源,包括電池管理、充電管理等。電源管理模塊需要能夠監(jiān)測(cè)電池電量、控制電源開(kāi)關(guān)等[4]。
3.4.3 PLC控制功能模塊
PLC控制功能模塊用于實(shí)現(xiàn)對(duì)輸入信號(hào)的采集、處理、控制的模塊。PLC控制功能模塊包括以下幾個(gè)方面:(1)輸入模塊。用于實(shí)現(xiàn)對(duì)輸入電信號(hào)的采集,包括傳感器信號(hào)、控制開(kāi)關(guān)信號(hào)、按鈕信號(hào)等。(2)輸出模塊。用于實(shí)現(xiàn)對(duì)輸出電信號(hào)的控制,包括控制電機(jī)、執(zhí)行器、開(kāi)關(guān)等。(3)中央處理器。用于對(duì)輸入信號(hào)進(jìn)行處理和邏輯控制,實(shí)現(xiàn)對(duì)輸出信號(hào)的控制和決策。中央處理器也可以實(shí)現(xiàn)數(shù)據(jù)采集、存儲(chǔ)、通信等功能。(4)人機(jī)界面。用于實(shí)現(xiàn)人機(jī)交互,包括顯示圖像、輸入指令等功能。一般采用觸摸屏、鍵盤(pán)、鼠標(biāo)等設(shè)備。(5)總線模塊。用于實(shí)現(xiàn)各個(gè)模塊之間的通信,包括輸入模塊、輸出模塊、中央處理器等模塊之間的通訊。(6)時(shí)序模塊。用于實(shí)現(xiàn)時(shí)間控制功能,包括計(jì)時(shí)、延時(shí)、定時(shí)等功能。可以實(shí)現(xiàn)對(duì)工藝流程的控制。
3.4.4 語(yǔ)音識(shí)別功能模塊
語(yǔ)音識(shí)別功能模塊是智能機(jī)器人控制系統(tǒng)中的一個(gè)重要模塊,它可以實(shí)現(xiàn)機(jī)器人與用戶(hù)之間的自然語(yǔ)言交互。語(yǔ)音識(shí)別技術(shù)是將人類(lèi)語(yǔ)言自然語(yǔ)音轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別的指令或文本。語(yǔ)音識(shí)別功能模塊實(shí)現(xiàn)的主要功能包括:(1)語(yǔ)音采集。語(yǔ)音識(shí)別功能模塊需要能夠采集用戶(hù)自然語(yǔ)言的語(yǔ)音信號(hào),包括話筒、麥克風(fēng)等采集設(shè)備。采集到的語(yǔ)音信號(hào)需要進(jìn)行預(yù)處理,如去噪、濾波等[5]。(2)語(yǔ)音分析。語(yǔ)音識(shí)別功能模塊不僅需要將采集到的語(yǔ)音信號(hào)進(jìn)行分析,提取語(yǔ)音特征,如聲音音高、音強(qiáng)、語(yǔ)速等;還需要進(jìn)行語(yǔ)音識(shí)別模型的匹配,比對(duì)語(yǔ)音特征與識(shí)別庫(kù)中的語(yǔ)音模型,得出匹配度。(3)語(yǔ)音識(shí)別。語(yǔ)音識(shí)別功能模塊需要根據(jù)語(yǔ)音采集和分析結(jié)果,將語(yǔ)音轉(zhuǎn)換成計(jì)算機(jī)可識(shí)別的指令或文本。具體流程為:語(yǔ)音識(shí)別模塊打開(kāi)了一個(gè)語(yǔ)音流進(jìn)行錄音,將錄音數(shù)據(jù)保存成WAV格式的文件再使用語(yǔ)音識(shí)別器對(duì)預(yù)處理后的語(yǔ)音文件進(jìn)行解碼,最后輸出識(shí)別結(jié)果。(4)語(yǔ)義分析。語(yǔ)音識(shí)別功能模塊需要將語(yǔ)音識(shí)別結(jié)果進(jìn)行語(yǔ)義分析,對(duì)指令或文本進(jìn)行理解和處理。通過(guò)語(yǔ)義分析,可以深入挖掘用戶(hù)的需求和意圖。(5)指令執(zhí)行。根據(jù)語(yǔ)義分析結(jié)果,語(yǔ)音識(shí)別功能模塊需要將用戶(hù)的命令轉(zhuǎn)化為機(jī)器人的行動(dòng),實(shí)現(xiàn)機(jī)器人的動(dòng)作控制和應(yīng)答。語(yǔ)音識(shí)別功能模塊可以為智能機(jī)器人控制系統(tǒng)增加自然語(yǔ)言交互能力,提高機(jī)器人的人機(jī)交互體驗(yàn),擴(kuò)展機(jī)器人的應(yīng)用場(chǎng)景。
人工智能時(shí)代下智能機(jī)器人的應(yīng)用與研究迎來(lái)了前所未有的熱潮,語(yǔ)音識(shí)別技術(shù)作為智能機(jī)器運(yùn)行的核心內(nèi)容是采集信息、處理信息的先行者,借助語(yǔ)音識(shí)別技術(shù)可拓寬智能機(jī)器人應(yīng)用場(chǎng)景和服務(wù)功能,是智能機(jī)器人發(fā)展的未來(lái)趨勢(shì)。