關(guān)鍵詞:高校招生咨詢;NAO機(jī)器人;智能語音交互
中圖分類號(hào):TP242 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)26-0014-03開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :
0 引言
人工智能技術(shù)的飛速發(fā)展為人們的工作、生活帶來了極大的便利;同時(shí),人工智能的應(yīng)用場景也滲透到社會(huì)的各個(gè)角落,促進(jìn)了社會(huì)生產(chǎn)力的提高。在當(dāng)前迅猛的技術(shù)浪潮中,智能對(duì)話系統(tǒng)作為人工智能領(lǐng)域的一個(gè)重要分支,通過模擬人類的交流方式,將具備語音識(shí)別技術(shù)的智能設(shè)備融入人類的語音交流中,使得人與機(jī)器之間的互動(dòng)變得簡單而自然[1]。
智能機(jī)器人是人工智能最好的載體,在人-機(jī)器人交互活動(dòng)中更是如此。雙足類人機(jī)器人具備接近人類的身體形態(tài);在與人交互的活動(dòng)中,相比其他類型的機(jī)器人有著更好的交互效果。同時(shí),智能機(jī)器人與人類進(jìn)行語言交流是一種非常自然的交互方式,國內(nèi)外對(duì)此開展了大量的研究工作,這些研究有助于機(jī)器人發(fā)展語言智能與認(rèn)知智能。另外,通過挖掘和優(yōu)化智能對(duì)話的潛力,不僅能夠提升機(jī)器人的語言理解和生成能力,還能探索如何使機(jī)器人更好地理解人類情感和意圖,這對(duì)于提升人-機(jī)器人交互的自然性和親和力具有重要意義[2-4]。
綜合評(píng)價(jià)招生考試是中國高等教育招生模式的一種探索和創(chuàng)新,旨在打破傳統(tǒng)單一的以高考成績?yōu)橹鞯恼猩绞?,推進(jìn)素質(zhì)教育和綜合評(píng)價(jià)體系的建立。高考前,考生及其家長常常參加目標(biāo)高校的招生咨詢活動(dòng),意圖充分了解目標(biāo)高校關(guān)于綜合評(píng)價(jià)招生模式的細(xì)節(jié),進(jìn)而明確報(bào)考意愿。然而,在高校的招生咨詢活動(dòng)中,相對(duì)考生及其家長來說,咨詢老師人數(shù)較少,排隊(duì)等候情況嚴(yán)重;同時(shí),咨詢老師對(duì)于一些常見的問題,需要給多位考生及其家長重復(fù)解答,工作量很大。鑒于這樣的現(xiàn)實(shí)需求,利用機(jī)器人提供智能語音交互就顯得尤為必要。因此,本文基于NAO機(jī)器人及本地計(jì)算機(jī)、遠(yuǎn)程服務(wù)器,實(shí)現(xiàn)了一個(gè)機(jī)器人智能語音交互系統(tǒng)。
1 研究現(xiàn)狀
人-機(jī)交互技術(shù)是人工智能領(lǐng)域的重要研究方向之一,其研究重點(diǎn)在于建立和加強(qiáng)人與機(jī)器之間的聯(lián)系。這個(gè)方向的研究始終圍繞著如何讓機(jī)器更好地服務(wù)于人類。自機(jī)器發(fā)明以來,其根本目標(biāo)就是為人類提供便利和服務(wù);如果機(jī)器不能被人類所使用,那么無論它的功能多么豐富和復(fù)雜,皆毫無價(jià)值[5]。因此,在研究人-機(jī)交互時(shí),需要特別注重其功能性和可用性,以確保機(jī)器能夠真正被人類使用。
在過去的十多年中,人-機(jī)交互研究取得了巨大發(fā)展,包括但不限于動(dòng)作識(shí)別、語音識(shí)別和智能交互等多個(gè)方面。胡寧等[6]基于NAO機(jī)器人,結(jié)合Kinect 傳感器和卷積神經(jīng)網(wǎng)絡(luò),成功實(shí)現(xiàn)了人體動(dòng)作捕捉、模仿和識(shí)別,構(gòu)建了一套完整的人-機(jī)交互系統(tǒng)。這一系統(tǒng)的建立不僅展示了人-機(jī)交互技術(shù)的先進(jìn)性,還提供了一個(gè)全新的視角,從而能更深入地理解和探索人-機(jī)交互的可能性。
北京交通大學(xué)的陳艷華等[7]利用智能交互技術(shù)開發(fā)了車載語音系統(tǒng),通過全語音交互方式提升駕駛者行車的安全性,同時(shí)滿足其娛樂需求。這一系統(tǒng)的開發(fā)不僅符合市場需求,還為行車安全提供了一種新的保障;該系統(tǒng)的上線標(biāo)志著智能交互技術(shù)在實(shí)際應(yīng)用中的一大突破。何昕等人基于NRLBP的行人識(shí)別算法,通過圖像預(yù)處理、特征提取和目標(biāo)檢測(cè)等步驟,成功實(shí)現(xiàn)了對(duì)NAO機(jī)器人的行人識(shí)別。這一成果展示了人-機(jī)交互技術(shù)在行人識(shí)別方面的應(yīng)用,還能夠?yàn)槿藗兊娜粘I钐峁└啾憷鸞8]。
馬文濤等[9]致力于設(shè)計(jì)面向NAO機(jī)器人的語音識(shí)別系統(tǒng),深入研究語音識(shí)別技術(shù)和算法,基于Mel頻譜倒譜系數(shù)的特征提取方法以及HMM模型,實(shí)現(xiàn)了智能交互,并搭建了基于HMM模型的NAO機(jī)器人語音識(shí)別系統(tǒng)聯(lián)合實(shí)驗(yàn)平臺(tái),為智能機(jī)器人提供智能服務(wù)打下了重要基礎(chǔ)。張海嘉[10]設(shè)計(jì)并實(shí)施了基于Ki?nect的人形機(jī)器人遠(yuǎn)程控制系統(tǒng),成功實(shí)現(xiàn)了人體動(dòng)作的精確追蹤和控制,為傳統(tǒng)人形機(jī)器人控制技術(shù)帶來了新的突破。
北方民族大學(xué)的白偉華[11]基于OpenCV開源視覺庫開展了人臉識(shí)別研究;通過Adaboost算法實(shí)現(xiàn)了人臉檢測(cè),并基于PCA和LBP實(shí)現(xiàn)了人臉識(shí)別算法,然后在NAO機(jī)器人上進(jìn)行了應(yīng)用測(cè)試,最終在人-機(jī)交互上取得了良好效果。基于深度學(xué)習(xí)技術(shù),韓曉帥[12]設(shè)計(jì)了一種新型的智能化人機(jī)交互系統(tǒng),該系統(tǒng)結(jié)合了手勢(shì)識(shí)別模塊、物體檢測(cè)模塊和機(jī)器人定位抓取模塊,最終成功實(shí)現(xiàn)了通過手勢(shì)交互引導(dǎo)機(jī)器人抓取物體的場景。上海交通大學(xué)的肖義涵[13]基于NAO機(jī)器人的人-機(jī)交互,實(shí)現(xiàn)了對(duì)前景分割-目標(biāo)跟蹤框架的研究,探索了實(shí)時(shí)快速交互目標(biāo)的跟蹤。
2NAO機(jī)器人
NAO機(jī)器人是一款性能強(qiáng)大且應(yīng)用廣泛的雙足類人機(jī)器人,擁有25個(gè)自由度,并配備了多種傳感器(如麥克風(fēng)、揚(yáng)聲器、攝像頭和壓力傳感器等)。它運(yùn)行嵌入式Linux操作系統(tǒng),允許使用C++或Python語言進(jìn)行編程控制。由于其功能強(qiáng)大,NAO機(jī)器人在醫(yī)療康復(fù)、科普教育、科學(xué)研究和家庭娛樂等領(lǐng)域得到了廣泛應(yīng)用。
3系統(tǒng)設(shè)計(jì)
如圖2所示,本文設(shè)計(jì)的機(jī)器人智能語音交互系統(tǒng)框架由NAO機(jī)器人、本地計(jì)算機(jī)和遠(yuǎn)程服務(wù)器等3部分構(gòu)成。其中,NAO機(jī)器人主要提供人-機(jī)器人語音交互接口,包括語音采集、語音播報(bào)和網(wǎng)絡(luò)通信等功能模塊。本地計(jì)算機(jī)主要作為網(wǎng)絡(luò)數(shù)據(jù)中轉(zhuǎn)站和NAO機(jī)器人編程控制環(huán)境。而遠(yuǎn)程服務(wù)器則承擔(dān)語音識(shí)別、語義理解和對(duì)話生成的功能,這些功能通過加載開源或商業(yè)模型來實(shí)現(xiàn)。
具體而言,NAO機(jī)器人在語音采集后生成ogg格式的數(shù)據(jù)文件,并通過網(wǎng)絡(luò)傳輸至本地計(jì)算機(jī),然后上傳至遠(yuǎn)程服務(wù)器1。在遠(yuǎn)程服務(wù)器1上,語音識(shí)別模型執(zhí)行語音預(yù)處理及語音轉(zhuǎn)文本的工作,結(jié)果返回至本地計(jì)算機(jī)。本地計(jì)算機(jī)將識(shí)別出的文本內(nèi)容上傳至遠(yuǎn)程服務(wù)器2,由遠(yuǎn)程服務(wù)器2中的智能對(duì)話模型進(jìn)行對(duì)話生成。生成的對(duì)話結(jié)果以文本形式通過本地計(jì)算機(jī)回傳至NAO機(jī)器人,最后,NAO機(jī)器人將對(duì)話生成的文本內(nèi)容進(jìn)行語音播報(bào)。通過這一流程,實(shí)現(xiàn)了一輪人-機(jī)器人之間的智能語音對(duì)話。
4 系統(tǒng)實(shí)現(xiàn)
本系統(tǒng)的軟件實(shí)驗(yàn)環(huán)境如表1所示,分別展示了在NAO機(jī)器人、本地計(jì)算機(jī)、遠(yuǎn)程服務(wù)器上的軟件或模塊信息。
在本系統(tǒng)的實(shí)現(xiàn)過程中,需要通過Choregraphe編程控制環(huán)境來實(shí)現(xiàn)NAO機(jī)器人的語音采集、網(wǎng)絡(luò)傳輸和語音播報(bào)功能。首先,與NAO機(jī)器人互動(dòng)以獲取其IP地址,然后根據(jù)該IP地址連接到NAO機(jī)器人,如圖3 所示。在Choregraphe編程控制環(huán)境初始的root界面中,通過右下角的指令盒庫找到Record Sound指令模塊,將其拖拽到root界面中的空白處,并將模塊重命名為Record,并將其識(shí)別語音改為中文。接下來,右鍵單擊空白界面,創(chuàng)建一個(gè)名為Transfer的Python新指令盒,通過TCP/IP協(xié)議及Socket技術(shù)實(shí)現(xiàn)音頻文件的網(wǎng)絡(luò)傳輸;并繼續(xù)創(chuàng)建一個(gè)名為Answer的Python新指令盒,通過調(diào)用名為ALTextToSpeech的NAOqi函數(shù)庫來實(shí)現(xiàn)文本轉(zhuǎn)語音的播報(bào)。最后,從onStart指令模塊出發(fā),依次連接Record、Transfer、Answer模塊,最終至onStopped指令模塊,完成在Choregraphe編程控制環(huán)境中本系統(tǒng)NAO機(jī)器人功能模塊的可視化實(shí)現(xiàn),如圖4所示。
在本地計(jì)算機(jī)中,基于TCP/IP協(xié)議及Socket 技術(shù),分別編碼實(shí)現(xiàn)了與NAO機(jī)器人、遠(yuǎn)程服務(wù)器1、遠(yuǎn)程服務(wù)器2之間的網(wǎng)絡(luò)通信與數(shù)據(jù)傳輸功能。其中,本地計(jì)算機(jī)與NAO機(jī)器人的具體通信實(shí)現(xiàn)步驟包括:
1) 定義一個(gè)用于接收信息的函數(shù),該函數(shù)接受三個(gè)參數(shù):要保存的音頻文件名、接收端的IP地址和接收端的端口號(hào)。在函數(shù)內(nèi)部,創(chuàng)建一個(gè)socket 對(duì)象server_socket,使用IPv4和TCP協(xié)議作為參數(shù)。
2) 將主機(jī)(host) 和端口(port) 綁定到server_socket 上,以便監(jiān)聽來自發(fā)送端的連接請(qǐng)求;然后,開始監(jiān)聽連接,參數(shù)為1表示最大連接數(shù)為1。
3) 等待發(fā)送端的連接請(qǐng)求。一旦有連接請(qǐng)求,會(huì)返回一個(gè)新的socket對(duì)象client_socket和發(fā)送端的地址信息client_address。使用文件創(chuàng)建語句創(chuàng)建一個(gè)以二進(jìn)制寫入模式打開的文件對(duì)象,用于保存接收到的音頻數(shù)據(jù)。在一個(gè)循環(huán)中,從client_socket接收數(shù)據(jù),每次接收1024字節(jié)。如果接收到的數(shù)據(jù)為空,則跳出循環(huán);否則,將接收到的數(shù)據(jù)寫入文件。
4) 關(guān)閉server_socket連接。遠(yuǎn)程服務(wù)器1提供語音預(yù)處理和語音識(shí)別服務(wù),而遠(yuǎn)程服務(wù)器2提供文本對(duì)話生成服務(wù)。在本地計(jì)算機(jī)與遠(yuǎn)程服務(wù)器1通信之前,需要將音頻文件轉(zhuǎn)換為PCM格式。在與遠(yuǎn)程服務(wù)器2 通信之前,需要定義處理函數(shù)(如on_error、on_close等函數(shù)),用于處理Socket連接的各種事件。在正確設(shè)置API密鑰和相關(guān)參數(shù)后,本地計(jì)算機(jī)實(shí)現(xiàn)了對(duì)遠(yuǎn)程服務(wù)器1的訪問,使用語音預(yù)處理和識(shí)別服務(wù);另外,提供正確的應(yīng)用ID、API密鑰、領(lǐng)域名稱等參數(shù)后,訪問遠(yuǎn)程服務(wù)器2以使用文本對(duì)話生成服務(wù);最終,本地計(jì)算機(jī)將生成的文本對(duì)話返回給NAO機(jī)器人,由NAO 機(jī)器人實(shí)現(xiàn)語音播報(bào),完成與人的語音交互。
本系統(tǒng)在紹興文理學(xué)院進(jìn)行了實(shí)際測(cè)試,結(jié)果顯示該系統(tǒng)能夠有效地支持高考招生咨詢活動(dòng),達(dá)到了設(shè)計(jì)目標(biāo)。
5 結(jié)束語
本文介紹了一個(gè)用于高校招生咨詢場景的機(jī)器人智能語音交互系統(tǒng)。雖然該系統(tǒng)當(dāng)前僅應(yīng)用于高校招生咨詢場景,其核心價(jià)值在于構(gòu)建了一個(gè)基于云機(jī)器人的智能語音交互平臺(tái)和友好的人-機(jī)器人交互方式。未來,該系統(tǒng)可以輕松遷移到其他語音會(huì)話場景,如商業(yè)接待、科普教育和醫(yī)療康復(fù)等。
NAO機(jī)器人在人工智能的科學(xué)探索和工程應(yīng)用中取得了顯著成績。在智能問答領(lǐng)域,NAO機(jī)器人作為有效的人-機(jī)器人交互媒介,也展示出了巨大的潛力。通過整合語音識(shí)別、自然語言處理和機(jī)器學(xué)習(xí)等技術(shù),NAO機(jī)器人能夠更智能地理解用戶的問題并提供準(zhǔn)確的答案,推動(dòng)人-機(jī)器人交互達(dá)到更高水平。可以預(yù)見,在社會(huì)不斷向數(shù)字化、智能化發(fā)展的過程中,基于NAO機(jī)器人的智能語音交互應(yīng)用將會(huì)不斷涌現(xiàn),最終滿足人類社會(huì)的各種實(shí)際需求。