華南理工大學(xué)廣州學(xué)院機(jī)器人工程學(xué)院 胡尚源 徐 婧 廖育濤 董文杰 徐 坤
隨著社會的發(fā)展和技術(shù)的創(chuàng)新,越來越多的交互技術(shù)運用到了日常生活里。本文將多一款機(jī)器人的功能做闡述。首先介紹其語音交互的原理,并介紹其實現(xiàn)在線語音交互的代碼模塊,以及仿真效果。其次介紹其界面交互的原理及流程,然后介紹這款機(jī)器人的外觀設(shè)計,最后對機(jī)器人的總體功能進(jìn)行總結(jié)并作未來交互技術(shù)發(fā)展的展望。
隨著社會的發(fā)展和技術(shù)的創(chuàng)新,越來越多的交互技術(shù)運用到了日常生活里。大到國家軍事,小到養(yǎng)老及孩童教育,交互技術(shù)通過各種各樣的方式得到了運用。在我們生活中運用最為廣泛的就是交互機(jī)器人。交互機(jī)器人是指通過一些人機(jī)交互技術(shù)與人類指令端進(jìn)行交互的終端機(jī)器人,其交互形式多種多樣:通過輸入語音來獲得人們想要的答案的語音交互;通過網(wǎng)頁查找或者文字對話的界面交互;以及類似手機(jī)點擊觸控的觸控交互。此外還有基于傳統(tǒng)的硬件設(shè)備的交互、基于動作識別的交互和基于眼動追蹤的交互。
我們通過網(wǎng)上查閱相關(guān)文獻(xiàn),參考市面上成熟的語音交互系統(tǒng)來做此主題。此多功能交互系統(tǒng)研究門檻低,成本低,如果批量生產(chǎn)的話利潤較高,我們對本產(chǎn)品的定位為以語音交互和界面交互為核心,為通過不同外形的制作,可作為學(xué)校迎新機(jī)器人,兒童語音交互玩具,資料查閱器等。
其中語音交互和界面交互技術(shù)的應(yīng)用更為普遍,本文介紹的這款機(jī)器人將這兩種技術(shù)結(jié)合在一起,并運用到校園迎新的特定場景中去。
語音交互(VUI)指的是人類與設(shè)備通過自然語音進(jìn)行信息的傳遞。一次完整的語音交互需要經(jīng)歷ASR→NLP→Skill→TTS的流程(如圖1所示)。
用戶輸入語音由設(shè)備的麥克風(fēng)接收,然后用ASR對語音進(jìn)行分析,得到對應(yīng)的文字或拼音信息。將其以文本的形式做NLP處理,即自然語言處理。將用戶的語言轉(zhuǎn)換成為機(jī)器能夠理解的語言,并提取關(guān)鍵詞(即用戶意圖)接著通過編寫的代碼調(diào)用出與關(guān)鍵詞最為匹配的回答,這些回答在之前就已經(jīng)編寫好,即語音庫。最后將調(diào)取出來的回答文本合成為語音并輸出。
在在線語音交互的程序編寫中,需要調(diào)用到網(wǎng)上現(xiàn)有的語音庫,現(xiàn)今網(wǎng)絡(luò)上都有許許多多公司都提供免費的在線語音庫,如科大訊飛、百度、圖靈機(jī)器人等。在這些語音庫的免費開放程度以及代碼實現(xiàn)的難易度上,這款機(jī)器人就選擇了圖靈機(jī)器人的在線語音庫,以下就介紹基于python語言來調(diào)用在線圖靈語音庫。
首先是用input_recofd中的record()函數(shù),錄入用戶說的一句話,并且保存成.wav文件;其次用recognition_speech中的voice2text()函數(shù),它可以將.wav的音頻文件識別成文字,也就是語音識別,這樣就可以把用戶想要問的問題轉(zhuǎn)換成文字;然后用request庫的post()函數(shù)和json模塊來獲取圖靈機(jī)器人網(wǎng)址以及參數(shù),以及用戶的問題;之后就是獲取圖靈機(jī)器人的回復(fù),把得到的答案返回給jsrobot1,再把中文的答案,用compound_speech中的text2voice()函數(shù)合成語音;最后再調(diào)用output_redio中的speak()函數(shù)將合成的語音給播放出來,一個流程下來就完成了在線語音交互。
圖1 語音處理流程圖
圖2 語音交互在指令窗口端運行
圖3 網(wǎng)頁界面
在在線語音交互這一塊,目前的功能可以實現(xiàn)一些問題的解答,它的回答方式是以語音的形式回答,除此之外還可以實現(xiàn)跳轉(zhuǎn)到網(wǎng)頁、可以打開某個文件。
語音交互是通過人與電腦的交流互動,可以更快捷的幫助我們解決一些事,比如有什么問題,可能傳統(tǒng)的方法是查尋百度來搜索答案,而語音交互可以實現(xiàn)人類把問題以語音的方法告訴接收設(shè)備,通過一系列的語言處理得到答案,此機(jī)器人的仿結(jié)果如圖2所示。
界面交互原理及實現(xiàn)效果:
界面交互在我們生活中可以說是最常用的交互技術(shù),網(wǎng)頁、手機(jī)APP、工業(yè)操作面板,以及各式各樣的投影搭載界面的互動游戲都可以歸屬于界面式的交互。本機(jī)器人作為一款迎新機(jī)器人,擁有界面交互功能可事半功倍。新生可點擊機(jī)器人頭上的平板來選擇自己想了解的信息,如了解學(xué)校內(nèi)各學(xué)院的情況,某些社團(tuán)的簡介即招新信息等。以下將對此款機(jī)器人的交互技術(shù)及實現(xiàn)效果進(jìn)行介紹。
出于對代碼簡潔性以及實現(xiàn)的簡易性的考慮,界面的交互采用了網(wǎng)頁的形式,首先使用ps進(jìn)行界面設(shè)計,在界面的頂端加入了水墨的元素,搭配著我校的徽標(biāo)。之后用HTML5與CSS進(jìn)行編程設(shè)計網(wǎng)頁鏈接的布局。效果展現(xiàn)如圖3所示。
在未來,多功能交互技術(shù)將會越來越頻繁地出現(xiàn)在各種數(shù)字產(chǎn)品中,此機(jī)器人可塑性很強,用戶可以根據(jù)自身的需求通過交互界面選擇自己想要了解的內(nèi)容。多功能交互應(yīng)用于許多場景之中,如幼兒早教、迎賓介紹、場景向?qū)У鹊?。在本交互機(jī)器人制作的流程及情況,方便日后做參考性研究。