尹雪婷
摘要 語音模塊的功能是實現(xiàn)將用戶通過語音控制電腦的語音輸入轉(zhuǎn)換成可以控制電腦的文本信息,將電腦反饋的信息文本轉(zhuǎn)換成語音,播放給用戶,它承擔(dān)著軟件人機交互的主要功能。由于語音識別和語音合成的復(fù)雜性和專業(yè)性,本文采用了百度提供的語音識別和合成功能。首先利用python平臺開發(fā)一款智能人機交互助手軟件,它的使用群體可以是那些雙手操作電腦不便的特殊用戶,也可以是那些電腦知識匱乏不會使用鍵盤打字的老人或兒童,還可以是那些想要提高個人電腦的使用效率或者單純追求個人電腦使用新鮮感的人群。
【關(guān)鍵詞】語音控制 人工智能 人機交互助手技術(shù)研發(fā)
1 引言
語言是人類溝通的重要方式,我們從很小的時候就開始學(xué)習(xí)語言,語言交流陪伴我們一生,是我們最基本、最重要的一種社會能力。語言交流以其高效的表現(xiàn)方式提高了人與人之間的溝通效率,進而提高社會生產(chǎn)效率。推而廣之,這種高效的溝通方式我們可以用在人機交互上,讓那些死板的電子產(chǎn)品變得鮮活起來。對于那些沒有接受過計算機技能培訓(xùn),電腦知識匱乏,不能熟練使用鍵盤打字的老人或兒童,智能人機助手可以方便他們用電腦進行文字、指令的輸入和控制。而對于那些忙于文案工作的人員來說,他們不用抬頭放下手中的紙筆,輕輕對著電腦發(fā)出語音指令就能完成很多常用的諸如調(diào)用搜索引擎、打開地圖等工作,提高了他們的工作效率。
本文的研究內(nèi)容是要開發(fā)一款智能人機交互助手軟件,它的作用就是通過語音控制個人電腦,使所有這些群體便捷地通過網(wǎng)絡(luò)獲取信息和控制電腦應(yīng)用,提高他們的工作效率,增加他們使用個人電腦的樂趣。
2 本文設(shè)計的智能人機交互系統(tǒng)功能分析
一個良好的智能語音交互系統(tǒng),應(yīng)該具有操作方便,簡單等特性。本文設(shè)計的這個系統(tǒng)按照功能的不同分為了語音模塊,控制模塊,記憶模塊幾大模塊。從數(shù)據(jù)角度來看語音和視覺模塊負(fù)責(zé)數(shù)據(jù)的輸入,其中語音模塊還負(fù)責(zé)部分?jǐn)?shù)據(jù)的輸出,記憶模塊負(fù)責(zé)數(shù)據(jù)的存儲,控制模塊負(fù)責(zé)數(shù)據(jù)的處理。
語音模塊:收集輸入語音轉(zhuǎn)換成文本信息記憶模塊;記憶模塊負(fù)責(zé)處理和存儲文本信息;控制模塊:負(fù)責(zé)對輸入信息做判斷,進行執(zhí)行電腦功能模塊或利用語音進行語數(shù)據(jù)流圖(DFD)是對系統(tǒng)中數(shù)據(jù)流動變化進行抽象,用來表示系統(tǒng)主要的邏輯流轉(zhuǎn)模型。
2 本文設(shè)計的智能人機交互系統(tǒng)設(shè)計與關(guān)鍵技術(shù)實現(xiàn)
本系統(tǒng)從總體上分為語音,控制,記憶三大模塊。不同的模塊負(fù)責(zé)不同的功能,模塊之間相互協(xié)調(diào)和配合。
2.1 語音模塊的設(shè)計實現(xiàn)
利用Python中的Pyaudio模塊錄制固定格式音頻,通過Http協(xié)議調(diào)用百度的語音識別模塊將音頻轉(zhuǎn)換成字符串,然后將字符進行分詞處理。其中分詞處理利用了國內(nèi)優(yōu)秀的中文分詞模塊一一結(jié)巴(Jieba)分詞,這樣用戶輸入的語音數(shù)據(jù)就變成了容易處理的關(guān)鍵字字符串。待程序處理了用戶的輸入之后,會有一部分指令需要有語音輸出作為反饋,這里調(diào)用了百度語音合成功能,將用戶反饋的文本信息轉(zhuǎn)換成語音播放給用戶。
2.2 控制模塊的設(shè)計實現(xiàn)
這個模塊的主要作用是控制程序的正確運行及功能的調(diào)用。當(dāng)系統(tǒng)啟動之后,系統(tǒng)會處于一個休眠模式,在后臺一直運行語音監(jiān)聽程序,由于用戶在使用電腦的時候,不管是用戶本身還是用戶所處的環(huán)境都會有些雜音,所以程序設(shè)定了語音指令“小明”來喚醒智能人機交互助手,當(dāng)用戶給出語音指令“小明”的時候。智能人機交互助手就會被喚醒。播放語音“您好,需要什么幫助呢”。之后就會再次進入語音監(jiān)聽程序,控制臺顯示recording等待用戶的指令。按照智能人機交互助手的不同功能,我們會對用戶的語音指令做出判斷,然后執(zhí)行用戶所要求的功能。
2.3 功能模塊的設(shè)計實現(xiàn)
智能人機交互助手提供給用戶調(diào)用搜索引擎,智能語音聊天,啟動電腦應(yīng)用三大功能。
2.3.1 調(diào)用搜索引擎
當(dāng)系統(tǒng)收到“百度”語音指令的時候,經(jīng)過語音模塊處理好的文本會被當(dāng)成百度搜索的關(guān)鍵字,通過調(diào)用函數(shù),自動啟動電腦瀏覽器并且搜索關(guān)鍵字展示給用戶,搜索的結(jié)果經(jīng)過篩選之后會存入數(shù)據(jù)庫
2.3.2 智能語音聊天
用戶利用語音調(diào)用成功語音聊天功能之后,經(jīng)過語音模塊處理好的文本,首先會被切成提取關(guān)鍵字,通過這些關(guān)鍵字去匹配數(shù)據(jù)庫中的關(guān)鍵字矩陣尋找回答內(nèi)容,如果沒有找到,會調(diào)用圖靈機器人的語音聊天API,將結(jié)果反饋給用戶,最后會把對話內(nèi)容加入關(guān)鍵字矩陣。
2.3.3 啟動電腦應(yīng)用
當(dāng)系統(tǒng)收到“打開”語音指令的時候,經(jīng)過語音模塊處理好的文本會被當(dāng)成啟動應(yīng)用的關(guān)鍵字傳入調(diào)用電腦應(yīng)用的函數(shù)。
2.4 記憶模塊的設(shè)計實現(xiàn)
利用網(wǎng)絡(luò)圖的方式來存儲數(shù)據(jù),通過從圖中節(jié)點(我叫它們關(guān)鍵字)做添加,修改,搜索來實現(xiàn)對數(shù)據(jù)的存儲和利用,其中每個節(jié)點也叫關(guān)鍵字關(guān)聯(lián)詞語和與之有關(guān)的圖片,所以這個記憶模塊就由一系列圖和關(guān)鍵字組成。給予這些關(guān)鍵字有序的編號存儲在數(shù)據(jù)庫中。
3 結(jié)論
本智能語音交互系統(tǒng)在設(shè)計編寫之初是以語音交互為基礎(chǔ)的,但是設(shè)計完成之后發(fā)現(xiàn)必要的用戶交互界面還是需要,時間倉促,希以后為本程序開發(fā)良好的交互界面。對于程序的個性化這部分的實現(xiàn),是對數(shù)據(jù)庫中矩陣數(shù)據(jù)的匹配識別,以后還需結(jié)合大數(shù)據(jù)這方面的知識進一步完善。
參考文獻
[1]楊威,吳建,李珊珊,孫佳鈺,張旭彤,劉英博,耿立明.智能家居下的語音控制系統(tǒng)[J].電子制作,2016 (06):37.
[2]馬漢,訊飛發(fā)布多款語音新品發(fā)力智能家庭領(lǐng)域[J],計算機與網(wǎng)絡(luò),2014,40 (16):32-33.
[3]林峰,蔡宇博,周浪,馬學(xué)品,試制智能服務(wù)機器人(上)[J].電子制作,2005 (10):30-33.