駱昌芹
如今,機器人已經走進人們的生活。隨著科技的迅猛發(fā)展,靠手動操控的機器人已經無法滿足時下人們快節(jié)奏的生活。有人設想,能否運用語音來操控機器人?答案是肯定的。然而,智能機器人的語音識別系統(tǒng)也并非盡善盡美,大部分的機器人只能識別普通話,而且只能一一回應,回應的速度也沒有人快。要是處在嘈雜的環(huán)境里與人溝通,智能機器人往往束手無策,就不知道怎么應付了。
處于充滿噪音的環(huán)境里,我們如何與機器人溝通呢?近日,在第四屆全球智能機器人語音識別大賽中,科大訊飛的Aivi機器人研究專家利用麥克風進行語音分離和英文識別取得成功,備受全球矚目。
我們都知道智能機器人必須進行語音識別才能實現(xiàn)人與機器的溝通。早在20世紀50年代,研究人員就開始開發(fā)語音識別系統(tǒng),到20世紀70年代這項技術已經取得了突破。智能機器人的聲音傳感器和語音識別軟件合成才能成為機器人的“耳朵”。當人類發(fā)出語音時,傳感器收到信號,立即反饋給系統(tǒng),系統(tǒng)里的信息過濾器通過搜索信息儲存數(shù)據以便尋求幫助,把無關的信息過濾刪除,并將每一處細節(jié)逐一解決,最終提交答案。
語音識別,在我們生活中處處可聞,小到我們使用的手機,大到遙控的電腦都有所體現(xiàn)。但你發(fā)現(xiàn)沒有,除非你的普通話特別標準,否則顯示出來的字符別字很多。尤其是在有噪音的環(huán)境里,更是無法識別。倘若是多個人給同一個機器人發(fā)出語音提示,它就不知道到底聽誰的了。
要弄清這個問題,我們首先必須弄清語音識別的原理了。其實,它就是一個從語言到文字的轉換過程。系統(tǒng)裝置中先進行信息收集,然后進行信號處理,再進入模型識別,通過這一系列處理后進入發(fā)聲機理。當然,它的“說話”方式跟人類不一樣。機器人先將說的話分解成詞,再把詞分解成音素,反之,它對接收到的語音信息也是如此處理的。所以如果你的發(fā)音模糊,而機器人又未設置相關軟件時就無法識別,或周圍聲音環(huán)境干擾了它的識別時,就會導致識別效果明顯變差。
Aivi團隊在設置過濾器的時候,運用多通道識別語音,即用多個麥克風采集聲源,而系統(tǒng)則通過過濾器進行篩選,去除雜音,由此提高識別的精確度。同時,添加回聲消除和置信判斷功能,將噪音完全拒之門外,它可以識別遠在5米處的語音,還可對幾個人的語音進行同時識別。此外,它還有方言識別和糾錯功能,當對方普通話不標準或者帶有方言時都會進行自動糾錯。
解決了機器人自動清除噪音問題還不夠,對于信息瀏覽量非常大的機器人來說,如何刪掉那些無關緊要的信息呢?首先,它需要一個信息過濾器,而過濾器具有瀏覽、識別、刪除、存儲等一系列功能,完全可以通過識別信息,對信息自動進行解釋、交換以及處理,然后轉發(fā)給傳感器,傳感器獲得這樣“基本干凈”的數(shù)據后,雜音自然就容易被迅速消除掉,而把保留著的信息儲存下來。
Aivi機器人已經達到了一定的水準,面對從搜索歌曲到詢問天氣變化以及生活方面的問題,它都會有條不紊地接招,比如搜索一名歌手與歌名是否相符,它會完全幫你糾錯,并且讓你重新搜索。
不同于普通機器人,智能機器人的硬件和軟件需要不斷更新。系統(tǒng)更新主要表現(xiàn)為識別平臺的研發(fā)。在硬件改造上, Aivi團隊首先從以前的4+1陣列改換成如今的6+0陣列,讓聲源定位更穩(wěn)定,回聲消除更加清晰,尤其是在消除噪音方面做到了萬無一失,無論什么樣的環(huán)境里都能應變自如。當然對于超出5米距離的語音如何識別,還有待Aivi團隊的繼續(xù)努力。
目前,用于智能生活的語音技術已經運用在手機中了。而智能機器人因造價昂貴,暫時還沒有完全走進家家戶戶,但已在許多領域開始服役了。
隨著技術的發(fā)展,智能語音技術的優(yōu)化速度在不斷加快,智能機器人將給人類帶來諸多便利,比如可以廣泛運用在道路交通管理、偵破案件上。隨著社會的發(fā)展,智能機器人也將逐步走進我們的生活。到時候,你在家里不僅可以操控所有電器,甚至當你無聊的時候,機器人還會陪你聊聊天。
2013年以來,我國的機器人市場已經進入高速發(fā)展期,成為全球最大的智能機器人消費市場,僅我國自行研制的機器人就有30多萬個。語音識別系統(tǒng)的前景將更加廣闊。