徐鑫宇
摘要:今年以來,各大公司都推出了智能音箱產(chǎn)品,這種以語音進行操作的電子設(shè)備交互模式,一時間被大家廣泛知道和使用。那么,智能語音到底對電子設(shè)備的交互起到什么樣的作用呢?本文今天就從智能語音助手角度淺析計算機智能科學(xué)與技術(shù)對電子設(shè)備交互的作用。本文首先概述了智能語音及其原理,然后分析智能語音在電子設(shè)備交互中的應(yīng)用,包括汽車智能交互、智能焦距、兒童終端、服務(wù)行業(yè)機器人四個方面。最后,還探討了電子設(shè)備交互的未來發(fā)展趨勢。
關(guān)鍵詞:智能語音助手;電子設(shè)備交互;計算機智能科學(xué)與技術(shù)
中圖分類號:TP30 文獻標識碼:A 文章編號:1007-9416(2018)12-0225-02
0 引言
2011年10月,蘋果公司在美國加利福尼亞州舉行的Let's talk iPhone的新品發(fā)布會上發(fā)布了iPhone 4s手機,一同發(fā)布的還有一個引發(fā)大眾熱議的功能——Siri語音服務(wù)。新購機的用戶可以利用Siri通過手機讀短信、介紹餐廳、詢問天氣、語音設(shè)置鬧鐘等,一時間關(guān)于使用Siri的視頻開始風(fēng)靡網(wǎng)絡(luò),有了Siri的加持,手機也從一個通訊工具華麗變身為一個智能機器人?,F(xiàn)如今,Siri的功能越來越完善,除了能幫助用戶做一些輔助工作,儼然成為了很多果粉聊天解悶的忠實朋友。
Siri問世后,越來越多的語音助手軟件開始進入我們的視野,比如百度地圖中的小度、安卓手機中的各類語音助手、Windows 10 PC端的小娜、亞馬遜的Alexa、小米的小愛同學(xué)等等,形形色色色的語音助手能為我們講笑話、找電影、找餐廳,跟我們對話聊天等等。通過計算機智能科學(xué)與技術(shù)實現(xiàn)的智能語音助手已經(jīng)成為信息時代下電子設(shè)備與用戶之間新的交互方式。這種新方式解放了我們的雙手、雙眼,讓我們能夠在享受更多樂趣的同時,更加自如、安心地執(zhí)行其他操作。接下來,我們將從智能語音助手角度簡單地分析一下計算機智能科學(xué)與技術(shù)對電子設(shè)備交互的作用。
1 認識智能語音
1.1 智能語音發(fā)展史
最早實現(xiàn)語音識別功能的時間,我們要追溯到1952年。那一年,貝爾實驗室制造了一臺6英尺高的自動數(shù)字識別機“Audrey”,這個像人一樣高的機器能夠識別數(shù)字0~9的發(fā)音。接著,美國、日本的相關(guān)機構(gòu)紛紛投入研究,雖然進展緩慢,但漸漸地機器開始能夠識別簡單的單音節(jié)詞或者特定的元音。直到二十世紀七十年代,語音識別取得了突破性的進展,在美國國防部的支持及參與項目的相關(guān)機構(gòu)努力下,研發(fā)出新一代智能語音識別系統(tǒng)Harpy,了不起的Harpy能夠識別整句話。
二十世紀八十年代中期,IBM創(chuàng)造了第一臺通過語音控制的打字機,當時這臺打字機能夠處理約20000個單詞。1984年IBM又發(fā)布了一套智能語音識別系統(tǒng),這套系統(tǒng)能夠識別5000個詞匯以上,并且準確率達到95%。
1987年12月,李開復(fù)開發(fā)出世界上第一個“非特定人聯(lián)系語音識別系統(tǒng)”。
1988年,卡耐基梅隆大學(xué)開發(fā)出世界上第一個非特定人大詞匯量連續(xù)語音識別系統(tǒng)。這個語音識別系統(tǒng)能夠識別包括997個詞匯在內(nèi)的4200個連續(xù)語句。同年,清華大學(xué)和中科院聲學(xué)所在大詞庫漢語聽寫機的研制上取得突破性進展。
電子信息時代的發(fā)展推動了智能語音識別技術(shù)的進步,進入二十一世紀后,大家對智能語音的思考方向更加開放,智能語音識別技術(shù)開始向更多的方向發(fā)展。
2001年,比爾蓋茨通過MiPad原型機向世人展示了語音多模態(tài)移動設(shè)備的愿景。
2002年,由中科院自動化所及其所屬科技公司推出的“天語”中文語音系列產(chǎn)品打破了語音識別領(lǐng)域被外國壟斷的局面。
2006年,深度置信網(wǎng)絡(luò)的提出掀起機器深度學(xué)習(xí)的熱潮,2009年深度神經(jīng)網(wǎng)絡(luò)在小詞匯量連續(xù)識別的應(yīng)用上獲得成功。
2011年,微軟的DNN模型在語音搜索任務(wù)中獲得成功,同年,科大訊飛成功將DNN應(yīng)用到中文識別領(lǐng)域,并開放給開發(fā)者使用。
2011年10月,iPhone 4S發(fā)布,Siri同時面世,掀開了人機交互新篇章。自此各種各樣的語音助手開始進入我們的生活,涉及領(lǐng)域越來越廣?,F(xiàn)如今我們隨時可以見到智能語音的影子,應(yīng)用場景非常廣泛,諸如智能車載、智能家居、智能穿戴等等不一而足。
1.2 智能語音的基本原理
我們?nèi)粘J褂玫墓ぞ叽蟛糠侄夹枰醚劬θタ础⒂檬诌M行操作,執(zhí)行單一動作的時候我們的雙手雙眼還能夠應(yīng)付,但在現(xiàn)代生活中,很多時候都需要同時執(zhí)行好幾個動作。比如,開車的時候,如果需要按照導(dǎo)航走路,我們需要眼睛看路的同時看導(dǎo)航,手操作方向盤、離合器的同時還要操作手機。多個動作同時操作不但效率很低更重要的是非常的不安全,智能語音的出現(xiàn)幫我們解決了這個大問題。
智能語音主要通過自然語言識別來執(zhí)行不同的操作,在不同場景的應(yīng)用下能夠為我們解決不同問題、滿足不同需求。這種技術(shù)主要涉及到自然語言的識別與自然語言的生成兩個方面。其識別機制其實不復(fù)雜,在我們與智能語音助手交流流時,后臺系統(tǒng)首先會通過聲學(xué)理論處理其它噪音減少干擾,同時以聲波的形式攝取到人類的自然語言。攝取到聲波被進行分幀處理,然后針對每一幀進行聲學(xué)特征提取,將提取的部分按照不同波形特征轉(zhuǎn)換成計算機能夠讀懂的語言。接著計算機對語音進行識別轉(zhuǎn)化成文本,再通過語義理解技術(shù)對轉(zhuǎn)化來的文字進行理解以確定用戶所說的內(nèi)容,再然后將數(shù)據(jù)發(fā)送到?jīng)Q策引擎,去執(zhí)行用戶的指令或通過語音合成技術(shù)把需要反饋的信息用語音的形式反饋給用戶。
2 智能語音在電子設(shè)備交互中的應(yīng)用
通過智能語音的發(fā)展史來看,自上個世紀80年代開始我國就已經(jīng)開始了智能語音的研究工作,并長期得到國家的支持。隨著相關(guān)技術(shù)的不斷優(yōu)化以及市場的不斷推廣,智能語音技術(shù)已經(jīng)滲入到我們生活中的方方面面,涉及領(lǐng)域十分廣泛,諸如汽車行業(yè)、家居行業(yè)、服務(wù)行業(yè)、娛樂行業(yè)等等,涉及的產(chǎn)品更是各式各樣,人與各類電子設(shè)備的語音交互場景每天都在上演。
2.1 汽車智能交互
前文曾說到開車的場景,加入智能語音系統(tǒng)可以解放駕駛員的雙手和雙眼,提高駕駛的安全性,其實現(xiàn)在的智能語音系統(tǒng)早就不止這一個功能了,越來越多的互聯(lián)網(wǎng)版車型的問世,給駕駛員的駕駛過程提供了很多幫助的同時也增加了很多樂趣。就拿東風(fēng)日產(chǎn)的某款車來說,車載系統(tǒng)提供了智控導(dǎo)航、娛樂天氣、通訊等200多種功能,能識別1000中日常語句。車主可以通過設(shè)置喚醒指令喚醒智能語音功能,而且常用的功能還能夠免喚醒指令,直接說操作指令就可以。比如,車主想要出去吃飯,可以直接給出智能語音助手“吃飯”的具體指令,智能語音助手就能夠為主人找出很多備選方案,待車主確定地點后直接導(dǎo)航到目的地即可。想要聽音樂,可語音告訴智能語音助手打開播放器,切歌這種操作對它來說更是易如反掌的。
2.2 智能家居
物聯(lián)網(wǎng)時代下的萬物帶給用戶的直接體驗就是便捷,作為方便我們生活解放我們雙手的智能語音系統(tǒng)同樣給我們創(chuàng)造的是便捷的生活方式。那么,作為我們最重要的生活場景,家居環(huán)境自然少不了智能語音的身影。隨著市場推廣、技術(shù)發(fā)展,融入智能語音技術(shù)的家居用品越來越多,前幾年還需要通過手機連接才能實現(xiàn)控制的家電,現(xiàn)在直接用語音就能控制,甚至家居用品還能主動詢問是否提供幫助??匆豢醇依锏募矣秒娖?,最常見的配備了智能語音功能的應(yīng)該就是電視了。比如小米的電視機,拿起遙控器按住Home鍵,對著遙控器說出你要看的電視劇或者電影名稱,系統(tǒng)就會自動為你找到。還有小米出品的攝像頭也加入了語音識別功能,只要你對著攝像頭說一句“小白看過來”它就會聽話地轉(zhuǎn)過頭來。
2.3 兒童終端
要說到智能語音應(yīng)用領(lǐng)域中最重要的一部分就不得不提兒童終端市場了。無論從智能故事機、早教娛樂機還是兒童智能音箱,幾乎每年都會出現(xiàn)爆款。之所以配備了智能語音系統(tǒng)的兒童終端這么受歡迎,源于智能語音系統(tǒng)的內(nèi)置數(shù)據(jù)庫及語音對話功能為父母創(chuàng)造了短暫的“閑暇時間”,哄得孩子不哭不鬧的同時還能教會孩子知識,著實是父母的哄娃助手。就拿百度出品的小度智能音箱兒童模式來說,它內(nèi)置百萬級數(shù)據(jù)的兒童語言庫,設(shè)置了兒童專用的語音喚醒模式以及語音識別交互引擎,確保孩子在于小度智能音箱對話的時候能夠流暢自然,更重要的是它還擁有80萬以上的精品兒童有聲節(jié)目以及來自寶寶知道的10萬以上的權(quán)威認證母嬰問答內(nèi)容。
2.4 服務(wù)行業(yè)機器人
前幾天在網(wǎng)上的一個視頻火遍了網(wǎng)絡(luò),視頻中一位去銀行辦理業(yè)務(wù)的女士問正在崗位上工作的機器人:“你在這干嘛呀?”機器人回復(fù):“上班呀?!迸坑謫枺骸肮べY多少錢呀?”機器人回答:“工資都用來付電費了?!边@組對話著實可愛,更有不少網(wǎng)友留言說:“我就快下崗了?!贝_實,智能語音機器人已經(jīng)可以成熟地服務(wù)于金融貸款、理財、房地產(chǎn)、電商行業(yè),更能成熟地進行電話銷售、客戶服務(wù)、售后管理等基礎(chǔ)崗位。尤其是線上的客服人員,已經(jīng)被越來越多的智能語音系統(tǒng)代替,智能語音系統(tǒng)不但能夠回答客戶是問題,還能24小時不間斷在崗,于企業(yè)而言確實更好管理。
3 電子設(shè)備交互的發(fā)展趨勢
智能語音技術(shù)作為人工智能應(yīng)用最成熟的技術(shù)之一,已經(jīng)實現(xiàn)商業(yè)化落地,在智能家居、智能車載、兒童終端、服務(wù)等領(lǐng)域有了迅猛發(fā)展,從行業(yè)分析數(shù)據(jù)可以看出,在中國的人工智能市場規(guī)模的增長來看,智能語音居于重要位置。從技術(shù)水平來看,在語音識別率方面,百度、谷歌、科大訊飛等主流平臺識別率均在96%以上,識別能力屈于穩(wěn)定。同時語音對話時可隨時打斷,加入了語境分析功能。在自然語言生成技術(shù)上也達到了國際領(lǐng)先水平。智能語音發(fā)展的越來越好,但智能語音功能遠遠沒有達到人類的理想水平,未來智能語音的價值點依然是以服務(wù)用戶為主,深入挖掘用戶數(shù)據(jù),以語音作為物聯(lián)網(wǎng)的入口,形成全新的商業(yè)模式。在智能家居、智能車載、智能穿戴等行業(yè)中發(fā)揮巨大的價值。
4 結(jié)語
智能語音系統(tǒng)經(jīng)過60多么的發(fā)展,已經(jīng)達到了能夠讓人與電子設(shè)備順暢對話水平,實現(xiàn)了落實商業(yè)化用途的的目的,目前已經(jīng)被廣泛應(yīng)用于我們的生活中。作為最早落地的人工智能技術(shù),無論是產(chǎn)業(yè)模式、創(chuàng)新能力、應(yīng)用能力還是企業(yè)能力,在人工智能領(lǐng)域都是發(fā)展最好的,都呈現(xiàn)出蓬勃發(fā)展的趨勢。相信在國家的大力支持下,行業(yè)者的不懈努力下,以智能語音為首的計算機智能科學(xué)與技術(shù)在與其它產(chǎn)業(yè)融合、發(fā)展環(huán)境優(yōu)化、技術(shù)公關(guān)等方面都會有更多利好消息,為物聯(lián)網(wǎng)時代發(fā)展做出重大貢獻。
參考文獻
[1]宋偉,金暢.盛四輩.我國智能語音行業(yè)專利戰(zhàn)略研究——以科大訊飛為例[J].科技進步與對策,2011,28(21):107-111.
[2]顧險峰.人工智能的歷史回顧和發(fā)展現(xiàn)狀[J].自然雜志,2016,38(3):157-166.
[3]朱斌.淺析智能語音技術(shù)及其應(yīng)用[J].智富時代,2015(9):186.
[4]施超群,陳堅剛.淺析語音識別原理[J].浙江工商職業(yè)技術(shù)學(xué)院學(xué)報,2011(3):94-96.
[5]賈佩山.自然語言生成技術(shù)及其應(yīng)用實例[J].電腦與信息技術(shù),1997(2):7-9.
[6]白水.什么是自然語言處理(NLP)[J].語文建設(shè),1992(2):37-37.
[7]劉劍.2017年中國人工智能行業(yè)分析——智能語音應(yīng)用篇[J].湖南工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報,2017,17(3):1-4.
Analysis of the Interaction Between Computer Intelligence Science and Technology on Electronic Devices from the Perspective of Intelligent voice Assistant
XU Xin-yu
(Xi'an Middle School, Shaanxi Province, Xi'an Shaanxi? 710018)
Abstract:Since the beginning of this year, major companies have introduced smart speaker products. This interactive mode of electronic devices operated by voice has been widely known and used by people. So, what role does intelligent speech play in the interaction of electronic devices? This paper analyzes the role of computer intelligence science and technology in electronic device interaction from the perspective of intelligent voice assistant. This paper first summarizes the intelligent voice and its principles, and then analyzes the application of intelligent voice in electronic device interaction, including automotive intelligent interaction, intelligent focal length, children's terminal, and service industry robot. Finally, the future development trend of electronic device interaction is also discussed.
Key words:intelligent voice assistant;electronic device interaction;computer intelligence science and technology