廈門(mén)視爾沃電子科技有限公司 楊?lèi)?ài)祥
隨著云計(jì)算和大數(shù)據(jù)快速發(fā)展,人工智能興起,繼蘋(píng)果手機(jī)Siri語(yǔ)音控制功能, 亞馬遜ECHO智能音箱上市后,智能語(yǔ)音已經(jīng)成為風(fēng)靡全球的一項(xiàng)應(yīng)用,作為網(wǎng)絡(luò)技術(shù)快速發(fā)展的中國(guó),相繼出現(xiàn)智能語(yǔ)音產(chǎn)品,如代表性的京東與科大訊飛聯(lián)合推出的叮咚音箱,科大訊飛發(fā)布的靈犀語(yǔ)音助手和訊飛語(yǔ)音云產(chǎn)品,繼而在中國(guó)成長(zhǎng)了一批智能語(yǔ)音的科技公司。Siri是近場(chǎng)語(yǔ)音,而ECHO則是遠(yuǎn)場(chǎng)語(yǔ)音的應(yīng)用。
智能設(shè)備與人交互有三大方式:觸控、手勢(shì)和語(yǔ)音,語(yǔ)音交互在家居場(chǎng)景中,更符合自然合理的特性,可以以更少的操作步驟來(lái)完成需要的工作,應(yīng)該逐漸走入主流的是語(yǔ)音的交互方式,近場(chǎng)語(yǔ)音依賴(lài)于近距離的使用終端,而遠(yuǎn)場(chǎng)語(yǔ)音的應(yīng)用更具有開(kāi)放性和便利性,智能液晶電視具有普及面廣,使用頻率高,可視化屏幕大優(yōu)勢(shì),智能電視上搭載遠(yuǎn)場(chǎng)語(yǔ)音智能方案,對(duì)于培養(yǎng)用戶(hù)習(xí)慣有著得天獨(dú)厚的優(yōu)勢(shì)??沙蔀檫h(yuǎn)場(chǎng)語(yǔ)音發(fā)展的有效手段。
電視遠(yuǎn)場(chǎng)語(yǔ)音系統(tǒng)構(gòu)建如圖1所示:
圖1
麥克風(fēng)拾音:通過(guò)麥克風(fēng)硬件模塊采集語(yǔ)音信號(hào),麥克風(fēng)排布可多種形式,如線性、L型、球形,不同形狀排布陣列決定著采用麥克風(fēng)數(shù)量,最終的目的都是匹配特定的場(chǎng)景,讓最終遠(yuǎn)場(chǎng)交互的精度最優(yōu)。麥克風(fēng)的選擇可以是ECM或MEMS麥克風(fēng),MEMS麥克風(fēng)可以是數(shù)字的(集成ADC)或是模擬的(如圖2所示)。
圖2
陣列設(shè)計(jì)主要有雙麥和多麥,雙麥大多應(yīng)用在諸如電視類(lèi)只需接收180度音源的產(chǎn)品。多麥應(yīng)用在電視,音箱,智能家居設(shè)備等各類(lèi)產(chǎn)品,分多麥線性陣列和多麥環(huán)狀陣列,可接收360度音源。
語(yǔ)音提?。宏嚵邢到y(tǒng)的語(yǔ)音芯片對(duì)麥克風(fēng)在環(huán)境中采集的多路語(yǔ)音信號(hào)進(jìn)行一系列的運(yùn)算,實(shí)現(xiàn)回聲消除,降噪處理,提取有效特征指令。過(guò)模擬輸出或者IIS格式輸出給電視主芯片。語(yǔ)音處理芯片分兩種。一種是通用CPU運(yùn)行語(yǔ)音降噪軟件算法。一種是用ASIC芯片硬件處理的方式得到干凈的語(yǔ)音指令信息。
智能液晶電視遠(yuǎn)場(chǎng)語(yǔ)音提取、處理方案構(gòu)建流程如圖3所示:
圖3
語(yǔ)音識(shí)別、語(yǔ)義理解:語(yǔ)音識(shí)別是把語(yǔ)音轉(zhuǎn)化為文本信號(hào)處理。語(yǔ)義理解是從文字信息提取指令(如上圖語(yǔ)音指令操作節(jié)點(diǎn))。語(yǔ)音識(shí)別和語(yǔ)義理解是一門(mén)新興邊緣學(xué)科,內(nèi)容涉及語(yǔ)言學(xué)、心理學(xué)、邏輯學(xué)、聲學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)。綜合應(yīng)用現(xiàn)代語(yǔ)音學(xué)、音系學(xué)語(yǔ)法學(xué)、語(yǔ)義學(xué)、語(yǔ)用學(xué)的知識(shí),實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信意味著要使計(jì)算機(jī)既能理解自然語(yǔ)言文本的意義,也能以自然語(yǔ)言文本來(lái)表達(dá)給定的意圖、思想等。隨著人類(lèi)對(duì)人機(jī)交互語(yǔ)言的不斷探求,以及大數(shù)據(jù)技術(shù)的不斷發(fā)展,人們?cè)谡Z(yǔ)音識(shí)別,語(yǔ)音理解的道路上,通過(guò)不斷的語(yǔ)言重復(fù)訓(xùn)練,如今已經(jīng)取得一定成果。
智能電視語(yǔ)音業(yè)務(wù):智能語(yǔ)音支持一些通用業(yè)務(wù)和垂直領(lǐng)域定制業(yè)務(wù),根據(jù)實(shí)際產(chǎn)品需求設(shè)計(jì),諸如在線視頻點(diǎn)播、菜單操作、智能家居控制,購(gòu)物、聊天、知識(shí)百科、天氣查詢(xún)、路況查詢(xún)、視頻搜索、音樂(lè)搜索等等,這些功能可以集中在液晶電視這個(gè)大屏入口上實(shí)現(xiàn)。智能電視項(xiàng)目可以搭載遠(yuǎn)場(chǎng)語(yǔ)音功能來(lái)實(shí)現(xiàn)以上業(yè)務(wù)功能,提高用戶(hù)體驗(yàn),給予用戶(hù)更好的便利性。智能語(yǔ)音業(yè)務(wù)需要語(yǔ)音廠商的內(nèi)容生態(tài)支撐,語(yǔ)音識(shí)別、語(yǔ)義理解代表性廠商主要有主要廠商:科大訊飛、百度度秘、云知聲、思必馳、捷通華聲、騰訊叮當(dāng)。
智能電視遠(yuǎn)場(chǎng)語(yǔ)音功能的設(shè)計(jì)形態(tài)構(gòu)建:電視產(chǎn)品遠(yuǎn)場(chǎng)語(yǔ)音方案的選擇,依據(jù)產(chǎn)品定位,結(jié)合成本和開(kāi)發(fā)周期,可采用以下3種形態(tài)設(shè)計(jì)(如圖4所示)。
圖4
1.USB端口接入遠(yuǎn)場(chǎng)語(yǔ)音功能模塊,可固定在機(jī)器上或采用延長(zhǎng)的數(shù)據(jù)線外接,將功能模塊做成音箱或者擺設(shè)置于電視柜等。此設(shè)計(jì)可以由用戶(hù)在購(gòu)買(mǎi)時(shí)自行根據(jù)喜好購(gòu)買(mǎi)。
2.遠(yuǎn)場(chǎng)語(yǔ)音模塊集成在電視機(jī)芯板內(nèi),猶如筆記本電腦攝像頭一般,簡(jiǎn)潔,美觀,大方。
3.遠(yuǎn)場(chǎng)語(yǔ)音模塊做成無(wú)線音箱,或集成在無(wú)線遙控器等。通過(guò)Wifi、藍(lán)牙或者RF 2.4 G通訊等方式完成聲音信號(hào)的傳遞,此設(shè)計(jì)能夠給人以無(wú)限自由,時(shí)尚感。
電視有了遠(yuǎn)場(chǎng)語(yǔ)音,就可無(wú)論在客廳的任何位置,不用遙控器與電視對(duì)話,它都會(huì)給你快速的回應(yīng)。由遠(yuǎn)場(chǎng)語(yǔ)音搭載對(duì)話式人工智能操作系統(tǒng),基于語(yǔ)音識(shí)別、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、大數(shù)據(jù)等技術(shù),借助強(qiáng)大的云端能力,為用戶(hù)提供便捷、精準(zhǔn)的語(yǔ)音交互體驗(yàn),實(shí)現(xiàn)各種功能業(yè)務(wù)、信息等邊看邊查功能。遇看電視過(guò)程中的隨時(shí)突發(fā)需求,用戶(hù)不需要起身尋找遙控器,只要對(duì)話就可以解決需求,提供完美的體驗(yàn)。
隨著技術(shù)的不斷發(fā)展,語(yǔ)音生態(tài)內(nèi)容商會(huì)得到進(jìn)一步的提高,業(yè)務(wù)擴(kuò)大,資源的付費(fèi)門(mén)檻將會(huì)越來(lái)越能夠讓更多智能液晶電視商所接受,智能電視用戶(hù)隨意動(dòng)動(dòng)嘴,說(shuō)幾句話,就可以完成自己想要的操作,是未來(lái)發(fā)展的一個(gè)大方向。
[1]董永貴.微型傳感器[M].清華大學(xué)出版社,2007.
[2][美]M. Tim Jones著.人工智能.2009.
[3]朱福喜,杜友福,夏定純主編.人工智能引論.2006.