劉露萍
(重慶水利電力職業(yè)技術(shù)學(xué)院,重慶 402160)
隨著我國(guó)經(jīng)濟(jì)已由高速增長(zhǎng)時(shí)期轉(zhuǎn)向高質(zhì)量發(fā)展時(shí)期,可持續(xù)發(fā)展戰(zhàn)略的推進(jìn),人們的生態(tài)環(huán)保意識(shí)不斷提升,如何開展垃圾分類管理,成為各地政府與人們?nèi)罕姼叨汝P(guān)注的問題,一方面要構(gòu)建長(zhǎng)效的管控機(jī)制,加強(qiáng)人們對(duì)垃圾分類處理的認(rèn)知,另一方面還要引入現(xiàn)代化及科學(xué)技術(shù),以推動(dòng)綠色經(jīng)濟(jì)體系的完善,養(yǎng)成良好的衛(wèi)生習(xí)慣和節(jié)約意識(shí)。2017年國(guó)務(wù)院下發(fā)《生活垃圾分類制度實(shí)施方案》,2019年起,全國(guó)啟動(dòng)生活垃圾分類,但成效不夠明顯,人們?nèi)狈诸惓WR(shí),無法自主分類。隨著語音識(shí)別技術(shù)應(yīng)用領(lǐng)域的越來越廣泛,基于語音識(shí)別控制的智能垃圾分類系統(tǒng)迎難而上,解決了人們自主分類難的問題,從而引導(dǎo)人們正確投放垃圾,助推國(guó)家垃圾分類工作,特別是在疫情期間可以避免人們和垃圾存放裝置直接接觸,減少病毒傳播的途徑。
隨著信息技術(shù)、智能控制技術(shù)的迅速發(fā)展,人們?cè)絹碓街匾曊Z音數(shù)據(jù)的識(shí)別和處理,近十年語音識(shí)別技術(shù)得到了飛躍式的發(fā)展,已成為信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一,已應(yīng)用到工業(yè)、家庭服務(wù)、通信、電子產(chǎn)品、汽車電子等各個(gè)領(lǐng)域。語音識(shí)別技術(shù)是計(jì)算機(jī)科學(xué)、信號(hào)處理、單片機(jī)技術(shù)、聲學(xué)等多學(xué)科交叉的技術(shù),語音識(shí)別就是讓機(jī)器識(shí)別出人說出的語音,轉(zhuǎn)化為機(jī)器自身可以運(yùn)行的指令??梢苑譃樘囟ㄈ苏Z音識(shí)別和非特定人語音識(shí)別,特定人語音識(shí)別是對(duì)指定人的語音識(shí)別,其他人的話不識(shí)別,例如手機(jī)的語音解鎖;非特定人語音識(shí)別是不分年齡、性別,只要說相同語言就可以,智能垃圾分類系統(tǒng)的使用者是廣大受眾,所以應(yīng)當(dāng)使用非特定人語音識(shí)別技術(shù)。
非特定人語音識(shí)別是通過預(yù)處理、特征提取、訓(xùn)練和匹配4個(gè)過程完成(如圖1)。預(yù)處理是要完成語音信號(hào)的采樣、降噪、增強(qiáng),特征提取是通過頻譜分析從語音信號(hào)波形中提取一組或幾組能夠描述語音信號(hào)特征的參數(shù),訓(xùn)練階段就是構(gòu)建詞表參考模式庫,它由這個(gè)詞重復(fù)發(fā)音多遍,再經(jīng)預(yù)處理和特征提取得到,匹配是將輸入語音的特征矢量參數(shù)和參考模式庫中的參考模式進(jìn)行相似性度量比較,得分最高的一條作為識(shí)別結(jié)果輸出。
圖1
LD3320芯片是一顆基于ASR技術(shù)非特定人語音識(shí)別的語音識(shí)別芯片,LD3320芯片集成了語音識(shí)別處理器和一些外部電路,包括AD、DA轉(zhuǎn)換器、麥克風(fēng)接口、聲音輸出接口等。通過加強(qiáng)語音識(shí)別系統(tǒng),針對(duì)原有的識(shí)別技術(shù)體系進(jìn)行強(qiáng)化,可以解決單芯片語音識(shí)別速度慢、效率低、不準(zhǔn)確等問題,由于該芯片集成A/D與D/A接入途徑,可以對(duì)各類設(shè)備實(shí)現(xiàn)對(duì)接,而不像傳統(tǒng)設(shè)備只能依靠RAM與FLASH,在多種工作環(huán)境中都能實(shí)現(xiàn)對(duì)語音信息的精準(zhǔn)識(shí)別。例如聲控功能與人機(jī)交互功能的融合,可以根據(jù)不同的作業(yè)環(huán)境展開動(dòng)態(tài)編輯,增加模糊處理功能,在多環(huán)境中提升芯片的運(yùn)行功能。同時(shí),LD3320芯片還可以輕松實(shí)現(xiàn)語音轉(zhuǎn)化,多環(huán)境聲控,人機(jī)對(duì)話等功能,將實(shí)時(shí)語音轉(zhuǎn)換為文字進(jìn)行處理分析,加強(qiáng)設(shè)備的運(yùn)行效率,在各種運(yùn)行環(huán)境中區(qū)別各類語音的接受效果,還可與與相關(guān)模糊處理裝置進(jìn)行搭配,提升語音識(shí)別的準(zhǔn)確效率。尤其是人機(jī)對(duì)話功能中的關(guān)鍵詞語設(shè)計(jì),可以根據(jù)使用情況,提前設(shè)定50條關(guān)鍵詞,當(dāng)對(duì)操作人員的口語進(jìn)行識(shí)別分析時(shí),可以加強(qiáng)信息轉(zhuǎn)化與處理聯(lián)動(dòng),快速將語音內(nèi)容轉(zhuǎn)化為文字。加強(qiáng)芯片對(duì)特定環(huán)境與特定語言的識(shí)別效率。
目前,對(duì)于智能垃圾分類系統(tǒng)要能夠?qū)崿F(xiàn)語音智能識(shí)別垃圾種類有兩種方式,一種方式是在單片機(jī)程序中調(diào)用語音開發(fā)包;另一種是在系統(tǒng)中嵌入語音芯片。第一種方法程序量大,計(jì)算復(fù)雜,需要占用大量的處理器資源,開發(fā)周期長(zhǎng);第二種方法相對(duì)簡(jiǎn)單,只需要關(guān)注語音芯片的接口部分與單片機(jī)相連,結(jié)構(gòu)簡(jiǎn)單,搭建方便,單片機(jī)的計(jì)算負(fù)擔(dān)大大降低,增強(qiáng)了可靠性,縮短了開發(fā)周期,所以更多的是選擇嵌入語音芯片?;贚D3320不需要外接任何的Flash、RAM、AD等輔助設(shè)備,可以獨(dú)立完成語音識(shí)別功能,我們通常選擇嵌入LD3320語音識(shí)別芯片。
非特定人語音識(shí)別技術(shù)ASR技術(shù)是基于關(guān)鍵詞語列表識(shí)別的技術(shù)。對(duì)于智能垃圾分類系統(tǒng)這個(gè)列表的條目?jī)?nèi)容就是50個(gè)精短的,有關(guān)于垃圾內(nèi)容的詞組進(jìn)行分類,例如可回收垃圾、不可回收垃圾、濕垃圾、干垃圾、有害垃圾等詞語,ASR技術(shù)可以加強(qiáng)芯片對(duì)關(guān)鍵詞語的識(shí)別效果,例如操作人員的語音指令中存在特定關(guān)鍵詞時(shí),可以進(jìn)一步縮小語音分析與轉(zhuǎn)化范圍,將相應(yīng)的待識(shí)別垃圾名稱傳遞給操作者,完成后續(xù)垃圾處理工作。LD3320通過對(duì)垃圾名稱、種類進(jìn)行識(shí)別處理,快速有效的找出相應(yīng)的功能列表,為后續(xù)的算法工作提供數(shù)據(jù)支撐。根據(jù)實(shí)際使用情況,當(dāng)操作人員說出超過八個(gè)字時(shí),ASR技術(shù)可以對(duì)話語進(jìn)行合理劃分,并且盡量找出當(dāng)中存在的關(guān)鍵詞,而LD3320芯片則是重點(diǎn)對(duì)話語中的錯(cuò)誤表達(dá)或模糊不清進(jìn)行處理,提升識(shí)別準(zhǔn)確率。通常情況下,為了加強(qiáng)設(shè)備的識(shí)別效果,操作人員在說出語音指令時(shí),要盡量簡(jiǎn)短、準(zhǔn)確,建議處理指令不要過長(zhǎng)。
LD3320芯片為3.3V供電與其連接的單片機(jī)必須為 3.3V供電的單片機(jī),從而保證IO口電平不超過3.3V,否則將導(dǎo)致語音芯片驅(qū)動(dòng)不成功甚至導(dǎo)致語音芯片燒壞,該模塊有并口和SPI兩種驅(qū)動(dòng)方式的端口連接。連接成功后可進(jìn)行程序移植,根據(jù)自己的單片機(jī)使用情況移植配套程序,配套程序包括LD3320芯片的驅(qū)動(dòng)函數(shù)、讀寫函數(shù)等,其中讀寫函數(shù)是通用的,可以讀寫即可。在移植過程中注意不要修改驅(qū)動(dòng)函數(shù)中寄存器的配置和初始化函數(shù),用戶需要修改讀寫函數(shù)的端口定義。做好電路連接和移植好程序端口后根據(jù)LD3320芯片簡(jiǎn)明調(diào)試步驟進(jìn)行程序調(diào)試,程序調(diào)試包括上電調(diào)試、讀寫寄存器調(diào)試、檢查寄存器初始值、在運(yùn)行過程中檢查寄存器的狀態(tài)等步驟。
我們將“西瓜皮”等50個(gè)精短的垃圾名稱和可回收垃圾、不可回收垃圾、有害垃圾及其他垃圾4種不同的垃圾類別名一起存入到LD3320語音識(shí)別芯片中,當(dāng)人們說出“西瓜皮”后首先通過MIC(麥克風(fēng))輸入聲音,將該語音流數(shù)據(jù)進(jìn)行頻譜分析得到語音信號(hào)隨頻率變化的波形、特征提取以后得到西瓜皮詞條的特征矢量參數(shù),再和已經(jīng)設(shè)置的系統(tǒng)關(guān)鍵詞進(jìn)行信息匹配,得分最高的廚余垃圾將作為識(shí)別結(jié)果輸出到單片機(jī),單片機(jī)接收到此信號(hào)以后驅(qū)動(dòng)執(zhí)行機(jī)構(gòu)打開的廚余垃圾桶蓋(如圖2)。
圖2
目前市場(chǎng)上大多數(shù)的智能垃圾分類系統(tǒng)都是人們通過鍵盤輸入垃圾名稱后,在系統(tǒng)中查找所對(duì)應(yīng)的垃圾種類,再將垃圾進(jìn)行分類投放,這樣的操作一是比較麻煩需要人們自主查找并手動(dòng)開合桶蓋。二是人們通過接觸鍵盤和手動(dòng)打開垃圾存放裝置會(huì)增加疾病傳染的風(fēng)險(xiǎn),特別是在疫情期間會(huì)增加新冠病毒的傳染概率。語音識(shí)別技術(shù)最重要的現(xiàn)實(shí)意義就在于提供了一種脫離按鍵,鍵盤,鼠標(biāo)的基于語音的用戶界面,使得人們對(duì)于垃圾分類投放的操作更快速,更準(zhǔn)確、更衛(wèi)生,切實(shí)推行生活垃圾分類投放的實(shí)施。
ASR技術(shù)通過對(duì)語音數(shù)據(jù)包進(jìn)行匯總分析,利用數(shù)學(xué)模型,加強(qiáng)芯片對(duì)各類語音的識(shí)別分析效果,在工作中要反復(fù)核對(duì)提取關(guān)鍵詞的轉(zhuǎn)化準(zhǔn)確性,同時(shí)還要對(duì)基元特征展開分析,將關(guān)鍵詞相關(guān)的語音轉(zhuǎn)化代碼嵌入到ASR數(shù)據(jù)包中,這樣才能使語音識(shí)別體系更加先進(jìn),在今后的使用中要加強(qiáng)對(duì)各類ASR設(shè)備應(yīng)用效果的匯總,不斷加強(qiáng)ASR技術(shù)與LD3320芯片的融合應(yīng)用,為智能垃圾分類系統(tǒng)提供良好的技術(shù)保障。
可以預(yù)測(cè)在未來5~10年內(nèi),語音識(shí)別技術(shù)的應(yīng)用會(huì)更加廣泛。各種各樣的語音識(shí)別智能控制系統(tǒng)產(chǎn)品將出現(xiàn)在市場(chǎng)上。在智能垃圾分類系統(tǒng)中嵌入LD3320語音芯片實(shí)現(xiàn)了垃圾種類的智能識(shí)別,解決了目前垃圾分類推行中人們無法自主分類的難題,降低了垃圾投放中病毒傳播的風(fēng)險(xiǎn),為人們提供了更好的綠色生活環(huán)境,只是能識(shí)別的垃圾名稱數(shù)量和長(zhǎng)度有限,人們?cè)谡f垃圾名稱時(shí)不能多說出垃圾名稱以外的任何詞,這些問題的解決將成為今后語音識(shí)別技術(shù)在智能垃圾分類系統(tǒng)中應(yīng)用的發(fā)展方向。