李雨柯
(作者單位:貴州省廣播電視監(jiān)測中心)
語音識(shí)別技術(shù)可以轉(zhuǎn)換輸入系統(tǒng)中的聲音信號(hào),使其轉(zhuǎn)換為文字形式或預(yù)設(shè)的命令,語音識(shí)別技術(shù)使人們不用借助鼠標(biāo)、鍵盤等設(shè)備而通過語音進(jìn)行命令輸出,可以更加便捷高效地開展各項(xiàng)工作。語音識(shí)別技術(shù)自20世紀(jì)開始研發(fā),目前發(fā)展應(yīng)用已經(jīng)非常成熟,再加上計(jì)算機(jī)技術(shù)的發(fā)展,語音識(shí)別技術(shù)的應(yīng)用更加普及。語音識(shí)別技術(shù)中的核心內(nèi)容是針對語音信號(hào)利用動(dòng)態(tài)規(guī)劃技術(shù)和線性預(yù)測分析技術(shù)進(jìn)行模型問題解決。
語音識(shí)別技術(shù)的主要識(shí)別方法包括4個(gè)方面。第一是基于聲學(xué)和語言學(xué)的識(shí)別方法,目前這一方法的普及程度仍然有限。第二是隨機(jī)模型法,其相關(guān)技術(shù)的發(fā)展已經(jīng)較為成熟,因而實(shí)踐應(yīng)用也比較廣泛。隨機(jī)模型法在語音識(shí)別過程中的主要流程包括特征提取、模塊訓(xùn)練和分類、模塊判斷等,涉及矢量量化技術(shù)、動(dòng)態(tài)時(shí)間規(guī)整技術(shù)等。其中,馬爾可夫模型算法具有顯著的優(yōu)質(zhì)性和簡便性,語音識(shí)別效果更加理想,在語音識(shí)別系統(tǒng)中具有極為廣泛的應(yīng)用。第三是神經(jīng)網(wǎng)絡(luò)識(shí)別方法,是一種新興技術(shù),可以模擬人類神經(jīng)活動(dòng),且具有一定的人類特性,包括自動(dòng)適應(yīng)、自主學(xué)習(xí)等,在映射能力和歸類能力方面具有優(yōu)異的表現(xiàn)。實(shí)踐應(yīng)用過程中,通過對傳統(tǒng)方法和神經(jīng)網(wǎng)絡(luò)識(shí)別方法的靈活融合,能夠有效彌補(bǔ)兩種方法的不足,令語音識(shí)別功能具有更高的效率。第四是概率語音分析識(shí)別方法,通過應(yīng)用這一技術(shù),可以對較長的語音內(nèi)容進(jìn)行識(shí)別,具有語言特征區(qū)分能力,也可以對多層次問題加以解決。但是,在運(yùn)用這一識(shí)別方法時(shí),必須建立具有有效性和適應(yīng)性的知識(shí)系統(tǒng),如圖1所示。
圖1 語音識(shí)別系統(tǒng)整體架構(gòu)
第一,語音識(shí)別主要包括命令和識(shí)別兩種工作模式。根據(jù)工作模式的不同,要使用針對性的程序,進(jìn)而有效實(shí)現(xiàn)語音識(shí)別功能。命令模式的實(shí)現(xiàn)需要程序員先進(jìn)行詞典編寫,然后再編程,還要基于語音詞典進(jìn)行修訂處理。識(shí)別模式的原理是在后臺(tái)中由引擎系統(tǒng)創(chuàng)造詞庫及識(shí)別模塊庫,實(shí)踐應(yīng)用過程中不用再對識(shí)別語法進(jìn)行任何改動(dòng),只要改寫識(shí)別引擎的主程序源代碼就能夠?qū)崿F(xiàn)語音識(shí)別功能。相較而言,命令模式和識(shí)別模式最大的差異在于命令模式中程序員要基于詞典內(nèi)容對代碼進(jìn)行修改核對。第二,設(shè)置語音識(shí)別環(huán)境。語音識(shí)別程序環(huán)境設(shè)置內(nèi)容具體包括采集并設(shè)定計(jì)算機(jī)電信集成(Computer Telecommunication Integration,CTI)服務(wù)器硬件的默認(rèn)參數(shù)、初始化硬件采集卡、設(shè)置引擎端口等內(nèi)容[1]。CTI技術(shù)是識(shí)別環(huán)境設(shè)置過程中的核心技術(shù)環(huán)節(jié),對語音采集系統(tǒng)進(jìn)行初始化操作時(shí),是否有語音錄入系統(tǒng)中可以作為判斷工作是否啟動(dòng)的重要標(biāo)準(zhǔn),在對語音內(nèi)容進(jìn)行采集和輸出時(shí),主要是利用語音卡進(jìn)行相關(guān)工作。語音卡的操作使用非常簡便,只需要將其中的板卡打開并將參數(shù)輸入其中,就可以正常運(yùn)行作業(yè)。引擎端口的設(shè)置過程中,因?yàn)檎Z音開發(fā)平臺(tái)中已經(jīng)設(shè)置有應(yīng)用程序編程接口函數(shù),因此只要對其進(jìn)行調(diào)用和復(fù)制即可。第三,對語音詞典進(jìn)行編譯,具體內(nèi)容包括語音模板、語音識(shí)別規(guī)則、語法等內(nèi)容的制定,實(shí)際工作開展中要先設(shè)置語音識(shí)別核心包,然后根據(jù)個(gè)人編譯語言標(biāo)準(zhǔn)進(jìn)行字典設(shè)置。第四,主程序編制識(shí)別。通過編寫主程序交互界面,令使用者和電腦之間能夠?qū)崿F(xiàn)交互操作。
通過分析語音的生理與物理屬性,語音識(shí)別技術(shù)能夠?qū)φZ音內(nèi)容完成判斷識(shí)別。但是,由于說話人在表達(dá)習(xí)慣、發(fā)音及方言等方面均具有較大的差異性,內(nèi)容識(shí)別的難度較高,為有效克服這一不足,逐漸發(fā)展出了聲紋識(shí)別技術(shù)。在應(yīng)用聲紋識(shí)別時(shí),需要利用詞語區(qū)分、詞性標(biāo)記及語境理解等,令聲紋和語義模型、語法模型具有較高的相符性,實(shí)現(xiàn)對語音內(nèi)容的精準(zhǔn)判斷,處理過程也具有一定的煩瑣性[2]。
聲紋識(shí)別技術(shù)能夠?qū)φf話人的具體身份進(jìn)行明確判斷,識(shí)別過程對語音波形進(jìn)行結(jié)合分析,匹配說話人行為特點(diǎn)和語音狀態(tài)。聲紋識(shí)別技術(shù)的應(yīng)用基礎(chǔ)是語音信號(hào),然后根據(jù)每個(gè)人發(fā)音的特征對其個(gè)性進(jìn)行判斷,并進(jìn)行身份對應(yīng)識(shí)別。從生物學(xué)角度來看,聲紋識(shí)別和指紋識(shí)別具有一定的相通性,均屬于生物因子的認(rèn)證范圍。兩者不同之處在于聲紋識(shí)別是基于說話人的特征進(jìn)行準(zhǔn)確判斷,而指紋識(shí)別則是基于指紋的獨(dú)特性進(jìn)行身份判斷。
語種識(shí)別是對語音材料中的語種特征進(jìn)行分析判斷,具體應(yīng)用過程是將電腦中的語音材料提取錄入語種識(shí)別系統(tǒng),然后進(jìn)行識(shí)別判斷。智能翻譯技術(shù)和語音內(nèi)容識(shí)別技術(shù)是從語種識(shí)別技術(shù)發(fā)展而來的,通過對比語音標(biāo)準(zhǔn)模型,就能夠?qū)δ硞€(gè)人的語音材料完成語音狀態(tài)分析,并對語音中的不標(biāo)準(zhǔn)發(fā)音進(jìn)行抓取標(biāo)識(shí)[3]。
借助電視、手機(jī)等諸多載體,語音識(shí)別技術(shù)已經(jīng)在社會(huì)生活中實(shí)現(xiàn)了非常廣泛的運(yùn)用,例如,使用手機(jī)及內(nèi)部相關(guān)軟件程序,就能夠?qū)φZ音內(nèi)容進(jìn)行識(shí)別并轉(zhuǎn)換成文字內(nèi)容,或者對手機(jī)用戶的語音指令進(jìn)行有效執(zhí)行。在多路自動(dòng)語音識(shí)別方面,應(yīng)用監(jiān)測服務(wù)器集群和資源處理技術(shù)就能夠令實(shí)時(shí)監(jiān)聽多路電視節(jié)目內(nèi)容的能力實(shí)現(xiàn)指數(shù)級(jí)增長。實(shí)時(shí)監(jiān)測過程中,各路電視節(jié)目都會(huì)轉(zhuǎn)換成相應(yīng)的文本內(nèi)容單獨(dú)輸出。對于當(dāng)下十分火爆的網(wǎng)絡(luò)視聽節(jié)目,相關(guān)部門可以要求其必須在接入語音識(shí)別功能后才能入網(wǎng)發(fā)布,在此基礎(chǔ)上,實(shí)時(shí)向監(jiān)測監(jiān)管機(jī)構(gòu)發(fā)送針對視聽節(jié)目的監(jiān)聽文本內(nèi)容。智能語義分析系統(tǒng)僅需要通過對各路節(jié)目傳輸?shù)奈谋緝?nèi)容做監(jiān)測分析,即可實(shí)現(xiàn)預(yù)期監(jiān)控監(jiān)測目標(biāo)。其應(yīng)用優(yōu)勢在于相較視頻流處理分析,不會(huì)造成過大的硬件資源壓力,僅需要消耗極少的資源,就能夠?qū)⒕W(wǎng)絡(luò)平臺(tái)上的所有視聽節(jié)目資源納入實(shí)時(shí)監(jiān)控監(jiān)測范圍[4](見圖2)。
圖2 語音識(shí)別分析監(jiān)管流程圖
廣播電視與網(wǎng)絡(luò)視聽節(jié)目大多都是在專業(yè)錄像或錄音間進(jìn)行錄音和配音工作,且均配置有專業(yè)的主持人或主播,其普通話非常標(biāo)準(zhǔn)。語音資源中的環(huán)境噪聲非常小,且說話人的發(fā)音大都非常標(biāo)準(zhǔn),語音識(shí)別系統(tǒng)可以獲取更高質(zhì)量的語音資源。使用專業(yè)設(shè)備就可以將聲音軌道分離,從而令處于監(jiān)控監(jiān)測范圍內(nèi)的電視節(jié)目與網(wǎng)絡(luò)視聽節(jié)目源在語音識(shí)別和文字轉(zhuǎn)化方面具有更高的準(zhǔn)確率,使后續(xù)分析工作和監(jiān)測工作的開展更加科學(xué)、可靠[5]。
電視節(jié)目中的內(nèi)容非常多樣化,且隨著全球化發(fā)展進(jìn)度的不斷推進(jìn),電視節(jié)目中經(jīng)常會(huì)播放世界各地的音視頻內(nèi)容,其中包含多種類型的語言。針對這一電視節(jié)目的發(fā)展現(xiàn)狀,語音特征值提取與圖像識(shí)別很難發(fā)揮應(yīng)有的作用,監(jiān)測監(jiān)管過程中,不管是應(yīng)用監(jiān)測技術(shù)或人工識(shí)別,均很難對電視節(jié)目中的有害信息實(shí)現(xiàn)高效辨別。但是,通過利用多語言混合識(shí)別技術(shù),在系統(tǒng)中加入其他語種聲學(xué)模型,就可以在監(jiān)測電視節(jié)目時(shí)實(shí)現(xiàn)有效的文本輸出與語義智能分析,大大降低了廣播電視監(jiān)測工作中的人力投入和成本。
作為傳播意識(shí)形態(tài)的重要載體,相比其他傳播載體,語言占據(jù)著不可撼動(dòng)的重要地位。在針對視頻內(nèi)容或圖片內(nèi)容進(jìn)行監(jiān)測分析時(shí),語音識(shí)別和畫面監(jiān)測技術(shù)的單獨(dú)應(yīng)用,在識(shí)別違規(guī)違法事件及輿論導(dǎo)向方面仍具有較為明顯的局限性。但是,通過應(yīng)用智能文本語義分析技術(shù),能夠開展同形、同音及同義等多方面變形分析,并自動(dòng)檢索網(wǎng)絡(luò)新詞,識(shí)別新興網(wǎng)絡(luò)用語,對各類潛在危險(xiǎn)信息和變形信息進(jìn)行有效識(shí)別與預(yù)警。智能文本語義分析系統(tǒng)通過對神經(jīng)網(wǎng)絡(luò)算法的運(yùn)用,持續(xù)性進(jìn)行違規(guī)案例學(xué)習(xí)訓(xùn)練,不斷更新案例資源庫,計(jì)算機(jī)系統(tǒng)在理解越來越多樣化的語言表述形式方面的能力也在持續(xù)提高,能夠?qū)ξ谋拘畔⒅械闹饕枷雰?nèi)容與內(nèi)在邏輯進(jìn)行精準(zhǔn)分析,從而更加高效精確地對違規(guī)信息進(jìn)行識(shí)別。
首先是信號(hào)解調(diào)設(shè)備,主要由調(diào)幅廣播解調(diào)器、調(diào)頻廣播解調(diào)器及有線電視解調(diào)器構(gòu)成。對檢測信號(hào)源中的特定頻率調(diào)幅或調(diào)頻廣播信號(hào)進(jìn)行解調(diào),使其轉(zhuǎn)變?yōu)槠胀ㄒ纛l的信號(hào),并傳輸?shù)叫盘?hào)收集站中進(jìn)行音頻錄音。其次是信號(hào)預(yù)處理設(shè)備,為進(jìn)一步提高信號(hào)判斷水平,采用信號(hào)預(yù)處理設(shè)備分析音頻信號(hào),基于分析結(jié)果,利用信號(hào)處理器進(jìn)行音頻信號(hào)的失真修正、噪聲消除等處理,使其成為可用于后續(xù)環(huán)節(jié)的信號(hào)源文件。再次是多路信號(hào)收集站。針對特定頻道傳輸而來的視頻信號(hào),有線電視解調(diào)器能夠?qū)⑵渲械陌橐艉鸵曨l解調(diào)為模擬音頻與視頻信號(hào),然后將其傳輸?shù)叫盘?hào)收集站中進(jìn)行統(tǒng)一記錄。一方面,根據(jù)檢測頻道的具體數(shù)量,可以靈活調(diào)整有線電視解調(diào)器的數(shù)量,另一方面,信號(hào)收集站可以同時(shí)進(jìn)行廣播音頻和電視信號(hào)的接收,并對信號(hào)進(jìn)行搜集、壓縮和儲(chǔ)存。信號(hào)搜集站主要分為電視信號(hào)搜集站和廣播信號(hào)搜集站兩種。以廣播信號(hào)搜集站為例,可以同時(shí)采錄多路廣播信號(hào),各路信號(hào)音量光柱也可以實(shí)時(shí)呈現(xiàn)在采錄頁面上,工作人員還可以根據(jù)各路信號(hào)的具體情況,使用軟調(diào)音臺(tái)對信號(hào)大小進(jìn)行控制。廣播信號(hào)搜集站中裝有監(jiān)聽按鈕,可以對各路輸入信號(hào)進(jìn)行實(shí)時(shí)監(jiān)控。廣播信號(hào)收集站能夠?qū)Λ@取的廣播音頻信號(hào)進(jìn)行實(shí)時(shí)壓縮和實(shí)時(shí)監(jiān)聽,一旦出現(xiàn)信號(hào)異常問題,系統(tǒng)就會(huì)自動(dòng)報(bào)警,避免發(fā)生錄音內(nèi)容丟失等問題。最后是視頻信號(hào)采集站。電視信號(hào)收集站可以采錄8路電視內(nèi)容信號(hào),而視頻信號(hào)采集站可以實(shí)時(shí)復(fù)合電視節(jié)目音頻信號(hào)碼流,使用動(dòng)態(tài)圖像壓縮算法國際標(biāo)準(zhǔn)壓縮格式進(jìn)行采錄。根據(jù)不同頻道節(jié)目的播出時(shí)間,可以獨(dú)立設(shè)計(jì)其采錄的時(shí)間。
語音識(shí)別技術(shù)在各行業(yè)中的應(yīng)用范圍日益擴(kuò)大,且識(shí)別準(zhǔn)確性也顯著提高,隨著廣播電視監(jiān)管行業(yè)要求日益嚴(yán)格,內(nèi)容監(jiān)管中語音識(shí)別技術(shù)的應(yīng)用有利于節(jié)目搜索速度的大大提升,減輕相關(guān)人員工作壓力。在不斷深入有效應(yīng)用語音識(shí)別技術(shù)的過程中,要加強(qiáng)校正工作,避免出現(xiàn)偏差問題,從而令廣播電視監(jiān)控監(jiān)測工作切實(shí)發(fā)揮預(yù)期作用。