楊俊峰
內(nèi)蒙古自治區(qū)廣播電視監(jiān)測與發(fā)展中心 內(nèi)蒙古 呼和浩特市 010050
隨著當前媒體融合力度的不斷加大,新興媒體持續(xù)出現(xiàn),多元化的互聯(lián)網(wǎng)音視頻內(nèi)容,進一步加大了監(jiān)測工作的壓力,這也成為了新時期各級監(jiān)管機構(gòu)需要解決的首要問題。本文便是在理論分析法以及文獻研究法的基礎(chǔ)上,結(jié)合新時期的智能語音識別技術(shù)在廣播電視內(nèi)容監(jiān)測中的實際應(yīng)用展開探討,力求打造多元化且智能化的監(jiān)測體系,為廣播電視內(nèi)容監(jiān)測領(lǐng)域的技術(shù)創(chuàng)新提供參考依據(jù)。
互聯(lián)網(wǎng)的高速普及,讓手機以及電腦等移動終端設(shè)備,成為了人們?nèi)粘=涣饕约矮@取信息的主要途徑,與之對應(yīng)的是大量短視頻網(wǎng)站以及直播平臺的出現(xiàn),滿足了人們?nèi)粘蕵沸枨?,但與此同時,廣播電視的內(nèi)容也愈加復(fù)雜,監(jiān)測工作面臨著較大的挑戰(zhàn)。傳統(tǒng)的廣播電視內(nèi)容監(jiān)測主要是進行音視頻節(jié)目的預(yù)先儲存,然后通過圖像識別技術(shù)、幀數(shù)對比技術(shù)、語音特征識別等方法進行全方位監(jiān)管[1]。這種模式在實際運行的過程中,時效性較差、資源儲存需求較高、識別的準確率較低,因此,為了進一步滿足互聯(lián)網(wǎng)新媒體廣播電視內(nèi)容監(jiān)測的需求,需要打造更加智能化的監(jiān)測技術(shù)體系。
首先,自動語音識別又被稱為asr,是語音交互中的AI技術(shù)環(huán)節(jié),主要是對語音信號進行轉(zhuǎn)換,將其置換成文本信息,整體識別系統(tǒng)涵蓋特征提取、聲學模型建立、語言模型建立、字典與解碼4個層面。另外,為了進一步提升特征提取的有效性,還需要采集聲音信號進行濾波分析以及幀數(shù)分析。特征提取工作最大的優(yōu)勢是可以將聲音信號從時域轉(zhuǎn)換到頻域,這樣可以順暢地建立聲學模型;建立好聲學模型,再結(jié)合聲學特性進行每一個特征向量的評估;語言模型則是建立在語言學理論的基礎(chǔ)上,對聲音信號可能出現(xiàn)的各項詞組序列進行排列;根據(jù)系統(tǒng)中已經(jīng)錄入的字典,進行詞組序列解碼,其具體的原理框圖如圖1所示。該項技術(shù)發(fā)展已經(jīng)較為成熟,在人們的生活中較為常見,如手機智能語音助手、車載語音助手等。
圖1 連續(xù)語音識別原理框圖
其次,智能語義分析主要指的是自然語言理解的關(guān)鍵技術(shù),是當前人工智能領(lǐng)域的核心內(nèi)容。智能語義主要將文本進行自動化處理,提取其中的具體要素進行智能審核,往往是輿情分析、知識檢索、自動寫作的主要技術(shù)。智能語義分析主要從語言邏輯規(guī)律,以及人們常規(guī)的語言習慣角度入手進行分析,如了解語言歧義、分析省略的詞語、定位代詞所指、了解話語意圖等等[2]。結(jié)合當前的計算機發(fā)展水平來看,為了進一步滿足智能語音識別以及各領(lǐng)域的語義識別要求,計算機已經(jīng)逐步具備了人類的語言處理標準,比如語音識別的速度以及準確率已經(jīng)能夠滿足各領(lǐng)域的專業(yè)化需求,音視頻內(nèi)容的文本化也具備極強轉(zhuǎn)換能力,通過對樣本庫關(guān)鍵詞進行比對,可以快速識別廣播電視節(jié)目中常規(guī)的違規(guī)信息,能夠在第一時間快速發(fā)現(xiàn)并定位關(guān)鍵幀數(shù),在后續(xù)的發(fā)展中還需要通過長期的糾偏以及智能學習,快速解決長文本、復(fù)雜結(jié)構(gòu)句子、地方方言等類型的廣播電視內(nèi)容,全面提升違規(guī)信息識別的準確率,不僅可以建立擬人化的感知思考系統(tǒng),還可以為新時期融媒體廣播電視的發(fā)展提供良好保障。
信號解調(diào)設(shè)備主要是在信號檢測結(jié)束之后,能夠組成一臺或者多臺解調(diào)器,主要應(yīng)用于調(diào)頻廣播、調(diào)幅廣播、有線電視領(lǐng)域[3],其可以將不同類型的廣播電視節(jié)目語言信號轉(zhuǎn)化為普通的音頻信號,然后將其傳送到信號搜集站進行錄音。信號解調(diào)設(shè)備可以根據(jù)具體的檢測頻道數(shù)量進行自動分配。
當前較為常見的預(yù)處理設(shè)備主要以aqc4信號預(yù)處理為主,能夠判斷信號的強度以及真實性。在實際運作的過程中,預(yù)處理設(shè)備會控制信號處理器,對音頻信號進行細節(jié)調(diào)整,比如定位信號中的噪音,進行失真修正,調(diào)整信號電平,確保最終導出的信號源文件可以進行后續(xù)的智能識別。
調(diào)節(jié)器會快速定位不同頻道有線電網(wǎng)射頻信號中的伴音與影響因素,將其轉(zhuǎn)化為視頻信號和模擬音頻信號,然后將這些信號傳送到信號收集站進行記錄。多路檢測信號收集站則可以對接收到的電視以及廣播音頻信號進行收集和壓縮,將其轉(zhuǎn)換到服務(wù)器的數(shù)據(jù)庫中。從類型角度來講,多路信號收集站主要分為廣播信號收集站以及電視信號收集站。
廣播信號收集站能夠同時對各路廣播信號進行采錄,采錄頁面中實時顯示信號的音量光柱并具有軟調(diào)音臺,能夠根據(jù)各路信號大小展開增益控制。另外,系統(tǒng)還配備監(jiān)聽按鈕,可以及時監(jiān)控不同信號輸入的情況,尤其是針對廣播時段特征進行提取,每天設(shè)計采錄時間表,確保采錄及時有效。
電視信號采集,能夠?qū)?路電視信號同時進行處理,采集站可以對電視信號的音頻信號碼流進行整合,選擇MPEG壓縮格式進行壓縮,根據(jù)不同頻道的具體播出時間以及采集時間獨立打造一份文件。采錄時,頁面能夠及時顯示視頻圖像,并且進行視頻信號監(jiān)聽,綜合調(diào)節(jié)每路信號的對比度、色度、飽和度,確保最終采集的信號質(zhì)量較好,采集到的音視頻數(shù)據(jù)會自動傳輸?shù)轿募?wù)器進行儲存。
互聯(lián)網(wǎng)的高速發(fā)展為當前的廣播電視體系創(chuàng)新提供了新的發(fā)展空間,大量的短視頻平臺以及影音平臺成為需要進行監(jiān)管的主體。但是,由于廣播電視信號渠道多樣化,在進行音視頻信號采集的過程中,需要分析每一幀的內(nèi)容,同時還需要了解圖像的顏色特征以及紋理特征,與既有的模板進行匹配,從樣本庫中提取具有相似程度的樣本進行評價,作為最終檢測定性的主要依據(jù),這一整個流程無論是從結(jié)構(gòu)識別還是信息統(tǒng)計識別方向來講,都存在數(shù)據(jù)體量大、讀寫速度壓力大、中心處理器運行壓力大等問題,這也就導致占用的計算資源較大,監(jiān)測運行消耗時間較多[4]。另外,部分廣播電視內(nèi)容監(jiān)管工作還依舊采用傳統(tǒng)的監(jiān)測模式,雖然使用了智能語音識別分析技術(shù),但是應(yīng)用的不夠透徹,存在形式化問題,這也就導致同時監(jiān)測多套節(jié)目需要投入大量的硬件設(shè)備,且事后監(jiān)測時效性較差,無法實現(xiàn)第一時間的輿論監(jiān)管。
當前的視頻以及音頻處理技術(shù)逐步成熟,由于其內(nèi)容、溝通方式、顏色存在較大差異,在音視頻提取的過程中,往往涉及較多的干擾因素,尤其是特征符號的采集以及對比、顏色比例規(guī)劃等內(nèi)容容易出現(xiàn)檢測錯誤,輸出疑似違規(guī)報警的信息數(shù)據(jù)量較為龐大,導致假報警比例較高,因此,需要通過后續(xù)的人工審核進行干擾信息排除。但是,在當前互聯(lián)網(wǎng)視聽內(nèi)容體量龐大的情況下,這種監(jiān)測體系會面臨較大壓力。
智能語音識別分析技術(shù)是建立在互聯(lián)網(wǎng)的基礎(chǔ)上,以信息技術(shù)為依托打造的自動化監(jiān)控體系,因此,其本身具備較強的實時性以及智能化特點。這種優(yōu)勢彌補了傳統(tǒng)監(jiān)測技術(shù)實效性較低、事后監(jiān)測的不足。在語音識別分析的過程中,文字輸出以及執(zhí)行、具體的任務(wù)指令都可以在短時間內(nèi)快速完成監(jiān)測監(jiān)管,服務(wù)器自身的集群計算機資源處理系統(tǒng),可以實現(xiàn)多路自動語音識別,這也就全面提升了語音識別的綜合效率,進一步強化實時監(jiān)聽的能力,每一路視聽節(jié)目都可以單獨生成一路文本輸出途徑,甚至可以在互聯(lián)網(wǎng)的基礎(chǔ)上進行自動接入以及自動輸出[5]。而監(jiān)管機構(gòu)所使用的智能語義分析系統(tǒng),又可以對多路輸入的文本進行及時監(jiān)測,整體流程環(huán)環(huán)相扣,即便需要進行分析的內(nèi)容體量極為龐大,也不會對硬件造成壓力。單項技術(shù)已經(jīng)能夠?qū)崿F(xiàn)視頻內(nèi)容資源全部收納以及實時監(jiān)聽,可以真正做到廣播電視監(jiān)測監(jiān)管應(yīng)管盡管。語音識別分析監(jiān)管的具體流程如圖2所示,整體的監(jiān)管模式具有極強的集成化特點,不必受到廣播電視傳播途徑以及平臺的限制。
圖2 智能語音分析監(jiān)管流程
隨著當前互聯(lián)網(wǎng)融媒體行業(yè)發(fā)展速度的不斷加快,廣播電視以及互聯(lián)網(wǎng)音視頻內(nèi)容極為豐富,且大部分的音視頻內(nèi)容都是以前期錄音及配音為主,另外,絕大部分的智能音視頻軟件還涉及了人工合成配音,這也就導致了當前的部分廣播電視節(jié)目語言逐漸突破普通話限制,智能音軌、方言加大了智能識別的難度。但是,依托智能語音識別分析技術(shù),在具體監(jiān)測需求的基礎(chǔ)上進行優(yōu)化,又誕生了如下幾方面的技術(shù)體系,能夠有效滿足多種類型的語音識別需求。
4.2.1 聲紋識別技術(shù)
聲紋識別技術(shù)主要是在人的語言特點以及語音狀態(tài)的基礎(chǔ)上,判斷講話人的身份,主要應(yīng)用在判斷真人配音以及智能合成配音領(lǐng)域。其次,可以判斷某一個語音的發(fā)出是否為指定的人,聲紋識別能夠?qū)⑤敵龅恼Z音信號作為參考依據(jù),根據(jù)某一個人的發(fā)音特點以及講話個性,從生物學的范疇進行聲紋識別。
4.2.2 內(nèi)容辨識技術(shù)
內(nèi)容辨識可以在語音識別的基礎(chǔ)上,針對其內(nèi)容進行分析,了解語音的生理屬性以及物理屬性,從而分析講話的內(nèi)容。該技術(shù)在具體應(yīng)用的過程中會受到一定干擾,比如講話人的方言、表達習慣、語序習慣等[6]。內(nèi)容辨識技術(shù)通常與聲紋識別技術(shù)進行組合應(yīng)用,不僅可以了解講話的聲紋以及語法,還可以建立語義模型,利用磁性標記以及詞語區(qū)分等方式判斷語音內(nèi)容,雖然處理過程較為復(fù)雜,但是能夠精準識別當前復(fù)雜節(jié)目中的對話。
4.2.3 語音及語種辨別
語種識別是綜合語音材料兼容的語種特征來進行判斷的,語言內(nèi)容判斷以及智能翻譯技術(shù)主要是在語種識別的基礎(chǔ)上而衍生的新型技術(shù)體系。語種識別可以根據(jù)廣播電視節(jié)目中不同的語音材料進行判斷,了解其發(fā)音標準以及講話邏輯,這項技術(shù)主要應(yīng)用在語言教學以及語音標準檢測中,能夠精準判斷不同類型的廣播電視內(nèi)容。
智能語音識別分析技術(shù)的主要應(yīng)用目的在于定位廣播電視節(jié)目中存在的違規(guī)信息以及不良內(nèi)容,而傳統(tǒng)單純依靠畫面和語音特征識別的方式,無法快速有效地發(fā)現(xiàn)違法違規(guī)信息,同時也難以定位其中的意圖導向,因此,需要在傳統(tǒng)語音識別的基礎(chǔ)上,配合語義分析,從漢語言學的角度分析講述的具體含義,同時定位同音、同形、同義等方面的差異,還可以及時地更新和跟蹤網(wǎng)絡(luò)新詞,對于當前的各類縮寫、流行詞也可以進行精準判斷。
另外,智能語義分析系統(tǒng)又配備了神經(jīng)網(wǎng)絡(luò)算法,可以結(jié)合當前的大量違規(guī)案例,進行持續(xù)性的機器學習[7],促使在后續(xù)的語義識別以及語音識別中快速定位新的違規(guī)行為以及違規(guī)信息,準確地分析文本的內(nèi)在邏輯以及思想含義,從而提升違規(guī)信息識別的精準性。
綜上所述,在當前的廣播電視監(jiān)測工作創(chuàng)新和發(fā)展的過程中,依托人工智能技術(shù)實現(xiàn)智能化的語音識別,同時配備精準的語義識別體系,能夠在傳統(tǒng)廣播電視內(nèi)容監(jiān)測的基礎(chǔ)上,分析節(jié)目的核心要義以及想要傳播的思想,這種方式可以進一步提升識別的精準性。而在未來發(fā)展的過程中,需要將發(fā)展重點放在語音識別分析的內(nèi)在邏輯以及全智能演變方面,進一步脫離人工干預(yù),提升監(jiān)測的效率和質(zhì)量。