薛 丹 馬春娟
1.2.河北廣播電視臺 河北省 石家莊市 050000
現(xiàn)階段大部分廣播節(jié)目的主持人、編輯、記者制作廣播節(jié)目時還是采用傳統(tǒng)的方式,需要對大量的錄音進(jìn)行反復(fù)的播放、回放、剪輯、核查,音頻剪輯軟件只能通過反復(fù)的聽和定位后,才能確認(rèn)需要剪輯音頻的位置和長度,無法把音頻涉及的文字和實際的音頻對照起來。這樣不僅剪輯時間耗時較長,而且剪輯出的音頻效果也不理想。隨著越來越多的廣播節(jié)目引入視頻直播模式,字幕的實時生成需求也越來越強(qiáng)烈。近幾年語音識別技術(shù)有了很大的發(fā)展,語音識別技術(shù)應(yīng)更好地到智慧廣播的建設(shè)中。
近幾年,人工智能,大數(shù)據(jù)等技術(shù)快速發(fā)展,語音識別技術(shù)也發(fā)展迅速,將輸入設(shè)備比如話筒、錄音機(jī)等輸入的語音信號轉(zhuǎn)換成音頻信號,使用傅里葉變換將音頻信號由時域變換到頻域,方便進(jìn)行音頻信號的特征提取,再進(jìn)行模式匹配等多個步驟,最后輸出相應(yīng)的文本信息。它是一門同時貫穿了多領(lǐng)域的技術(shù),如信號處理、模式識別、聽覺機(jī)理、人工智能等,語音識別技術(shù)在多種領(lǐng)域得到很好的運(yùn)用,如在家居、手機(jī)、證券業(yè)等方面。
語音識別的準(zhǔn)確率不斷提高,在聲音環(huán)境較為簡單的場景下對標(biāo)準(zhǔn)發(fā)音的中英文識別準(zhǔn)確率均達(dá)到了98%以上。同時,深度學(xué)習(xí)技術(shù)研究的不斷深入也促進(jìn)了智能語音技術(shù)的發(fā)展。深度學(xué)習(xí)技術(shù)在語音識別中的運(yùn)用使語音識別技術(shù)可以根據(jù)處理內(nèi)容智能地優(yōu)化不同場景的識別結(jié)果,越來越符合實際的生產(chǎn)需要。
隨著新技術(shù)不斷地產(chǎn)生和運(yùn)用,廣播電視正從信息的生產(chǎn)者、傳播者,逐漸轉(zhuǎn)型升級為新生活方式的倡導(dǎo)者、組織者、提供者,智慧廣電就是一大趨勢。語音識別技術(shù)可以助力廣播電視行業(yè)在內(nèi)容生產(chǎn)、播出形式和安全監(jiān)管等方面實現(xiàn)融合創(chuàng)新,并且還可以結(jié)合其他人工智能技術(shù),實現(xiàn)廣播業(yè)務(wù)向智能化轉(zhuǎn)變。
充分運(yùn)用大數(shù)據(jù)、云計算、區(qū)塊鏈、人工智能、語音識別技術(shù)等廣播發(fā)展前沿技術(shù),助力廣播由傳統(tǒng)媒體向全程媒體、全息媒體、全員媒體和全效媒體的完全轉(zhuǎn)型,推進(jìn)廣播在內(nèi)容制作、分發(fā)傳播、用戶服務(wù)、技術(shù)支撐等方面實現(xiàn)智慧化升級,實現(xiàn)廣播“可視化、互動化、圖文化”,基本形成智慧廣播發(fā)展模式。以“AI+廣播新技術(shù)”為平臺,利用語音及人工智能交互、云計算、大數(shù)據(jù)等技術(shù),推動廣播媒體的創(chuàng)新、轉(zhuǎn)型、發(fā)展。
廣播節(jié)目一般采集的是音頻素材,通過采訪機(jī)、麥克風(fēng)或者內(nèi)錄得到節(jié)目音頻資料,可以通過語音識別技術(shù)轉(zhuǎn)寫成文字,轉(zhuǎn)寫可以為實時和非實時,最終得到音頻和文字的兩種格式的資料,可以通過文字快速定位音頻的位置,也可以通過音頻實時轉(zhuǎn)換成文字,邊轉(zhuǎn)寫邊修改,從而實現(xiàn)實時新聞類節(jié)目的快速成稿。目前依靠語音識別技術(shù),語音轉(zhuǎn)文字的正確率達(dá)到了98%以上。
配合云技術(shù),生成的音頻和文字可以上傳到云端,運(yùn)用云端的服務(wù)實現(xiàn)音頻、文字、圖片視頻的混編,生成多媒體稿件,利用云端實現(xiàn)稿件的編輯,審核,分發(fā)和播出等。提供智能審核功能,不僅對技術(shù)質(zhì)量進(jìn)行自動審核,更可以直接過濾敏感詞,生成關(guān)鍵詞。提升了成稿的速度和效率,保證了節(jié)目素材的及時性。保存在云端的稿件和素材可以隨時在臺內(nèi)和家中進(jìn)行編輯制作,擴(kuò)展了辦公場所,方便了編輯記者們的工作。
采用語音識別技術(shù),可以將語音實時轉(zhuǎn)換成文字,結(jié)果即時保存,實現(xiàn)錄音即時成稿。通過轉(zhuǎn)寫結(jié)果詞匯自帶時間碼功能,用在調(diào)整轉(zhuǎn)寫結(jié)果時,包括增、刪、改語句的時間碼會根據(jù)詞匯時間碼自動進(jìn)行匹配,無須進(jìn)行調(diào)整,有效提升制作效率。通過文本可以快速定位語音位置,并且可以通過文本編輯實現(xiàn)對語音的編輯??蓪φZ音進(jìn)行翻譯,制作字幕和文稿時,語音實時轉(zhuǎn)換成文字,快速實現(xiàn)雙語字幕制作和文稿翻譯。實現(xiàn)語氣詞過濾功能,自動把“嗯”“啊”等語氣詞和重復(fù)的字“這個這個”進(jìn)行智能處理。具有識別禁忌詞功能,可以設(shè)置關(guān)鍵詞,系統(tǒng)對設(shè)置的關(guān)鍵詞進(jìn)行屏蔽。語音轉(zhuǎn)換成文字時自動實現(xiàn)對匹配到的關(guān)鍵詞進(jìn)行過濾,實現(xiàn)了廣播節(jié)目禁忌詞的自動過濾。具有分句分段功能,結(jié)合語音特征,通過聯(lián)系上下文和語句的停頓等方式,對句子段落進(jìn)行劃分,綜合運(yùn)用上下文相關(guān)語義特征和語音學(xué)特征,解決分句與分段問題。
利用云技術(shù),將半成品的稿件實時存儲在云端,隨時訪問下載,隨時編輯制作和發(fā)布。外采記者無需到臺內(nèi)制作機(jī)房就可以實現(xiàn)節(jié)目的編輯制作。存儲在云端的音頻可以實現(xiàn)云存儲、云拆條、語音識別、主持人識別等功能。
通過語音識別等人工智能技術(shù),解決當(dāng)前音視頻管理中檢索,編目困難的問題,滿足行業(yè)人員對音視頻內(nèi)容檢索、自動編目、自動化標(biāo)簽的需求。主要功能包括內(nèi)容識別、內(nèi)容檢索等。內(nèi)容識別實現(xiàn)音視頻內(nèi)容的自動標(biāo)簽和編目的功能;內(nèi)容檢索,通過文本對音視頻內(nèi)容進(jìn)行智能檢索。音視頻素材自動轉(zhuǎn)寫,對轉(zhuǎn)寫內(nèi)容進(jìn)行內(nèi)容標(biāo)簽標(biāo)識,用以對關(guān)鍵內(nèi)容提取,不僅有效提高音視頻素材的結(jié)構(gòu)化效率,也滿足音了視頻素材的準(zhǔn)確檢索需求。相比于目前通常采用的人工檢索的方式,計算機(jī)自動處理有著速度快、效率高等特點(diǎn),尤其是針對需要同時對多套節(jié)目進(jìn)行實時索引的場合,自動處理技術(shù)更是具有不可替代的作用。
針對影響到安全播出的,節(jié)目中出現(xiàn)的禁忌詞匯,或因播出信號受敵對勢力攻擊而出現(xiàn)的一些敏感詞匯,可利用語音識別技術(shù)對播出信號進(jìn)行實時監(jiān)播,一旦出現(xiàn)被認(rèn)為是不適宜的關(guān)鍵詞匯,都將進(jìn)行報警提示。目前的廣告播出情況僅由人工進(jìn)行播出記錄,工作效率較低??衫迷羝ヅ浼夹g(shù),對廣告的播出情況進(jìn)行實時或播后監(jiān)播,實現(xiàn)自動、高效的廣告監(jiān)播和統(tǒng)計。視音頻搜索與文本搜索不同的地方就在于,視頻、音頻文件的內(nèi)容并非直接可見可聽,需要有專門的播放器,傳統(tǒng)的搜索引擎就只能對這些視音頻的描述信息(元數(shù)據(jù))進(jìn)行搜索,而無法直接搜索其內(nèi)容,對用戶產(chǎn)生了很大的局限。視頻或音頻節(jié)目,通過連續(xù)語音識別處理,將其中的語言信號文本化,搜索引擎再對轉(zhuǎn)換獲得的文本進(jìn)行內(nèi)容搜索,滿足了用戶不受媒介限制、完全基于內(nèi)容的搜索要求。
廣播電視行業(yè)科技依存度高,必須緊跟科技進(jìn)步的步伐,把新技術(shù)更好地運(yùn)用到廣播行業(yè)的發(fā)展中去,推進(jìn)“智慧廣電”建設(shè),有利于廣播行業(yè)從數(shù)字化向智能化的戰(zhàn)略轉(zhuǎn)型,搶占新一輪發(fā)展制高點(diǎn)。智慧廣電是一個不斷探索、不斷改進(jìn)、不斷提高、不斷完善的過程。語音識別技術(shù)運(yùn)用到智慧廣播中,可以提高工作效率、降低人力成本,擴(kuò)展媒體從業(yè)者的工作模式,使廣播節(jié)目的創(chuàng)作形式和創(chuàng)作過程更加豐富,更加便捷。筆者從語音識別技術(shù)的概念寫起,分別描述了語音識別在廣播業(yè)務(wù)的采編播環(huán)節(jié)、媒資管理環(huán)節(jié)和監(jiān)控監(jiān)管環(huán)節(jié)的應(yīng)用。隨著語音識別技術(shù)的不斷發(fā)展,相信在不久的將來將會有更多的新功能運(yùn)用到智慧廣播的應(yīng)用領(lǐng)域,給廣播的制作和傳播提供更多的便利,為聽眾創(chuàng)造福利。