郭建明
(大連新聞傳媒集團(tuán),遼寧 大連 116022)
人工智能(Artificial Intelligence,AI)技 術(shù)在過去十年中從實(shí)驗(yàn)室走向產(chǎn)業(yè)化生產(chǎn),其重塑傳統(tǒng)行業(yè)模式、引領(lǐng)未來的價(jià)值已經(jīng)凸顯,并為全球經(jīng)濟(jì)和社會(huì)活動(dòng)做出了不容忽視的貢獻(xiàn)。當(dāng)前,人工智能技術(shù)已經(jīng)迎來其發(fā)展史上的第三次浪潮,AI技術(shù)進(jìn)一步飛躍式發(fā)展。集成了自然語言處理(Natural Language Processing,NLP)[1]、語音系統(tǒng)的智能客服機(jī)器人,可以快速準(zhǔn)確地解答用戶問題、協(xié)助人工客服篩濾用戶,給用戶提供更好、更精準(zhǔn)的服務(wù)體驗(yàn)。
人工智能現(xiàn)在可以自動(dòng)識(shí)別視頻、音頻、圖像及文本中的內(nèi)容,快速準(zhǔn)確地對(duì)“涉恐”“涉政”“涉黃”“低俗”等違禁、違法內(nèi)容進(jìn)行篩查,更好地輔助新聞機(jī)構(gòu)的節(jié)目?jī)?nèi)容播出與出版[2]。人工智能產(chǎn)業(yè)是一個(gè)飛速發(fā)展的產(chǎn)業(yè),現(xiàn)今已經(jīng)在醫(yī)療、制造、教育等多個(gè)領(lǐng)域?qū)崿F(xiàn)技術(shù)落地,并將在未來給人類社會(huì)的經(jīng)濟(jì)發(fā)展、生產(chǎn)、生活方式帶來變革式的影響。
自動(dòng)語音識(shí)別(Automatic Speech Recognition,ASR),是一種將人的語音轉(zhuǎn)換為文本的技術(shù),支持智能斷句并能夠自動(dòng)實(shí)現(xiàn)標(biāo)點(diǎn)符號(hào)的添加[3]。其主要實(shí)現(xiàn)流程如圖1所示。
圖1 語音識(shí)別流程圖
音頻文件一般是wav/mp3/m4a/wma/3gp/amr/aac/flac/flv/mp4等格式的文件。聲學(xué)特征提取主要通過梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)方法提取音頻的高維度特征[4]。聲學(xué)模型比對(duì)是通過聲學(xué)模型算法將單個(gè)發(fā)音轉(zhuǎn)換為單個(gè)字。語言模型通過規(guī)則模型和統(tǒng)計(jì)模型將多個(gè)單字串成句子。最終,識(shí)別結(jié)果輸出語音轉(zhuǎn)文本結(jié)果,通常包含文本內(nèi)容以及對(duì)應(yīng)的時(shí)間段落。
在電視節(jié)目的后期制作中,同期聲字幕是不可或缺的一部分。字幕的出現(xiàn),不但可以更好地幫助人們聽懂人物到底說的是什么,同時(shí)也為聽力障礙觀眾觀看節(jié)目提供了方便。傳統(tǒng)同期聲字幕的制作流程如圖2所示。
圖2 同期聲字幕制作流程圖
傳統(tǒng)同期聲字幕制作的第一步是進(jìn)行字幕聽抄。對(duì)照電視節(jié)目聲音,參考節(jié)目畫面內(nèi)容,手動(dòng)將節(jié)目中的人物對(duì)白錄入到文本編輯器。錄入文本的時(shí)候,通常每句話一行,每句以回車鍵隔開,并以txt或doc格式進(jìn)行保存。之后,打開非編軟件并加載電視節(jié)目視音頻文件,通過非編軟件的字幕唱詞功能模塊導(dǎo)入剛剛手工錄入的字幕文件。節(jié)目編輯人員在播放電視節(jié)目的同時(shí),采用拍擊“空格鍵”的方式將字幕文件的每一句話手動(dòng)對(duì)應(yīng)到電視節(jié)目的相應(yīng)位置,保證畫面聲音和字幕的一致性。最后,將添加同期聲字幕的電視節(jié)目進(jìn)行最終的合成輸出。
傳統(tǒng)同期聲字幕制作過程主要存在以下弊端。
(1)電視節(jié)目同期聲對(duì)白的人工聽抄工作量非常大,而且需要多次人工校對(duì)。
(2)在字幕唱詞制作過程中,需要手動(dòng)對(duì)準(zhǔn)每一句對(duì)白(字幕)在節(jié)目中的位置。一旦對(duì)不準(zhǔn),則會(huì)出現(xiàn)聲音與字幕不同步的情況。因此,這個(gè)手動(dòng)對(duì)準(zhǔn)位置的工作量也非常巨大。
引入了語音識(shí)別技術(shù)的電視節(jié)目同期聲字幕制作,不但可以智能、自動(dòng)地識(shí)別電視節(jié)目的同期聲對(duì)白,自動(dòng)生成標(biāo)準(zhǔn)字幕格式,自動(dòng)對(duì)準(zhǔn)字幕在節(jié)目中的位置,而且大大提高了節(jié)目制作效率以及字幕的準(zhǔn)確性。自動(dòng)智能同期聲字幕的制作流程如圖3所示,具體步驟如下。
圖3 自動(dòng)智能同期聲字幕制作流程圖
(1)打開電視節(jié)目制作軟件(非線性編輯軟件),加載需要加入同期聲字幕的電視節(jié)目。
(2)選擇“語音自動(dòng)識(shí)別”,非編軟件提取節(jié)目的音頻并發(fā)送至“語音識(shí)別引擎”?!罢Z音識(shí)別引擎”對(duì)傳輸來的音頻進(jìn)行分析,生成標(biāo)準(zhǔn)字幕模板(如表1所示),通常每行一句話,每句話都記錄其在節(jié)目中的時(shí)間信息,每句以回車鍵隔開。
表1 字幕模板示例表
(3)非編軟件調(diào)用生成的字幕模板,根據(jù)節(jié)目中每句話的內(nèi)容和時(shí)間信息自動(dòng)將所有文字內(nèi)容放置在節(jié)目視頻中的指定位置,自動(dòng)生成同期聲字幕。
(4)節(jié)目制作人員在人工對(duì)字幕進(jìn)行校對(duì)后,進(jìn)行節(jié)目的最終合成。
文字識(shí)別(Optical Character Recognition,OCR),是指電子設(shè)備對(duì)包含文本資料的圖像文件進(jìn)行分析處理,獲取文字及版面信息的過程[5],主要工作流程如圖4所示,主要步驟如下。
圖4 OCR文字識(shí)別流程圖
(1)圖像輸入。支持處理灰度、彩色、黑白三種色彩的bmp、tif、jpg、pdf等多種格式的圖像文件。
(2)預(yù)處理。首先將圖像進(jìn)行二值化處理,只保留黑、白兩種顏色,一種顏色是背景顏色,另一種顏色就是要識(shí)別的文字。然后進(jìn)行噪聲去除。
(3)版面分析。將文檔圖片分段落、分行處理。
(4)字符識(shí)別。早期采用模板匹配,現(xiàn)在主要采用特征提取,即將文字圖像提取出特征給分類器,分類器對(duì)其進(jìn)行分類,判斷出這個(gè)特征該識(shí)別成哪個(gè)文字[6]。
(5)版面恢復(fù)。最后輸出到word、pdf等文檔的格式仍然保持原文檔圖片的格式,段落不變,位置不變,順序不變。
譯制中心主要對(duì)優(yōu)秀的電視劇、電影進(jìn)行二次創(chuàng)作,對(duì)不同語言的電影、電視劇、動(dòng)畫片進(jìn)行重新配音、配字幕,以便更好地進(jìn)行文化交流。
引入了OCR文字識(shí)別技術(shù)的影視節(jié)目譯制,可以智能、自動(dòng)地識(shí)別影視節(jié)目中的字幕內(nèi)容,以便于譯制人員的語言翻譯,同時(shí),翻譯后的語言可以自動(dòng)生成標(biāo)準(zhǔn)字幕格式,自動(dòng)對(duì)準(zhǔn)字幕在節(jié)目中的位置,大大提高了影視節(jié)目字幕譯制的工作效率,其流程如圖5所示,主要步驟如下。
圖5 結(jié)合字幕自動(dòng)識(shí)別的字幕譯制流程圖
(1)打開節(jié)目譯制軟件,加載需要譯制的影視節(jié)目。
(2)譯制軟件將節(jié)目按照視頻連續(xù)畫面將視頻進(jìn)行鏡頭切分,并進(jìn)行關(guān)鍵幀提取,也就是將一段完整的視頻提取出一系列的圖片,如圖6所示。
圖6 視頻節(jié)目畫面抽幀示意圖
(3)“OCR文字識(shí)別引擎”對(duì)抽幀畫面進(jìn)行逐一分析,解析出每個(gè)畫面的文字內(nèi)容以及對(duì)應(yīng)的時(shí)間位置信息。
(4)節(jié)目譯制軟件參照“OCR文字識(shí)別”的原文結(jié)果進(jìn)行文字翻譯,如表2所示。
表2 文字識(shí)別與文字譯制表
(5)節(jié)目制作人員在人工對(duì)字幕進(jìn)行校對(duì)后,進(jìn)行節(jié)目的最終合成。合成時(shí),選取翻譯后的字幕,將翻譯后的文字放置在節(jié)目視頻中的指定位置。
隨著數(shù)字圖像處理技術(shù)的快速發(fā)展,圖像識(shí)別技術(shù)也得到了廣泛的應(yīng)用,可用于地形地貌勘查,海洋、水利、氣候、環(huán)境的監(jiān)測(cè),軍事目標(biāo)以及建筑物的識(shí)別,生物醫(yī)學(xué)領(lǐng)域的影像處理以及安全領(lǐng)域中的指紋識(shí)別、人臉識(shí)別等。
圖像識(shí)別的核心技術(shù)是圖像分類與圖像檢索,需要建立足夠多的訓(xùn)練庫以及海量的場(chǎng)景、物體、事件識(shí)別模板。圖像識(shí)別過程中,首先排除無效特征,然后對(duì)重要的特征進(jìn)行提取并對(duì)關(guān)鍵信息進(jìn)行比對(duì),最終輸出識(shí)別結(jié)果[7],流程如圖7所示。
圖7 圖像識(shí)別流程示意圖
廣播電視行業(yè)的媒資管理系統(tǒng)提供歷史資料上載、采集、編目、審核及管理等業(yè)務(wù)功能。同時(shí),通過內(nèi)容管理、存儲(chǔ)管理、媒體分析、智能轉(zhuǎn)碼、智能索引以及工作流等引擎,為系統(tǒng)用戶提供精確查詢、高效檢索、快速瀏覽及下載服務(wù)[8]。
媒資編目是媒資管理系統(tǒng)的一個(gè)核心重要環(huán)節(jié),需要人工對(duì)素材內(nèi)容瀏覽,然后將素材參照4層編目(節(jié)目層、片段層、場(chǎng)景層和鏡頭層)規(guī)范,分析節(jié)目?jī)?nèi)容、提取關(guān)鍵畫面,并通過題名、主題、描述、創(chuàng)建、出版、版權(quán)、語種、日期、類型、格式、標(biāo)識(shí)、來源及關(guān)聯(lián)等相關(guān)信息進(jìn)行著錄[9]。傳統(tǒng)的人工編目環(huán)節(jié)耗時(shí)耗力,需要一邊對(duì)內(nèi)容瀏覽的同時(shí)一邊進(jìn)行編目錄入,效率低下而且容易出錯(cuò)。
引入了圖像識(shí)別技術(shù)的媒資管理系統(tǒng),不但可以智能、自動(dòng)地識(shí)別影視節(jié)目中的畫面內(nèi)容,實(shí)現(xiàn)機(jī)器智能分類標(biāo)簽+人工自定義的混合編目,而且能對(duì)音視頻中的地點(diǎn)、時(shí)間進(jìn)行多模態(tài)的標(biāo)記、編目。常見標(biāo)簽類型如表3所示[10]。
表3 常見標(biāo)簽類型表
引入了智能標(biāo)簽體系的媒資管理系統(tǒng),比傳統(tǒng)媒資系統(tǒng)四級(jí)編目方式更加靈活,比傳統(tǒng)媒資編目錄入項(xiàng)更加豐富,提供了高效精準(zhǔn)的媒資檢索手段,實(shí)現(xiàn)了節(jié)目素材精準(zhǔn)定位,能夠節(jié)約時(shí)間,提高媒資管理效率。
人工智能技術(shù)給人們的生活帶來了極大的便利,同時(shí)也改變了人們的工作方式。廣播電視行業(yè)也處于大數(shù)據(jù)、云計(jì)算、媒體深度融合高速發(fā)展期。廣播電視行業(yè)應(yīng)根據(jù)傳統(tǒng)電視制播業(yè)務(wù)的自身特點(diǎn),積極探索人工智能AI技術(shù),并應(yīng)用到自身業(yè)務(wù)當(dāng)中,使人工智能技術(shù)更好地服務(wù)于廣播電視業(yè)務(wù),打造先進(jìn)、高效、智能的新一代廣電制播業(yè)務(wù)體系,在未來的行業(yè)競(jìng)爭(zhēng)中占據(jù)優(yōu)勢(shì)。