李春芳,劉永久,王楷翔,楊睿,張凌飛,李敏,鄧智銘,石民勇
(中國傳媒大學計算機與網(wǎng)絡(luò)空間安全學院,北京 100024)
媒體融合發(fā)展已上升至國家戰(zhàn)略,影像為王的媒介時代,有視頻有真相。視頻具有時序播放的特點,知識密集型視頻,如紀錄片、正史影視,很多受眾不能在呈現(xiàn)的幾秒內(nèi)理解視頻的全部信息。另一方面,用戶也會常感到觀看線性視頻的信息過少、浪費時間。2018 年11 月,教育部、中宣部印發(fā)了《關(guān)于加強中小學影視教育的指導意見》,體現(xiàn)了政府對影視教育的重視。如何找到與課程內(nèi)容密切關(guān)聯(lián)的影視作品及視頻片段,是應(yīng)用影視教育中的瓶頸。
本文著重研究了面向應(yīng)用場景的視頻字幕提取和人臉識別,對重要實體,鏈接外部知識庫和電子課本;對視頻做知識增強,支持視頻非線性檢索,構(gòu)建一種富信息融媒影視新形式,滿足深度知識獲取,改善用戶收視體驗。本文面向教育文化傳播,以近代史電影、中國詩詞大會和科技記錄片三個場景實現(xiàn)視頻融媒應(yīng)用,嘗試應(yīng)對網(wǎng)絡(luò)時代的文明恐慌,為新型主流媒體智能化發(fā)展賦能。
字幕形式的對白或解說詞,有場景說明、畫面補充、深化內(nèi)涵的作用,可用于視頻非線性檢索。字幕提取包括:字幕事件檢測、字幕區(qū)域定位、字幕分割、基于OCR(Optical Character Recognition)的文本識別。
字幕識別首先將視頻生成盡可能不重復、不遺漏的字幕圖像序列。從視頻提取字幕幀的方法包括三種:逐幀、等幀間隔、幀差法(或字幕事件檢測)。從單張圖像檢測文本區(qū)域的方法大致分為四種:基于紋理特征,基于邊緣特征,基于連通域和基于深度學習的方法。
2012 年,曹喜信研究了基于邊緣強度的字幕提?。?]。2017 年,袁聞研究了網(wǎng)絡(luò)視頻字幕關(guān)鍵詞提取與檢索[2]。2018 年,石民勇、艾莫爾夫等研究了抽幀和圖像分割的字幕提?。?],王智慧等提出了先監(jiān)測字幕幀再鎖定區(qū)域的字幕提取方法[4]。
從英文文獻看,側(cè)重對字幕和視頻的融合應(yīng)用。2018 年,呂金娜等用識別人臉和字幕實現(xiàn)了一個StoryRoleNet,自動構(gòu)建影視劇的人物關(guān)系[5]。2019 年,Tapu 等基于人臉識別、視頻分鏡、語音識別及字幕識別,把字幕文本標注到說話人附近,實現(xiàn)了幫助聾啞人看視頻的Deep-Hear 系統(tǒng)[6]。2020 年,曠視科技Wan Zhaoyi 等提出一種針對泛場景文字識別的深度神經(jīng)網(wǎng)絡(luò)方法TextScanner[7]。
與深度學習方法相比,基于邊緣特征定位字幕區(qū)幾乎無學習代價,輕量簡潔。本文基于等幀間隔和幀差法,利用多幀字幕邊緣特征的統(tǒng)計特性,提高字幕塊定位精度和效率。
字幕塊文字識別由OCR 處理。2020 年百度基于深度學習的OCR 識別率達99%,并提供云端API。此外中文識別還包括漢王OCR、文通OCR 和開源OCR引擎Tesseract。本文字幕OCR采用了Tesseract。
從字幕文本可檢索包含關(guān)鍵詞的視頻時間點,然而存在大量畫面人物和字幕人物不一致情況,如字幕包含“毛澤東”的畫面,大部分是他人的對白中提到“毛澤東”,為此需基于人臉識別檢索畫面。
人臉識別包括:人臉檢測,人臉對齊和人臉識別。人臉識別包括1:1 比較的人臉驗證和1:k 比較的人臉識別,影視人臉識別是一個1:k 問題。2014 年Facebook 的研究者提出了DeepFace,用三維人臉對齊,交叉熵作為損失函數(shù),在人臉庫LFW(Labeled Faces in the Wild)上識別率達到97.35%[8]。2015 年,Google的研究者提出了FaceNet,構(gòu)建(圖像,正例,反例)三元組,人臉圖像與正例距離近與反例距離遠作為目標函數(shù) 的 訓 練 方 法,在LFW 上 識 別 率 達 到99.65%[9]。2016 年,Google 提 出了GoogLeNet 的升級版Inception-ResNet,PyTorch 實現(xiàn)該算法用于人臉識別[10]。2016 年,Zhang Kaipeng 等提出構(gòu)建圖像金字塔,將人臉檢測與人臉關(guān)鍵點對齊的多任務(wù)MTCNN 模型[11]。此外,還可采用視頻ReID技術(shù)跟蹤識別人臉[12]。
隨著算法到API 的快速迭代,專家認為,AI 創(chuàng)新重點在于應(yīng)用場景,然而技術(shù)遠沒被應(yīng)用到主流視頻媒體,大量制作精良的視頻不能被便利地檢索、挖掘和傳播,傳統(tǒng)媒體內(nèi)容王者地位受到嚴峻挑戰(zhàn)。
跨媒體檢索旨在以任意媒體數(shù)據(jù)檢索其他媒體的相關(guān)數(shù)據(jù),實現(xiàn)圖像、文本等不同媒體的語義互通和交叉檢索。2018年,彭宇新綜述了跨媒體檢索的概念方法和挑戰(zhàn)[13-14],認為學習圖像和文本間精確的關(guān)聯(lián)關(guān)系,提高跨媒體檢索準確率。同年,王述和史忠植研究了基于深度典型相關(guān)性分析的跨媒體語義檢索,從多媒體數(shù)據(jù)中抽取概念及標簽訓練,語義映射實現(xiàn)跨媒體檢索[15]。2019年,卓昀侃等提出跨媒體循環(huán)神經(jīng)網(wǎng)絡(luò),挖掘包括圖像、視頻、文本、音頻和3D 模型的細粒度信息,提升了跨媒體檢索的準確率[16]。
2018年,許斌團隊自動抽取加眾包構(gòu)建了小初高全學科基礎(chǔ)教育知識圖譜edukg.cn,用于智慧教育[17]。與跨媒體理論研究相比,本文工程上實現(xiàn)了一個跨媒體檢索系統(tǒng);與教育知識圖譜圖文表達相比,本文是以視頻為核心的融媒系統(tǒng)。
以下分別論述視頻字幕提取、視頻的人臉識別、電子書識別,以及集成實現(xiàn)的融媒影視系統(tǒng)。
本節(jié)利用字幕區(qū)的邊緣統(tǒng)計特征,設(shè)計實現(xiàn)了一個高識別率的字幕提取算法,分析了實驗結(jié)果。
圖1(a)是字幕區(qū)域Y方向的邊緣特征構(gòu)造的二值矩陣的行和,可以明顯的分辨出字幕的上下邊界。在字幕幀字數(shù)少,且遇到特殊文字,單獨取一幀定位不準確。為此,采用多幀字幕統(tǒng)計特征,即取眾數(shù)(眾數(shù),指在統(tǒng)計分布上具有明顯集中趨勢點的數(shù)值,也是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值),見圖1(b),多幀字幕眾數(shù)的上下邊界作為整個視頻字幕上下邊界,剔除了字形差異的干擾。
圖1 基于多幀字幕邊緣特征定位字幕上下邊界
基于以上分析,初始化先確定字幕上下邊界。隨機選擇視頻中的N 幀(N=50),取幀圖像的下1/5 和左1/2 區(qū)域,對該區(qū)域做灰度化、中值濾波、用Sobel 算子提取Y 方向的邊緣特征,進一步二值化(閾值可調(diào),默認150),構(gòu)建一個邊緣特征存在與否的one-hot 二值矩陣,計算行和,從行和最大值逐像素向兩端滑動檢測當前幀的上下邊界。對N 幀樣本的邊界統(tǒng)計,用眾數(shù)作為字幕上下邊界。
影視字幕對齊方式分兩種,左對齊和居中對齊,即非左即中。隨機抽取多幀字幕,灰度化、二值化,用二值化one-hot 矩陣的列和確定字幕左邊界,從列和最大的像素點開始向左按字寬滑動,左側(cè)邊界比較集中判斷為左對齊,非常分散判斷為居中對齊。字幕邊緣特征如圖2 所示,從最大的列和開始向左滑動獲得左邊界。
圖2 基于二值化矩陣列和確定字幕對齊方式
算法1,輸入為影視視頻文件,輸出字幕文件。
算法1 基于統(tǒng)計特征的視頻字幕提取算法輸入:帶有字幕的視頻文件(如*.mp4)輸出:字幕文件.srt①初始化:統(tǒng)計多幀經(jīng)Sobel 算子生成邊緣one-hot 矩陣確定視頻字幕上下邊界。②初始化:根據(jù)多幀字幕統(tǒng)計特征確定左邊界,確定對齊方式。③每隔0.5 秒讀取視頻的一幀,根據(jù)上下邊界和對齊方式,確定左右邊界,確定是否為字幕幀。非字幕幀則丟棄,繼續(xù)循環(huán)③。④計算當前字幕圖像灰度化、二值化矩陣,one-hot 矩陣的中間行與上一幀字幕圖像中間行的余弦距離,如果兩幀的余弦距離>0.7 認為是重復字幕,認為是相同字幕幀則丟棄,跳轉(zhuǎn)③。⑤根據(jù)上下和左右邊界分割圖像取出當前幀的字幕區(qū)域,經(jīng)灰度化、色階調(diào)整、二值化、黑白翻轉(zhuǎn)、得到白背景黑字的字幕圖像。⑥對判定為非重復的字幕幀,經(jīng)OCR識別輸出文本。⑦字幕區(qū)域圖像生成的文本行經(jīng)正則表達式過濾非中文和數(shù)字字符亂碼,經(jīng)萊溫斯坦(Levenshtein)字符編輯距離再次去重。⑧計算字幕幀的毫秒時間,按字幕格式寫入字幕文件.srt。⑨判斷是否超過視頻長度,是則結(jié)束,否則轉(zhuǎn)③繼續(xù)提取下一個可能的字幕幀文本。
字幕定位算法的流程如圖3所示,說明如下:
圖3 字幕識別算法流程圖
(1) 步驟③參數(shù)0.5 秒的選擇由實驗統(tǒng)計確定。根據(jù)統(tǒng)計規(guī)律,字幕行停留時間一般在0.5-7 秒,識別原則是不丟字幕幀并盡可能減少重復字幕幀。
(2) 步驟③會有極少量的無字幕幀被判為有字幕,原因是背景紋理過于復雜造成的干擾,這樣無字幕幀經(jīng)OCR識別為亂碼,通過正則表達式濾除。
(3) 步驟④重復字幕幀的判定。擁有相同字幕的圖像幀,必然有極為相似的邊緣特征,對比兩幀字幕區(qū)域Y 軸方向邊緣one-hot 矩陣中間行向量的余弦相似度,判斷字幕是否重復,本文設(shè)定余弦相似度>0.7,為相同字幕幀,重復字幕檢測波形參見圖4。此處仍可能產(chǎn)生少量的重復字幕,后續(xù)再次去重。
(4) 本算法沒有單獨處理字幕事件檢測,目的是通過抽幀提高識別效率。通過余弦相似度判斷抽幀時刻字幕是否改變,圖4的波形圖和字幕序列為《舌尖上的中國》的600 幀,每12 幀取一幀,取50 幀作為樣本,共有11個波峰,即11個對比的抽幀中one-hot矩陣中間行的余弦相似度>0.7,每個波峰表示一組相同字幕,代表了一條不同字幕,共12條字幕,波形跳變與字幕一致,即為幀差去重復。
圖4 重復字幕檢測的波形圖示例
(5)步驟⑤當判定字幕區(qū)域包含字幕且和上一幀不同,對字幕區(qū)域灰度化處理。色階是用直方圖描述整張圖像的明暗信息。色階調(diào)整使字幕圖像與背景色調(diào)分離,提高字幕辨識度,如公式(1)所示,含三個參數(shù):像素灰度值Input,高光值Highlight 和陰影值Shadow,該像素輸出值Output。
實驗表明色階調(diào)整對OCR 識別率影響較大。圖5 是視頻一幀灰度圖調(diào)整色階前后對比,并把字幕區(qū)域突出顯示。可以看出,色階調(diào)整后,圖像的對比度下降,但是字幕辨識度改善。以《互聯(lián)網(wǎng)時代》為例,色階調(diào)整字幕圖像可以使得OCR 識別率由70%提升到95%以上。
圖5 色階調(diào)整對圖像和文字清晰度的影響
(6) 步驟⑤對字幕圖像二值化,本文設(shè)定灰度>150 映射為255,否則為0,再反色處理。處理過程參見圖6,可以看出有效剔除了背景干擾。
(7)步驟⑦依據(jù)正則表達式剔除亂碼。使用OCR識別文字,仍有部分重復字幕或無字幕的亂碼。為提高識別精度,本文針對單一語言字幕識別,OCR 識別中文時將標點、符號、英文字符等視為噪聲。
中文編碼范圍是[u4e00-u9fa5],且字幕大都不包括標點,但有數(shù)字。本文根據(jù)Unicode的中文編碼表,re.compile(r'[^u4e00-u9fa5+0-9]+')匹配,結(jié)果只保留中文字符和數(shù)字。對于英文字幕使用re.compile(r'^w+$'),去除中文和亂碼。
(8)Levenshtein 距離指字符串轉(zhuǎn)成另一字符串所需的最少編輯次數(shù),包括:替換、插入和刪除。如:將“中央電視臺”轉(zhuǎn)化為“中央廣播電視總臺”,編輯距離為3。步驟⑦依據(jù)Levenshtein 編輯距離和字符串相似度過濾OCR后的少量重復字幕。
(1)實驗環(huán)境
2.面板AR根檢驗。本文對京津冀城市群土地綜合承載力與區(qū)域經(jīng)濟發(fā)展系統(tǒng)的PVAR模型進行面板AR根檢驗(見圖1),系統(tǒng)PVAR模型共有6個根,且所有根模的倒數(shù)都位于單位圓內(nèi),表明系統(tǒng)PVAR模型滿足穩(wěn)定性條件。[17]因此,對系統(tǒng)PVAR模型進行面板Granger因果檢驗、面板脈沖響應(yīng)函數(shù)和面板方差分解技術(shù)分析是科學的。
實驗采用Python3.7 和OpenCV,主要函數(shù)包括VideoCapture、cvtColor、medianBlur、Sobel、threshold,分別用于讀取視頻、灰度化、中值濾波、提取特征邊緣和二值化操作。所用OCR 為Tesseract-OCR4.0.0。
(2)字幕塊識別率
本文用5 部中文和2 部英文視頻作為實驗數(shù)據(jù)。對識別字幕塊定義:查全率=正確識別字幕條數(shù)/字幕總條數(shù),查準率=正確識別字幕條數(shù)/識別字幕條數(shù)。實驗如表1 所示,《建軍大業(yè)》總字幕1750 條,查全率99.83%,漏識別3 條,查準率98.20%?!禩he Lion King》的查全率為99.72%,查準率為99.81%。
表1 字幕條數(shù)提取實驗結(jié)果
(3)字幕文字識別率
開源OCR 引擎Tesseract 的中文識別率約為97%。本文文字識別率實驗如表2 所示,《中國通史》貞觀之治的文字查全率95.81%,查準率95.43%,《舌尖上的中國》單集文字查全率95.92%,查準率94.33%,《互聯(lián)網(wǎng)時代》文字查全率96.04%,查準率94.20%?!督ㄜ姶髽I(yè)》共11767 字,查全率98.6%,查準率97.73%。
表2 字幕文字識別率實驗結(jié)果
本文實驗數(shù)據(jù)規(guī)模遠高于已有文獻,表3 中與文獻[1]和[4]相比,本文中英文字幕塊查全率最高,達到99.65%以上,中文平均查準率達到97.6%,英文查準率達到99.8%。
表3 字幕塊提取與已有文獻的對比
為實現(xiàn)影視人臉識別,以《建軍大業(yè)》為例,在豆瓣爬取主要角色照片,以“編號-演員名-角色名”格式存儲,用于人臉識別。主要角色及演員共57 名,部分數(shù)據(jù)如表4所示。
表4《建軍大業(yè)》人臉識別的演員與角色
圖7 統(tǒng)計角色出場時間流程圖
輸入原視頻,每隔0.2 秒抽一幀,若當前幀檢測到人臉,則用演員照片識別對應(yīng)角色,記錄幀時刻,沒有檢測到人臉繼續(xù)抽幀,結(jié)果以.srt字幕存儲。
PyTorch 以高度易用被工程中廣泛采用,本文采用其實現(xiàn)的人臉檢測和對齊一體的MTCNN[11]算法和Inception-ResNet[10]算法實現(xiàn)人臉識別,掛載的預訓練參數(shù)為VGGFace2。
視頻檢索在秒級精度即可,本文忽略毫秒把人臉識別的起始時間和字幕起始時間對應(yīng),寫入字幕subtitle 數(shù)據(jù)表,實現(xiàn)基于字幕和人臉并行的視頻非線性檢索。表5中第一行指在該字幕處,畫面出現(xiàn)人物“毛澤東”和“周恩來”。對《建軍大業(yè)》識別角色人臉,對應(yīng)到字幕時間,共540條字幕附近有角色出現(xiàn),檢索正確率為98%。
為實現(xiàn)電子書與影視視頻的跨媒體關(guān)聯(lián)檢索,需要對圖像格式的電子書數(shù)據(jù)化。處理流程見圖8,基于Python Wand 庫和C++的ImageMagick 對PDF 電子書逐頁轉(zhuǎn)為圖片,圖片經(jīng)過灰度化、邊緣提取、二值化、兩次膨脹和腐蝕,聚合成一個文字框或者圖片區(qū)域,獲取輪廓后生成切塊,并濾掉噪聲小塊,切割文字或圖片區(qū)域,記錄塊的坐標,對切割后的文字區(qū)域,經(jīng)Baidu-Aip的OCR識別為文字。
表5《建軍大業(yè)》字幕和人物出場時間表
圖8 圖像格式電子書PDF的數(shù)據(jù)化
表6 為3 本電子書數(shù)據(jù)化的實驗結(jié)果,以初中歷史八年級上冊為例,132 頁,采用72×72 分辨率,拆為圖片用時32 秒,用時5.9 秒劃分為660 個圖文塊,對其中文字塊OCR 識別共用時729.2 秒,手工隨機抽取5頁檢測,識別率約98.87%。《人工智能簡史》OCR 識別率為99.18%。
表6 電子書數(shù)據(jù)化實驗結(jié)果
本節(jié)設(shè)計實現(xiàn)了基于字幕提取、人臉識別、電子書數(shù)據(jù)化、詞頻統(tǒng)計的支持視頻內(nèi)容理解、非線性檢索和知識增強的融媒影視系統(tǒng)。架構(gòu)見圖9,演示地址www.yingshinet.com。
圖9 多模態(tài)跨媒體檢索的融媒體影視系統(tǒng)架構(gòu)
系統(tǒng)以3 個應(yīng)用為例構(gòu)建了融合知識庫的數(shù)據(jù)庫,實現(xiàn)跨媒體檢索,以下分別論述實現(xiàn)過程。
圖10(a)是《建軍大業(yè)》視頻,左下是主要歷史人物的字幕加人臉數(shù),右上是人物信息,抽取自思知(Ownthink)知識圖譜,存入本地數(shù)據(jù)庫。
圖10 支持非線性檢索的融媒影視系統(tǒng)
圖10(a)視頻下方是課本圖片和數(shù)據(jù)化的文字,對人物實體添加鏈接,點擊實現(xiàn)跨媒體檢索。右下是字幕檢索區(qū),顯示了字幕第一幀、時間和文字。
為提高跨媒體檢索的準確率,根據(jù)對白特點對人物實體添加了檢索別名。人物實體名詞、別名和人臉識別三者的語義一致,采用“或”關(guān)系查詢提高了檢索準確率。在《建軍大業(yè)》中“毛澤東”的別名為“潤之”,檢索字幕查詢到12 條,檢索別名返回4 條,檢索人臉返回139 條,總計155 條,總數(shù)與獻禮電影主題一致,角色戲份代表領(lǐng)袖人物的歷史地位。在數(shù)據(jù)化的電子課本中對重要實體添加超鏈接,實現(xiàn)從電子書文字檢索視頻e-book2video,解決了中小學影視教育中與教材關(guān)聯(lián)的視頻片段查找難題。
使用人物詞云和字幕詞云導航檢索,實現(xiàn)點擊鼠標代替鍵盤輸入,并提供了對視頻的概覽理解。對單片視頻字幕文本分詞、統(tǒng)計詞頻,生成字幕詞云導航檢索,參見圖10,點擊詞條返回跨媒體協(xié)同檢索結(jié)果。
《中國詩詞大會》在詩詞選擇上力求達到“熟悉的陌生題”,強化普及性,增強參與感和代入感,然而有詩詞專家認為摘句尋章有明顯不足,影響整首詩詞的文化意蘊和藝術(shù)奧妙表達。
本節(jié)以《中國詩詞大會》1-5 季共50 集視頻為例,通過字幕提?。⊿ubtitle 表),融合全唐宋詩詞庫(Poem表,33.2 萬)、中小學語文課本(Ebook 表,22 本)、哈佛大學的中國歷代人物傳記資料庫(抽取了詩人子集構(gòu)建CDBDPoet 表,1.24 萬詩人),通過字幕實現(xiàn)視頻與知識庫的跨庫協(xié)同,構(gòu)建了一種富信息融媒綜藝視頻,參見圖10(b),視頻播放時下面顯示與字幕詩句同步的整首詩詞和詩人作品,以知識補全解決視頻節(jié)目中摘句尋章的不足,提供跨媒體關(guān)聯(lián)理解。
紀錄片是典型知識密集型視頻。以《互聯(lián)網(wǎng)時代》為例,匯聚全球14 個國家互聯(lián)網(wǎng)領(lǐng)域200 多位重要人物觀點,形成宏觀視角、全景式描繪,極具重復學習和反復使用價值,然而線性檢索限制了傳播,查找文字和人物都非常困難。
本節(jié)對紀錄片提取字幕和對重要人物做人臉識別,實現(xiàn)視頻的非線性檢索。從維基百科抽取了計算機科學家實體做知識增強,寫入Entity表,用電子書全文對視頻提供跨媒體的佐證和補充。
盡管字幕文字查全率超過95%,電子書識別率超過98.5%,但是錯誤率需要低于出版標準的0.01%。本節(jié)采用基于眾包的人工校對和審核,采用多數(shù)人投票原則,即2人以上修改相同自動審核通過,不足2人的修改等待管理員人工審核。
對人物實體的增刪改查,設(shè)計了數(shù)據(jù)管理模塊。依據(jù)數(shù)據(jù)來源的權(quán)威性,按照課本、教師用書、思知知識圖譜和CDBD 的順序修改,并盡可能提供數(shù)據(jù)來源說明。對于詩人、詩詞設(shè)計了增刪改查管理,擴充唐朝以前的詩詞、明清詩詞和毛澤東詩詞等。
本文融合字幕識別、人臉識別、電子書識別,實現(xiàn)對影視視頻的內(nèi)容理解、非線性檢索和知識增強,構(gòu)建了一個跨媒體協(xié)同的視頻融媒播放系統(tǒng)。主要工作包括:(1) 提出了一種基于多統(tǒng)計特征的字幕提取方法;(2) 設(shè)計了以字幕格式為基準的人物和字幕協(xié)同的非線性影視檢索方法,解決視頻內(nèi)容檢索難題,通過視頻溯源課本,通過課本概念定位視頻起點;(3)實現(xiàn)了知識庫和電子書協(xié)同檢索和知識增強的融媒影視播放系統(tǒng),解決視頻信息補全問題,實現(xiàn)視頻與多源知識庫的跨媒體檢索。本文的研究可用于影視作品制播后的深度開發(fā)和傳播,并提供了一種教育教學中應(yīng)用影視視頻的便利形式,也可為主流媒體的融媒體全媒體傳播賦能。
跨庫檢索的難題是語義對齊,本文基于隱形的跨媒體公共子空間實現(xiàn)了協(xié)同檢索,后續(xù)將構(gòu)建顯性的多種媒體資源公共子空間以實現(xiàn)跨媒體關(guān)聯(lián)檢索。