胡 燕
(國家知識產(chǎn)權(quán)局,北京 102206)
隨著互聯(lián)網(wǎng)和計(jì)算機(jī)設(shè)備的日益普及,尤其是近年來移動互聯(lián)網(wǎng)和具有視頻拍攝和播放功能的移動終端的廣泛使用,人們在工作、生活的方方面面都已經(jīng)離不開包括網(wǎng)絡(luò)視頻在內(nèi)的各類視頻,視頻的數(shù)據(jù)量也隨之呈爆炸式增長,視頻信息開始變得過載。因此,視頻提供者如何提高視頻的有效性、可用性及可訪問性,視頻使用者如何迅速地獲取所需要的視頻數(shù)據(jù),并高效地從中獲得所期望的信息或用戶體驗(yàn),成為一個亟待解決的問題。視頻摘要技術(shù)正是解決這個問題的一項(xiàng)重要手段。
視頻摘要是在20世紀(jì)90年代被提出的一個概念,是指利用計(jì)算機(jī)技術(shù)分析視頻結(jié)構(gòu)、理解視頻內(nèi)容,并從原始的多媒體數(shù)據(jù)中選取具有代表性的、有意義的部分,將它們以某種方式組合并生成緊湊的、用戶可讀的原始視頻的縮略。視頻摘要一般可依據(jù)最終的呈現(xiàn)形式分為靜態(tài)視頻摘要和動態(tài)視頻摘要。靜態(tài)視頻摘要又稱關(guān)鍵幀集,由原始視頻中具有代表性的圖像幀組成,以直接、分層或縮放的方式進(jìn)行組合;動態(tài)視頻摘要是從原始視頻中選取可表達(dá)語義內(nèi)容的視頻片段拼接編輯得到[1]。
本文針對目前視頻摘要的技術(shù)進(jìn)行專利檢索,結(jié)合對檢索結(jié)果進(jìn)行分析來探討視頻摘要技術(shù)在中國的專利布局、技術(shù)發(fā)展現(xiàn)狀和趨勢,以期為相關(guān)科研人員的研發(fā)提供參考。本文采用中國專利摘要數(shù)據(jù)庫(CNABS)進(jìn)行檢索,之后對檢索結(jié)果進(jìn)行人工瀏覽降噪。本文檢索時間截止2022年7月23日,共獲得882件視頻摘要技術(shù)領(lǐng)域的專利申請。
圖1為視頻摘要專利申請量年度變化趨勢圖。在該技術(shù)領(lǐng)域,最早的中國專利申請出現(xiàn)在1997年,基本與國際同步。該領(lǐng)域的專利申請量整體呈上升趨勢:在2011年以前較為平穩(wěn),屬于平穩(wěn)發(fā)展期,每年的專利申請量不超過20件;從2011年開始,專利申請量突飛猛進(jìn),進(jìn)入了爆發(fā)式發(fā)展期,2015年的專利申請量已高達(dá)94件;2015年之后,每年的專利申請量有所波動,但是依然維持在70件以上,仍處于快速發(fā)展期(由于2021年、2022年申請的專利申請僅公開了一部分,因此,2021年、2022年的專利申請量數(shù)據(jù)不完整)。從歷年的發(fā)展趨勢來看,視頻摘要技術(shù)的相關(guān)專利申請數(shù)量仍會不斷增長。
圖1 視頻摘要技術(shù)領(lǐng)域?qū)@暾埩磕甓茸兓厔輬D
1.2.1 申請人分布情況
圖2顯示了視頻摘要技術(shù)領(lǐng)域?qū)@暾埩颗琶?5位的專利申請人的排名情況,從中可以看出申請量排名靠前的以企業(yè)為主,排名前14位的均為企業(yè),高校和科研院所中僅有天津大學(xué)入圍,排名第15位。其中,三星的申請量達(dá)到了30件,位列第一名,其次是騰訊和索尼,分別擁有23件和22件申請。在這些專利申請人中,8個是國外申請人,7個是國內(nèi)申請人,國內(nèi)外申請人數(shù)量基本持平。
圖2 視頻摘要技術(shù)領(lǐng)域?qū)@暾埩颗琶闆r
1.2.2 主要申請人的專利技術(shù)分析
1.2.2.1 三 星
三星集團(tuán)于1938年成立于韓國,是全球知名的、韓國最大的跨國企業(yè)集團(tuán)。三星的業(yè)務(wù)涉及電子、金融、機(jī)械及化學(xué)等眾多領(lǐng)域。三星在視頻摘要方面申請的專利涉及多方面的改進(jìn),包括運(yùn)動視頻集錦、與用戶意圖相結(jié)合、視頻搜索等,舉例如下。
CN1658663A提供一種用于對多個幀進(jìn)行摘錄的方法和設(shè)備,其根據(jù)幀的相似性來將多個幀分類,并通過從分類后的幀中選擇代表幀來輸出幀摘要,以便通過執(zhí)行將多個靜止圖像或視頻流概括為某個數(shù)目的幀的功能,來解決傳統(tǒng)問題并為圖像再現(xiàn)設(shè)備的用戶提供便利[2]。
CN103856833A提供一種視頻處理方法和設(shè)備。該方法包括:在捕捉或顯示第二視頻時捕捉用戶的至少一個圖像;從用戶的至少一個圖像識別用戶的面部,并分析用戶的面部特征;基于分析的用戶的面部特征,提取用戶的面部的面部表情因子以計(jì)算估計(jì)值;記錄將被映射到第二視頻的時間線的估計(jì)值;基于估計(jì)值從第二視頻提取部分視頻以產(chǎn)生第二視頻的視頻摘要。該方法生成的視頻摘要可以準(zhǔn)確反映用戶意圖[3]。
CN104123396A涉及一種基于云電視的足球視頻摘要生成方法及裝置。該方法包括:對足球視頻進(jìn)行實(shí)時精彩度分析,確定精彩視頻片段,將精彩視頻片段上傳至云端,形成視頻摘要。該方法能夠?qū)?shí)時視頻摘要與Cloud PVR技術(shù)結(jié)合起來,減輕網(wǎng)絡(luò)及云端壓力[4]。
CN104636413A提供一種視頻搜索系統(tǒng)和方法。該方法包括:從原始視頻提取與搜索條件匹配的視頻數(shù)據(jù);基于提取的視頻數(shù)據(jù)產(chǎn)生摘要視頻,按照原始視頻中的對象出現(xiàn)順序以重疊方式在背景模型上渲染摘要視頻中的多個對象,并顯示渲染的對象。該方法允許用戶方便地進(jìn)行視頻搜索[5]。
1.2.2.2 騰 訊
騰訊公司成立于1998年,總部位于深圳,是一家世界領(lǐng)先的互聯(lián)網(wǎng)科技公司。其通信和社交服務(wù)業(yè)務(wù)覆蓋了逾10億人,其業(yè)務(wù)還包括電子游戲及其他數(shù)字內(nèi)容的發(fā)行、云計(jì)算、廣告以及金融科技等企業(yè)服務(wù)。在視頻摘要領(lǐng)域,騰訊的專利申請主要涉及節(jié)目預(yù)覽和與機(jī)器學(xué)習(xí)相結(jié)合方面的改進(jìn),舉例如下。
CN101308501A提供一種生成視頻摘要的方法、系統(tǒng)及設(shè)備。該方法在生成視頻摘要的過程中,首先求取每個視頻幀的特征向量,并通過分級聚類方式篩選出跳躍時間點(diǎn)序列,再基于跳躍時間點(diǎn)序列提取對應(yīng)的視頻幀組成視頻摘要,從而可覆蓋盡可能多的鏡頭且視頻幀之間畫面差異性最大,增強(qiáng)了視頻摘要的信息完備性。另外,該方法對視頻類型無要求,提高了技術(shù)應(yīng)用的普適性[6]。
CN108419145A涉及一種視頻摘要的生成方法和裝置以及計(jì)算機(jī)可讀存儲介質(zhì)。該方法可以獲取待處理的目標(biāo)視頻,目標(biāo)視頻包括連續(xù)多個的圖像幀;使用圖像分類預(yù)測模型對連續(xù)多個的圖像幀進(jìn)行識別,從連續(xù)多個的圖像幀中識別出至少一個目標(biāo)圖像幀,圖像分類預(yù)測模型使用屬于預(yù)設(shè)目標(biāo)類型的畫面樣本和不屬于預(yù)設(shè)目標(biāo)類型的畫面樣本通過機(jī)器學(xué)習(xí)算法完成模型訓(xùn)練;從目標(biāo)視頻中分別截取至少一個目標(biāo)圖像幀對應(yīng)的視頻片段,視頻片段包括目標(biāo)圖像幀以及與目標(biāo)圖像幀相鄰的圖像幀;根據(jù)截取到的至少一個目標(biāo)圖像幀對應(yīng)的視頻片段,生成目標(biāo)視頻的視頻摘要,視頻摘要包括視頻片段。該方法可以提高視頻摘要的處理速度,實(shí)現(xiàn)視頻摘要的快速生成[7]。
CN103546828A涉及一種節(jié)目預(yù)覽的生成方法和裝置。該方法根據(jù)預(yù)先設(shè)置的生成節(jié)目預(yù)覽所需的預(yù)覽片段的數(shù)量和原始節(jié)目的總時長,設(shè)置預(yù)覽片段之間的時間間隔;根據(jù)時間間隔,從原始節(jié)目中提取預(yù)先設(shè)置的預(yù)覽片段的數(shù)量的預(yù)覽片段;將提取出的預(yù)先設(shè)置的預(yù)覽片段的數(shù)量的預(yù)覽片段組合,生成節(jié)目預(yù)覽。該方法摘取了完整的節(jié)目信息,從而使得這個節(jié)目預(yù)覽在情節(jié)上具有一定的連貫性和完整性[8]。
CN109803180A描述了一種視頻預(yù)覽圖生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)。該方法獲取視頻的字幕文件,字幕文件包含視頻的各句臺詞以及各句臺詞各自的展示時間段;根據(jù)字幕文件,從視頻中提取各句臺詞分別對應(yīng)的圖像幀;根據(jù)各句臺詞分別對應(yīng)的圖像幀的展示時間順序以及相鄰圖像幀之間的圖像差異度,對各句臺詞分別對應(yīng)的圖像幀進(jìn)行分組,獲得至少一個圖像幀組;生成每一個圖像幀組對應(yīng)的臺詞拼接圖片,根據(jù)臺詞拼接圖片生成視頻預(yù)覽圖。該方法生成的視頻預(yù)覽圖對視頻內(nèi)容具有較好的展示效果,能夠顯著地提高生成的視頻預(yù)覽圖的準(zhǔn)確性[9]。
1.2.2.3 索 尼
索尼集團(tuán)公司于1946年成立于日本,是一家全球知名的大型綜合性跨國企業(yè)集團(tuán)。索尼的業(yè)務(wù)主要涉及電子、娛樂、金融及信息技術(shù)等。索尼的專利申請主要涉及節(jié)目索引以及目標(biāo)對象檢測方面對視頻摘要技術(shù)進(jìn)行的改進(jìn),舉例如下。
CN102981733A涉及一種信息處理裝置和方法。該方法利用用戶界面顯示控制單元來顯示圖像庫中的各個出現(xiàn)的素材。顯示內(nèi)容包括:按照空間關(guān)系將各個出現(xiàn)的素材顯示在顯示器上,接收輸入到用戶界面顯示控制單元的空間關(guān)系的變化;響應(yīng)于接收,改變各個出現(xiàn)的素材之間的相應(yīng)關(guān)系值。該方法能夠自動地播放通過收集出現(xiàn)與在運(yùn)動畫面中出現(xiàn)的人物中的指定人物相關(guān)的人物的場景來獲得的文摘電影[10]。
CN102857810A提供一種信息處理設(shè)備和方法。該方法獲取用于指示每一個目標(biāo)對象出現(xiàn)在視頻中的出現(xiàn)區(qū)間的區(qū)間元數(shù)據(jù);利用區(qū)間元數(shù)據(jù)來顯示區(qū)間信息,區(qū)間信息可視地表達(dá)在構(gòu)成視頻的所有區(qū)間中出現(xiàn)每一個目標(biāo)對象的區(qū)間;在用戶從被顯示作為關(guān)于特定目標(biāo)對象的多個區(qū)間信息的各區(qū)間中選擇了一個區(qū)間的情況下,再現(xiàn)所選擇的區(qū)間的視頻幀。該方法可以提供利用高度精確的元數(shù)據(jù)來執(zhí)行內(nèi)容再現(xiàn)控制的應(yīng)用[11]。
CN101847205A提供一種圖像處理裝置、圖像處理方法和程序。該方法生成用于再生可被分為多個區(qū)間的圖像內(nèi)容的源信息,將多個區(qū)間中的每一個設(shè)定為目標(biāo)區(qū)間,從目標(biāo)區(qū)間中生成靜止圖像,確定被確定連續(xù)出現(xiàn)在目標(biāo)區(qū)間之前的至少一個區(qū)間中的特定人物的面部是否包含在從目標(biāo)區(qū)間中生成的靜止圖像中;基于對多個區(qū)間的每一個獲得的確定結(jié)果,將特定人物的面部連續(xù)出現(xiàn)在其中的至少一個區(qū)間指定為面部區(qū)間,并生成關(guān)于面部區(qū)間的信息作為源信息的一項(xiàng)。該方法可以將用于展現(xiàn)動畫內(nèi)容中出現(xiàn)的人物和人物位置的源信息提供給用戶,以便用戶容易地了解和識別他們[12]。
CN101329766A涉及一種運(yùn)動圖像分析裝置、方法及系統(tǒng)。該方法讀入運(yùn)動圖像,從運(yùn)動圖像的各幀圖像中提取關(guān)注區(qū)域,在關(guān)注區(qū)域內(nèi)或與關(guān)注區(qū)域相鄰的區(qū)域內(nèi)提取對象特征,根據(jù)圖像的色彩特征、關(guān)注區(qū)域的對象特征以及運(yùn)動信息在各幀圖像之間的差別來檢測鏡頭剪接。該方法可以除去根據(jù)色彩分布特征和關(guān)注區(qū)域的尺寸特征而誤檢測出的鏡頭剪接,提高鏡頭剪接的檢測精度[13]。
1.2.2.4 華 為
華為技術(shù)有限公司成立于1987年,總部位于深圳,是全球領(lǐng)先的信息與通信基礎(chǔ)設(shè)施和智能終端提供商,業(yè)務(wù)遍及170多個國家和地區(qū)。華為的業(yè)務(wù)涵蓋了無線接入、固定接入、核心網(wǎng)、數(shù)據(jù)通信及終端等諸多領(lǐng)域。在視頻摘要方面,華為的專利申請主要涉及摘要生成效率和在線預(yù)覽方面的改進(jìn),舉例如下。
CN103210651A提供一種視頻概要方法和系統(tǒng)。該方法將視頻劃分成多個視頻鏡頭,對來自多個視頻鏡頭的一個視頻鏡頭中的每個幀進(jìn)行分析,確定視頻鏡頭的每個幀的顯著性,基于視頻鏡頭的每個幀的顯著性確定視頻鏡頭的關(guān)鍵幀,從關(guān)鍵幀中提取視覺特征,基于視覺特征對多個視頻鏡頭執(zhí)行鏡頭聚類以確定概念模式,使用顯著性調(diào)諧方法來融合不同的概念模式,基于全局優(yōu)化方法生成視頻的概要。該方法可以在保留視頻精彩場景的同時,實(shí)現(xiàn)足夠的信息覆蓋[14]。
CN101013444A涉及一種自適應(yīng)生成足球視頻摘要的方法和裝置。該方法接收輸入的足球視頻流,應(yīng)用基于滑動平均窗幀差的鏡頭邊界檢測方法對足球視頻流進(jìn)行鏡頭邊界檢測,得到鏡頭集;應(yīng)用基于子窗口區(qū)域的鏡頭分類方法將鏡頭集進(jìn)行鏡頭分類,對已經(jīng)分類的鏡頭集進(jìn)行精彩鏡頭檢測,將檢測到的精彩鏡頭作為視頻摘要輸出。該方法能夠提高足球視頻摘要生成的效率以及準(zhǔn)確率[15]。
CN102576248A提供一種用于在線媒體預(yù)覽的系統(tǒng)和方法。該方法從媒體文件的某個分段中提取一幀作為預(yù)覽幀,將若干個預(yù)覽幀存儲在若干個層中,向用戶傳輸媒體文件和若干個預(yù)覽幀。該方法提供了移動預(yù)覽功能,能夠?qū)㈩A(yù)覽擴(kuò)展到整個視頻,而不僅僅是視頻的已下載部分[16]。
CN101431689A提供一種生成視頻摘要的方法及裝置。該方法接收視頻文件,對視頻文件的視覺精彩度進(jìn)行處理,對視頻文件的聲音精彩度進(jìn)行處理,將滿足視覺精彩度和聲音精彩度的關(guān)聯(lián)鏡頭組聚合成視頻片段。該方法對視頻文件的視覺精彩度、聲音精彩度進(jìn)行處理,減少了特征種類,降低了計(jì)算復(fù)雜度,提高了視頻摘要生成的效率和準(zhǔn)確率[17]。
1.2.2.5 百 度
百度公司于2000年1月1日創(chuàng)立于中關(guān)村,是全球最大的中文搜索引擎公司、國際知名的大型科技互聯(lián)網(wǎng)公司。百度在深度學(xué)習(xí)技術(shù)、智能語音、自然語言處理、自動駕駛、知識圖譜及智能推薦等多個領(lǐng)域處于世界領(lǐng)先水平。百度在視頻摘要方面申請的專利主要涉及在線預(yù)覽、個性化推薦等,舉例如下。
CN103634605A提供一種視頻畫面的處理方法及裝置。該方法獲得當(dāng)前視頻的信息,根據(jù)當(dāng)前視頻的信息截取當(dāng)前視頻的關(guān)鍵畫面,關(guān)鍵畫面包括帶有完整字幕的視頻幀畫面;對關(guān)鍵畫面進(jìn)行排序,生成畫面庫;接收播放請求,根據(jù)播放請求從畫面庫中讀取對應(yīng)的關(guān)鍵畫面進(jìn)行播放。該方法在節(jié)省流量的同時,保證了在網(wǎng)絡(luò)卡頓的情況下,用戶能夠?qū)σ曨l進(jìn)行預(yù)覽,以使用戶快捷、方便、完整地了解劇情[18]。
CN109218835A提供一種精華視頻的生成方法、裝置、設(shè)備及存儲介質(zhì)。該方法獲取影視劇的劇情簡介中的劇情關(guān)鍵詞,根據(jù)劇情關(guān)鍵詞,獲取劇情關(guān)鍵詞對應(yīng)的第一劇情片段;獲取熱度滿足預(yù)設(shè)條件的第二劇情片段,第二劇情片段不同于第一劇情片段;根據(jù)第一劇情片段和第二劇情片段生成精華視頻。該方法能夠獲得拼接自然、劇情發(fā)展合乎邏輯且包括熱度較高的劇情片段的精華視頻[19]。
CN109743589A提供一種文章生成方法及裝置。該方法獲取視頻以及對應(yīng)的語音,對語音進(jìn)行識別,得到各個句子;獲取各個句子的特征信息,根據(jù)特征信息對各個句子進(jìn)行段落劃分,得到段落序列;針對段落序列中的每個段落,獲取段落中的關(guān)鍵句子;獲取關(guān)鍵句子對應(yīng)的時間段,從視頻中時間段對應(yīng)的視頻段內(nèi)選擇關(guān)鍵視頻幀作為段落對應(yīng)的圖片;根據(jù)段落序列中的各個段落以及對應(yīng)的圖片生成文章。該方法使得用戶容易選擇到想要觀看的視頻,提高了視頻播放效率[20]。
CN113660541A提供一種新聞視頻的摘要生成方法及裝置。該方法獲取新聞文本庫和待生成摘要的新聞視頻,對新聞視頻識別標(biāo)題得到原始標(biāo)題,對新聞視頻提取摘要得到新聞視頻的原始摘要;根據(jù)原始標(biāo)題、原始摘要,在新聞文本庫中檢索得到至少一篇候選新聞文本;根據(jù)原始摘要、原始標(biāo)題與至少一篇候選新聞文本的相似度,從至少一篇候選新聞文本中確定目標(biāo)新聞;根據(jù)目標(biāo)新聞,生成新聞視頻的摘要。該方法有效提高了新聞視頻摘要生成的準(zhǔn)確度[21]。
在當(dāng)前信息時代,視頻摘要技術(shù)可以降低人們在海量的視頻信息中判斷和獲取所需要的信息的成本。因此,該技術(shù)的提升蘊(yùn)含著巨大的社會價值和商業(yè)價值。為此,專利申請人們已經(jīng)圍繞視頻摘要技術(shù)進(jìn)行了大量的研究。最近幾年,該領(lǐng)域的專利申請量增長尤為顯著。由此可見,視頻摘要技術(shù)已經(jīng)是業(yè)內(nèi)的一個熱點(diǎn)。
從歷年專利申請量的變化趨勢來看,國內(nèi)視頻摘要技術(shù)相對國外來說基本同步且發(fā)展速度較快。從對專利申請人的分析來看,申請量排名靠前的以企業(yè)為主,可見,企業(yè)對視頻摘要技術(shù)的發(fā)展發(fā)揮了主要推動作用。申請排名靠前的申請人中,國內(nèi)、國外申請人占比基本持平,國內(nèi)申請人主要是以騰訊、華為、百度等為代表的國內(nèi)高新科技企業(yè),國外申請人主要是以三星、索尼、微軟等為代表的大型跨國企業(yè)。從中可以看出,在該領(lǐng)域的專利布局中,國內(nèi)企業(yè)與國外企業(yè)不相上下,勢均力敵。
視頻摘要方面的大多數(shù)專利申請主要涉及關(guān)鍵幀的選取,例如,根據(jù)不同的應(yīng)用場景選擇更合適的特征或?qū)傩赃M(jìn)行提取以及采用更合適的摘要算法。此外,還包括使摘要更個性化,例如根據(jù)用戶的偏好信息來生成視頻的標(biāo)題。近年來,公共場所和家用視頻監(jiān)控設(shè)備的數(shù)量均大幅增加,因此業(yè)界在主要應(yīng)用于安防場景的視頻摘要技術(shù),即利用視頻摘要對異常事件進(jìn)行檢測、搜索和回溯的技術(shù)方向上投入了較多的研發(fā),并有一定數(shù)量的專利申請。
最近,隨著機(jī)器學(xué)習(xí)技術(shù)的迅猛發(fā)展,專注于與深度學(xué)習(xí)算法相結(jié)合的視頻摘要技術(shù)也開始在專利申請中涌現(xiàn),如使用卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等模型來進(jìn)行分類和預(yù)測。一些與以BERT模型為代表的預(yù)訓(xùn)練技術(shù)、知識圖譜技術(shù)相結(jié)合的視頻摘要的專利申請開始出現(xiàn)。盡管目前涉及這兩個新興技術(shù)點(diǎn)的專利申請還不是很多,但也體現(xiàn)出未來的技術(shù)發(fā)展趨勢。
視頻摘要技術(shù)是當(dāng)前的熱點(diǎn)研究領(lǐng)域,已經(jīng)取得了很大的進(jìn)步,但仍然存在很多的困難與不足,例如,針對數(shù)據(jù)量大的數(shù)據(jù)集處理速度慢,模型訓(xùn)練時間長,對數(shù)據(jù)要求較高,連貫性有待提高等等?;蛟S,進(jìn)一步改進(jìn)深度學(xué)習(xí)算法,針對不同的場景進(jìn)行更加具有針對性的調(diào)整能夠改善上述問題。期待開發(fā)出性能更優(yōu)、更貼合用戶需求的視頻摘要技術(shù)。