王 敬,祝忠明(.中國科學(xué)院蘭州文獻(xiàn)情報(bào)中心;2.中國科學(xué)院大學(xué))
?
科學(xué)視頻綜合語義標(biāo)注框架構(gòu)建研究
王敬1,2,祝忠明1(1.中國科學(xué)院蘭州文獻(xiàn)情報(bào)中心;2.中國科學(xué)院大學(xué))
摘要:本研究意在構(gòu)建一個(gè)適用于科學(xué)視頻的語義標(biāo)注框架,為科學(xué)視頻的語義標(biāo)注提供策略參考。在對(duì)科學(xué)視頻進(jìn)行內(nèi)容語義和視頻結(jié)構(gòu)分析的基礎(chǔ)上,把標(biāo)注結(jié)果與關(guān)聯(lián)數(shù)據(jù)連接,并借助領(lǐng)域本體、媒體片段標(biāo)識(shí)符以及媒體資源本體等工具來完成標(biāo)注框架的構(gòu)建??茖W(xué)視頻綜合語義標(biāo)注框架可以實(shí)現(xiàn)科學(xué)視頻的結(jié)構(gòu)化、語義化瀏覽與導(dǎo)航以及科學(xué)視頻及其片段的語義檢索,并可為用戶提供與科學(xué)視頻內(nèi)容相關(guān)的豐富背景信息。
關(guān)鍵詞:科學(xué)視頻;語義標(biāo)注;關(guān)聯(lián)數(shù)據(jù);本體
隨著多媒體技術(shù)和數(shù)字圖書館技術(shù)的迅速發(fā)展以及web 2.0的廣泛普及,科學(xué)視頻已經(jīng)成為科研過程中一種非常重要的非文本(Non-Textual)學(xué)術(shù)資源??茖W(xué)視頻一般指那些用于教育,或能向大眾傳播科學(xué)的新發(fā)現(xiàn)或見解的視頻,[1]通常包含以下幾種類型:科學(xué)實(shí)驗(yàn)演示視頻﹑教學(xué)與講座視頻﹑會(huì)議與研討會(huì)展示視頻等。對(duì)科學(xué)視頻進(jìn)行保存﹑組織與開發(fā)利用已經(jīng)逐漸得到數(shù)字圖書館和科研機(jī)構(gòu)的重視。如:《JoVE》[2](Journal of Visualized Experiments,可視化實(shí)驗(yàn)期刊),是第一本致力于以視頻方式展現(xiàn)醫(yī)學(xué)和生命科學(xué)等領(lǐng)域研究過程和成果的期刊。與傳統(tǒng)以文本格式呈現(xiàn)的期刊相比,JoVE綜合多種媒體的優(yōu)勢,專注于通過視頻來完整地傳遞科學(xué)實(shí)驗(yàn)的過程,使知識(shí)傳遞更加生動(dòng)﹑直觀,并在一定程度上解決了復(fù)雜實(shí)驗(yàn)難以還原和重復(fù)進(jìn)行的問題。
面對(duì)不斷增長的科學(xué)視頻數(shù)量,通過快進(jìn)﹑快退等簡單操作瀏覽視頻的傳統(tǒng)方式已經(jīng)不適應(yīng)用戶快速攝取專業(yè)知識(shí)的需求。因此,如何實(shí)現(xiàn)對(duì)科學(xué)視頻的結(jié)構(gòu)化﹑語義化瀏覽與導(dǎo)航是當(dāng)前視頻檢索領(lǐng)域重點(diǎn)研究的問題。作為視頻檢索的必要基礎(chǔ),視頻索引問題的解決將為基于視頻數(shù)據(jù)庫和互聯(lián)網(wǎng)的搜索應(yīng)用提供基本的技術(shù)支持。基于視頻內(nèi)容分析的語義標(biāo)注,就是建立高性能視頻索引的十分有效的方法。[3]視頻的語義標(biāo)注就是為某個(gè)視頻的關(guān)鍵幀﹑鏡頭以及場景等分配相對(duì)應(yīng)的高層語義概念,以反映視頻的真實(shí)內(nèi)容。
本文綜合考慮科學(xué)視頻的音頻特征與結(jié)構(gòu)特征,在語音分析與視頻分割的基礎(chǔ)上,引入關(guān)聯(lián)開放數(shù)據(jù)﹑媒體片段標(biāo)識(shí)符以及媒體資源本體等機(jī)制,提出一種針對(duì)科學(xué)視頻的綜合語義標(biāo)注框架,并討論框架各個(gè)組件的具體實(shí)現(xiàn)方法。
僅使用某一種視頻特征進(jìn)行語義標(biāo)注的方法往往不能夠獲得良好的標(biāo)注效果,因此有學(xué)者嘗試綜合利用視頻的多種特征(語音﹑視覺與文本等)來對(duì)視頻進(jìn)行更加全面﹑準(zhǔn)確的標(biāo)注。如:文獻(xiàn)[4]從視頻創(chuàng)作者的角度提出了一種基于多模態(tài)(視覺﹑音頻﹑文本)的視頻數(shù)據(jù)標(biāo)注框架;文獻(xiàn)[5]從視頻的視覺﹑音頻以及文本信息的分析入手,構(gòu)建了一個(gè)音樂視頻標(biāo)注系統(tǒng);德國國家科學(xué)圖書館的音視頻搜索引擎AV-Portal利用場景﹑語音﹑文本以及圖片的識(shí)別技術(shù)實(shí)現(xiàn)了對(duì)科學(xué)視頻資源的自動(dòng)語義標(biāo)注。[6]以上視頻的語義標(biāo)注方法幾乎都是在一個(gè)封閉的環(huán)境中實(shí)現(xiàn)的,并且還只停留在概念級(jí)別,對(duì)視頻的背景信息,如視頻中的人物﹑事件﹑地點(diǎn)等信息的表達(dá)有限。
也有一些研究為了能夠給視頻提供豐富的背景信息,嘗試把視頻的標(biāo)注內(nèi)容與關(guān)聯(lián)開放數(shù)據(jù)連接在一起。如:BBC(英國廣播公司)將節(jié)目以及音樂數(shù)據(jù)與關(guān)聯(lián)開放數(shù)據(jù)源DBpedia和MusicBrainz進(jìn)行連接。[7]Balthasar等[8]為了實(shí)現(xiàn)TV與網(wǎng)絡(luò)內(nèi)容的連接,使用自然語義處理工具抽取TV內(nèi)容中的命名實(shí)體并將其與關(guān)聯(lián)數(shù)據(jù)源進(jìn)行映射。這些研究雖然把視頻的標(biāo)注與關(guān)聯(lián)數(shù)據(jù)連接到了一起,但是它們所標(biāo)注的是整個(gè)視頻資源而不是視頻片段,而且標(biāo)注的視頻對(duì)象也不包含本文所討論的科學(xué)視頻。
本文構(gòu)建的科學(xué)視頻綜合語義標(biāo)注框架所要實(shí)現(xiàn)的應(yīng)用場景主要有以下幾個(gè)方面。
(1)實(shí)現(xiàn)科學(xué)視頻的結(jié)構(gòu)化﹑語義化瀏覽與導(dǎo)航。用戶在瀏覽科學(xué)視頻時(shí),可以根據(jù)視頻摘要(以關(guān)鍵幀為單位的視頻結(jié)構(gòu)目錄)直接定位至所要查看的關(guān)鍵幀,或者根據(jù)識(shí)別出的語義概念定位至與該概念相對(duì)應(yīng)的關(guān)鍵幀,使用戶徹底從傳統(tǒng)的視頻拖拽方式中解放出來。
(2)實(shí)現(xiàn)科學(xué)視頻及其片段的語義化檢索。用戶使用語義概念檢索科學(xué)視頻時(shí),檢索結(jié)果不但包含與檢索主題相關(guān)的整段科學(xué)視頻,而且還包含與主題相關(guān)的科學(xué)視頻片段。用戶可以根據(jù)科學(xué)視頻或視頻片段的URI直接定位到所要查看的內(nèi)容。
(3)為用戶提供與科學(xué)視頻內(nèi)容相關(guān)的豐富背景信息。通過引入關(guān)聯(lián)數(shù)據(jù),用戶在瀏覽科學(xué)視頻內(nèi)容時(shí),根據(jù)瀏覽內(nèi)容的不同,系統(tǒng)將展示與當(dāng)前瀏覽內(nèi)容相關(guān)的所有信息,從而豐富用戶獲取信息的體驗(yàn)。
科學(xué)視頻可以重現(xiàn)科學(xué)研究過程﹑縮短科研周期﹑減少資源浪費(fèi),從而提高科學(xué)研究以及知識(shí)獲取的效率。如:JoVE可以還原科學(xué)實(shí)驗(yàn)的完整過程,知識(shí)傳遞也更加生動(dòng);另外還可以利用教學(xué)視頻學(xué)習(xí)專業(yè)知識(shí),利用會(huì)議視頻了解研究領(lǐng)域前沿動(dòng)態(tài)等。這些典型的科學(xué)視頻是科學(xué)研究以及學(xué)習(xí)過程中的寶貴資源,它可以以一種生動(dòng)﹑直觀﹑高效的方式傳播科學(xué)知識(shí),為用戶提供一種身臨其境的學(xué)習(xí)以及研究體驗(yàn)。隨著這些科學(xué)視頻資源數(shù)量的快速增長,對(duì)其進(jìn)行存儲(chǔ)﹑組織﹑檢索與利用顯得愈發(fā)重要。而對(duì)科學(xué)視頻進(jìn)行語義標(biāo)注是實(shí)現(xiàn)科學(xué)視頻有效組織與利用的重要過程??茖W(xué)視頻有其獨(dú)有的特征,在進(jìn)行語義標(biāo)注時(shí)需要根據(jù)視頻的特征并結(jié)合傳統(tǒng)視頻語義標(biāo)注方法進(jìn)行。標(biāo)注通過對(duì)不同類型科學(xué)視頻的分析,可以發(fā)現(xiàn)它們具有幾個(gè)共同特征。
(1)科學(xué)視頻一般都包含語音,語音所表達(dá)的重要信息通常聚焦于某個(gè)特定的領(lǐng)域。如:講述物理實(shí)驗(yàn)過程的視頻會(huì)涉及“physics”﹑“mechanics”等詞匯;多媒體會(huì)議中會(huì)使用“CBIR”﹑“index”等詞匯。這也是科學(xué)視頻不同于其他視頻的顯著特征之一。其他視頻所包含的語音信息表達(dá)的內(nèi)容廣泛,不涉及特定的學(xué)科領(lǐng)域,如:新聞視頻﹑音樂視頻﹑電影等。
(2)科學(xué)視頻內(nèi)容的邏輯單元一般比較明確,視頻鏡頭或場景的變化往往伴隨著視頻主要內(nèi)容的變化。如:教學(xué)視頻中某一章節(jié)的開始或結(jié)束;研討會(huì)視頻中某個(gè)參會(huì)者演講的開始與完成。
(3)從用戶角度看,科學(xué)視頻所涉及的大多是專業(yè)領(lǐng)域的知識(shí),一般用戶對(duì)相關(guān)知識(shí)的理解較難。因此,用戶希望在觀看視頻時(shí)能方便﹑快捷地獲取與視頻內(nèi)容相關(guān)的領(lǐng)域概念的擴(kuò)展解釋﹑視頻中所包含的人物﹑機(jī)構(gòu)以及地點(diǎn)等信息,以更好地理解視頻所表達(dá)的內(nèi)容。
為了實(shí)現(xiàn)第2節(jié)所述的應(yīng)用場景,針對(duì)科學(xué)視頻的特征,本文所構(gòu)建的科學(xué)視頻綜合語義標(biāo)注模型如圖1所示。①語義分析,提取出語義概念;②結(jié)構(gòu)分析,形成具有標(biāo)識(shí)符與語義關(guān)系的視頻片段;③語義標(biāo)注,并將語義標(biāo)注的結(jié)果與關(guān)聯(lián)數(shù)據(jù)連接在一起。
圖1 科學(xué)視頻綜合語義標(biāo)注模型
3.1科學(xué)視頻內(nèi)容語義分析
科學(xué)視頻內(nèi)容語義分析就是在對(duì)視頻語音進(jìn)行識(shí)別的基礎(chǔ)上,從中抽取出視頻所包含的可被人類理解的高層語義概念。這些語義概念是實(shí)現(xiàn)語義化瀏覽與檢索的基礎(chǔ)??茖W(xué)視頻一般都包含高質(zhì)量的語音信息,而且語音所表達(dá)的內(nèi)容一般涉及某個(gè)特定的領(lǐng)域。因此,可以利用相對(duì)應(yīng)的領(lǐng)域本體對(duì)科學(xué)視頻中的語音信息進(jìn)行概念識(shí)別(如圖2)。
圖2 科學(xué)視頻內(nèi)容語義分析框架
3.1.1語音識(shí)別與文本信息處理
語音識(shí)別就是借助成熟的語音識(shí)別技術(shù)(Automatic Speech Recognition)自動(dòng)將視頻的語音信息轉(zhuǎn)化為文本信息。雖然語音識(shí)別會(huì)受到噪音等因素的影響,但是語音信息依舊是表達(dá)視頻內(nèi)容語義的最佳選擇,如文獻(xiàn)[9]利用語音信息實(shí)現(xiàn)了對(duì)新聞視頻的語義標(biāo)注。
語音識(shí)別以后,需要對(duì)形成的語音文本信息進(jìn)行分句﹑分詞等預(yù)處理。為了實(shí)現(xiàn)對(duì)視頻內(nèi)容中所涉及的人物﹑地點(diǎn)以及機(jī)構(gòu)等的標(biāo)注,就需要對(duì)預(yù)處理后的文本進(jìn)行命名實(shí)體識(shí)別(NER),根據(jù)MUC的評(píng)測結(jié)果,英文命名實(shí)體識(shí)別的召回率與準(zhǔn)確率都已達(dá)到90%以上。如:文獻(xiàn)[10]利用NER工具ANNIE實(shí)現(xiàn)了對(duì)文本中人物﹑地點(diǎn)等實(shí)體的識(shí)別。
在識(shí)別命名實(shí)體后,需進(jìn)行標(biāo)記,以備后續(xù)處理。選擇與科學(xué)視頻內(nèi)容相對(duì)應(yīng)的領(lǐng)域本體,并將其作為詞典,識(shí)別出已標(biāo)記文本信息中包含的領(lǐng)域概念。通常采用關(guān)鍵詞匹配或計(jì)算詞語間語義距離的方法識(shí)別相關(guān)概念。如:文獻(xiàn)[11]使用地學(xué)領(lǐng)域的SWEET本體實(shí)現(xiàn)了對(duì)地學(xué)領(lǐng)域?qū)I(yè)文檔的自動(dòng)語義標(biāo)注。在概念識(shí)別的過程中,為了提高標(biāo)注的準(zhǔn)確性,還需要對(duì)文檔中的概念進(jìn)行語義消歧與擴(kuò)展。[12]
為了使標(biāo)注結(jié)果能夠被計(jì)算機(jī)廣泛的處理,需要采用RDF資源描述框架把領(lǐng)域本體識(shí)別后的結(jié)果映射為RDF三元組,然后以RDF/XML的形式表示映射結(jié)果。為了實(shí)現(xiàn)標(biāo)注的結(jié)果與視頻片段的同步,還需要在RDF/XML文檔中加入時(shí)間戳。
3.1.2標(biāo)注結(jié)果與關(guān)聯(lián)開放數(shù)據(jù)云連接
如第2節(jié)所述,當(dāng)前一些研究已經(jīng)嘗試把視頻的標(biāo)注與關(guān)聯(lián)數(shù)據(jù)連接,但是這些研究標(biāo)注的是整個(gè)視頻資源而不是視頻片段。本文所探討的是如何提供視頻片段級(jí)別的語義標(biāo)注,并把這些標(biāo)注與關(guān)聯(lián)數(shù)據(jù)進(jìn)行連接,進(jìn)而為用戶提供與科學(xué)視頻內(nèi)容相關(guān)的所有背景信息。如:視頻內(nèi)容中的人物﹑地點(diǎn)﹑領(lǐng)域概念的詳細(xì)信息等。
自2007年W3C啟動(dòng)了關(guān)聯(lián)開放數(shù)據(jù)(LOD)[13]項(xiàng)目以來,LOD關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)的規(guī)模增長十分迅速。截至2014年4月,LOD云已包含超過300億個(gè)“RDF三元組”以及295個(gè)數(shù)據(jù)集。[14]其包含的領(lǐng)域與內(nèi)容也逐步擴(kuò)展,從早期的地理信息﹑生命科學(xué)數(shù)據(jù)﹑百科詞條等,發(fā)展到目前涉及媒體﹑出版﹑政府信息﹑用戶信息等內(nèi)容,幾乎涵蓋了所有的領(lǐng)域。以關(guān)聯(lián)開放數(shù)據(jù)中的核心數(shù)據(jù)源DBpedia為例,它從網(wǎng)絡(luò)百科全書Wikipedia中抽取結(jié)構(gòu)化信息,內(nèi)容包含了物理﹑化學(xué)﹑生物學(xué)等幾乎所有科學(xué)領(lǐng)域。
因此,關(guān)聯(lián)數(shù)據(jù)源可以為科學(xué)視頻的內(nèi)容提供豐富﹑詳細(xì)的背景信息。把標(biāo)注結(jié)果與關(guān)聯(lián)開放數(shù)據(jù)進(jìn)行云鏈接后,用戶在瀏覽科學(xué)視頻或視頻片段時(shí),系統(tǒng)就可以根據(jù)視頻內(nèi)容的不同,展示與當(dāng)前瀏覽內(nèi)容相關(guān)的所有信息。從LOD云中獲取的數(shù)據(jù)本身已是RDF格式,可直接與語音識(shí)別與處理后形成的RDF/XML文檔進(jìn)行連接與融合。
3.2科學(xué)視頻結(jié)構(gòu)分析
對(duì)科學(xué)視頻進(jìn)行結(jié)構(gòu)分析是實(shí)現(xiàn)科學(xué)視頻結(jié)構(gòu)化﹑語義化瀏覽與導(dǎo)航的關(guān)鍵。結(jié)構(gòu)分析就是利用相關(guān)原理與技術(shù)把科學(xué)視頻分割為邏輯單元明確的視頻片段,如關(guān)鍵幀﹑鏡頭以及場景等。把視頻結(jié)構(gòu)化,就如同給一本書配上簡介與目錄,用戶不必瀏覽整本書就可以知道這本書的主要內(nèi)容,并能快速找到感興趣的內(nèi)容。傳統(tǒng)的視頻結(jié)構(gòu)化只是在視頻分割的基礎(chǔ)上構(gòu)建視頻結(jié)構(gòu)本體,如:文獻(xiàn)[15,16]。由于缺乏對(duì)視頻片段的標(biāo)識(shí)與關(guān)聯(lián),視頻片段并沒有成為獨(dú)立的語義對(duì)象被用戶檢索與瀏覽。另外,由于缺乏一種對(duì)視頻資源的內(nèi)容﹑元數(shù)據(jù)以及視頻資源片段之間關(guān)系進(jìn)行正式﹑通用描述的方案,以上研究所構(gòu)建的視頻結(jié)構(gòu)本體也不具有通用性。本文使用W3C媒體片段工作組所發(fā)布的媒體片段標(biāo)識(shí)符(Media Fragments URI 1.0)[17]來標(biāo)識(shí)科學(xué)視頻片段,并使用W3C媒體標(biāo)注工作組發(fā)布的媒體資源本體(Ontology for Media Resources 1.0)[18]來描述科學(xué)視頻資源的內(nèi)容﹑元數(shù)據(jù)以及視頻片段之間的關(guān)系(如圖3)。
圖3 科學(xué)視頻結(jié)構(gòu)分析
3.2.1科學(xué)視頻分割
科學(xué)視頻內(nèi)容的邏輯單元一般比較明確,視頻鏡頭或場景的變化往往伴隨著視頻主要內(nèi)容的變化,如科學(xué)實(shí)驗(yàn)視頻某個(gè)步驟的開始與完成等。因此,可以根據(jù)這些明確的邏輯單元把視頻分割為關(guān)鍵幀﹑鏡頭﹑場景三個(gè)層次。關(guān)鍵幀用于描述一個(gè)鏡頭的關(guān)鍵圖像幀,通常最能反映一個(gè)鏡頭的主要內(nèi)容,是視頻的最小邏輯單位;鏡頭是指一臺(tái)拍攝設(shè)備從打開至關(guān)閉期間所拍攝的一連串幀序列,是彼此獨(dú)立的邏輯片段;場景由語義上相關(guān)和時(shí)間上相鄰的若干鏡頭組成,它反映了視頻較高層次的語義內(nèi)容。
在視頻分割過程中,首先經(jīng)過鏡頭邊界探測,把視頻分割成一個(gè)一個(gè)的鏡頭,實(shí)現(xiàn)對(duì)每個(gè)鏡頭的關(guān)鍵幀提取。在鏡頭單元的基礎(chǔ)上,通過聚類,得到視頻場景。在進(jìn)行鏡頭邊界探測時(shí),顏色直方圖比較法是當(dāng)前一種應(yīng)用較多﹑簡單有效的方法。場景邊界的探測可以結(jié)合視頻的內(nèi)容以及鏡頭邊界探測的方法完成。提取關(guān)鍵幀時(shí),可以在每一個(gè)分割好的鏡頭中通過比較幀圖片與關(guān)鍵幀集合中的關(guān)鍵幀之間的直方圖交集,選擇多個(gè)關(guān)鍵幀代表每個(gè)鏡頭。[19]
3.2.2科學(xué)視頻及其片段標(biāo)識(shí)
標(biāo)識(shí)科學(xué)視頻資源及其片段,是實(shí)現(xiàn)科學(xué)視頻及其片段語義檢索的關(guān)鍵。用戶在檢索科學(xué)視頻時(shí),系統(tǒng)展示的是與檢索主題相關(guān)的整個(gè)視頻資源以及視頻片段,并且這些視頻資源以及視頻片段具有獨(dú)立的URI,用戶可以直接點(diǎn)擊相應(yīng)的URI來瀏覽相關(guān)的視頻片段(關(guān)鍵幀﹑鏡頭與場景)。這樣科學(xué)視頻片段就成為一個(gè)獨(dú)立的語義對(duì)象而被用戶處理與檢索,從而促進(jìn)當(dāng)前以及未來網(wǎng)絡(luò)基礎(chǔ)設(shè)施中對(duì)這些視頻片段的再利用。2012年9月,W3C媒體片段工作組發(fā)布了Media Fragments URI 1.0(basic),分別從時(shí)間﹑空間等維度實(shí)現(xiàn)了對(duì)媒體片段的標(biāo)識(shí)。媒體片段(Media Fragments)是指根據(jù)不同維度把媒體資源劃分為不同的片段。如:根據(jù)時(shí)間維度可把一個(gè)完整的視頻劃分為一個(gè)個(gè)視頻片段,或者根據(jù)空間維度把視頻分割為一張張圖片等。
時(shí)間維度(Temporal axis):指源媒體的一個(gè)特定的時(shí)間范圍,如“從10秒開始,至20秒結(jié)束”。時(shí)間片段由標(biāo)識(shí)符“t”表示,如:http://example.com/video. mp4#t=20,90,表示20秒至90秒的視頻片段。因此,使用時(shí)間維度可以實(shí)現(xiàn)對(duì)科學(xué)視頻場景以及視頻鏡頭的標(biāo)識(shí)。
空間維度(Spatial axis):表示源媒體資源中一個(gè)特殊的空間矩形,該矩形可被指定為像素坐標(biāo)或者百分比。使用標(biāo)識(shí)符x﹑y﹑w﹑h來表示,(x,y)表示矩形左上角的一個(gè)坐標(biāo)點(diǎn),w,h分別表示矩形的寬度與高度,如:http://example.com/video.mp4#xywh=pixel:160,120, 320,240(像素)。空間維度一般用于標(biāo)識(shí)靜態(tài)的視頻畫面或普通的圖片,所以,可以用空間維度來標(biāo)識(shí)科學(xué)視頻的關(guān)鍵幀。
在對(duì)科學(xué)視頻的關(guān)鍵幀﹑鏡頭以及場景成功標(biāo)識(shí)以后,科學(xué)視頻片段就成為一個(gè)個(gè)獨(dú)立﹑可檢索的語義對(duì)象。用戶在不用找到源視頻的情況下就可以實(shí)現(xiàn)對(duì)科學(xué)視頻片段的瀏覽﹑檢索﹑分享以及重用。
3.2.3媒體資源本體
為了解決搜索與標(biāo)注相關(guān)媒體資源時(shí)所出現(xiàn)的不同元數(shù)據(jù)格式之間的交互性問題,并能以一種通用的框架對(duì)多媒體內(nèi)容的語法以及語義特征進(jìn)行描述與表示,W3C媒體標(biāo)注工作組(Media Annotation Working Group)在2012年2月開發(fā)完成了“媒體資源本體1.0”(OntologyforMediaResources1.0)。媒體資源本體定義了一組用于描述多媒體內(nèi)容的最小標(biāo)注屬性集,以及一組這些屬性與當(dāng)前主要元數(shù)據(jù)格式之間的映射集(如圖4)。
圖4 媒體資源本體1.0類模型[20]
媒體資源本體分別定義了專門描述媒體特征的媒體類集(Media-specific class):MediaResource﹑MediaFragment﹑Collection等;非媒體類集(Nonmedia class):A-gent﹑Rating﹑Location等。為了表征類之間的特征與關(guān)系,本體還定義了描述類之間關(guān)系(如:hasFragment)的對(duì)象屬性(ObjectProperties)與描述每個(gè)類固有特征(如:視頻資源的Identifier與Title等)的數(shù)據(jù)屬性(DataProperties)。
媒體資源本體不但可以以一種正式﹑通用的方式對(duì)不同類型的視頻資源的內(nèi)容與元數(shù)據(jù)進(jìn)行描述,而且還可以清晰﹑明確地表征視頻資源對(duì)象之間的關(guān)系。如:視頻資源與其片段的關(guān)系,視頻資源對(duì)象與其固有屬性之間的關(guān)系等。因此,在完成科學(xué)視頻的分割與視頻片段的標(biāo)識(shí)后,就可以把已分割﹑具有標(biāo)識(shí)符的視頻片段與媒體資源本體進(jìn)行映射(如圖5)。
圖5 映射模型
在完成映射以后,一方面,科學(xué)視頻資源及其片段之間就具有了語義關(guān)聯(lián),系統(tǒng)為用戶呈現(xiàn)的檢索結(jié)果是具有語義關(guān)系﹑互相連接在一起的科學(xué)視頻資源對(duì)象;另一方面,科學(xué)視頻資源對(duì)象本身也具有了通用的元數(shù)據(jù)描述方案,解決了不同格式元數(shù)據(jù)的交互性問題。
3.3科學(xué)視頻綜合語義標(biāo)注框架
科學(xué)視頻內(nèi)容的語義分析主要是識(shí)別出語音中所包含的領(lǐng)域概念以及命名實(shí)體,并把這些識(shí)別出的語義概念與關(guān)聯(lián)開放數(shù)據(jù)進(jìn)行連接,從而為科學(xué)視頻內(nèi)容提供更多的背景信息,豐富用戶獲取視頻信息的體驗(yàn)??茖W(xué)視頻的結(jié)構(gòu)分析主要是在視頻分割的基礎(chǔ)上,使用媒體片段標(biāo)識(shí)符對(duì)科學(xué)視頻片段進(jìn)行標(biāo)識(shí),并利用媒體資源本體表征科學(xué)視頻對(duì)象之間以及視頻對(duì)象與其屬性之間的關(guān)系。這樣不但可以使視頻片段作為獨(dú)立的語義對(duì)象而被用戶檢索到,而且還可以使用戶結(jié)構(gòu)化﹑語義化地瀏覽科學(xué)視頻。在科學(xué)視頻的內(nèi)容語義分析與結(jié)構(gòu)分析完成以后,就需要把語義分析后的形成的RDF/XML文件與結(jié)構(gòu)分析后形成的映射模型進(jìn)行映射,也就是最后階段的語義標(biāo)注。由于RDF/XML文件與映射模型中都包含視頻的時(shí)間信息,因此可以根據(jù)科學(xué)視頻的時(shí)間軸,完成RDF/XML與映射模型的最后映射,最終完成科學(xué)視頻的語義標(biāo)注(如圖6)所示。
圖6 科學(xué)視頻綜合語義標(biāo)注框架
在分析科學(xué)視頻特征的基礎(chǔ)上,著重從視頻片段級(jí)別實(shí)現(xiàn)對(duì)科學(xué)視頻的綜合語義標(biāo)注。在語音識(shí)別與視頻分割的基礎(chǔ)上,引入關(guān)聯(lián)開放數(shù)據(jù),為科學(xué)視頻提供豐富的背景信息;使用媒體片段標(biāo)識(shí)符標(biāo)識(shí)視頻片段,使其成為獨(dú)立的語義對(duì)象,從而提高視頻片段在網(wǎng)絡(luò)上的可見性與可檢索性;使用媒體資源本體描述視頻資源的內(nèi)容﹑元數(shù)據(jù)以及視頻片段之間的關(guān)系。模型中每個(gè)過程的具體實(shí)現(xiàn)將是后續(xù)研究的重點(diǎn)內(nèi)容之一。
[參考文獻(xiàn)]
[1]LeeD,et al.LeeDeo:Web-Crawled Academic Video Search Engine[C]//Proceedings of the 10th IEEE International Symposium on Multimedia,Berkeley,CA. IEEE,2008:497-502.
[2]JoVE[EB/OL].[2014-10-08].http://www.jove. com/.
[3]宋彥.視頻語義標(biāo)注方法和理論的研究[D].合肥:中國科學(xué)技術(shù)大學(xué), 2006.
[4]Snoek C G M,Worring M.Multimodal Video Indexing:A Review of the State-of-the-art[J].Multimedia Tools and Applications,2005,25(1):5-35.
[5]XuC,etal.AutomaticMusicVideoSummarizationBased on Audio-Visual-Text Analysis and Alignment[C]//Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval,Salvador,Brazil. New York:ACM,2005:361-368.
[6]Neumann J,Plank M.TIB’s Portal for audiovisual media:New ways of indexing and retrieval[J].IFLA Jour-nal,2014(40):17-23.
[7]Kobilarov G,et al.Media Meets Semantic Web How the BBC Uses DBpedia and Linked Data to Make Connections [C]//Proceedingsofthe 6th European Semantic Web Conference,Crete,Greece.BerlinHeidelberg:Springer,2009:723-737.
[8]Schopman B,etal.NoTube:makingtheWebpartofpersonalised TV[C]//Proceedings of the Web Science Conference 2010,NC,USA.Raleigh:Web,2010:1-8.
[9]Küük D, Yazc A.Exploiting information extraction techniques for automatic semantic video indexing with an application to Turkish news videos[J].Knowledge-Based Systems,2011,24(6):844-857.
[10]Damljanovic D,Bontcheva K.Named Entity Disambiguation using Linked Data[C]//Proceedings of the 4th International Workshop on Semantic Web Information Management, Arizona, USA. NY, USA: ACM, 2012:1-7.
[11]姚曉娜,祝忠明.面向地學(xué)領(lǐng)域的自動(dòng)語義標(biāo)注研究[J].現(xiàn)代圖書情報(bào)技術(shù), 2013(4):48-53.
[12]老松楊,等.基于領(lǐng)域本體的新聞視頻檢索[J].小型微型計(jì)算機(jī)系統(tǒng), 2007, 28(8):1470-1476.
[13]LOD[EB/OL].[2015-03-31].http://www.w3. org/wiki/SweoIG/TaskForces/CommunityProjects/Linking OpenData.
[14]State of the LOD Cloud[EB/OL].[2015-04-22]. http://lod-cloud.net/state/.
[15]陸琳睿.一種基于本體的視頻檢索方法[J].西南大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,30(11):119-124.
[16]Bagdanov A D,et al.Semantic annotation and retrieval of video events using multimedia ontologies[C]//Proceedingsofthe2007 International Conferenceon Semantic Computing,California,USA.Washington:IEEE ComputerSociety,2007:713-720.
[17]Media Fragments URI 1.0(basic)[EB/OL].[2015 -04-01].http://www.w3.org/TR/media-frags/.
[18]Ontology for Media Resources 1.0[EB/OL]http://www. w3.org/TR/mediaont-10/.
[19]劉娟.視頻分割與目錄生成研究與實(shí)現(xiàn)[D].成都:電子科技大學(xué), 2012.
[20]Stegmaier F,et al.Unified Access to Media Metadata onthe Web[J].IEEE MultiMedia,2013,20(2):22-29.
動(dòng)態(tài)·資料
首屆“書香銀川·悅讀精彩”新年讀書節(jié)開幕
(本刊訊)2015年12月30日,由寧夏銀川市文化新聞出版廣電局主辦、銀川市圖書館承辦的首屆“書香銀川·悅讀精彩”新年讀書節(jié)在銀川市美術(shù)館啟動(dòng)。本屆讀書節(jié)歷時(shí)5天。
開幕式上,銀川市圖書館館長強(qiáng)朝輝宣布了銀川市公共圖書館全面啟動(dòng)二代身份證免押金借閱圖書。同時(shí),銀川市公共文化數(shù)字服務(wù)平臺(tái)正式上線運(yùn)行。銀川市圖書館和銀川市書報(bào)刊協(xié)會(huì)向銀川監(jiān)獄、興慶區(qū)月湖鄉(xiāng)李學(xué)虎愛心書屋及紅寺堡新莊集小學(xué)捐贈(zèng)了2000余冊(cè)圖書。
本屆讀書節(jié)精彩紛呈,在5天的時(shí)間里,共有18項(xiàng)主題活動(dòng),包括精品圖書優(yōu)惠展銷、作家簽名售書、“書香銀川·悅讀精彩”讀書專題報(bào)告會(huì)、首屆“寧蒙陜甘青圖書館數(shù)字化發(fā)展論壇”、“銀川公共文化數(shù)字平臺(tái)”演示、“書香銀川·悅讀精彩”主題朗誦欣賞會(huì)、“共享陽光愛心助盲”新年聯(lián)誼會(huì)、“筆下中華”漢字聽寫大會(huì)、“悅讀書·悅動(dòng)手”親子趣味做手工活動(dòng)、“悅讀精彩·開卷有益”讀書沙龍活動(dòng)、“我行我塑”黏土DIY大賽、讀書節(jié)尋寶活動(dòng)“大家來找字”等,內(nèi)容豐富、形式多樣、啟迪智慧、寓教于樂,引導(dǎo)廣大市民好讀書,讀好書,在全市形成新一輪的閱讀熱潮。
讀書節(jié)上,為了讓更多的市民了解數(shù)字圖書館,更好地利用數(shù)字資源,銀川市圖書館還邀請(qǐng)了北京超星集團(tuán)、同方知網(wǎng)、北京新東方、武漢博看期刊數(shù)據(jù)庫及北京愛迪科森教育科技股份有限公司等數(shù)字資源商家,現(xiàn)場介紹和演示各類數(shù)字資源的利用。
(戴茜張婕)
Study on Framework Construction of Comprehensive Semantic Annotation for Scientific Video
Wang Jing,Zhu Zhong-ming
Abstract:This paper aims to design a framework of comprehensive semantic annotation for scientific video and provides proposals for semantic annotation of scientific videos.By analyzing the semantics and structure of scientific video, we associate the annotation with Linked data and use the Domain Ontology, Media Fragments URI and Ontology for Media Resources to constructe the framework. With this framework,users can browse the scientific video by its semantics and structure. The framework can implement the semantic retrieval ofscientific video and its fragments andprovide abundant relatedinformation about the scientific video for the users.
Keywords:Scientific Video;Semantic Annotation;Linked Data;Ontology
[收稿日期]2015-08-27[責(zé)任編輯]劉丹
[作者簡介]祝忠明(1968-),男,中國科學(xué)院蘭州文獻(xiàn)情報(bào)中心研究員,博士生導(dǎo)師,研究方向:數(shù)字圖書館系統(tǒng);王敬(1988-),男,中國科學(xué)院大學(xué)2013級(jí)碩士研究生,研究方向:數(shù)字圖書館技術(shù)。
[基金項(xiàng)目]本文系中國科學(xué)院規(guī)劃與決策科技支持系統(tǒng)建設(shè)基金項(xiàng)目“機(jī)構(gòu)知識(shí)庫NTM支持工具集”(項(xiàng)目編號(hào):y4ZG071001)的研究成果之一。
中圖分類號(hào):G254;G254.927
文獻(xiàn)標(biāo)志碼:B
文章編號(hào):1005-8214(2016)01-0050-06