• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)字圖書(shū)館跨媒體檢索技術(shù)研究

      2014-12-31 09:13:26劉忠寶賈君枝趙文娟
      圖書(shū)館論壇 2014年12期
      關(guān)鍵詞:跨媒體異構(gòu)關(guān)聯(lián)

      劉忠寶,賈君枝,趙文娟

      多媒體檢索技術(shù)是數(shù)字圖書(shū)館的關(guān)鍵技術(shù)之一。隨著多媒體數(shù)據(jù)量不斷增長(zhǎng),如何從中發(fā)現(xiàn)有用知識(shí)成為熱點(diǎn)。多媒體檢索技術(shù)在實(shí)際應(yīng)用中顯示出優(yōu)勢(shì),但“語(yǔ)義鴻溝”問(wèn)題并未得到有效解決??缑襟w檢索的出現(xiàn)促進(jìn)了信息檢索技術(shù)的發(fā)展,充分利用網(wǎng)頁(yè)、圖像、音頻、視頻等數(shù)據(jù),通過(guò)建立多媒體數(shù)據(jù)之間的交叉關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)真正意義上的語(yǔ)義檢索??缑襟w技術(shù)的進(jìn)一步發(fā)展及其在數(shù)字圖書(shū)館建設(shè)中的推廣應(yīng)用,將從根本上提升數(shù)字圖書(shū)館的信息檢索能力以及用戶的滿意度。

      1 數(shù)字圖書(shū)館多媒體資源及其交叉關(guān)聯(lián)關(guān)系

      數(shù)字圖書(shū)館的多媒體資源規(guī)模龐大且形式多樣,其中文本、圖像、音頻、視頻、3D 模型和動(dòng)畫(huà)等多媒體資源出現(xiàn)新特點(diǎn):(1)多種媒體數(shù)據(jù)共同存在;(2)媒體數(shù)據(jù)的組織結(jié)構(gòu)多樣;(3)不同媒體數(shù)據(jù)語(yǔ)義表達(dá)的一致性;(4)多種媒體數(shù)據(jù)之間緊密聯(lián)系。數(shù)據(jù)媒體之間存在四種交叉關(guān)聯(lián)關(guān)系:(1)文本內(nèi)或文本間所包含對(duì)象的交叉關(guān)聯(lián);(2)各類型多媒體數(shù)據(jù)所包含對(duì)象的交叉關(guān)聯(lián);(3)用戶在檢索過(guò)程中提供的標(biāo)注、評(píng)價(jià)、日志等交換信息之間的交叉關(guān)聯(lián);(4)各類型多媒體數(shù)據(jù)與用戶之間的交叉關(guān)聯(lián)。上述交叉關(guān)聯(lián)關(guān)系見(jiàn)圖1。各類型多媒體數(shù)據(jù)之間存在的語(yǔ)義關(guān)聯(lián)關(guān)系對(duì)于整合網(wǎng)上資源、實(shí)現(xiàn)個(gè)性化檢索具有重要意義。

      2 數(shù)字圖書(shū)館與跨媒體檢索

      圖1 網(wǎng)絡(luò)資源、用戶和檢索行為之間的關(guān)聯(lián)示意圖

      數(shù)字圖書(shū)館是傳統(tǒng)圖書(shū)館在信息時(shí)代進(jìn)一步發(fā)展的產(chǎn)物,不僅具有藏書(shū)和提供電子資源的功能,而且還具有向公眾提供綜合信息服務(wù)的功能。隨著數(shù)字圖書(shū)館應(yīng)用的不斷深入,其面臨的知識(shí)表達(dá)和檢索方式問(wèn)題日益凸顯:當(dāng)前數(shù)字圖書(shū)館主要面向用戶提供閱讀服務(wù),其檢索機(jī)制多以關(guān)鍵詞檢索為主,缺乏語(yǔ)義理解能力,存在“語(yǔ)義鴻溝”問(wèn)題,從而限制了信息服務(wù)水平的提升。為了解決上述問(wèn)題,研究人員提出跨媒體檢索??缑襟w檢索是指信息檢索系統(tǒng)在多媒體檢索基礎(chǔ)上通過(guò)對(duì)各種媒體特征的分析,綜合利用其內(nèi)在語(yǔ)義聯(lián)系,對(duì)具有相同或相近語(yǔ)義的信息進(jìn)行不同媒體表示形式的處理,從而實(shí)現(xiàn)數(shù)字圖書(shū)館多媒體資源的有效存儲(chǔ)和精確檢索??缑襟w檢索的工作機(jī)理與人類認(rèn)識(shí)世界的方式相似,即人類利用多種感覺(jué)器官認(rèn)識(shí)世界并通過(guò)融合多種感知信息來(lái)加深對(duì)世界的認(rèn)識(shí)。在進(jìn)行跨媒體檢索時(shí),用戶只需將某一媒體信息作為檢索項(xiàng),數(shù)字圖書(shū)館信息檢索系統(tǒng)便會(huì)返回語(yǔ)義相同或相近各類型多媒體信息。隨著跨媒體檢索研究的不斷深入,數(shù)字圖書(shū)館檢索系統(tǒng)面臨的“語(yǔ)義鴻溝”問(wèn)題終將得到解決。

      3 數(shù)字圖書(shū)館跨媒體檢索技術(shù)

      3.1 從多媒體檢索到跨媒體檢索

      為解決早期基于文本的多媒體檢索費(fèi)時(shí)費(fèi)力、主觀差異性大的問(wèn)題,20 世紀(jì)90 年代出現(xiàn)了基于內(nèi)容的多媒體檢索方法,其基本思路是通過(guò)視覺(jué)、聽(tīng)覺(jué)或者幾何特征來(lái)計(jì)算被檢索對(duì)象和用戶查詢之間的相似度[2-3]?;趦?nèi)容的多媒體檢索的“內(nèi)容”在提出時(shí)指的是“底層特征(如視覺(jué)或聽(tīng)覺(jué)等特征)”或“檢索樣例”,而非語(yǔ)義內(nèi)容。

      為解決信息檢索中存在的“語(yǔ)義鴻溝”問(wèn)題,研究人員在信息的特征空間和語(yǔ)義空間之間建立某種映射關(guān)系和反饋機(jī)制。目前主流的反饋技術(shù)主要有基于反饋定制、概率模型、機(jī)器學(xué)習(xí)、用戶驅(qū)動(dòng)等幾類。反饋技術(shù)的使用有效地提高了檢索效率。但基于內(nèi)容的多媒體檢索無(wú)法實(shí)現(xiàn)真正意義上的語(yǔ)義檢索,“語(yǔ)義鴻溝”問(wèn)題并未從根本上予以解決。

      多媒體數(shù)據(jù)往往伴隨文本信息以及用戶標(biāo)注信息,從中提取能反映多媒體數(shù)據(jù)語(yǔ)義信息成為近年來(lái)的研究熱點(diǎn)。主流研究的基本思路是通過(guò)對(duì)標(biāo)注訓(xùn)練數(shù)據(jù)集的學(xué)習(xí)得到標(biāo)注對(duì)象與文本數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,然后計(jì)算語(yǔ)義關(guān)鍵詞在未標(biāo)注數(shù)據(jù)中出現(xiàn)的概率。目前,基于圖像的信息檢索重點(diǎn)研究圖像的語(yǔ)義標(biāo)注,這面臨大規(guī)模圖像標(biāo)注、標(biāo)注擴(kuò)展以及標(biāo)注不一致等問(wèn)題。標(biāo)注信息主要利用關(guān)鍵詞檢索和圖像檢索的結(jié)果對(duì)其對(duì)應(yīng)的文本信息進(jìn)行主題聚類獲得。隨著圖像檢索技術(shù)的發(fā)展,對(duì)圖像的標(biāo)注不僅局限于對(duì)整幅圖像,對(duì)圖像包含的實(shí)體進(jìn)行標(biāo)注成為當(dāng)下研究的重要方向,典型代表是美國(guó)卡內(nèi)基梅隆大學(xué)的人臉標(biāo)注系統(tǒng)“Name It”[4]。

      數(shù)字圖書(shū)館傳統(tǒng)的單一類型搜索引擎利用文本信息和鏈接屬性實(shí)現(xiàn)信息檢索,通過(guò)多媒體視聽(tīng)覺(jué)底層特征和樣例,以及相關(guān)反饋技術(shù)實(shí)現(xiàn)基于內(nèi)容的多媒體檢索。這些方法忽略了媒體之間存在的關(guān)聯(lián)特性,難以實(shí)現(xiàn)不同類型媒體數(shù)據(jù)的統(tǒng)一檢索。為了滿足人們對(duì)這些多媒體數(shù)據(jù)檢索的需求,需要研究一種新的檢索方法,可以檢索到相似主題、不同類型的多媒體對(duì)象。這種新的檢索方式能夠處理和查詢不同類型的多媒體數(shù)據(jù),極大地?cái)U(kuò)展人們獲取多媒體信息的途徑和范圍。這類“跨媒體檢索”方式需要達(dá)到如下要求[5]:

      首先,跨媒體檢索要支持檢索過(guò)程中在數(shù)據(jù)類型上的跨越。所謂異構(gòu)多媒體數(shù)據(jù)指的是不同類型的多媒體數(shù)據(jù),如圖像與音頻數(shù)據(jù)就互為異構(gòu)多媒體數(shù)據(jù)。如給定一幅圖像、一篇文本和一段音頻數(shù)據(jù),雖然它們對(duì)信息的表現(xiàn)形式各異,底層特征也不同。但是,異構(gòu)多媒體數(shù)據(jù)卻可以在語(yǔ)義層面統(tǒng)一起來(lái):如老虎的圖像、老虎習(xí)性的描述性文字和老虎吼叫的音頻數(shù)據(jù)雖然表達(dá)形式各異,卻在語(yǔ)義層面共同表達(dá)了老虎這一概念。傳統(tǒng)的單一媒體相關(guān)技術(shù)忽略了異構(gòu)多媒體數(shù)據(jù)在語(yǔ)義上的共性,因而不能有效處理異構(gòu)多媒體數(shù)據(jù)共存的復(fù)雜多媒體數(shù)據(jù),也無(wú)法有效跨越“語(yǔ)義鴻溝”。作為單一媒體技術(shù)在理論和功能上的延伸,跨媒體技術(shù)將異構(gòu)多媒體數(shù)據(jù)統(tǒng)一理解分析;圖像、文本、音頻、視頻等異構(gòu)多媒體數(shù)據(jù)在語(yǔ)義層面的共性得以利用,這不但更符合人類的思維方式,而且也便于對(duì)異構(gòu)多媒體數(shù)據(jù)的統(tǒng)一管理,以方便用戶對(duì)其使用以及信息的傳遞。

      其次,跨媒體檢索要支持同構(gòu)多媒體數(shù)據(jù)在語(yǔ)義上的跨越。所謂同構(gòu)多媒體數(shù)據(jù)指的是相同類型的多媒體數(shù)據(jù),如兩幅圖像互為同構(gòu)多媒體數(shù)據(jù)。由于不同概念之間有著復(fù)雜的關(guān)聯(lián),雖然同構(gòu)多媒體數(shù)據(jù)表達(dá)方式一致,但是它們所蘊(yùn)含的語(yǔ)義聯(lián)系卻錯(cuò)綜復(fù)雜。如何挖掘同構(gòu)多媒體數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)信息是跨媒體研究的又一重要內(nèi)容。以不同的文本數(shù)據(jù)為例,它們雖然表達(dá)形式一致,但是所蘊(yùn)含的語(yǔ)義關(guān)聯(lián)卻有可能是相反、相近、相同的??缑襟w研究就是要根據(jù)同構(gòu)多媒體數(shù)據(jù)在特征空間內(nèi)錯(cuò)綜復(fù)雜的分布找到它們之間的潛在的語(yǔ)義關(guān)聯(lián),從而完成語(yǔ)義的跨越。比如僅僅在文本的特征空間,“稻谷”和“午飯”這兩個(gè)文本對(duì)象所描述的內(nèi)容屬于不同概念,而在語(yǔ)義層面二者有明顯的關(guān)聯(lián)??缑襟w研究則要根據(jù)全體文本對(duì)象在特征空間的分布,挖掘出同構(gòu)多媒體數(shù)據(jù)之間這種固有的語(yǔ)義關(guān)聯(lián),從而方便對(duì)這些多媒體數(shù)據(jù)的檢索和利用。

      最后,跨媒體檢索也要支持異構(gòu)多媒體數(shù)據(jù)在語(yǔ)義上的跨越。對(duì)異構(gòu)多媒體數(shù)據(jù)在語(yǔ)義上的跨越,目的是找到異構(gòu)多媒體數(shù)據(jù)之間錯(cuò)綜復(fù)雜的語(yǔ)義關(guān)聯(lián),這是對(duì)前面所述兩項(xiàng)研究的綜合。比如老虎的叫聲和灰狼的圖像,它們既不是同一類多媒體數(shù)據(jù)(二者類型分別屬于音頻和圖像),表達(dá)的語(yǔ)義也不相同(二者語(yǔ)義分別屬于老虎和灰狼),但是考慮到老虎和灰狼同屬食肉動(dòng)物,這兩類多媒體數(shù)據(jù)之間又有一定的語(yǔ)義關(guān)聯(lián)。這種異構(gòu)多媒體數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)挖掘,傳統(tǒng)的單一媒體研究并沒(méi)有涉及。因此,這一研究?jī)?nèi)容是跨媒體研究對(duì)傳統(tǒng)單一媒體研究的進(jìn)一步延伸和拓展。從圖像、音頻等媒體數(shù)據(jù)中提取出來(lái)的視覺(jué)和聽(tīng)覺(jué)等特征量綱不同,存在異構(gòu)性。要實(shí)現(xiàn)跨媒體檢索,需要解決如何度量異構(gòu)特征相似性問(wèn)題。

      最近一些研究通過(guò)典型相關(guān)性分析(Canonical Correlation Analysis,CCA)挖掘異構(gòu)數(shù)據(jù)在特征上潛在的統(tǒng)計(jì)關(guān)系,從而生成包含不同類型數(shù)據(jù)的同構(gòu)子空間實(shí)現(xiàn)異構(gòu)數(shù)據(jù)相似性度量,并在特征降維后能最大程度地保持原始異構(gòu)數(shù)據(jù)的相關(guān)性。由于典型相關(guān)性分析是建立在兩個(gè)不同變量場(chǎng)所對(duì)應(yīng)矩陣的基礎(chǔ)上,因此,同樣也適用于對(duì)圖像與音頻、音頻與文本等跨媒體特征的相關(guān)性分析。

      3.2 從多媒體表達(dá)到跨媒體表達(dá)

      在數(shù)字圖書(shū)館知識(shí)表達(dá)方面,早期人工智能領(lǐng)域有一些研究人員主張用統(tǒng)一的邏輯框架來(lái)表示各種事物。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,通過(guò)統(tǒng)計(jì)學(xué)習(xí)的方法獲得多媒體數(shù)據(jù)表達(dá)的研究逐漸成為機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)。從多媒體數(shù)據(jù)中提取出文本和視覺(jué)、聽(tīng)覺(jué)等底層特征,拼合成特征向量后,需要解決如何學(xué)習(xí)得到特征向量相似度度量函數(shù),使其與數(shù)據(jù)在原始空間幾何分布一致的問(wèn)題。該方面較有代表性的工作可分為子空間學(xué)習(xí)和流形學(xué)習(xí)兩類。

      研究表明數(shù)字圖書(shū)館中許多類型數(shù)據(jù)的分布并不是線性的,而是非線性的流形結(jié)構(gòu)?;谏鲜隼碚?,國(guó)內(nèi)外研究人員提出多種流形學(xué)習(xí)方法[6]。同時(shí)多媒體數(shù)據(jù)中局部特征提取也成為業(yè)界關(guān)注的熱點(diǎn)?!霸~袋”在自然語(yǔ)言理解中表示文檔,受其啟發(fā),“視覺(jué)單詞”和“數(shù)據(jù)文法”可以用來(lái)表示圖像和視頻數(shù)據(jù)。該方法利用SIFT(Scale- Invariant Feature Transform)算法提取圖像和視頻數(shù)據(jù)的局部特征并將聚類后的結(jié)果作為視覺(jué)單詞。計(jì)算機(jī)視覺(jué)中有關(guān)圖像分割技術(shù)的發(fā)展使得通過(guò)對(duì)圖像中對(duì)象識(shí)別,構(gòu)建視覺(jué)單詞和視覺(jué)文法實(shí)現(xiàn)圖像解釋成為可能。由于從圖像、視頻、網(wǎng)頁(yè)和動(dòng)畫(huà)等多媒體數(shù)據(jù)中提取的特征仍然較多,傳統(tǒng)向量空間模型表示多媒體數(shù)據(jù)存在兩大問(wèn)題:其一是造成“維數(shù)災(zāi)難”問(wèn)題;其二是由于特征向量維度過(guò)高以及訓(xùn)練樣本不足,將不同屬性特征進(jìn)行拼合引起“過(guò)壓縮”問(wèn)題,導(dǎo)致大量信息丟失。另外,不同類型特征通過(guò)簡(jiǎn)單向量拼接也在一定程度上減弱或忽略了視頻中這些多種屬性特征之間關(guān)聯(lián)性。為了反映跨媒體數(shù)據(jù)中存在的交叉關(guān)聯(lián)等復(fù)雜關(guān)系,矩陣、張量和圖等形式下數(shù)據(jù)結(jié)構(gòu)被使用[8],由于其能描述復(fù)雜對(duì)象各組成部分之間的拓?fù)浣Y(jié)構(gòu),并能闡明關(guān)于表示的假設(shè),因而計(jì)算效率得到有效提高。如何實(shí)現(xiàn)矩陣、張量和圖等復(fù)雜結(jié)構(gòu)處理是實(shí)現(xiàn)跨媒體理解要解決的關(guān)鍵問(wèn)題。

      4 未來(lái)研究熱點(diǎn)

      信息檢索技術(shù)是數(shù)字圖書(shū)館建設(shè)的重要內(nèi)容之一,其經(jīng)歷了人工標(biāo)注階段、內(nèi)容檢索階段以及跨媒體檢索階段。隨著互聯(lián)網(wǎng)上數(shù)據(jù)量的不斷增長(zhǎng),信息資源檢索至今仍作為一個(gè)熱門(mén)研究方向備受關(guān)注。在未來(lái)幾年,信息資源檢索在以下方面值得關(guān)注:

      (1)底層特征很難與高層語(yǔ)義建立準(zhǔn)確的對(duì)應(yīng)關(guān)系,“語(yǔ)義鴻溝”問(wèn)題仍是跨媒體檢索面臨的一大難題。

      (2)Web2.0 時(shí)代下,用戶在媒體內(nèi)容生成和編輯過(guò)程中的參與度急劇增強(qiáng)。如何從用戶交互中獲取用戶行為,生成偏好信息,發(fā)現(xiàn)用戶社區(qū),實(shí)現(xiàn)更理想的個(gè)性化檢索將是下一代數(shù)字圖書(shū)館提供更優(yōu)質(zhì)服務(wù)的關(guān)鍵所在。

      (3)近年涌現(xiàn)出不少利用機(jī)器學(xué)習(xí)算法在互聯(lián)網(wǎng)級(jí)語(yǔ)料庫(kù)或圖像庫(kù)實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)和語(yǔ)義理解的研究成果。該研究的進(jìn)一步深入是將跨媒體檢索推向?qū)嵱玫谋亟?jīng)之路[10-11]。

      (4)壓縮感知和變量選擇理論與方法相結(jié)合,用來(lái)對(duì)圖像形成更加有效的“稀疏表達(dá)”(Sparse Representation),已成為計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)等領(lǐng)域的研究熱點(diǎn)。如可針對(duì)圖像中不同視覺(jué)特征在表示特定高層語(yǔ)義時(shí)所起重要程度不同,定義結(jié)構(gòu)性組稀疏(Structural Group ing Sparsity)機(jī)制實(shí)現(xiàn)高維異構(gòu)特征的差別性選擇[12]。

      [1] 吳飛,莊越挺.互聯(lián)網(wǎng)跨媒體分析與檢索:理論與算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖像圖形學(xué)報(bào),2010,22(1):1- 9.

      [2] Datta R.,Joshi D.,Li J.,et al. Image retrieval:ideas,influences,and trends of the new age[J]. ACM Computing Surveys,2008,40(2),5- 60.

      [3] Smoliar S.,Zhang H J.. Content based video indexing and retrieval [J]. IEEE Multimedia,1994,1(2):62- 72.

      [4] Satoh S.,NakamuraY.,Kanade T..Name- It:naming and detecting faces in news videos [J]. IEEE Multimedia,1999,6(1):22- 35.

      [5] Zhuang Y T,Yang Y,Wu F. Mining semantic correlation of heterogeneous multimedia data for cross- media retrieval[J]. IEEE Transactions on Multimedia,2008,10(2):221- 229.

      [6] Saul L.K.,Weinberger K.Q.,Ham J.H,et al.Spectral methods for dimensionality reduction [M].Cambridge,MIT Press,2006.

      [7] Korn,F(xiàn).,Pagel,B.,F(xiàn)aloutsos,C.. On the “Dimensionality Curse” and the “Self- Similarity Blessing”[J]. IEEE Transactions on Knowledge and Data Engineering,2001,13(1):96- 111.

      [8] Tao D.,Li X.,Wu X.,et al. Supervised tensor learning [J]. Knowledge and Information Systems,2007,13(1):1- 42.

      [9] Wright J.,Yang A.,Ganesh A.,et al. Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(2):1- 18.

      [10] Mahoney M.,Lim L.,Carlsson G.. Algorithmic and statistical challengesin modern large scale data analysis[J].SIGKDD Explorations,2008,10(2):57- 60.

      [11] Talwalkar A.,Kumar S.,Rowley H.. Large scale manifold learning[C]. Proceedings of Computer Vision and Pattern Recognition,Anchorage,2008:1- 8.

      [12] Wu F,Han Y H,Tian Q,et al. Multilabel boosting for image annotation by structural grouping sparsity [J].ACM Multimedia,2010:15- 24.

      猜你喜歡
      跨媒體異構(gòu)關(guān)聯(lián)
      “跨媒體表征學(xué)習(xí)及認(rèn)知推理”專欄征文通知
      “跨媒體表征學(xué)習(xí)及認(rèn)知推理”專欄征文通知
      試論同課異構(gòu)之“同”與“異”
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      奇趣搭配
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
      LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
      跨媒體出版物的平臺(tái)互動(dòng)研究
      出版與印刷(2015年3期)2015-12-19 13:15:13
      在新興異構(gòu)SoCs上集成多種系統(tǒng)
      南京市| 息烽县| 西乡县| 维西| 卓资县| 锡林浩特市| 北票市| 额济纳旗| 德兴市| 伊吾县| 罗甸县| 新营市| 甘泉县| 团风县| 弥勒县| 赤城县| 温州市| 达日县| 钟祥市| 视频| 阿克| 河北省| 香河县| 平定县| 肃宁县| 大同县| 阿拉尔市| 上饶县| 乡城县| 辰溪县| 高邑县| 正镶白旗| 晋城| 邮箱| 仁化县| 崇文区| 册亨县| 石台县| 明星| 遂平县| 张掖市|