嚴(yán)悅++周曉林++賈玲++李月娥++高穎
【摘要】本文以影像檔案為載體,基于案例推理技術(shù)來對(duì)影像檔案中所存在的數(shù)字圖像或視頻檢索問題進(jìn)行了系統(tǒng)分析與探討,對(duì)如何在影像檔案中構(gòu)建以案例推理技術(shù)為基礎(chǔ)的檢索系統(tǒng)進(jìn)行了詳細(xì)闡述。
【關(guān)鍵詞】案例推理技術(shù);影像檔案;檢索
在信息時(shí)代下,伴隨著數(shù)字化、網(wǎng)絡(luò)化技術(shù)的迅猛發(fā)展,傳統(tǒng)檔案管理無論是在服務(wù)的模式還是在業(yè)務(wù)的流程上都發(fā)生著全方位的改變。傳統(tǒng)管理模式下采集部門(以文獻(xiàn)、資料分辨業(yè)務(wù)為主)的核心地位逐漸被取代,取而代之的是以社會(huì)為對(duì)象的一線服務(wù)。新時(shí)期下,如何進(jìn)一步增強(qiáng)檔案信息的生命力,最大化創(chuàng)造社會(huì)效益儼然是檔案管理工作轉(zhuǎn)型、變革過程中所面臨的當(dāng)務(wù)之急。與此同時(shí),伴隨著辦公硬件設(shè)備的逐步完善,大量影像檔案出現(xiàn)在人們的日常生活工作中,面對(duì)這些數(shù)字化信息(以視頻、圖像為主),如何針對(duì)用戶的信息快速有效地完成檢索與輸出儼然已經(jīng)成為了新時(shí)期檔案管理工作者共同面臨的重大課題之一。
作為一種新型機(jī)器學(xué)習(xí)與推理方法,案例推理技術(shù)的核心思想是通過對(duì)人類過去解決問題的經(jīng)驗(yàn)的充分利用來解決嶄新的問題。從整體上來看,案例推理技術(shù)主要由四個(gè)基本過程組成(即“4R”循環(huán)),即Retrieve(案例提取)、Reuse(案例重用)、Revise(案例改變)、Retain(案例保存與學(xué)習(xí))。針對(duì)案例推理技術(shù)(CBR),多年來眾多知名學(xué)者與學(xué)術(shù)團(tuán)隊(duì)致力于對(duì)其理論與應(yīng)用方面的研究,取得了很大進(jìn)展。每年舉行的CBR研討會(huì)(由國際研究界組織,1987年開始實(shí)行)使得一批又一批關(guān)于CBR的優(yōu)秀研究成果得以發(fā)表,有效促進(jìn)了CBR理論與應(yīng)用研究的不斷發(fā)展。截止目前,CBR研究的熱點(diǎn)主要集中在五個(gè)方面,即在計(jì)劃、推薦、分類及預(yù)測(cè)等工作中的理論與應(yīng)用,與其他人工智能方法的比較與融合,案例改變機(jī)制的研究,作為解釋機(jī)制的算法研究,在多種領(lǐng)域或?qū)W科中的應(yīng)用研究。針對(duì)CBR系統(tǒng)和項(xiàng)目的應(yīng)用,目前國外很多領(lǐng)域都已經(jīng)實(shí)現(xiàn),應(yīng)用的領(lǐng)域也逐漸開始拓展。但就我國國內(nèi)來說,CBR在實(shí)際系統(tǒng)中的應(yīng)用成功案例相對(duì)較少,亟待進(jìn)一步發(fā)展。本文研究的重點(diǎn)是案例推理技術(shù)在影像檔案檢索中的應(yīng)用。
一、概念
簡(jiǎn)單來說,以案例推理技術(shù)(CBR)為基礎(chǔ)的影像檔案檢索,其實(shí)就是根據(jù)媒體與相應(yīng)對(duì)象的上下文聯(lián)系及語義內(nèi)容來進(jìn)行檢索,整個(gè)查詢過程所針對(duì)的僅僅是對(duì)象,并不是對(duì)象的標(biāo)識(shí)。具體來說,需要從媒體數(shù)據(jù)中提取指定的特征,如顏色、形狀以及紋理等,以這些特征為基礎(chǔ)來檢索出媒體數(shù)據(jù)庫中具有相似特征的圖像或視頻內(nèi)容。截止目前,對(duì)于圖片或視頻數(shù)據(jù)庫的檢索主要有兩種方法,即基于內(nèi)容的檢索與基于文本的檢索。無論基于內(nèi)容還是文本,這兩種檢索方法都具有兩個(gè)缺點(diǎn),一方面是由于影像包含的信息量較大,不同人對(duì)相同內(nèi)容的解釋存在一定差異,同一人在不同時(shí)刻對(duì)不同內(nèi)容的解釋也可能存在相似性,所以對(duì)影像的標(biāo)注就難以在標(biāo)準(zhǔn)上達(dá)成統(tǒng)一。另一方面是人工標(biāo)注的繁瑣性將直接造成相應(yīng)的標(biāo)注、歸類的速度降低,難以實(shí)現(xiàn)與數(shù)字媒體產(chǎn)生速度的匹配,所以很難實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)中海量影像的有效檢索。然而,較之于這兩種人工性檢索方式,基于案例推理技術(shù)的影像檔案檢索則具有如下特征:(1)以影像內(nèi)容特征為基礎(chǔ)來進(jìn)行分類,提取內(nèi)容的標(biāo)準(zhǔn)為滿足用戶需求。(2)用戶提交的檢索內(nèi)容以及數(shù)據(jù)庫中影像經(jīng)過轉(zhuǎn)變之后再進(jìn)行近似匹配,并不是對(duì)原始數(shù)據(jù)進(jìn)行直接對(duì)比。(3)適合各種類型數(shù)據(jù)庫的檢索(特別是中大型數(shù)據(jù)庫),檢索效率較高。在案例推擠技術(shù)的支撐下,用戶對(duì)影像檔案的檢索并不需要進(jìn)行語言上的過多描述,直接將影像本身作為檢索條件在系統(tǒng)中進(jìn)行提交即可獲取結(jié)果輸出。
二、檢索流程
基于案例推理技術(shù)的影像檔案檢索,其基本過程為對(duì)用戶輸入特征信息的提取→在影像特征庫中查詢匹配的特征信息→獲取索引數(shù)據(jù)?;诎咐评砑夹g(shù)的工作流程主要具有如下功能模塊:
人機(jī)交互界面:一般來說,人機(jī)對(duì)話界面都是由VB(或VC)等計(jì)算機(jī)高級(jí)語言進(jìn)行編制的。通過將需要查詢的內(nèi)容(如圖片、視頻片段)提交到計(jì)算機(jī)中,獲取結(jié)果。
向量化:在對(duì)具體的影像信息進(jìn)行分類之前,圖像或視頻是以向量的形式表現(xiàn)出來的。部分冗余的信息將在這個(gè)過程中被過濾掉(如噪音),而具有高價(jià)值信息的特征將在向量空間中得到量化。
特征提?。禾卣魈崛∈怯跋穹诸愔凶顬殛P(guān)鍵的問題,其不僅可以簡(jiǎn)化計(jì)算過程,同時(shí)還具有降低向量維數(shù)的作用。但對(duì)視頻本身來說,因其并不是簡(jiǎn)單的圖像序列,相關(guān)性是相鄰視頻幀之間表現(xiàn)出的緊密關(guān)系,所以要繼承傳統(tǒng)圖像在檢索中廣泛運(yùn)用的低層特征之外(如顏色、形狀、紋理等),還應(yīng)該通過對(duì)視頻運(yùn)動(dòng)信息的利用來為檢索提供時(shí)序線索。同時(shí),視頻檢索過程中所使用的運(yùn)動(dòng)信息主要包含了四種,即塊運(yùn)動(dòng)矢量的主分量、物體運(yùn)動(dòng)的軌跡、攝像機(jī)運(yùn)動(dòng)以及時(shí)序紋理等。也正因?yàn)槿绱?,特征提取中所包含的集合也就有兩種特征,一種是高層次語義特征,另一種是低層次視覺特征。針對(duì)這兩種集合,相應(yīng)程序?qū)⒏鶕?jù)用戶的實(shí)際需求來將權(quán)值自動(dòng)加入到其中,然后再利用評(píng)估函數(shù)來對(duì)特征集中的每一個(gè)特征的評(píng)估值分別進(jìn)行獨(dú)立的計(jì)算,計(jì)算結(jié)果出來后按評(píng)估值的大小來將所有特征進(jìn)行排序,從而選取預(yù)定數(shù)目的最佳特征來作為結(jié)果的特征子集。在抽取特征的過程中,相應(yīng)程序在一定范圍內(nèi)會(huì)自動(dòng)選擇不同的閾值來對(duì)特征進(jìn)行過濾,從中獲取所需要的特征向量,然后以此作為基礎(chǔ)來構(gòu)建特定的向量空間,最后再進(jìn)行嚴(yán)格的分類檢測(cè)。最終的最佳特征過濾閾值的選擇也正是通過這個(gè)分類檢測(cè)的結(jié)果來進(jìn)行的。
自動(dòng)分類:根據(jù)閾值計(jì)算影像的特征向量以及特征提取所得出的評(píng)估值,在充分采用人工智能方法的基礎(chǔ)上尋找其類別,產(chǎn)生兩個(gè)相互結(jié)合且彼此獨(dú)立存在的兩個(gè)向量集合,即高層次語義特征和低層次視覺特征。具體來說,線性分類法、支持向量機(jī)以及神經(jīng)網(wǎng)絡(luò)等是現(xiàn)目前最常用的算法。
相似性檢索:在數(shù)據(jù)接口處將影像庫中的數(shù)據(jù)與分類后的向量集合進(jìn)行對(duì)比,比較相互之間的相似性,并且按照實(shí)際的相似性大小來給出具體的檢索值。
低(高)層相似度:在已經(jīng)提交過的向量集當(dāng)中,通過在數(shù)據(jù)接口處將低(高)層次特征向量與影像數(shù)據(jù)庫內(nèi)容進(jìn)行對(duì)比,程序?qū)⒆詣?dòng)生成一個(gè)只對(duì)影像低(高)層次特征進(jìn)行了定義的相似性。
最終相似度:分別將高層、底層相似度與各自的權(quán)值相乘,所得出的結(jié)果即為最終相似度,這個(gè)權(quán)值既可以根據(jù)用戶的不同需求來設(shè)定,也可以由程序來自動(dòng)設(shè)定。
檢索結(jié)果:結(jié)合最終相似度,程序?qū)?yán)格按照相似性的大小來得出檢索結(jié)果,這個(gè)結(jié)果并不一定是最終的,用戶可以根據(jù)這個(gè)結(jié)果再進(jìn)行二次查詢或者直接完成檢索。
三、用于視頻分析的關(guān)鍵技術(shù)
由于視頻信息通常都具有較強(qiáng)的復(fù)雜性,所以在視頻分析的過程中就擁有諸多關(guān)鍵性技術(shù)。在此,對(duì)這些關(guān)鍵技術(shù)進(jìn)行詳細(xì)說明,以此來為進(jìn)一步的研究和算法設(shè)計(jì)提供依據(jù)。
關(guān)鍵幀提取:以新視覺內(nèi)容實(shí)時(shí)變化情況(如運(yùn)動(dòng)信息、顏色直方圖等)的分析來確定所需關(guān)鍵幀的數(shù)目,并進(jìn)行關(guān)鍵幀提取,是目前最為理想的關(guān)鍵幀提取辦法。
視頻鏡頭的檢測(cè):以直方圖為基礎(chǔ)的技術(shù)是目前應(yīng)用最廣泛、最普遍的鏡頭檢測(cè)方法。通過對(duì)視頻幀圖像顏色直方圖或灰度直方圖的對(duì)比來確定邊界,以此來平衡檢測(cè)的速度與精度。
四、基于案例推理技術(shù)檢索的算法分析
基于算法的角度來看,案例推理技術(shù)的應(yīng)用對(duì)于整個(gè)影像檔案檢索工作來說,是一個(gè)調(diào)整匹配、逐步逼近的循環(huán)過程:
相關(guān)反饋:通過對(duì)監(jiān)督學(xué)習(xí)與自啟動(dòng)技術(shù)的充分利用,用戶通過對(duì)檢索結(jié)果相關(guān)性的判定能夠有效提升檢索的性能,這個(gè)過程無疑是影像檢索系統(tǒng)中不可獲取的重要環(huán)節(jié)。截止到目前,關(guān)于反饋算法所采用的檢索模型主要可劃分為三種類型,即基于概率框架的方法、基于距離度量的方法以及基于機(jī)器學(xué)習(xí)的方法。與此同時(shí),根據(jù)反饋算法中的內(nèi)容又可以將其分為正負(fù)反饋法兩種類型。這里主要的是,支持向量機(jī)是在機(jī)器學(xué)習(xí)過程中通過最優(yōu)化理論而構(gòu)建的學(xué)習(xí)訓(xùn)練算法,其能夠?qū)⒂脩羲鶚?biāo)記在反饋結(jié)果中的正反例圖像、視頻段作為下一類圖像、視頻段的樣本來實(shí)施訓(xùn)練。
主成份分析:針對(duì)特征空間的去噪、降維等問題,僅僅依靠相關(guān)反饋算法儼然是難以有效解決的?;诖耍梢詫?duì)檢索過程中用戶所提供的正反饋樣本在特征空間里的分布特性進(jìn)行主成分分析,以此來消除特征中的噪聲,從而有效降低特征空間的維度。
動(dòng)態(tài)多維索引:我們都知道,數(shù)據(jù)量龐大、特征維度較高是影像索引數(shù)據(jù)庫的兩大特征,所以要想提高檢索的效率,就必須以影像特征為基礎(chǔ)來構(gòu)建高效的多維索引。在這個(gè)動(dòng)態(tài)多維索引中,分裂算法與插入算法是最為關(guān)鍵的算法。
五、結(jié)語
總之,作為一種新型AI推理技術(shù),案例推理技術(shù)(CBR)的相關(guān)理論及應(yīng)用方面在近年來得到了長(zhǎng)足發(fā)展,逐漸出現(xiàn)了眾多成熟的CBR開發(fā)工具、CBR系統(tǒng)。毫無疑問,基于案例推理技術(shù)的影像檢索方法是信息檢索與服務(wù)實(shí)現(xiàn)網(wǎng)絡(luò)化的關(guān)鍵內(nèi)容之一,所涉及的學(xué)科領(lǐng)域眾多(如計(jì)算機(jī)網(wǎng)絡(luò)、視頻處理、數(shù)據(jù)庫、模式識(shí)別以及人工智能等),因此具有很好的發(fā)展前途,理應(yīng)得到我們的大力推廣。
【參考文獻(xiàn)】
[1]片錦英.案例推理技術(shù)研究及其應(yīng)用[J].人力資源管理,2010(06):128+318.
[2]楊健,趙秦怡.基于案例的推理技術(shù)研究進(jìn)展及應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2008(03):710-712+721.
[3]Reidl,J,Starke,J,Omer,DB,etal.Independentcomponentanalysisofhigh-resolutionimagingdataidentifiesdistinctfunctionaldomains,NEUROIMAGE,34(1):94-108JAN12007.
[4]Cheng,SX,Shih,F(xiàn)Y.AnImprovedIncrementalTrainingAlgorithmforSupportVectorMachinesUsingActiveQuery,PATTERNRECOGN40(3):964-971,MAR2007.