朱維喬
(廣州航海學院圖書館,廣東 廣州510725)
大數(shù)據環(huán)境下,隨著智能移動終端設備的普及和計算機技術的迅猛發(fā)展,智慧圖書館傳遞的信息除了傳統(tǒng)的文本形式之外,更多地擴展為以圖片、3D模型、多媒體音視頻以及Web頁面等作為載體的視覺數(shù)據,其日益成為圖書館大數(shù)據資源必不可少的組成部分[1],視覺資源與用戶交互傳感信息的有機融合使搜索引擎面臨嚴峻挑戰(zhàn)。一方面,基于關鍵詞標注的傳統(tǒng)信息檢索模式效率低下且成本較高,不再適用于移動視覺大數(shù)據搜索;另一方面,深度學習技術驅動的計算機視覺的飛速發(fā)展,為挖掘更為高效的視覺資源搜索方式提供了技術保障。移動視覺搜索是以移動智能設備作為采集終端,以實物圖片、音視頻等視覺數(shù)據作為搜索對象,提取關聯(lián)信息的資源獲取模式,使用戶從圖書館視覺資源庫中迅速獲取其需要的關聯(lián)內容[2]成為現(xiàn)實。移動視覺搜索(Mobile Visual Search,MVS)相關技術及應用研究對推動圖書館智慧服務發(fā)展將產生卓有成效的深遠影響,基于深度學習的移動視覺搜索在這一背景下應運而生。大數(shù)據環(huán)境下的移動視覺搜索包括圖像特征提取、區(qū)域分割等計算機視覺處理過程,鑒于深度學習技術在計算機視覺方向取得的突破性成效,國內外研究人員對其展開了以下研究。
國外研究人員對移動視覺搜索的研究始于斯坦福大學舉辦的移動視覺搜索研討會,主要是從計算機領域涉及到的技術,如特征提取與表示、高維索引與匹配等內容進行研究,如Bernd Girod提出移動視覺搜索的混合型架構,通過對視覺對象局部特征在移動終端的提取和編碼,將其傳輸至服務器,匹配局部特征數(shù)據后再將搜索結果反饋至移動終端[3]。在視覺搜索領域應用深度學習技術的研究也取得了一定的進展,如Razavian論證了運用深度神經網絡卷積層提取圖像特征用于圖像搜索的可行性,提出了多尺度圖像局部特征提取方法[4]。由此可見,視覺搜索領域的深度學習技術應用已經得到了開拓性進展并具備廣闊的開發(fā)前景。各大搜索引擎所提供的圖像檢索功能早已開始應用深度學習技術,甚至在內部成立了研究深度學習的專門機構。實踐表明,通過深度學習提取的視覺特征在圖像識別、語音識別以及智能監(jiān)控等領域都獲得了較為成功的應用。
國內學者對移動視覺搜索的研究始于2010年,段凌宇等人圍繞移動視覺搜索的資源組織方法、資源標準化以及關鍵技術等問題展開了討論。隨后,數(shù)字圖書館領域圍繞相關理論與應用模式展開了一系列研究,如張興旺對數(shù)字圖書館移動視覺搜索模型的內涵與架構等問題進行了梳理[5];曾子明結合移動視覺搜索的用戶需求,搭建了智慧圖書館的移動視覺搜索服務模型,在論述中提到了深度學習對模型搭建提供的技術支持[2]。
綜上所述,將深度學習技術應用于移動視覺搜索領域的研究尚處于起步階段,相關研究有待進一步深入。將二者相結合作為大數(shù)據環(huán)境下數(shù)字圖書館全新的信息檢索模式,有利于解決如何高效處理多模態(tài)視覺大數(shù)據的問題,顯著提升了數(shù)據檢索與整合效率,將顛覆現(xiàn)有的信息檢索工具,成為大數(shù)據時代智慧圖書館提升用戶服務水平的利器。
深度學習技術是機器學習研究領域的前沿熱點,對視覺大數(shù)據具有強大的非線性表達能力,以及更抽象本質的理解能力,其通過對文本、圖像及音頻等數(shù)據進行建模分析,以人腦的信號處理機制為模擬對象,以繁雜的層次結構對數(shù)據實行逐層提取,從而使計算機視覺得以實現(xiàn)[7],即從大量數(shù)據中自動提取多層特征,以數(shù)據驅動的方式促進了圖像識別、信息檢索等領域的變革。在多媒體融合的大數(shù)據環(huán)境下,智慧圖書館的移動視覺數(shù)據顯現(xiàn)出分散異構、跨模態(tài)語義關聯(lián)的特征,需要移動視覺搜索功能實現(xiàn)對視覺對象的語義感知分析與跨模態(tài)融合。深度學習技術對于視覺資源的語義理解具有較為顯著的優(yōu)勢,因為多個卷積層與隱層包含在深度卷積神經網絡結構中,其可以通過逐層迭代的方式學習圖像特征,即從邊緣像素等低層特征、物體結構輪廓等中層特征到情感場景等高層語義特征,形成從低層特征至高層特征的映射模型[2],對圖像語義特征和語義內容進行提取分析,即通過多層神經網絡對視覺資源特征進行訓練學習,獲取到特征提取更為合理、具有更強區(qū)分度的視覺特征語義理解與描述。
移動視覺搜索與深度學習技術的有效融合不僅需要在大數(shù)據環(huán)境下構建相應的搜索服務模型框架,還需提出可行的技術方案。因此,首先對數(shù)字圖書館移動視覺搜索中的深度學習技術需求進行全面分析,構建基于深度學習的移動視覺搜索機制框架,并對其中的技術方法進行研究,為實現(xiàn)大數(shù)據環(huán)境下的移動視覺搜索服務提供可實施的技術框架。
如何在不同模態(tài)類型的視覺大數(shù)據之間建立語義關聯(lián),對跨媒體數(shù)據進行動態(tài)分析和高效處理,實現(xiàn)更為有效的移動視覺搜索模式,是智慧圖書館建設過程中的研究熱點之一。筆者構建大數(shù)據環(huán)境下基于深度學習的移動視覺搜索模型,將深度學習技術框架嵌入移動視覺搜索服務體系,使其服務過程得以高效實現(xiàn)(見圖1)。模型架構包含以下主要部分。
圖1 大數(shù)據環(huán)境下基于深度學習的移動視覺搜索機制框架
獲取移動用戶的視覺數(shù)據和情境數(shù)據,對視覺對象進行分類后根據結果決定視覺大數(shù)據資源的存儲方案,為視覺搜索服務提供基礎數(shù)據源。視覺大數(shù)據輸入層是面向用戶移動視覺搜索模型的核心層,其主要任務包括視覺大數(shù)據的特征表示,建立不同類型資源之間的語義關聯(lián),以及對情境大數(shù)據的存儲和處理。由于資源類型的差異,輸入層首先需要對異構大數(shù)據進行整合統(tǒng)一,并通過視覺資源的語義關聯(lián)功能實現(xiàn)文本數(shù)據的特征表示與圖像索引之間的關聯(lián),在檢索獲取圖像資源后,將相關的文本資源返回,即利用多模態(tài)資源對檢索內容進行協(xié)同表達[8]。情境數(shù)據包括用戶的網絡環(huán)境、地理位置、移動終端、檢索時間等相關數(shù)據,為基于深度學習的移動視覺搜索模型提供數(shù)據支持,并將移動終端、物聯(lián)網等硬件設備與用戶視覺大數(shù)據相結合,獲取用戶的情境信息并分析其行為特征,將底層情境數(shù)據嵌入到移動視覺索引模塊[8],并結合用戶需求返回視覺檢索結果。
移動視覺資源組織層包含了深度學習框架和高性能計算工具集等,是基于深度學習的移動視覺搜索服務系統(tǒng)的根基。云計算分布式框架以Hadoop文件系統(tǒng)和MapReduce分布式模型為核心,為大數(shù)據環(huán)境下的移動視覺搜索提供了高效的計算平臺。深度學習框架為移動視覺搜索服務的圖像特征提取與處理提供有力保障,是開發(fā)深度學習算法和訓練模型的綜合平臺。由于深度學習在特征學習與特征表達方面具備突出能力,其通過逐層學習提取多媒體視覺數(shù)據的本質特征,可對數(shù)據中蘊含的深層語義信息進行揭示。當前主要的深度學習框架有TensorFlow、Caffe和Torch等[9]。傳統(tǒng)的數(shù)字圖書館云計算平臺具有將海量數(shù)據分布在大規(guī)模集群上并進行處理的能力,然而集群節(jié)點的運算能力卻無法滿足深度神經網絡訓練測試以及移動視覺搜索服務實時響應的應用需求,可以彌補這一不足之處的高性能計算應運而生,其利用GPU通用計算有效增強集群的并行計算能力,包括可視化、多媒體等多種集成工具,進而提升深度學習框架的運行效率[2]。
視覺數(shù)據應進行邏輯分析和處理才能為移動視覺搜索功能提供資源支撐,因此,將深度神經網絡分析層分為視覺數(shù)據的ROI定位、語義分析、用戶情境計算以及視覺對象語義推理引擎等功能模塊,將視覺圖像特征運用深度卷積神經網絡進行有效提取,通過特征編碼生成視覺圖像的描述,再結合用戶情境信息與卷積特征對圖像進行ROI定位、物體識別分類以及圖像的語義分析[2]。在大數(shù)據環(huán)境下,用戶搜索的目的是獲取視覺圖像的關聯(lián)信息,其提交圖像包含的實體對象所在區(qū)域稱為興趣區(qū)域(Region of Interests,ROI),通過對搜索圖像的ROI定位能夠減少目標特征提取的搜索范圍和計算量,并有效提高目標物體識別的準確度;語義分析是對移動視覺資源進行語義抽取與分割,描述數(shù)據信息與語義信息間的對應關系;用戶情境計算主要是分析采集的情境信息,將用戶需求與搜索目標通過構建用戶情境模型推測出來,并將情境分析結果嵌入到移動視覺搜索服務過程中。視覺對象的語義推理引擎是指在移動視覺搜索的過程中,使用視覺對象知識庫的表示方法進行語義關聯(lián)分析和特征提取的支持,進而實現(xiàn)視覺對象在語義層面的知識推理和服務需求的求解建模[10]以及服務資源和服務能力的最優(yōu)配置。該功能模塊的任務是根據搜索圖像的語義標簽、特征向量等計算搜索圖像與其他數(shù)據的相關性,結合用戶情境信息與行為偏好對相關資源進行排序并返回篩選結果。在此過程中突顯的語義鴻溝問題是限制語義推理準確性的最大障礙。大數(shù)據環(huán)境下,在數(shù)字圖書館移動視覺搜索過程中,語義推理條件、過程以及結果均為動態(tài)變化,存在多方面的不確定性因素,為此需要引入邏輯推理算法供用戶MVS語義推理引擎調用,通過深度學習技術對用戶的視覺搜索需求進行動態(tài)模擬與計算推理,以便于得到符合搜索需求的語義分析結果[10],進而為用戶需求提供精準的科學算法支持。
服務交互層的主要作用包括用戶視覺搜索訪問與查詢、語義推理等應用和外部軟硬件環(huán)境的接口與交互,實現(xiàn)智能檢索和匹配服務、一站式智慧導航、知識可視化服務以及多模態(tài)融合[11]等功能。系統(tǒng)對各種視覺資源的靈活調度和配置,只有通過調用上述應用接口才能得以實現(xiàn)。智能檢索和匹配服務能夠對多種媒體資源類型進行基于語義的查找和匹配;一站式智慧導航通過分析用戶信息需求和興趣偏好,以及其與平臺的交互行為,為用戶進行知識推薦與導航服務;知識可視化服務通過視覺表現(xiàn)形式描述和構建知識形態(tài)、學科領域、資源主題及其之間的聯(lián)系,使知識呈現(xiàn)更加生動形象,有助于加強用戶理解[12];移動視覺搜索返回的結果可能包含了多種模態(tài)的信息資源,多模態(tài)融合技術將這些搜索結果進行相關性整合并采用融合的形式向用戶呈現(xiàn)。
大數(shù)據環(huán)境下,深度學習以逐層學習的方式尋找高度異構信息的語義關系,通過語義映射與相似度計算,提取移動視覺跨媒體數(shù)據的特征,探尋異構模態(tài)資源之間的語義關聯(lián),使移動視覺搜索程序得以簡化,提升了視覺大數(shù)據的檢索精確度與用戶的服務體驗,為完善圖書館智慧服務體系提供有力支撐,使用戶的個性化檢索需求得以滿足,進而彰顯了圖書館的自身價值并增強了自身的競爭力。因此,在大數(shù)據環(huán)境下對基于深度學習的移動視覺搜索服務模型及其技術實現(xiàn)方法進行系統(tǒng)研究,具有重要的實際應用價值和學術研究意義。