余婷婷
[摘 要] 隨著云計算、移動智能終端等信息技術(shù)飛速發(fā)展,視覺搜索開始從PC端走向移動終端,自移動視覺搜索(Mobile Visual Search,MVS)提出以來,已成為信息檢索領(lǐng)域重要研究課題。目前MVS研究主要集中于基本架構(gòu)、視覺對象處理、視覺對象檢索等關(guān)鍵技術(shù);在數(shù)字人文領(lǐng)域,MVS主要應(yīng)用于展品導(dǎo)覽,實現(xiàn)精準定位,提升閱讀體驗等;標準化問題、用戶體驗及視覺對象數(shù)據(jù)庫構(gòu)建則是其未來重點發(fā)展方向。
[關(guān)鍵詞] 移動視覺搜索;數(shù)字人文
[分類號] G250 [文獻標識碼] A [文章編號] 1671-0037(2017)5-43-4
Abstract: With the rapid development of information technologies, such as cloud computing and mobile intelligent, Visual Search begins moving from the PC to the mobile. Mobile Visual Search (MVS) has become an important research topic in the field of information retrieval since it was put forward. At present, MVS research mainly focuses on the key technologies such as basic architecture, visual object processing and visual object retrieval; in the field of digital humanities, MVS is mainly used in exhibition, achieving precise positioning, enhancing reading experience and so on; standardization, user experience and the construction of visual object databases will be the key directions for future development.
Key words: Mobile Visual Search; digital humanities
MVS是基于移動搜索發(fā)展起來的,早在2002年英國就已出現(xiàn)“手機搜索音樂”。雖然目前國內(nèi)外對MVS的研究尚處于初級階段,但近幾年隨著增強現(xiàn)實技術(shù)(Augmented Reality,AR)、跨媒體檢索技術(shù)(Cross-Media Retrieval)等技術(shù)的發(fā)展,學(xué)術(shù)界對其日益關(guān)注。目前MVS的研究仍以理論研究為主、應(yīng)用研究為輔,但是隨著移動搜索、圖像檢索、移動增強現(xiàn)實等技術(shù)不斷發(fā)展與完善,與之相融合的MVS必將成為繼搜索引擎之后互聯(lián)網(wǎng)新一代革命性服務(wù)模式[1]。
本文以“mobile visual search*”“移動視覺搜索”、MVS為主題詞在SCIE、Ei、Scopus、PQDT、中國知網(wǎng)、萬方、維普等數(shù)據(jù)庫中檢索,并通過引文追溯的方法來進一步補充相關(guān)文獻,通過文獻調(diào)研的方法,來揭示目前國內(nèi)外移動視覺搜索技術(shù)研究進展,為我國移動視覺搜索研究提供參考。
1 移動視覺搜索技術(shù)研究進展
目前移動視覺搜索技術(shù)研究主要集于基本架構(gòu)、視覺對象處理、視覺對象檢索等關(guān)鍵技術(shù)。
1.1 移動視覺搜索基本架構(gòu)
MVS基本架構(gòu)有三種形式:標準架構(gòu)、本地化架構(gòu)和混合架構(gòu)[2]。三種基本架構(gòu)各有優(yōu)缺點,系統(tǒng)功能、應(yīng)用領(lǐng)域不同,效果也不盡一樣,詳見表1。
1.2 視覺對象處理
視覺對象處理是移動視覺搜索的基本問題,主要包括視覺對象描述和提取、描述子壓縮。根據(jù)提取特征的廣度不同,視覺對象特征可分為局部特征、全局特征及隨機特征三類。Tuytelaars等人[3]對三種特征描述子進行了對比分析:全局特征描述子能夠表現(xiàn)圖像的整體特征,但其計算量大且無法從復(fù)雜的背景中區(qū)分目標;隨機特征描述子在不同的位置和尺度上采用不同的部分圖像特征,能夠很好的區(qū)分目標,但是,計算量龐大效率較低;局部特征描述子選取局部信息來構(gòu)造圖像特征,受圖像變換影響小,識別準確,可在復(fù)雜背景中完成目標識別,雖然數(shù)字建模相對困難,但是,因為其高效的識別率是目前移動視覺搜索中視覺對象提取和描述的主要方法。在眾多的局部特征描述子中,應(yīng)用最廣泛的是尺度不變描述子(Scale Invariant Feature Transform,SIFT)。
視覺對象壓縮主要有基于圖像層面和基于局部特征的?;趫D像層面的視覺對象壓縮方法有兩類:局部描述符聚合[4]以及詞匯編碼直方圖壓縮[5]?;诰植刻卣髅枋鲎訅嚎s主要采取降維法,常用的有PCA-SIFT(Principal Component Analysis SIFT)[6];SIFT-LDA(SIFT Linear Discriminant Analysis)[7];LLE-SIFT(Locally linear embedding SIFT)[8]。
1.3 視覺對象檢索
為了統(tǒng)一視覺搜索流程,共享研究成果,斯坦福大學(xué)、美國高通公司等多家研究機構(gòu)參與制定了MPEG Compact Descriptor for Visual Search (MPEG CDVS)國際標準,并于2015年在MPEG國際標準會議發(fā)布了最新的圖像匹配流程和檢索流程,主要包括視覺搜索架構(gòu)、視覺搜索流程兩項[9]。針對視覺對象檢索,國內(nèi)外學(xué)者目前主要集中在兩方面:優(yōu)化視覺搜索性能和大規(guī)模圖像信息檢索。Li Dawei提出一種高效的移動視覺搜索系統(tǒng)(EMOVIS),該系統(tǒng)使用兩個獨特的關(guān)鍵點識別方案來提高檢索精度[10];Ke Gao針對大規(guī)模移動視覺檢索,提供一種離線查詢擴展,提取多個具有代表性的特征,來支持快速準確的特征匹配[11]。
2 移動視覺搜索在數(shù)字人文領(lǐng)域應(yīng)用實踐
移動視覺搜索目前在國外很多領(lǐng)域已經(jīng)有了很好的應(yīng)用,具有代表性的是Google公司于2009年開發(fā)的Google Goggles服務(wù),該服務(wù)可以將手機拍攝到的圖片在Google里搜尋,可以搜索書、商品、建筑、景點等[12]。
數(shù)字人文指將計算機處理和分析技術(shù)應(yīng)用到傳統(tǒng)人文研究中去,對其進行更全面、生動的展示,將人文科學(xué)方法論與計算機技術(shù)相結(jié)合起來[13]。將MVS應(yīng)用到數(shù)字人文領(lǐng)域是近幾年隨著圖書情報學(xué)科在MVS研究的深入而出現(xiàn)的,目前主要應(yīng)用的地方有圖書館、檔案館、博物館等,MVS在數(shù)字人文領(lǐng)域的應(yīng)用主要有以下幾個方面:
2.1 提供展品導(dǎo)覽
展品導(dǎo)覽一般用于博物館、檔案館及提供展覽功能的圖書館,隨著信息化不斷發(fā)展,互聯(lián)網(wǎng)+也將成為這些館舍的發(fā)展方向,傳統(tǒng)的展品展示一般是以明牌解說的形式,內(nèi)容方法單一,將MVS應(yīng)用到展品導(dǎo)覽中,不僅能提供能展品的文字介紹,還能夠提供多媒體信息,為參觀者帶來更加生動的互動體驗。國外在這方面的探索,主要有Erich Bruns等人提出的名為PhoneGuide的博物館導(dǎo)覽系統(tǒng),該系統(tǒng)利用手機進行對展品進行拍攝,來提供對象的文本、視頻、音頻等多媒體信息[14],在2010,2012年,Erich Bruns又利用多圖像分類技術(shù)(multi-image classification technique)對其進行改進,提高其自適應(yīng)性[15][16]。鐘志鵬提出一種基于移動視覺搜索的博物館導(dǎo)覽系統(tǒng),該系統(tǒng)基于移動視覺搜索和GPS定位技術(shù),為用戶提供語音解說、文字圖片甚至是音頻、視頻等多媒體信息[17]。
2.2 實現(xiàn)精準定位
精準定位一般應(yīng)用于圖書查找,現(xiàn)代圖書館為了更好的滿足讀者的需求,館舍體量越來越大,實現(xiàn)大開架布局,推行“藏、查、借、閱、參”一體化服務(wù),相應(yīng)的功能布局較為分散,對圖書館不熟悉的讀者來說,僅憑索書號來找書是一個很繁瑣的過程。將移動視覺搜索技術(shù)應(yīng)用到圖書館,讀者可以通過手機拍攝圖書相關(guān)信息,獲得相關(guān)的圖書的地理位置和導(dǎo)航,不僅會大大縮減讀者找書時間而且提高了找尋的精度。國外這方面的應(yīng)用研究較多,邁阿密大學(xué)的Bo Brinkman等人設(shè)計了名為ShelvAR的排架系統(tǒng),來實現(xiàn)圖書的快速精準定位[18];印度的Pradeep Siddappa設(shè)計了librARi應(yīng)用程序,可以直接拍照來搜索圖書的物理空間,并通過對書架進行拍攝來找出相關(guān)書籍在書架上的位置[19]。
2.3 提升閱讀體驗
將移動視覺搜索技術(shù)與閱讀相結(jié)合,用戶面對的將不再是文字本身枯燥的內(nèi)容,還可以獲取圖書的評價、與該圖書內(nèi)容相關(guān)的音頻視頻,更甚者,可以獲得與之相關(guān)的三維立體形象,讓用戶體會到交互式閱讀的樂趣。JISC-funded data centre at the University of Manchester和John Rylands Library開展的SCARLET項目,利用MVS技術(shù)拍攝古籍時,屏幕上就會顯示古籍的文字圖片等信息,用戶還可以對圖片進行翻頁操作、收聽相關(guān)的音頻資料等,突破了傳統(tǒng)閱讀習慣,大大提高了古籍的利用率和用戶的使用體驗[20]。
3 移動視覺搜索未來發(fā)展方向
隨著移動智能終端、云計算等的高速發(fā)展,移動視覺搜索必將在技術(shù)發(fā)展的基礎(chǔ)上,以滿足用戶互動性、個性化需求為驅(qū)動,形成新的服務(wù)模式,未來MVS有以下幾個研究重點。
3.1 移動視覺搜索標準化問題
隨著MVS的高速發(fā)展,移動視覺搜索面臨的對象數(shù)據(jù)、工具、系統(tǒng)等方面的標準統(tǒng)一問題,特別是多樣化的視覺搜索需要解決的系統(tǒng)互操作性挑戰(zhàn),為了推進這一標準的建立,世界各國的科研機構(gòu)和公司進行了相關(guān)研究,北京大學(xué)的數(shù)字視頻編解碼技術(shù)國家工程實驗室,美國的斯坦福大學(xué)、意大利電信集團等都參與了MPEG CDVS視覺搜索國際標準的指定,并已經(jīng)取得了初步成就,發(fā)布了一系列包括視覺描述緊湊子提取、視覺檢索流程等國際標準。
3.2 關(guān)注用戶體驗
由于移動終端的高速發(fā)展,用戶獲取視覺對象更加便捷,因此,需要及時獲取用戶的需求,從而滿足不同用戶的信息服務(wù)需求,目前移動視覺搜索的研究學(xué)科多集中于工程學(xué)科,但隨著技術(shù)的發(fā)展,基于用戶需求的應(yīng)用也將是MVS的重要發(fā)展方向,北京大學(xué)的Sang J關(guān)注用戶體驗,理解用戶意圖,提出了一種基于交互的MVS原型,幫助用戶制定自己的視覺意圖,來提高用戶體驗[21]。
3.3 視覺對象數(shù)據(jù)庫構(gòu)建
視覺對象庫的構(gòu)建是移動視覺搜索的重要方面,相對于視覺檢索構(gòu)建的圖像數(shù)據(jù)庫,視覺對象數(shù)據(jù)庫很明顯不僅包括與之相似的強大的圖像庫,還必須包括與圖片的一系列相關(guān)信息,但是,目前針對此方面的研究相對較少,且大部分研究均集中于圖像數(shù)據(jù)庫的構(gòu)建,關(guān)聯(lián)信息研究則是更少。不過,隨著互聯(lián)網(wǎng)科技的發(fā)展,相關(guān)課題也正進入人們的視線,北京大學(xué)和南洋理工大學(xué)則是共建ROSE項目,擬建設(shè)成亞洲最大的視覺對象數(shù)據(jù)庫,從包括淘寶、google、flickr、amazon上獲取網(wǎng)頁、圖片、視頻數(shù)據(jù),通過對這些數(shù)據(jù)信息的分析,來構(gòu)建object Database,該項目將集成在包括電子商務(wù)、旅游、生活方式愛好等3個領(lǐng)域[22]。
4 結(jié)語
MVS技術(shù)使得圖書館、博物館、檔案館與用戶之間有了一種全新的、生動的、互動式的溝通方式,其技術(shù)應(yīng)用的研究必將對數(shù)字人文領(lǐng)域未來的生存與發(fā)展產(chǎn)生深遠的影響,在學(xué)術(shù)界、產(chǎn)業(yè)界的共同努力下,協(xié)同增強現(xiàn)實、跨媒體檢索等技術(shù)的共同發(fā)展,移動視覺搜索必將成為Web3.0時代下互聯(lián)網(wǎng)革命性服務(wù)模式。
參考文獻:
[1] 張興旺,黃曉斌.國外移動視覺搜索研究述評[J].中國圖書館學(xué)報,2014(3):114-128.
[2] Girod B, Chandrasekhar V, Grzeszczuk R, et al. Mobile Visual Search: Architectures, Technologies, and the Emerging MPEG Standard[J]。 Multimedia IEEE, 2011(3):86-94.
[3] Tuytelaars T, Mikolajczyk K. Local invariant feature detectors: a survey[J].Foundations and Trends in Computer Graphics and Vision, 2007(3): 177-280.
[4] Jégou H, Douze M, Schmid C, et al. Aggregating local descriptors into a compact image representation[C].IEEE Conference on Computer Vision & Pattern Recognition. IEEE Computer Society, 2010:3304-3311.
[5] Chen D, Tsai S, Hsu C H, et al. Mobile augmented reality for books on a shelf[C]//Multimedia and Expo (ICME),2011 IEEE International Conference on. IEEE, 2011: 1-6.
[6] Zhang Y,Wei K B. Research on wide baseline stereo matching based on PCA-SIFT[C]// Advanced Computer Theory and Engineering (ICACTE),2010 3rd International Conference on. IEEE, 2010:V5-137-V5-140.
[7] 丁湘楠, 謝正忠, 宋曉寧.基于LDA的SIFT算法在圖像配準中的應(yīng)用[J].電子設(shè)計工程,2013(11):186-189.
[8] Ye J, Shi S, Chen Y. A face recognition algorithm based on LLE-SIFT feature descriptors[C].Computer Science & Education (ICCSE), 2015 10th International Conference on. IEEE, 2015.
[9] CDVS.Test Model 13: Compact descriptor for visual search[S].N15129, ISO/IEC JTC1/SC29/WG11, Geneva,Switzerland,F(xiàn)eb.2015.
[10] Li D, Chuah M C. EMOVIS:An Efficient Mobile Visual Search System for Landmark Recognition[C]// Mobile Ad-hoc and Sensor Networks (MSN), 2013 IEEE Ninth International Conference on. IEEE, 2013:53-60.
[11] Gao K, Zhang Y, Zhang D,et al. Accurate off-line query expansion for large-scale mobile visual search[J].Signal Processing, 2013(8):2305-2315.
[12] Wikipedia. Google Goggles[EB/OL]. https://en.wikipedia.org/wiki/Google_Goggles.2016-07-02.
[13] Katy Barrett. From pamphlet to pixel: the humanities in transition[EB/OL].http://www.cam.ac.uk/research/discussion/from-pamphlet-to-pixel-the-humanities-in-transition.2017-07-10.
[14] Bruns E, Brombach B, Zeidler T, et al. Enabling mobile phones to support large-scale museum guidance[J].IEEE multimedia, 2007(2).
[15] Bruns E, Bimber O. Mobile museum guidance using relational multi-image classification[C]//Multimedia and Ubiquitous Engineering(MUE),2010 4th International Conference on. IEEE, 2010: 1-8.
[16] Bruns E,Bimber O.Localization and classification through adaptive pathway analysis[J].IEEE Pervasive Computing, 2012(2):74-81.
[17] 鐘志鵬, 王涌天, 陳靖,等.一個基于移動視覺搜索技術(shù)的博物館導(dǎo)覽系統(tǒng)[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2012(4):555-562。
[18] Brinkman B, Brinkman S. AR in the library:A pilot study of multi-target acquisition usability[C]//Mixed and Augmented Reality (ISMAR),2013 IEEE International Symposium on. IEEE,2013:241-242.
[19] Pradeep Siddappa. librARi-Augmented reality experience for library[EB/OL].http://www.behance.net/gallery/20711093/librARi-Augmented-Reality-Experience-for-Library.2016-07-25.
[20] ALT.The SCARLET Project: Marrying Augmented Reality and Special Collections[EB/OL].https://altc.alt.ac.uk/blog/2012/06/the-scarlet-project-marrying-augmented-reality-and-special-collections/.2017-07-10.
[21] Sang J, Mei T, Xu Y Q, et al. Interaction Design for Mobile Visual Search[J].IEEE Transactions on Multimedia, 2013(7):1665-1676.
[22] Rapid-Rich Object Search Lab.Structured Object Database[EB/OL].http://rose.ntu.edu.sg/research/Structured%20Object%20Database/Pages/Home.aspx.2016-06-25.