◎侯新宇
(中國傳媒大學(xué)圖書館 北京 100024)
隨著5G網(wǎng)絡(luò)技術(shù)商用、自媒體時代信息爆炸,內(nèi)容提供者所提供的內(nèi)容服務(wù)也早已從文字、圖片向音頻和視頻轉(zhuǎn)變。數(shù)字圖書館作為專業(yè)的內(nèi)容服務(wù)提供者,如何將現(xiàn)有分散存儲和檢索的館藏?cái)?shù)字資源,實(shí)現(xiàn)內(nèi)部關(guān)聯(lián)檢索、智慧檢索,讓所有數(shù)字資源都統(tǒng)一為一個整體,向讀者揭示一個檢索詞的全媒體資源,再根據(jù)讀者喜好進(jìn)行智能推送相關(guān)檢索內(nèi)容,讓數(shù)字圖書館轉(zhuǎn)變成智慧圖書館,將成為下一個十年圖書館人的工作重心[1]。
基于文字的全文檢索技術(shù)早已成熟,跨行、跨段、跨頁檢索,自動斷詞,語義識別等檢索技術(shù),使讀者可以在億級漢字庫中檢索,得到毫秒級結(jié)果的響應(yīng)。檢索系統(tǒng)可根據(jù)用戶喜好和文章被撿、被引次數(shù),刊發(fā)主體在學(xué)術(shù)界影響的權(quán)重作為檢索結(jié)果的排序依據(jù),為用戶快速呈現(xiàn)最主流、最核心的檢索結(jié)果。
近年來,圖片檢索技術(shù)突飛猛進(jìn),以谷歌、百度為代表的互聯(lián)網(wǎng)企業(yè),都在進(jìn)行著圖片檢索技術(shù)的研究。微信朋友圈每天產(chǎn)生的圖片量超過10億張,對海量圖片進(jìn)行檢索和標(biāo)引,就成為了圖片檢索技術(shù)中的難點(diǎn)。通過對圖片進(jìn)行元數(shù)據(jù)標(biāo)引,從而揭示圖片的主題、內(nèi)容、拍攝技巧等信息,但對于當(dāng)前海量的圖片數(shù)據(jù)來說,靠編目員的標(biāo)引是不現(xiàn)實(shí)的。通過以圖搜圖、字符識別、人臉識別、圖像分割等自動化的圖像處理技術(shù),自動化地對圖片進(jìn)行元數(shù)據(jù)分類和標(biāo)引,形成統(tǒng)一的規(guī)范化標(biāo)引,能夠極大地減輕編目員的工作量[2]。
隨著語音識別技術(shù)的發(fā)展,音頻中的對話內(nèi)容已可以轉(zhuǎn)換成文本,轉(zhuǎn)換正確率超過98%,且不需要1:1的時間進(jìn)行轉(zhuǎn)換,一小時音頻最快只需要5分鐘即可轉(zhuǎn)換為文本。將音頻轉(zhuǎn)換成文本后,即可通過文本方式對其進(jìn)行全文檢索,所以語音識別技術(shù)是音頻檢索技術(shù)的先導(dǎo)技術(shù),只有不斷地提供語音識別率,才能更好地實(shí)現(xiàn)對音頻文件的結(jié)果檢出。但目前語音識別技術(shù)還存在很多難點(diǎn),例如對于中文方言的識別率,目前最高僅為85%。中國的方言大大小小有幾百種,全球大約有1.2億人說四川話、7000萬人講粵語,且在音頻中還經(jīng)常出現(xiàn)普通話、方言、外語等語言交織出現(xiàn)的情況,如果不能大幅度提高方言的識別率,將難以提高檢出率。
對于其他音頻的識別,例如音樂、動物叫聲、車輛噪音、工業(yè)噪音、環(huán)境噪音等等(包括人類語言)音頻,通過例如Echo Nest Musical Fingerprint (ENMFP)這類的算法產(chǎn)生聲紋,存儲到公共聲紋數(shù)據(jù)庫中。進(jìn)行聲音比對時,將要比對的音頻也轉(zhuǎn)換成聲紋,再在數(shù)據(jù)庫中進(jìn)行比對,即可得出相應(yīng)的結(jié)果,這樣就可以滿足聲音片段檢索的功能需求。
智能多媒體資源構(gòu)建及檢索平臺
視頻檢索技術(shù)則是對圖像、聲音、文本檢索技術(shù)的整合。首先對音頻和視頻進(jìn)行分離,音頻采用音頻的智能語音識別、轉(zhuǎn)換聲紋等方式進(jìn)行標(biāo)引,視頻則按幀進(jìn)行分割,通過圖像分割、人臉識別、文字識別等方式進(jìn)行智能分類和標(biāo)引,將音頻與視頻標(biāo)引的元數(shù)據(jù)分別存放在數(shù)據(jù)庫中,以便用戶進(jìn)行檢索。使用算法視頻分別進(jìn)行指紋特征轉(zhuǎn)換,通過區(qū)塊鏈服務(wù)與視頻指紋進(jìn)行融合,依托區(qū)塊鏈將視頻指紋信息上鏈,從而實(shí)現(xiàn)版權(quán)存證、侵權(quán)追溯和版權(quán)交易。
目前多媒體檢索技術(shù)越來越成熟,且逐漸由本地開發(fā)、本地部署、本地服務(wù)的SaaS(Software as a Service軟件即服務(wù))模式轉(zhuǎn)變?yōu)樵朴?jì)算時代的PaaS(Platform as a Service平臺即服務(wù))模式。
如圖所示,服務(wù)開發(fā)者不用關(guān)心底層的基礎(chǔ)架構(gòu)及維護(hù),也就是IaaS(Infrastructure as a Service基礎(chǔ)設(shè)施即服務(wù));不用關(guān)心資源的審核、查重、分類、標(biāo)引、存儲、發(fā)布、歸檔等操作,也就是PaaS(Platform as a Service平臺即服務(wù))。這些服務(wù)全部由云平臺服務(wù)商提供,同時它還能提供更為強(qiáng)大的內(nèi)容智能搜索引擎。數(shù)據(jù)開放和管理者只需要專注于數(shù)據(jù)資源的挖掘、整理、收集、分類、標(biāo)引、服務(wù)等工作即可。
目前很多提供公有云的高科技企業(yè),例如AWS(Amazon Web Services)、阿里云、百度云等公司,在提供云計(jì)算基礎(chǔ)架構(gòu)平臺的基礎(chǔ)上,還提供多媒體檢索、查重、標(biāo)引及基于區(qū)塊鏈技術(shù)的版權(quán)保護(hù)的服務(wù)整合,開發(fā)者甚至只需要做一些簡單的UI(用戶交互)和數(shù)據(jù)庫的存儲設(shè)計(jì),其它工作全部交由云計(jì)算平臺來完成,極大地降低了開發(fā)成本和開發(fā)難度;而數(shù)據(jù)管理者則只需要關(guān)心資源的上傳與使用,極大地減輕了運(yùn)維的壓力和使用成本,從而可以將全部精力投入到資源建設(shè)上,提供更高質(zhì)量服務(wù)和擴(kuò)大服務(wù)范圍,同時又能兼顧業(yè)務(wù)的連續(xù)性。
綜上所述,云服務(wù)模式下的資源整合,將帶給數(shù)據(jù)管理者以翻天覆地的服務(wù)模式的變化,也為用戶帶來方便快捷的資源獲取方式。