摘 要:隨著數(shù)字圖像檔案數(shù)量的急劇增長(zhǎng),如何高效、準(zhǔn)確地檢索這些檔案成為研究熱點(diǎn)。人工智能技術(shù)迅猛發(fā)展,其在檔案領(lǐng)域的模型應(yīng)用日益受到關(guān)注。文章聚焦于視覺(jué)語(yǔ)言模型Florence-2,探討其在數(shù)字圖像檔案智能檢索中的應(yīng)用。詳細(xì)闡述了模型架構(gòu)、特點(diǎn)及優(yōu)勢(shì),分析了其在數(shù)字圖像檔案智能檢索中的關(guān)鍵應(yīng)用方式,為檔案信息的深層加工和利用提供了新的技術(shù)路徑。本研究旨在為數(shù)字圖像檔案智能檢索提供新的思路和方法,深化和集成應(yīng)用業(yè)務(wù)環(huán)節(jié),探索人工智能與檔案信息管理的深度融合。
關(guān)鍵詞:數(shù)字圖像檔案;視覺(jué)語(yǔ)言模型;Florence-2;智能檢索
中圖分類號(hào):G270.7 文獻(xiàn)標(biāo)識(shí)碼:A
數(shù)字檔案作為檔案事業(yè)在數(shù)字化時(shí)代的重要發(fā)展形勢(shì),涵蓋了各種類型的信息,其中數(shù)字圖像檔案作為重要的信息資源,如何高效地管理和利用這些檔案成為一個(gè)亟待解決的問(wèn)題。在數(shù)字檔案館乃至智慧檔案館的建設(shè)背景下,需要不斷融入人工智能技術(shù),以追求更加智能化的檔案管理與服務(wù)。
視覺(jué)語(yǔ)言模型作為人工智能領(lǐng)域極具發(fā)展?jié)摿Φ囊粋€(gè)重要分支,有機(jī)融合了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩項(xiàng)關(guān)鍵技術(shù)。其核心目標(biāo)在于賦予計(jì)算機(jī)理解圖像與語(yǔ)言之間內(nèi)在關(guān)系的能力,進(jìn)而使其能夠根據(jù)圖像生成與之對(duì)應(yīng)的準(zhǔn)確描述、針對(duì)相關(guān)問(wèn)題給出合理回答或者執(zhí)行其他一系列相關(guān)任務(wù)。視覺(jué)語(yǔ)言模型的發(fā)展為數(shù)字圖像檔案管理領(lǐng)域帶來(lái)了前所未有的新機(jī)遇。在此背景下,深入探究如何充分利用視覺(jué)語(yǔ)言模型的強(qiáng)大功能,實(shí)現(xiàn)對(duì)數(shù)字圖像檔案內(nèi)容的深度理解,進(jìn)而為信息資源管理注入新的活力、提供強(qiáng)大的技術(shù)支撐,已成為檔案學(xué)領(lǐng)域一個(gè)亟待深入研究的重要課題。
一、數(shù)字圖像檔案存儲(chǔ)與檢索的研究現(xiàn)狀
在當(dāng)今時(shí)代,圖像采集設(shè)備愈發(fā)廣泛地融入人們的生活,圖像生成技術(shù)持續(xù)推陳出新,數(shù)字圖像檔案信息的數(shù)量呈現(xiàn)爆發(fā)式增長(zhǎng)的態(tài)勢(shì)。在當(dāng)前數(shù)字圖像檔案管理的實(shí)際情況中,面對(duì)如此龐大且不斷增加的非文本信息,如何對(duì)其系統(tǒng)、有序地組織,進(jìn)而實(shí)現(xiàn)靈活且高效的管理,最終能夠快速、精準(zhǔn)地根據(jù)用戶的需求完成信息的檢索和輸出,已然成為現(xiàn)代檔案管理工作中備受關(guān)注的焦點(diǎn)問(wèn)題之一。
在探索解決這一問(wèn)題的過(guò)程中,我們注意到近年來(lái)數(shù)據(jù)存儲(chǔ)技術(shù)的發(fā)展。其中,非結(jié)構(gòu)化數(shù)據(jù)庫(kù)在應(yīng)對(duì)海量且多樣化的數(shù)據(jù)存儲(chǔ)方面展現(xiàn)了顯著的優(yōu)勢(shì)。它能夠根據(jù)實(shí)際的存儲(chǔ)需求,動(dòng)態(tài)地?cái)U(kuò)展自身的存儲(chǔ)容量,這一特性恰好滿足了大型文化機(jī)構(gòu)和檔案館對(duì)不斷增長(zhǎng)的數(shù)據(jù)存儲(chǔ)要求。更重要的是,與傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫(kù)相比,非結(jié)構(gòu)化數(shù)據(jù)庫(kù)在處理復(fù)雜、多樣化的數(shù)據(jù)時(shí),無(wú)須耗費(fèi)大量精力實(shí)行數(shù)據(jù)轉(zhuǎn)換以及模式匹配等工作,從而有效地降低了數(shù)據(jù)管理過(guò)程中的成本。
在檢索方法方面,傳統(tǒng)方式存在諸多難以克服的局限。首先是手工特征提取方式,該方式高度依賴人工操作,工作人員需逐個(gè)對(duì)圖像執(zhí)行特征標(biāo)注與提取工作。這一過(guò)程不僅工作量龐大,還極易受人為因素干擾,致使準(zhǔn)確性與效率均處于較低水平。面對(duì)大規(guī)模圖像檢索需求時(shí),手工特征提取方式往往顯得捉襟見(jiàn)肘,難以迅速、精準(zhǔn)地提供所需信息。其次,基于文本標(biāo)注的檢索方式雖在一定程度上提升了檢索效率,但也暴露出嚴(yán)重問(wèn)題。鑒于文本標(biāo)注主觀性較強(qiáng),不同標(biāo)注人員對(duì)同一圖像可能給出不同標(biāo)注結(jié)果,致使標(biāo)注不一致的現(xiàn)象頻繁發(fā)生。此外,該方式無(wú)法對(duì)未進(jìn)行文本標(biāo)注的圖像實(shí)施檢索,這極大地限制了檢索的范圍與效果。在傳統(tǒng)圖像檢索方式面臨諸多挑戰(zhàn)的背景下,基于內(nèi)容的圖像檢索(CBIR)技術(shù)應(yīng)運(yùn)而生。它主要通過(guò)提取圖像顏色、紋理、形狀等底層視覺(jué)特征,并借助相似性度量算法來(lái)實(shí)現(xiàn)圖像檢索。隨著深度學(xué)習(xí)技術(shù)迅猛發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的特征提取方法在CBIR領(lǐng)域成績(jī)斐然。CNN能夠自動(dòng)學(xué)習(xí)圖像高級(jí)特征,大幅提升了檢索的準(zhǔn)確性與效率。然而,即便取得這些進(jìn)展,在實(shí)際應(yīng)用場(chǎng)景中,單一模態(tài)的圖像檢索依然暴露出諸多局限。例如,信息獲取不全面、語(yǔ)義理解不準(zhǔn)確以及檢索方式不靈活等問(wèn)題。鑒于此,跨模態(tài)檢索作為一個(gè)關(guān)鍵研究方向逐漸成為焦點(diǎn)??缒B(tài)檢索致力于實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)(如圖像與文本)間的有效關(guān)聯(lián)與檢索。不過(guò),當(dāng)前這一領(lǐng)域面臨著諸多棘手難題。以語(yǔ)義鴻溝問(wèn)題為例,圖像和文本所承載的語(yǔ)義之間存在較大差異,這使得在跨模態(tài)檢索時(shí),精準(zhǔn)匹配變得極為困難。再如模態(tài)差異問(wèn)題,不同模態(tài)數(shù)據(jù)在特征表示和處理方式上大相徑庭,像圖像以像素矩陣表示,而文本以詞向量表示,這種差異極大地增加了跨模態(tài)檢索的復(fù)雜度?,F(xiàn)階段,新模型與新算法持續(xù)大量涌現(xiàn),技術(shù)融合以及領(lǐng)域融合逐漸成為顯著的發(fā)展趨勢(shì)。人工智能領(lǐng)域的研究正朝著更大規(guī)模和更多模態(tài)的方向不斷邁進(jìn)。在此背景下,微軟開(kāi)源了通用視覺(jué)語(yǔ)言模型Florence-2,該多模態(tài)模型能夠執(zhí)行超過(guò)6種不同的視覺(jué)任務(wù),不僅提供圖像描述生成、目標(biāo)檢測(cè)、圖像分割和光學(xué)字符識(shí)別等細(xì)分任務(wù),還能夠根據(jù)用戶文本輸入實(shí)現(xiàn)視覺(jué)問(wèn)答。本文將利用Florence-2模型構(gòu)建數(shù)字圖像檔案檢索架構(gòu),利用其強(qiáng)大的看懂圖像的能力,積極探索人工智能應(yīng)用于數(shù)字圖像檢索的任務(wù)。
二、 Florence-2視覺(jué)語(yǔ)言模型概述
1.模型架構(gòu)
如圖1所示,F(xiàn)lorence-2采用序列到序列(Seq2Seq)的架構(gòu),能夠以圖像和文本作為輸入,并輸出不同任務(wù)的文本結(jié)果。其結(jié)構(gòu)包括DaViT(數(shù)據(jù)高效視覺(jué)轉(zhuǎn)換器)視覺(jué)編碼器和BERT文本編碼器,其中DaViT視覺(jué)編碼器負(fù)責(zé)提取圖像的特征,將圖像信息轉(zhuǎn)化為適合模型處理的向量表示。BERT文本編碼器則對(duì)輸入的文本信息進(jìn)行編碼,捕捉文本的語(yǔ)義信息。將兩者的輸出連接后通過(guò)標(biāo)準(zhǔn)編碼器-解碼器Transformer同時(shí)處理視覺(jué)和語(yǔ)言標(biāo)記嵌入,通過(guò)其自注意力機(jī)制實(shí)現(xiàn)多模態(tài)信息的融合。這種融合使得模型能夠更好地理解和生成與視覺(jué)內(nèi)容相關(guān)的文本。
2. 模型特點(diǎn)
(1)多模態(tài)融合。Florence-2能夠有效融合圖像和文本兩種模態(tài)的信息,實(shí)現(xiàn)對(duì)圖像內(nèi)容的更深入理解。例如,在數(shù)字圖像檔案中,不僅可以利用圖像語(yǔ)義,還可以關(guān)聯(lián)OCR任務(wù)提取的文字信息,形成更為豐富、準(zhǔn)確的描述,進(jìn)而提高檢索的準(zhǔn)確性。
(2)靈活性高。該模型采用基于提示的方法,用戶可以通過(guò)簡(jiǎn)單的文本提示來(lái)引導(dǎo)模型完成不同的任務(wù),無(wú)編寫(xiě)復(fù)雜的代碼,使得Florence-2的使用變得非常友好,降低了上手門(mén)檻。在數(shù)字圖像檔案智能檢索中,可以根據(jù)用戶的查詢需求設(shè)計(jì)相應(yīng)的提示,使模型能夠更精準(zhǔn)地定位和檢索相關(guān)的數(shù)字圖像檔案。
(3)廣泛的知識(shí)基礎(chǔ)和強(qiáng)大的泛化能力。Florence-2利用龐大的FLD-5B數(shù)據(jù)集開(kāi)展訓(xùn)練,該數(shù)據(jù)集包含1.26億張圖像和54億個(gè)文本標(biāo)注。豐富的數(shù)據(jù)資源使模型能夠?qū)W習(xí)到更廣泛的圖像和文本知識(shí),增強(qiáng)了模型的泛化能力和對(duì)各種任務(wù)的適應(yīng)能力,對(duì)于既想使用模型能力,又欠缺訓(xùn)練模型所需資源的使用者來(lái)說(shuō)尤其具有吸引力。
3. 模型優(yōu)勢(shì)
(1)強(qiáng)大的多任務(wù)處理和組合能力。Florence-2能夠處理復(fù)雜的視覺(jué)和視覺(jué)語(yǔ)言任務(wù),無(wú)須針對(duì)每個(gè)任務(wù)單獨(dú)訓(xùn)練模型,并且不同任務(wù)可以組合使用,在數(shù)字圖像檔案智能檢索中,這些多任務(wù)能力的結(jié)合可以幫助模型更好地理解圖像內(nèi)容,提取關(guān)鍵信息,從而提高檢索的效率和準(zhǔn)確性。
(2)模型性能指標(biāo)出色。在多種任務(wù)測(cè)試中表現(xiàn)卓越,以Florence-2-large版本模型為例,在COCO圖像描述任務(wù)中,其CIDEr得分達(dá)135.6。CIDEr能反映模型圖像理解與語(yǔ)言生成能力,高分表明該模型理解圖像深刻,語(yǔ)言描述質(zhì)量高。在COCO目標(biāo)檢測(cè)任務(wù)中,mAP得分為37.5。mAP綜合考量檢測(cè)準(zhǔn)確性和召回率,此得分體現(xiàn)模型在目標(biāo)檢測(cè)方面精準(zhǔn)度高、全面性強(qiáng),能準(zhǔn)確識(shí)別定位圖像中各類目標(biāo),展現(xiàn)出在圖像理解、目標(biāo)檢測(cè)等方面的強(qiáng)大實(shí)力。
(3)零樣本和微調(diào)性能出色。模型在零樣本和微調(diào)場(chǎng)景中表現(xiàn)出色。在零樣本情況下,模型可以直接根據(jù)已有的知識(shí)和訓(xùn)練經(jīng)驗(yàn)對(duì)新的任務(wù)展開(kāi)處理;在微調(diào)場(chǎng)景中,通過(guò)對(duì)少量數(shù)據(jù)實(shí)行微調(diào),可以快速適應(yīng)特定的任務(wù)需求,進(jìn)一步提升性能。
(4)使用便捷且適應(yīng)性強(qiáng)。Florence-2模型通過(guò)提供詳細(xì)的文檔和示例代碼、封裝預(yù)處理和后處理步驟以及支持float16精度等特性,展現(xiàn)了良好的易用性、高效性和對(duì)不同硬件環(huán)境的適應(yīng)性,為用戶在實(shí)際應(yīng)用中帶來(lái)了便利,具有較高的應(yīng)用價(jià)值。
三、基于Florence-2的檢索模式設(shè)計(jì)
1.檢索模式的整體架構(gòu)規(guī)劃
基于Florence-2的檢索模式設(shè)計(jì)旨在構(gòu)建一個(gè)高效、準(zhǔn)確且靈活的圖像檢索系統(tǒng),以滿足用戶在大規(guī)模圖像數(shù)據(jù)中快速獲取相關(guān)信息的需求。為實(shí)現(xiàn)這一目標(biāo),設(shè)計(jì)過(guò)程遵循了以下原則:
(1)模塊化原則。將檢索模式劃分為多個(gè)相互獨(dú)立又緊密協(xié)作的模塊,每個(gè)模塊負(fù)責(zé)特定的功能,如用戶交互、數(shù)據(jù)處理、模型推理和數(shù)據(jù)存儲(chǔ)等。這種模塊化設(shè)計(jì)有助于提升系統(tǒng)的可維護(hù)性和可擴(kuò)展性,方便后續(xù)對(duì)單個(gè)模塊優(yōu)化和升級(jí),不會(huì)影響整個(gè)系統(tǒng)的運(yùn)行。
(2)高效性原則。注重系統(tǒng)的檢索效率,通過(guò)優(yōu)化數(shù)據(jù)處理流程、采用高效的算法和數(shù)據(jù)結(jié)構(gòu)以及合理分配系統(tǒng)資源,確保在處理大量圖像數(shù)據(jù)時(shí)能夠快速響應(yīng)用戶的檢索請(qǐng)求,提供實(shí)時(shí)的檢索結(jié)果。
(3)可拓展性原則??紤]到未來(lái)圖像數(shù)據(jù)量的增長(zhǎng)和系統(tǒng)功能的擴(kuò)展需求,架構(gòu)設(shè)計(jì)應(yīng)具備良好的可擴(kuò)展性。例如,能方便添加新的圖像數(shù)據(jù)源、支持更多類型的檢索方式以及在不影響現(xiàn)有系統(tǒng)性能的前提下實(shí)現(xiàn)系統(tǒng)升級(jí)和擴(kuò)展。
2.檢索應(yīng)用架構(gòu)詳細(xì)設(shè)計(jì)
基于上述設(shè)計(jì)目標(biāo)和原則,如圖2所示,檢索模式整體架構(gòu)采用分層設(shè)計(jì)思想,主要分為用戶交互層、應(yīng)用服務(wù)層、模型推理層和數(shù)據(jù)存儲(chǔ)層。各層之間通過(guò)清晰定義的接口開(kāi)展通信和數(shù)據(jù)交互,形成一個(gè)有機(jī)的整體。
(1)模型推理層。該層在整個(gè)檢索系統(tǒng)中扮演著至關(guān)重要的角色,宛如系統(tǒng)的“眼睛”與“大腦”。當(dāng)外部的增量圖像傳入后,便會(huì)進(jìn)入Florence-2模型處理流程。Florence-2模型具備卓越的目標(biāo)檢測(cè)能力,能夠精準(zhǔn)識(shí)別圖像中的各類物體,并清晰標(biāo)注出它們所在的位置。值得一提的是,對(duì)于那些包含文字的圖片,其中的文字往往蘊(yùn)含著檢索所需的關(guān)鍵信息。此時(shí),可借助模型先進(jìn)的光學(xué)字符識(shí)別能力,將圖片內(nèi)的文字準(zhǔn)確提取出來(lái)。然后,結(jié)合先前的目標(biāo)檢測(cè)結(jié)果,生成關(guān)于該圖片詳盡細(xì)致的描述。在此基礎(chǔ)上,進(jìn)一步深入挖掘提取其中的關(guān)鍵詞,生成標(biāo)簽數(shù)據(jù),并精確計(jì)算出各個(gè)標(biāo)簽的權(quán)重。通過(guò)這一系列操作,成功建立圖像與標(biāo)簽之間緊密的對(duì)應(yīng)關(guān)系。最終,將這些經(jīng)過(guò)精心處理的結(jié)果數(shù)據(jù)插入Redis數(shù)據(jù)庫(kù)中,以便后續(xù)高效調(diào)用。
(2)數(shù)據(jù)存儲(chǔ)層。數(shù)據(jù)存儲(chǔ)層選用Redis作為核心存儲(chǔ)工具,主要用于存儲(chǔ)圖像與標(biāo)簽之間的對(duì)應(yīng)關(guān)系信息,從而為高效檢索提供有力支持。Redis作為一款優(yōu)秀的非結(jié)構(gòu)化數(shù)據(jù)庫(kù),具有諸多顯著優(yōu)勢(shì)。它不僅具備高性能的數(shù)據(jù)處理能力,能快速響應(yīng)用戶請(qǐng)求,還擁有豐富多樣的數(shù)據(jù)結(jié)構(gòu),可靈活地適應(yīng)各種存儲(chǔ)需求。此外,Redis 支持持久化功能,確保數(shù)據(jù)在系統(tǒng)意外中斷時(shí)也能得到妥善保存。同時(shí),它還能作為緩存使用,有效提升系統(tǒng)的整體運(yùn)行效率。并且,Redis 對(duì)分布式架構(gòu)的良好支持,使其能夠輕松應(yīng)對(duì)大規(guī)模數(shù)據(jù)存儲(chǔ)和高并發(fā)訪問(wèn)的場(chǎng)景。
(3)應(yīng)用服務(wù)層。接收用戶交互層的查詢請(qǐng)求并展開(kāi)相應(yīng)處理,如將用戶輸入的查詢指令分解,提取關(guān)鍵詞或者語(yǔ)義糾正。對(duì)數(shù)據(jù)存儲(chǔ)層返回的查詢結(jié)果也需要處理,如數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)關(guān)聯(lián)和組合等,并將最終結(jié)果返回給用戶交互層。
(4)用戶交互層。用戶通過(guò)該層提交圖像檢索請(qǐng)求,接收應(yīng)用服務(wù)層返回的查詢結(jié)果,并排序和展示給用戶。
四、總結(jié)
本文提出了一種使用視覺(jué)語(yǔ)言模型賦能數(shù)字圖像檔案檢索的新模式,充分利用視覺(jué)語(yǔ)言模型的多模態(tài)融合能力,深入挖掘檔案信息的潛在價(jià)值,有助于檔案信息的深層加工和利用。我們正置身于人工智能迅猛發(fā)展的浪潮之中,新模型在圖像理解、識(shí)別以及描述等方面已經(jīng)取得了令人矚目的豐碩成果,如果與之有效結(jié)合,一方面,數(shù)字圖像檔案檢索的查全率與查準(zhǔn)率將得到顯著提升,使得用戶能夠更加全面和準(zhǔn)確地獲取所需的圖像檔案;另一方面,這也為檔案資源的智慧化管理與利用帶來(lái)了前所未有的新契機(jī),有力地推動(dòng)檔案事業(yè)朝著創(chuàng)新、高效的方向蓬勃發(fā)展。
參考文獻(xiàn):
[1]祁天嬌,曹 宇,傅曉丹,等.“十四五”時(shí)期檔案資源智慧化轉(zhuǎn)型研究[J].檔案學(xué)通訊,2021(06):96-98.
[2]潘未梅,馬林青.國(guó)際檔案領(lǐng)域人工智能研究進(jìn)展分析及啟示[J].浙江檔案,2024(04):21-27.
[3]贠疆鵬,加小雙,王 妍.人工智能在我國(guó)檔案管理中的應(yīng)用現(xiàn)狀與對(duì)策分析[J].檔案與建設(shè),2023(02):62-65.
[4]Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2024, pp. 4818-4829.
[5]張 力,陳 康,孫光輝.實(shí)值無(wú)標(biāo)簽圖文跨模態(tài)檢索研究綜述 [J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2024,56(09):1-16.
作者單位:中國(guó)人民大學(xué)