• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多模態(tài)知識圖譜的中文跨模態(tài)實(shí)體對齊方法

    2023-12-16 10:29:18宋麗娟
    計(jì)算機(jī)工程 2023年12期
    關(guān)鍵詞:圖譜實(shí)體模態(tài)

    王 歡,宋麗娟,2,杜 方,2

    (1.寧夏大學(xué) 信息工程學(xué)院,銀川 750021;2.寧夏大數(shù)據(jù)與人工智能省部共建協(xié)同創(chuàng)新中心,銀川 750021)

    0 概述

    隨著知識工程與多模態(tài)學(xué)習(xí)的交叉研究開展,知識圖譜作為輔助計(jì)算機(jī)理解實(shí)體背景知識的重要方式發(fā)展迅速,但大部分知識圖譜仍采用純符號的方式進(jìn)行表達(dá)。為了進(jìn)一步豐富和完善知識的表達(dá)方式,人們開始探索使用多種數(shù)據(jù)模態(tài)來構(gòu)建知識圖譜[1]。因此,多模態(tài)化成為知識圖譜發(fā)展的主流趨勢之一。當(dāng)知識圖譜中的知識表示包含一種以上模態(tài)的數(shù)據(jù)時(shí),稱為多模態(tài)知識圖譜。多模態(tài)知識圖譜在進(jìn)行模態(tài)知識互補(bǔ)、多模態(tài)知識實(shí)體消歧、跨模態(tài)語義搜索等任務(wù)中具有重要作用。以圖文表示為主的多模態(tài)知識圖譜構(gòu)建是當(dāng)前該領(lǐng)域的研究熱點(diǎn)[2-4],圖像等視覺信息主要通過鏈接或者以具有數(shù)據(jù)類型的二進(jìn)制字符串形式包含在知識圖譜中。在此過程中,圖像實(shí)體與文本實(shí)體是否指代同一對象尤為重要,這要求對跨模態(tài)實(shí)體進(jìn)行實(shí)體對齊??缒B(tài)實(shí)體對齊是用于判斷兩個不同模態(tài)知識庫中的實(shí)體是否指代同一個對象的技術(shù),也稱為跨模態(tài)實(shí)體匹配或?qū)嶓w解析。

    目前,實(shí)體對齊方法主要存在以下三方面的問題:1)現(xiàn)有實(shí)體對齊方法更關(guān)注傳統(tǒng)文本知識圖譜的實(shí)體對齊,一些研究工作將不同來源的知識圖譜(例如YAGO[5]、DBpedia[6])嵌入低維空間,通過計(jì)算實(shí)體之間的相似性實(shí)現(xiàn)實(shí)體對齊,并取得了較好的效果,但該類方法只利用單一模態(tài)數(shù)據(jù)(例如文本),忽略了其他模態(tài)數(shù)據(jù)(例如圖像),從而無法充分利用其他模態(tài)數(shù)據(jù)中的實(shí)體特征信息;2)傳統(tǒng)跨模態(tài)實(shí)體對齊方法通常需要大量人工對數(shù)據(jù)進(jìn)行標(biāo)注或精心設(shè)計(jì)對齊特征,例如ZHANG 等[7]提出的CAN選擇推特作為數(shù)據(jù)源,爬取并標(biāo)注了包含配圖的數(shù)據(jù)集,利用門控機(jī)制與過濾器機(jī)制來控制每個詞對圖片和文本的偏好程度,這類傳統(tǒng)的實(shí)體對齊方法可以獲得較高的對齊效果,但需要進(jìn)行大量的人工標(biāo)注,不僅浪費(fèi)時(shí)間,還會增加勞動力成本,并且這類方法設(shè)計(jì)的實(shí)體特征通常缺乏擴(kuò)展性和普適性;3)基于多模態(tài)預(yù)訓(xùn)練語言模型的實(shí)體對齊方法通過大量無標(biāo)注數(shù)據(jù)對模型進(jìn)行預(yù)訓(xùn)練,實(shí)現(xiàn)跨模態(tài)實(shí)體對齊,但該方法多數(shù)只關(guān)注全局圖像和文本特征,且針對英文圖文對設(shè)計(jì),例如CLIP 預(yù)訓(xùn)練語言模型沒有對圖文對間的細(xì)粒度關(guān)系進(jìn)行建模,而這種關(guān)系在領(lǐng)域多模態(tài)知識圖譜跨模態(tài)實(shí)體對齊任務(wù)中是非常有用的[8],此外在實(shí)踐過程中圖像-文本對通常包含噪聲,例如在紡織品銷售網(wǎng)站上,由于目錄錯誤,一些圖像或文本可能與產(chǎn)品無關(guān),而多數(shù)方法沒有考慮到這一點(diǎn)。

    本文提出一種基于多模態(tài)知識圖譜的中文跨模態(tài)實(shí)體對齊方法。將圖像模態(tài)引入紡織業(yè)領(lǐng)域知識圖譜中,基于多模態(tài)學(xué)習(xí)方法,利用大規(guī)模中文無標(biāo)簽數(shù)據(jù)對單雙流交互預(yù)訓(xùn)練語言模型(CCMEA)進(jìn)行預(yù)訓(xùn)練,使其能夠盡可能多地學(xué)習(xí)通用先驗(yàn)知識,然后在下游任務(wù)中進(jìn)行微調(diào),以實(shí)現(xiàn)領(lǐng)域多模態(tài)知識圖譜的跨模態(tài)實(shí)體對齊任務(wù),用于多模態(tài)知識圖譜的構(gòu)建。

    1 相關(guān)工作

    目前,多模態(tài)預(yù)訓(xùn)練語言模型主要涉及特征提取、特征融合和預(yù)訓(xùn)練模型。對于特征提取,文本端早期常用LSTM 及其變種來提取特征,現(xiàn)今基本使用BERT 的Tokenizer 處理,圖像端使用較為經(jīng)典的卷積網(wǎng)絡(luò),按提取的形式主要有Rol、Pixel、Patch 3 種形式。對于特征融合,目前主流的做法是使用單流和雙流架構(gòu)網(wǎng)絡(luò),單流使用一個Transformer 編碼器處理圖像和文本嵌入,雙流采用獨(dú)立的圖像編碼器和文本編碼器提取圖像和文本嵌入,然后學(xué)習(xí)圖像文本間的跨模態(tài)關(guān)系。對于預(yù)訓(xùn)練模型:MLM 為傳統(tǒng)的文本屏蔽語言模型,針對文本流;MRM 為區(qū)域屏蔽語言模型,針對圖像流;ITM 用于圖文匹配任務(wù),針對圖文交互流,即判斷圖文對是否匹配和對齊。

    在特征融合階段,B2T2、VisualBERT[9]、Unicoder-VL[10]、VL-BERT[11]、UNITER[12]、ERNIE-ViL、OSCAR[13]等單流方法連接圖像的感興趣區(qū)域(ROI)和文本令牌作為BERT[14]的輸入令牌,通常將MLM、MRM、ITM作為預(yù)訓(xùn)練模型。另外,UNITER 使用最優(yōu)傳輸(OT)來建模圖像補(bǔ)丁和文本標(biāo)記之間的關(guān)系[15],OSCAR 使用Faster-RCNN 檢測對象類別[16],并將類別文本編碼為BERT 的額外輸入令牌,ICMLM[17]、Pixel-BERT[18]、SOHO[19]等使用CNN 來提取 圖像特征,將特征圖中的深度向量作為圖像標(biāo)記,能夠捕捉到圖像像素和文本標(biāo)記之間的語義連接,若使用Faster-RCNN 則一些基于區(qū)域的圖像特征將會被忽略。KaleidoBERT[20]、ViLT[21]和FashionBERT[22]等單流方法將圖像切割成補(bǔ)丁,將每個補(bǔ)丁作為圖像標(biāo)記,其中,Kaleido BERT 采用SAT[23]網(wǎng)絡(luò)生成顯著圖像補(bǔ)丁的描述,從而找到圖像補(bǔ)丁和文本令牌之間的相關(guān)性,ViLT 僅在圖像補(bǔ)丁上應(yīng)用線性投影,大大減少了模型的參數(shù)量及運(yùn)行時(shí)間,F(xiàn)ashionBERT 使用InceptionV3[24]或ResNeXt-101[25]等預(yù)訓(xùn)練模型來提取圖像特征。

    雙流方法主要由自監(jiān)督學(xué)習(xí)驅(qū)動,并通過對比損失將輸出的圖文對特征進(jìn)行比較。ConVIRT[26]在圖文對匹配任務(wù)上,分別使用獨(dú)立的圖文編碼器來提取圖像特征和文本特征,通過對比學(xué)習(xí)對齊特征相似的圖像文本對。CLIP 是ConVIRT 的簡化版本,對于一個包含N個圖像-文本對的訓(xùn)練batch,模型會將N個文本特征和N個圖像特征兩兩組合,預(yù)測出N2個可能的圖像-文本對的余弦相似度,其中,矩陣中的對角線元素屬于一對,即N個正樣本,剩余的N2-N個圖像-文本對為負(fù)樣本。CLIP 的訓(xùn)練目標(biāo)是最大化成對圖像和文本嵌入的余弦相似度,同時(shí)最小化未配對圖像的余弦相似度,利用更多的負(fù)樣本,在GPU 內(nèi)存有限情況下訓(xùn)練網(wǎng)絡(luò)。

    然而,單雙流方法都有不足之處。單流方法模態(tài)間的信息是深度交互的,可以得到細(xì)粒度跨模態(tài)對齊關(guān)系,但由于模型龐大,需要同時(shí)輸入所有模態(tài)信息到模型才可以進(jìn)行推理,不便于各種下游任務(wù)的部署。雙流方法由于各個模態(tài)的信息提取都是獨(dú)立的,計(jì)算效率較高,在下游任務(wù)中方便部署,但由于該方法只關(guān)注全局圖像和文本特征,不能捕捉圖像補(bǔ)丁和文本標(biāo)記之間的細(xì)粒度關(guān)系。為了克服上述缺點(diǎn),本文基于CLIP 方法思想和下游任務(wù),融合單流和雙流方法構(gòu)建CCMEA 模型,對齊領(lǐng)域細(xì)粒度圖像實(shí)體和中文文本實(shí)體。

    2 問題定義與方法框架

    2.1 問題定義

    將圖像與文本實(shí)體的對齊視為文本-圖像匹配問題。多模態(tài)知識圖譜構(gòu)建工作的核心在于為其中的實(shí)體匹配合適的圖像,即將跨模態(tài)實(shí)體進(jìn)行對齊。給定實(shí)體e,本文目標(biāo)是為其獲取合適的圖像集Ve=[v1,v2,…,vn],使得每張圖像v與對應(yīng)文本實(shí)體在語義上是匹配的,具體示例如圖1 所示(彩色效果見《計(jì)算機(jī)工程》HTML 版)。

    2.2 方法框架

    CCMEA 是一種基于對比學(xué)習(xí)的多模態(tài)模型,訓(xùn)練數(shù)據(jù)是圖像-文本對,通過對比學(xué)習(xí)學(xué)習(xí)到圖像-文本的匹配關(guān)系,對比學(xué)習(xí)原理如圖2 所示,給定圖像文本對,其中,I1、I2是第1、2 張圖片表征,T1、T2是第1、2 個文本表征,I1、I2和T1、T2是一一對應(yīng)的,即Ti是Ii的文本實(shí)體,因此對比學(xué)習(xí)的目標(biāo)是使矩陣對角線的對距離越來越近,非對角線的對距離越來越遠(yuǎn),CCMEA 模型的訓(xùn)練目標(biāo)是最大化成對圖像和文本嵌入的余弦相似度,同時(shí)最小化未配對圖像的余弦相似度。

    圖2 對比學(xué)習(xí)原理Fig.2 Principle of comparative learning

    CCMEA 模型架構(gòu)如圖3 所示,主要包括3 個堆疊模塊:1)Visual Transformer,底層視覺編碼器,負(fù)責(zé)從輸入的圖像補(bǔ)丁中捕獲基本的視覺特征;2)Chinese RoBERTa,底層文本編碼器,負(fù)責(zé)從輸入令牌中捕獲基本的語法和詞匯信息;3)Text-Visual Transformer,上層交叉編碼器,負(fù)責(zé)將Visual Transformer和Chinese RoBERTa 提取到的粗粒度特征進(jìn)行細(xì)粒度建模,并基于注意力機(jī)制過濾噪聲信息。最后利用跨模態(tài)對比學(xué)習(xí)方法學(xué)習(xí)過濾后的細(xì)粒度信息,得到模態(tài)間的有效特征表示。

    圖3 CCMEA 模型架構(gòu)Fig.3 CCMEA model architecture

    CCMEA 模型的中文跨模態(tài)實(shí)體對齊算法的偽代碼具體如下:

    2.2.1 Transformer

    Transformer 是CV 及NLP 中多數(shù)SOTA 模型的主力架構(gòu),由L個堆疊的塊組成。每個塊主要包括兩類子層:多頭注意力(MHA)和全連接前饋網(wǎng)絡(luò)(FFN)。在每一層中都使用了歸一化和殘差連接。給定輸入序列向量x?Rn×d,其中n為序列長度。注意力函數(shù)將x映射到查詢Q?Rn×d及鍵值 對K?Rn×d、V?Rn×d中,如式(1)所示:

    MHA 在頭部執(zhí)行注意力功能,其中每個頭分別由Wq,i、Wk,i、Wv,i?Rd×dh參數(shù)化,以此將輸入投影到K、Q、V。多頭注意力的作用是計(jì)算每個頭部的加權(quán)隱藏狀態(tài),然后將它們進(jìn)行連接,如式(2)所示:

    其中:Wo?Rd×d,d表示隱藏嵌入的維數(shù),dh=d/Nh通常在MHA 中設(shè)置。

    FFN 通常由兩層線性變換組成,如式(3)所示:

    2.2.2 Visual Encoder

    Visual Encoder 使用預(yù)訓(xùn)練的ViT-B/16 模型作為視覺編碼器來提取圖像特征。ViT-B/16 模型是在CLIP 模型的基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練得到的,采用Visual Transformer 架構(gòu),在圖像處理和視覺編碼任務(wù)中都表現(xiàn)出色,同時(shí)已在大規(guī)模數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,因此可直接利用其權(quán)重參數(shù),從而大大減少了在視覺編碼器訓(xùn)練方面的工作量。具體而言:首先給定實(shí)體e所對應(yīng)的o張圖像Ie,o,將每張圖像重新調(diào)整為統(tǒng)一的H×W像素,并把第i個輸入圖像Ii?RC×H×W(1≤i<0)重塑為u=HW/P2的扁平 二維補(bǔ)丁,其中,輸入圖像的分辨率為H×W,C為通道數(shù);然后合并投影為,其中,dV表示ViT 隱藏狀態(tài)的維數(shù);接著將o張圖像的補(bǔ)丁嵌入拼接起來,得到視覺序列補(bǔ)丁嵌入,其中,m=u×o。

    2.2.3 Text Encoder

    采用Chinese RoBERTa 的第LT層作為文本編碼器提取文本特征,它也由MHA 和FFN 塊的LT層組成,與Visual Encoder 類似,不同點(diǎn)在于其中的LN 層出現(xiàn)在MHA 和FFN 層之后。將標(biāo)記序列{w1,w2,…,wn}嵌入到一個單詞嵌入矩陣中,文本表示計(jì)算如下:

    2.2.4 Text-Visual Transformer

    雙流方法采用獨(dú)立的分支學(xué)習(xí)全局圖像和文本特征,通過數(shù)億級別的圖像-文本對進(jìn)行訓(xùn)練,將消耗大量算力及資源,這對領(lǐng)域多模態(tài)知識圖譜的實(shí)體對齊而言是非常困難的。目前,雙流方法并沒有考慮領(lǐng)域多模態(tài)知識的細(xì)粒度特征,本文旨在通過Text-Visual Transformer 來實(shí)現(xiàn)這一點(diǎn),由自注意力建模圖像和文本分支的關(guān)系完成信息交互。將Visual Transformer 和Chinese RoBERTa 的輸出XV,l、XT,l連接得到XM,l,然后通過Text-Visual Transformer將XM,l作為輸入充分學(xué)習(xí)圖文之間的關(guān)系,輸出XVT,l、XTV,l,最終將XVT,l、XTV,l的類別 令牌取 出得到oV、oT,并計(jì)算其余弦相似度。

    其中:f(i·)將令牌從一個分支投射到另一個分支。輸出的XVT,l、XTV,l可以看作不同模態(tài)融合后的結(jié)果。例如,文本令牌已經(jīng)在自身分支中獲知全局文本信息,與圖像分支的令牌交互后,文本令牌從圖像分支中獲取圖像模態(tài)信息,并傳遞給自身。這不僅建立了不同模態(tài)之間的聯(lián)系,還極大地豐富了不同模態(tài)中的令牌表示。這種單雙流交互方法可以有效地彌補(bǔ)單流方法及雙流方法的缺點(diǎn),同時(shí)捕獲不同粒度圖文對間的低級和高級語義特征,并過濾噪聲信息。

    在網(wǎng)絡(luò)訓(xùn)練過程中,基于自監(jiān)督學(xué)習(xí),使用跨模態(tài)對比損失來約束網(wǎng)絡(luò)。對比學(xué)習(xí)的主要思想是縮小與正樣本的距離,擴(kuò)大與負(fù)樣本的距離。通過損失函數(shù)InfoNCE 來計(jì)算圖像與文本間的特征相似度,有效權(quán)衡不同的實(shí)例。

    其中:τ為溫度系數(shù),作用是調(diào)節(jié)對負(fù)樣本的關(guān)注程度;分子是正例對的相似度;分母是正例對和所有負(fù)例對相似度的總和。在訓(xùn)練過程中通過最小化InfoNCE 損失來學(xué)習(xí)不同模態(tài)編碼器的參數(shù)。

    3 實(shí)驗(yàn)結(jié)果與分析

    3.1 數(shù)據(jù)集選取

    數(shù)據(jù)集選取如下:

    1)MUGE 數(shù)據(jù)集

    為了衡量跨模態(tài)實(shí)體對齊的性能,使用中文大規(guī)模多模態(tài)評測基準(zhǔn)數(shù)據(jù)集MUGE 進(jìn)行預(yù)訓(xùn)練,MUGE 數(shù)據(jù)集中涵蓋了服裝、家居、電子、紡織等多個領(lǐng)域數(shù)據(jù),由26 萬個商品實(shí)體-圖像對構(gòu)成,共劃分為訓(xùn)練集、驗(yàn)證集和測試集,數(shù)據(jù)集詞云如圖4 所示。訓(xùn)練集包含25 萬個實(shí)體-圖像對,其中有12.9 萬張商品圖片,驗(yàn)證集和測試集各自包含5 000 個實(shí)體query,要求模型從各自的3 萬張商品圖片候選池中進(jìn)行檢索。

    圖4 MUGE 數(shù)據(jù)集詞云Fig.4 Word cloud of MUGE dataset

    2)Flickr30k-CN 數(shù)據(jù)集

    Flickr30k-CN 是一個用于圖像標(biāo)注、圖像檢索等任務(wù)的數(shù)據(jù)集,包含31 783 張來自Flickr 的圖片及其對應(yīng)的中文描述。該數(shù)據(jù)集是Flickr30k 數(shù)據(jù)集的擴(kuò)展,中文描述是通過人工注釋獲得的,覆蓋了運(yùn)動、食品、風(fēng)景和人物等多種主題和場景。利用該數(shù)據(jù)集進(jìn)行測試,進(jìn)一步驗(yàn)證模型的性能和準(zhǔn)確度。

    3)TEXTILE 數(shù)據(jù)集

    在下游任務(wù)中,基于預(yù)訓(xùn)練與微調(diào)思想,在自建的紡織品多模態(tài)數(shù)據(jù)集TEXTILE 上進(jìn)行微調(diào),該數(shù)據(jù)集由紡織實(shí)體-圖像對構(gòu)成,與上述兩個公共數(shù)據(jù)集形式統(tǒng)一,均由原始圖文對構(gòu)成,沒有進(jìn)行人工標(biāo)注。

    實(shí)驗(yàn)首先通過足量數(shù)據(jù)訓(xùn)練來驗(yàn)證模型無需進(jìn)行復(fù)雜的多模態(tài)數(shù)據(jù)標(biāo)注工作,即可在下游小樣本數(shù)據(jù)集上具有良好的泛化能力,從而提高基于多模態(tài)知識圖譜的跨模態(tài)實(shí)體對齊能力。

    3.2 實(shí)驗(yàn)設(shè)置

    3.2.1 評價(jià)指標(biāo)

    因?yàn)榭缒B(tài)實(shí)體對齊與跨模態(tài)檢索任務(wù)相近,所以實(shí)驗(yàn)參考MSCOCO、Flickr30k 等英文多模態(tài)檢索任務(wù)數(shù)據(jù)集,利用Recall@1/5/10(簡稱為R@1/5/10)作為跨模態(tài)實(shí)體對齊評測指標(biāo),用于評估模型跨模態(tài)實(shí)體對齊效果,如式(8)所示:

    其中:R@是一個評估指標(biāo)的命名前綴,后面需要加上具體的k值才能表示完整的指標(biāo)名稱,R@1、R@5、R@10 分別表示模型將查詢實(shí)體與排名第1、第5、第10 的候選實(shí)體進(jìn)行正確匹配的比例;TP表示檢索結(jié)果中與查詢相關(guān)的正確答案數(shù);FN表示查詢相關(guān)的正確答案數(shù)。最終以平均召回率(Mean Recall,MR)作為該任務(wù)的主要指標(biāo),取值范圍為[0,1],值越高代表模型性能越好。

    3.2.2 實(shí)驗(yàn)參數(shù)設(shè)置

    在實(shí)驗(yàn)過程中,Visual Encoder 參數(shù)基于預(yù)訓(xùn)練的ViT-B/16,Text Encoder 參數(shù)基于RoBERTa-wwm-Base。在訓(xùn)練過程中,使用Adam 優(yōu)化器進(jìn)行參數(shù)更新,權(quán)重衰減系數(shù)為0.01,其他參數(shù)隨機(jī)初始化。CCMEA 模型使用PyTorch 用于代碼實(shí)現(xiàn),在2 個Nvidia V100 GPU 上進(jìn)行訓(xùn)練。

    3.2.3 實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)主要包括零樣本、少樣本和消融實(shí)驗(yàn)三部分。

    零樣本實(shí)驗(yàn)結(jié)果如表1 所示,在公共數(shù)據(jù)集MUGE 與Flickr30k-CN 上 將CCMEA 與FILIP[28]、WukongViT-B(baseline)[29]、WukongSwin[29]進(jìn)行對比測試。WukongViT-B[29]依 據(jù)CLIP 模型思想進(jìn)行改進(jìn),從實(shí)驗(yàn)結(jié)果可以看出,WukongViT-B(baseline)[29]在MUGE 數(shù)據(jù)集上MR 為54.10%,而CCMEA 在MUGE 數(shù)據(jù)集上MR 達(dá)到了57.30%,整體提升了3.20 個百分點(diǎn)。另外,WukongViT-B(baseline)[29]在Flickr30k-CN 數(shù)據(jù)集上MR 只有67.23%,而CCMAE 的MR 達(dá)到了79.19%,提升了11.96 個百分點(diǎn),主要原因?yàn)镃CMAE的文本編碼器使用了RoBERTa-wwm-Base 參數(shù),RoBERTa-wwm-Base 是一個基于預(yù)訓(xùn)練語言模型RoBERTa 的中文版本,預(yù)訓(xùn)練過程采用中文維基百科、百度百科、新聞?wù)Z料等海量中文文本數(shù)據(jù),以獲得更好的中文語言理解能力,相較于WukongViT-B(baseline)[29]使用的Transformer 能更好地適用于中文自然語言處理任務(wù),進(jìn)而提升了模型性能。

    表1 零樣本實(shí)驗(yàn)結(jié)果Table 1 Zero-shot experimental results %

    少樣本實(shí)驗(yàn)結(jié)果如表2 所示,將CCMEA 應(yīng)用在自建的紡織品數(shù)據(jù)集TEXTILE 上,MR 達(dá)到94.3%,Recall@10 達(dá)到100.0%,因此CCMEA 能較好地提升跨模態(tài)實(shí)體對齊的性能,可以更好地輔助文本匹配到語義一致的圖像。另外,為了驗(yàn)證少樣本場景對CCMEA 性能的影響,將TEXTILE 數(shù)據(jù)集的數(shù)據(jù)量依次降低到75%、50%、25%進(jìn)行實(shí)驗(yàn),對于每種數(shù)據(jù)量得到的結(jié)果取平均召回率。實(shí)驗(yàn)結(jié)果表明,在數(shù)據(jù)量較小時(shí),CCMEA 的性能提升顯著(例如,當(dāng)訓(xùn)練數(shù)據(jù)量為25%時(shí),MR 相比于原始數(shù)據(jù)量提升約4.4 個百分點(diǎn)),說明該模型在少樣本數(shù)據(jù)集上具有良好的泛化能力,可以有效地將領(lǐng)域圖譜中的細(xì)粒度跨模態(tài)實(shí)體進(jìn)行語義關(guān)聯(lián)及對齊,摒棄了傳統(tǒng)監(jiān)督及半監(jiān)督方法依賴大量標(biāo)注數(shù)據(jù)的弊端,只需將未標(biāo)注的圖像-文本實(shí)體對輸入模型即可實(shí)現(xiàn)語義對齊,為多模態(tài)知識圖譜的實(shí)體對齊工作提供了新的思路。

    表2 少樣本實(shí)驗(yàn)結(jié)果Table 2 Few-shot experimental results %

    消融實(shí)驗(yàn)結(jié)果如表3 所示,在Flickr30k-CN 數(shù)據(jù)集上,通過移除Text-Visual Transformer 來驗(yàn)證不同分支信息交互的有效性。當(dāng)移除Text-Visual Transformer 后,MR 為74.87%,下降了4.32 個百分點(diǎn)。這證明了Text-Visual Transformer 可以建模不同分支(文本和圖像分支)之間的關(guān)系,彌補(bǔ)雙流模型的缺點(diǎn),并豐富不同模態(tài)之間的特征表達(dá)。此外,使用單流架構(gòu)(即使用一個Transformer 編碼器)處理圖像和文本嵌入來驗(yàn)證單雙流交互架構(gòu)的重要性。實(shí)驗(yàn)結(jié)果表明,當(dāng)使用單流架構(gòu)對圖像和文本進(jìn)行編碼時(shí),MR 為51.21%,有大幅度下降。這說明了多模態(tài)架構(gòu)可以有效獨(dú)立地編碼文本和圖像信息,而單流架構(gòu)受到不同模態(tài)信息的影響,難以保證不同模態(tài)中的語義特征提取。

    4 紡織行業(yè)多模態(tài)知識圖譜構(gòu)建及可視化

    針對下游任務(wù),將對齊后的跨模態(tài)實(shí)體用于紡織行業(yè)多模態(tài)知識圖譜構(gòu)建。目前,在紡織領(lǐng)域,相關(guān)知識關(guān)聯(lián)研究還未涉及多模態(tài)及下游紡織纖維原料領(lǐng)域,本文將針對現(xiàn)階段存在的問題構(gòu)建紡織行業(yè)多模態(tài)知識圖譜,如圖5 所示。

    圖5 紡織行業(yè)多模態(tài)知識圖譜構(gòu)建流程Fig.5 Construction process of multi-modal knowledge graph in the textile industry

    步驟1參考七步法構(gòu)建紡織行業(yè)多模態(tài)知識本體自頂向下的構(gòu)建模式層,確定紡織行業(yè)范圍及構(gòu)建目的。構(gòu)建各產(chǎn)業(yè)鏈的概念層次及關(guān)系,最終根據(jù)產(chǎn)業(yè)鏈階段的大致分類,在此基礎(chǔ)上延伸8 類紡織本體,包括天然纖維、化學(xué)纖維、纖維復(fù)合材料、紡紗及制線、針織及針織物、非織造及非織造布、染整和服裝,形成了由多產(chǎn)業(yè)本體融合的紡織行業(yè)知識本體。

    步驟2自底向上構(gòu)建紡織行業(yè)多模態(tài)知識圖譜數(shù)據(jù)層。由于領(lǐng)域知識圖譜數(shù)據(jù)較難獲取,因此將領(lǐng)域書籍以及行業(yè)網(wǎng)站中的半結(jié)構(gòu)化數(shù)據(jù)抽取并進(jìn)行清洗構(gòu)成三元組。對于非結(jié)構(gòu)化文本,通過文獻(xiàn)對比分析選取BERT-BiLSTM-CRF 模型進(jìn)行命名實(shí)體識別[30]。爬取搜索引擎中與文本實(shí)體標(biāo)題一致的圖像模態(tài)數(shù)據(jù),形成TEXTILE 紡織品多模態(tài)數(shù)據(jù)集。該數(shù)據(jù)集經(jīng)過在跨模態(tài)實(shí)體對齊預(yù)訓(xùn)練語言模型CCMEA 上進(jìn)行微調(diào),將語義匹配的圖文對用于多模態(tài)知識圖譜構(gòu)建任務(wù),紡織行業(yè)多模態(tài)知識圖譜數(shù)據(jù)統(tǒng)計(jì)如表4 所示。

    表4 多模態(tài)知識圖譜數(shù)據(jù)統(tǒng)計(jì)Table 4 Multi-modal knowledge graph data statistics

    步驟3將經(jīng)過跨模態(tài)對齊得到的紡織行業(yè)多模態(tài)知識存儲到Neo4j 中,并開發(fā)MMKGBuilder 工具完成紡織行業(yè)多模態(tài)知識圖譜的可視化及下游知識檢索功能。

    在下游應(yīng)用中,基于紡織行業(yè)多模態(tài)知識圖譜進(jìn)行實(shí)體檢索,實(shí)例如圖6 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。相較于傳統(tǒng)方法構(gòu)建的多模態(tài)知識圖譜,該圖譜具有可視化程度高、多模態(tài)實(shí)體語義關(guān)聯(lián)程度強(qiáng)、用戶體驗(yàn)效果好等優(yōu)勢。

    圖6 多模態(tài)知識圖譜檢索實(shí)例Fig.6 Example of multi-modal knowledge graph retrieval

    實(shí)驗(yàn)結(jié)果表明:經(jīng)過中文跨模態(tài)實(shí)體對齊后構(gòu)建領(lǐng)域多模態(tài)知識圖譜是可行的,創(chuàng)建的多模態(tài)圖譜可將各種碎片化知識有效地連接在一起,為紡織企業(yè)及相關(guān)用戶提供層次結(jié)構(gòu)清晰、邏輯關(guān)系明確、可檢索的領(lǐng)域多模態(tài)知識庫。

    5 結(jié)束語

    本文提出一種基于多模態(tài)知識圖譜的中文跨模態(tài)實(shí)體對齊方法,將圖像信息引入實(shí)體對齊任務(wù),針對領(lǐng)域細(xì)粒度圖像和中文文本,設(shè)計(jì)CCMEA 單雙流交互網(wǎng)絡(luò)模型,基于自監(jiān)督與對比學(xué)習(xí),利用大量無標(biāo)簽數(shù)據(jù)對模型進(jìn)行預(yù)訓(xùn)練,摒棄了傳統(tǒng)監(jiān)督及半監(jiān)督方法依賴大量標(biāo)注數(shù)據(jù)的弊端。實(shí)驗(yàn)結(jié)果表明:在MUGE 數(shù)據(jù)集的零樣本實(shí)驗(yàn)中,CCMEA 模型在相同精度水平上的平均召回率比WukongViT-B基線模型高出3.2 個百分點(diǎn);在Flickr30k-CN 數(shù)據(jù)集上,CCMEA 模型更是獲得了優(yōu)異的結(jié)果,MR 達(dá)到79.19%,比WukongViT-B基線模型高出11.96 個百分點(diǎn);在自建的TEXTILE 數(shù)據(jù)集上,MR 達(dá)到94.3%,隨著數(shù)據(jù)量的逐漸減少,召回率得到進(jìn)一步提升,說明CCMEA 模型不需要進(jìn)行復(fù)雜的多模態(tài)數(shù)據(jù)標(biāo)注工作,即可在下游小樣本數(shù)據(jù)集上具有良好的泛化性能。

    此外,簡要闡述了紡織行業(yè)多模態(tài)知識圖譜構(gòu)建流程與方法,將對齊后的紡織行業(yè)跨模態(tài)實(shí)體用于領(lǐng)域多模態(tài)知識圖譜構(gòu)建工作中,并給出基于紡織行業(yè)多模態(tài)知識圖譜的檢索實(shí)例,系統(tǒng)地完成了領(lǐng)域多模態(tài)知識圖譜的構(gòu)建及應(yīng)用工作,為紡織行業(yè)智能決策和優(yōu)化提升提供了數(shù)據(jù)支持。但與其他經(jīng)過數(shù)億規(guī)模數(shù)據(jù)訓(xùn)練的模型相比,CCMEA 模型數(shù)據(jù)規(guī)模相對較小,因此學(xué)習(xí)到的圖文對特征相對較少。在后續(xù)工作中將進(jìn)一步擴(kuò)充數(shù)據(jù)量,使模型能夠更好地學(xué)習(xí)領(lǐng)域細(xì)粒度圖像-中文文本特征,并將其應(yīng)用于更多基于領(lǐng)域多模態(tài)知識圖譜的跨模態(tài)實(shí)體對齊工作。

    猜你喜歡
    圖譜實(shí)體模態(tài)
    繪一張成長圖譜
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    中國外匯(2019年18期)2019-11-25 01:41:54
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
    中成藥(2017年3期)2017-05-17 06:09:01
    兩會進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    主動對接你思維的知識圖譜
    國內(nèi)多模態(tài)教學(xué)研究回顧與展望
    基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
    由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
    巴林右旗| 睢宁县| 咸阳市| 土默特左旗| 策勒县| 鄂托克前旗| 泰和县| 长沙市| 皋兰县| 固原市| 湟源县| 银川市| 镇坪县| 井陉县| 崇文区| 体育| 普兰县| 防城港市| 昂仁县| 南江县| 岑溪市| 吉首市| 全州县| 察隅县| 册亨县| 资溪县| 彩票| 通城县| 潮州市| 海口市| 社旗县| 德令哈市| 宁海县| 黔江区| 团风县| 长顺县| 越西县| 永川市| 永定县| 来凤县| 苍山县|