何 巍
(中國人民警察大學 廊坊 065000)
隨著移動互聯(lián)網的迅速發(fā)展,社交媒體平臺作為橋接物理和虛擬世界的信息通信工具,逐漸成為網民表達訴求、觀點和情緒的渠道之一[1],例如微博、微信、抖音、小紅書等。這些平臺提供了豐富的多媒體展示空間,網民不再僅僅局限于采用單一模態(tài)的文本信息,而是綜合使用文本、圖像、視頻等多種模態(tài)信息[2]。各種不同模態(tài)數據之間相互呼應和補充,極大地豐富了人們的感官和認知。在這種背景下,僅以文本數據作為知識來源的傳統(tǒng)知識圖譜將不能全面客觀地反映現實世界的真實狀態(tài),需要各種不同模態(tài)數據之間進行語義上的補充[3]。
多模態(tài)知識圖譜(Multi-modal Knowledge Graph, MMKG)可以將不同模態(tài)的數據(如文本、圖像、視頻等)融合在一起,構建跨模態(tài)的實體以及語義關系, 豐富只包含文本數據的傳統(tǒng)知識圖譜[4,5]。但是由于不同模態(tài)數據之間存在語義鴻溝,而且數據結構差異性較大,數據之間不能直接融合。所以,如何利用豐富的多模態(tài)數據構建社交網絡輿情多模態(tài)知識圖譜成為一個關鍵且具有挑戰(zhàn)性的問題。
由于缺乏有效的提取技術,早期的知識圖譜主要是基于文本數據構建的,例如維基百科。隨著計算機視覺和多模態(tài)學習研究的深入[2],提取視覺數據成為可能。視覺數據能夠為多模態(tài)知識圖譜提供更加豐富的實體信息,幫助人們更好地理解實體的含義和特征,以及不同實體之間的關聯(lián)。
ImageNet等數據集的出現為構建通用多模態(tài)知識圖譜提供了基礎。然而,由于圖片搜索的準確性較低,有學者提出對圖片增加文本標注,并進行知識庫存儲的方法,以此來提高圖片搜索的質量[5]。早期的多模態(tài)知識圖譜主要是基于這種方式進行構建的。
根據知識圖譜構建的目的和應用領域不同,一般將知識圖譜分為通用知識圖譜和領域知識圖譜兩大類[6]。下面分別介紹通用多模態(tài)知識圖譜和領域多模態(tài)知識圖譜的研究現狀。
表1所示是現有部分通用多模態(tài)知識圖譜,這些知識圖譜主要采用文本和圖像模態(tài)數據構建。早期的Wikidata[7]主要是以嵌入式鏈接的形式提供多媒體文件,并沒有提取多媒體文件本身的視覺特征。IMGpedia[8]開始嘗試對視覺內容進行描述,但圖片之間的關系仍然較為單一,沒有進行深入的挖掘。MMKG[9]對Freebase15k、YAGO15k和DB15k三個知識圖譜進行了實體對齊,但規(guī)模較小,缺乏對圖像多樣性的考慮。Richpedia是國內Wang等人[10]提出的代表性工作,利用圖像的文字描述提取圖像中的實體,同時增加了圖像實體之間的語義關系。
表1 現有部分通用多模態(tài)知識圖譜
隨著通用多模態(tài)知識圖譜的發(fā)展, 越來越多的領域專家開始嘗試將多模態(tài)技術應用于領域知識圖譜中。李直旭、茶思月等構建了多模態(tài)教學知識圖譜[6,11],孟卓宇構建了多模態(tài)生長發(fā)育知識圖譜[12],彭京徽等構建了軍事裝備領域多模態(tài)知識圖譜[13],付國華等構建了基于多模態(tài)矮小癥輔助診斷知識圖譜[14],郭利榮構建了汽車行業(yè)多模態(tài)知識圖譜[15]。
然而,社交網絡輿情領域的知識圖譜絕大多數仍以單模態(tài)文本數據為主,例如于凱等構建的突發(fā)事件網絡輿情事理圖譜[16]、夏立新等構建的網絡輿情主題圖譜[17]、王晰巍等構建的意見領袖主題圖譜[18]、安璐等構建的跨平臺知識圖譜[19]等均是以文本數據作為數據來源,進行實體和關系的抽取,從而對網絡輿情事件的主題、網絡結構以及輿情事件的演化進行分析。由此可見,現階段針對社交網絡輿情多模態(tài)知識圖譜的相關研究還比較缺乏。
基于此,本文首先介紹多模態(tài)知識圖譜涉及的相關概念,然后在分析社交網絡輿情不同模態(tài)數據間語義互補方式的基礎上,探討多模態(tài)數據的融合方式和構建框架,并進一步分析多模態(tài)知識圖譜構建過程中存在的困難與挑戰(zhàn),為多模態(tài)知識圖譜在社交網絡輿情領域的相關研究和應用提供參考。
在多模態(tài)知識圖譜的構建過程中,涉及多模態(tài)數據、多源數據、異構數據和多模態(tài)知識等多個概念,概念的內涵和外延決定了它們之間具有不同的關聯(lián)關系。
多模態(tài)是指使用不同的輸入和輸出來進行交互和傳達信息的方式,通常包含文本、圖像、視頻、音頻等不同的數據形式,用以提高用戶的交互體驗和信息傳達的效率及準確性。由于社交網絡輿情領域的數據模態(tài)主要以文本、圖像、視頻為主,所以本文主要討論這三種數據模態(tài)。
多源數據是指數據的來源不同,例如有的數據來源于微博,有的數據來源于抖音。所以多源數據和多模態(tài)數據之間并不存在直接的關聯(lián)。通常情況下,用于構建多模態(tài)知識圖譜的多模態(tài)數據可以從單一數據來源中抽取,也可以從多源數據中抽取。不同來源的多模態(tài)數據,語義的互補方式可能存在差異,在進行多模態(tài)數據表征學習時應該進行綜合考慮。
異構數據是指數據的結構和存儲方式不同,例如表格數據屬于結構化數據,XML和HTML屬于半結構化數據,圖像和視頻屬于非結構化數據。對這些數據進行預處理之后,需要分別存儲在關系型和非關系型數據庫之中。由于多模態(tài)數據含有文本、圖像、視頻等多種不同的表達形式,所以多模態(tài)數據屬于異構數據。
知識來源于人們對客觀世界的認識和理解。在傳統(tǒng)的知識圖譜中,文本模態(tài)知識通常被表示為RDF三元組的形式,例如x1(h,r,t),其中x1代表某一種模態(tài),h代表頭實體,t代表尾實體,r代表頭實體和尾實體之間的關系。
知識可以來源于單一的文本實體與關系,也可以來源于多個文本實體與關系的組合。從多個三元組中獲取的文本模態(tài)知識k1可以表示為f(k1)=x1(h1,r1,t1)+x1(h2,?,t2)+x1(h3,?,?),其中?代表不完整RDF三元組中的未知元素[20],即文本模態(tài)知識k1可以包含完整和不完整的三元組組合。以此類推,從多個RDF三元組中獲取的圖像模態(tài)知識k2可以表示為f(k2)=x2(h1,r1,t1)+x2(h2,?,t2)+x2(h3,?,?),音頻模態(tài)知識k3可以表示為f(k3)=x3(h1,r1,t1)+x3(h2,?,t2)+x3(h3,?,?)。由于視頻一般可以分解為圖像和音頻,所以視頻模態(tài)知識可以認為是圖像模態(tài)知識和音頻模態(tài)知識的組合。
多模態(tài)知識圖譜中的數據屬于異構數據,知識的復雜度要高于單純的文本知識。多模態(tài)知識需要從不同模態(tài)數據中抽取語義知識,然后根據其一致性或互補性進行特征變換和融合得到。所以,多模態(tài)知識k4可以表示為f(k4)=x1(h1,r1,t1)+x1(h2,?,t2)+x1(h3,?,?)+x2(h4,r4,t4)+x2(h5,?,t5)+x2(h6,?,?)+x3(h7,r7,t7)+x3(h8,?,t8)+x3(h9,?,?),其中x1代表文本模態(tài),x2代表圖像模態(tài),x3代表音頻模態(tài)。
在網絡輿情事件中,社交媒體用戶通過發(fā)表跟輿情事件相關的博文或評論來表達自身的觀點、情感和訴求,發(fā)表的內容可能包含文本、圖像、視頻等多種模態(tài)的組合。理解不同模態(tài)數據間的語義互補方式,有助于進行網絡輿情相關事件檢測和情感分析,挖掘多模態(tài)數據中的隱含信息。
僅利用文本信息進行事件檢測的方式已經無法適應當下網絡輿情事件表達的多樣性。例如,在2021年7月20日發(fā)生的“河南遭遇特大暴雨”事件中,根據“知微事見”平臺的統(tǒng)計,網絡輿論峰值傳播速度達到了10577條/小時,引起了社會各界的極大關注。其中一條微博信息如圖1所示,包含文本和視頻兩種數據模態(tài)。
圖1中的文本包含事件的細節(jié)內容,例如,暴雨的發(fā)生時段為7月20日,地點為河南鄭州。從文本中,我們僅能獲悉暴雨導致“市區(qū)積水嚴重,地鐵關閉,鐵路停運”,但頭腦中并不能產生直觀的場景,也很難意識到這場暴雨所帶來的災難性后果。然而,文本下面的視頻卻提供了更多關于暴雨的真實場景和更加豐富的信息。
圖2中是視頻關鍵幀截圖,這些圖像對人的視覺產生了強烈的沖擊,不僅印證了文本中的內容,并且補充了文本中缺失的信息。從視頻中可以看到,區(qū)別于普通的暴雨,此次暴雨導致了嚴重的城市內澇,很多室外人員身處危險之中,急需救援和物資幫助。
所以,通過文本、圖像和視頻在內容上的相互關聯(lián)和呼應,快速捕捉到輿論信息所反應的現實世界的真實狀態(tài),能夠幫助我們更好地進行網絡輿情事件的檢測,從而可以及時做出相應地處理和響應。
在網絡輿情的分析中,社交媒體用戶的觀點和情感,是實時態(tài)勢最直觀的反映。隨著輿論信息的短文本化和多模態(tài)化,基于文本的語義挖掘在用戶觀點和情緒抽取方面的表現面臨越來越大的挑戰(zhàn)。
圖3所示是在“河南遭遇特大暴雨”事件中,用戶發(fā)布的一條短文本、多模態(tài)的微博內容。文本信息很短,只有一句簡單的描述?;诔R?guī)的文本挖掘技術,很難抽取其中用戶的觀點和情感。文本下方的視頻則提供了更加豐富的內容,通過對視頻關鍵幀信息的分析,可以獲悉本條微博內容表達了對火箭軍及時趕到,并轉移福利院兒童的感激之情,并且用戶對戰(zhàn)勝災害充滿信心。
圖3 短文本、多模態(tài)微博內容示例
所以,從不同的角度和層次抽取社交媒體多模態(tài)數據中的信息,然后進行特征變換和語義上的融合,能夠獲得比單一模態(tài)更加豐富和準確的信息,從而為社會治理提供決策支持。
構建多模態(tài)知識圖譜的一個關鍵問題是除文本數據外,其它模態(tài)的數據以何種形式在知識圖譜中進行表示[2],即存在單模態(tài)特征表示和多模態(tài)特征融合的問題。分析常見社交媒體平臺中網絡輿情信息的特點,總結出常見的信息模態(tài)組合方式通常為文本-圖像、文本-視頻、文本-圖像-視頻。下面以突發(fā)自然災害事件“河南遭遇特大暴雨”為例,選取社交媒體平臺中的部分多模態(tài)數據進行融合方式的說明。
將圖像、視頻等多模態(tài)數據的URL鏈接以實體屬性的方式嵌入到傳統(tǒng)知識圖譜中,是最直接的一種多模態(tài)數據融合方式[21],如圖4所示。但是在這種情況下,圖像和視頻中的內容并沒有被提取出來,沒有被作為獨立的實體,只是以鏈接的形式直接被添加到知識圖譜中。
圖4 實體屬性關聯(lián)多模態(tài)知識圖譜示例
圖像(視頻)文字描述是指向傳統(tǒng)的知識圖譜中添加圖像(視頻)數據的同時,還要添加描述該圖像(視頻)的文字描述[22]。在圖5中,圖像和視頻以實體的形式被添加到傳統(tǒng)知識圖譜中,同時增加了對圖像和視頻內容的文字描述,該描述同樣以實體的形式被添加到傳統(tǒng)知識圖譜中。這種方式是以模態(tài)轉換的形式將圖像(視頻)內容轉換成文本內容,間接提取圖像(視頻)中的信息。但是這種方式不能完全獲取圖像(視頻)中的相關屬性信息。
圖5 圖像(視頻)文字描述多模態(tài)知識圖譜示例
圖像(視頻)屬性是指向圖5所示的多模態(tài)知識圖譜中繼續(xù)添加從圖像(視頻)中提取出來的屬性信息[23],如圖6所示。
圖6 圖像(視頻)屬性多模態(tài)知識圖譜示例
例如從圖6左側第一張圖像中提取出“戶外人員”和“被困”,將其分別以“主體”和“事件”的關系鏈接到相對應的圖像上;從圖6中間的視頻中提取出“救援人員”和“營救”,將其分別以“主體”和“事件”的關系鏈接到相對應的視頻上。這樣可以增加知識圖譜中實體和關系的數量及復雜度,有利于在下游應用中進行知識搜索和推理。但是,這種方式的數據融合,圖像(視頻)與圖像(視頻)之間仍然缺乏直接的關聯(lián)。
圖像(視頻)關聯(lián)是指直接建立起多模態(tài)知識圖譜中不同圖像(視頻)間的關聯(lián)。在圖7中,將中間視頻與左右兩邊圖像的關系設定為“救援”。這種融合方式增加了圖像(視頻)之間的關聯(lián)關系,提高了不同模態(tài)數據之間的關聯(lián)度,這樣不同模態(tài)的數據之間都能夠直接進行知識搜索和推理,提高了圖譜搜索和推理的靈活性和全面性。
圖7 圖像(視頻)關聯(lián)多模態(tài)知識圖譜示例
根據社交媒體輿情數據分析和圖譜構建的需求[20],可以將多模態(tài)知識圖譜的構建步驟分為數據獲取、數據處理、知識抽取、知識融合和圖譜應用五個部分,如圖8所示。
圖8 社交媒體輿情多模態(tài)知識圖譜的構建框架
社交媒體平臺中通常包含豐富的多模態(tài)數據,針對特定的需求,可以采集單一來源數據或者多源數據。常見的社交媒體多模態(tài)數據類型有文本、圖像和視頻。由于不同數據模態(tài)的處理技術存在差異性,這里將視頻中的音頻提取出來單獨作為一種數據模態(tài)進行處理。
采集到的原始數據可能存在空缺值、無關值、重復值等問題,需要進行數據清洗。數據清洗包括去除空缺值、去除無關值、刪除重復值等步驟。然后,根據數據模態(tài)的差異,將數據進行分類存儲。例如可以將結構化數據存儲在關系型數據庫中,將半結構化數據存儲在NoSQL數據庫中,將非結構化數據存儲在對象存儲中。存儲在數據庫中的數據還需要進行質量檢測,以確保數據的準確性、完整性和一致性。
不同數據模態(tài)之間存在著巨大的差異,為了后續(xù)更加全面的進行實體和關系抽取,需要將圖像、視頻和音頻數據進行多模態(tài)的轉換。
a.圖像數據的模態(tài)轉換。圖像數據的模態(tài)轉換是指根據圖像生成描述文本和場景圖,從而幫助計算機理解圖像的內容和語義。
基于圖像的文本生成又稱為圖像描述生成,是指讓計算機根據圖像生成語法正確,且能夠描述圖像視覺內容的自然語言,實現從圖像到文本的模態(tài)轉換。圖像描述生成的方法主要分為兩類:基于模板的方法和基于深度學習的方法?;谀0宓姆椒ㄊ褂妙A定義的句子模板和規(guī)則,根據圖像的內容填充相應的詞語和短語,生成描述文本。而基于深度學習的方法則使用深度神經網絡模型[24],通過學習大量的圖像-文本對,將圖像映射到一個語義空間,從而生成描述文本,而后進行三元組信息提取。
場景圖是一種圖結構,由節(jié)點和邊組成,每個節(jié)點表示一個對象,每條邊表示兩個對象之間的關系,用于描述圖像中的對象、關系和屬性。場景圖的生成通?;谏疃葘W習算法進行目標檢測和圖像分割[25]。首先,通過目標檢測算法識別圖像中的對象,并提取它們的位置和類別信息。然后,通過圖像分割算法對每個對象進行像素級別的分割,得到對象的精確邊界。最后,根據對象之間的空間關系和語義關系,構建場景圖的節(jié)點和邊。
b.視頻數據的模態(tài)轉換。視頻是包含時間序列信息的一系列圖像,視頻數據的模態(tài)轉換是指將視頻進行序列信息處理和生成主題文本。
序列信息處理是指使用計算機視覺技術從視頻數據中提取出序列信息,例如視頻的幀序列、動作序列、物體序列等[26]。通過提取序列信息,可以將視頻數據轉換為序列數據,便于后續(xù)的處理和分析。
生成主題文本是指使用自然語言處理技術分析視頻的內容和語義信息,從視頻數據中生成與主題相關的文本描述,例如圖像描述生成、視頻摘要生成等[27],而后進行三元組信息提取。
c.音頻數據的模態(tài)轉化。音頻數據的模態(tài)轉換包括背景音處理和生成音頻文本。背景音處理包括噪聲消除、音頻增強和混響消除,從而使音頻中的有效聲音更清晰或更突出?;谡Z音識別技術可以生成音頻文本,然后和本文信息一起進行三元組信息提取。
多模態(tài)知識圖譜構建過程中的知識抽取是將不同模態(tài)的信息轉化為結構化的知識表示,以便于在知識圖譜中進行存儲和查詢。知識抽取的過程可以分為文本三元組的知識抽取、場景圖的知識抽取、序列信息的知識抽取和背景音的知識抽取。
文本三元組的知識抽取包括命名實體識別、實體消歧、文本關系抽取和事件抽取。命名實體識別是指從文本中識別出具有特定意義的實體,如人名、地名、組織機構等。實體消歧是指將同義實體進行合并,解決同一實體具有不同表述的問題。文本關系抽取是指從文本中提取出實體之間的關系,如"人物A是人物B的父親"。事件抽取是指從文本中抽取出事件及其相關實體和關系。
場景圖的知識抽取包括目標檢測、特征圖像提取、圖像實體識別和視覺關系檢測。目標檢測是指從圖像中檢測出具有特定意義的目標,如人、車、建筑等。特征圖像提取是指從圖像中提取出具有代表性的特征,以便于后續(xù)的實體識別和關系檢測。圖像實體識別是指從圖像中識別出具有特定意義的實體,如人物、物體等。視覺關系檢測是指從圖像中提取出實體之間的關系,如"人物A坐在椅子上"。
序列信息的知識抽取包括動作檢測和時間范圍獲取。動作檢測是指從序列信息中檢測出人物或物體的動作,如"人物A跑步"。時間范圍獲取是指從序列信息中獲取事件發(fā)生的時間范圍,如"事件A發(fā)生的時間區(qū)間"。
背景音的知識抽取包括聲音分類和語音識別。聲音分類是指將背景音進行分類,如環(huán)境聲、交通聲等。語音識別是指將語音轉化為文本表示,以便于后續(xù)的知識表示和關聯(lián)。
在多模態(tài)知識圖譜構建過程中,從文本中抽取的命名實體和從場景圖中抽取的圖像實體需要進行跨模態(tài)實體對齊,使它們在知識圖譜中表示為同一個實體,從而實現不同模態(tài)之間的知識共享和交互。通過跨模態(tài)實體對齊,可以使多模態(tài)知識圖譜中的知識聯(lián)系更加緊密,提高知識的完整性和一致性。
多模態(tài)知識融合是將來自不同模態(tài)的知識進行整合,以建立一個綜合的多模態(tài)知識圖譜。通過將不同模態(tài)中的實體進行對齊,并根據預定義的關系建立不同模態(tài)知識之間的關聯(lián)關系,從而實現知識的融合,為下游應用提供更全面和準確的支撐。
基于融合后的多模態(tài)知識,可以進行跨模態(tài)的知識查找。同時,基于已有的關聯(lián)關系,可以識別異常模式,從而對潛在風險進行預警。這些都是進行知識圖譜質量評估的方式,從而提高多模態(tài)知識圖譜的質量和可靠性。
最后,將通過質量評估的多模態(tài)知識以圖結構進行存儲和部署。通過可視化前端,可以提高多模態(tài)知識圖譜和下游應用之間的交互性,從而實現更高效的信息處理和應用。
知識圖譜是實現人工智能由感知智能向認知智能轉變的基石。然而,隨著數據對象和交互方式的多樣化,新一代知識圖譜的構建也面臨新的機遇與挑戰(zhàn)。
a.多模態(tài)語義理解。多模態(tài)語義理解是指將不同模態(tài)的數據進行融合來獲取豐富、準確的語義信息。但是,多模態(tài)數據之間存在異構性。這些異構數據具有不同的特征和表達方式,很難直接融合。在文本語義理解任務中,通常使用基于詞向量的方法來表示文本特征,但這種方法不能直接應用于圖像和視頻等其它數據模態(tài)的特征提取,所以需要尋找能夠更好地在多模態(tài)數據之間進行特征提取和融合的方式。此外,視覺檢測領域中的目標檢測技術對圖像信息的識別仍然停留在感知層面[2],主要關注物體的位置和類別,而對于物體的細節(jié)和特征表示能力有限,很難實現細粒度、實例化的圖像識別,導致無法獲取深層的語義信息。所以,如何針對知識圖譜本身及其下游任務,讓模型可以自適應地提取有價值的特征,并進行高效融合,是進行多模態(tài)語義深層理解的關鍵。
b.多模態(tài)實體對齊。多模態(tài)實體對齊是指將不同數據模態(tài)中的同一實體進行匹配和對齊。但是,由于不同模態(tài)數據之間存在著語義鴻溝,機器不能自動識別跨模態(tài)數據間是否為同一實體。基于深度學習的處理技術雖然可以對任務進行輔助,但是依賴于大量的人工標注數據對模型進行預訓練,訓練過程對計算機的算力和存儲能力要求較高。所以,如何降低多模態(tài)預訓練模型對人工標注數據的依賴性,過濾噪音數據,提高其在實體對齊任務中的表現是構建多模態(tài)知識圖譜的另一個關鍵。
c.多模態(tài)知識表示?;诙嘣?、異構數據的多模態(tài)知識圖譜未來的發(fā)展方向是模態(tài)層次更全面、知識粒度更細、語義關聯(lián)更豐富?;诖?傳統(tǒng)的RDF數據模型將不能滿足知識的建模和表達,亟需一種符合邏輯規(guī)則,涵蓋多種數據結構的多模態(tài)知識表示方法,這是構建多模態(tài)知識圖譜的第三個關鍵。
隨著互聯(lián)網和多媒體技術的發(fā)展,社交網絡輿情呈現出文本、圖像、視頻等多種模態(tài)數據共存的現象,不同模態(tài)數據之間相互呼應和補充。所以,如何將不同模態(tài)的數據(如文本、圖像、視頻等)融合在一起,構建跨模態(tài)的實體以及語義關系, 豐富只包含文本數據的傳統(tǒng)知識圖譜[5],是亟需解決的重要問題。
本文在分析通用和領域多模態(tài)知識圖譜研究現狀的基礎上,提出社交網絡輿情多模態(tài)知識圖譜構建框架。在多模態(tài)知識圖譜的構建過程中,多模態(tài)數據可以從單一數據來源中抽取,也可以從多源數據中抽取。多模態(tài)數據屬于異構數據,所以獲取多模態(tài)知識需要將異構數據進行特征變換和融合。多模態(tài)數據的融合方式包括實體屬性關聯(lián)、圖像(視頻)文字描述、圖像(視頻)屬性、圖像(視頻)關聯(lián)等。基于此,本文將社交媒體輿情多模態(tài)知識圖譜的構建框架分為數據獲取、數據處理、知識抽取、知識融合和圖譜應用五個部分,并進一步討論了多模態(tài)知識圖譜構建過程中多模態(tài)語義理解、多模態(tài)實體對齊、多模態(tài)知識表示等方面存在的問題和挑戰(zhàn)。