摘 要:[目的/意義]隱喻理解依賴特定的上下文和語境。而機(jī)器在理解圖像時(shí)無法結(jié)合上下文和語境進(jìn)行推理,難以把握?qǐng)D像背后的隱喻意義。構(gòu)建圖像隱喻知識(shí)描述框架并提出圖像隱喻理解策略,有助于促進(jìn)圖像隱喻理解。[方法/過程]通過梳理圖像隱喻理解相關(guān)研究,以心理健康這一類復(fù)雜抽象圖像為例,本研究構(gòu)建了圖像隱喻知識(shí)描述框架。基于該框架對(duì)351幅心理健康圖像進(jìn)行標(biāo)注,進(jìn)而依據(jù)圖像的上下文關(guān)聯(lián)特性和抽象程度分類提出4種圖像隱喻理解策略。[結(jié)果/結(jié)論]圖像隱喻知識(shí)描述框架由圖像語義、圖像上下文、隱喻映射關(guān)系、隱喻類型與隱喻意義5個(gè)部分組成?!爸苯印唧w”類型圖像隱喻理解策略為基于圖文匹配的關(guān)聯(lián)理解,“直接—抽象”類型為基于關(guān)鍵詞的直接解析,“非直接—具體”類型為基于語義關(guān)聯(lián)的間接推斷,“非直接—抽象”類型為基于感知相似性的綜合理解。本研究有助于為機(jī)器理解圖像提供理論參考。
關(guān)鍵詞:圖像隱喻理解;心理健康圖像;知識(shí)描述框架;理解策略;知識(shí)組織
DOI:10.3969/j.issn.1008-0821.2025.08.001
〔中圖分類號(hào)〕G203 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2025)08-0003-15
A Knowledge Description Framework and
Understanding Strategies of Image Metaphor
——Taking Psychological Health Images as an Example
Lu Quan Tan Yingying Peng Xueying*
(School of Information Management,Wuhan University,Wuhan 430072,China)
Abstract:[Purpose/Significance]Metaphor understanding depends on specific contexts.However,machines are unable to make inferences based on context when understanding images,making it difficult to grasp the metaphorical meaning behind the images.Constructing a knowledge description framework of image metaphor and proposing strategies for understanding image metaphors will promote understanding of image metaphors.[Method/Process]By reviewing the research of image metaphor understanding,taking complex and abstract psychological health images as an example,the study constructed a knowledge description framework of image metaphor.Based on the framework,the study annotated 351 psychological health images,and proposed four image metaphor understanding strategies based on the contextual relevance and abstraction level.[Result/Conclusion]The results shows that the knowledge description framework of image metaphor consists of five parts:image semantics,image context,metaphorical mapping relationship,metaphor type,and metaphorical meaning.The strategy of understanding metaphors in“direct-concrete”images is association understanding based on image-text matching,the strategy in“direct-abstract”images is direct parsing based on keywords,the strategy in“non direct-concrete”images is indirectly inferring based on semantic association,and the strategy in“non direct-abstract”image is comprehensively understanding based on perceptual similarity.This work provides references for research on machine understanding images.
Key words:image metaphor understanding;psychological health image;knowledge description framework;understanding strategy;knowledge organization
隨著人工智能從感知走向認(rèn)知,機(jī)器理解圖像也逐漸從簡(jiǎn)單的圖像分類與識(shí)別轉(zhuǎn)向復(fù)雜的圖像內(nèi)容分析與推理[1]。然而,機(jī)器在對(duì)圖像內(nèi)容進(jìn)行分析與推理時(shí)仍然存在缺陷。一是,在理解圖像表層含義時(shí)會(huì)出現(xiàn)“幻覺”。即使先進(jìn)的大語言模型也會(huì)在理解圖像對(duì)象、空間關(guān)系、行為等淺層含義時(shí)存在系統(tǒng)性缺陷[2],如錯(cuò)誤識(shí)別圖像中的對(duì)象并進(jìn)一步導(dǎo)致對(duì)象行為識(shí)別出錯(cuò)[3]。二是,機(jī)器對(duì)圖像深層含義的理解準(zhǔn)確性不足。已有研究發(fā)現(xiàn),即使是表現(xiàn)最佳的模型在理解圖像中的“幽默”時(shí),其準(zhǔn)確率也比人類要低30%[4]。隱喻理解對(duì)于揭示認(rèn)知機(jī)制具有重要意義,然而由于隱喻語言的獨(dú)特性,機(jī)器可能很難準(zhǔn)確把握隱喻的映射關(guān)系[5]。研究指出,機(jī)器在執(zhí)行復(fù)雜推理任務(wù)時(shí)未能考慮人類的認(rèn)知框架,使其解決復(fù)雜推理問題的能力與人類之間仍然存在著顯著的差距,而人類在面對(duì)復(fù)雜推理難題時(shí),通常會(huì)使用各種認(rèn)知能力,并且與工具、知識(shí)和外部環(huán)境信息的各個(gè)方面進(jìn)行交互[6]。
隱喻是一種人類用于抽象概念理解、進(jìn)行抽象推理的認(rèn)知手段,隱喻理解體現(xiàn)了理解、推理的認(rèn)知過程。圖像隱喻理解是通過圖像媒介中的隱喻性內(nèi)容推理解讀抽象內(nèi)容的過程。具體而言,圖像隱喻理解是人類在觀看隱喻圖像時(shí),解讀其中的象征意義,從而在認(rèn)知上將圖像內(nèi)容與抽象概念聯(lián)系起來的過程。在該過程中,除了觀察圖像本身外,人類通常利用圖像上下文的提示作用以提高圖像隱喻理解的準(zhǔn)確性。因此,將圖像本身與上下文結(jié)合起來去推理圖像所表達(dá)的內(nèi)容及其隱喻意義是一種圖像推理任務(wù),將人的圖像隱喻理解過程作為依據(jù)將提升機(jī)器的圖像隱喻理解效果。
心理健康圖像指那些用于表達(dá)、描述或象征心理健康狀態(tài)以及情感和心理過程的圖像,反映了創(chuàng)作者的內(nèi)心沖突、感受與價(jià)值觀[7],往往具有強(qiáng)烈的隱喻性,使用圖像隱喻是心理治療過程中有效溝通復(fù)雜健康話題的關(guān)鍵策略[8]。心理健康圖像創(chuàng)作者根據(jù)自己與心理健康相關(guān)的創(chuàng)傷經(jīng)歷創(chuàng)作圖像,通過圖像來回應(yīng)和重建創(chuàng)傷記憶,然而這些創(chuàng)傷經(jīng)歷以模糊的情感和生動(dòng)的畫面呈現(xiàn),缺乏情節(jié)和語言背景[7],使得心理健康圖像呈現(xiàn)出復(fù)雜抽象的特點(diǎn),增加了理解難度。已有研究探究了心理健康圖像特征與心理健康疾病之間的聯(lián)系,使用統(tǒng)計(jì)分析與機(jī)器學(xué)習(xí)發(fā)現(xiàn)了圖像大小、位置、顏色以及圖像中特定對(duì)象的行為特征與抑郁、焦慮癥狀存在顯著相關(guān)性[9-12]。心理健康圖像作為復(fù)雜的隱喻圖像,其隱喻理解卻被忽略。
提高機(jī)器理解圖像隱喻的效果將提升機(jī)器在圖像理解任務(wù)上的表現(xiàn)并提升人機(jī)交互深度。例如,當(dāng)用戶使用隱喻表達(dá)時(shí),機(jī)器能夠準(zhǔn)確把握用戶情緒與意圖,從而提供更個(gè)性化的服務(wù)。因此,本研究以圖像隱喻理解為線索,構(gòu)建圖像隱喻知識(shí)描述框架,并基于該框架對(duì)心理健康圖像進(jìn)行標(biāo)注,進(jìn)而歸納圖像隱喻理解策略,以期為機(jī)器理解圖像隱喻提供理論參考,從而助力圖像知識(shí)組織、圖像信息服務(wù)等。
1 文獻(xiàn)綜述
1.1 圖像隱喻理解
隱喻是一種認(rèn)知視角下的思維方式和認(rèn)知手段,是從一個(gè)概念域到另一個(gè)概念域的映射[13]。當(dāng)用一個(gè)概念域來描述和理解另一個(gè)概念域時(shí),前者被稱為源域,后者是目標(biāo)域。簡(jiǎn)而言之,隱喻是從源域到目標(biāo)域的映射,本質(zhì)上可以作為一種思想應(yīng)用于文本、圖像、聲音、手勢(shì)等各種媒介。圖像隱喻是隱喻對(duì)圖像媒介的操作,通過圖像視覺元素的暗示、象征等傳遞更復(fù)雜的信息,使得圖像不僅具有表面含義,而且包含了更深的內(nèi)涵。
圖像理解包括對(duì)圖像表層含義以及深層含義的理解,前者的理解集中在對(duì)圖像對(duì)象、場(chǎng)景及其視覺關(guān)系等直接可見內(nèi)容的識(shí)別[14],后者的理解則包括對(duì)圖像表達(dá)的觀點(diǎn)[15]、情感[16]等非直接可見內(nèi)容的分析。圖像隱喻理解是在理解圖像表層含義的基礎(chǔ)上進(jìn)一步挖掘深層的隱含義[17]。目前,圖像隱喻理解研究主要集中在商業(yè)廣告、政治漫畫兩類圖像上。商業(yè)廣告中的隱喻旨在促進(jìn)消費(fèi)者對(duì)產(chǎn)品的了解并刺激購買欲望,本質(zhì)上是基于相似性的跨域映射,解讀依賴于源域和目標(biāo)域之間的相似性[18]。研究者主要分析商業(yè)廣告中的隱喻類型,并強(qiáng)調(diào)了文本信息對(duì)于隱喻識(shí)別與解釋的提示和引導(dǎo)作用[19];政治漫畫中的隱喻旨在表達(dá)政治立場(chǎng)、塑造公眾認(rèn)識(shí),具有批判性。研究者主要分析政治漫畫隱喻背后的政治觀點(diǎn)[20-21],并發(fā)現(xiàn)政治漫畫常常通過形體大小隱喻權(quán)力、力量、社會(huì)地位的差別[22]。由于商業(yè)廣告和政治漫畫面向的讀者是普通人群,這兩類圖像相對(duì)簡(jiǎn)單,并包含明顯的暗示,使讀者容易理解其中的隱喻。然而心理健康圖像通常是創(chuàng)作者基于自己的創(chuàng)傷經(jīng)歷而創(chuàng)作,這些創(chuàng)傷經(jīng)歷以模糊的情感和生動(dòng)的畫面呈現(xiàn),缺乏情節(jié)和語言背景,具有復(fù)雜和抽象的特點(diǎn),導(dǎo)致了心理健康圖像隱喻理解研究存在困難。
在圖像隱喻理解的基礎(chǔ)上,已有研究從人類與機(jī)器兩個(gè)認(rèn)知主體的角度探索了圖像隱喻理解的方法。以人類為認(rèn)知主體的圖像隱喻理解方法一般為定性研究,符合人類理解圖像隱喻的過程,但主要依靠人工識(shí)別、解釋圖像隱喻。Forceville C[23]分析了不同類型的圖像隱喻特點(diǎn),為圖像隱喻理解提供切入點(diǎn)。程瑾濤[15]認(rèn)為,理解圖像隱喻的步驟包括確定隱喻的源域和目標(biāo)域、依據(jù)兩域之間的關(guān)系確定隱喻類型、基于隱喻結(jié)構(gòu)的分析重現(xiàn)漫畫觀點(diǎn)。Joost S等[21]則提出了理解圖像隱喻意義的策略,指出圖像隱喻意義的解釋包括圖式源域解讀和分類源域解讀。以機(jī)器為認(rèn)知主體的圖像隱喻理解方法主要包括引入外部知識(shí)增強(qiáng)理解、基于深度學(xué)習(xí)的多模態(tài)處理方法。針對(duì)引入外部知識(shí)增強(qiáng)理解方法,F(xiàn)u C P等[17]通過檢測(cè)隱喻圖像中的對(duì)象并引入與對(duì)象相關(guān)的外部知識(shí)來識(shí)別圖像隱喻。然而圖像隱喻往往以非常規(guī)方式使用語言和視覺元素,外部知識(shí)輔助可能導(dǎo)致在特定隱喻情境中產(chǎn)生誤解,并且容易限制隱喻識(shí)別的范圍。針對(duì)基于深度學(xué)習(xí)的多模態(tài)處理方法,研究者嘗試將視覺信息與文本信息相結(jié)合,使用多模態(tài)預(yù)訓(xùn)練模型如CLIP(Contrastive Language-Image Pre-training)聯(lián)合訓(xùn)練圖像和文本數(shù)據(jù),使機(jī)器在視覺和語言的聯(lián)合空間中捕捉圖像與文本間的語義聯(lián)系,從而提升機(jī)器理解圖像隱喻的能力[5]。然而在隱喻情境中,圖像隱喻的文字意義與圖像間的關(guān)聯(lián)是間接的、象征性的,準(zhǔn)確匹配二者的隱含意義存在困難。此外,現(xiàn)有多模態(tài)模型在處理復(fù)雜圖像時(shí),往往難以捕捉到圖像和文本之間的深層次關(guān)聯(lián)。圖像隱喻理解不僅僅依賴于感知,還需要模型進(jìn)行抽象推理,在認(rèn)知上實(shí)現(xiàn)圖像的深層含義理解。
1.2 基于圖像隱喻知識(shí)描述框架的圖像隱喻理解策略
知識(shí)描述是知識(shí)表示的體現(xiàn)[24],知識(shí)表示是一種用來描述和組織知識(shí)的形式化方法,一般采用邏輯表示、框架表示、語義網(wǎng)絡(luò)及本體等形式化工具來表示知識(shí)[25],旨在將特定領(lǐng)域知識(shí)的知識(shí)因子和知識(shí)關(guān)聯(lián)表示出來,揭示知識(shí)內(nèi)部的語義關(guān)聯(lián),從而便于識(shí)別和理解[26-27]。圖像隱喻知識(shí)描述框架旨在以系統(tǒng)化的框架將圖像中的隱喻知識(shí)進(jìn)行顯性表示,揭示圖像隱喻知識(shí)包含的內(nèi)容及內(nèi)容間的關(guān)聯(lián),從而促進(jìn)圖像隱喻的理解。
圖像隱喻知識(shí)描述框架是圖像隱喻理解的基本工具。根據(jù)不同圖像隱喻理解方法,圖像隱喻理解的目的是通過識(shí)別圖像中的隱喻映射關(guān)系及隱喻類型,最終得到圖像傳遞的隱喻意義。進(jìn)而,圖像隱喻理解需要從圖像本身出發(fā),且離不開上下文的輔助。因此,圖像隱喻理解過程可以看作從圖像和上下文出發(fā)識(shí)別圖像中隱喻的映射關(guān)系與隱喻類型并最終解讀圖像隱喻意義的過程。但是,已有研究關(guān)注圖像隱喻理解的最終結(jié)果,即圖像中包含哪些隱喻及隱喻意義是什么[21,23],未能將該過程歸納為系統(tǒng)性的框架。本研究將構(gòu)建圖像隱喻知識(shí)描述的系統(tǒng)性框架,明確圖像本身、上下文、隱喻映射關(guān)系、隱喻類型、隱喻意義各部分間的關(guān)聯(lián),為圖像隱喻理解提供可遵循的步驟。
圖像隱喻理解策略是圖像隱喻知識(shí)描述框架的深入運(yùn)用。圖像隱喻知識(shí)描述框架為圖像隱喻理解提供了系統(tǒng)性的可遵循的步驟,但不同類型的圖像在具體運(yùn)用時(shí)會(huì)有所差別,即圖像隱喻理解策略存在差異??紤]到圖像本身與圖像上下文是圖像隱喻理解的基礎(chǔ)要素,本研究依據(jù)圖像的抽象程度與上下文關(guān)聯(lián)特性兩個(gè)維度對(duì)圖像進(jìn)行分類。
從圖像本身而言,圖像存在著具體與抽象的區(qū)別。具體圖像的題材可以明確被識(shí)別為人、地點(diǎn)或物體等,而抽象圖像的題材并不能夠很好地被識(shí)別出來[28]。抽象圖像的內(nèi)容與自然物象極少或完全沒有相近之處,其一般通過形狀、顏色等來表達(dá)主觀體驗(yàn),無特定能夠識(shí)別的物體[29]。圖像在具體與抽象程度上的差別導(dǎo)致了其在語義描述尤其是對(duì)象、空間關(guān)系、場(chǎng)景、行為語義上的差別,具體圖像通常有著明確的對(duì)象及空間關(guān)系,存在著清晰的場(chǎng)景和行為,而抽象圖像的上述語義通常不能進(jìn)行明確識(shí)別和表達(dá)。這種圖像語義的差異導(dǎo)致人在理解具體和抽象圖像中的隱喻時(shí)存在差別。對(duì)于具體圖像,讀者能夠較清晰地對(duì)圖像中的對(duì)象、場(chǎng)景等進(jìn)行詳細(xì)描述,從而基于已有的相關(guān)經(jīng)驗(yàn)或認(rèn)識(shí)進(jìn)行聯(lián)想、映射并推測(cè)圖像中蘊(yùn)含的隱喻以及隱喻意義,即具體圖像隱喻的建構(gòu)依賴人對(duì)不同事物間認(rèn)知上的關(guān)聯(lián)性[30];對(duì)于抽象圖像,圖像所描述的對(duì)象或場(chǎng)景則難以確定,人們更偏向于從圖像的視覺特征去映射有著相似特征的對(duì)象,然后分析圖像隱喻及其隱喻意義。Yamamura N等[31]利用人工標(biāo)注結(jié)果,構(gòu)建了抽象圖像的隱喻數(shù)據(jù)集,發(fā)現(xiàn)形狀特征在抽象圖像的隱喻生成中起著重要作用,側(cè)面印證了人會(huì)基于感知上的相似性去理解抽象圖形中的隱喻。因此,這種差別意味著讀者在理解圖像隱喻時(shí),會(huì)根據(jù)圖像的具體與抽象程度去采取不同的理解策略。已有研究主要基于檢索需要對(duì)圖像進(jìn)行分類,形成了以圖像元數(shù)據(jù)與圖像語義為主要構(gòu)成的分類框架[32-33],用戶對(duì)圖像的認(rèn)知程度也被納入分類維度以提高檢索效率[34]。然而心理健康圖像隱喻理解是讀者在已獲取圖像的情況下對(duì)圖片進(jìn)行認(rèn)知的過程,同時(shí)心理健康圖像具有復(fù)雜性,讀者有時(shí)無法準(zhǔn)確描述圖像語義,只能依據(jù)自身的認(rèn)知對(duì)圖像進(jìn)行具體或是抽象的判斷從而選擇不同的理解策略。因此,本文從具體或抽象圖像的角度對(duì)心理健康圖像進(jìn)行分類。
從圖像上下文而言,已有研究利用圖像標(biāo)題、標(biāo)簽等輔助隱喻理解,卻忽略了不同類型的圖像上下文與圖像關(guān)聯(lián)程度不一、對(duì)理解圖像隱喻作用的不同。一般來說,圖像上下文包括圖像標(biāo)題、圖像標(biāo)簽和圖像文本描述[35]。圖像標(biāo)題是圖像內(nèi)容的簡(jiǎn)練表達(dá),關(guān)聯(lián)程度較高,對(duì)理解圖像隱喻起著關(guān)鍵提示作用[36]。圖像標(biāo)簽是對(duì)圖像中特定內(nèi)容的簡(jiǎn)短描述(如情感、對(duì)象等)[37],但部分圖像標(biāo)簽對(duì)于圖像內(nèi)容的描述是不相關(guān)和不完整的[38]。因此,圖像標(biāo)簽與圖像的關(guān)聯(lián)程度較低,對(duì)于理解圖像隱喻起著信息補(bǔ)充作用。圖像文本描述傳遞著創(chuàng)作背景、創(chuàng)作意圖及解釋等信息,信息豐富且密度大,通過對(duì)圖像文本描述的仔細(xì)分析和解讀,可以更深入地理解圖像的內(nèi)涵,為推測(cè)圖像中的隱喻及隱喻意義提供最重要的理解基礎(chǔ)。然而,圖像文本描述并不總是包含創(chuàng)作意圖、解釋等內(nèi)容,由于創(chuàng)作者的主觀性,圖像文本描述可能非常嘈雜[35],其有時(shí)也并不與圖像內(nèi)容直接相關(guān)。因此,基于圖像上下文對(duì)于理解圖像隱喻的不同作用,在圖像標(biāo)題與圖像文本為理解圖像隱喻提供的信息有限時(shí),需要考慮標(biāo)簽的補(bǔ)充作用。
1.3 研究現(xiàn)狀總結(jié)
對(duì)于人類認(rèn)知主體,已有研究分析了商業(yè)廣告、政治漫畫等類型圖像的隱喻理解,以識(shí)別圖像中的隱喻映射關(guān)系及其隱喻意義為重點(diǎn),忽略了圖像隱喻理解的系統(tǒng)性框架。具體表現(xiàn)為:首先,對(duì)圖像語義分析不足。由于商業(yè)廣告和政治漫畫旨在說服面向的群體,隱喻容易識(shí)別,從而忽略了完整地解析圖像語義。然而心理健康圖像通常表達(dá)創(chuàng)作者的經(jīng)歷,具有復(fù)雜抽象性,難以快速識(shí)別出圖像中具有隱喻意義的對(duì)象,需要深入分析圖像語義并結(jié)合上下文去推測(cè)圖像中的隱喻。其次,未能考慮不同類型上下文與圖像的關(guān)聯(lián)程度以及對(duì)理解圖像隱喻的不同作用。圖像標(biāo)題與圖像文本描述能夠提供更關(guān)鍵的信息,圖像標(biāo)簽作用則較小,區(qū)分上下文類型及其作用可使圖像隱喻理解過程更加清晰。最后,圖像隱喻類型的分類僅從單一的視覺聯(lián)系出發(fā)。隱喻類型是理解圖像隱喻的重要切入點(diǎn),體現(xiàn)出隱喻認(rèn)知主體的認(rèn)知角度。然而,已有研究更多從源域與目標(biāo)域間的表層視覺聯(lián)系對(duì)隱喻進(jìn)行歸類,而忽略了從源域與目標(biāo)域兩個(gè)域之間的深層內(nèi)容聯(lián)系去劃分隱喻類型,導(dǎo)致了圖像隱喻理解具有片面性。對(duì)于機(jī)器認(rèn)知主體,已有研究側(cè)重在感知層面引入外部知識(shí)或?qū)W習(xí)圖像與文本間的關(guān)聯(lián),從而實(shí)現(xiàn)自動(dòng)理解圖像隱喻,忽略了在認(rèn)知層面的抽象推理過程,使得機(jī)器在圖像隱喻理解方面仍然存在缺陷。
綜上所述,本文在已有圖像隱喻理解研究的基礎(chǔ)上構(gòu)建圖像隱喻知識(shí)描述的系統(tǒng)性框架,該框架以人類理解圖像隱喻的一般過程為指導(dǎo),同時(shí),突出將圖像隱喻理解作為圖像抽象推理任務(wù)的特性。在該框架內(nèi),本文將對(duì)圖像語義進(jìn)行解析,區(qū)分不同上下文類型,將圖像語義和上下文二者結(jié)合起來識(shí)別圖像中的隱喻,從視覺聯(lián)系與內(nèi)容聯(lián)系雙重角度劃分圖像隱喻類型,最終獲得隱喻意義。
2 心理健康圖像隱喻知識(shí)描述框架
通過對(duì)相關(guān)研究的梳理,本研究構(gòu)建了心理健康圖像隱喻知識(shí)描述框架,如圖1所示。雙重編碼理論認(rèn)為,人類對(duì)信息的儲(chǔ)存與加工主要通過語言和視覺兩種獨(dú)立但互補(bǔ)的編碼系統(tǒng)實(shí)現(xiàn)[39]。隱喻映射關(guān)系的識(shí)別是對(duì)圖像本身與上下文進(jìn)行“雙重編碼”來獲得關(guān)于圖像更深層次理解的過程。圖像中的對(duì)象語義通過視覺符號(hào)表明隱喻的源域,而圖像上下文則幫助進(jìn)一步確定隱喻的目標(biāo)域,二者協(xié)同實(shí)現(xiàn)對(duì)圖像隱喻的理解;隱喻類型是對(duì)隱喻映射關(guān)系的分類,展現(xiàn)了源域和目標(biāo)域之間的關(guān)系結(jié)構(gòu)和映射方式,不同的隱喻類型反映了不同的認(rèn)知模式。例如,整合隱喻反映了以原型為基礎(chǔ)進(jìn)行認(rèn)知的模式,原型指一類成員集合中承載著這個(gè)集合中最顯著特性的實(shí)例,原型理論認(rèn)為,人類在認(rèn)知過程中通常依賴典型實(shí)例即原型來理解抽象概念[40];基于隱喻映射關(guān)系形成對(duì)圖像隱喻意義的理解,隱喻意義是圖像創(chuàng)作者想要傳遞的感受或觀點(diǎn)。
圖1 圖像隱喻知識(shí)描述框架Fig.1 The Knowledge Description Framework of Image Metaphor
2.1 圖像語義
圖像本身是理解圖像隱喻的必備要素,而圖像語義是理解圖像的基礎(chǔ)[41]。圖像語義被劃分為6個(gè)層次,包括特征語義、對(duì)象語義、空間關(guān)系語義、場(chǎng)景語義、行為語義、情感語義。特征語義是圖像的底層視覺特征,其余5種語義為圖像的高層語義[42]。對(duì)象語義、空間關(guān)系語義、場(chǎng)景語義和行為語義構(gòu)成了圖像的內(nèi)容語義,是圖像內(nèi)容的主要表達(dá)。直觀的視覺特征語義反映了圖像的風(fēng)格和給人的整體印象,情感語義暗示了隱喻意義的基調(diào)。通過對(duì)圖像語義描述,圖像蘊(yùn)含的信息以一種系統(tǒng)化的形式表達(dá)出來,識(shí)別圖像語義是理解圖像隱喻的第一步。
2.2 圖像上下文
圖像上下文提供了圖像的相關(guān)信息,可以輔助圖像語義的識(shí)別并確定圖像中哪些對(duì)象具有象征意義及其象征的事物。在本研究采集到的數(shù)據(jù)中,圖像上下文包括圖像標(biāo)題、圖像標(biāo)簽以及圖像文本描述。圖像標(biāo)題是圖像內(nèi)容的簡(jiǎn)練表達(dá),提示了圖像理解的基本方向(如圖像中的對(duì)象、場(chǎng)景、情感等)。圖像標(biāo)簽是圖像中的特定內(nèi)容的關(guān)鍵詞,通常與圖像情感或者圖像創(chuàng)作者的經(jīng)歷直接相關(guān)。圖像文本描述是創(chuàng)作者對(duì)圖像的相關(guān)陳述,通常包括創(chuàng)作背景、創(chuàng)作意圖和創(chuàng)作者對(duì)圖像的解釋。
2.3 隱喻映射關(guān)系
隱喻是源域到目標(biāo)域的映射,這種映射關(guān)系體現(xiàn)了圖像蘊(yùn)含的隱喻,通常表現(xiàn)為“A即B”“A是B”等形式[43]。然而在圖像中這種映射關(guān)系并不是清晰的,需要讀者從圖像上下文中識(shí)別與圖像內(nèi)容語義相關(guān)的關(guān)鍵詞和句子,將其與圖像內(nèi)容語義“匹配”,從而解析映射關(guān)系,即區(qū)分隱喻的源域與目標(biāo)域,識(shí)別圖像中的隱喻是什么,并用“A是B”的形式表達(dá)出來。由于圖像對(duì)象通常擔(dān)任了隱喻源域的角色,因此,包含較多對(duì)象語義的圖像可能隱含多個(gè)隱喻。
2.4 隱喻類型
識(shí)別圖像中隱喻的映射關(guān)系后,需要確定隱喻的類型,以便于分析該隱喻的特點(diǎn),從而更好地理解圖像隱喻。圖像隱喻類型可以基于源域和目標(biāo)域間的視覺聯(lián)系以及內(nèi)容聯(lián)系進(jìn)行分類。在視覺聯(lián)系上,F(xiàn)orceville C[19]將圖像隱喻分為整合隱喻、情境隱喻、文字—圖像隱喻、混合隱喻。在內(nèi)容聯(lián)系上,Gentner D等[44]通過對(duì)心理健康文本語料的分析,將隱喻分為系統(tǒng)隱喻、擬人隱喻、空間隱喻以及神經(jīng)隱喻。然而依據(jù)標(biāo)注實(shí)踐,本研究發(fā)現(xiàn)在心理健康圖像中還存在著狀態(tài)隱喻和概念隱喻。在概念隱喻中,一個(gè)概念通常用于代表另一個(gè)抽象概念(如花朵代表希望)。而狀態(tài)隱喻指隱喻的源域不屬于上述任何隱喻類型中的一種,難以用某種概念表達(dá),目標(biāo)域通常是某種狀態(tài),如抑郁和焦慮。
2.5 隱喻意義
隱喻意義是圖像創(chuàng)作者想要傳遞的感受或觀點(diǎn),一般來說,隱喻意義被用來描述隱喻的意圖。Joost S等[21]認(rèn)為,隱喻意義包括說明情形與發(fā)表觀點(diǎn),這與一般的認(rèn)知過程相符。對(duì)于說明情形,圖像內(nèi)容是關(guān)注點(diǎn)。由于圖像中的對(duì)象通常是隱喻的源域,圖像對(duì)象間的互動(dòng)關(guān)系構(gòu)成了源域間的互動(dòng),并通過源域與目標(biāo)域間的映射進(jìn)一步形成了目標(biāo)域間的互動(dòng)關(guān)系,最終構(gòu)成了圖像想要說明的情形。對(duì)于發(fā)表觀點(diǎn),源域的獨(dú)特屬性是關(guān)注點(diǎn)。源域作為一種對(duì)象通常具有其他對(duì)象沒有的獨(dú)有屬性(如不同動(dòng)物擁有的不同屬性),創(chuàng)作者會(huì)利用這種獨(dú)特屬性來表達(dá)自己的觀點(diǎn)。此外,圖像底層視覺特征有時(shí)也會(huì)傳遞觀點(diǎn)[22]。
3 數(shù)據(jù)收集與標(biāo)注
3.1 數(shù)據(jù)來源
本研究的數(shù)據(jù)來源于Perspective Project網(wǎng)站(https://www.theperspectiveproject.co.uk/)。該網(wǎng)站上展示了患有心理健康疾病的人創(chuàng)作的作品,包括詩歌、繪畫、文章、照片和視頻,作品瀏覽量超過200萬次。本研究采集了截至2023年4月25日上傳到該網(wǎng)站上的圖像數(shù)據(jù),包括圖像、圖像標(biāo)題、圖像標(biāo)簽、圖像文本描述及圖像所在頁面的網(wǎng)址。經(jīng)過數(shù)據(jù)清洗,去掉了重復(fù)和不屬于圖像類型的數(shù)據(jù),最后共獲得351幅心理健康圖像。
3.2 數(shù)據(jù)標(biāo)注
兩位標(biāo)注者依據(jù)前述構(gòu)建的圖像隱喻知識(shí)描述框架對(duì)351幅心理健康圖像進(jìn)行了獨(dú)立標(biāo)注。標(biāo)注內(nèi)容包括圖像語義、隱喻映射關(guān)系、隱喻類型以及隱喻意義,對(duì)于標(biāo)注不一致的地方,標(biāo)注者進(jìn)行了討論,并最終達(dá)成一致。在獨(dú)立標(biāo)注結(jié)束后,使用Cohens Kappa系數(shù)檢驗(yàn)標(biāo)注一致性,整個(gè)數(shù)據(jù)集的Cohen Kappa系數(shù)為0.84,標(biāo)注一致性較好,也表明了研究提出的圖像隱喻知識(shí)描述框架對(duì)于理解圖像隱喻具有較好效果。
4 心理健康圖像分類結(jié)果及其理解策略
4.1 心理健康圖像分類
隱喻理解策略,而圖像上下文與圖像的關(guān)聯(lián)程度對(duì)于理解圖像隱喻的作用也不相同。因此,在結(jié)合上下文理解心理健康圖像隱喻時(shí),需要在圖像隱喻知識(shí)描述框架的基礎(chǔ)上細(xì)化不同類型圖像的隱喻理解策略。考慮到文本描述對(duì)于圖像隱喻理解的重要作用,本研究在對(duì)圖像進(jìn)行分類時(shí)排除了缺失文本描述的8幅圖像,并依據(jù)圖像的上下文關(guān)聯(lián)特性與抽象程度對(duì)剩余的343幅心理健康圖像進(jìn)行了分類,同時(shí),根據(jù)標(biāo)注實(shí)踐總結(jié)了每一類圖像的特點(diǎn)。
根據(jù)標(biāo)注結(jié)果,每類圖像的數(shù)量如表1所示。從單個(gè)分類維度看,具體圖像的數(shù)量(279幅)要多于抽象圖像(64幅),上下文與圖像直接相關(guān)的圖像數(shù)量(200幅)要多于非直接相關(guān)的圖像(143幅)。從兩個(gè)分類維度綜合來看,文本描述直接相關(guān)的具體圖像數(shù)量最多,為174幅;文本描述非直接相關(guān)的具體圖像數(shù)量次之,共105幅;上下文非直接相關(guān)的抽象圖像占38幅,上下文直接相關(guān)的抽象圖像僅有26幅,數(shù)量最少。
圖3展示了四類圖像的示例,每類圖像的具體特征如下:
相關(guān)的抽象圖像。抽象圖像的內(nèi)容很難被識(shí)別為具體的對(duì)象、場(chǎng)景或行為等。然而上下文與圖像直接相關(guān),因此結(jié)合上下文(圖像標(biāo)題、標(biāo)簽以及文本描述),讀者能夠判斷出圖像所描繪的對(duì)象及其行為或場(chǎng)景等,即使其描述的對(duì)象和現(xiàn)實(shí)生活中的自然物象難以對(duì)應(yīng)起來。這也是該類圖像的突出特點(diǎn)。
第二類,“非直接—抽象”圖像:即上下文非直接相關(guān)的抽象圖像。由于上下文與圖像并非直接相關(guān),該類圖像的特點(diǎn)表現(xiàn)為:即使通過圖像上下文也無法得知圖像的對(duì)象、場(chǎng)景、行為以及空間關(guān)系,只能對(duì)圖像的形狀、顏色等進(jìn)行整體概括。
第三類,“直接—具體”圖像:即文本描述直接相關(guān)的具體圖像。該類型圖像的特點(diǎn)表現(xiàn)為:文本描述中具有創(chuàng)作者對(duì)于圖像隱喻的解釋或說明,包含與圖像語義、隱喻映射關(guān)系、隱喻意義等直接相關(guān)內(nèi)容,通常含有“this painting presents…”“the work ”“This mixed media drawing aims to…”等表述。
第四類,“非直接—具體”圖像:即文本描述非直接相關(guān)的具體圖像。圖像的文本描述通常包含創(chuàng)作者的創(chuàng)作背景或者自身經(jīng)歷,而不包含創(chuàng)作者對(duì)圖像的直接解釋或說明。因此,無法在文本描述中找到與圖像語義、隱喻映射關(guān)系、隱喻意義直接對(duì)應(yīng)的內(nèi)容。
4.2 基于描述框架的不同類型圖像的隱喻理解策略
本研究依據(jù)四類圖像的特征提出了每類圖像的理解策略,并通過案例展示了圖像隱喻理解過程。為驗(yàn)證策略的有效性,本研究依據(jù)理解策略設(shè)計(jì)了提示文本,比較在有無提示下ChatGPT對(duì)給定圖像的隱喻理解效果。
4.2.1 “直接—具體”圖像:基于圖文匹配的關(guān)聯(lián)理解
該類圖像的特點(diǎn)為能夠在圖像文本描述中找到與圖像語義(如對(duì)象、場(chǎng)景等)、隱喻映射關(guān)系、隱喻意義直接對(duì)應(yīng)的內(nèi)容,將圖像語義與文本描述進(jìn)行匹配,直接得出圖像中隱喻的映射關(guān)系。在文本描述提供的信息有限的情況下,考慮標(biāo)題的提示以及標(biāo)簽的補(bǔ)充作用。對(duì)象通常擔(dān)任了隱喻的源域,因此,圖像中對(duì)象間的互動(dòng)即為隱喻目標(biāo)域間的互動(dòng),隱喻目標(biāo)域間的互動(dòng)構(gòu)成了圖像的隱喻意義。
圖4展示了該類型圖像的隱喻理解過程。首先,由于圖像是具體的,可直接對(duì)圖像語義進(jìn)行分析,其內(nèi)容語義為“一根手指推了骨牌,骨牌接連倒下并最終壓倒了人像”。其次,獲取圖像的上下文。第三,基于圖像匹配識(shí)別隱喻。將圖像語義與文本描述中的“follows the domino effect”“One aspect of life affects other”“the aspects that triggered my mental health breakdown”等匹配起來,可得知這幅圖像描述了生活中的多米諾骨牌效應(yīng),圖像中的人像是作者,帶有“l(fā)ack of sleep”等文字的骨牌是生活的各個(gè)方面,人像是心理崩潰的人。隨后判斷隱喻類型,其結(jié)果如圖4所示。最后推斷隱喻意義,依據(jù)隱喻識(shí)別結(jié)果,其隱喻意義為“只要一點(diǎn)小的推動(dòng)力,生活的一方面就會(huì)影響另一方面,形成多米諾骨牌效應(yīng)并最終壓倒我們導(dǎo)致心理崩潰”。
根據(jù)標(biāo)注結(jié)果,該類型的隱喻數(shù)量通常在1~3個(gè)之間,有少量圖像含有4~6個(gè)隱喻;隱喻類型則不固定。在隱喻意義上,通常表現(xiàn)為通過刻畫具體的圖像內(nèi)容來說明自己的經(jīng)歷。
的理解。通過比較發(fā)現(xiàn),在只給出相關(guān)定義的情況下,ChatGPT能夠識(shí)別圖像中的一些隱喻,但可能忽略其他隱喻;然而給出圖像隱喻理解流程后,ChatGPT能夠較為完整地識(shí)別圖像中的隱喻,隱喻意義表述更加準(zhǔn)確。
4.2.2 “直接—抽象”圖像:基于關(guān)鍵詞的直接解析
該類圖像的特點(diǎn)為結(jié)合上下文能夠判斷圖像所描繪的對(duì)象、行為及場(chǎng)景等語義,上下文中通常包含與隱喻源域、目標(biāo)域相關(guān)的關(guān)鍵詞。通過對(duì)隱喻關(guān)鍵詞的直接解析,識(shí)別抽象圖像中隱喻的映射關(guān)系及其隱喻意義。
該類圖像隱喻理解策略的案例如圖6所示。依據(jù)圖像隱喻知識(shí)描述框架,分析圖像語義。由于該幅圖像屬于抽象圖像,需要發(fā)揮上下文輔助識(shí)別圖像語義的作用。依據(jù)標(biāo)題“Scratch”與文本描述中的“there is an army of ants marching around under my skin”“scratch them out”可知圖像描述的對(duì)象語義是“一大群皮膚下的螞蟻”,并依據(jù)“experiencing bad days with anxiety”“feel as there…”直接解析圖像中隱喻的映射關(guān)系為“焦慮的感覺就像是皮膚下的一大群螞蟻”。隱喻類型為情境隱喻和狀態(tài)隱喻,圖像的隱喻意義如圖6所示。
根據(jù)標(biāo)注結(jié)果,該類型圖像的隱喻通常為1~2個(gè)。在隱喻類型上,以情境隱喻為主,即創(chuàng)作者依據(jù)自己獨(dú)特的創(chuàng)作環(huán)境,將某種事物映射成另一種事物,如果不知道作者預(yù)設(shè)的情境,讀者將無法得知源域所映射的目標(biāo)域。從內(nèi)容聯(lián)系來看,隱喻類型則不固定,創(chuàng)作者可能將目標(biāo)域隱喻為某種狀態(tài)、概念、空間、系統(tǒng)或者人物。隱喻意義為通過抽象畫面的刻畫表達(dá)創(chuàng)作者在心理健康方面的經(jīng)歷或看法。
圖7展示了ChatGPT在有無提示下對(duì)給定圖像的理解。結(jié)果顯示,在無提示的情況下,ChatGPT未能識(shí)別出圖像隱喻的源域以及對(duì)應(yīng)的目標(biāo)域,但能夠較為準(zhǔn)確地理解圖像隱喻意義;在給出圖像隱喻理解流程作為提示后,ChatGPT能夠準(zhǔn)確識(shí)別圖像隱喻,表述更為精準(zhǔn),理解效果更接近人類。
4.2.3 “非直接—具體”圖像:基于語義關(guān)聯(lián)的間接推斷
在該類圖像的文本描述中無法直接找到與圖像語義、隱喻映射關(guān)系、隱喻意義直接對(duì)應(yīng)的內(nèi)容,因此,圖像隱喻的理解依靠圖像內(nèi)容與上下文具有語義聯(lián)系的間接推斷。具體而言,讀者獲取圖像上下文中與圖像語義中有語義關(guān)聯(lián)(如血跡與自我傷害、自殺的關(guān)聯(lián))的部分,依據(jù)該關(guān)聯(lián)進(jìn)行間接推斷,識(shí)別隱喻并分析其隱喻意義。
首先識(shí)別該具體圖像的語義,其對(duì)象語義為人、長著觸手的人,其余語義如圖8的標(biāo)注結(jié)果。其次獲取上下文,找到與圖像語義具有語義關(guān)聯(lián)的部分。發(fā)現(xiàn)觸手與文本描述中的“manipulated(意為操縱、控制)”具有語義上的關(guān)聯(lián),結(jié)合“I was in an abuse relationship…my partner manipulated everyone…torturing me”可以推斷出蜷坐的人代表作者,長著觸手的人代表其伴侶,即為圖像中包含的兩個(gè)隱喻。結(jié)合上下文與推斷出的隱喻,分析該圖像想說明的情形是作者的伴侶折磨作者的身體和精神,并操縱其周圍的人和事。同時(shí),依據(jù)圖像的底層視覺特征,發(fā)現(xiàn)圖像中的對(duì)象大小對(duì)比強(qiáng)烈,可能暗含力量大小的強(qiáng)弱,可以依據(jù)該特征推斷圖像發(fā)表的觀點(diǎn)為:在這段虐待關(guān)系中,作者伴侶控制欲強(qiáng)烈,而作者力量小,難以反抗。
依據(jù)標(biāo)注實(shí)踐,該類型的圖像的隱喻數(shù)量通常為1~2個(gè),少量圖像有3~4個(gè);隱喻類型不固定,隱喻意義多為表達(dá)創(chuàng)作者的心理健康經(jīng)歷并傳遞一定觀點(diǎn)。
圖9展示了ChatGPT在有無提示下對(duì)給定圖像的理解。結(jié)果顯示,在無提示的情況下,ChatGPT未能準(zhǔn)確識(shí)別隱喻的源域和目標(biāo)域,對(duì)隱喻意義的理解表述模糊,整體理解效果較差;然而在有提示的情況下,ChatGPT能夠較為準(zhǔn)確地識(shí)別圖像隱喻,并能關(guān)注到圖像對(duì)象的視覺差異(“大”與“小”),隱喻意義理解效果更好。
4.2.4 “非直接—抽象”圖像:基于感知相似性的綜合理解
由于上下文與圖像非直接相關(guān),無法通過上下文來判斷抽象圖像是否描繪了某種具體的對(duì)象、場(chǎng)景等,需采取基于感知相似性的綜合理解策略。具體而言,描述抽象圖像內(nèi)容的整體感受,抽取并概括上下文中創(chuàng)作者提到的具有感知上相似的內(nèi)容(如“由不同顏色和形狀的色塊組成的抽象畫面”與創(chuàng)作者“混亂的情緒”間的感知上的相似性),然后將二者進(jìn)行關(guān)聯(lián),通過以上操作綜合理解圖像隱喻。
圖10展示了一個(gè)“非直接—抽象”圖像案例。首先確定圖像語義。由于圖像是上下文非直接相關(guān)的抽象圖像,圖像對(duì)象語義是對(duì)整幅圖像的形狀、顏色等的概括,案例中圖像的對(duì)象語義是“綴有割裂圖案的一個(gè)盤子”,其給人的整體感受是“割裂”。其次獲取上下文,抽取概括相關(guān)內(nèi)容。文本描述中的“the struggle between staying motivated…”尤其是“struggle”與“割裂”具有感知上的相似性,因此,可以推斷圖像包含的隱喻為:綴有割裂圖像的盤子代表了保持積極熱情和進(jìn)行自我批評(píng)之間的斗爭(zhēng)。源域和目標(biāo)域間具有相似性,屬于整合隱喻,整合隱喻特點(diǎn)為一個(gè)對(duì)象或原型只要和某一個(gè)其他的對(duì)象或原型相似就能代表其全部特性。依據(jù)隱喻識(shí)別結(jié)果進(jìn)一步分析隱喻意義,如圖10所示。
依據(jù)標(biāo)注結(jié)果,這類圖像的對(duì)象語義是對(duì)整幅圖像畫面的概括,所以通常只有一個(gè)隱喻,隱喻的源域通過直觀的感受去描述,而目標(biāo)域多為作者特定的體驗(yàn)或感受。在隱喻類型上,主要為“情境隱喻+狀態(tài)隱喻”的組合,即創(chuàng)作者通過對(duì)特定抽象畫面的刻畫來表達(dá)自身內(nèi)心難以言喻、混亂的感受,這也是該類圖像傳遞的隱喻意義。
圖11展示了ChatGPT在有無提示下對(duì)圖像隱喻的理解。對(duì)比發(fā)現(xiàn),在沒有提示的情況下,ChatGPT識(shí)別出的隱喻較多但準(zhǔn)確性不足,且隱喻意義分析結(jié)果較為復(fù)雜,整體上未能精準(zhǔn)描述圖像想要表達(dá)的內(nèi)容;在給出圖像隱喻理解流程作為參考后,ChatGPT較為準(zhǔn)確地理解了圖像隱喻及其隱喻意義。
5 討 論
本研究的貢獻(xiàn)在于構(gòu)建了圖像隱喻知識(shí)描述框架,并在描述框架的基礎(chǔ)上,從認(rèn)知層面總結(jié)了不同類型心理健康圖像的隱喻理解策略,有助于為大語言模型提高圖像理解能力提供理論參考。
本研究構(gòu)建了圖像隱喻的知識(shí)描述框架,為心理健康圖像隱喻的揭示提供了有效支撐。該框架包含圖像語義、圖像上下文、隱喻映射關(guān)系、隱喻類型和隱喻意義5個(gè)部分。通過圖像語義與圖像上下文的匹配識(shí)別隱喻的映射關(guān)系,并進(jìn)一步確定隱喻類型與推斷隱喻意義。已有研究忽略了圖像,尤其是復(fù)雜的心理健康圖像中隱喻知識(shí)的揭示,本研究構(gòu)建的圖像隱喻知識(shí)描述框架從解析表層的圖像語義到分析深層隱喻意義,將與圖像隱喻相關(guān)的各部分進(jìn)行關(guān)聯(lián),為理解圖像隱喻提供了可遵循的系統(tǒng)性步驟,能夠?qū)崿F(xiàn)對(duì)復(fù)雜圖像隱喻知識(shí)的有效揭示。
本研究總結(jié)了不同類型圖像的隱喻理解策略,揭示了各類圖像在隱喻理解這個(gè)認(rèn)知過程上的差異。在圖像隱喻知識(shí)描述框架的基礎(chǔ)上,本研究通過對(duì)心理健康圖像標(biāo)注結(jié)果的分析歸納,依據(jù)抽象與具體、圖像與上下文關(guān)聯(lián)程度兩個(gè)維度將心理健康圖像分為四類,總結(jié)了四類圖像的隱喻理解策略,包括基于圖文匹配的關(guān)聯(lián)理解、基于關(guān)鍵詞的直接解析、基于語義關(guān)聯(lián)的間接推測(cè)、基于感知相似性的綜合理解4種策略。在策略的選擇上,需要判斷圖像抽象或具體,并在該基礎(chǔ)上判斷圖像與上下文是否直接相關(guān),進(jìn)而,依據(jù)上述判斷結(jié)果采用對(duì)應(yīng)的策略理解圖像隱喻。已有關(guān)于圖像隱喻理解研究集中在較為簡(jiǎn)單的商業(yè)廣告[19]與政治漫畫[20]上,提出了這些圖像的統(tǒng)一理解方法,缺乏對(duì)復(fù)雜心理健康圖像隱喻理解差異的研究。本研究對(duì)復(fù)雜圖像進(jìn)行了分類并揭示了不同類型在隱喻理解策略上的差異,有助于為圖像隱喻理解,尤其是機(jī)器理解圖像隱喻提供認(rèn)知層面的理論參考。目前,關(guān)于機(jī)器理解圖像的研究僅從客觀的圖像出發(fā),而忽略了人的認(rèn)知框架,導(dǎo)致其理解效果低于人類。本研究總結(jié)了基于圖像隱喻知識(shí)描述框架的不同類型圖像隱喻理解策略,能夠?yàn)闄C(jī)器理解圖像隱喻時(shí)提供參考的步驟,幫助機(jī)器基于圖像隱喻知識(shí)描述框架設(shè)計(jì)理解方案;同時(shí),不同類型圖像的隱喻理解策略為機(jī)器理解圖像隱喻時(shí)考慮人的認(rèn)知框架提供了理論參考。
6 結(jié) 語
心理健康圖像是典型的復(fù)雜隱喻圖像,但已有研究較少關(guān)注心理健康圖像隱喻理解。本研究構(gòu)建了圖像隱喻知識(shí)描述框架,并基于該框架對(duì)心理健康圖像進(jìn)行標(biāo)注,總結(jié)了四類心理健康圖像隱喻理解策略。本研究為機(jī)器理解圖像以及圖像隱喻理解研究提供了理論參考,但仍有一定的局限性,研究提出的框架以心理健康圖像為主要研究對(duì)象,未能探索該框架在其他類型圖像上的適用性;此外,由于標(biāo)注的案例數(shù)量有限,提取和歸納出的圖像隱喻理解策略可能并不充分。未來,將進(jìn)一步探索圖像隱喻知識(shí)描述框架的適用性及理解策略,并研究其應(yīng)用于機(jī)器理解圖像的效果。
參考文獻(xiàn)
[1]張言,李強(qiáng),申化文,等.以文字為中心的圖像理解技術(shù)綜述[J].中國圖象圖形學(xué)報(bào),2023,28(8):2253-2275.
[2]Tong S B,Liu Z,Zhai Y X,et al.Eyes Wide Shut?Exploring the Visual Shortcomings of Multimodal LLMs[EB/OL].[2024-12-19].https://arxiv.org/pdf/2401.06209.
[3]Wang X Y,Zhou Y H,Liu X Y,et al.Mementos:A Comprehensive Benchmark for Multimodal Large Language Model Reasoning Over Image Sequences[EB/OL].[2024-12-19].https://arxiv.org/pdf/2401.10529.
[4]Hessel J,Marasovic A,Hwang J D,et al.Do Androids Laugh at Electric Sheep?Humor“Understanding”Benchmarks from the New Yorker Caption Contest[C]//Rogers A,Boyd-Graber J,Okazaki N.In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).Toronto:Association for Computational Linguistics,2023:688-714.
[5]Su C,Wang X Y,Liu S P,et al.Efficient Visual Metaphor Image Generation Based on Metaphor Understanding[J].Neural Processing Letters,2024,56(3):150.
[6]Xie Y Z,Xie T,Lin M X,et al.OlaGPT:Empowering LLMs With Human-Like Problem-Solving Abilities[EB/OL].[2024-12-19].https://arxiv.org/pdf/2305.16334.
[7]段姍姍,李昭昭,吳汶珊,等.心理創(chuàng)傷中繪畫治療實(shí)踐的系統(tǒng)回顧[J].健康研究,2021,41(6):652-657.
[8]Lazard A J,Bamgbade B A,Sontag J M,et al.Using Visual Metaphors in Health Messages:A Strategy to Increase Effectiveness for Mental Illness Communication[J].Journal of Health Communication,2016,21(12):1260-1268.
[9]陳侃,徐光興.抑郁傾向的繪畫診斷研究[J].心理科學(xué),2008(3):722-724.
[10]王漢林,劉璐璐,高敏,等.繪畫藝術(shù)測(cè)驗(yàn)對(duì)大學(xué)生心理健康的預(yù)測(cè)效果分析[J].華北理工大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2019,21(3):236-241.
[11]Pan T,Zhao X M,Liu B D,et al.Automated Drawing Psychoanalysis via House-Tree-Person Test[C]//Reformat M,Zhang D,Bourbakis N.In Proceedings of 2022 IEEE 34th International Conference on Tools with Artificial Intelligence.Online:Institute of Electrical and Electronics Engineers,2022:1120-1125.
[12]Sarah B,Raphael P,Jennifer S,et al.Identifying Psychological Trauma among Syrian Refugee Children for Early Intervention:Analyzing Digitized Drawings Using Machine Learning[J].Journal of Development Economics,2022(156):102822.
[13]Lakoff G,Johnson M.Metaphors We Live by[M].Chicago:University of Chicago Press,2003.
[14]Chang X J,Ren P Z,Xu P F,et al.A Comprehensive Survey of Scene Graphs:Generation and Application[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(1):1-26.
[15]程瑾濤.社論漫畫中的圖像隱喻解讀[J].外語學(xué)刊,2014(5):37-41.
[16]楊瀚森,樊養(yǎng)余,呂國云,等.基于語義概念的圖像情感分析[J].西北工業(yè)大學(xué)學(xué)報(bào),2023,41(4):784-793.
[17]Fu C P,Wang J Q,Sang J T,et al.Beyond Literal Visual Modeling:Understanding Image Metaphor Based on Literal-Implied Concept Mapping[C]//Bertino E,Gao W,Steffen B,et al.In Proceedings of 26th International Conference on MultiMedia Modeling.Berlin:Springer-Verlag,2020:111-123.
[18]趙秀鳳.概念隱喻研究的新發(fā)展——多模態(tài)隱喻研究——兼評(píng)Forceville amp; Urios-Aparisi《多模態(tài)隱喻》[J].外語研究,2011(1):1-10,112.
[19]Forceville C.Pictorial Metaphor in Advertising[M].London:Routledge,1996.
[20]Silaki N,-Durovic' T.The Journey Metaphor in Brexit-Related Political Cartoons[J].Discourse Context amp; Media,2019,31:100318.
[21]Joost S,Alfons M.Visual Metaphoric Conceptualization in Editorial Cartoons[M]//Forceville C,Urios-Aparisi E.Multimodal Metaphor.Berlin,New York:De Gruyter Mouton,2009:213-242.
[22]Refaie E.Metaphors in Political Cartoons:Exploring Audience Responses[M]//Forceville C,Urios-Aparisi E.Multimodal Metaphor.Berlin,New York:De Gruyter Mouton,2009:173-196.
[23]Forceville C.Metaphors in Pictures and Multimodal Representations[M]//Gibbs R W.The Cambridge Handbook of Metaphor and Thought.Cambridge:Cambridge University Press,2008:462-482.
[24]周知,曾子明.數(shù)字人文視覺資源語義知識(shí)層次化聚合服務(wù)研究[J].情報(bào)資料工作,2018(6):13-20.
[25]孫紹丹,張莉曼,朱祥.文化大數(shù)據(jù)背景下線性文化遺產(chǎn)資源知識(shí)表示及語義增強(qiáng)框架構(gòu)建[J].現(xiàn)代情報(bào),2023,43(11):96-111.
[26]周樹斌,張佳明,陳紅麗.四川清音知識(shí)表示及語義關(guān)聯(lián)構(gòu)建研究[J].圖書館學(xué)研究,2024(2):63-74.
[27]王曉光,翁夢(mèng)娟,侯西龍,等.古籍注疏的知識(shí)表示與語義化建模研究[J].中國圖書館學(xué)報(bào),2023,49(3):75-91.
[28]Zhou Z M,Zheng L,Li X L.Abstract or Concrete?The Influence of Image Type on Consumer Attitudes[J].International Journal of Consumer Studies,2021,45(5):1132-1146.
[29]李博,郭琛,任慧.基于加權(quán)K近鄰算法的抽象畫圖像情感分布預(yù)測(cè)[J].中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,25(1):36-40.
[30]孫毅.擴(kuò)展概念隱喻理論限閾中的視覺隱喻研究[J].山西大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2021,44(5):39-46.
[31]Yamamura N,Chikazoe J,Yoshimoto T,et al.Perceptual Features of Abstract Images for Metaphor Generation[J].Journal of Advanced Computational Intelligence and Intelligent Informatics,2024,28(1):94-102.