摘" 要:旨在構(gòu)建專(zhuān)有日文政治隱喻語(yǔ)料庫(kù),解決目前針對(duì)日文政治語(yǔ)篇,成規(guī)模、高質(zhì)量的政治隱喻語(yǔ)料資源匱
乏、識(shí)別方式單一的問(wèn)題。使用日本國(guó)會(huì)演說(shuō)作為原始語(yǔ)料,制定一套完整的標(biāo)注體系,并進(jìn)一步對(duì)語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì)分析。該語(yǔ)料庫(kù)可論證政治隱喻在日文中同樣被普遍使用,且種類(lèi)多樣。在此基礎(chǔ)上,采用機(jī)器學(xué)習(xí)算法搭建識(shí)別模型進(jìn)行實(shí)驗(yàn)。根據(jù)實(shí)驗(yàn)結(jié)果,該語(yǔ)料庫(kù)可作為日文隱喻研究基礎(chǔ)數(shù)據(jù)庫(kù),為后續(xù)日文政治隱喻的自動(dòng)識(shí)別提供有力支撐。
關(guān)鍵詞:政治隱喻;語(yǔ)料庫(kù);日語(yǔ)文本;自動(dòng)識(shí)別
中圖分類(lèi)號(hào):TP391;G353.1" 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):2096-4706(2024)10-0081-06
A Method for Constructing a Japanese Political Metaphor Corpus
ZHU Yi1, LI Weiran1, LIU Zongnan2
(1.Dufl School of Software, Dalian University of Foreign Languages, Dalian" 116044, China;
2.School of Foreign Languages, Shenyang Ligong University, Shenyang" 110158, China)
Abstract: The paper aims to construct a proprietary Japanese political metaphor corpus, addressing the current problems of a lack of large-scale and high-quality political metaphor corpus resources and a single recognition method for Japanese political discourse. It uses speeches by the Japanese Congress as the original corpus, develops a complete labeling system, and further conducts statistical analysis on the corpus. This corpus can demonstrate that political metaphors are also widely used in Japanese and have a variety of types. On this basis, Machine Learning algorithms are used to construct recognition models for experiments. According to the experimental results, this corpus can serve as a basic database for Japanese metaphor research, providing strong support for the automatic recognition of Japanese political metaphor in the future.
Keywords: political metaphor; corpus; Japanese text; automatic recognition
0" 引" 言
隱喻(Metaphor)最早被看作是一種修辭方式,直至萊考夫和約翰遜所著的《我們賴(lài)以生存的隱喻》[1]一書(shū)問(wèn)世,正式提出了概念隱喻,隱喻突破了傳統(tǒng)的修辭學(xué)框架轉(zhuǎn)向了認(rèn)知層面。我們每一個(gè)人的生活都充滿(mǎn)著政治,政治家表達(dá)權(quán)力的基本工具之一正是他們使用的語(yǔ)言。政治話語(yǔ)中同樣充滿(mǎn)了不同類(lèi)型的隱喻,而且這里使用的隱喻是有據(jù)可查的。政治家們往往通過(guò)這些類(lèi)型的隱喻試圖讓群眾接受他們的觀點(diǎn)以達(dá)到自己的政治目的、鞏固自己的地位或是滿(mǎn)足某種利益。然而,國(guó)外大多數(shù)政治隱喻實(shí)證研究集中在英文和中文[2],國(guó)內(nèi)的研究也少有其他語(yǔ)種。為彌補(bǔ)日文政治隱喻相關(guān)的語(yǔ)料庫(kù)資源并不豐富這一缺陷,本文將根據(jù)概念隱喻理論及前人研究,制定一套相對(duì)規(guī)范的標(biāo)注體系,構(gòu)建完成針對(duì)日文的政治隱喻語(yǔ)料庫(kù)。
1" 政治隱喻相關(guān)研究
基于語(yǔ)料庫(kù)方法的政治隱喻實(shí)證研究大多是選取相應(yīng)語(yǔ)篇構(gòu)建封閉語(yǔ)料庫(kù)后,研究者們先窮盡識(shí)別文本中的隱喻表達(dá),然后利用概念隱喻理論及批評(píng)隱喻分析手法,結(jié)合政治背景或人物特點(diǎn)等,分析語(yǔ)言背后所使用的政治隱喻,捕捉政治人物的話語(yǔ)策略和根本意圖,揭示其中的意識(shí)形態(tài)。近十年,國(guó)外學(xué)者運(yùn)用語(yǔ)料庫(kù)方法分析研究概念隱喻占比過(guò)半[3]。Cox [4]對(duì)2010年奧巴馬的國(guó)情咨文進(jìn)行分析,結(jié)合了當(dāng)時(shí)的時(shí)代背景、社會(huì)情況,揭示了奧巴馬使用這些隱喻的意義以及他對(duì)總統(tǒng)角色的看法。Bor?i?等人[5]將2009年和2012年的克羅地亞共和國(guó)總統(tǒng)伊沃·約西波維奇在訪談節(jié)目上的政治采訪作為語(yǔ)料,分析其中的概念隱喻。研究表明采訪里較多使用擬人隱喻、實(shí)體隱喻以及運(yùn)動(dòng)隱喻,且在肯定態(tài)度的表達(dá)中更為常見(jiàn)。Pavlikova [6]討論了2020年特朗普和拜登的選舉演講中所使用的隱喻,語(yǔ)料隨機(jī)選擇了兩位10篇演講(各5篇),統(tǒng)計(jì)其中隱喻表達(dá)的出現(xiàn)頻率。結(jié)果顯示在談?wù)摻?jīng)濟(jì)、國(guó)家和民族的內(nèi)容上,二位都會(huì)使用隱喻,而特朗普比拜登使用的隱喻表達(dá)更多。
國(guó)內(nèi)的概念隱喻研究也逐步采用語(yǔ)料庫(kù)這種自下而上的研究方式。孫毅等人[7]對(duì)英國(guó)脫歐話語(yǔ)進(jìn)行批評(píng)隱喻分析,語(yǔ)料選取英國(guó)太陽(yáng)報(bào)上的脫歐板塊(Brexit),揭示了英國(guó)和歐盟之間對(duì)立沖突的關(guān)系。武建國(guó)等人[8]以美國(guó)政府網(wǎng)站上的31篇中美貿(mào)易談判語(yǔ)篇為語(yǔ)料,考察美國(guó)政府如何操縱話語(yǔ)、通過(guò)隱喻指代與中國(guó)的貿(mào)易關(guān)系,塑造中國(guó)的負(fù)面形象,進(jìn)而實(shí)現(xiàn)貿(mào)易保護(hù)主義“合法化”。鐘玲俐等人[9]以習(xí)近平總書(shū)記系列對(duì)外演講為語(yǔ)料,歸納和分析其中所包含的“路”隱喻及其國(guó)家身份構(gòu)建功能。此外,近3年國(guó)內(nèi)基于自主學(xué)習(xí)的語(yǔ)言自動(dòng)識(shí)別研究逐漸增多,如徐琳宏等人[10]基于計(jì)算機(jī)自主學(xué)習(xí)算法對(duì)語(yǔ)篇引文情感進(jìn)行自動(dòng)識(shí)別;劉璐等人[11]針對(duì)自然語(yǔ)言顯式命題展開(kāi)自動(dòng)識(shí)別和解析,并建立有效識(shí)別模型;以及衛(wèi)欣玲[12]關(guān)于自然語(yǔ)言中歧義字段自動(dòng)識(shí)別系統(tǒng)設(shè)計(jì)的探討。這些研究對(duì)象已不僅僅限于隱喻,可見(jiàn)語(yǔ)言自動(dòng)識(shí)別相關(guān)研究范疇呈拓展趨勢(shì)。
毛文偉[13]提到,因?yàn)槿毡镜姆蓪?duì)于著作權(quán)有著嚴(yán)格的規(guī)定,日本的研究者們?cè)诖藛?wèn)題上持謹(jǐn)慎態(tài)度。如果獲得或是使用素材的方式在法律上存在問(wèn)題的話,研究結(jié)果就不能公開(kāi)發(fā)表,且語(yǔ)料庫(kù)的基礎(chǔ)建設(shè)也未受到日本各大學(xué)和相關(guān)研究機(jī)構(gòu)的重視。早期的語(yǔ)料庫(kù)主要是用來(lái)研究語(yǔ)言的規(guī)律、發(fā)展和變化的一個(gè)集合,隨著計(jì)算機(jī)技術(shù)與語(yǔ)言學(xué)研究的緊密結(jié)合,語(yǔ)料庫(kù)被重新定義為數(shù)字化的、成一定規(guī)模的、能被計(jì)算機(jī)程序處理的語(yǔ)料集合[14]。目前,隱喻識(shí)別問(wèn)題已成為自然語(yǔ)言處理的一項(xiàng)子任務(wù)。在大規(guī)模語(yǔ)料的背景下,人工識(shí)別標(biāo)注會(huì)耗費(fèi)很多成本,而基于監(jiān)督學(xué)習(xí)算法的自動(dòng)識(shí)別研究也需要一個(gè)較為規(guī)范、標(biāo)注質(zhì)量較高的語(yǔ)料庫(kù)作為基礎(chǔ)。正是基于上述客觀因素,本文構(gòu)建專(zhuān)有日文政治隱喻語(yǔ)料庫(kù),并在此語(yǔ)料庫(kù)基礎(chǔ)上進(jìn)行自動(dòng)識(shí)別實(shí)驗(yàn)評(píng)估,為此后相關(guān)研究提供一定參照。
2" 語(yǔ)料庫(kù)的構(gòu)建
2.1" 設(shè)計(jì)原則
參照目前既有的語(yǔ)料庫(kù)構(gòu)建分析研究[15,16],如徐琳宏等針對(duì)中文引文情感語(yǔ)料庫(kù)的建設(shè)路徑,提出了構(gòu)建過(guò)程分為數(shù)據(jù)的采集和預(yù)處理、語(yǔ)料標(biāo)注以及質(zhì)量監(jiān)控3個(gè)步驟。本文在參考上述既有步驟基礎(chǔ)上,結(jié)合日語(yǔ)政治話語(yǔ)語(yǔ)料庫(kù)實(shí)際語(yǔ)言特征,提出構(gòu)建日文政治隱喻語(yǔ)料庫(kù)的設(shè)計(jì)流程如圖1所示。
2.2" 語(yǔ)料采集
本文選擇日本網(wǎng)站“首相官邸”,語(yǔ)料選取了2018年至2022年10篇日本國(guó)會(huì)總理大臣演說(shuō),共8.9萬(wàn)字,具體演說(shuō)信息如表1所示。首先,從網(wǎng)站檢索欄處輸入每篇演講標(biāo)題,可直接獲得關(guān)聯(lián)視頻及語(yǔ)料原文。將語(yǔ)料原文保留為文本文檔txt格式,針對(duì)每篇演說(shuō),按語(yǔ)句分割。分句后剔除重復(fù)句子,將處理好的句子存入Excel文件中,完成語(yǔ)料的預(yù)處理,等待標(biāo)注。
2.3" 標(biāo)簽設(shè)置
本文為句子級(jí)別的隱喻標(biāo)注,即每個(gè)句子中是否含有隱喻表達(dá)。目前現(xiàn)有的國(guó)內(nèi)外公開(kāi)隱喻數(shù)據(jù)集并不特定某個(gè)領(lǐng)域,標(biāo)注內(nèi)容各不相同;例如按照句法構(gòu)成特點(diǎn),隱喻一般分為名詞性隱喻、動(dòng)詞性隱喻、形容詞性隱喻等類(lèi)型。本文參照了CCL2018測(cè)評(píng)中文隱喻檢測(cè)任務(wù)所使用的評(píng)測(cè)數(shù)據(jù)集,共4 394個(gè)中文句子,該隱喻數(shù)據(jù)集標(biāo)注了動(dòng)詞性隱喻、名詞性隱喻和負(fù)例。此外基于現(xiàn)有的政治隱喻實(shí)證研究,學(xué)者們對(duì)政治話語(yǔ)中的隱喻表達(dá)也進(jìn)行了詳細(xì)劃分[17,18]。因此,本文結(jié)合這兩部分隱喻標(biāo)注的特點(diǎn),設(shè)置日文政治隱喻語(yǔ)料庫(kù)的標(biāo)簽。除句子外,共4種標(biāo)簽(PosTag、Types、Keywords、Label)。各標(biāo)簽含義具體描述如下:
PosTag:本文聚焦動(dòng)詞性隱喻和名詞性隱喻,因此僅標(biāo)注“動(dòng)詞”“名詞”以及“負(fù)例”三類(lèi)。例如“新しい資本主義を?qū)g現(xiàn)していく車(chē)の両輪は、成長(zhǎng)戦略と分配戦略です”,這里實(shí)現(xiàn)新資本主義的兩項(xiàng)戰(zhàn)略就是車(chē)子至關(guān)重要不可或缺的輪子,該表達(dá)屬于名詞性隱喻?!靶滦庭偿恁胜?、我が國(guó)の経済社會(huì)は、大きく傷つきました”,這里對(duì)于日本的經(jīng)濟(jì)社會(huì),“新型コロナ”就是敵人,在同敵人的對(duì)抗中難免受到傷害“傷つく”,該表達(dá)則屬于動(dòng)詞性隱喻。
Types(Types of political metaphor):參照前人研究,按擬人隱喻、旅程隱喻、戰(zhàn)爭(zhēng)隱喻、建筑隱喻、機(jī)械隱喻、自然隱喻、力量隱喻、教育隱喻、經(jīng)濟(jì)隱喻、財(cái)富隱喻、容器隱喻、藝術(shù)隱喻、旗幟隱喻共13大類(lèi)對(duì)分句后的語(yǔ)料進(jìn)行標(biāo)注。在語(yǔ)料庫(kù)統(tǒng)計(jì)與分析部分中會(huì)進(jìn)一步對(duì)以上13類(lèi)政治隱喻闡釋說(shuō)明。
Keywords:該標(biāo)簽主要標(biāo)注原句中識(shí)別出政治隱喻的關(guān)鍵詞,例如上述兩個(gè)例句中,隱喻關(guān)鍵詞為“両輪”和“傷つく”。其中,動(dòng)詞是日語(yǔ)中最復(fù)雜的一類(lèi)詞,在句子中會(huì)有很多不同的形態(tài),標(biāo)注動(dòng)詞性隱喻的關(guān)鍵詞時(shí)需還原成動(dòng)詞原形。Keywords直接對(duì)準(zhǔn)句子中政治隱喻表達(dá)的關(guān)鍵部分,也方便其他研究者更好地理解。
Label:為后續(xù)實(shí)現(xiàn)日文政治隱喻自動(dòng)識(shí)別等其他下游任務(wù),單獨(dú)制定標(biāo)簽判斷該句是否含有隱喻表達(dá)?!昂须[喻表達(dá)”的句子標(biāo)注為0,“不含有隱喻表達(dá)”的句子則標(biāo)注為1。
上述隱喻識(shí)別的過(guò)程基于概念隱喻理論和批評(píng)隱喻分析方式,標(biāo)注過(guò)程中不難發(fā)現(xiàn):很多句子中不止一處隱喻表達(dá),因此在本文所構(gòu)建的語(yǔ)料庫(kù)中除Label標(biāo)簽外,其他標(biāo)簽需盡可能地標(biāo)注出句子中所有的隱喻表達(dá);由于Label只需判斷整個(gè)句子是否包含政治隱喻表達(dá)即可,仍按0、1標(biāo)注。
2.4" 質(zhì)量監(jiān)控
初回標(biāo)注工作由一名熟練掌握日語(yǔ)的碩士生、一名日語(yǔ)政治語(yǔ)言學(xué)專(zhuān)業(yè)博士、一名日語(yǔ)母語(yǔ)留學(xué)生共同閱讀、完成標(biāo)注,后由大連外國(guó)語(yǔ)大學(xué)日本語(yǔ)學(xué)院組成的專(zhuān)家組進(jìn)行質(zhì)檢。如果標(biāo)注的結(jié)果一致,直接將對(duì)應(yīng)句存入語(yǔ)料庫(kù);如果不一致,則需送入疑難數(shù)據(jù)庫(kù),由專(zhuān)家與標(biāo)注者共同探討,意見(jiàn)一致后重新判定該句,進(jìn)行修改標(biāo)注后存入語(yǔ)料庫(kù)。圖2選取部分語(yǔ)料進(jìn)行展示。
3" 語(yǔ)料庫(kù)統(tǒng)計(jì)分析
3.1" 語(yǔ)料庫(kù)總體建設(shè)情況
目前日文政治隱喻語(yǔ)料庫(kù)共標(biāo)注句子1 829條,其中按詞性標(biāo)注包含動(dòng)詞性隱喻293條、名詞性隱喻465條、既有動(dòng)詞又有名詞的為203條、負(fù)例868條。按Label標(biāo)簽分為“包含隱喻表達(dá)”即0共961條,“不包含隱喻表達(dá)”即1共868條,如圖3所示。首先使用日文分詞工具M(jìn)eCab繪制詞云圖,參數(shù)max_words選擇350,效果如圖4所示。圖中文字越大,該詞出現(xiàn)的頻率越高。通過(guò)詞云圖,能夠更加直觀快速地把握所選語(yǔ)料的大致內(nèi)容和語(yǔ)境。
從政治隱喻的分類(lèi)來(lái)看,統(tǒng)計(jì)了13類(lèi)政治隱喻的句子數(shù)量如圖5所示。數(shù)量由多到少分別是旅程、擬人、戰(zhàn)爭(zhēng)、建筑、機(jī)械、教育、自然、力量、藝術(shù)、容器、旗幟、經(jīng)濟(jì)和財(cái)富。再次強(qiáng)調(diào)的是,雖然句子總數(shù)為1 829條,但很多句子包含2處或2處以上的隱喻表達(dá),所以政治隱喻類(lèi)型的句子統(tǒng)計(jì)總數(shù)并不等于1 829個(gè)。
3.2" 政治隱喻類(lèi)型具體分析
基于標(biāo)注完成后的語(yǔ)料庫(kù),匯總了13類(lèi)政治隱喻的關(guān)鍵詞并統(tǒng)計(jì)詞頻,按照詞頻由高到低順序排列如表2所示。其中,括號(hào)里的數(shù)字表示關(guān)鍵詞出現(xiàn)頻數(shù),沒(méi)有括號(hào)的為出現(xiàn)一次。
旅程隱喻、擬人隱喻、戰(zhàn)爭(zhēng)隱喻和建筑隱喻是諸多國(guó)家領(lǐng)導(dǎo)人常用的政治隱喻表達(dá)[19-21],從本文所構(gòu)建的日文語(yǔ)料庫(kù)中,也不難看出這些類(lèi)型同樣是日本首相十分常用的。數(shù)量最多的為旅程隱喻,日本首相熟練運(yùn)用旅程這一概念域,向大眾展示出對(duì)國(guó)家未來(lái)發(fā)展正向、積極的態(tài)度。雖然提到了現(xiàn)有的“負(fù)擔(dān)”如醫(yī)療、社會(huì)保障、育兒以及沖繩基地負(fù)擔(dān),但通過(guò)高頻使用“進(jìn)める”“目指す”“進(jìn)む”等詞,仍能傳達(dá)出日本有充足信心解決目前的問(wèn)題、減輕這些負(fù)擔(dān),國(guó)家正朝著更好的方向前進(jìn)。擬人隱喻的大量使用也是日文政治演講語(yǔ)篇的一大特征,包含了“手”“目”等人體部位隱喻,比如對(duì)國(guó)際社會(huì)伸出“支援の手”以及同國(guó)民攜手共創(chuàng)新日本等,體現(xiàn)了日本同其他國(guó)家目標(biāo)一致共同進(jìn)退、政府和國(guó)民共同努力的決心。此外,通過(guò)“國(guó)家是人”等概念映射也使得人們切身地感受到日本的現(xiàn)狀。例如句子1)中日本的價(jià)值只是“沉睡”(眠る)并不是完全消失,通過(guò)相關(guān)政策會(huì)重新恢復(fù)日本的觀光旅游業(yè),價(jià)值便會(huì)再次醒來(lái)。
1)日本に眠る価値を再発見(jiàn)し、観光地の受入れ環(huán)境整備を一挙に進(jìn)め、當(dāng)面の観光需要を回復(fù)していくための政策プランを、年內(nèi)に策定してまいります。
譯文:重新發(fā)現(xiàn)沉睡在日本的價(jià)值,一舉推進(jìn)觀光地接收環(huán)境的整備,年內(nèi)制定恢復(fù)當(dāng)前觀光需求的政策計(jì)劃。
其次,數(shù)量較多的是戰(zhàn)爭(zhēng)隱喻。受全球新冠疫情的影響,日本首相的政治演講中同樣包含這部分內(nèi)容。例如句子2)中十分鮮明地使用“闘い”“最前線”這兩個(gè)具有戰(zhàn)爭(zhēng)對(duì)抗意義的名詞,意在表明日本對(duì)新冠疫情的態(tài)度即首當(dāng)其沖積極抗疫、重視保護(hù)國(guó)民生命安全。通過(guò)這種沖突性質(zhì)的語(yǔ)言表達(dá),也更能凸顯出抗疫過(guò)后美好生活的來(lái)之不易,每位國(guó)民感受到了友善互助、溫暖的氛圍,側(cè)面促進(jìn)國(guó)民們更加感謝政府、對(duì)政府保持積極態(tài)度。
2)そして、ウィルスとの闘いの最前線に立ち続ける醫(yī)療現(xiàn)場(chǎng)、保健所の皆さん、介護(hù)現(xiàn)場(chǎng)の皆さんをはじめ多くの方々の獻(xiàn)身的な御努力のおかげで、今の私たちの暮らしがあります。
譯文:而且,多虧了一直站在與病毒戰(zhàn)斗最前線的醫(yī)療現(xiàn)場(chǎng)、保健所、看護(hù)現(xiàn)場(chǎng)各位的獻(xiàn)身努力,才有了我們現(xiàn)在的生活。
其他類(lèi)型的隱喻雖然與上述隱喻比較數(shù)量占比不大,但在日本政治話語(yǔ)中的使用具有豐富政治內(nèi)涵。比如在旗幟隱喻中日本高舉自由貿(mào)易大旗,更是直截了當(dāng)?shù)仉[喻自己為“旗手”,凸顯了自身在貿(mào)易中發(fā)揮著重要作用。在經(jīng)濟(jì)隱喻中使用“清算”一詞,凸顯對(duì)象國(guó)的負(fù)面形象,解決目前朝鮮等一些外交問(wèn)題;對(duì)于人員分配、日本的未來(lái)等則使用“投資”一詞,以經(jīng)濟(jì)隱喻暗示投資雖然有風(fēng)險(xiǎn),但投資者內(nèi)心更期待更看重后續(xù)的收益,這也體現(xiàn)了日本對(duì)這些方面的經(jīng)濟(jì)投入或是政策制定是期望看到成效的。
綜上,基于本文所構(gòu)建的日文政治隱喻語(yǔ)料庫(kù),不難發(fā)現(xiàn)在日本政治話語(yǔ)中政治隱喻的使用是十分頻繁的,且隱喻類(lèi)型多樣。首相在話語(yǔ)中使用隱喻,構(gòu)建出日本和平友善、互幫互助的國(guó)家形象。并且從國(guó)民角度看,日本政府同國(guó)民們共患難、共同努力解決社會(huì)保障民生問(wèn)題,也將經(jīng)濟(jì)成長(zhǎng)的“果実”分給所有國(guó)民,通過(guò)隱喻操作意在群眾心中樹(shù)立一個(gè)良好的正面的形象,獲得群眾支持。
4" 實(shí)驗(yàn)評(píng)估
為進(jìn)一步驗(yàn)證語(yǔ)料庫(kù)的識(shí)別性能,本文提取語(yǔ)料庫(kù)中的句子和label標(biāo)簽作為實(shí)驗(yàn)數(shù)據(jù)集,非隱喻表達(dá)的數(shù)據(jù)即label為1共868條,隱喻表達(dá)的數(shù)據(jù)即label為0共961條。按照7:2:1劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,并搭建了三種傳統(tǒng)機(jī)器學(xué)習(xí)模型(支持向量機(jī)、樸素貝葉斯、隨機(jī)森林)進(jìn)行隱喻識(shí)別。其中,支持向量機(jī)的懲罰參數(shù)C設(shè)置為1,kernel默認(rèn)為’rbf’;隨機(jī)森林參數(shù)n_estimators設(shè)置為70。
實(shí)驗(yàn)采用Python語(yǔ)言,針對(duì)日文文本,使用第三方庫(kù)Mecab的parseToNode方法進(jìn)行分詞以及形態(tài)解析。根據(jù)日文的語(yǔ)言特點(diǎn),分詞后保留名詞、形容詞、形容動(dòng)詞和動(dòng)詞四種詞性。文本向量化表示方法采用TF-IDF(Term Frequency-Inverse Document Frequency),是一種基于統(tǒng)計(jì)的數(shù)學(xué)方法,算法簡(jiǎn)單高效。其中,TF表示某一個(gè)給定的詞語(yǔ)在該文檔中出現(xiàn)的頻率,計(jì)算過(guò)程如式(1)所示;式中ni, j表示該詞在文檔dj中的出現(xiàn)次數(shù),分母則是在文檔dj中所有詞語(yǔ)的出現(xiàn)次數(shù)之和。IDF表示一個(gè)詞語(yǔ)普遍重要性的度量,計(jì)算過(guò)程如式(2)所示| D |表示語(yǔ)料庫(kù)中文檔總數(shù),分母中|{ j;ti ∈ dj}|表示包含詞語(yǔ) 文件數(shù)目,如果該詞語(yǔ)不在語(yǔ)料庫(kù)中,會(huì)導(dǎo)致這部分為0,因此一般情況下分母使用1+|{ j;ti ∈ dj}|。評(píng)價(jià)指標(biāo)為準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1值,其實(shí)驗(yàn)結(jié)果如表3所示。
根據(jù)實(shí)驗(yàn)結(jié)果,基于本文所構(gòu)建的日文政治隱喻語(yǔ)料庫(kù),識(shí)別效果較好的模型為隨機(jī)森林,F(xiàn)1值達(dá)到80.87%。雖然數(shù)據(jù)量有限,但可基本完成對(duì)語(yǔ)句的政治隱喻識(shí)別。未來(lái),可擴(kuò)大數(shù)據(jù)量、優(yōu)化模型算法,并針對(duì)日文這一自然語(yǔ)言,優(yōu)化文本特征提取方法,進(jìn)一步提升整體識(shí)別性能。
5" 結(jié)" 論
本文主要介紹了日文政治隱喻語(yǔ)料庫(kù)的構(gòu)建工作,從學(xué)界既有研究看,目前針對(duì)該方向的研究缺乏成規(guī)模、高質(zhì)量的全文數(shù)據(jù)語(yǔ)料,為此本研究制定了一套專(zhuān)門(mén)的語(yǔ)料標(biāo)注規(guī)范,對(duì)日文政治隱喻研究領(lǐng)域的語(yǔ)料庫(kù)進(jìn)行構(gòu)建。該語(yǔ)料庫(kù)具有重要的理論與實(shí)踐意義,能夠拓展政治隱喻研究對(duì)象的范圍,豐富對(duì)日的相關(guān)研究;也為相關(guān)標(biāo)注工作提供了可參考的標(biāo)注規(guī)范。
另一方面,考慮到在大規(guī)模語(yǔ)料里所有隱喻類(lèi)型的使用可多達(dá)千次甚至萬(wàn)次,全部由人工識(shí)別會(huì)消耗大量的成本,因此本文語(yǔ)料庫(kù)可用于日文政治隱喻自動(dòng)識(shí)別工作,為此提供一定的數(shù)據(jù)支持,可節(jié)約研究人員對(duì)語(yǔ)料庫(kù)隱喻識(shí)別的時(shí)間和精力,為日后該領(lǐng)域的相關(guān)研究提供一種新思路。
參考文獻(xiàn):
[1] Lakoff G,Johnson M. Metaphors We Live By [M].Chicago:the University of Chicago Press,1980.
[2] 侯學(xué)昌,孫亞,梁宇航.國(guó)外隱喻實(shí)驗(yàn)方法研究綜述(2016—2020) [J].外語(yǔ)學(xué)刊,2022(5):15-21.
[3] 于霖林,金勝昔.近十年國(guó)外概念隱喻研究方法考論 [J].浙江外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2022(4):39-47.
[4] COX J L.Politics in Motion: Barack Obama’s Use of Movement Metaphors [J].American Communication Journal,2012,14(2):1-13.
[5] BOR?I? N,KANI?AJ I,KR?UL S. Conceptual Metaphor in Political Communication" [J].Zbornik Sveu?ili?ta u Dubrovniku,2016 (3):73-94.
[6] PAVLIKOVA ?. The Concept of Metaphor in Political Speeches (Metaphors in the Electoral Speeches of Donald Trump and Joe Biden in the 2020 Presidential Elections)[C]//Proceedings of the 5th Annual International Scientific Conference.Bratislava:Vydavate?stvo EKONóM,2020:313-321.
[7] 孫毅,熊佳騰.英國(guó)脫歐話語(yǔ)的批評(píng)隱喻分析 [J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2022,45(2):1-9+137+160.
[8] 武建國(guó),謝思思,李晶.政治話語(yǔ)“合法化”的批評(píng)隱喻分析——以美國(guó)政府發(fā)布的中美貿(mào)易談判話語(yǔ)為例 [J].當(dāng)代外語(yǔ)研究,2022(4):111-122.
[9] 鐘玲俐,劉正光,李思藝.批評(píng)隱喻視角下外交話語(yǔ)中的“路”隱喻和國(guó)家身份構(gòu)建——以習(xí)近平總書(shū)記系列對(duì)外演講為例 [J].北京第二外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2022,44(6):114-132.
[10] 徐琳宏,丁堃,林原,等.基于機(jī)器學(xué)習(xí)算法的引文情感自動(dòng)識(shí)別研究——以自然語(yǔ)言處理領(lǐng)域?yàn)槔?[J].現(xiàn)代情報(bào),2020,40(1):35-40+48.
[11] 劉璐,彭詩(shī)雅,玉郴,等.自然語(yǔ)言顯式命題自動(dòng)識(shí)別和解析方法 [J].中文信息學(xué)報(bào),2021,35(2):41-51.
[12] 衛(wèi)欣玲.基于知識(shí)庫(kù)的自然語(yǔ)言中歧義字段自動(dòng)識(shí)別系統(tǒng)設(shè)計(jì) [J].自動(dòng)化技術(shù)與應(yīng)用,2023,42(1):69-72+151.
[13] 毛文偉.日語(yǔ)語(yǔ)料庫(kù)建設(shè)的現(xiàn)狀綜述 [J].日語(yǔ)學(xué)習(xí)與研究,2009(6):42-47.
[14] 黃水清,王東波.國(guó)內(nèi)語(yǔ)料庫(kù)研究綜述 [J].信息資源管理學(xué)報(bào),2021,11(3):4-17+87.
[15] 張冬瑜,楊亮,鄭樸琪,等.情感隱喻語(yǔ)料庫(kù)構(gòu)建與應(yīng)用 [J].中國(guó)科學(xué):信息科學(xué),2015,45(12):1574-1587.
[16] 徐琳宏,丁堃,陳娜,等.中文文獻(xiàn)引文情感語(yǔ)料庫(kù)構(gòu)建 [J].情報(bào)學(xué)報(bào),2020,39(1):25-37.
[17] 鳳群.隱喻和政治神話的實(shí)現(xiàn):美國(guó)總統(tǒng)演講的批評(píng)隱喻分析——從里根到奧巴馬 [J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2013,36(1):18-22+127.
[18] 黃一峰,姚艷玲.日語(yǔ)政治演講語(yǔ)篇批評(píng)隱喻分析 [J].日語(yǔ)學(xué)習(xí)與研究,2021(3):110-119.
[19] 黃秋林,吳本虎.政治隱喻的歷時(shí)分析——基于《人民日?qǐng)?bào)》(1978-2007)兩會(huì)社論的研究 [J].語(yǔ)言教學(xué)與研究,2009(5):91-96.
[20] 陳紅.俄羅斯主流媒體政治話語(yǔ)中政治隱喻的批評(píng)隱喻分析(2000-2016) [J].東北亞外語(yǔ)研究,2018,6(3):3-10.
[21] 孫毅,李全.政治隱喻與隱喻政治——基于特朗普總統(tǒng)就職演講的隱喻圖景分析 [J].山東外語(yǔ)教學(xué),2019,40(5):35-47.
作者簡(jiǎn)介:朱毅(1979—),男,漢族,遼寧大連人,
副教授,碩士,研究方向:人工智能、大數(shù)據(jù);李蔚然(1997—),女,漢族,黑龍江哈爾濱人,碩士研究生在讀,研究方向:多語(yǔ)言信息檢索、政治隱喻;劉棕楠(1983—),男,漢族,遼寧大連人,講師,博士,研究方向:政治語(yǔ)言學(xué)。