白 宇,田 雨,王之光,張桂平
(1. 南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210016;2. 沈陽航空航天大學(xué) 人機(jī)智能研究中心,遼寧 沈陽 110136)
《知網(wǎng)》(HowNet)是一個(gè)以漢語和英語的詞語所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫[1]。HowNet的構(gòu)建秉承還原論思想,即所有詞語的含義可以由最基本的、不再分割的最小語義單位構(gòu)成,而這種語義單位被稱為“義原”(Sememe)。義原是構(gòu)成概念描述的核心部件。目前,《知網(wǎng)》構(gòu)建了包含約2 200多個(gè)義原的精細(xì)的語義描述體系,并為約14.8萬概念標(biāo)注了義原。例如,“小米”在HowNet中的定義即Def被描述為: {material|材料: MaterialOf={edible|食物},material={crop|莊稼}},如圖1所示。
圖1 新概念發(fā)現(xiàn)及義原推薦示例
HowNet自問世以來,受到自然語言處理領(lǐng)域的廣泛關(guān)注,國內(nèi)外學(xué)者在詞匯語義消歧[2-3]、相似度計(jì)算[4-6]、文本分類[7]等方面探索了 HowNet 的重要應(yīng)用價(jià)值。近年來,相關(guān)研究[8-9]表明,HowNet通過統(tǒng)一的義原標(biāo)注體系直接刻畫語義信息,且每個(gè)義原含義明確固定,可被直接作為語義標(biāo)簽融入機(jī)器學(xué)習(xí)模型,使自然語言處理深度學(xué)習(xí)模型具有更好的魯棒可解釋性。然而,與其他依靠人工構(gòu)建的知識(shí)庫系統(tǒng)一樣,HowNet存在著規(guī)模有限、更新擴(kuò)展維護(hù)成本高的問題。沒有HowNet背景知識(shí)和未經(jīng)專門訓(xùn)練的人員難以較好地完成義原預(yù)測(cè)任務(wù)[10]。這導(dǎo)致HowNet潛在的巨大應(yīng)用價(jià)值與其自身規(guī)模有限、語義資源稀疏且難擴(kuò)展的矛盾,解決這個(gè)矛盾的一個(gè)可行的途徑就是開展HowNet的自動(dòng)或半自動(dòng)構(gòu)建技術(shù)的研究,其核心問題之一就是為新概念的描述選擇合適的義原。
隨著時(shí)代發(fā)展,新詞匯和舊詞新用的概念不斷涌現(xiàn)。新詞義原推薦(或預(yù)測(cè))任務(wù)就是在HowNet已有義原集合中選擇出適合構(gòu)建其概念義項(xiàng)Def描述的義原子集。例如,在現(xiàn)有HowNet知識(shí)庫中,“小米”的概念義項(xiàng)Def描述包含的義原集合為{material|材料,edible|食物,crop|莊稼}。然而,在目前實(shí)際語言環(huán)境中,“小米”除了具有一種農(nóng)作物的概念外,還可以描述為一個(gè)公司名或電子產(chǎn)品的品牌。因此,其義原集合中還應(yīng)該包含{InstitutePlace|場所}或{SpeBrand|特定牌子}等義原。
通常,語義相似的詞語或概念之間會(huì)共享相同的義原,因此,解決新詞概念義原推薦問題,可以借鑒協(xié)同過濾(Collaborative Filtering,CF)的主要思想: 即利用HowNet已有概念的Def描述中的義原集合來預(yù)測(cè)當(dāng)前新詞概念的Def描述最可能使用的義原集合,其關(guān)鍵在于度量新舊詞語或概念之間的語義相似性。
近年來,基于詞的分布式表示方法已成為計(jì)算詞語相似度的主流方法,但是,這些方法采取的詞語表示學(xué)習(xí)過程與HowNet對(duì)詞語或概念描述的形成過程存在著本質(zhì)區(qū)別,這導(dǎo)致了“相似性異構(gòu)”問題。為了直觀地說明該問題,我們?cè)贖owNet中隨機(jī)抽取了兩組中心詞語,并獲取了HowNet中與其語義相似的詞語集合,對(duì)于該集合中的全部詞語再通過基于Word2Vec[11]算法獲取其對(duì)應(yīng)的詞向量,通過對(duì)詞向量進(jìn)行可視化來展示基于詞的分布式表示方法得到的詞語之間語義距離關(guān)系。如圖2所示,其中,a組詞語以“神經(jīng)束膜”“團(tuán)委”“原生質(zhì)”為中心詞,b組詞語以“豐田”“分理處”“猶太教堂”為中心詞,HowNet中語義相近的詞語在圖中使用相同符號(hào)進(jìn)行了標(biāo)記。圖中相同符號(hào)的點(diǎn)的聚集性越明顯,則語義距離的度量結(jié)果的一致性越好。
圖2 基于詞向量與基于HowNet的詞語相似關(guān)系比較HowNet中的語義相近的詞語使用相同符號(hào)表示
從圖中顯示的結(jié)果可見,基于詞的分布式表示方法與基于HowNet義原的相似度度量方法之間存在差異,表現(xiàn)為詞語之間語義距離的度量結(jié)果的不一致。為了更好地為新詞概念選擇合適的義原,需要建模一種新的相似度計(jì)算方法,使其計(jì)算得到的度量結(jié)果能夠逼近基于HowNet義原的相似度計(jì)算結(jié)果,即達(dá)到“相似性同構(gòu)”?;谶@種假設(shè),本文提出一種融合義原注意力的預(yù)訓(xùn)練語言模型優(yōu)化方法SaBERT。在判別新詞與HowNet詞表詞之間的語義相似性的過程中,該方法利用詞表詞已知概念描述義原序列的注意力分布,以相似性同構(gòu)為目標(biāo),對(duì)基于BERT+CNN的相似性判別模型進(jìn)行優(yōu)化,從而為義原推薦任務(wù)提供相似概念集合。實(shí)驗(yàn)結(jié)果表明,本文方法可有效解決未登錄詞與詞表詞的相似性判別問題。在基于協(xié)同過濾框架的義原推薦任務(wù)中進(jìn)行的實(shí)驗(yàn)表明,相似性同構(gòu)程度與義原推薦效果成正相關(guān),本文方法能夠有效解決候選義原的選擇問題。
HowNet通過事件、萬物、屬性、屬性值、部件、空間、時(shí)間等7個(gè)維度進(jìn)行世界的描述,示例如表1所示。
表1 知網(wǎng)7個(gè)維度的概念示例
HowNet利用有限的義原描述無限的概念集合。其中,義原被劃分為Entity|實(shí)體、Event|事件、Attribute|屬性、Value|值以及SecondaryFeature|第二特征等5個(gè)大類。
隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)[12],遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)[13],圖神經(jīng)網(wǎng)絡(luò)(GNNs)[14]和Transformer[15]等神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于解決自然語言處理(NLP)任務(wù)[16]。相比于非神經(jīng)網(wǎng)絡(luò)模型方法嚴(yán)重依賴于離散的手工特征,神經(jīng)網(wǎng)絡(luò)方法通常使用低維稠密向量隱式表示語言的語法或語義特征。近年來,大量的研究表明,使用大規(guī)模文本語料庫進(jìn)行訓(xùn)練得到的預(yù)訓(xùn)練模型(PTMs)可以學(xué)習(xí)近似通用語言表示[17-19],在對(duì)特定任務(wù)的小數(shù)據(jù)集微調(diào)后,可在顯著降低單個(gè)自然語言處理任務(wù)的難度的同時(shí)提升系統(tǒng)性能。
在詞語相似度計(jì)算方面,由于分布式表示方法可以通過將單個(gè)詞表示為低維稠密實(shí)數(shù)向量,捕捉詞語間的關(guān)聯(lián)信息。因此該方法可在低維空間中高效計(jì)算詞語間的語義關(guān)聯(lián),有效解決數(shù)據(jù)稀疏問題[11]。雖然以Word2Vec為代表的詞語表示學(xué)習(xí)模型已經(jīng)在詞語相似度計(jì)算任務(wù)中取得了較好的效果。然而,Word2Vec中每一個(gè)詞語被映射到一個(gè)唯一的稠密向量,它無法處理一詞多義(Polysemy)問題。此外,現(xiàn)有的根據(jù)詞語的上下文分布來學(xué)習(xí)詞語的表示向量的表示學(xué)習(xí)模型,不能有效地對(duì)于出現(xiàn)次數(shù)較少或未登錄的詞語進(jìn)行表示學(xué)習(xí),這成為影響詞語分布式表示方法在相似度計(jì)算任務(wù)上發(fā)揮作用的主要障礙。
相比于Word2Vec為代表的分布式表示方法,BERT[18]的一個(gè)比較突出的優(yōu)勢(shì)就是詞語表示的動(dòng)態(tài)性,能建模一詞多義的現(xiàn)象。在新詞概念的義原推薦任務(wù)中,對(duì)于未登錄詞(OOV)的分布式表示需求普遍存在,為了減緩OOV的影響,一種普遍的方法是擴(kuò)大詞典規(guī)模,以提升模型訓(xùn)練過程中詞匯的覆蓋度,但該方法不能從根本上解決OOV問題。
采用基于字的預(yù)訓(xùn)練語言模型,例如可利用BERT編碼后對(duì)應(yīng)位置的字的隱層向量得到當(dāng)前詞語的向量。然而,簡單地將詞看作字的序列來計(jì)算詞向量的方法的效果并不理想。此外,在HowNet中,概念相似性的度量關(guān)鍵是計(jì)算概念對(duì)應(yīng)的義原序列之間的相似度。在序列語義相似度(如句子相似度)計(jì)算方面,采用孿生BERT網(wǎng)絡(luò)結(jié)構(gòu)的句子嵌入方法Sentence-Transformers(S- BERT)[20]表現(xiàn)出了良好的性能。該方法將句子對(duì)輸入到參數(shù)共享的兩個(gè)BERT模型中,將BERT輸出句子的所有字向量進(jìn)行平均池化后獲得每個(gè)句子的句向量表示。因此,本文嘗試?yán)迷~表詞已知概念描述義原序列的注意力分布,以相似性同構(gòu)為目標(biāo),對(duì)基于BERT的相似性判別模型進(jìn)行優(yōu)化。
在HowNet中,由義原向上構(gòu)建概念,由概念向上定義詞,詞語、義項(xiàng)、義原的關(guān)系如圖3所示。這里以詞語“小米”為例,由“material|材料”、“edible|食物”和“crop|莊稼”等義原及其關(guān)系構(gòu)成的概念義項(xiàng)的描述為: DEF={material|材料: MaterialOf={edible|食物},material={crop|莊稼}(senseID: 177381),再由這個(gè)概念義項(xiàng)定義詞語“小米(millet)”。
圖3 詞語、義項(xiàng)、義原的關(guān)系示例
如上所述,HowNet中,每個(gè)詞語對(duì)應(yīng)一個(gè)或多個(gè)概念義項(xiàng)的定義(Def),每個(gè)Def包含一個(gè)或多個(gè)義原。任一概念的描述中的義原之間通過體現(xiàn)概念與概念和概念的屬性與屬性之間的相互關(guān)系連接,通常一個(gè)義原可能存在于多個(gè)概念義項(xiàng)的定義之中。在對(duì)多個(gè)詞語的語義關(guān)系進(jìn)行建模時(shí),就形成了“詞語-義項(xiàng)-義原”關(guān)系網(wǎng)絡(luò)。
我們期望利用“詞語-義項(xiàng)-義原”關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)特征和基于協(xié)同過濾機(jī)制發(fā)現(xiàn)詞語的新概念并為其推薦相關(guān)義原。
協(xié)同過濾機(jī)制是推薦系統(tǒng)所采用的最為重要的技術(shù)之一[21]。其基本原理是假設(shè)兩個(gè)用戶如果具有相類似的購買行為,則他們對(duì)同一類商品感興趣的程度也就會(huì)比較接近,那么當(dāng)前用戶很有可能會(huì)對(duì)另一個(gè)相似用戶所喜歡的商品感興趣。在語義相似性度量方面,結(jié)合HowNet中對(duì)概念描述方式的規(guī)定,可以認(rèn)為,語義相似的概念應(yīng)具有相似的義原關(guān)聯(lián)集合。因此,在義原推薦的任務(wù)中,采用協(xié)同過濾機(jī)制是一種可行的途徑?;驹硎歉鶕?jù)相似的概念義項(xiàng)所包含的義原來推薦當(dāng)前詞語尚未被標(biāo)記但在實(shí)際語言環(huán)境中很可能表達(dá)其某方面語義信息的義原。
利用相似詞語對(duì)應(yīng)的概念獲得待推薦義原的集合。如圖4所示,首先,在HowNet詞表詞集合中,通過相似性判別模型選擇與新詞(未登錄詞)相似的詞語構(gòu)成相似詞集合;其次,基于上述全部詞語、詞語對(duì)應(yīng)的概念義項(xiàng)及其義原,構(gòu)建局部“詞語-義項(xiàng)-義原”關(guān)系網(wǎng)絡(luò);最后,基于網(wǎng)絡(luò)節(jié)點(diǎn)重要性排序方法進(jìn)行義原節(jié)點(diǎn)的選擇。
圖4 義原協(xié)同推薦框架
這里使用兩種中心性(Centrality)的度量方法評(píng)估義原節(jié)點(diǎn)的重要度,并以此重要度作為義原選擇排序的依據(jù)。度中心性(Degree Centrality)是在網(wǎng)絡(luò)分析中刻畫節(jié)點(diǎn)中心性(Centrality)的最直接度量指標(biāo)。一個(gè)節(jié)點(diǎn)的節(jié)點(diǎn)度越大就意味著這個(gè)節(jié)點(diǎn)的度中心性越高,該節(jié)點(diǎn)在網(wǎng)絡(luò)中就越重要。標(biāo)準(zhǔn)化度中心性測(cè)量如式(1)所示。
Cd(vi)=∑jxij/max(Cd(vj)),i≠j∈N
(1)
其中,xij=1表示節(jié)點(diǎn)i與節(jié)點(diǎn)j之間存在直接聯(lián)系,否則,xij=0;N為網(wǎng)絡(luò)中全部節(jié)點(diǎn)的集合。由于節(jié)點(diǎn)的度(Degree)的計(jì)算過程沒有考慮圖中鄰接節(jié)點(diǎn)的重要性,不能很好地體現(xiàn)詞語之間對(duì)義原的共享特征。因此,需要從路徑這個(gè)維度來度量節(jié)點(diǎn)的中心性,這里引入基于介性中心度(Betweenness Centrality)的中心性度量方法。計(jì)算網(wǎng)絡(luò)中任意兩個(gè)節(jié)點(diǎn)的所有最短路徑時(shí),如果這些最短路徑中有很多條都經(jīng)過了某個(gè)節(jié)點(diǎn),那么就認(rèn)為這個(gè)節(jié)點(diǎn)的介性中心度高。介性中心度測(cè)量如式(2)所示。
(2)
其中,σst表示從節(jié)點(diǎn)s到t的最短路徑數(shù),∑st(vi)表示從節(jié)點(diǎn)s到t經(jīng)過vi的最短路徑數(shù)。節(jié)點(diǎn)的介性中心度是以經(jīng)過某個(gè)節(jié)點(diǎn)的最短路徑數(shù)目來刻畫節(jié)點(diǎn)重要性的指標(biāo)。一個(gè)義原節(jié)點(diǎn)的介性中心度越高,說明其被相似詞語共享的可能性越大。
結(jié)合義原節(jié)點(diǎn)的標(biāo)準(zhǔn)化度中心性和介性中心度,計(jì)算義原節(jié)點(diǎn)的推薦指數(shù)如式(3)所示。
R(vi)=Cd(vi)×log(Cb(vi)+1)
(3)
在協(xié)同推薦的框架下,以相似詞語集合為橋梁建立了未登錄詞與義原的關(guān)聯(lián)關(guān)系,基于上述義原節(jié)點(diǎn)的推薦指數(shù)完成未登錄詞的候選義原的排序選擇。
新詞概念義原推薦任務(wù)的目標(biāo)是為HowNet中未登錄的概念推薦合適的義原,因此,需要找到一種義原未知概念與義原已知概念之間的相似度計(jì)算模型。由于概念以詞的形式表現(xiàn),上述問題可轉(zhuǎn)換為未登錄詞語與詞表詞的相似度計(jì)算問題。
與一般的詞語相似度計(jì)算不同,一方面,基于相似性同構(gòu)假設(shè),相似性的判別是以基于HowNet的詞語相似度計(jì)算結(jié)果為標(biāo)準(zhǔn);另一方面,參與相似性判別的詞語由未登錄詞(OOV)和HowNet詞表詞(IV)構(gòu)成,對(duì)于IV而言,構(gòu)成其概念描述Def的義原集合是已知的,可以被用來提升模型的收斂性。
相似性判別模型的整體框架如圖5右側(cè)部分所示。該模型把輸入的新詞和詞表詞對(duì)應(yīng)的字序列分別輸入到兩個(gè)SaBERT模型,獲得融入義原序列信息的語義表示向量,向量拼接后通過CNN分類模型完成未登錄詞與詞表詞的相似性判別。
圖5 SaBERT2+CNN模型
其中,義原注意力模型SaBERT的結(jié)構(gòu)如圖6所示,SaBERT首先將詞表詞的概念描述Def所對(duì)應(yīng)的義原樹進(jìn)行先序遍歷,得到義原中文詞序列SL;然后將義原序列SL經(jīng)S-BERT(固定參數(shù),distilue-base-multilingual-cased)得到其向量表示ESL;將ESL與詞語中每個(gè)字經(jīng)過BERT后得到的隱藏層向量hci進(jìn)行拼接,然后再接一個(gè)激活函數(shù)為tanh的全連接層,其中參數(shù)矩陣w1∈R2d×n,并通過Softmax得到各個(gè)字向量的權(quán)重向量α;最后通過向量加權(quán)和得到詞語的最終向量表示e。
圖6 義原注意力SaBERT模型
a=Softmax(tanh(w1[ESL;hci]))
(4)
(5)
在模型訓(xùn)練過程中,為了使模型的預(yù)測(cè)結(jié)果能夠逼近基于知網(wǎng)義原的相似度計(jì)算結(jié)果,即達(dá)到“相似性同構(gòu)”的目的,本文利用了經(jīng)典HowNet語義相似度計(jì)算模型[4]作為相似性判別的標(biāo)準(zhǔn)模型。經(jīng)典HowNet語義相似度計(jì)算結(jié)果為[0,1]連續(xù)實(shí)數(shù),對(duì)其計(jì)算結(jié)果的分析發(fā)現(xiàn),相似詞語之間計(jì)算相似度的結(jié)果值在[0.9,1.0]、[0.8,0.9)、[0.7,0.8)和[0.0,0.7)區(qū)間上的比例約為6∶2∶1∶1。由于本文進(jìn)行詞語相似度計(jì)算的目的是面向候選義原集合的構(gòu)建進(jìn)行相似詞語的選擇,因此,為提高相似詞選擇的質(zhì)量,這里我們將相似性判別問題看作以0.9為分類閾值的二分類問題,通過離散化處理將連續(xù)相似度值轉(zhuǎn)換為相似程度判別標(biāo)記,采用交叉熵?fù)p失函數(shù)完成模型訓(xùn)練。
3.1.1 數(shù)據(jù)集
將相似詞判別問題作為二分類任務(wù)?;贖owNet經(jīng)典相似度計(jì)算方法構(gòu)建詞語相似度矩陣A。將相似度大于或等于0.9的詞對(duì)作為正類,其余作為負(fù)類。矩陣A中,刪除義原預(yù)測(cè)測(cè)試數(shù)據(jù)集合中包含的詞語對(duì)應(yīng)的行和列后,形成矩陣B。在B矩陣的元素中選取27 000組詞對(duì)按8∶1∶1劃分為相似詞選擇模型的訓(xùn)練數(shù)據(jù)集、驗(yàn)證集和測(cè)試集。
為了驗(yàn)證本文相似性判別方法對(duì)義原預(yù)測(cè)結(jié)果的影響,將基于SaBERT的相似性判別方法與當(dāng)前主流的基于預(yù)訓(xùn)練語言模型的方法以及HowNet標(biāo)準(zhǔn)模型進(jìn)行比較。義原預(yù)測(cè)實(shí)驗(yàn)使用的數(shù)據(jù)集從HowNet知識(shí)庫中抽取產(chǎn)生。首先,按照概念描述所涉及的義原數(shù)量將HowNet知識(shí)庫中的詞語分成11類,實(shí)例如表2所示。其次,從各類中抽取若干詞語,數(shù)據(jù)分布及實(shí)例如表2所示,該測(cè)試數(shù)據(jù)集合計(jì)包含1 069個(gè)詞語。
表2 義原推薦任務(wù)測(cè)試數(shù)據(jù)集實(shí)例
3.1.2 對(duì)比模型
采用的對(duì)比模型及模型對(duì)應(yīng)的輸入信息如表3所示。我們使用準(zhǔn)確率P、召回率R和F1值作為詞語相似性判別的評(píng)測(cè)標(biāo)準(zhǔn)。
表3 相似性判別對(duì)比模型
以HowNet詞語語義相似度作為標(biāo)準(zhǔn),表4列出了基于我們提出的模型和其他對(duì)比模型的詞語相似性判別結(jié)果。
表4 不同模型的P、R、F1值比較
續(xù)表
由表4可知: ①在與新詞的相似性判別結(jié)果中,基于詞表詞義原信息的相似性判別結(jié)果普遍優(yōu)于僅使用詞表詞的結(jié)果。②在基于詞表詞義原信息的相似性判別結(jié)果中,基于共享參數(shù)的模型普遍優(yōu)于使用非共享參數(shù)的模型。③模型SaBERT2+CNN取得了最好的詞語相似性判別結(jié)果。
為了比較不同相似性判別模型對(duì)基于中心性的義原選擇模型的影響,采用了如表5所示的4種基本模型及其組合模型對(duì)相似性判別模型進(jìn)行性能評(píng)估,其中,相似性差別模型為義原選擇模型使用的關(guān)系網(wǎng)絡(luò)的構(gòu)建確定了相似詞集合。
表5 基于中心性的義原選擇模型
使用F1值和MAP值作為義原推薦的評(píng)測(cè)標(biāo)準(zhǔn)。
(6)
其中,K為詞語的義原數(shù)量,pk為第k個(gè)正確義原在推薦序列中的位置。
表6列出了分別基于獨(dú)立模型(BERT)、非共享參數(shù)的模型(BERT+CNN)、共享參數(shù)的模型(SaBERT2+CNN)對(duì)不同義原推薦模型效果的影響情況。可知,義原推薦效果與相似性判別結(jié)果正相關(guān),即模型的相似性判別結(jié)果與基于HowNet的相似度計(jì)算結(jié)果越一致,義原推薦效果就越好,這表明了本文以相似性同構(gòu)為模型優(yōu)化目標(biāo)的合理性。
針對(duì)不同義原數(shù)量情況的模型表現(xiàn)對(duì)比如圖7所示,圖中縱坐標(biāo)為不同義原預(yù)測(cè)模型取得F1值的算數(shù)平均,橫坐標(biāo)為義原數(shù)量。該結(jié)果表明,在對(duì)具有不同義原數(shù)量的詞語進(jìn)行義原預(yù)測(cè)時(shí),SaBERT2+CNN模型均表現(xiàn)出良好的效果。
圖7 針對(duì)不同義原數(shù)量情況下的模型對(duì)比
隨著互聯(lián)網(wǎng)應(yīng)用的普及,文本大數(shù)據(jù)中大量的新詞不斷出現(xiàn),同時(shí)現(xiàn)有詞語的含義被延伸和擴(kuò)展,因此有必要對(duì)以義原為基礎(chǔ)的語義知識(shí)庫進(jìn)行持續(xù)地修正和擴(kuò)充。
在詞匯進(jìn)行義原自動(dòng)標(biāo)注方面,Xie等人[22]提出了義原預(yù)測(cè)任務(wù),并基于詞嵌入(Word Embeddings)和義原嵌入(Sememe Embeddings)提出了多種義原預(yù)測(cè)模型,借助協(xié)同過濾和矩陣分解的方法,從已有的人工標(biāo)注數(shù)據(jù)集學(xué)習(xí)詞匯與義原的通用的關(guān)系,從而自動(dòng)構(gòu)造出新詞的義原。依賴詞語外部上下文信息的語義表示方法無法有效處理低頻詞或未登錄詞。Jin等人[23]提出了基于詞語內(nèi)部字信息和外部上下文信息的義原預(yù)測(cè)框架,通過將內(nèi)部模型和外部模型融合,提升了低頻詞義原預(yù)測(cè)的效果。為了克服低頻詞嵌入質(zhì)量差,義原預(yù)測(cè)準(zhǔn)確性不高的問題,Li等人[9]提出了基于字和多標(biāo)記分布序列到序列模型(Label Distributed Seq2Seq Model),利用詞的定義和描述信息進(jìn)行義原預(yù)測(cè)。張磊等人[24]基于多標(biāo)簽分類模型架構(gòu),通過將句子中的詞作為模型輸入,減小了用字作為最小單位的歧義性。杜家駒等人[25]提出了義原相關(guān)池化模型,利用局部語義相關(guān)性來預(yù)測(cè)義原,該方法依賴于定義文本的獲取質(zhì)量。在低資源的情況下,解決義原推薦問題的關(guān)鍵在于計(jì)算新詞與HowNet詞表詞之間的語義相似度。
詞語相似度計(jì)算方法可以分為基于語料庫的方法[26]和基于知識(shí)庫的方法[27]。目前,大量主流的詞語語義相似性計(jì)算方法可以歸類為基于語料庫的方法。這些方法基于分布假設(shè),從大型文本集合中學(xué)習(xí)單個(gè)詞語之間的關(guān)聯(lián)。如果兩個(gè)詞語的上下文環(huán)境越相似,或者它們?cè)谝黄鸪霈F(xiàn)的頻率越高[28],則假定它們的語義相似程度越高。通常,詞語的分布式表示通過詞語在語料庫中的共現(xiàn)信息獲得,其中一種最經(jīng)典的基于詞相鄰關(guān)系的表達(dá)方式就是Word2Vec,每個(gè)詞語被映射到一個(gè)唯一的稠密向量。BERT相比以Word2Vec為代表的詞嵌入方法,使用Transformer中的編碼器作為特征抽取器,這種方法對(duì)上下文有很好的利用,能夠動(dòng)態(tài)建模一詞多義的現(xiàn)象。上述方法均以字或詞的分布式表示為基礎(chǔ),忽略了基于詞向量與基于HowNet義原信息的詞語相似關(guān)系不一致問題,不適合基于協(xié)同框架的義原推薦任務(wù)。
本文提出了語義相似關(guān)系的異構(gòu)問題,假設(shè)與HowNet基于義原的語義相似性度量具有一致性的詞語相似度判別模型能更有效地為新詞推薦義原?;谶@種假設(shè),以相似性同構(gòu)為目標(biāo),融合義原注意力對(duì)預(yù)訓(xùn)練語言模型進(jìn)行微調(diào)。實(shí)驗(yàn)結(jié)果表明,本文方法可以有效解決未登錄詞與詞表詞的相似性判別問題。在基于協(xié)同過濾框架的義原推薦任務(wù)中進(jìn)行的實(shí)驗(yàn)表明,相似性同構(gòu)程度與義原推薦效果正相關(guān),表明了上述將相似性同構(gòu)作為模型優(yōu)化目標(biāo)的合理性。