鄧遠(yuǎn)飛, 李加偉, 蔣運(yùn)承, 2
(1. 華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣東 廣州 510631;2. 華南師范大學(xué)人工智能學(xué)院,廣東 佛山 528225)
專利是知識(shí)產(chǎn)權(quán)的一種形式,對(duì)于管理信息和知識(shí)、研發(fā)活動(dòng)以及減少研究周期和費(fèi)用都有幫助[1-2]。專利的申請數(shù)量每年都在持續(xù)增長,需要高效的系統(tǒng)來管理如此龐大的數(shù)據(jù)?,F(xiàn)有研究提供了許多方法來解決這個(gè)問題,如有效處理、分析、分類和存儲(chǔ)專利數(shù)據(jù)的方法[3-4]。
最近幾十年來,專利法和專利技術(shù)的創(chuàng)新實(shí)證研究受益于質(zhì)量越來越高的專利數(shù)據(jù)集,這些數(shù)據(jù)集在國家、企業(yè)、團(tuán)隊(duì)和個(gè)人層面都被廣泛應(yīng)用。專利數(shù)據(jù)有多種用途,如作為知識(shí)輸入的代理或?qū)@麅r(jià)值的度量,也被用作創(chuàng)新代理的度量。由于專利數(shù)據(jù)量龐大,因此需要大量的人力成本來研究和搜索專利。目前,專利管理和搜索的方式主要是基于傳統(tǒng)的數(shù)據(jù)庫,即技術(shù)人員需要識(shí)別目標(biāo)的關(guān)鍵字并進(jìn)行搜索,然后從數(shù)據(jù)庫中檢索專利[5]。因此,為了有效地對(duì)專利文本進(jìn)行語義相似度計(jì)算,需要設(shè)計(jì)一種準(zhǔn)確的專利語義表示方法。
USPTO(United States Patent and Trademark Office)數(shù)據(jù)在專利分析、經(jīng)濟(jì)學(xué)、起訴和訴訟工具等領(lǐng)域頻繁使用。大多研究中使用的專利分類系統(tǒng)是參照國際專利分類法(IPC)和聯(lián)合專利分類(CPC)所建立的。目前,針對(duì)USPTO數(shù)據(jù)的專利相似度計(jì)算及檢索相關(guān)研究,僅利用自然語言處理相關(guān)技術(shù)來實(shí)現(xiàn)[6]。
隨著預(yù)訓(xùn)練語言模型(PLM)的不斷發(fā)展,BERT[7]等具有動(dòng)態(tài)語義表征能力的模板逐漸成為文本表示領(lǐng)域的通用模型,使得解決下游任務(wù)的策略從重新訓(xùn)練模型轉(zhuǎn)變?yōu)楦鶕?jù)任務(wù)調(diào)整其參數(shù)。然而,在預(yù)訓(xùn)練和微調(diào)的過程中,不同階段的優(yōu)化目標(biāo)不同。于是,起源于生成式預(yù)訓(xùn)練Transformer(GPT)[8]并由模式探索訓(xùn)練(PET)[9]等發(fā)展而來的“提示學(xué)習(xí)”[10]新范式應(yīng)運(yùn)而生。值得注意的是,已有很多工作嘗試將外部知識(shí)融入以BERT為代表的預(yù)訓(xùn)練語言模型中,但主要集中在常識(shí)領(lǐng)域知識(shí)[11]和開放領(lǐng)域知識(shí)[12]。清華大學(xué)曾通過外部知識(shí)圖譜擴(kuò)展標(biāo)簽映射的方法,即知識(shí)集成的提示調(diào)優(yōu)(KPT)[13],在關(guān)系抽取、文本分類等任務(wù)中取得了較大的性能提升。此外,文獻(xiàn)[14]研究表明,并不是所有的外部知識(shí)都能帶來增益。目前,該領(lǐng)域主要面臨2個(gè)挑戰(zhàn):1)如何有效地植入外部知識(shí),解決專利短語信息不足的問題?2)如何充分利用專利短語中的標(biāo)簽信息,解決知識(shí)噪聲和異構(gòu)性問題?如果這些技術(shù)被有效地應(yīng)用于專利檢索、專利分類等任務(wù),專利推薦、自動(dòng)專利質(zhì)量預(yù)測等應(yīng)用在未來甚至可以實(shí)現(xiàn)。
針對(duì)專利短語相似度語義匹配問題,本文首先提出基于知識(shí)注入的提示學(xué)習(xí)方法并應(yīng)用到專利短語相似度計(jì)算中;其次引入外部知識(shí)圖譜Wikidata,提出基于實(shí)體影響度的鄰域過濾機(jī)制,獲取相關(guān)實(shí)體的鄰域特征信息,通過外部信息源擴(kuò)充標(biāo)簽與專利短語信息,提高分類準(zhǔn)確度同時(shí)解決專利短語信息不足的問題;接著應(yīng)用交叉熵?fù)p失函數(shù)來訓(xùn)練所提模型,將擴(kuò)展標(biāo)簽詞的分?jǐn)?shù)映射到標(biāo)簽分?jǐn)?shù)上。此外,本文設(shè)計(jì)一種有效的提示生成文本,并驗(yàn)證其在現(xiàn)有數(shù)據(jù)集上的有效性。
近年來,許多機(jī)器學(xué)習(xí)技術(shù)已應(yīng)用于專利相關(guān)研究,主要集中在專利檢索、專利分類和相似度計(jì)算中,提高了專利分析工作的效率[2]。文獻(xiàn)[6]提出一種兩階段專利檢索方法,通過考慮權(quán)利要求的結(jié)構(gòu),將檢索到的文檔重新排序,取前N個(gè)文檔,這意味著權(quán)利要求在專利中具有重要意義。隨后,文獻(xiàn)[15]通過使用USPTO專利數(shù)據(jù),利用一種引文分析方法來改進(jìn)專利檢索技術(shù)。文獻(xiàn)[16]提出一種基于聚類的專利檢索技術(shù),通過使用IPC代碼提供額外的數(shù)據(jù),滿足用戶的信息需求。
另一方面,盡管專利具有半結(jié)構(gòu)化的性質(zhì),但是大多數(shù)現(xiàn)有的關(guān)于專利分類的研究工作都側(cè)重于文本信息。如今,深度學(xué)習(xí)方法(如卷積神經(jīng)網(wǎng)絡(luò))在圖像處理、語音識(shí)別等領(lǐng)域取得了巨大進(jìn)展,但尚未應(yīng)用于專利分類任務(wù)。文獻(xiàn)[17]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和詞向量嵌入的深度學(xué)習(xí)算法DeepPatent并用于專利分類。PatentBERT專注于微調(diào)預(yù)先訓(xùn)練的 BERT 模型,該模型僅使用專利的第一項(xiàng)權(quán)利要求,并在CPC子類級(jí)別的656個(gè)標(biāo)簽上取得了顯著的成果。Patent2Vec[18]在專利分類工作中使用標(biāo)簽的文檔學(xué)習(xí)專利的低維表示,從多視圖的角度執(zhí)行專利分類任務(wù)。
經(jīng)過微調(diào)的PLM[19]在各種自然語言處理任務(wù)中取得了巨大的成功。PLM可學(xué)習(xí)關(guān)于語言的語法[20]、語義[21]和結(jié)構(gòu)[22]信息,在智能問答[23]、文本分類[24]和機(jī)器翻譯[25]等領(lǐng)域廣泛應(yīng)用。然而,PLM仍然阻礙下游任務(wù)對(duì)預(yù)訓(xùn)練知識(shí)的充分利用。為此,受GPT-3[26]的啟發(fā),提示學(xué)習(xí)方法應(yīng)運(yùn)而生,其將下游任務(wù)轉(zhuǎn)換為一些形式化目標(biāo)并取得了優(yōu)異的性能[17]。
提示學(xué)習(xí)[27-28]是最近出現(xiàn)的模型訓(xùn)練方法,最初由人工設(shè)計(jì)模板。文獻(xiàn)[29]提出的PET借助自然語言構(gòu)成的模板,使用BERT的掩碼語言模型來進(jìn)行預(yù)測。但是,PET方法的局限性在于需要人工選擇模板,而且PET的準(zhǔn)確率嚴(yán)重依賴模板的質(zhì)量。文獻(xiàn)[30]提出前綴調(diào)優(yōu)(Prefix-tuning),其放棄模板由自然語言構(gòu)成這一常規(guī)要求,使用連續(xù)空間內(nèi)的向量作為模板。GPT-3、 ChatGPT[26]相關(guān)研究表明,通過快提示調(diào)優(yōu)和上下文學(xué)習(xí),大規(guī)模語言模型可以在低數(shù)據(jù)狀態(tài)下實(shí)現(xiàn)優(yōu)異的性能。P-tuning[31]利用可訓(xùn)練的向量來自動(dòng)構(gòu)建提示文本模板,重點(diǎn)解決提示調(diào)優(yōu)在小模型上效果不佳的問題。手工定義或自動(dòng)搜索得到的標(biāo)簽詞映射有主觀性強(qiáng)、覆蓋面小等缺點(diǎn),KPT[12]通過外部知識(shí)庫擴(kuò)展描述器的提示調(diào)優(yōu),用于提高文本分類的準(zhǔn)確率。同時(shí),KPT也為在提示學(xué)習(xí)下引入外部知識(shí)提供了參考。
本文使用的專利短語相似度語義匹配數(shù)據(jù)集(PPSD)是一個(gè)人類專家評(píng)級(jí)的CPC上下文專利技術(shù)短語(術(shù)語)到短語匹配數(shù)據(jù)集。表1所示為專利短語相似度匹配數(shù)據(jù)集的一個(gè)示例,完整的數(shù)據(jù)集可以通過 Kaggle(https:∥www.kaggle.com/datasets/google/google-patent-phrase-similarity-dataset)公開獲取。
表1 專利短語相似度語義匹配數(shù)據(jù)示例Table 1 Example of semantic matching data for patent phrases similarity
專利短語相似度語義匹配數(shù)據(jù)集包含近 50 000 個(gè)評(píng)級(jí)短語對(duì),每個(gè)短語對(duì)都有一個(gè) CPC 類作為上下文,分為訓(xùn)練集 (75%)、驗(yàn)證集 (5%) 和測試集 (20%)。數(shù)據(jù)集中存在成對(duì)的專利短語 (Anchor和Target),并對(duì)它們的相似度進(jìn)行評(píng)分,分?jǐn)?shù)從0(完全不相似) 到1(意思相同)。在數(shù)據(jù)集中,相似度(Score)表示2個(gè)專利短語(Anchor和Target) 在上下文(Context)中的相似度,其值在0~1范圍內(nèi),增量為 0.25。本文使用第4.2節(jié)的方法得到最終的擴(kuò)展標(biāo)簽詞,如表2所示,具體描述如下:
表2 擴(kuò)展標(biāo)簽詞示例Table 2 Examples of extended label words
1)錨短語(Anchor):第1個(gè)專利短語。
2)目標(biāo)短語(Target):第2個(gè)專利短語。
3)CPC分類(Context):上下文 CPC 分類,指出進(jìn)行相似度評(píng)分的專利短語的主題分類。
4)相似度等級(jí)(Rating):相似度等級(jí)標(biāo)簽,來自一個(gè)或多個(gè)手工專家評(píng)級(jí)的組合。
5)相似度(Score):相似度評(píng)分,來自一個(gè)或多個(gè)手工專家評(píng)級(jí)的組合。
本文使用余弦距離來計(jì)算2個(gè)專利短語的相似度,然后計(jì)算其與人工評(píng)分之間的相關(guān)系數(shù)結(jié)果,包括Pearson 相關(guān)系數(shù)(PCC)和Spearman相關(guān)系數(shù)(SRC)。
提示調(diào)優(yōu)通過自動(dòng)編碼器調(diào)整將分類任務(wù)形式化為一個(gè)掩碼語言模型(MLM)問題。提示調(diào)優(yōu)可用于文本分類任務(wù),構(gòu)建一個(gè)含有[MASK]的模板,然后讓掩碼語言模型去預(yù)測[MASK]位置的單詞。因此,文本分類任務(wù)被轉(zhuǎn)化為一個(gè)掩碼語言建模問題。
假設(shè)M是一個(gè)在大規(guī)模語料庫上預(yù)訓(xùn)練的語言模型。在文本分類任務(wù)中,輸入序列x=(x0,x1,…,xn)被分類為類別標(biāo)簽y∈Y。具體來說,提示調(diào)優(yōu)用模板包裝輸入序列,而模板是一段自然語言文本。例如,本文將x=“The similarity between patent ′faucet assembly′ and patent ′tap inputs′.”分類為“not related”(相似度標(biāo)記為0)或 “exact”(相似度標(biāo)記為1),可以封裝成:
xp=[CLS]xis [MASK]
(1)
在專利短語相似度匹配任務(wù)中,本文使用xA=WordAnchor表示原始專利短語(Anchor),使用xT=WordTarget表示目標(biāo)專利短語(Target),則xA和xT可劃分到一個(gè)相同相似度等級(jí)的分類標(biāo)簽y∈Y中。由表1可以看出,在專利短語數(shù)據(jù)集中,相似度是一個(gè)離散值。因此,本文將專利短語相似度計(jì)算問題轉(zhuǎn)化成專利短語分類問題來解決。使用xA和xT替代x,則式(1)可以轉(zhuǎn)換成:
xp=[CLS]xAandxTis [MASK]
(2)
接著,預(yù)訓(xùn)練的語言模型M給出了詞匯表中每個(gè)單詞v被[MASK]詞元(token)的概率,即PM([MASK]=v∈Vyxp)。在提示學(xué)習(xí)中,本文需要一個(gè)標(biāo)簽詞映射(verbalizer),將[MASK]位置上對(duì)于詞表中詞匯的預(yù)測轉(zhuǎn)化成分類標(biāo)簽。例如在{0: “not related”, 1: “exact”}這個(gè)映射下,預(yù)訓(xùn)練模型在[MASK]位置,對(duì)于“not related”或“exact”這個(gè)相似度程度標(biāo)簽詞的預(yù)測概率值會(huì)被當(dāng)成是對(duì)“0”或“1”這個(gè)標(biāo)簽的預(yù)測值。標(biāo)簽詞映射器首先要定義詞表中哪些詞是合適[MASK]詞元位置的標(biāo)簽詞,其次要定義標(biāo)簽詞概率如何轉(zhuǎn)化為最終的類別概率。
P(y∈Y|xp)=
f(PM([MASK]=v∈Vy|xp))
(3)
其中:f是一個(gè)函數(shù),其將標(biāo)簽詞的概率值轉(zhuǎn)化為標(biāo)簽的概率值。
在上面的例子中,常規(guī)提示調(diào)優(yōu)可以定義V1= {“exact”},V2= {“not related”},f為恒等函數(shù),如果“exact”的概率大于“not related”,則本文將這個(gè)實(shí)例劃分為“exact”標(biāo)簽。
提示學(xué)習(xí)的本質(zhì)是設(shè)計(jì)一個(gè)比較契合上游預(yù)訓(xùn)練任務(wù)的模板,通過增加提示模板,將訓(xùn)練數(shù)據(jù)轉(zhuǎn)成自然語言的形式,并在合適的位置 MASK。提示學(xué)習(xí)主要包括設(shè)計(jì)預(yù)訓(xùn)練語言模型、設(shè)計(jì)輸入模板樣式和設(shè)計(jì)標(biāo)簽樣式及模型輸出映射到標(biāo)簽(label)的方式3個(gè)步驟。本文提出知識(shí)注入的提示學(xué)習(xí)方法,利用外部知識(shí)來提高提示調(diào)優(yōu)的語言表達(dá)能力,其模型框架如圖1所示, 在本文方法中,通過擴(kuò)展標(biāo)簽詞及輸入專利短語,達(dá)到注入外部知識(shí)的目的。
圖1 本文模型框架Fig.1 The framework of the model in this paper
基于上下文的掩碼詞預(yù)測過程并不是一對(duì)一的選擇過程。因此,標(biāo)簽詞映射中的標(biāo)簽詞應(yīng)該具備2個(gè)屬性,即廣泛的覆蓋范圍和較低的主觀偏見。為此,本文使用外部知識(shí)來構(gòu)建標(biāo)簽詞映射,即通過Wikidata(https:∥www.wikidata.org)獲取相關(guān)實(shí)體的信息。
對(duì)于每個(gè)專利短語中的實(shí)體,本文首先使用專利短語或者標(biāo)簽詞稱作為查詢關(guān)鍵詞,通過Wikidata獲取相關(guān)實(shí)體的信息;然后使用相似度算法對(duì)專利短語和Wikidata實(shí)體進(jìn)行匹配,以確定它們之間的關(guān)系;最后根據(jù)匹配結(jié)果將專利短語中的實(shí)體鏈接到Wikidata知識(shí)圖譜中的相應(yīng)實(shí)體上,實(shí)現(xiàn)實(shí)體的語義統(tǒng)一。
(4)
如果將專利短語實(shí)體的所有一階鄰居作為知識(shí)注入的提示學(xué)習(xí)模板,則工作量巨大。然而,僅針對(duì)相似度值進(jìn)行過濾,則容易丟失專利短語實(shí)體間的潛在關(guān)系。因此,本文利用鄰居實(shí)體的影響度對(duì)專利短語的鄰域信息過濾進(jìn)行干預(yù)篩選,得到其鄰域信息,并作為知識(shí)注入模板的標(biāo)簽詞:
(5)
其中:Dxk為實(shí)體節(jié)點(diǎn)xk的度;Φ(·)為鄰域節(jié)點(diǎn)的篩選函數(shù)。本文取鄰居相似度值與鄰居節(jié)點(diǎn)度的乘積的前m個(gè)最大值 (為了避免由于引入高階鄰居而帶來的噪聲影響,同時(shí)簡化計(jì)算,設(shè)m=1)。
如圖1所示,以提示生成的輸入文本“[CLS] The similarity is exact between cocoa beans and free fatty acid in B01 [SEP] Coffee_bean Biochemistry”為例,目的是將專利短語對(duì)“cocoa beans” 和 “free fatty acid”歸類到“exact”標(biāo)簽(即相似度為1)。對(duì)于專利短語“cocoa beans”,首先找到它的Wikidata實(shí)體“Cocoa_bean”;然后通過Wikidata實(shí)體間的關(guān)系構(gòu)建其對(duì)應(yīng)的一階鄰居圖;接著采用node2vec圖嵌入算法分別計(jì)算其與一階鄰居的相似度,如“Cocoa_bean”與一階鄰居“Coffee_bean”的相似度為0.72;隨后逐個(gè)計(jì)算“Cocoa_bean”一階鄰居的度(“Coffee_bean” 一階鄰居的度為78);最后分別計(jì)算“Cocoa_bean”的一階鄰居相似度值與鄰居節(jié)點(diǎn)度的乘積,將其降序排序,找出前m個(gè)最大的一階鄰居(設(shè)m=1,即獲取到最終的外部知識(shí)圖譜Wikidata中的實(shí)體“Coffee_bean”)。標(biāo)簽詞“exact”與另一個(gè)專利短語“free fatty acid”也使用上述方法獲取。
本文構(gòu)造有遮蔽的提示文本,其中,xA和xT表示專利短語,rA和rT分別為專利短語xA和xT的相關(guān)詞,Context為CPC分類,[MASK]為預(yù)測的分類,[CLS]和[SEP]為預(yù)訓(xùn)練模型中的分隔符??紤]到不同提示生成的文本對(duì)最終結(jié)果的影響不同,本文構(gòu)造如下T1~T7提示生成的輸入文本:
T1=[CLS][MASK][SEP]xA[SEP]xT
T2=[CLS] The similarity is [MASK] betweenxAandxT
T3=[CLS] The similarity is [MASK] betweenxAandxTin Context
T4=[CLS] The similarity is [MASK] betweenxAandxT[SEP]rArT
T5=[CLS] The similarity is [MASK] betweenxAandxTin Context [SEP]rArT
T6=[CLS] The similarity is [MASK] betweenxAandxT[SEP]rArT
T7=[CLS]rArT[SEP] The similarity is [MASK] betweenxAandxTin Context
提示文本生成是基于提示學(xué)習(xí)機(jī)制構(gòu)造融合專利領(lǐng)域知識(shí)的提示文本。添加提示文本不僅有利于模型獲得上下文的語義聯(lián)系,而且能夠顯著提升下游的任務(wù)效果,充分利用預(yù)訓(xùn)練語言模型可以從海量的語料中學(xué)習(xí)到通用的語言表示。
本文采取對(duì)每個(gè)類所有標(biāo)簽詞的概率值取平均的方法,定義標(biāo)簽詞和類別的映射關(guān)系,得到最終類別y對(duì)應(yīng)的預(yù)測概率:
(6)
(7)
在實(shí)驗(yàn)過程中,本文模型和對(duì)比基線都是通過 Python 來實(shí)現(xiàn),使用工具包OpenPrompt(https:∥github.com/thunlp/OpenPrompt)實(shí)現(xiàn)基于知識(shí)注入的專利短語相似度分類方法。Our(T5) 是本文提出的基于知識(shí)注入提示學(xué)習(xí)的專利短語相似度計(jì)算方法。使用性能最好的提示文本T5與基線方法進(jìn)行比較。
為了證明本文方法的有效性,將所提方法與經(jīng)典方法及最近出現(xiàn)的方法進(jìn)行比較,對(duì)比方法具體如下:
1)Word2Vec[33]從大量文本預(yù)料中以無監(jiān)督方式學(xué)習(xí)語義知識(shí),用于學(xué)習(xí)文本中的單詞表示。本文使用 tensorflow_hub工具包加載英語維基百科語料版的Word2Vec預(yù)訓(xùn)練文本嵌入向量。
2)GloVe[34]構(gòu)造一個(gè)單詞共現(xiàn)矩陣,然后最小化詞向量之間的歐幾里得距離的平方來學(xué)習(xí)詞向量。本文通過加載預(yù)訓(xùn)練好的“Wikipedia2014 + Gigaword(glove.6B.zip)”詞向量實(shí)現(xiàn)GloVe。
3)FastText[35]基于用實(shí)數(shù)向量表示文本中單詞的思想,使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)從單詞到向量的映射。本文加載預(yù)訓(xùn)練好的“wiki-news-300d-1M.vec”詞向量獲取每個(gè)專利短語的FastText向量表示。
4)BERT[7]和PatentBERT。BERT是一個(gè)基于Transformer的模型,使用一個(gè)大型的無監(jiān)督語言建模數(shù)據(jù)集來學(xué)習(xí)一個(gè)句子的表示,這個(gè)句子中單詞的順序是不變的。對(duì)于BERT,本文使用BERT-large 模型。為了進(jìn)行比較,本文在與 BERT-large 相同大小的專利數(shù)據(jù)上進(jìn)行訓(xùn)練后得到 PatentBERT 模型。
5)Sentence-BERT[36]使用深度學(xué)習(xí)模型來預(yù)測句子中的下一個(gè)單詞。本文使用“sentence-transformers”工具包加載“all-mpnet-base-v2”實(shí)現(xiàn)Sentence-BERT。
6)P-tuning[31]利用可訓(xùn)練的向量來自動(dòng)構(gòu)建提示文本模板,使用BiLSTM對(duì)模板中的初始化向量進(jìn)行表征,增加嵌入向量之間的相關(guān)性。
7)KPT[12]通過外部知識(shí)庫擴(kuò)展描述器的提示調(diào)優(yōu),用于提高文本分類的準(zhǔn)確率。
8)Patent2Vec[18]用于專利分類,使用圖嵌入來生成低維表示,通過視圖增強(qiáng)模塊和基于注意力的多視圖融合方法來豐富和對(duì)齊不同視圖的信息。
在語義相似性計(jì)算任務(wù)中,給定一個(gè)數(shù)據(jù)集,可以通過計(jì)算預(yù)測得分與人工評(píng)分之間的相關(guān)系數(shù)來評(píng)價(jià)模型性能。有2種常用的相關(guān)系數(shù),即PCC和SRC,前者用來衡量2個(gè)變量之間的關(guān)系強(qiáng)度,后者偏向于相關(guān)度的評(píng)價(jià)。
除此之外,本文還使用文本分類評(píng)估指標(biāo)進(jìn)行比較,其中包括準(zhǔn)確率(RAccuracy)、精確率(RPrecision)、召回率(RRecall)和 F1值,它們的結(jié)果包括4個(gè)部分,即真正例(NTP)、假正例(NTN)、真負(fù)例(NFP)和假負(fù)例(NFN),則對(duì)應(yīng)的RAccuracy、RPrecision、RRecall和 F1 值的計(jì)算公式分別為:
表3所示為對(duì)比方法在專利短語相似度匹配數(shù)據(jù)集PPSD上的PCC和SRC性能表現(xiàn)。從表3可以看出:靜態(tài)預(yù)訓(xùn)練模型 Word2Vec、GloVe 和FastText性能表現(xiàn)不佳,考慮到數(shù)據(jù)集結(jié)構(gòu) (如許多具有不同含義的匹配專利術(shù)語)的影響,實(shí)驗(yàn)結(jié)果符合預(yù)期;PatentBERT模型顯著優(yōu)于常規(guī)的 BERT 模型,這意味著通用預(yù)訓(xùn)練模型對(duì)于專利中發(fā)現(xiàn)的專利術(shù)語而言效果不佳。
表3 不同語義相似度計(jì)算方法在PPSD上的性能表現(xiàn)Table 3 Performance of different semantic similarity calculation methods on PPSD
然而,本文從PatentBERT和 Sentence-BERT模型中得到了一個(gè)較好的結(jié)果,因?yàn)橐呀?jīng)針對(duì)用于短語相似性匹配數(shù)據(jù)的預(yù)訓(xùn)練進(jìn)行了微調(diào)。 KPT和本文方法都是基于提示學(xué)習(xí)進(jìn)行微調(diào)的提示調(diào)優(yōu)方法,表3顯示,本文專利短語相似度計(jì)算方法(Our(T5))性能優(yōu)于KPT,也比所有的對(duì)比基線方法更優(yōu),這驗(yàn)證了將知識(shí)圖譜中蘊(yùn)含的知識(shí)引入提示學(xué)習(xí)中的數(shù)據(jù)增強(qiáng)方式具有有效性。
4.5.1 提示文本的影響
表4所示為使用不同提示文本的 PCC、SRC、準(zhǔn)確率、精確率、召回率、 F1 值的實(shí)驗(yàn)結(jié)果,最優(yōu)結(jié)果加粗標(biāo)注。表4顯示,提示文本T1~T7的 PCC波動(dòng)比較明顯,在T5上取得了最好的PCC性能。從式(6)可知,T5考慮了上下文 Context特征信息和相關(guān)詞 relatedWord 特征信息,說明本文計(jì)算方法具有有效性,同樣的結(jié)論也可從T5在SRC上的性能表現(xiàn)得出。
表4 不同提示文本的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of different prompt texts
從表4可以看出:T1~T7的準(zhǔn)確率波動(dòng)較小,在T4和T5上取得了較好的準(zhǔn)確率,可知本文方法對(duì)正樣本的查準(zhǔn)效果更好;T1~T7的精確率波動(dòng)也較小,在T5上取得了最佳值,反映了本文方法分類結(jié)果準(zhǔn)確率穩(wěn)定,也說明整體分類效果較好;召回率是正確預(yù)測專利短語分類數(shù)與數(shù)據(jù)集PPSD中該類別實(shí)際包括專利數(shù)的比值,在T1~T7上表現(xiàn)相當(dāng)穩(wěn)定,說明本文方法對(duì)正樣本的查全效果較好;F1值是精確率和召回率的調(diào)和平均數(shù),綜合平衡了精確率和召回率,在T1~T7上的表現(xiàn)波動(dòng)更小,說明本文計(jì)算方法的整體分類效果較好。
圖2所示為不同提示文本在驗(yàn)證集上的損失值變化情況(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML版)。從圖2可以看出,在 Epoch為5之前,不同提示文本的驗(yàn)證集損失值波動(dòng)較大,但是隨后就穩(wěn)定下來,說明模型泛化效果較好,也進(jìn)一步說明了其有效性。
圖2 不同提示文本在驗(yàn)證集上的損失值變化情況Fig.2 Changes in loss values of different prompt texts on the validation set
4.5.2 消融實(shí)驗(yàn)分析
從式(6)的提示文本T1~T7中選出提示文本T1、T2、T4和T5進(jìn)行消融實(shí)驗(yàn)分析。從表5的實(shí)驗(yàn)結(jié)果可以看出,在提示階段,不同的提示文本對(duì)應(yīng)的 PCC和 SRC不同且相差較大,提示文本的長度、上下文 Context和相關(guān)詞的選擇均會(huì)影響最終的實(shí)驗(yàn)結(jié)果,且提示文本中不同特征信息交換位置時(shí)也在一定程度上影響了拼接后的語義,導(dǎo)致 PCC和 SRC較低。因此,尋求合適的提示文本是提示學(xué)習(xí)能否取得較好性能的關(guān)鍵。
表5 考慮不同特征信息時(shí)提示文本的PCC和SRC性能表現(xiàn)Table 5 PCC and SRC performance of prompt text considering different feature information
對(duì)于提示文本T1、T2、T4和T5,在提示文本中輸入的合理信息越多,其性能越優(yōu),該結(jié)果也能驗(yàn)證本文基于知識(shí)注入提示學(xué)習(xí)的專利短語相似度計(jì)算方法的有效性。
對(duì)比提示文本T1和T2可以看出,T2的 PCC 和 SRC 性能表現(xiàn)都優(yōu)于T1,說明T2的提示文本設(shè)置比T1更加合理,也說明了上下文 Context(CPC分類)的有效性。對(duì)比T4和T5可知,缺失 CPC 分類特征信息對(duì)T4的PCC和SRC性能影響更大,也進(jìn)一步驗(yàn)證了上下文Context的重要性。
對(duì)比提示文本T1和T4,T4的PCC和SRC表現(xiàn)優(yōu)于T1,說明T4的提示文本設(shè)置比T1更加合理,也說明了相關(guān)詞 relatedWord 特征信息的有效性。對(duì)比T2和T4可知,T4的PCC和SRC性能更佳,說明考慮相關(guān)詞 relatedWord 特征信息比考慮上下文信息更加有效,也驗(yàn)證了相關(guān)詞篩選方法的有效性。相比T2,T5的PCC和SRC性能大幅提升,說明了相關(guān)詞 relatedWord特征信息的有效性,也驗(yàn)證了相關(guān)詞選擇方法的合理性。
從表5還可以看出,不同提示文本之間的PCC和SRC性能表現(xiàn)差距較大。相比T1,T5的PCC和SRC性能大幅提升,說明上下文Context信息和相關(guān)詞relatedWord特征信息具有有效性,進(jìn)一步驗(yàn)證了本文計(jì)算方法的合理性。
專利是邁向知識(shí)型社會(huì)的重要資源,開發(fā)高效的系統(tǒng)來管理海量專利數(shù)據(jù)非常重要。為了解決專利短語信息不足的問題,本文利用專利短語中的相似度標(biāo)簽信息,提出一種基于知識(shí)注入的提示學(xué)習(xí)方法。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。隨著人工神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,基于數(shù)據(jù)驅(qū)動(dòng)的預(yù)訓(xùn)練和提示學(xué)習(xí)技術(shù)變得更加有效,但是人類的知識(shí)也在不斷更新,如在不同時(shí)間階段三元組知識(shí)(蘋果,CEO,喬布斯)會(huì)更新為(蘋果,CEO,庫克)。因此,更新預(yù)訓(xùn)練語言模型中的參數(shù)空間知識(shí)將是下一步的研究方向。