阮義彰
摘要:上下位關(guān)系獲取對(duì)于下游電商至關(guān)重要。由于產(chǎn)品更新頻繁,大規(guī)模手動(dòng)獲取關(guān)系是不切實(shí)際的。文章主要研究從低資源電商文本中自動(dòng)獲取下位關(guān)系。與開放領(lǐng)域不同,電商領(lǐng)域中標(biāo)記的上下位詞對(duì)是有限的,且電商領(lǐng)域產(chǎn)品描述中的句式特殊,使傳統(tǒng)的基于序列的模型無(wú)效。為此,文章提出了基于Transformer的協(xié)同訓(xùn)練方法,通過(guò)理解產(chǎn)品描述探索潛在的高置信度詞模式。實(shí)驗(yàn)結(jié)果與最先進(jìn)的方法相比,F(xiàn)1和召回率顯著提高。
關(guān)鍵詞:電商領(lǐng)域;上下位關(guān)系;對(duì)抗訓(xùn)練;半監(jiān)督學(xué)習(xí);負(fù)樣本提取
中圖分類號(hào):TP18? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)15-0079-03
1 引言
產(chǎn)品與類別上下位關(guān)系的自動(dòng)獲取是電商應(yīng)用中的一項(xiàng)關(guān)鍵任務(wù)。上下位詞顯示了通用類別(即上位詞)和它的特定實(shí)例(即下位詞)之間的關(guān)系,例如電器和冰箱。獲取上下位關(guān)系有助于構(gòu)建產(chǎn)品類別系統(tǒng),本文主要研究如何從產(chǎn)品描述中自動(dòng)獲取上下位關(guān)系。
2 相關(guān)背景
現(xiàn)有方法通常利用文本上下文來(lái)提取上下位關(guān)系,包括基于模式的方法[1-6]和表示學(xué)習(xí)方法[7-8]。然而,在電商領(lǐng)域,這兩種方法往往是無(wú)效的。首先,產(chǎn)品描述通常由形容詞和各種產(chǎn)品屬性組成,而不是實(shí)例、動(dòng)詞和類別或概念等固化模式。表1中商品描述“2019新款冬季男士衣物韓版修身保暖厚羽絨服外套”完全沒(méi)有動(dòng)詞,缺乏清晰的模式使得依賴基于模式的方法無(wú)效。其次,可以看到表1中的描述沒(méi)有遵循良好的自然語(yǔ)言結(jié)構(gòu),它們是一組描述產(chǎn)品屬性和銷售特征的短語(yǔ)。因此,基于句子結(jié)構(gòu)特征(如依賴樹和詞典句法路徑)的方法,通常在電商領(lǐng)域無(wú)效。再次,表示學(xué)習(xí)方法依賴于大量訓(xùn)練樣本,此外,高質(zhì)量負(fù)樣本也是必不可少的。傳統(tǒng)的負(fù)采樣方法通常是構(gòu)造低質(zhì)量的樣本,對(duì)訓(xùn)練過(guò)程貢獻(xiàn)不大。例如,隨機(jī)抽樣的一對(duì)(外套、水果)很容易區(qū)分,它們甚至不會(huì)一起出現(xiàn)在一個(gè)產(chǎn)品描述中。如圖1所示,當(dāng)隨機(jī)采樣的負(fù)對(duì)數(shù)為258,462時(shí),現(xiàn)實(shí)世界的電商文本語(yǔ)料庫(kù)(即產(chǎn)品描述)中僅出現(xiàn)200對(duì)。因此隨機(jī)負(fù)樣本會(huì)導(dǎo)致很容易識(shí)別出很少出現(xiàn)在產(chǎn)品描述中的負(fù)樣本。
為了應(yīng)對(duì)上述挑戰(zhàn),提出以下兩點(diǎn):1)利用Transformer網(wǎng)絡(luò)理解中間詞語(yǔ)義,從而獲取嵌入空間中的上下位關(guān)系;2)通過(guò)設(shè)計(jì)協(xié)同訓(xùn)練框架迭代豐富訓(xùn)練樣本,并使用開發(fā)的基于模式的負(fù)樣本進(jìn)行挖掘。本文將電商下位關(guān)系獲取建模為二分類問(wèn)題,并提出一種半監(jiān)督分類器(Semi-supervised Transformer net,ST)。其輸入是一個(gè)詞對(duì)和包含該詞對(duì)的產(chǎn)品描述,其輸出是1(存在上下位關(guān)系)或0(不存在上下位關(guān)系)。ST從訓(xùn)練樣本中學(xué)習(xí)顯式“路徑”(即中間詞序列)知識(shí)和從訓(xùn)練樣本中學(xué)習(xí)隱性的“嵌入”(即空間變換)知識(shí)。一方面,ST派生的“路徑”知識(shí)用于獲得更多高質(zhì)量的訓(xùn)練樣例(尤其是反例);另一方面,ST學(xué)習(xí)到的“嵌入”知識(shí)用于區(qū)分語(yǔ)義并準(zhǔn)確產(chǎn)生分類結(jié)果。最后,本文從真實(shí)數(shù)據(jù)集中獲得了實(shí)驗(yàn)結(jié)果。
3 半監(jiān)督Transformer網(wǎng)絡(luò)
3.1 概述
本文將具有高預(yù)測(cè)置信度的樣本標(biāo)記為監(jiān)督數(shù)據(jù),并以迭代方式(即使用協(xié)同訓(xùn)練過(guò)程)訓(xùn)練分類器。首先生成負(fù)樣本(即基于模式的負(fù)樣本和隨機(jī)樣本)以及正樣本。然后根據(jù)預(yù)訓(xùn)練的詞嵌入將這些樣本轉(zhuǎn)換為向量表示,再分別使用這兩個(gè)樣本集訓(xùn)練兩個(gè)Transformer分類器。每次迭代中,從一個(gè)分類器中選擇具有高置信度的預(yù)測(cè)結(jié)果作為監(jiān)督,輸入另一個(gè)分類器進(jìn)行進(jìn)一步訓(xùn)練。算法1給出了協(xié)同訓(xùn)練過(guò)程。
以下為兩個(gè)內(nèi)部分類器的最小化均方誤差函數(shù):[L=12Xx∈X(yx-f(x))2]。其中[yx]表示[x]的真實(shí)標(biāo)簽,[x]是訓(xùn)練樣本集。
算法1? ?聯(lián)合訓(xùn)練過(guò)程
[輸入:文本語(yǔ)料庫(kù)T,預(yù)訓(xùn)練單詞嵌入W,最大迭代次數(shù)I
1. 對(duì)T進(jìn)行數(shù)據(jù)預(yù)處理,提取兩類訓(xùn)練樣本[Xp]和[Xd],前者為基于模式的樣本,后者為隨機(jī)樣本;
2. 使用單詞嵌入W將每個(gè)訓(xùn)練樣本轉(zhuǎn)換為向量表示;
3. [X'p←?] ,[X'd←?], 將? [X'p] 和 [X'd] 表示新標(biāo)注的訓(xùn)練樣本集合;
4. for [i=1,2,…,I] do;
5. 用基于詞模式的方法訓(xùn)練集合[fp]和[fd],將樣本[Xp∪X'p ]和[Xd∪X'd]循環(huán)迭代;
6. 對(duì)未標(biāo)記樣本進(jìn)行預(yù)測(cè),選擇具有高置信度的樣本作為新的訓(xùn)練樣本來(lái)擴(kuò)展? [X'p] 和 [X'd];
7. 如果 [X'p] 和 [X'd] 都在本次迭代中沒(méi)有收到新的標(biāo)簽樣品,那么停止。 ]
3.2 基于Tansformer的分類器
1)預(yù)處理
對(duì)于產(chǎn)品描述片段,首先刪除了“\%”“*”和“\&”等特殊字符;然后使用'.''!''?'';'作為分隔符將文本片段分割成一組句子S;然后每個(gè)標(biāo)記都被視為實(shí)體的候選標(biāo)志,并嘗試將標(biāo)記鏈接到實(shí)體。一個(gè)句子中兩個(gè)鏈接之間的標(biāo)記列表被視為對(duì)應(yīng)實(shí)體之間的單詞模式。本文用[e1,p1,p2,p3…pn-1,pn,e2]來(lái)表示鏈接標(biāo)記和之間的標(biāo)記,其中[e1]是頭實(shí)體,[e2]是后方實(shí)體,[p1,p2,p3…pn-1,pn]表示詞模式。
2)嵌入查找
在模型中用向量表示每個(gè)標(biāo)記,為了查找向量表示的單詞模式和實(shí)體,使用了帶有負(fù)采樣的模型Skip-gram[8]從大型文本語(yǔ)料庫(kù)(例如百度百科)中預(yù)訓(xùn)練單詞嵌入[9]。對(duì)于詞嵌入,本文將標(biāo)記[p]轉(zhuǎn)換為用向量表示的[p], [p=(p1,p2,…,pn)]用[n]表示[p=p1⊕p2⊕p3⊕p4] ,這里[⊕]表示串聯(lián),[p]是單詞模式[p]的最終向量表示。對(duì)于一個(gè)簡(jiǎn)單的訓(xùn)練樣本[s=(e1,p,e2)],用向量表示為: [s=e1⊕p⊕e2](這里[⊕]表示串聯(lián)操作)。
3)內(nèi)部分類器
如上所述,關(guān)鍵詞填充和懸空詞在產(chǎn)品描述中很常見(jiàn),因此使用基于Tansformer的模型作為內(nèi)部分類器。如圖3所示,把[p]作為第一個(gè)輸入,并將位置信息構(gòu)造成一個(gè)矩陣作為第二個(gè)輸入。然后,添加第一個(gè)和第二個(gè)輸入作為嵌入輸入,結(jié)果為多頭注意力的輸入。在多頭注意力層中,通過(guò)線性變換得到詞向量的序列,鍵向量和值向量的序列為[qi=W1pi], [ki=W2pi], [vi=W3pi],其中[W1,2,3]表示變換矩陣。前饋層是一個(gè)全連接網(wǎng)絡(luò),對(duì)每個(gè)位置向量進(jìn)行相同的操作,包括線性變換和ReLU激活輸出,再將最后一層與e1 和e2組合經(jīng)過(guò)sigmoid,輸出表示為b。當(dāng)[bi≤0.5]時(shí),標(biāo)簽預(yù)測(cè)為0,當(dāng)[bi>0.5]時(shí),標(biāo)簽預(yù)測(cè)為1。
3.3 訓(xùn)練樣本構(gòu)建
為了訓(xùn)練上述分類器,在實(shí)踐中,可以很容易收集正訓(xùn)練樣本。因此,本文主要研究如何在協(xié)同訓(xùn)練過(guò)程中構(gòu)建負(fù)樣本。文章提出兩種負(fù)采樣方法,即隨機(jī)和基于模式的方法,用于構(gòu)建負(fù)樣本。
1)隨機(jī)負(fù)采樣
隨機(jī)負(fù)采樣通過(guò)用隨機(jī)采樣的實(shí)體替換上下位詞對(duì)中的一個(gè)實(shí)體來(lái)生成負(fù)樣本。例如,可以基于正樣本(蘋果,水果)構(gòu)造一個(gè)負(fù)樣本(蘋果,動(dòng)物),使用負(fù)樣本和正樣本,可以收集一組下位實(shí)體對(duì),表示為[X={x1,x'1,x2,x'2,x3,x'3,…,(xn,x'n)}]。
2)基于詞模式的負(fù)采樣
該方法使用單詞模式作為挖掘負(fù)樣本的關(guān)鍵,這些模式捕獲了為什么兩個(gè)實(shí)體沒(méi)有下位關(guān)系。例如,給定一個(gè)否定對(duì)(蘋果,動(dòng)物),從包含這兩個(gè)實(shí)體的句子中提取一個(gè)詞模式:
……動(dòng)物與蘋果的首字母相同……
本文使用基于隨機(jī)的負(fù)采樣來(lái)生成負(fù)對(duì),并排除包含“這”“那”和“一”等的負(fù)詞對(duì)。與基于隨機(jī)的負(fù)采樣相同,不僅選擇了下位詞對(duì)的集合,而且還選擇了這些對(duì)之間的單詞模式。然后將這些對(duì)表示為[S={Sx1,x'1,Sx2,x'2,Sx3,x'3,…,S(xn,x'n)}],對(duì)之間的路徑表示為[p=(p1,p2,…,pn)]。通過(guò)提取這些隨機(jī)樣本的單詞模式并匹配訓(xùn)練數(shù)據(jù)集(即產(chǎn)品描述),通常會(huì)獲得更多的負(fù)樣本。例如,使用具有相同首字母的路徑,可能會(huì)在訓(xùn)練數(shù)據(jù)集中找到以下負(fù)對(duì)(火龍果,紫色)。
S=(……火龍果與紫色的首字母相同……)
顯然,實(shí)體對(duì)(火龍果,紫色)是非同義詞對(duì),反過(guò)來(lái)可以依靠(火龍果,紫色)來(lái)發(fā)現(xiàn)更多的負(fù)對(duì)及其路徑。本文只考慮路徑的長(zhǎng)度(即路徑中的標(biāo)識(shí)數(shù))不超過(guò)[102]。
4 實(shí)驗(yàn)
4.1 上下位詞對(duì)數(shù)據(jù)集
本文使用開源中文語(yǔ)料庫(kù)作為通用領(lǐng)域文本數(shù)據(jù),其中包含超過(guò)一百萬(wàn)個(gè)結(jié)構(gòu)良好的中文句子;并使用來(lái)自真實(shí)電商公司的產(chǎn)品描述,其中包括超過(guò)10億個(gè)非結(jié)構(gòu)化商品詳細(xì)信息。同時(shí)還收集了大約200,000個(gè)上下位詞對(duì),通過(guò)電商產(chǎn)品描述,總共獲得了44,263對(duì)電商上下位詞對(duì)。具體由以下部分組成。
4.2 實(shí)驗(yàn)設(shè)置
將提出的方法與以下方法進(jìn)行比較。
1)根據(jù)Snow的方法,總結(jié)出了一些電商領(lǐng)域的依賴路徑,根據(jù)每個(gè)模式訓(xùn)練一個(gè)二元分類器,不同路徑的數(shù)量為7,080。經(jīng)過(guò)篩選,選擇了其中5000條具有高可靠性的不同路徑作為訓(xùn)練樣本。
2)在預(yù)處理后,HypeNET用標(biāo)記模式標(biāo)記每個(gè)不同路徑。結(jié)合下位詞和嵌入作為分類器的訓(xùn)練樣本來(lái)確定是否上位詞。
本文還考慮了一些基線,它們的參數(shù)設(shè)置如下:
①GBDT二分類模型采用如下參數(shù)設(shè)置:樹數(shù):500;收縮率:0.05;采樣率:0.6; 特征比:0.3;最大葉數(shù):32;最小葉樣本數(shù):500;特征分割值最大尺寸:500。
②MLP模型采用如下參數(shù)設(shè)置:每層神經(jīng)元數(shù):500,100,2;學(xué)習(xí)率:0.001;最大迭代輪次:1000;批量大小:100。
③邏輯回歸(LR)模型采用以下參數(shù)設(shè)置:最小收斂誤差:0.000001;最大迭代輪次=:1000。
④隨機(jī)特征 (R) 僅包括上下位詞對(duì)的向量。
⑤半監(jiān)督Transformer(ST,本文提出的方法):Transformer參數(shù)設(shè)置:學(xué)習(xí)率:0.001;單詞輟學(xué)=0.2。
4.3 實(shí)驗(yàn)結(jié)果
基于模式的負(fù)采樣的效果:如圖1所示,隨機(jī)抽樣的負(fù)對(duì)很少出現(xiàn)在產(chǎn)品描述中?;谠~模式的方法不僅強(qiáng)化了負(fù)樣本的意義,而且對(duì)負(fù)樣本的構(gòu)建也有幫助。如圖2所示,隨著負(fù)樣本數(shù)量的增加,隨機(jī)詞對(duì)的需求呈指數(shù)增長(zhǎng)。然而,使用基于詞模式負(fù)采樣方法后,所需的隨機(jī)詞對(duì)的數(shù)量顯著減少。
詞型長(zhǎng)度與精度的關(guān)系:在數(shù)據(jù)處理過(guò)程中,需指定詞對(duì)之間的模式長(zhǎng)度,原因是一方面需要提高樣本的召回率,另一方面需要保證準(zhǔn)確性。圖3中,長(zhǎng)度為10時(shí),準(zhǔn)確率最高;隨著詞型長(zhǎng)度的增加,模型的準(zhǔn)確率會(huì)逐漸降低。
整體比較:如表3所示,所有模型在通用域數(shù)據(jù)集上的性能都不錯(cuò),但在專用數(shù)據(jù)集上的性能變差了,是由電商語(yǔ)料庫(kù)的特殊性造成的。而ST方法更擅長(zhǎng)對(duì)抗特定文本,為了進(jìn)一步驗(yàn)證文本復(fù)雜度對(duì)模型的影響,測(cè)試了Snow方法、DNN、LR、GBDT 和 LSTM。結(jié)果表明,ST經(jīng)過(guò)多次迭代后,在復(fù)雜文本中仍能保持良好的分類效果。
案例分析:如表4所示,ST能夠正確提取關(guān)系;相比之下,其余的包括Snow方法、HypeNET、MLP、LR和GBDT都無(wú)法產(chǎn)生正確的關(guān)系預(yù)測(cè)。這是因?yàn)閼铱赵~和關(guān)鍵字填充出現(xiàn)在它們的詞模式中,而本文提出的模型達(dá)到了很好的分類效果。
5 結(jié)束語(yǔ)
本文提出了協(xié)同訓(xùn)練框架 ST用于從電商產(chǎn)品描述中獲取上下位關(guān)系。基于詞模式的負(fù)采樣方法為其帶來(lái)了許多有意義的負(fù)樣本,且Tansformer模型有助于準(zhǔn)確理解產(chǎn)品語(yǔ)義的描述。實(shí)驗(yàn)結(jié)果表明ST取得了最先進(jìn)的性能。
參考文獻(xiàn):
[1] Carlson A ,Betteridge J,Kisiel B,et al. Toward an Architecture for Never-Ending Language Learning[C].Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI-10) Toward an Architecture for Never-Ending Language Learning,2011.
[2] Hearst M A.Automatic acquisition of hyponyms from large text corpora[C]. Proceedings of the 14th International Conference on Computational Linguistics,1992:539-545.
[3] Nakashole N,Weikum G,Suchanek F M.PATTY:a taxonomy of relational patterns with semantic types[C]// Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Jeju,2012:1135-1145.
[4] Riedel S,Yao L M,McCallum A,et al.Relation extraction with matrix factorization and universal schemas [C]//Stroudsburg, PA:Proceedings of the 2013 Conference of the North American Chapterof the Association for Computational Linguistics(HLT NAACL 2013),2013:74-84.
[5] Shwartz V,Goldberg Y,Dagan I.Improving hypernymy detection with an integrated path-based and distributional method[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Berlin,Germany.Stroudsburg,PA,USA:Association for Computational Linguistics,2016.
[6] Snow R,Jurafsky D,Ng A.Learning syntactic patterns for automatic hypernym discovery [C]//Vancouver:Advances in Neural Information Processing Systems 17,2004:1297-1304.
[7] Jana A,Goyal P.Network features based co-hyponymy detection [C]//LREC 2018,2018.
[8] LIN D.An Information-Theoretic Definition of Similarity [C]//Proc. international Conf. on Machine Learning,1998.
[9] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space Scottsdale,AZ:Proceedings of the International Conference on Learning Representations (ICLR 2013),2013:1-12.
[10] Mikolov T, Sutskever I, Chen K, et al.Distributed Representations of Words and Phrases and their Compositionality[C]//Advances in Neural Information Processing Systems (NIPS).Massachusetts,USA:MIT Press,2013:3111-3119.
[11] Cheng W W,Hüllermeier E.Combining instance-based learning and logistic regression for multilabel classification[J].Machine Learning,2009,76(2/3):211-225.
[12] Crestan E,Pantel P.Web-scale table census and classification[C]// Hong Kong,China:Proceedings of the fourth ACM international conference on Web search and data mining - WSDM '11.New York:ACM Press,2011.
[13] Shwartz V,Goldberg Y,Dagan I.Improving hypernymy detection with an integrated path-based and distributional method[C]//Berlin,Germany:Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers). Stroudsburg,PA,USA:Association for Computational Linguistics,2016.
【通聯(lián)編輯:謝媛媛】