邱雪,單世民*,魏宏夔,王愷,楊念順
(1.大連理工大學(xué) 遼寧省泛在網(wǎng)絡(luò)與服務(wù)軟件重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116620;2.北京電子工程總體研究所 復(fù)雜產(chǎn)品智能制造系統(tǒng)技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,北京 100854)
隨著科技水平的快速發(fā)展,工業(yè)制造領(lǐng)域中的復(fù)雜產(chǎn)品在功能、構(gòu)型和性能指標(biāo)方面的數(shù)量種類及復(fù)雜程度也在快速提升。傳統(tǒng)的復(fù)雜產(chǎn)品需求分析方式難以滿足客戶的快速響應(yīng)要求,難以保持和提升復(fù)雜產(chǎn)品研發(fā)企業(yè)的市場(chǎng)競(jìng)爭(zhēng)力。構(gòu)造復(fù)雜產(chǎn)品的指標(biāo)參數(shù)知識(shí)圖譜,可以輔助企業(yè)產(chǎn)品研發(fā)人員對(duì)已有產(chǎn)品數(shù)據(jù)進(jìn)行快速統(tǒng)計(jì)分析。同時(shí),利用前沿的圖譜表示推理算法[1],可以為新產(chǎn)品的指標(biāo)參數(shù)需求提供有效的預(yù)測(cè)推理。
知識(shí)表示學(xué)習(xí)方法是近年來人工智能和知識(shí)圖譜領(lǐng)域的研究熱點(diǎn)。通過將知識(shí)圖譜中的實(shí)體和關(guān)系表示為低維向量空間中的稠密向量,知識(shí)表示學(xué)習(xí)已經(jīng)被應(yīng)用于知識(shí)圖譜補(bǔ)全[2]、關(guān)系鏈接預(yù)測(cè)[3]和一系列知識(shí)圖譜下游任務(wù)之中[4]。然而,現(xiàn)有的表示學(xué)習(xí)方法所應(yīng)用的知識(shí)圖譜,只關(guān)注實(shí)體-關(guān)系之間的離散型關(guān)聯(lián),而不考慮數(shù)值型屬性。對(duì)于產(chǎn)品指標(biāo)知識(shí)圖譜,大多數(shù)產(chǎn)品指標(biāo)參數(shù)屬于數(shù)值型數(shù)據(jù)。當(dāng)一類產(chǎn)品指標(biāo)的數(shù)值足夠精確,同時(shí)不同產(chǎn)品指標(biāo)變化幅度較大時(shí),會(huì)導(dǎo)致相似數(shù)值被表達(dá)成大量相互獨(dú)立的離散實(shí)體。這些實(shí)體不僅會(huì)耗費(fèi)大量的訓(xùn)練參數(shù),還會(huì)對(duì)模型預(yù)測(cè)精度產(chǎn)生負(fù)面影響。
針對(duì)產(chǎn)品指標(biāo)知識(shí)圖譜的數(shù)據(jù)特性和業(yè)務(wù)需求,本文在已有知識(shí)表示學(xué)習(xí)方法的基礎(chǔ)上,重點(diǎn)研究針對(duì)數(shù)值型指標(biāo)的表示學(xué)習(xí)技術(shù)。首先,考慮到產(chǎn)品指標(biāo)圖譜的數(shù)據(jù)特點(diǎn),本文從產(chǎn)品指標(biāo)數(shù)據(jù)中抽取產(chǎn)品指標(biāo)圖譜數(shù)據(jù),將產(chǎn)品間關(guān)聯(lián)關(guān)系和產(chǎn)品的指標(biāo)參數(shù)分別用三元組的形式存儲(chǔ)起來,作為知識(shí)表示學(xué)習(xí)算法的實(shí)驗(yàn)數(shù)據(jù)集。其次,本文創(chuàng)新性地研究數(shù)值型指標(biāo)參數(shù)的分布式表示方法。設(shè)計(jì)產(chǎn)品數(shù)值型指標(biāo)的離散化區(qū)間劃分策略,通過大量的仿真實(shí)驗(yàn)驗(yàn)證了數(shù)值型指標(biāo)表示方法中的關(guān)鍵要素,即區(qū)間數(shù)量和劃分方法。再次,針對(duì)關(guān)系三元組和指標(biāo)三元組的語義差異,探索全新的聯(lián)合學(xué)習(xí)訓(xùn)練方案。本文提出了四種訓(xùn)練方案,包括單獨(dú)學(xué)習(xí)、合并學(xué)習(xí)、依次學(xué)習(xí)和交替學(xué)習(xí),以探索指標(biāo)三元組的有效知識(shí)表示學(xué)習(xí)方法。
本文在五個(gè)前沿知識(shí)表示學(xué)習(xí)算法上進(jìn)行了 試 驗(yàn) ,包 括 TransE[5],DistMult[6],Com?plEx[7],ConvE[8]和 RotatE[9]。實(shí)驗(yàn)結(jié)果表明,RotatE模型的鏈接預(yù)測(cè)功能總體上占據(jù)優(yōu)勢(shì),在關(guān)系三元組和指標(biāo)三元組預(yù)測(cè)上均表現(xiàn)出優(yōu)異的性能。對(duì)于細(xì)粒度區(qū)間劃分的指標(biāo)參數(shù)預(yù)測(cè)任務(wù),ConvE方法相比其他知識(shí)表示學(xué)習(xí)模型更為適合。合并學(xué)習(xí)方案可以同時(shí)保證關(guān)系三元組和指標(biāo)三元組的預(yù)測(cè)精度,而依次學(xué)習(xí)方案可以達(dá)到更高的指標(biāo)預(yù)測(cè)精度。針對(duì)產(chǎn)品指標(biāo)知識(shí)圖譜的推理需求,需要權(quán)衡預(yù)測(cè)精度和區(qū)間個(gè)數(shù)的設(shè)置,以期保證高準(zhǔn)確率的前提下,實(shí)現(xiàn)適當(dāng)區(qū)間精度的指標(biāo)參數(shù)預(yù)測(cè),為后續(xù)的產(chǎn)品指標(biāo)關(guān)聯(lián)預(yù)測(cè)和產(chǎn)品方案生成奠定基礎(chǔ)。
知識(shí)圖譜嵌入(KGE)將實(shí)體和關(guān)系表示為嵌入空間內(nèi)的向量或矩陣,是語義網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)新興主題。根據(jù)模型架構(gòu),最近的KGE方法可以大致分為三類[10],包括向量距離模型、矩陣分解模型和神經(jīng)網(wǎng)絡(luò)模型。
以TransE[5]模型為代表的向量距離模型,將關(guān)系視為頭尾實(shí)體之間的平移操作,通過計(jì)算實(shí)體向量之間的距離來評(píng)估三元組為真的概率。為了解決TransE的缺陷,后續(xù)相繼提出了TransH[11]、TransR[12]和 TransD[13]等變體。同時(shí),矩陣分解方法是知識(shí)表示學(xué)習(xí)的另一個(gè)重要途徑,其中代表性的方法是RESACL[14]模型。DistMult[6]模型是 RESACL 模型的簡(jiǎn)化版本,將每個(gè)關(guān)系的投影矩陣改為關(guān)系向量表示,再將向量轉(zhuǎn)化為對(duì)角矩陣,用于整合頭尾實(shí)體向量。ComplEx模型[7]使用復(fù)數(shù)向量表示空間來提高非對(duì)稱關(guān)系的表示性能。最新模型RotatE[9]將TransE模型的平移操作改為旋轉(zhuǎn)操作,通過將關(guān)系向量表示為實(shí)體向量間的旋轉(zhuǎn)變換,得到了遠(yuǎn)超TransE模型的推理效果。隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)模型在最近的KGE研究中取得了卓越的性能,例如ConvE[8]和ConvKB[15],引入了深度神經(jīng)網(wǎng)絡(luò)并通過向量語義匹配對(duì)三元組打分。其中,ConvE模型重塑并連接了實(shí)體和關(guān)系嵌入,并利用多層卷積網(wǎng)絡(luò)模型進(jìn)行鏈接預(yù)測(cè),在保證計(jì)算效率的同時(shí)提高表征精度。
針對(duì)知識(shí)圖譜中的數(shù)值型數(shù)據(jù)問題,Alber?to等[16]提出了一種結(jié)合潛在特征、關(guān)系特征和數(shù)值特征的知識(shí)表示學(xué)習(xí)方法,但他們針對(duì)的是常識(shí)知識(shí)圖譜中的數(shù)據(jù)稀疏問題,將少量數(shù)值特征的差異分布擬合到稀疏圖譜數(shù)據(jù)中。而本文工作的問題場(chǎng)景和研究目標(biāo)與其不同。首先在產(chǎn)品指標(biāo)知識(shí)圖譜中,大部分三元組包含數(shù)值型信息,且不同指標(biāo)的數(shù)值分布有明顯差異。不同于以往研究針對(duì)離散型關(guān)系三元組的預(yù)測(cè),本文重點(diǎn)是實(shí)現(xiàn)數(shù)值型指標(biāo)的準(zhǔn)確預(yù)測(cè),為此提出了數(shù)值離散化方法和聯(lián)合訓(xùn)練策略。
本文在已有知識(shí)表示學(xué)習(xí)方法的基礎(chǔ)上,重點(diǎn)研究針對(duì)數(shù)值型指標(biāo)的表示學(xué)習(xí)技術(shù)。數(shù)值型指標(biāo)向量表示方法通過將數(shù)值型指標(biāo)進(jìn)行有效的離散化處理,使得知識(shí)表示學(xué)習(xí)模型能夠有效學(xué)習(xí)指標(biāo)參數(shù)的向量化表示。另外,本文提出了關(guān)系-指標(biāo)三元組聯(lián)合學(xué)習(xí)方法,針對(duì)產(chǎn)品指標(biāo)圖譜的實(shí)際需求,探索有效的產(chǎn)品指標(biāo)知識(shí)圖譜的表示學(xué)習(xí)訓(xùn)練方案。
如何對(duì)數(shù)值型指標(biāo)實(shí)體進(jìn)行向量表示,從而有效地應(yīng)用于知識(shí)表示學(xué)習(xí)方法,是本文的研究重點(diǎn)之一。針對(duì)這一問題,本文提出了數(shù)值型指標(biāo)的向量表示方法,其核心思路是將不同類型的數(shù)值型指標(biāo)進(jìn)行有效的離散化處理,使得知識(shí)表示學(xué)習(xí)方法能夠有效學(xué)習(xí)數(shù)值型指標(biāo)的分布式向量。指標(biāo)離散化區(qū)間劃分取決于兩個(gè)因素,區(qū)間個(gè)數(shù)和劃分方法。前者決定了最終該指標(biāo)會(huì)被離散化為多少個(gè)同等類別,后者決定了對(duì)滿足一定數(shù)據(jù)分布的數(shù)值參數(shù)如何進(jìn)行等量劃分。同時(shí),這兩個(gè)因素對(duì)知識(shí)表示學(xué)習(xí)方法性能的影響也是未知的,因此需要在實(shí)驗(yàn)中進(jìn)一步驗(yàn)證。
對(duì)于區(qū)間個(gè)數(shù)因素,我們選擇了五種選項(xiàng),分別為5,10,20,50和100。直觀上講,過多和過少的區(qū)間劃分都會(huì)對(duì)知識(shí)表示學(xué)習(xí)模型的準(zhǔn)確度造成影響。首先,過少的區(qū)間使得最終分類類別數(shù)量小,雖然相對(duì)準(zhǔn)確度會(huì)提高,但導(dǎo)致預(yù)測(cè)結(jié)果過于粗略,缺少實(shí)用價(jià)值。另一方面,過多的區(qū)間劃分會(huì)增大最終分類的難度,降低模型預(yù)測(cè)的準(zhǔn)確率。區(qū)間劃分過細(xì)也會(huì)導(dǎo)致相似實(shí)體的指標(biāo)參數(shù)無法建立關(guān)聯(lián),從而難以學(xué)到圖譜中的隱含規(guī)律。
對(duì)于劃分方法因素,本文選擇了兩種不同的方法,分別是基于數(shù)值的等量劃分(Uniform)和基于頻度的等量劃分(Scale)。首先,Uniform方法在給定前期統(tǒng)計(jì)的指標(biāo)數(shù)據(jù)m的最大值mmax和最小值mmin后,直接將最值區(qū)間均分為N份(其中N為預(yù)設(shè)的區(qū)間個(gè)數(shù))。每個(gè)劃分區(qū)間的長度n=(mmax?mmin)/N,每個(gè)區(qū)間的數(shù)值間距是基本相等的。使用Uniform劃分方法進(jìn)行劃分后,劃分區(qū)間的集合Z_U可以表示為:
其次,Scale方法是考慮已知指標(biāo)參數(shù)的分布情況,保證每個(gè)區(qū)間內(nèi)的指標(biāo)參數(shù)數(shù)量相同。當(dāng)N=4時(shí),Scale方法相當(dāng)于統(tǒng)計(jì)四分位數(shù),利用四分位數(shù)和均值將整個(gè)取值空間劃分為4份。則每個(gè)劃分區(qū)間的數(shù)值個(gè)數(shù)為l,即l=L/N,其中L表示整體樣本數(shù)量。使用Scale劃分方法進(jìn)行劃分后,劃分區(qū)間的集合Z_S可以表示為:
比較兩種劃分方法可以看出,Uniform方法適用于數(shù)值分布較均勻,且取值范圍較小的情況;而Scale方法更適合數(shù)據(jù)分布不均勻,取值范圍較大的指標(biāo)參數(shù)。在給定區(qū)間劃分之后,我們將原本的數(shù)值型指標(biāo)參數(shù)轉(zhuǎn)化為對(duì)應(yīng)的離散型指標(biāo)類別。具體的,給定一個(gè)數(shù)值型參數(shù),程序從小到大遍歷該指標(biāo)的劃分區(qū)間。當(dāng)該參數(shù)滿足某個(gè)區(qū)間的取值條件時(shí),該參數(shù)便確定為對(duì)應(yīng)的離散類型,不同的離散型指標(biāo)類型在知識(shí)表示學(xué)習(xí)方法中將對(duì)應(yīng)不同的分布式表示向量。
設(shè)?和?表示實(shí)體和關(guān)系的集合,知識(shí)圖譜G是 事 實(shí) 三 元 組 (eh,r,et)的 集 合 ,其 中eh,et∈?,r∈?。Ne和Nr分別表示實(shí)體和關(guān)系的 數(shù) 量 ,給 定 一 個(gè) e-r查 詢q=(ein,r),其 中ein∈?和r∈?,鏈接預(yù)測(cè)任務(wù)是找到emiss∈?,使得 (ein,r,emiss)或 (emiss,r,ein)屬于知識(shí)圖譜G。知識(shí)圖譜嵌入(KGE)旨在將每個(gè)實(shí)體e∈?和每個(gè)關(guān)系r∈?表示為d維連續(xù)向量。大多數(shù)KGE模型都采用負(fù)采樣損失作為訓(xùn)練目標(biāo),使得每個(gè)正確三元組t的得分都小于隨機(jī)生成的負(fù)樣本三元組。T表示正樣本三元組集合,T'表示負(fù)樣本三元組集合。以最大間隔損失為例,損失函數(shù)定義為:
其中?(t)是模型的得分函數(shù),而γ>0是邊界值參數(shù)。
以往的知識(shí)表示學(xué)習(xí)方法將知識(shí)圖譜中的實(shí)體默認(rèn)為相互獨(dú)立的離散型要素,將每個(gè)離散型實(shí)體表示為一個(gè)低維連續(xù)向量。對(duì)于產(chǎn)品指標(biāo)知識(shí)圖譜,通過上述離散化方法將數(shù)值型指標(biāo)參數(shù)轉(zhuǎn)化為離散實(shí)體,使得數(shù)值型指標(biāo)實(shí)體可以直接輸入到現(xiàn)有知識(shí)表示學(xué)習(xí)模型中。然而,“產(chǎn)品-指標(biāo)-參數(shù)”形式的三元組和以往圖譜中“實(shí)體-關(guān)系-實(shí)體”三元組在語義層面上是有所差異的。為了便于區(qū)分,本文將前者稱之為離散型關(guān)系三元組,后者稱之為數(shù)值型指標(biāo)三元組。
本文的核心研究目標(biāo)是對(duì)產(chǎn)品的指標(biāo)體系進(jìn)行預(yù)測(cè)和推理,因此數(shù)值型指標(biāo)三元組是研究的重點(diǎn)。但是,其他離散型關(guān)系三元組的作用不容忽視,不同于指標(biāo)參數(shù)這種底層數(shù)據(jù),產(chǎn)品指標(biāo)圖譜中的離散型關(guān)系三元組一般存儲(chǔ)有產(chǎn)品的高層類別劃分,能夠反映產(chǎn)品之間的層次結(jié)構(gòu)和關(guān)聯(lián)關(guān)系。因此,如何實(shí)現(xiàn)關(guān)系三元組和指標(biāo)三元組的聯(lián)合學(xué)習(xí)是本研究方案中的重點(diǎn)。為此設(shè)計(jì)了四種類型的訓(xùn)練方案:?jiǎn)为?dú)學(xué)習(xí)、合并學(xué)習(xí)、交替學(xué)習(xí)和依次學(xué)習(xí),以此來探究有效的產(chǎn)品指標(biāo)圖譜的知識(shí)表示訓(xùn)練方法。知識(shí)表示學(xué)習(xí)的基本模型圖以及關(guān)系-指標(biāo)三元組聯(lián)合學(xué)習(xí)方法如圖1所示。
圖1 知識(shí)表示學(xué)習(xí)基本框架(a)及關(guān)系-指標(biāo)三元組聯(lián)合學(xué)習(xí)方法(b-e)(b)合并學(xué)習(xí);(c)交替學(xué)習(xí);(d)單獨(dú)學(xué)習(xí);(e)依次學(xué)習(xí)Fig.1 Basic framework of knowledge representation learning(a)and relational-index triple joint learning methods(b-e)(b)Merge learning;(c)Alternating learning;(d)Single learning;(e)Sequential learning
●單獨(dú)學(xué)習(xí):將關(guān)系三元組和指標(biāo)三元組分割為兩個(gè)圖譜子圖,分別輸入到知識(shí)表示學(xué)習(xí)模型中訓(xùn)練。
●合并學(xué)習(xí):將關(guān)系三元組和指標(biāo)三元組合為一個(gè)完整圖譜,輸入到知識(shí)表示學(xué)習(xí)模型中訓(xùn)練。
●交替學(xué)習(xí):對(duì)于同一個(gè)知識(shí)表示學(xué)習(xí)模型,交替使用關(guān)系三元組和指標(biāo)三元組進(jìn)行訓(xùn)練。
●依次學(xué)習(xí):對(duì)于同一個(gè)知識(shí)表示學(xué)習(xí)模型,先用關(guān)系三元組訓(xùn)練若干輪再輸入指標(biāo)三元組進(jìn)行訓(xùn)練。
對(duì)于每個(gè)訓(xùn)練方案,本文選擇了五種不同的前沿知識(shí)表示學(xué)習(xí)模型進(jìn)行訓(xùn)練,包括TransE,DistMult,ComplEx,ConvE 和 RotatE。上述模型的得分函數(shù)和損失函數(shù)如表1所示。
綜上所述,本文通過提出多種數(shù)值型指標(biāo)的向量表示方法和關(guān)系-指標(biāo)三元組聯(lián)合訓(xùn)練方案,探索有效的產(chǎn)品指標(biāo)知識(shí)表示學(xué)習(xí)方法,從而為后續(xù)的產(chǎn)品指標(biāo)關(guān)聯(lián)預(yù)測(cè)和產(chǎn)品方案生成奠定基礎(chǔ)。
為了驗(yàn)證提出的模型框架,本文構(gòu)建了復(fù)雜產(chǎn)品指標(biāo)圖譜數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)測(cè)試。不同于以往的知識(shí)表示學(xué)習(xí)圖譜數(shù)據(jù)集,復(fù)雜產(chǎn)品指標(biāo)圖譜數(shù)據(jù)集包含離散型關(guān)系三元組和數(shù)值型指標(biāo)三元組兩部分,基本數(shù)據(jù)統(tǒng)計(jì)參數(shù)如下。
● 實(shí)體數(shù):2 971,離散型關(guān)系數(shù):12,數(shù)值型關(guān)系數(shù):48;
●關(guān)系三元組個(gè)數(shù):訓(xùn)練集8 270,驗(yàn)證集640,測(cè)試集646;
●指標(biāo)三元組個(gè)數(shù):訓(xùn)練集12 701,驗(yàn)證集703,測(cè)試集704。
知識(shí)表示學(xué)習(xí)模型的主要評(píng)測(cè)任務(wù)是知識(shí)圖譜鏈接預(yù)測(cè)任務(wù),即給定三元組中的實(shí)體-關(guān)系兩項(xiàng),來預(yù)測(cè)缺失的另一個(gè)實(shí)體。通過使用訓(xùn)練集三元組來訓(xùn)練知識(shí)表示學(xué)習(xí)模型,學(xué)習(xí)每個(gè)實(shí)體向量對(duì)應(yīng)的連續(xù)值參數(shù),然后通過驗(yàn)證集評(píng)測(cè)性能來調(diào)整模型超參數(shù),最后用測(cè)試集來評(píng)估模型的預(yù)測(cè)性能。知識(shí)表示學(xué)習(xí)模型的鏈接預(yù)測(cè)任務(wù)具有多種性能評(píng)估指標(biāo),具體包括:
(1)平均排名(MR):指目標(biāo)實(shí)體在最終預(yù)測(cè)序列中的排名的均值;
(2)平均排名倒數(shù)(MRR):指目標(biāo)實(shí)體排名的倒數(shù)的均值;
(3)前N項(xiàng)命中率(Hits@N):指目標(biāo)實(shí)體排在前N項(xiàng)的百分比。
一般來說,越低的MR值和越高的MRR、Hits@N值表明模型的預(yù)測(cè)性能越好,準(zhǔn)確率越高。
本文采用的知識(shí)圖譜數(shù)據(jù)集針對(duì)復(fù)雜產(chǎn)品制造領(lǐng)域構(gòu)建而成。由于該領(lǐng)域數(shù)據(jù)具有敏感度高、機(jī)密性高的特點(diǎn),最終選擇《某型號(hào)裝備數(shù)據(jù)大全(第三版)》作為數(shù)據(jù)源。本節(jié)簡(jiǎn)要介紹針對(duì)復(fù)雜產(chǎn)品指標(biāo)數(shù)據(jù)的數(shù)據(jù)采集和圖譜構(gòu)建過程。
由于數(shù)據(jù)源是不可編輯的PDF掃描文件,從時(shí)間成本與人工成本的角度出發(fā),本文采用自動(dòng)化提取PDF掃描文件信息的方法。通過光學(xué)字符識(shí)別(OCR)技術(shù),從PDF掃描文件中識(shí)得復(fù)雜產(chǎn)品指標(biāo)數(shù)據(jù),保存到Excel表格文件中。但提取出來的數(shù)據(jù)存在明顯噪音,典型錯(cuò)誤包括:某些數(shù)學(xué)符號(hào)無法識(shí)別,數(shù)值型數(shù)據(jù)小數(shù)點(diǎn)遺漏,數(shù)值型數(shù)據(jù)留有空格和涉及特殊字符的產(chǎn)品名稱識(shí)別失敗等。
為保證提取的指標(biāo)數(shù)據(jù)信息與原始數(shù)據(jù)一致,我們對(duì)Excel數(shù)據(jù)內(nèi)容進(jìn)行人工校驗(yàn),修改錯(cuò)誤信息,并進(jìn)行了一系列復(fù)雜產(chǎn)品指標(biāo)的數(shù)據(jù)清洗工作,主要包括復(fù)雜表頭拆分、添加復(fù)雜產(chǎn)品類別信息、數(shù)值型結(jié)構(gòu)指標(biāo)數(shù)據(jù)格式統(tǒng)一、文本型結(jié)構(gòu)指標(biāo)數(shù)據(jù)分類等。經(jīng)過上述預(yù)處理后的數(shù)據(jù)均為結(jié)構(gòu)化數(shù)據(jù),按照預(yù)先定義的復(fù)雜產(chǎn)品本體結(jié)構(gòu),以“產(chǎn)品-關(guān)系-實(shí)體”和“產(chǎn)品-指標(biāo)-數(shù)值”的形式,將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為圖譜三元組形式,用作后續(xù)知識(shí)表示學(xué)習(xí)模型的實(shí)驗(yàn)數(shù)據(jù)集。
表1 五個(gè)經(jīng)過預(yù)訓(xùn)練的KGE模型的得分函數(shù)和損失函數(shù)Table 1 Score function and loss function of five pre-trained KGE models
本文采用了五種前沿的知識(shí)表示學(xué)習(xí)模型測(cè)試其在產(chǎn)品指標(biāo)圖譜上的鏈接預(yù)測(cè)性能。為了保證實(shí)驗(yàn)的公平性,在訓(xùn)練階段統(tǒng)一采用合并學(xué)習(xí)方案,在測(cè)試階段分別對(duì)兩部分測(cè)試集進(jìn)行單獨(dú)評(píng)測(cè),指標(biāo)劃分方法采用Scale方法,區(qū)間大小設(shè)置為10。鏈接預(yù)測(cè)任務(wù)的實(shí)驗(yàn)結(jié)果如表2所示。
從表2看出,五種知識(shí)表示模型在兩個(gè)三元組子圖上,均表示出較高的預(yù)測(cè)精度。在產(chǎn)品關(guān)系三元組上,RotatE和ComplEx模型優(yōu)于其他三種模型。尤其在Hits@1指標(biāo)上,兩模型準(zhǔn)確度均超過了50%。相比之下,TransE的預(yù)測(cè)性能最弱。相似的趨勢(shì)同樣反映在產(chǎn)品指標(biāo)三元組上,RotatE模型在Hits@1指標(biāo)上優(yōu)于其他模型,而ConvE模型在Hits@3和Hits@10指標(biāo)上達(dá)到最佳。結(jié)合兩部分三元組子圖的預(yù)測(cè)結(jié)果可以看出,RotatE模型總體上占據(jù)優(yōu)勢(shì),在關(guān)系三元組和指標(biāo)三元組的預(yù)測(cè)結(jié)果上均表現(xiàn)出優(yōu)異的性能。同時(shí),對(duì)比關(guān)系三元組和指標(biāo)三元組的預(yù)測(cè)結(jié)果可以看出,指標(biāo)三元組的預(yù)測(cè)準(zhǔn)確率明顯優(yōu)于關(guān)系三元組,這意味著知識(shí)表示學(xué)習(xí)模型有能力針對(duì)產(chǎn)品指標(biāo)參數(shù)進(jìn)行一定的預(yù)測(cè)和推理。
上述實(shí)驗(yàn)中將關(guān)系三元組和指標(biāo)三元組共同訓(xùn)練,相當(dāng)于訓(xùn)練方案中的“合并學(xué)習(xí)方案”。本文進(jìn)一步分析了不同訓(xùn)練方案對(duì)三元組預(yù)測(cè)精度的影響,以期找出最優(yōu)的三元組訓(xùn)練方案。本文對(duì)四種訓(xùn)練方案下的知識(shí)表示模型分別進(jìn)行了訓(xùn)練評(píng)估,實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 不同訓(xùn)練學(xué)習(xí)方案下的模型性能Fig.2 Performance of models under different training and learning schemes
首先,比較單獨(dú)學(xué)習(xí)和合并學(xué)習(xí)方案可以看出,合并學(xué)習(xí)方案的關(guān)系、指標(biāo)三元組預(yù)測(cè)精度明顯優(yōu)于單獨(dú)學(xué)習(xí)方案。這一差異在ConvE和RotatE模型的結(jié)果中尤為顯著。原因可能在于,兩類三元組混合后,豐富了產(chǎn)品指標(biāo)圖譜的數(shù)據(jù)信息,使得一些原本稀疏的實(shí)體得到了更充分的向量表示學(xué)習(xí),因而預(yù)測(cè)準(zhǔn)確率有所提升。此外,合并學(xué)習(xí)和交替學(xué)習(xí)方案的模型性能幾乎一致。在此基礎(chǔ)上,從實(shí)際訓(xùn)練成本上考慮,合并學(xué)習(xí)方案相對(duì)更優(yōu)。
依次學(xué)習(xí)方案的預(yù)測(cè)性能和其他方案有明顯的差異,尤其體現(xiàn)在ConvE和RotatE模型上。先訓(xùn)練的關(guān)系三元組的預(yù)測(cè)性能被大幅度削弱,同時(shí)后訓(xùn)練的指標(biāo)三元組性能卻被進(jìn)一步提升,甚至超越了其他三種方案的指標(biāo)三元組預(yù)測(cè)性能。分析原因可能為,預(yù)先對(duì)關(guān)系三元組的訓(xùn)練相當(dāng)于對(duì)圖譜進(jìn)行了更為準(zhǔn)確的初始化,使得產(chǎn)品實(shí)體在初始階段就具備一定的聚類特征,從而更有利于指標(biāo)三元組的訓(xùn)練。
綜上所述,針對(duì)產(chǎn)品指標(biāo)圖譜的推理需求,可以采取不同的訓(xùn)練方案。當(dāng)同時(shí)需要確保關(guān)系三元組和指標(biāo)三元組的預(yù)測(cè)精度時(shí),可以采用合并學(xué)習(xí)方案。當(dāng)追求更高的指標(biāo)三元組的預(yù)測(cè)精度時(shí),則依次學(xué)習(xí)方案更為適合。
針對(duì)數(shù)值型指標(biāo)三元組的預(yù)處理方法,本文進(jìn)行了詳細(xì)的實(shí)驗(yàn)探究。為了將數(shù)值型指標(biāo)轉(zhuǎn)化為有限個(gè)離散型實(shí)體,采用Scale和Uniform兩種劃分方法和多種區(qū)間個(gè)數(shù),分別對(duì)數(shù)值型指標(biāo)三元組進(jìn)行預(yù)處理,然后在知識(shí)表示學(xué)習(xí)模型上比較預(yù)測(cè)性能。實(shí)驗(yàn)結(jié)果如圖3所示。
表2 多種模型在產(chǎn)品關(guān)系三元組和指標(biāo)三元組上的鏈接預(yù)測(cè)性能Table 2 Performance of link prediction to various models on product relational triples and index triples
首先,從區(qū)間個(gè)數(shù)角度來看,隨著區(qū)間個(gè)數(shù)的增多,三種知識(shí)表示學(xué)習(xí)模型的預(yù)測(cè)性能都呈現(xiàn)出下降趨勢(shì)。這是由于當(dāng)區(qū)間劃分過細(xì)時(shí),模型需要區(qū)分的相似實(shí)體數(shù)量明顯增多。因此,在產(chǎn)品指標(biāo)預(yù)測(cè)的實(shí)際應(yīng)用中,需要權(quán)衡區(qū)間個(gè)數(shù)的設(shè)置,以期保證高準(zhǔn)確率的前提下,實(shí)現(xiàn)適合精度的指標(biāo)參數(shù)預(yù)測(cè)。
其次,從劃分方法的角度來比較,Uniform方法在三個(gè)模型的不同區(qū)間個(gè)數(shù)條件下基本優(yōu)于Scale方法。尤其體現(xiàn)在區(qū)間個(gè)數(shù)為100時(shí),Uniform方法的Hits@10指標(biāo)比Scale方法高出5%。這表明基于數(shù)值的區(qū)間劃分方法,更適合產(chǎn)品指標(biāo)圖譜的參數(shù)離散化處理。分析原因可能是,Scale方法對(duì)取值范圍進(jìn)行均分,導(dǎo)致不同區(qū)間內(nèi)的標(biāo)注樣本數(shù)量不平衡。相比之下,Uniform方法保證了不同離散區(qū)間中的三元組數(shù)量基本一致。
再次,通過比較三種不同類型的知識(shí)表示學(xué)習(xí)模型可以看出,基于轉(zhuǎn)移距離的TransE模型預(yù)測(cè)性能明顯較弱,在不同區(qū)間個(gè)數(shù)和劃分方法條件下均弱于其他兩種方法。對(duì)比基于矩陣分解的ComplEx方法和基于神經(jīng)網(wǎng)絡(luò)的ConvE方法可以看出,ConvE方法在區(qū)間個(gè)數(shù)較多的情況下,預(yù)測(cè)性能仍能保持75%以上的較高水準(zhǔn)。因此對(duì)于細(xì)粒度區(qū)間劃分的指標(biāo)參數(shù)預(yù)測(cè)任務(wù),ConvE方法相比其他知識(shí)表示學(xué)習(xí)模型更為適合。
本文通過構(gòu)建知識(shí)表示模型,將產(chǎn)品指標(biāo)圖譜中的實(shí)體,關(guān)系和指標(biāo)參數(shù)投影到低維向量空間,實(shí)現(xiàn)對(duì)實(shí)體關(guān)系的語義信息表示,挖掘指標(biāo)參數(shù)之間的潛在關(guān)聯(lián),實(shí)現(xiàn)產(chǎn)品性能指標(biāo)的有效預(yù)測(cè)。本文通過研究數(shù)值型指標(biāo)參數(shù)的向量表示,對(duì)知識(shí)圖譜中蘊(yùn)含的產(chǎn)品-指標(biāo)-屬性數(shù)據(jù)進(jìn)行分布式表示,并探索全新的聯(lián)合學(xué)習(xí)訓(xùn)練方案,為后續(xù)性能推理和預(yù)測(cè)算法提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。實(shí)驗(yàn)表明RotatE模型的鏈接預(yù)測(cè)功能總體占據(jù)優(yōu)勢(shì),在關(guān)系三元組和指標(biāo)三元組的預(yù)測(cè)結(jié)果上均表現(xiàn)出優(yōu)異的性能,而基于依次學(xué)習(xí)訓(xùn)練方案的ConvE模型更是在Hit@10指標(biāo)上達(dá)到了最優(yōu)的90.27%。針對(duì)產(chǎn)品指標(biāo)圖譜的推理需求,本文可以根據(jù)實(shí)際情況采取不同的訓(xùn)練方案。后續(xù)將在其他領(lǐng)域數(shù)據(jù)集上對(duì)本文算法進(jìn)一步進(jìn)行測(cè)評(píng)。