姚佳奇,徐正國(guó),燕繼坤,王科人
盲信號(hào)處理重點(diǎn)實(shí)驗(yàn)室,成都610041
目前處在一個(gè)信息快速增長(zhǎng)的時(shí)代,如何根據(jù)用戶給出的感興趣文本,從海量的文本集中挑選出相關(guān)文本成為一個(gè)急需解決的問(wèn)題。在實(shí)際應(yīng)用中,用戶只保留了感興趣的文本集以及大量的未標(biāo)注文本集,即只有正類樣本和未標(biāo)注的樣本。傳統(tǒng)的有監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)都需要正類樣本和負(fù)類樣本來(lái)訓(xùn)練分類器[1]。與傳統(tǒng)的有監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)不同,PU學(xué)習(xí)(Positive and Unlabeled)的分類器建立在正類樣本集P和未標(biāo)注樣本集U的基礎(chǔ)上,其中未標(biāo)注樣本集同時(shí)含有正類樣本和負(fù)類樣本[2]。
PU學(xué)習(xí)算法可以分成兩類,一類是“兩步法”,即從未標(biāo)注樣本集中不斷選擇可靠的負(fù)類樣本來(lái)構(gòu)建分類器;另一類是“直接法”,即直接在正類樣本和未標(biāo)注樣本上構(gòu)建分類器[3]。
“兩步法”包括S-EM[4]、Roc-SVM[5]和AdaSampling[6]等算法。S-EM算法的第一步采用了間諜技術(shù)(Spy Technique),即隨機(jī)選取少量已經(jīng)標(biāo)注的正類樣本作為間諜集S放入未標(biāo)注樣本集中,然后以P-S作為正類樣本集,以U∪S作為負(fù)類樣本集訓(xùn)練基于EM算法的分類器,最后以間諜集S的類別概率確定選擇可靠負(fù)類樣本的閾值。Roc-SVM算法的第一步采用Rocchio算法篩選出可靠的負(fù)類樣本集后,利用SVM訓(xùn)練文本分類器。AdaSampling是一種基于Bootstrap采樣的算法,U中被選擇作為可靠負(fù)類樣本的概率為上一輪分類器訓(xùn)練得到的負(fù)類樣本概率。
“直接法”典型的代表是偏置SVM算法(Biased-SVM)[3]。令X=P∪U,|X|表示集合X的元素個(gè)數(shù),則偏置SVM算法的優(yōu)化目標(biāo)函數(shù)如下所示:
其中,C+和C-分別為正類樣本損失權(quán)重和負(fù)類樣本損失權(quán)重。C+和C-的具體數(shù)值由驗(yàn)證集上的近似F1的一種指標(biāo)確定,f表示分類函數(shù),r為驗(yàn)證集中正類的召回率,Pr(f(X)=1)為分類器上分為正類的概率。Liu Bing等人通過(guò)實(shí)驗(yàn)驗(yàn)證了偏置SVM算法的性能要優(yōu)于兩步法的S-EM和Roc-SVM算法。
在偏置SVM算法的基礎(chǔ)上,Mordelet等人提出了BaggingSVM[7],它是一種以偏置SVM算法為基本分類器,每次從未標(biāo)注樣本集中選取一定樣本作為負(fù)類樣本訓(xùn)練偏置SVM,最后采用Bagging方式集成的算法。
近年來(lái),神經(jīng)網(wǎng)絡(luò)模型在自然語(yǔ)言處理任務(wù)上取得了較優(yōu)的性能[8],研究者研究了基于神經(jīng)網(wǎng)絡(luò)的“直接法”類的PU學(xué)習(xí)算法。du Plessis等人將PU學(xué)習(xí)建模成代價(jià)敏感的學(xué)習(xí)問(wèn)題,并提出了一種無(wú)偏的PU損失函數(shù)(Unbiased PU,UPU)[9-10]。令πp=Pr(y=1),πn=Pr(y=-1)=1-πp,πp和πn分別表示正負(fù)類樣本的概率;令pp(x)=Pr(x|y=1),pn(x)=Pr(x|y=-1),pp(x)和pn(x)分別表示正負(fù)類樣本的概率分布;令l損失函數(shù)l:R×{±1}→R,R+p(f)=Ex~pp(l(f(x),+1)),R-n(f)=Ex~pn(l(f(x),-1))。UPU依據(jù)概率公式πn pn(x)=p(x)-πp pp(x),間接計(jì)算出負(fù)類樣本的損失函數(shù),具體計(jì)算如下所示:
然而Kiryo等人指出當(dāng)訓(xùn)練模型復(fù)雜的時(shí)候,尤其是應(yīng)用深度學(xué)習(xí)時(shí),由UPU損失函數(shù)計(jì)算出的經(jīng)驗(yàn)損失函數(shù)將會(huì)變成負(fù)值,從而導(dǎo)致了嚴(yán)重的過(guò)擬合問(wèn)題[11]。因而Kiryo等人提出了一種非負(fù)的損失函數(shù)(Non-Negative PU,NNPU),即限制由未標(biāo)注樣本集上的損失函數(shù)間接計(jì)算出負(fù)類樣本的損失函數(shù)非負(fù):
從上文的介紹中可以看出,“兩步法”本質(zhì)上對(duì)未標(biāo)注樣本集中的樣本賦予{0,1}損失權(quán)重,每次迭代給負(fù)類別概率較大的樣本賦予1,其余則為0。然而,在實(shí)際應(yīng)用中,由于閾值選擇的困難,每次選擇都可能將U中的正類樣本標(biāo)為負(fù)類樣本,或者將負(fù)類樣本標(biāo)為正類樣本,從而影響分類器的性能。
而“直接法”則是對(duì)不同類別的樣本賦予不同的損失權(quán)重,即屬于同一類別集合中的損失權(quán)重一樣,不屬于同一類別結(jié)合中的損失權(quán)重不一樣。因而,“直接法”不能夠依據(jù)具體的單個(gè)樣本給出相應(yīng)的損失權(quán)重,當(dāng)分類模型復(fù)雜的時(shí)候,尤其是基于神經(jīng)網(wǎng)絡(luò)的模型,“直接法”將U中的樣本全部視為負(fù)類樣本,從而因?yàn)閁中含有正類樣本導(dǎo)致容易過(guò)擬合,進(jìn)而影響分類器的性能。
圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[12-15]在半監(jiān)督學(xué)習(xí)領(lǐng)域得到了越來(lái)越多的關(guān)注。本文提出了一種基于圖卷積網(wǎng)絡(luò)的PU文本分類算法(GCN-PU),算法的示意圖如圖1所示。GCN-PU由兩部分組成,分別是文本分類器和損失權(quán)重計(jì)算器。本文采用了基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類器和基于圖卷積網(wǎng)絡(luò)的損失權(quán)重計(jì)算器。GCN-PU首先將未標(biāo)注樣本集U中的樣本全部視為負(fù)類樣本,聯(lián)合已標(biāo)注的正類樣本集訓(xùn)練基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類器;然后,取文本分類器的倒數(shù)第二層的輸入向量為文本的特征向量,并利用該向量構(gòu)建圖卷積網(wǎng)絡(luò)中的鄰接矩陣以及特征輸入;同時(shí),將卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的未標(biāo)注文本集的類別概率作為圖卷積網(wǎng)絡(luò)的未標(biāo)注樣本集的訓(xùn)練目標(biāo),考慮到類別平衡問(wèn)題,只選取與正類樣本同等個(gè)數(shù)的負(fù)類概率最大的樣本,其余的仍作為未標(biāo)注樣本集;最后,依據(jù)圖卷積網(wǎng)絡(luò)的類別概率計(jì)算未標(biāo)注樣本集U中的每個(gè)樣本的損失權(quán)重,重新訓(xùn)練基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型。不斷迭代上述過(guò)程,直到圖卷積網(wǎng)絡(luò)的類別概率穩(wěn)定為止。
圖1 GCN-PU算法示意圖
圖卷積網(wǎng)絡(luò)的基本思想是通過(guò)節(jié)點(diǎn)間的信息傳播更新節(jié)點(diǎn)的特征表示,從而使得臨近的樣本具有相似的特征表示。GCN-PU利用圖卷積網(wǎng)絡(luò)的這一特性,給未標(biāo)注文本集U中的每個(gè)樣本賦予[0,1]之間的一個(gè)軟權(quán)重,從而避免了“兩步法”的硬權(quán)重判別帶來(lái)的樣本噪聲。同時(shí),相對(duì)于“直接法”在類別上賦予權(quán)重,GCN-PU直接在樣本上賦予權(quán)重更為精細(xì)。在公開(kāi)數(shù)據(jù)集20newsgroup上的實(shí)驗(yàn)結(jié)果表明,本文提出的GCN-PU算法相對(duì)于現(xiàn)有的算法具有較優(yōu)的性能。
圖卷積網(wǎng)絡(luò)將傳統(tǒng)的卷積操作擴(kuò)展到了圖數(shù)據(jù)結(jié)構(gòu)上。圖卷積網(wǎng)絡(luò)主要有兩種類型[15]:一種是空間圖卷積網(wǎng)絡(luò)(Spatial GCN),利用節(jié)點(diǎn)的鄰居節(jié)點(diǎn)更新節(jié)點(diǎn)的特征向量;另一種是譜圖卷積網(wǎng)絡(luò)(Spectral GCN),通過(guò)拉普拉斯變換將圖映射到譜空間。
譜圖卷積網(wǎng)絡(luò)需要計(jì)算拉普拉斯特征向量,計(jì)算時(shí)間復(fù)雜度較高,Kipf和Welling等人提出了一種簡(jiǎn)單的近似計(jì)算方法,如下所示[10]:
H(i)∈Rn×d表示第i層的輸出矩陣,其中n為節(jié)點(diǎn)的個(gè)數(shù),d為節(jié)點(diǎn)的特征維數(shù);σ為激勵(lì)函數(shù);A?為規(guī)范化的鄰接矩陣,,其中A為節(jié)點(diǎn)間的鄰接矩陣,In為n階的單位矩陣;D?為對(duì)角矩陣,其中對(duì)角線元素。
Kipf和Welling等人將圖卷積網(wǎng)絡(luò)應(yīng)用到了半監(jiān)督學(xué)習(xí)領(lǐng)域,在一些測(cè)試集上取得了明顯的性能優(yōu)勢(shì)。圖卷積網(wǎng)絡(luò)的卷積操作將節(jié)點(diǎn)的特征向量和節(jié)點(diǎn)間的圖結(jié)構(gòu)結(jié)合在一起。節(jié)點(diǎn)的特征向量每經(jīng)過(guò)一次圖卷積操作,就通過(guò)圖結(jié)構(gòu)利用臨近節(jié)點(diǎn)更新自己的特征向量,從而使得相似的節(jié)點(diǎn)具有相似的特征向量。本文提出的GCN-PU算法利用圖卷積網(wǎng)絡(luò)的這一特性計(jì)算未標(biāo)注樣本集U中的樣本與正類樣本的相似度。未標(biāo)注樣本集U中與正類樣本越相似的樣本,在訓(xùn)練分類模型時(shí)的損失權(quán)重越小。下一章具體介紹本文提出的GCN-PU算法。
本文提出的GCN-PU算法由文本分類器和損失權(quán)重計(jì)算器兩部分構(gòu)成,其中文本分類器基于卷積神經(jīng)網(wǎng)絡(luò),損失權(quán)重計(jì)算器基于圖卷積網(wǎng)絡(luò)。文本分類器為損失權(quán)重計(jì)算器提供文本的特征向量以及類別概率,而損失權(quán)重計(jì)算器圖卷積網(wǎng)絡(luò)為文本分類器提供未標(biāo)注樣本集的損失權(quán)重。下面分別介紹兩個(gè)模塊的具體構(gòu)成以及聯(lián)合訓(xùn)練的方法。
本文構(gòu)建了基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類器,如圖2所示。對(duì)于一個(gè)文本樣本xi,首先從預(yù)訓(xùn)練好的詞嵌入矩陣(Word Embedding Matrix)中查詢對(duì)應(yīng)的詞向量,并將這些詞向量按順序拼接成該文本的詞向量化矩陣表示xi=(wvi1,wvi2,…,wvil),其中每個(gè)詞向量的維度為dw,l為文本最大長(zhǎng)度。然后應(yīng)用不同尺寸的卷積核和最大池化操作獲取更加抽象和高層的文本特征向量表示Fi。最后將Fi經(jīng)過(guò)一個(gè)激活函數(shù)為sigmoid函數(shù)的全連接層,計(jì)算該文本的屬于正類概率pi=1/(1+exp(-(W Fi+b)))。
圖2 文本分類器模型示意圖
本文利用下文介紹的損失權(quán)重計(jì)算器得到的權(quán)重wi對(duì)不同樣本的損失加權(quán),如下所示:
其中,Θ表示文本分類器中所有可訓(xùn)練的參數(shù)。
本文提出的GCN-PU算法利用圖卷積網(wǎng)絡(luò)計(jì)算未標(biāo)注樣本集U中不同樣本的損失權(quán)重。首先,通過(guò)文本分類器獲取每個(gè)文本的特征向量Fi。令F為由Fi,1≤i≤|X|拼接成的矩陣,然后依據(jù)如下公式計(jì)算樣本之間的鄰接矩陣:
Aij′度量了樣本i和樣本j之間的相關(guān)性,采用最大歸一化確保了鄰接矩陣中的元素Aij′∈[0,1]。同時(shí),為了避免噪聲數(shù)據(jù)的干擾,設(shè)置了閾值τ,將Aij′小于閾值的設(shè)為0:
令A(yù)為由Aij構(gòu)成的鄰接矩陣,將A?=A+In帶入到公式(4)即為圖卷積網(wǎng)絡(luò)層的一次運(yùn)算。本文采用了兩層圖卷積運(yùn)算,然后應(yīng)用sigmoid函數(shù)計(jì)算其屬于正類的概率,具體如下所示:
GP∈R|X|,其中每一個(gè)分量表示對(duì)應(yīng)樣本的正類別概率。從文本分類器中選取正類概率最小的|P|個(gè)樣本聯(lián)合已標(biāo)注的正類樣本集構(gòu)成標(biāo)注的樣本集DL。令已標(biāo)注的正類樣本集的y=1,而從未標(biāo)注樣本集中選取的樣本的y為文本分類器計(jì)算得到的相應(yīng)概率,則圖卷積網(wǎng)絡(luò)的損失函數(shù)為:
其中,Φ為所有訓(xùn)練的參數(shù)。
本文采用了分段線性函數(shù)計(jì)算未標(biāo)注樣本集中的損失權(quán)重:
該函數(shù)具有兩個(gè)閾值θ1和θ2,并且θ1<θ2。GPi表示的是樣本i屬于正類的概率,其值越大,表明與正類樣本越相似,而越小,表明與負(fù)類樣本越相似。因而本文將未標(biāo)注樣本集U中正類概率GPi>θ2的樣本權(quán)重設(shè)為0,而將GPi<θ1的樣本權(quán)重設(shè)為1,同時(shí)對(duì)GPi處于[θ1,θ2]之間的樣本應(yīng)用線性遞減函數(shù)。該損失權(quán)重的計(jì)算方法減小了未標(biāo)注樣本集中與正類樣本相似的損失權(quán)重,從而為下一輪分類模型的訓(xùn)練減少了錯(cuò)誤樣本的損失。
GCN-PU由兩個(gè)部分構(gòu)成,文本分類器和損失權(quán)重計(jì)算器,并且兩個(gè)部分互相影響,因而本文對(duì)這兩個(gè)部分進(jìn)行聯(lián)合訓(xùn)練。聯(lián)合模型訓(xùn)練算法的整體框架如算法1所示。首先預(yù)訓(xùn)練文本分類器和損失權(quán)重計(jì)算器,然后不斷迭代訓(xùn)練文本分類器和損失權(quán)重計(jì)算器,直到未標(biāo)注樣本集U中的樣本損失權(quán)重幾乎不變時(shí),停止整個(gè)訓(xùn)練過(guò)程。具體的停止規(guī)則如下所示:
一般而言,標(biāo)注的正類樣本集的樣本個(gè)數(shù)小于未標(biāo)注樣本集的樣本個(gè)數(shù)。為了平衡樣本的損失,在預(yù)訓(xùn)練文本分類器時(shí),將所有已標(biāo)注的正類樣本的損失權(quán)重為|U|/|P|,而未標(biāo)注樣本集中的所有樣本損失權(quán)重為1。預(yù)訓(xùn)練結(jié)束后,得到文本分類器f(0),損失權(quán)重計(jì)算器g(0),以及損失權(quán)重w(0),上角標(biāo)表示迭代的輪數(shù)。
算法1GCN-PU整體訓(xùn)練算法
輸入:標(biāo)注的正類文本集P,未標(biāo)注的文本集U
輸出:文本分類器f
1.初始化文本分類模型和損失權(quán)重計(jì)算模型。
2.令正類樣本的損失權(quán)重為|U|/|P|,未標(biāo)注樣本集U中樣本全部為負(fù)類,損失權(quán)重為1,預(yù)訓(xùn)練文本分類器f(0)。
3.按照2.2節(jié)的描述構(gòu)建圖卷積網(wǎng)絡(luò)g(0),并訓(xùn)練,按照公式(10)計(jì)算得到U中樣本的損失權(quán)重w(0)∈R|U|。
4.按照算法2聯(lián)合訓(xùn)練文本分類模型和損失權(quán)重計(jì)算模型,直到收斂,輸出最終的文本分類器f。
算法2GCN-PU聯(lián)合訓(xùn)練算法
輸入:標(biāo)注的正類文本集P,未標(biāo)注的文本集U,文本分類器f(0),損失權(quán)重計(jì)算器g(0),以及損失權(quán)重w(0)
輸出:文本分類器f
令k=0
do
1.根據(jù)公式(5)以及w(k)計(jì)算文本分類器f(k)的損失函數(shù)L(f(k))
2.依據(jù)優(yōu)化算法減小L(f(k)),訓(xùn)練得到f(k+1)
3.將P∪U中的樣本輸入到f(k+1),得到文本的特征向量F(k+1)以及對(duì)應(yīng)的正類概率p(f)(k+1)
4.從U中選取|P|個(gè)正類概率最小的樣本作為已知的負(fù)類樣本集,與已標(biāo)注的正類樣本集構(gòu)成圖卷積網(wǎng)絡(luò)的已知樣本集D(k+1)L
5.依據(jù)公式(9)計(jì)算圖卷積網(wǎng)絡(luò)的損失函數(shù)L(g(k)),并利用優(yōu)化算法減小L(g(k)),訓(xùn)練得到g(k+1)
6.依據(jù)公式(10)計(jì)算得到損失權(quán)重w(k+1)
7.k=k+1
while公式(11)不成立
算法2詳細(xì)展示了聯(lián)合訓(xùn)練的方法。從中可以看出,文本分類器為損失權(quán)重計(jì)算器提供文本的特征向量,而損失權(quán)重計(jì)算器在此基礎(chǔ)上更新樣本的損失權(quán)重,為文本分類器提供更加精細(xì)的樣本損失。文本分類器和損失權(quán)重計(jì)算器兩者互相影響,互相促進(jìn),直到損失權(quán)重計(jì)算器計(jì)算得到的損失權(quán)重不再變化。
為了證明GCN-PU的有效性,本文選擇了PU文本分類常用的公開(kāi)數(shù)據(jù)集20newsgroup(http://qwone.com/~jason/20Newsgroups/)作為驗(yàn)證數(shù)據(jù)集。20newsgroup數(shù)據(jù)集共有20個(gè)類別,每個(gè)類別大約有1 000篇文檔。并與偏置SVM算法、BaggingSVM、AdaSampling、UPU和NNPU算法進(jìn)行了對(duì)比。
本文首先隨機(jī)選取30%的文檔作為測(cè)試集,70%的文檔作為訓(xùn)練集,然后采用了兩種方式構(gòu)造PU數(shù)據(jù)集:
(1)正負(fù)樣本不平衡
按照文獻(xiàn)[3]的方法,選取其中1個(gè)類別作為正類,其余19個(gè)類別作為負(fù)類,從而構(gòu)造了20組正負(fù)樣本不平衡的樣本集。然后選取訓(xùn)練集中一定比例γ的正類樣本作為標(biāo)注的正類樣本,剩下的正類樣本和所有的負(fù)類樣本均作為未標(biāo)注樣本。
(2)正負(fù)樣本平衡
按照文獻(xiàn)[9]的方法,選取以“alt”“comp”“misc”和“rec”開(kāi)頭的類別作為正類,選取“sci”“soc”和“talk”開(kāi)頭的類別作為負(fù)類,從而構(gòu)造成正負(fù)樣本較為平衡的數(shù)據(jù)集。然后選取訓(xùn)練集中一定數(shù)目N+的正類樣本作為標(biāo)注的正類樣本,剩下的正類樣本和所有負(fù)類樣本均作為未標(biāo)注樣本。
偏置SVM算法、BaggingSVM和AdaSampling算法采用了TF-IDF特征,濾除了出現(xiàn)次數(shù)少于5次以及文檔頻率大于0.9的詞匯。偏置SVM算法、BaggingSVM和AdaSampling算法分別按照相應(yīng)的原始論文設(shè)定和選取超參數(shù)。
UPU、NNPU和本文提出的GCN-PU采用了利用谷歌新聞?lì)A(yù)訓(xùn)練的詞嵌入矩陣[16-17]作為文本的特征輸入,基礎(chǔ)模型架構(gòu)均為卷積神經(jīng)網(wǎng)絡(luò),卷積核尺寸分別為3、4、5,每個(gè)尺寸的卷積核個(gè)數(shù)為128,卷積核的激勵(lì)函數(shù)為Relu,并應(yīng)用最大池化,優(yōu)化算法為Adam算法[18]。
本文使用F1指標(biāo)對(duì)不同算法的性能進(jìn)行評(píng)估。下面分別介紹正負(fù)樣本不平衡和平衡下的實(shí)驗(yàn)結(jié)果與分析。
(1)正負(fù)樣本不平衡
正負(fù)樣本不均衡的實(shí)驗(yàn)結(jié)果如表1所示。本文設(shè)置了標(biāo)注的正樣本的個(gè)數(shù)占總正樣本的個(gè)數(shù)的比例γ從0.1到0.9,然后取同一比例的20個(gè)數(shù)據(jù)集的平均性能。
表1 正負(fù)樣本不平衡的實(shí)驗(yàn)結(jié)果
從表1中可以看出本文提出的GCN-PU算法在不同γ下均取得了最優(yōu)的性能,并且當(dāng)γ較小時(shí),取得的性能優(yōu)勢(shì)更為明顯,如當(dāng)γ=0.1時(shí),相對(duì)于次優(yōu)的AdaSampling算法,GCN-PU算法提升了17.2%的性能。這是因?yàn)镚CN-PU算法中的圖卷積網(wǎng)絡(luò)在正類樣本較少的情況下,仍然能夠利用其臨近樣本具有相似特征的特性,將未標(biāo)注的正類樣本識(shí)別出來(lái),進(jìn)而降低這些樣本在訓(xùn)練文本分類器時(shí)的損失權(quán)重。
為了驗(yàn)證上述結(jié)論,表2列出了正類類別為alt.atheism,在不同γ下,GCN-PU算法終止時(shí),未標(biāo)注樣本集U中的正類樣本和負(fù)類樣本的損失權(quán)重的均值。實(shí)驗(yàn)結(jié)果顯示在不同γ下,損失權(quán)重計(jì)算器計(jì)算得到的未標(biāo)注正類樣本損失權(quán)重均值都遠(yuǎn)遠(yuǎn)小于未標(biāo)注負(fù)類樣本的損失權(quán)重均值,有的甚至均值為0。
表2 正類類別為alt.atheism,正負(fù)類樣本損失權(quán)重均值
(2)正負(fù)樣本平衡
在正負(fù)樣本不平衡的數(shù)據(jù)集上測(cè)試UPU和NNPU的性能時(shí),實(shí)驗(yàn)結(jié)果表明在不同γ下,UPU和NNPU的F1值均接近于0。通過(guò)分析公式(2)和公式(3),可以看出UPU和NNPU的本質(zhì)上是優(yōu)化0-1損失,并假設(shè)了P∪U中的正類樣本和負(fù)類樣本是大致平衡的。當(dāng)樣本不平衡時(shí),即負(fù)類樣本遠(yuǎn)遠(yuǎn)多于正類樣本,UPU和NNPU仍然有較小的0-1損失,也即較高的準(zhǔn)確率,但是由于將少數(shù)的正類樣本均分類為負(fù)類樣本,導(dǎo)致了F1值較低。
為了比較GCN-PU算法與UPU和NNPU算法的性能,本文按照NNPU論文中的方法構(gòu)造了正負(fù)樣本平衡的數(shù)據(jù)集,仍然采用F1性能指標(biāo),得到的實(shí)驗(yàn)結(jié)果如表3所示。實(shí)驗(yàn)結(jié)果表明在采用同樣的文本分類器模型的情況下,本文提出的GCN-PU算法的性能要優(yōu)于UPU和NNPU的算法性能。
表3 正負(fù)樣本平衡的實(shí)驗(yàn)結(jié)果
針對(duì)PU文本分類問(wèn)題,本文提出了一種基于圖卷積網(wǎng)絡(luò)的PU文本分類算法GCN-PU。GCN-PU算法由基于卷積網(wǎng)絡(luò)的文本分類器和基于圖卷積網(wǎng)絡(luò)的損失權(quán)重計(jì)算器兩部分組成。文本分類器為損失權(quán)重計(jì)算器提供文本的特征向量,損失權(quán)重計(jì)算器為文本分類器提供未標(biāo)注樣本集中的樣本損失權(quán)重,兩者交替訓(xùn)練,互相促進(jìn)。相對(duì)于“兩步法”中對(duì)未標(biāo)注樣本集中的樣本0或者1的硬權(quán)重,GCN-PU利用基于圖卷積網(wǎng)絡(luò)的損失權(quán)重計(jì)算器賦予樣本[0,1]之間的軟權(quán)重,從而避免了硬權(quán)重有可能帶來(lái)的樣本噪聲。相對(duì)于“直接法”在類別上賦予不同的損失權(quán)重,GCN-PU基于樣本的損失權(quán)重則更為精細(xì)。實(shí)驗(yàn)結(jié)果表明了GCN-PU算法在正負(fù)樣本平衡和正負(fù)樣本不平衡的數(shù)據(jù)集上,均取得了優(yōu)于現(xiàn)有算法的性能。
GCN-PU算法的框架可以應(yīng)用于樣本標(biāo)簽有錯(cuò)的分類任務(wù)中,即通過(guò)基于圖卷積網(wǎng)絡(luò)的損失權(quán)重計(jì)算器降低標(biāo)簽錯(cuò)誤的樣本損失權(quán)重,從而提升分類器的性能。未來(lái),將進(jìn)一步研究這一工作。