劉逸琛
(重慶工程學(xué)院,重慶 400000)
隨著電商銷售模式在各大網(wǎng)絡(luò)平臺(tái)的不斷擴(kuò)張,越來(lái)越多的商家和個(gè)人借助電商平臺(tái)開設(shè)網(wǎng)店,導(dǎo)致海量商品信息的涌入。面對(duì)著如此眾多的商品信息,用戶如何根據(jù)簡(jiǎn)單的類別選出自己心儀的商品成為了難題,通過(guò)將智能商品分類集成進(jìn)電商平臺(tái)的方式可以有效解決此問(wèn)題。
商品分類主要是通過(guò)各種商品信息對(duì)商品所屬類別進(jìn)行區(qū)分。商品信息中通常會(huì)包含圖像和文本兩種可用數(shù)據(jù),由于圖像數(shù)據(jù)存在大小不同、識(shí)別難度大以及泛化性較差等問(wèn)題,本研究主要采取包含大量商品屬性和特征信息的商品標(biāo)題文本數(shù)據(jù)進(jìn)行分類。
商品標(biāo)題文本分類屬于文本分類,當(dāng)前主要的研究場(chǎng)景包括情感分類、新聞分類等,少有針對(duì)商品標(biāo)題文本的進(jìn)行相關(guān)研究。傳統(tǒng)的基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的方法在文本分類任務(wù)上取得了一定的效果,但無(wú)法針對(duì)商品標(biāo)題文本字符數(shù)量少、文本長(zhǎng)度跨度大和不遵循語(yǔ)法結(jié)構(gòu)等特點(diǎn)[1]進(jìn)行處理。因此,本文為彌補(bǔ)樣本不均衡問(wèn)題,基于變分自編碼器提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的方法,對(duì)于商品進(jìn)行分類,并在開放數(shù)據(jù)集上評(píng)估了我們的模型,證實(shí)了我們提出的模型優(yōu)于基線方法。
本文主要貢獻(xiàn)如下:(1)提出了一種可以有效對(duì)于商品標(biāo)題文本進(jìn)行分類的算法;(2)使用變分自編碼器重構(gòu)樣本空間,彌補(bǔ)樣本不均衡的相關(guān)問(wèn)題。
商品文本標(biāo)題的自動(dòng)分類任務(wù)通??梢砸暈槎涛谋痉诸惾蝿?wù),可以描述為將短文本數(shù)據(jù)根據(jù)特征劃分為n個(gè)類別中的一個(gè)或多個(gè)。目前大部分針對(duì)商品的相關(guān)研究都集中在對(duì)于評(píng)論文本進(jìn)行情感、情緒和評(píng)分的分類,傾向于研究評(píng)論短文本對(duì)消費(fèi)者、企業(yè)的意義和價(jià)值,少有針對(duì)商品本身進(jìn)行分類的研究。
早期對(duì)于短文本分類多用基于統(tǒng)計(jì)學(xué)方法的特征工程提取基礎(chǔ)特征,通過(guò)簡(jiǎn)單分類方法對(duì)文本數(shù)據(jù)進(jìn)行分類。Maron[2]設(shè)定規(guī)范提取文本中的關(guān)鍵信息,通過(guò)統(tǒng)計(jì)關(guān)鍵信息在不同類別中的頻次對(duì)短文本數(shù)據(jù)進(jìn)行分類。Michael[3]通過(guò)建立大規(guī)模的正則匹配原則,通過(guò)不同的關(guān)鍵詞的頻次等信息完成了對(duì)于文本數(shù)據(jù)的劃分。
隨著機(jī)器學(xué)習(xí)方法的發(fā)展和計(jì)算機(jī)性能的提升,不少研究學(xué)者開始將機(jī)器學(xué)習(xí)的方法引入文本分類任務(wù)。Jillian[4]首次提出將特征工程得到的每個(gè)詞語(yǔ)的特征通過(guò)矢量進(jìn)行表示,在特征空間中用聚類的方法實(shí)現(xiàn)了對(duì)于法律文本數(shù)據(jù)的分類。Thorsten[5]提出使用經(jīng)典的機(jī)器學(xué)習(xí)算法對(duì)文本數(shù)據(jù)進(jìn)行分類,例如樸素貝葉斯、支持向量機(jī)、K近鄰等算法,并通過(guò)實(shí)驗(yàn)證實(shí)支持向量機(jī)算法能夠保持較強(qiáng)的泛化能力,在文本分類任務(wù)上取得了最優(yōu)的性能。Danesh[6]等通過(guò)使用SVM、AdaBoost等算法對(duì)垃圾郵件進(jìn)行分類,證明了經(jīng)典機(jī)器學(xué)習(xí)在長(zhǎng)文本分類方面的有效性。盡管機(jī)器學(xué)習(xí)方法在文本分類任務(wù)中已經(jīng)取得較好的性能,但由于參數(shù)規(guī)模較小、規(guī)則性較強(qiáng)的特點(diǎn),當(dāng)面臨類別多、數(shù)量大的數(shù)據(jù)時(shí)仍會(huì)出現(xiàn)泛化能力弱等問(wèn)題。
由于深度學(xué)習(xí)方法擁有較大的參數(shù)量,能夠從海量數(shù)據(jù)中提取出豐富的特征,因此,更多的研究者開始采用深度學(xué)習(xí)的方式對(duì)文本數(shù)據(jù)進(jìn)行分類。Zhang[7]等首次將深度學(xué)習(xí)模型引入文本分類任務(wù)中,使用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建分類模型,提出BP-MLL模型,通過(guò)在多標(biāo)簽數(shù)據(jù)集上的試驗(yàn)驗(yàn)證了深度學(xué)習(xí)方法在該任務(wù)上的有效性。Liu[8]等提出了三種基于遞歸神經(jīng)網(wǎng)絡(luò)的模型,用于對(duì)文本序列數(shù)據(jù)進(jìn)行分類。Ashish[9]等在研究中提出注意力機(jī)制以及基于注意力機(jī)制的Transformer模型,能夠有效地彌補(bǔ)卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)中的不足之處,隨后Chang[10]等提出了基于上述模型的X-Transformer模型,用于解決文本分類中大輸出空間和標(biāo)簽稀疏問(wèn)題。
變分自編碼器常常被用作生成樣本數(shù)據(jù),在語(yǔ)音、圖像等方面運(yùn)用較多,但較少運(yùn)用于自然語(yǔ)言任務(wù)中。同傳統(tǒng)的使用統(tǒng)計(jì)學(xué)計(jì)算分布的方式不同,變分自編碼器從變分和貝葉斯理論出發(fā),使用神經(jīng)網(wǎng)絡(luò)生成均值和方差,通過(guò)對(duì)于采樣得到數(shù)據(jù)同原數(shù)據(jù)間差異的不斷優(yōu)化,得到生成效果較好的模型。
變分自編碼器的結(jié)構(gòu)可以被視作編碼器—解碼器結(jié)構(gòu),其構(gòu)造如圖1所示。
圖1 變分自編碼器構(gòu)造圖
其具體工作原理如下:
設(shè)定輸入的真實(shí)樣本為X={x1,x2,…,xn},變分自編碼器假設(shè)給每一個(gè)xk設(shè)定一個(gè)其專屬的后驗(yàn)分布P(Z|xk),該分布以高斯分布的形式呈現(xiàn),通過(guò)不斷優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)使得其同真實(shí)分布不斷接近,以得到能夠生成近似真實(shí)分布的模型。
可以將此過(guò)程定義為:
其中μ和σ分別代表高斯分布中的均值和方差。在變分自編碼器中,均值和方差都是通過(guò)編碼器模塊生成,該模塊可使用任意深度學(xué)習(xí)模型,在原始的變分自編碼器中,該模塊使用簡(jiǎn)單的線性層實(shí)現(xiàn)。
在普通的自編碼器中,生成的數(shù)據(jù)是通過(guò)對(duì)隱向量進(jìn)行解碼直接生成,但是在變分自編碼器中,隱向量是通過(guò)編碼器生成的參數(shù)通過(guò)重新采樣得到,那么在生成的過(guò)程中,隱向量會(huì)受到分布生成的噪聲數(shù)據(jù)的干擾,也會(huì)直接影響到生成器模塊生成數(shù)據(jù)的多樣性和真實(shí)性。變分自編碼器是通過(guò)最小化真實(shí)樣本X和生成數(shù)據(jù)-X的樣本誤差D(x'k-xk)2對(duì)模型進(jìn)行訓(xùn)練,在訓(xùn)練的過(guò)程中,模型通過(guò)訓(xùn)練參數(shù)使得高斯分布中更少地生成噪聲信息,也就是使方差σ趨近于0。但是當(dāng)方差趨近于0后,模型將會(huì)退化為一個(gè)基礎(chǔ)的自編碼器而喪失生成的多樣性。為了避免這種情況的發(fā)生,變分自編碼器強(qiáng)制規(guī)定后驗(yàn)分布P(Z|xk)趨近于高斯分布,通過(guò)這樣的方式建立了一種在模型內(nèi)部的對(duì)抗機(jī)制,使模型可以生成既真實(shí),又不會(huì)喪失多樣性的樣本。我們將這個(gè)動(dòng)態(tài)平衡的過(guò)程表述為:
此時(shí)模型即可滿足先前的假設(shè),即P(Z)趨近于高斯分布,實(shí)現(xiàn)從該分布中采樣隱向量Z以生成特征樣本。
以上過(guò)程中令專屬的后驗(yàn)分布P(Z|xk)近似高斯分布的方法需要用到變分推斷[11]。變分推斷是變分法在具體問(wèn)題上的運(yùn)用,即通過(guò)一個(gè)分布Q(Z|X)近似后驗(yàn)分布P(Z|X),當(dāng)兩個(gè)分布近似程度較高時(shí),即可使用此分布作為后驗(yàn)分布的近似估計(jì),此過(guò)程被稱作貝葉斯變分。用來(lái)衡量?jī)煞植冀瞥潭鹊墓ぞ呖梢允褂肒L散度,可以將其定義為:
其中,∫為積分求解運(yùn)算符,Q(x)和P(x)分別為需要衡量的兩種分布。所以令后驗(yàn)分布P(Z|xk)近似高斯分布的KL散度衡量表達(dá)式可以被表示為Jianlin[12]研究中推導(dǎo)的公式:
其中,d表示隱向量的向量維度,μi和σi代表高斯分布中均值和方差的第i個(gè)分量。
在變分自編碼器中通過(guò)上述過(guò)程抽象出兩個(gè)損失函數(shù)進(jìn)行聯(lián)合訓(xùn)練,一個(gè)是衡量原始樣本和生成樣本相似度的重建損失,另一種是衡量后驗(yàn)分布P(Z|xk)同高斯分布近似程度的KL損失,可以將二者表示為:
其中λ表示兩個(gè)損失所占權(quán)重的比例系數(shù)。
本研究致力于針對(duì)商品標(biāo)題文本數(shù)據(jù)中存在的樣本不均衡的問(wèn)題進(jìn)行處理,借鑒Weidi[13]等人在相關(guān)研究中提出的思想,提出一種基于變分自編碼器的商品文本數(shù)據(jù)分類算法。該算法通過(guò)使用變分自編碼器生成文本數(shù)據(jù)以近似原始樣本,對(duì)存在不均衡樣本的類別進(jìn)行樣本空間的補(bǔ)全。
該模型分為三個(gè)模塊,分別是文本嵌入模塊、變分生成模塊和文本分類模塊,模型結(jié)構(gòu)如圖2所示。
圖2 模型構(gòu)造圖
其中,文本嵌入模塊通過(guò)詞嵌入的方式將輸入的商品標(biāo)題文本數(shù)據(jù)映射為文本的向量表示;變分生成模塊通過(guò)使用一個(gè)編碼器模塊為線性層、解碼器模塊為卷積神經(jīng)網(wǎng)絡(luò)的變分自編碼器,將文本向量表示生成為偽造嵌入向量表示;文本分類模塊使用多層多通道卷積神經(jīng)網(wǎng)絡(luò)針對(duì)文本向量表示進(jìn)行特征提取,后接全連接層,通過(guò)Softmax函數(shù)輸出該商品標(biāo)題文本屬于每一種類別的概率矩陣。
設(shè)定經(jīng)過(guò)文本嵌入模塊之后的真實(shí)樣本的嵌入表示為X={x1,x2,…,xn},使用變分生成模塊生成的偽造嵌入向量表示為X'={x'1,x'2,…,x'n},真實(shí)的商品標(biāo)題文本標(biāo)簽序列為Y={y1,y2,…,yn},通 過(guò) 模 型 預(yù) 測(cè) 的 標(biāo) 簽 序 列 為Y'={y'1,y'2,…,y'n}。優(yōu)化方法通過(guò)雙損失函數(shù)進(jìn)行聯(lián)合訓(xùn)練,其中一個(gè)損失函數(shù)用來(lái)衡量模型是否能夠準(zhǔn)確預(yù)測(cè)樣本類別的分類損失,如圖中的Classification Loss所示;另一個(gè)損失函數(shù)是用來(lái)衡量變分自編碼器生成偽造樣本真實(shí)性的變分自編碼器損失,包括真實(shí)樣本和生成數(shù)據(jù)的重建損失以及變分自編碼器本身衡量后驗(yàn)分布同高斯分布相似性的KL損失,如圖中的Reconstruction Loss所示,其損失函數(shù)可以表示為:
其中μ表示雙損失函數(shù)所占權(quán)重的權(quán)重系數(shù),LOSSVAE為上文中提到的變分自編碼器損失。
本研究使用了浪潮集團(tuán)有限公司提供的電商平臺(tái)商品標(biāo)題分類數(shù)據(jù)集[14]進(jìn)行實(shí)驗(yàn),共有50萬(wàn)條商品標(biāo)題文本數(shù)據(jù)及標(biāo)簽,分為30個(gè)一級(jí)類別,192個(gè)二級(jí)類別和1258個(gè)三級(jí)類別。實(shí)驗(yàn)中按照類內(nèi)隨機(jī)劃分的機(jī)制,將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集樣本35萬(wàn)條,占樣本總數(shù)的70%,測(cè)試集樣本15萬(wàn)條,占樣本總數(shù)的30%。
對(duì)于模型中的參數(shù)設(shè)置,其中部分參數(shù)因?yàn)閷?shí)驗(yàn)環(huán)境有限,依照最低要求對(duì)參數(shù)進(jìn)行設(shè)置,例如每批次數(shù)量(batchsize)以及優(yōu)化器,部分參數(shù)通過(guò)對(duì)數(shù)據(jù)集進(jìn)行分析決定,實(shí)驗(yàn)具體參數(shù)如表1所示。在評(píng)價(jià)指標(biāo)方面,采用了準(zhǔn)確率、召回率和F1測(cè)量值對(duì)模型分類能力進(jìn)行分析。
實(shí)驗(yàn)對(duì)商品標(biāo)題文本數(shù)據(jù)的三級(jí)類別進(jìn)行了分類預(yù)測(cè)。此外,為了驗(yàn)證模型的有效性,本文還與兩種短文本分類的基線模型性能進(jìn)行了實(shí)驗(yàn)對(duì)比,分別為:
(1)CNN[15]:Joao等人首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于自然語(yǔ)言文本分類工作。實(shí)驗(yàn)中對(duì)引文中提出的模型進(jìn)行復(fù)現(xiàn),使用維度為(3,4,5)的三卷積核及512通道雙層卷積神經(jīng)網(wǎng)絡(luò),對(duì)詞嵌入后的文本數(shù)據(jù)進(jìn)行特征提取,后接最大池化層進(jìn)行關(guān)鍵特征選擇,最終使用Softmax函數(shù)輸出類別概率。
(2)BGRU+attention[16]:Xie等人使用循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制提升短文本分類性能,即對(duì)映射后的文本數(shù)據(jù)使用一個(gè)雙向門控循環(huán)網(wǎng)絡(luò)進(jìn)行特征提取,并使用attention機(jī)制對(duì)特征進(jìn)行增強(qiáng)。
不同算法對(duì)于三級(jí)商品類別分類結(jié)果如表2所示。
表1 實(shí)驗(yàn)參數(shù)設(shè)置
表2 實(shí)驗(yàn)參數(shù)設(shè)置
從表2中可以看出,基于變分自編碼器的商品標(biāo)題文本分類模型對(duì)三級(jí)商品類別的分類精度、召回率和F1值分別能夠達(dá)到83.93%、47.1%、49%,均高于實(shí)驗(yàn)中其他2種基線模型。通過(guò)實(shí)驗(yàn)數(shù)據(jù)可以看出,添加了變分自編碼器結(jié)構(gòu)的模型精度均高于原模型精度,其中使用了變分自編碼器的CNN+VAE模型相對(duì)于原始CNN模型在召回率(Recall)上有較為明顯的提升,佐證了提出的通過(guò)變分自編碼器對(duì)真實(shí)文本數(shù)據(jù)的重構(gòu),可以對(duì)樣本數(shù)量較少的類別進(jìn)行樣本空間補(bǔ)全,以彌補(bǔ)樣本不均衡問(wèn)題。另外,實(shí)驗(yàn)中發(fā)現(xiàn)使用詞嵌入的卷積神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率超過(guò)了BGRU+attention模型準(zhǔn)確率,由此可見,在不遵循語(yǔ)法結(jié)構(gòu)的短文本分類中,卷積神經(jīng)網(wǎng)絡(luò)相對(duì)于循環(huán)神經(jīng)網(wǎng)絡(luò)更有優(yōu)勢(shì)。
針對(duì)商品文本分類任務(wù)中因?yàn)閿?shù)據(jù)集樣本不均衡而存在的局限性,本文提出了一種基于變分自編碼器的商品標(biāo)題文本分類模型。首先對(duì)當(dāng)前模型中存在的問(wèn)題進(jìn)行了概述,其次對(duì)變分自編碼器相關(guān)算法進(jìn)行了介紹,提出了一種用于彌補(bǔ)樣本不均衡問(wèn)題的基于變分自編碼器的分類模型。
通過(guò)在電商平臺(tái)商品標(biāo)題分類數(shù)據(jù)集的實(shí)驗(yàn)中發(fā)現(xiàn),使用基于變分自編碼器的分類算法能夠在準(zhǔn)確度和召回率上進(jìn)行較大提升,證明了提出的算法可以針對(duì)數(shù)據(jù)集樣本不均衡問(wèn)題進(jìn)行有效提升,從而取得更好的預(yù)測(cè)效果。
由于本研究受到研究條件所限,只使用了最基本的嵌入模型,近期有很多研究者提出了更加新穎的中文文本嵌入方式以及預(yù)訓(xùn)練模型的嵌入方式,在未來(lái)的研究中,我們準(zhǔn)備嘗試通過(guò)試驗(yàn)加入更加豐富的嵌入模式,提出更為有效的分類算法。