李程文 宋文廣 譚建平
摘? ?要:傳統(tǒng)的支持向量機(jī)分類模型只有在利用大量已標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練才能獲得較高精度。在實(shí)際應(yīng)用中,多標(biāo)簽數(shù)據(jù)相對于傳統(tǒng)單標(biāo)簽數(shù)據(jù)更具有價值,但多標(biāo)簽數(shù)據(jù)中含有大量冗余數(shù)據(jù),獲取大量多標(biāo)簽數(shù)據(jù)難度非常大。文章提出一種基于遷移學(xué)習(xí)的分類算法,利用目標(biāo)數(shù)據(jù)域和源數(shù)據(jù)域的相關(guān)性,從源數(shù)據(jù)域中選取對分類超平面起關(guān)鍵作用的支持向量和目標(biāo)數(shù)據(jù)域,一起訓(xùn)練分類模型以提高分類精度。
關(guān)鍵詞:多標(biāo)簽;遷移學(xué)習(xí);文本分類;支持向量機(jī)
一般支持向量機(jī)(Support Vector Machine,SVM)要想獲得比較好的分類精度需要滿足兩個需求:(1)利用大量的有標(biāo)簽數(shù)據(jù)訓(xùn)練分類模型。(2)要求測試集和訓(xùn)練集是同分布數(shù)據(jù)[1]。
針對傳統(tǒng)的SVM,需要利用大量的有標(biāo)簽數(shù)據(jù)訓(xùn)練分類模型才能獲得分類精度的問題[2],本文引入遷移學(xué)習(xí),通過選取源域數(shù)據(jù)集中對分類超平面起決定性作用的關(guān)鍵支持向量與目標(biāo)數(shù)據(jù)域數(shù)據(jù)一起進(jìn)行模型訓(xùn)練,并且放寬了對訓(xùn)練集和測試集的要求,以提高分類模型的分類精度[3]。
1? ? 基于Transfer-SVM多標(biāo)簽文本分類算法
1.1? 算法思想
本文MT-SVM的核心思想是:由于對支持向量機(jī)的分類超平面起決定性作用的只有關(guān)鍵的少數(shù)支持向量,所以,假如源數(shù)據(jù)域和目標(biāo)數(shù)據(jù)域相關(guān),則這兩個數(shù)據(jù)域的支持向量機(jī)分類超平面非常接近,因此,決定目標(biāo)數(shù)據(jù)源的分類超平面的支持向量和決定源數(shù)據(jù)域的分類超平面的支持向量非常接近。所以,通過選取源域數(shù)據(jù)集中對分類超平面起決定性作用的關(guān)鍵支持向量與目標(biāo)數(shù)據(jù)域數(shù)據(jù)一起進(jìn)行模型訓(xùn)練以提高分類模型的分類精度是可行的。
1.2? 目標(biāo)函數(shù)構(gòu)造
利用高斯函數(shù)σ(vsi,DTl)評估支持向量與已標(biāo)注目標(biāo)域數(shù)據(jù)vsi的相似度,選取關(guān)鍵支持向量。將相似性評估項(xiàng)加入到支持向量機(jī)的目標(biāo)函數(shù),構(gòu)造算法的目標(biāo)函數(shù),表示如下:
2? ? 實(shí)驗(yàn)
2.1? 數(shù)據(jù)集
化合物毒性預(yù)測(Prediction Toxicity of Compounds,PTC)。本文實(shí)驗(yàn)所用數(shù)據(jù)集為PTC,該數(shù)據(jù)集包含作用在4種不同老鼠身上的417種不同的化合物致癌信息。將數(shù)據(jù)集中存在缺陷的數(shù)據(jù)集(即具有E,EE和IS標(biāo)簽的數(shù)據(jù))移除,最終得到253種化合物實(shí)驗(yàn)的數(shù)據(jù),并為數(shù)據(jù)分配4類標(biāo)簽(即MR,F(xiàn)R,MM,F(xiàn)M)。對于每一類標(biāo)簽的屬性可以標(biāo)記為+1,-1或0,即+1表示沒有產(chǎn)生致癌效果,0表示未被標(biāo)記,-1表示產(chǎn)生了致癌效果。具體數(shù)據(jù)如表1所示,其中,Pos(%)表示每個實(shí)驗(yàn)的積極化合物的平均百分比。
2.2? 試驗(yàn)方法
為了能體現(xiàn)提出的算法的有效性與實(shí)用性,將實(shí)現(xiàn)以下方法進(jìn)行對比。
SVM[4]:傳統(tǒng)的支持向量機(jī)分類算法,實(shí)驗(yàn)在多標(biāo)簽?zāi)繕?biāo)域數(shù)據(jù)比較少的情況下分類性能。
MT-SVM:采用評估方法選擇適合的多標(biāo)簽源數(shù)據(jù)域支持向量,并加入到目標(biāo)數(shù)據(jù)域進(jìn)行分類器訓(xùn)練。
2.3? 實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)中,目標(biāo)領(lǐng)域分訓(xùn)練集與測試集,目標(biāo)領(lǐng)域訓(xùn)練集只選取源領(lǐng)域訓(xùn)練集1%,剩下的為測試集,由于目標(biāo)訓(xùn)練集很少,要保證樣本基本分類正確,Transfer-SVM中參數(shù)在[0.000 001,0.000 01,0.000 1,0.001,0.01,0.1,1,10,100,1 000]中選取??梢钥闯觯舅惴ǖ臏?zhǔn)確率要高于傳統(tǒng)的SVM分類算法。
3? ? 結(jié)語
利用目標(biāo)數(shù)據(jù)域和源數(shù)據(jù)域的相關(guān)性,從源數(shù)據(jù)域中選取對分類超平面起關(guān)鍵作用的支持向量和目標(biāo)數(shù)據(jù)域一起訓(xùn)練分類模型以提高分類精度。因此,Transfer-SVM算法能夠有效地提高分類精度。
[參考文獻(xiàn)]
[1]JIANG S,PANG G,WU M.An improved K-nearest-neighbor algorithm for text categorization[J].Expert Systems with Applications,2012(1):1503-1509.
[2]SEBASTINAI F.Machine learning in automated text categorization[J].Association for Computing Machinery Surveys,2002(1):1-47.
[3]YANG J,YAN R,HAUPTMANN A G.Cross-domain video concept detection using adaptive SVMs[C].Augsburg:the 15th International Conference on Multimedia,2007.
[4]CHIH C C,CHIHJEN L.LIBSVM:a library for support vector machine,2001[EB/OL].(2018-07-15)[2019-05-10].http://www.csie.ntu.edu.tw/~cjlin/libsvm.