聶黎生
摘? 要: 為了進(jìn)一步提高期刊論文題名信息分類查準(zhǔn)率和查全率,提出一種基于改進(jìn)KPCA與SVM的知網(wǎng)題名信息分類算法。基于中國知網(wǎng)數(shù)據(jù)庫選取《中文核心期刊要目總覽》(2014年版)2017年度31種計(jì)算機(jī)學(xué)科(TP)期刊收錄的13 401篇論文題名作為實(shí)驗(yàn)語料庫,采用改進(jìn)KPCA算法對數(shù)據(jù)進(jìn)行降維和特征提取,將提取的特征數(shù)據(jù)庫作為SVM的輸入進(jìn)行訓(xùn)練和分類。實(shí)驗(yàn)結(jié)果表明,該方法較以往分類算法能夠進(jìn)一步提高期刊論文題名的分類效果。
關(guān)鍵詞: 題名分類; 核主成分分析; 數(shù)據(jù)降維; 特征提取; 數(shù)據(jù)挖掘; 模式識別
中圖分類號: TN919?34; TP301.6? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼: A? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)16?0108?04
隨著學(xué)術(shù)期刊論文數(shù)量的迅速增長,分類檢索作為服務(wù)于數(shù)據(jù)庫,滿足用戶需求的一種服務(wù)愈顯重要。目前國內(nèi)外題名分類占據(jù)了論文檢索主流市場。題名分類是基于預(yù)先建立的分類器,通過計(jì)算機(jī)對給定的未知類別論文集進(jìn)行分類的過程。題名作為一種短文本語言規(guī)范,專業(yè)性強(qiáng),內(nèi)容簡練,能夠高度概括和集中表達(dá)論文核心內(nèi)容,因此可以作為文獻(xiàn)分類的重要依據(jù) [1]。從圖書情報(bào)學(xué)專業(yè)角度看,其分類關(guān)鍵是依據(jù)語言詞表對題名預(yù)處理獲取短文本特征并用特征向量表示,然后與預(yù)先通過訓(xùn)練集建模構(gòu)造的分類器進(jìn)行模式匹配,找出每個特征的所屬分類后返回分類結(jié)果。近年來,文本分類常見的算法有KNN,BPNN,ELM等。這些算法在特征選擇時忽略了特征項(xiàng)的信息增益以及特征項(xiàng)與類別信息的關(guān)聯(lián)程度,導(dǎo)致短文本分類準(zhǔn)確率不高,難以獲得用戶滿意的效果。針對該問題,本研究選取《中國知網(wǎng)》論文數(shù)據(jù)庫部分論文作為研究對象,提出融合改進(jìn)KPCA與SVM的知網(wǎng)題名分類算法,試圖提高分類結(jié)果的準(zhǔn)確率和正確率。該算法首先對收集大量期刊論文題名信息進(jìn)行去噪和格式化預(yù)處理,提取其關(guān)鍵詞和高頻詞歸一化處理后形成特征庫;然后,通過改進(jìn)KPCA算法實(shí)現(xiàn)分類信息最大化為后續(xù)識別分類提供方便;最后,對特征庫基于支持向量機(jī)(SVM)訓(xùn)練,建立分類器進(jìn)而實(shí)現(xiàn)對待分文本分類并輸出分類結(jié)果。
3? 實(shí)驗(yàn)分析與結(jié)論
3.1? 實(shí)驗(yàn)數(shù)據(jù)及過程
實(shí)驗(yàn)依據(jù)中國知網(wǎng)數(shù)據(jù)庫,選取《中文核心期刊要目總覽》(2014年版)2017年度31種計(jì)算機(jī)學(xué)科(TP)期刊收錄的13 401篇論文,其原始分類粒度粗糙,提取語料的題名、關(guān)鍵詞和摘要適合作為研究真實(shí)世界題名分類實(shí)驗(yàn)材料。研究對象主要針對計(jì)算機(jī)領(lǐng)域,選取控制策略、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘等領(lǐng)域論文的題名、關(guān)鍵詞和摘要作為實(shí)驗(yàn)語料。為了降低數(shù)據(jù)不均衡對分類器的負(fù)面影響,提高分類的準(zhǔn)確率,本文將13 401篇論文隨機(jī)分成3份:基礎(chǔ)集、訓(xùn)練集與測試集。基礎(chǔ)集為已知題名類別的集合,用于計(jì)算題名特征與其他論文題名特征的交集數(shù)量;訓(xùn)練集也是已知題名類別的集合,用于構(gòu)建分類器(SVM,BPNN等);測試集主要用于檢驗(yàn)不同分類算法的分類性能。
3.2? 性能評價與分析
為測試本算法的有效性,采用信息檢索和分類體系常用的查準(zhǔn)率Precision(P)、查全率Recall(R)、測試值F?measure(F)評估算法的分類性能。依次采用IMKPCA?SVM,KPCA?BPNN,PCA?SVM三種算法對測試集分類。不同分類算法的Precision,Recall及F?measure值如表1所示。
從表1可以看出,基于IMKPCA?SVM分類方法各評價指標(biāo)值均超過95%,分類精度整體最佳,主要原因在于IMKPCA降維處理后并計(jì)算類別信息度量保留了核心特征,同時采用SVM分類器,避免了BPNN的“維數(shù)災(zāi)”[9]和PCA只能提取線性特征結(jié)構(gòu)的缺陷,最終使分類準(zhǔn)確率顯著提升。為了進(jìn)一步揭示本文算法分類性能,表2列出了各分類算法的細(xì)分指標(biāo)。
從表2的類別細(xì)分結(jié)果可以看出,基于IMKPCA?SVM分類方法在控制策略和數(shù)據(jù)挖掘2個領(lǐng)域中的分類效果較好,其主要原因是控制策略和數(shù)據(jù)挖掘的領(lǐng)域知識較為成熟,通過知網(wǎng)可以獲得質(zhì)量較高的題名特征。但神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)作為風(fēng)靡全球的新興交叉學(xué)科領(lǐng)域,知網(wǎng)收錄研究論文和登錄詞匯相對缺少,且由于本次實(shí)驗(yàn)選取的數(shù)據(jù)規(guī)模有限,并未包含其他領(lǐng)域中的足夠概念,所以從實(shí)驗(yàn)結(jié)果看出這兩個領(lǐng)域的分類性能有所受限。
4? 結(jié)? 語
本文提出一種基于改進(jìn)KPCA降維與SVM分類的題名分類方法,該方法首先采用KPCA算法降維提取高頻詞匯和題名關(guān)鍵詞得到分類結(jié)果的核心特征詞集,并通過優(yōu)化進(jìn)一步去除與分類結(jié)果相關(guān)度極低的特征詞,然后通過SVM模型計(jì)算待分類文本與訓(xùn)練集核心特征的相似度,并將相似度最高的類別分配給待分類文本。實(shí)驗(yàn)結(jié)果表明本文方法能夠進(jìn)一步提高期刊題名的分類效果,為題名分類提供了新的途徑。下一步打算拓展該方法在其他領(lǐng)域進(jìn)行設(shè)計(jì)與驗(yàn)證,增加其通用性應(yīng)用價值。
參考文獻(xiàn)
[1] 李湘東,劉康,丁叢,等.基于知網(wǎng)語義特征擴(kuò)展的題名信息分類[J].圖書館雜志,2017,37(2):11?19.
LI Xiangdong, LIU Kang, DING Cong, et al. Title information classification based on hownet semantics feature extension [J]. Library journal, 2017, 37(2): 11?19.
[2] CHEN J J, ZHAO Z, SUN H, et al. Facial expression recognition based on PCA reconstruction [C]// Proceeding of? 5th International Conference on Computer Science & Education. Hefei: IEEE, 2010: 195?198.
[3] 何新,李大輝,付軍.特征提取算法KPCA的改進(jìn)與設(shè)計(jì)[J].高師理科學(xué)刊,2015,35(6):34?37.
HE Xin, LI Dahui, FU Jun. The improvement and design of KPCA feature extraction algorithm [J]. Journal of science of teachers′college and university, 2015, 35(6): 34?37.
[4] 萬家強(qiáng),王越,劉羽.改進(jìn)KPCA對分類數(shù)據(jù)的特征提取[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(18):4085?4087.
WAN Jiaqiang, WANG Yue, LIU Yu. Improvement of KPCA on feature extraction of classification data [J]. Computer engineering and design, 2010, 31(18): 4085?4087.
[5] 方天紅,賈涵,陳慶虎.Gabor特征和字典學(xué)習(xí)算法在打印文件鑒別中的應(yīng)用[J].電子測量與儀器學(xué)報(bào),2017,31(4):644?650.
FANG Tianhong, JIA Han, CHEN Qinghu. Application of gabor feature and dictionary learning algorithm in printed document identification [J]. Journal of electronic measurement and instrument, 2017, 31(4): 644?650.
[6] YU P S, CHEN S T, CHANG I F. Support vector regression for real?time flood stage forecasting [J]. Journal of hydrology, 2006, 328(3): 704?716.
[7] 馬樂寬,邱瑀,趙越,等.基于改進(jìn)的神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)的小流域日徑流量預(yù)測研究[J].水資源與水工程學(xué)報(bào),2016,27(5):23?27.
MA Lekuan, QIU Yu, ZHAO Yue, et al. Prediction of dailyrunoff in a small watershed based on improved neural networkand support vector machine [J]. Journal of water resources & water engineering, 2016, 27(5): 23?27.
[8] 高超,許翰林.基于支持向量機(jī)的不均衡文本分類方法[J].現(xiàn)代電子技術(shù),2018,41(15):183?186.
GAO Chao, XU Hanlin. Unbalanced text classification method based on support vector machine [J]. Modern electronics technique, 2018, 41(15): 183?186.
[9] 王慧,宋淑蘊(yùn).基于KCPA 提取特征和RVM 的圖像分類[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2017,55(2):357?362.
WANG Hui, SONG Shuyun. Image classification based on KCPA feature extraction and RVM [J]. Journal of Jilin University (Science edition), 2017, 55(2): 357?362.
[10] 劉玉琪.基于隨機(jī)森林算法的人體運(yùn)動模式識別研究[D].北京:北京郵電大學(xué),2018.
LIU Yuqi. Research of human pattern recognition based on random forest algorithm [D]. Beijing: Beijing University of Posts and Telecommunications, 2018.