許秀霓
(廣東電網(wǎng)有限責(zé)任公司, 廣東,廣州 510030)
檔案是指單位及個(gè)人在進(jìn)行相關(guān)業(yè)務(wù)的處理時(shí),所產(chǎn)生的一級(jí)來(lái)源文件[1]。在計(jì)算機(jī)誕生以前,檔案主要以實(shí)體形式存在,不僅檔案難以管理,利用率也非常低[2]。隨著電子信息化的發(fā)展,如今的檔案大多以電子信息形式存在。電子檔案提升了檔案管理的效率,增加了檔案的流通性[3]。但是在電子檔案實(shí)際應(yīng)用過(guò)程中,系統(tǒng)每天都會(huì)存入大量的數(shù)據(jù),對(duì)于檔案內(nèi)容的檢索就顯得非常關(guān)鍵[4]。文本摘要技術(shù)是近些年較為流行的一種技術(shù)檢索技術(shù),可以將大量的文本信息快速地生成精準(zhǔn)的文本摘要。為了能夠使檔案管理的效率有效提升,并能方便檔案管理工作者能夠有效地檢索到目標(biāo)檔案,本次研究應(yīng)用了二分類算法對(duì)關(guān)鍵詞分類模型進(jìn)行構(gòu)建,并與平滑方法相結(jié)合,旨在為管理工作人員提供通順可讀的電子檔案文摘。
在選用訓(xùn)練語(yǔ)料時(shí),需要確保語(yǔ)料主題是否與關(guān)鍵詞保持一致。本次研究在進(jìn)行模型構(gòu)建時(shí)的語(yǔ)料全部來(lái)源于csdn博客原文,并將博客中抽取的詞語(yǔ)標(biāo)記成關(guān)鍵詞。在清洗訓(xùn)練語(yǔ)料時(shí),首先要清洗掉如字符亂碼之類的噪音數(shù)據(jù),再對(duì)語(yǔ)料進(jìn)行統(tǒng)計(jì)詞頻、分詞等[5]。為了能夠保證后面運(yùn)算的準(zhǔn)確性,還應(yīng)進(jìn)行去停用詞處理,因此便能得到可用的詞粒度訓(xùn)練語(yǔ)料,增加了詞向量構(gòu)建的準(zhǔn)確性。訓(xùn)練數(shù)據(jù)具體的清洗步驟,如圖1所示。
圖1 訓(xùn)練數(shù)據(jù)具體的清洗步驟
在本次研究中,主要會(huì)考慮到主題與頻率的影響,同時(shí)應(yīng)用有監(jiān)督的學(xué)習(xí)方法進(jìn)行模型構(gòu)建和關(guān)鍵詞提取,構(gòu)建該模式首先需要對(duì)詞語(yǔ)向量模式進(jìn)行構(gòu)建。本次研究在進(jìn)行詞向量構(gòu)建時(shí),綜合了主體模型與詞頻的詞向量輸出,將4個(gè)算法word2vec、LSA、Textrank、tf-idf的輸出作為詞向量,同時(shí)對(duì)創(chuàng)建后的原始特征進(jìn)行降維處理,以避免發(fā)生特征間的共線性情況,使運(yùn)算復(fù)雜度有效降低。其中,word2vec、LSA為主題詞向量的表現(xiàn),Textrank、tf-idf為詞頻詞向量的表現(xiàn),將主題與詞頻進(jìn)行有效結(jié)合,形成訓(xùn)練所用詞向量,能夠有效提升模型的表現(xiàn)能力。為了能夠得到用于進(jìn)行二分類模型的訓(xùn)練詞向量,需要采用分類算法對(duì)模型進(jìn)行優(yōu)化,在當(dāng)前詞向量特征表現(xiàn)中,選取模型能夠體現(xiàn)表現(xiàn)力的特征,剔除相對(duì)于模型而言不重要的特征,以使特征維度有效降低。
Filter方法為有效的過(guò)濾法,該方法通過(guò)具體指標(biāo)對(duì)閾值進(jìn)行設(shè)定,從而進(jìn)行閾值特征的過(guò)濾。該方法可以用來(lái)檢驗(yàn)因變量目標(biāo)值與自變量特征之間的特征值關(guān)系。設(shè)x為自變量,y為因變量,構(gòu)建統(tǒng)計(jì)量如式(1),
(1)
式中,統(tǒng)計(jì)量X2用于衡量x=i且y=j的樣本頻數(shù)的期望和觀察值之間的差距,同時(shí)也是用來(lái)衡量目標(biāo)函數(shù)和特征函數(shù)之間的相關(guān)性。再應(yīng)用Embedded方法有效結(jié)合特征選取與模型訓(xùn)練工作,通過(guò)降維處理降低訓(xùn)練特征維度,這里主要應(yīng)用了LDA降維方法,其優(yōu)化方式如式(2),
(2)
(3)
應(yīng)用拉格朗日乘子法解決優(yōu)化中的凸優(yōu)化問題,具體函數(shù)如式(4),
ξ(w,λ)=wTSbw-λ(wTSww-c)
(4)
再對(duì)w求偏導(dǎo),設(shè)極值為0,如式(5)、式(6),
(4)
(5)
圖2 詞向量構(gòu)建過(guò)程
詞向量構(gòu)建成功后,就能夠構(gòu)建二分類模型進(jìn)行詞向量分類處理。本次研究設(shè)計(jì)主要采用了GBDT、隨機(jī)森林、SVM、logistic regression四類學(xué)習(xí)算法,對(duì)二分類模型進(jìn)行構(gòu)建,根據(jù)模型參數(shù)分類效果進(jìn)行詞向量參數(shù)反饋,以確定最優(yōu)分類算法。首先,構(gòu)建出四類學(xué)習(xí)算法的模型,并進(jìn)行模型參數(shù)優(yōu)化,確保每種算法均在最優(yōu)環(huán)境之下;其次,在相同數(shù)據(jù)環(huán)境、不同特征維度下對(duì)比各類算法的訓(xùn)練效果,包括學(xué)習(xí)預(yù)測(cè)、AUC值、n值、查全率、預(yù)測(cè)查準(zhǔn)率、存儲(chǔ)空間、時(shí)間消耗。綜合分析后選取最佳分類模型用于系統(tǒng)模塊的實(shí)現(xiàn)。分類算法在學(xué)習(xí)過(guò)程中的步驟,如圖3所示。
圖3 分類算法在學(xué)習(xí)過(guò)程中的步驟
接著評(píng)價(jià)模型分類結(jié)果,將指標(biāo)好壞程度反饋到詞向量的構(gòu)建過(guò)程中,以便構(gòu)建時(shí)能夠及時(shí)調(diào)整特征維度,判斷各個(gè)算法中詞向量的分類準(zhǔn)確程度、時(shí)間與空間的占用率,最后找出最優(yōu)分類模式。本次研究采用多指標(biāo)評(píng)價(jià)模式評(píng)價(jià)模型,以便對(duì)后面的數(shù)據(jù)、業(yè)務(wù)需求提供依據(jù)。評(píng)價(jià)具體表示方法包括將正例預(yù)測(cè)成正例(TT)、將正例預(yù)測(cè)成負(fù)例(TF)、將負(fù)例預(yù)測(cè)成正例(FT)、將負(fù)例預(yù)測(cè)成負(fù)例(FF)。
查準(zhǔn)率也就是準(zhǔn)確率,主要是衡量模型預(yù)測(cè)結(jié)果的準(zhǔn)確程度,表示預(yù)測(cè)結(jié)果中的正例樣本中的真正正例數(shù)量,表示方式如式(6):
(6)
查全率也就是召回率,主要是表示預(yù)測(cè)樣本中正例被正確預(yù)測(cè)的比例,表示方式如式(7):
(7)
查全率與查準(zhǔn)率的調(diào)和平均值表示為F1,F(xiàn)1值是一種模型預(yù)測(cè)相對(duì)均衡的評(píng)價(jià)方式,如式(8):
(8)
AUC(Area Under Cover)指標(biāo)主要是用于ROC函數(shù)下方面積的衡量。其中,ROC函數(shù)是將模型進(jìn)行不斷變化,并將數(shù)據(jù)預(yù)測(cè)為正值的閾值,再將預(yù)測(cè)結(jié)果繪制成一條曲線。通過(guò)以上著重考察的評(píng)價(jià)指標(biāo),可以得出一個(gè)分類模型最好的評(píng)價(jià),最終確定適合于本次研究的分類算法。
由于二分類算法最終生成的關(guān)鍵詞需要對(duì)關(guān)鍵句進(jìn)行提取,本次研究采用的方法為遍歷文章中的所有句子,記錄包含關(guān)鍵詞的句子與關(guān)鍵詞數(shù)量,最后根據(jù)關(guān)鍵詞數(shù)量進(jìn)行排序。設(shè)摘要顆粒度為k,關(guān)鍵句子為topk,對(duì)抽取后的關(guān)鍵句進(jìn)行平滑化處理,以生成連續(xù)可讀的關(guān)鍵句。同時(shí)在文摘中加入關(guān)鍵句前后的n個(gè)句子,其中n值受到摘要規(guī)模的影響,屬于可變參數(shù)。摘要的生成需要通過(guò)人工判斷,在判斷過(guò)程中調(diào)整n值,直到最終生成最優(yōu)摘要效果。
本次研究的訓(xùn)練數(shù)據(jù)來(lái)源于CSDN訓(xùn)練集,其中包括1.5萬(wàn)篇語(yǔ)料,數(shù)據(jù)集大小為4.4G。分別構(gòu)建了50、100、150、200維度作為特征長(zhǎng)度的選取,固定word2vec特征長(zhǎng)度為50,LSA特征長(zhǎng)度為10,再應(yīng)用分類算法分類詞語(yǔ)。在每一次訓(xùn)練測(cè)試中均采用同一臺(tái)計(jì)算機(jī)以及相同的數(shù)據(jù)集。訓(xùn)練測(cè)試結(jié)果如圖4所示。
(b) 空間隨維度的變化圖
(c) 準(zhǔn)確率隨維度的變化圖
(d) F1值隨維度的變化圖
(e) AUC值隨維度的變化圖
(f) 準(zhǔn)確率隨維度的變化圖-以10為步長(zhǎng)
(g) F1值隨維度的變化圖-以10為步長(zhǎng)
(h) AUC值隨維度的變化圖-以10為步長(zhǎng)圖4 訓(xùn)練測(cè)試結(jié)果
由圖4(a)~圖4(e)可知,各個(gè)算法在50、100、150維度時(shí),AUC值、F1值與分類準(zhǔn)確率均呈現(xiàn)上升趨勢(shì)。但是在200維度時(shí),各測(cè)試值均呈現(xiàn)下降趨勢(shì),主要是維度提升后造成了模型的過(guò)度擬合。所以可以判斷出Textrank與tf-idf算法的最優(yōu)特征維度在150~200之間。本次測(cè)試將維度間隔調(diào)整至10進(jìn)行迭代計(jì)算,結(jié)果如圖4(f)~圖4(e)所示。由圖4可知SVM算法最為穩(wěn)健,AUC值、F1值與分類準(zhǔn)確率均保持相對(duì)較高,其他算法則相對(duì)較差,表現(xiàn)不如SVM,且具有較高的運(yùn)算復(fù)雜度。因此,本次研究基于二分類模型選擇的組合特征長(zhǎng)度為180維度,應(yīng)用SVM作為模型分類算。
在前文中構(gòu)建的二分類模型在被調(diào)整到參數(shù)最優(yōu)時(shí),能夠準(zhǔn)確地提取關(guān)鍵詞。所以本次研究將重點(diǎn)測(cè)試基于關(guān)鍵詞的關(guān)鍵句提取能力,并將測(cè)試結(jié)果與傳統(tǒng)算法進(jìn)行比較。測(cè)試語(yǔ)料采用LCSTS集合中的數(shù)據(jù)源,LCSTS數(shù)據(jù)集中含有約200萬(wàn)個(gè)中短文本,同時(shí)提供了人為標(biāo)準(zhǔn)的摘要,該數(shù)據(jù)集很符合本次研究的測(cè)試工作。為了測(cè)試所設(shè)計(jì)的摘要算法的優(yōu)越性,本次研究引入傳統(tǒng)的Textrank、tf-idf算法,將這兩類算法使用同樣的評(píng)判標(biāo)準(zhǔn)與設(shè)計(jì)算法進(jìn)行對(duì)比。
本次研究在進(jìn)行測(cè)試時(shí),主要是給出了人工標(biāo)注的測(cè)試數(shù)據(jù)集,以便測(cè)試二分類模型中的摘要算法,并應(yīng)用Edmundson評(píng)分標(biāo)準(zhǔn)進(jìn)行標(biāo)注評(píng)判。Edmundson評(píng)分標(biāo)準(zhǔn)是將目標(biāo)文摘與算法生成文摘的共同句子數(shù)進(jìn)行對(duì)比,根據(jù)對(duì)比結(jié)果給出評(píng)分。Edmundson具體評(píng)分的方法是先拆分句子,主要由標(biāo)點(diǎn)符號(hào)來(lái)進(jìn)行拆分。在將句子抽取后,Edmundson可以被定義為式(10),
(10)
式中,|T|表示目標(biāo)文摘中句子總數(shù),|S|表示匹配上的句子總數(shù)?;贓dmundson評(píng)分標(biāo)準(zhǔn),本次研究綜合考慮了算法對(duì)系統(tǒng)資源的占用情況,對(duì)算法進(jìn)行了客觀評(píng)價(jià),以判斷本次研究能否達(dá)到設(shè)計(jì)要求。
本次研究在LCSTS集合下進(jìn)行了10次實(shí)驗(yàn),每次實(shí)驗(yàn)均隨機(jī)抽取LCSTS集合中的10 000條數(shù)據(jù),用以對(duì)二分類模型、Textrank、tf-idf進(jìn)行評(píng)價(jià),最后通過(guò)10次實(shí)驗(yàn)結(jié)果綜合評(píng)價(jià)各個(gè)算法的效果。3種不同算法在10次實(shí)驗(yàn)中的平均Edmundson值關(guān)系,如圖5所示。
由圖5可以看出,本次研究提出的有監(jiān)督的二分類模型提取文摘的質(zhì)量最優(yōu),主要的原因是該算法可以應(yīng)用自身已有的模型進(jìn)行文摘提取,從而節(jié)約了大量的時(shí)間。進(jìn)一步對(duì)3種算法的平均模型的時(shí)間消耗與空間消耗進(jìn)行對(duì)比,結(jié)果如圖6所示。
(b) 三種算法平均模型空間消耗對(duì)比圖6 三種算法的平均模型的時(shí)間消耗與空間消耗對(duì)比
由圖6可知,Textrank和tf-idf算法均為輸入無(wú)監(jiān)督型算法,時(shí)空消耗大部分為訓(xùn)練數(shù)據(jù)的切詞、預(yù)處理和先行詞頻統(tǒng)計(jì)等。而本次研究提出的基于二分類模型為監(jiān)督型學(xué)習(xí)算法,在進(jìn)行模型構(gòu)建時(shí),會(huì)不斷地調(diào)整模型參數(shù),造成大量時(shí)間的耗費(fèi)。因此模型的時(shí)間消耗與空間消耗測(cè)試結(jié)果顯示,2種無(wú)監(jiān)督的學(xué)習(xí)算法時(shí)空消耗均遠(yuǎn)遠(yuǎn)小于二分類模型。但是二分類模型所消耗的時(shí)間基本上花費(fèi)在了算法的訓(xùn)練學(xué)習(xí)中,所以二分類模型只要能夠訓(xùn)練出適合的參數(shù),就能夠準(zhǔn)確地預(yù)測(cè)到新數(shù)據(jù)。因此在后續(xù)預(yù)測(cè)過(guò)程中,有監(jiān)督的二分類模型只需根據(jù)構(gòu)建好的詞向量步驟進(jìn)行預(yù)測(cè)數(shù)據(jù),大大減少了測(cè)試所耗費(fèi)的時(shí)間。從預(yù)測(cè)的效果來(lái)看,本次研究提出的二分類模型將語(yǔ)義特征與數(shù)據(jù)統(tǒng)計(jì)特征進(jìn)行了有機(jī)融合,可以更優(yōu)地評(píng)價(jià)關(guān)鍵詞語(yǔ)的權(quán)重,使得關(guān)鍵詞的獲取更加可靠,并且測(cè)試過(guò)程中受到數(shù)據(jù)影響波動(dòng)非常小,這也是本次設(shè)計(jì)優(yōu)于其他模型的特點(diǎn)。
為了驗(yàn)證本次研究提出的有監(jiān)督二分類模型的有效性,選取了袁桂霞等[6]提出的有監(jiān)督詞袋模型進(jìn)行了算法性能對(duì)比。并通過(guò)平均檢索耗時(shí)(ART)與平均精確度均值(mAP)兩項(xiàng)指標(biāo)對(duì)算法的性能進(jìn)行評(píng)價(jià)。本次測(cè)試的數(shù)據(jù)庫(kù)選取了某新聞平臺(tái)的數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)包括了9項(xiàng)類別,共約17 640個(gè)數(shù)據(jù),如表1所示。
表1 某新聞平臺(tái)的數(shù)據(jù)庫(kù)類別及數(shù)量
此次研究選取了文檔數(shù)據(jù)的前1 000個(gè)樣本作為訓(xùn)練樣本數(shù)據(jù),剩下的960個(gè)樣本作為測(cè)試樣本,并給出了不同碼本尺寸下的2種算法模型的ART與mAP指標(biāo)對(duì)比結(jié)果。測(cè)試結(jié)果如圖7所示。
(b) ART指標(biāo)對(duì)比結(jié)果圖7 兩種算法平均檢索耗時(shí)(ART)與平均精確度均值(mAP)指標(biāo)對(duì)比結(jié)果
由圖7(a)可以看出,在不同的碼本尺寸條件下,二分類模型的檢索精度明顯優(yōu)于有監(jiān)督詞袋模型,主要原因?yàn)槎诸惸P驮谶M(jìn)行模型構(gòu)建時(shí),會(huì)不斷地調(diào)整模型參數(shù),在最優(yōu)化問題求解過(guò)程中不易陷入局部最優(yōu),同時(shí)二分類模型只要能夠訓(xùn)練出適合的參數(shù),就能夠準(zhǔn)確地預(yù)測(cè)到新數(shù)據(jù),提升模型的區(qū)分能力,因此二分類模型的檢索精度指標(biāo)得到提升。由圖7(b)可以看出,二分類模型的檢索時(shí)間同樣明顯優(yōu)于有監(jiān)督詞袋模型,主要是由于二分類模型只需根據(jù)構(gòu)建好的詞向量步驟進(jìn)行預(yù)測(cè)數(shù)據(jù),大大減少了測(cè)試所耗費(fèi)的時(shí)間。
此次研究針對(duì)電子檔案管理方面的內(nèi)容,應(yīng)用了基于二分類模型的優(yōu)化技術(shù)對(duì)提出的電子檔案管理方法進(jìn)行了測(cè)試研究。研究結(jié)果顯示,基于二分類模型選擇的組合特征長(zhǎng)度為180維度,應(yīng)用SVM作為模型分類算;本文提出的有監(jiān)督的二分類模型提取文摘的質(zhì)量最優(yōu);無(wú)監(jiān)督的學(xué)習(xí)算法時(shí)空消耗均遠(yuǎn)遠(yuǎn)小于二分類模型;二分類模型只要能夠訓(xùn)練出適合的參數(shù),就能夠準(zhǔn)確地預(yù)測(cè)到新數(shù)據(jù);并通過(guò)性能測(cè)試得出,在不同的碼本尺寸條件下,二分類模型的檢索精度和檢索耗時(shí)明顯優(yōu)于有監(jiān)督詞袋模型。本次研究提出的二分類模型將語(yǔ)義特征與數(shù)據(jù)統(tǒng)計(jì)特征進(jìn)行了有機(jī)融合,可以更優(yōu)地評(píng)價(jià)關(guān)鍵詞語(yǔ)的權(quán)重,使得關(guān)鍵詞的獲取更加可靠,并且測(cè)試過(guò)程中受到數(shù)據(jù)影響波動(dòng)非常小,這也是本次設(shè)計(jì)優(yōu)于其他模型的特點(diǎn)。