中圖分類號:TP391.1 文獻標(biāo)識碼:A 文章編號:2096-4706(2025)08-0157-05
Abstract: In library service work, when facing local characteristic literature with a smalldata volume,library managers need to spend a great deal of time and efort manually organizing such local characteristic literature.In order to achieve automatedpre-clasificatinofcharacteristicliterature,thispaperproposestheCGBmodel,whichisanutomatedclasiiation modelforliteraturewithasmalldatavolume.TakingthecharacteristicliteraturedatasetofGuizhouProvinceas theexperimental object,the model conducts pre-training through GloVeand BERT,fuses the generated vectors,extracts andrepresents features throughTextC,andlasifsharactersticitratureofferentdatasales.Experimentalsultsidicatethatteaacy of the model with fused word vectors isat least 4 % higherthanthatof thebenchmark model.
Keywords: local characteristic literature; text classification; text vectorization
0 引言
在圖書館服務(wù)工作中,為展現(xiàn)地方特色建立地方文獻庫,圖書館管理人員需要將具有地方特色的文獻從海量文獻中挑選出來,與中圖分類法不同,地方特色文獻融合了多種類型文獻,如:政治、科技、歷史、小說等,卻又與地方特色密切相關(guān),將此類文獻進行歸納整理需要耗費大量的時間與精力。通過特征提取對文獻[1-3]進行分類,能夠有效簡化圖書館工作人員的工作內(nèi)容。相較于大數(shù)據(jù)量動輒上萬條的各種文獻,地方特色文獻具有小數(shù)據(jù)量的特點,以中圖分類法為基礎(chǔ),每一個領(lǐng)域只有幾百到幾千條記錄,這種數(shù)據(jù)量較小的情況使得傳統(tǒng)的機器學(xué)習(xí)模型和分析方法在處理時可能不夠有效,因此,在面對小數(shù)據(jù)量的文獻分類時,仍然采用圖書館管理人員手工選擇和提取特征。
在文獻分類任務(wù)中,文獻信息的相關(guān)性識別具有重要意義,語義信息的精確表達能夠為文獻的相關(guān)性識別提供可靠保障。目前,語義信息的精確表達主要采用大量文本數(shù)據(jù)進行詞向量訓(xùn)練[4-5],但各個地區(qū)在建立地方特色文獻庫的過程中,相關(guān)文獻的公開發(fā)表量并不大,在該領(lǐng)域中僅依靠語義信息實現(xiàn)文獻相關(guān)度識別,會由于語義信息模糊造成文獻相關(guān)性識別的準(zhǔn)確率較低,現(xiàn)階段,面向小數(shù)據(jù)量的文獻分類任務(wù)仍然是通過人工完成,加大了員工工作量。為解決這一問題,本文提出了對小數(shù)據(jù)量的文獻進行自動化預(yù)分類的方法,以實現(xiàn)文獻的相關(guān)性識別及精準(zhǔn)推薦。
為了滿足小數(shù)據(jù)量的地方特色文獻分類這一現(xiàn)實需求,本文采用貴州省部分特色文獻作為實驗數(shù)據(jù),通過GloVe與BERT模型生成融合詞向量后,結(jié)合TextCNN的深度學(xué)習(xí)方法,提出小數(shù)據(jù)量的文獻分類模型融合詞向量(ClassificationModelwithSmallDataVolumeBasedonBERT-GloVe),并且通過實驗驗證本文所提模型的有效性。
1 研究背景
為了實現(xiàn)文獻自動分類,減輕人工負擔(dān),國內(nèi)外大量研究人員對此進行研究,張雨卉[基于《中圖法》分別從XMC和HTC對文獻進行分類;呂琦等綜合參考文獻和文本內(nèi)容信息,構(gòu)建了引文詞嵌入模型,對期刊文獻進行學(xué)科分類;Sajid等[根據(jù)粒度主題分類的層次結(jié)構(gòu)進行索引,通過可用元數(shù)據(jù)上進行多標(biāo)簽分類。
與大數(shù)據(jù)量的文獻分類不同,小數(shù)據(jù)量文獻具有數(shù)據(jù)特征少的特點,在有限的特征屬性中挖掘潛在內(nèi)容,可以有效增加模型的分類準(zhǔn)確率,因此,文獻數(shù)據(jù)中的文本信息需要加以利用,由于計算機無法對中文文本數(shù)據(jù)直接進行處理[9-10],衍生了大量的自然語言處理技術(shù)。易明等[1利用GloVe對在線研討文本進行分類訓(xùn)練,結(jié)合BiLSTM層提取語義特征后實現(xiàn)最終分類;周燕[12]為了解決近義詞、多義詞的表征困難,采用GloVe模型表示詞特征,充分利用全局信息和共現(xiàn)窗口的優(yōu)勢對文本進行向量化。針對一詞多義問題,BERT模型由Devlin等[13]于2018年提出,該模型通過MASK(Masked-LM)任務(wù)以及NSP(NextSentencePrediction)任務(wù),實現(xiàn)文本向量化。Li等[14]基于BERT提出了一種用句子序列代替詞級序列的長文本相似度計算方法,解決了與長文本語義相關(guān)的應(yīng)用的實際問題;陸佳麗[15]提出以Bert-TextCNN模型為基礎(chǔ)且同時考慮標(biāo)題、正文和正則判斷的多標(biāo)簽分類方法,該方法在多標(biāo)簽分類任務(wù)中效果提升明顯;Aziz等[利用BERT的上下文優(yōu)勢進行細微的語言理解,并采用雙仿射注意力機制來精確描述單詞關(guān)系,加強了其文本理解能力,并且能夠遷移到其他語料中。綜上所述,目前有大量學(xué)者對文本向量化進行研究,但面向中文文本向量化任務(wù)中仍然存在詞向量表義不足的問題。
針對小語料庫的文獻分類問題,由于文獻題目具有:專業(yè)性強;文本短,形成的上下文語境較??;文本數(shù)據(jù)小,訓(xùn)練數(shù)據(jù)小等特點。相較于其他文本向量化模型,GloVe模型在投入小量數(shù)據(jù)的短文本語料庫的情況下,更能夠充分利用語料庫中的信息;BERT通過其深層的Transformer架構(gòu),能夠動態(tài)地理解上下文,從而提高了對復(fù)雜語言結(jié)構(gòu)的建模能力,使得詞向量的表達更加完善。GloVe與BERT互相補充,相互完善,因此,本文提出融合GloVe模型與BERT模型地詞向量表達模型,實現(xiàn)特征提取與表達后,對多類型特色文獻進行有效分類。
2 模型設(shè)計
為了實現(xiàn)小數(shù)據(jù)量的文獻精準(zhǔn)分類,本文以知網(wǎng)爬取的貴州省特色文獻作為實驗數(shù)據(jù),利用GloVe和BERT預(yù)訓(xùn)練生成的融合字向量矩陣[17],融合向量矩陣經(jīng)過TextCNN進行特征提取后,通過全連接層得到最終的分類結(jié)果,本文使用準(zhǔn)確率、召回率等指標(biāo)對模型的有效性進行了充分評估。模型的整體結(jié)構(gòu)如圖1所示。
2.1 詞向量轉(zhuǎn)化模塊
文本卷積神經(jīng)網(wǎng)絡(luò)無法識別字符,所以需要實現(xiàn)文本數(shù)據(jù)向量化。本文將原始數(shù)據(jù)經(jīng)過清洗和分詞任務(wù)后,通過基準(zhǔn)模型生成字向量矩陣,經(jīng)過融合層后得到該句子的融合向量矩陣。
在算法1中描述了基于GloVe與BERT的詞向量融合方法:
算法1.融合詞向量輸入:初始數(shù)據(jù)集輸出:短文本的向量矩陣初始化GloVe矩陣 X ,BERT矩陣 Y
1.FOR每條短文本DO
2.FOR每個字符DO
3. IF 字符不為空
4. 獲取字符的GloVe詞向量 x
5. 獲取字符的BERT詞向量 y
6. 擴展 x 維度到與 y 維度相同
7. 將 x 連接在 X 后
8. 將 y 連接在Y后
9. ELSE
10. X 與Y進行加權(quán)融合得到融合詞向量矩陣
11. END IF
12. END FOR
13.返回融合詞向量矩陣
14.ENDFOR
2.2特征提取分類模塊
在文本向量化表示中,為優(yōu)化數(shù)據(jù)結(jié)構(gòu),采用特征提取進行降維處理,本文使用文本卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)對融合后的向量矩陣進行特征提取,以有效降低維度并提升模型性能。
在文本卷積神經(jīng)網(wǎng)絡(luò)中,卷積核通過滑動窗口對字符序列進行分析,以提取和組合文本特征,根據(jù)滑動窗口大小的不同,獲取不同層次的語義信息。每個卷積核的寬度與字的維度相同,使得每次卷積操作都基于一個完整的字或詞語。此外,每次卷積操作會加上一個偏置項,以增強模型的表達能力。為獲取文本的特征值,采用最大池化方法,從特征向量中篩選出最大的特征值,從而使得模型提取出有效特征,提升分類任務(wù)的準(zhǔn)確性。
在全連接層中,本文選取Sigmoid函數(shù)作為激活函數(shù)以實現(xiàn)二分類。若 ,則類別為正,若
,那么為負。
3 實驗分析
3.1 數(shù)據(jù)集
本實驗以貴州特色文獻庫中的文獻分類為例,采用貴州省特色文獻為原始數(shù)據(jù)集共10632條,人工為其進行分類,其中以“貴州民族”為標(biāo)簽的文獻共有2182條;以“貴州歷史”為標(biāo)簽的文獻共有2068條;標(biāo)簽為“貴州黨政”的文獻共有590條;標(biāo)簽為“貴州技術(shù)”的數(shù)據(jù)共有580條。將四組數(shù)據(jù)根據(jù)數(shù)據(jù)量組為“民族/歷史”的數(shù)據(jù)集1與“黨政/技術(shù)”的數(shù)據(jù)集2,分別由4250以及1170條數(shù)據(jù)組成,總數(shù)據(jù)共有5420條,數(shù)據(jù)集構(gòu)成如表1所示,符合小數(shù)據(jù)量文獻的標(biāo)準(zhǔn),通過對該數(shù)據(jù)集的分類效果,可以證實該模型豐富小數(shù)據(jù)量文本語義的有效性。
進行文本清洗后,按照字粒度進行分詞。選取每個數(shù)據(jù)集中的 20 % 為評估集,每個數(shù)據(jù)集中的剩余數(shù)據(jù)為訓(xùn)練集,數(shù)據(jù)集組成情況如表1所示。
3.2 評價指標(biāo)
如表2所示,本文實驗的評估指標(biāo)包括:1)準(zhǔn)確率(Accuracy):正確分類與數(shù)據(jù)總數(shù)之比。2)查全率(Recall):正確預(yù)測正類與實際正類樣本數(shù)之比。3)查準(zhǔn)率(Precision):正確預(yù)測正類與所有預(yù)測正類的樣本數(shù)之比。4)F1值(F1),表示查全率和查準(zhǔn)率的調(diào)和平均值。
可以將各類預(yù)測結(jié)果定義為:1)TP預(yù)測為歷史且實際類別也為歷史的結(jié)果。2)FN預(yù)測為民族但實際類別為歷史的結(jié)果。3)FP預(yù)測為歷史但實際類別為民族的結(jié)果。4)TN預(yù)測為民族且實際類別也為民族的結(jié)果。
根據(jù)這四個指標(biāo),可以進一步計算模型的評估指標(biāo):
3.3 參數(shù)設(shè)置
本文使用300維度的GloVe詞向量以滿足詞向量的準(zhǔn)確描述。采用兩層卷積結(jié)構(gòu)減少計算復(fù)雜度。為了分析詞語關(guān)系及主謂賓關(guān)系,卷積核大小設(shè)為2,以捕捉該長度的N-grams特征。具體參數(shù)如表3所示。
3.4 結(jié)果分析
為了驗證算法的有效性,本文使用不同大小的數(shù)據(jù)集進行實驗。對比基線模型:GloVe-TextCNN及BERT-TextCNN,實驗結(jié)果如表4所示。
由實驗得出如下結(jié)論:
1)通過表4以及圖2可發(fā)現(xiàn),較小數(shù)據(jù)量時不同模型效果差異度要大于較大數(shù)據(jù)量時的模型效果。這是由于在小數(shù)據(jù)量的語料庫中,依賴數(shù)據(jù)量的BERT模型的訓(xùn)練效果較差,而在GloVe與融合詞向量模型的訓(xùn)練過程中,對數(shù)據(jù)量的依賴性較小。
2)融合詞向量模型的表現(xiàn)優(yōu)于單一模型。在1170條和4250條數(shù)據(jù)組成的語料庫中,融合詞向量模型的準(zhǔn)確率均高于單一模型。在數(shù)據(jù)集1中,融合詞向量模型比BERT提升了 8 . 0 4 % ,比GloVe高了4 . 4 5 % ;在數(shù)據(jù)集2中,本文提出的分類方法相比基準(zhǔn)模型的精確率分別提升了 3 . 2 9 % 及 2 . 0 2 % 。
3)隨著數(shù)據(jù)量的增加,融合詞向量模型準(zhǔn)確率的提升速率低于基準(zhǔn)模型。這表明在增加數(shù)據(jù)量的情況下,BERT模型對性能的提升更為顯著,同時GloVe也表現(xiàn)出了一定的提升。在數(shù)據(jù)量提升時,BERT詞向量模型的準(zhǔn)確率有了明顯的大幅度提升,然而在特色文獻數(shù)據(jù)庫中,每個類別的數(shù)據(jù)量大多在1 0 0 ~ 1 0 0 0 這個小數(shù)據(jù)量范圍,因此在小數(shù)據(jù)量時有更好分類效果的融合詞向量能夠更好地應(yīng)用在特色文獻分類這一應(yīng)用場景。
4結(jié)論
本文提出一種針對小數(shù)據(jù)量的文本分類方法,通過結(jié)合GloVe和BERT的優(yōu)點優(yōu)化文本信息的表達,采用卷積神經(jīng)網(wǎng)絡(luò)可以有效提取文本中的局部特征,適合于處理短文本或句子,增強分類模型的性能。
本文詳盡闡述了融合詞向量模型,并通過實驗,模型在不同數(shù)據(jù)集上的表現(xiàn)得到了充分評估,為其有效性提供了支持。這種融合方法顯示了跨模型協(xié)同的潛力,尤其是在處理小規(guī)模數(shù)據(jù)集時,為后續(xù)研究提供了新的思路。在未來的研究中,可以引入注意力機制來加權(quán)融合不同來源的詞向量,可能會進一步提升模型的表達能力和性能。
參考文獻:
[1] ZHU B,PAN W. Chinese Text Classification MethodBased on Sentence Information Enhancement and Feature Fusion[J/OL].Heliyon,2024,10(17):e36861[2024-09-25].https://doi.org/10.1016/j.heliyon.2024.e36861.
[2] LI J,TANG C,LEI Z,et al. KRA: K-NearestNeighbor Retrieval Augmented Model for Text Classification [J/OL].Electronics,2024,13(16):3237[2024-09-25].https://doi.org/10.3390/electronics13163237.
[3] SARIN G, MUKUND P K M. Text Classification UsingDeep Learning Techniques: A Bibliometric Analysis and FutureResearch Directions [J].Benchmarking: An Intermational Journal,2024,31(8):2743-2766.
[4]王欽晨,段利國,王君山,等.基于BERT字句向量與差異注意力的短文本語義匹配策略[J].計算機工程與科學(xué),2024,46(7):1321-1330.
[5]孫清華,鄧程,顧振宇.結(jié)合詞向量和自注意力機制的設(shè)計素材推薦系統(tǒng)[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2024,36(1):63-72.
[6]張雨卉.基于《中國圖書館分類法》的文獻自動化深層分類的研究和實現(xiàn)[J].圖書館雜志,2024,43(3):61-74.
[7]呂琦,上官燕紅,李銳.基于參考文獻和文本內(nèi)容學(xué)科分類的跨學(xué)科測度研究[J].情報學(xué)報,2024,43(8):976-991.
[8] SAJID N, AHMAD M,RAHMAN UA, et al. A NovelMetadata Based Multi-Label Document Classification Technique[J].Computer Systems Science and Engineering,2023,46(2):2195-2214.
[9]譚可人,蘭韻詩,張楊,等.基于多層級語言特征融合的中文文本可讀性分級模型[J].中文信息學(xué)報,2024,38(5):41-52.
[10]沈思,陳猛,馮暑陽,等.ChpoBERT:面向中文政策文本的預(yù)訓(xùn)練模型[J].情報學(xué)報,2023,42(12):1487-1497.
[11]易明,李藿然,劉繼月.基于GloVe-BiLSTM的在線研討信息分類模型研究[J].情報理論與實踐,2022,45(9):173-179.
[12]周燕.基于GloVe模型和注意力機制Bi-LSTM的文本分類方法[J].電子測量技術(shù),2022,45(7):42-47.
[13] DEVLIN J,CHANG M W,LEE K,et al. BERT:Pre-Training of Deep Bidirectional Transformers for LanguageUnderstanding [C]//Proceedings of the 2019 Conference of theNorth American Chapter of the Association for ComputationalLinguistics: Human Language Technologies, Volume 1(Longand Short Papers).Minneapolis:ACL,2019:4171-4186.
[14] LI X,HU L L. Chinese Long Text SimilarityCalculation of Semantic Progressive Fusion Based on Bert [J].Journal of Computational Methods in Sciences and Engineering,2024,24(4-5):2213-2225.
[15]陸佳麗.基于Bert-TextCNN的開源威脅情報文本的多標(biāo)簽分類方法[J].信息安全研究,2024,10(8):760-768.
[16] AZIZ K, JI D,CHAKRABARTI P,et al. Unifying Aspect-BasedSentimentAnalysisBERTandMulti-LayeredGraph Convolutional Networks for Comprehensive SentimentDissection [J].Scientific Rep0rts,2024,14(1):14646[2024-09-06]. https://www.nature.com/articles/s41598-024-61886-7.
[17]邵一博,秦玉華,崔永軍,等.融合多粒度信息的用戶畫像生成方法[J].計算機應(yīng)用研究,2024,41(2):401-407.
作者簡介:陳藍(1997—),女,漢族,重慶人,助理館員,碩士,研究方向:信息管理與信息服務(wù)、文本挖掘;周杰(1992一),男,漢族,湖北安徽人,副研究館員,碩士,研究方向:數(shù)據(jù)挖掘、智能檢索;通信作者:楊帆(1969一),男,漢族,貴州貴陽人,教授,博士,研究方向:知識組織與知識工程、文本挖掘。