中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-5553(2025)08-0083-07
Abstract:Aimingatthecharacteristicsof high informationdensity,ambiguous semantics and sparsefeatures inagricultural texts,this paperproposeda novel text clasificationmodel fortheagriculturalsector,basedon MacBERT(MLMas correction-BERT),deep pyramid Convolutional network(DPCNN)and Atention mechanism,named MacBERT— DPCNN—Atention (MDA).Firstly,MacBERT was employed tocomprehensively extract contextual information,which strengthenedtherepresentationof semantic featuresof text.Subsequently,DPCNNmodel wasutlized toeffectively capturethelocal textfeatures through itsmulti-layeredconvolutional neural networkandpoolingoperations.Finaly,an Atentiomechanism was incorporated to enrich the feature representationof agricultural text sequences.The experimental results show that the precision rate of MDA model in agricultural text classification task is at least 1.04% higher,the recall rate isat least 0.95% higher and the F1 value isat least 0.14% higher compared with the other mainstream models such as BERT—DPCNN,BERT—CNN and BERT—RNN. These fidings fully confirm the efectiveness and superiority of the proposed model in addressing the issues of text classification within the agricultural domain.
Keywords:agricultural text classification;MacBERT model; DPCNN;attention; pre-trained model
0 引言
隨著農(nóng)業(yè)科技的迅速發(fā)展與信息化進(jìn)程的加速推進(jìn),大量關(guān)鍵性農(nóng)業(yè)信息以文本的形式快速涌現(xiàn)1,如苗情、情、病蟲害信息等。這些文本所蘊(yùn)含的信息對(duì)于農(nóng)業(yè)生產(chǎn)決策和農(nóng)業(yè)生產(chǎn)現(xiàn)代化進(jìn)程至關(guān)重要。因此,對(duì)這些農(nóng)業(yè)文本進(jìn)行準(zhǔn)確、高效分類成為提高農(nóng)業(yè)生產(chǎn)效率、優(yōu)化資源配置、實(shí)現(xiàn)可持續(xù)發(fā)展的迫切需求。
文本分類在自然語言處理中是一個(gè)經(jīng)典問題2,有廣泛的應(yīng)用領(lǐng)域,包含文本糾錯(cuò)3、垃圾郵件檢測(cè)、情感分析、新聞分類、事件抽取[4]、詐騙電話分類[5]、輿情信息篩選[等。隨著信息組織和分析日益重要,文本分類也扮演著越來越重要的角色。早期的文本分類方法采用信息增益或主題模型等方式提取特征,利用淺層分類器進(jìn)行分類。近年來,詞向量和深度學(xué)習(xí)算法逐漸取代傳統(tǒng)的方法,BERT、ERNIE等模型被用于學(xué)科分類,基于SciBERT的模型則被用于學(xué)術(shù)文獻(xiàn)致謝的識(shí)別。同時(shí),結(jié)合多種特征的深度學(xué)習(xí)模型在用戶評(píng)論意見分類等任務(wù)中表現(xiàn)出色。Wang等[8]提出一種歸納圖卷積網(wǎng)絡(luò)(InducT一GCN)的模型,使用單向圖卷積網(wǎng)絡(luò)(GCN)降低時(shí)間和空間的復(fù)雜度,但是InducT一GCN模型被主要用在了英文長(zhǎng)文本中,在短文本中識(shí)別中心詞匯有一定的挑戰(zhàn)。加來拉·吾守爾等9提出一種以DPCNN為基礎(chǔ)的文本分類模型,主要是在DPCNN的基礎(chǔ)上隨機(jī)初始化多個(gè)卷積核去提取向量化表示文本的語義依賴,并將BiLSTM模型與CNN模型結(jié)合,使模型更加適合局部以及全局信息,結(jié)果表明,在文本分類任務(wù)中加入DPCNN可以有效提高模型的分類效果。Yu等[°改進(jìn)了CNN模型,主要用于短文本的分類。Wang 等[11]在半監(jiān)督文本數(shù)據(jù)中使用多維邊緣增強(qiáng)圖卷積網(wǎng)絡(luò)(ME一GCN),建立文本圖并輸入模型進(jìn)行訓(xùn)練,綜合各種圖邊信息,有效利用文本之間的復(fù)雜關(guān)系,為半監(jiān)督文本分類提供一種全面而強(qiáng)大的解決方案,結(jié)果表明,ME一GCN在短文本情感分析數(shù)據(jù)集上效果最好,因?yàn)榍楦蟹诸愂芤嬗趶拇笮屯獠课谋局袑W(xué)習(xí)到的預(yù)訓(xùn)練的通用語義,而農(nóng)業(yè)文本存在專業(yè)性強(qiáng)、語義較為分散的特點(diǎn),所以ME一GCN模型不適用于農(nóng)業(yè)文本分類。Yang等[12提出了一種混合經(jīng)典量子模型,引入了一種新型的隨機(jī)量子時(shí)間卷積(QTC)學(xué)習(xí)框架,替代基于BERT的解碼器中的部分層。這一方法的引入為模型帶來了新的學(xué)習(xí)結(jié)構(gòu),提供了更靈活而高效的解碼器設(shè)計(jì),但是這種方法主要針對(duì)英文數(shù)據(jù)集,不能表明在中文數(shù)據(jù)集中也會(huì)有很好的表現(xiàn)。李牧南等[13]引入集成計(jì)算框架NEWT,這個(gè)框架整合了NEPD、EDA、Word2Vec和TextCNN等元素。在中文科技政策文本挖掘領(lǐng)域中借鑒并擴(kuò)展傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法,為文本分析提供了一種全面而有效的解決方案,但這個(gè)方法主要針對(duì)中文長(zhǎng)文本,能否適用于中文短文本數(shù)據(jù)集還有待商榷。吳雪華等[14提出一個(gè)兩階段的突發(fā)事件應(yīng)急行動(dòng)支撐信息的識(shí)別與分類框架,并利用SVM、LR、TextCNN和BERT等算法進(jìn)行驗(yàn)證。BERT相關(guān)模型在文本分類中展現(xiàn)出明顯的優(yōu)越性,這進(jìn)一步驗(yàn)證了雙向Transformer結(jié)構(gòu)和預(yù)訓(xùn)練語言模型的優(yōu)勢(shì)。馬雨萌等[15]探索一種融合BERT模型和多尺度CNN模型的多標(biāo)簽分類方法,通過獲取更為豐富的政策語義特征信息,提高科技政策多標(biāo)簽分類任務(wù)的效果。結(jié)果表明,在多標(biāo)簽分類任務(wù)中,通過捕獲文本的局部特征以及組合不同尺度的語句特征,能夠顯著改善模型性能。
與其他文本類型相比,農(nóng)業(yè)文本具有專業(yè)性強(qiáng)、文本之間相似性高、特征不明顯的特點(diǎn)[16.17]。在這種情況下,使用文本分類技術(shù)對(duì)農(nóng)業(yè)預(yù)警至關(guān)重要。農(nóng)業(yè)文本的特殊性質(zhì)使其難以直接進(jìn)行人工處理和分析[18]。首先,由于農(nóng)業(yè)文本的長(zhǎng)度不一且文本間相似度較高,人工篩選和分類會(huì)極大地耗費(fèi)時(shí)間和資源[19]。其次,農(nóng)業(yè)文本的特征并不突出,這使得在大量文本中準(zhǔn)確地區(qū)分出關(guān)鍵信息變得更加困難。此外,農(nóng)業(yè)文本具有較高的維度和稀疏性[20],這意味著其中包含了大量的隱含信息和復(fù)雜的關(guān)聯(lián)關(guān)系,難以通過傳統(tǒng)的方法來有效地挖掘和利用。通過使用文本分類技術(shù),可以建立起一個(gè)高效的農(nóng)業(yè)預(yù)警系統(tǒng),及時(shí)發(fā)現(xiàn)和響應(yīng)各種潛在的農(nóng)業(yè)風(fēng)險(xiǎn)和問題。
本文從3個(gè)方面開展研究:(1)制作農(nóng)業(yè)文本分類數(shù)據(jù)集,以確保其廣泛而充分地覆蓋農(nóng)業(yè)領(lǐng)域的語境和主題;(2)深入挖掘深度學(xué)習(xí)模型在文本特征提取中的潛力,使其更有效地捕獲農(nóng)業(yè)文本的關(guān)鍵信息;(3)通過廣泛的試驗(yàn),提高分類模型的性能,驗(yàn)證其在真實(shí)農(nóng)業(yè)場(chǎng)景中的可行性和實(shí)用性。為農(nóng)業(yè)文本分類及相關(guān)領(lǐng)域的研究提供實(shí)質(zhì)性的理論與技術(shù)支持,為農(nóng)業(yè)智能化的未來發(fā)展貢獻(xiàn)力量。
1融合注意力機(jī)制的MacBERT一DPCNN農(nóng)業(yè)文本分類模型
1.1農(nóng)業(yè)文本采集和數(shù)據(jù)集構(gòu)建
在當(dāng)今信息時(shí)代,獲取農(nóng)業(yè)領(lǐng)域的數(shù)據(jù)已經(jīng)變得多樣化而復(fù)雜。為獲得豐富的農(nóng)業(yè)信息資源,試驗(yàn)在2023年8月從農(nóng)業(yè)智能知識(shí)服務(wù)平臺(tái)、中國(guó)農(nóng)業(yè)農(nóng)村信息網(wǎng)、中國(guó)農(nóng)村網(wǎng)以及中華人民共和國(guó)農(nóng)業(yè)農(nóng)村部等網(wǎng)站采集大量文本數(shù)據(jù),包括新聞報(bào)道、文章標(biāo)題、政策法規(guī)、市場(chǎng)趨勢(shì)、農(nóng)業(yè)技術(shù)以及專業(yè)日志等多種形式的信息,主題基本涵蓋了我國(guó)農(nóng)業(yè)類文本所有重點(diǎn)信息。對(duì)采集的數(shù)據(jù)集進(jìn)行篩選,去除HTML標(biāo)簽,并篩除與農(nóng)業(yè)無關(guān)的語句。針對(duì)一些文本較長(zhǎng)的語句,如農(nóng)業(yè)類方法文本以及政策性的文件,進(jìn)行分句處理和篩選。最終,對(duì)處理過的農(nóng)業(yè)文本數(shù)據(jù)集進(jìn)行多標(biāo)簽分類標(biāo)注。共分成10類,包括病蟲草害、苗情、土壤熵情、動(dòng)物疫病、極端天氣及自然災(zāi)害、農(nóng)產(chǎn)品產(chǎn)量、農(nóng)產(chǎn)品價(jià)格及供應(yīng)、農(nóng)村振興及扶貧政策、農(nóng)村基礎(chǔ)設(shè)施建設(shè)和農(nóng)村環(huán)境及生態(tài)保護(hù)。數(shù)據(jù)集描述如表1所示。設(shè)置訓(xùn)練集樣本9537條,測(cè)試集樣本675條,驗(yàn)證集樣本654條。
表1數(shù)據(jù)集描述Tab.1 Data set description
1.2 MacBERT網(wǎng)絡(luò)結(jié)構(gòu)
BERT21]模型采用雙向Transformer編碼器獲取語義特征,在自然語言處理(NLP)任務(wù)中展現(xiàn)出顯著的優(yōu)勢(shì)。由于中文字詞所在的詞向量空間相較英文更為復(fù)雜和多樣化,BERT在中文的應(yīng)用場(chǎng)景中可能會(huì)面臨一些挑戰(zhàn)。研究證明,去除BERT的NSP預(yù)訓(xùn)練任務(wù)對(duì)下游任務(wù)更有益。另外,BERT基于掩碼的語言模型(MLM)預(yù)訓(xùn)練任務(wù)在使用WordPiece嵌入進(jìn)行詞分割后沒有考慮詞與詞之間的關(guān)系。因此,谷歌提出了全詞掩碼(WWM)策略,進(jìn)一步提高語言模型在預(yù)訓(xùn)練階段的推理能力。
為更好地利用現(xiàn)有預(yù)訓(xùn)練語言模型中的知識(shí),哈爾濱工業(yè)大學(xué)發(fā)布一種基于中文的預(yù)訓(xùn)練模型MacBERT[22],其在文本分類中的原理如圖1所示。
圖1MacBERT模型結(jié)構(gòu)Fig.1MacBERT model structure
農(nóng)業(yè)文本經(jīng)過分詞之后進(jìn)人嵌人層,嵌入層分別包含符號(hào)嵌人、片段嵌人、位置嵌入3類。在符號(hào)嵌入層中將中文詞匯轉(zhuǎn)換成固定維度的向量;進(jìn)入片段嵌入層,判斷2個(gè)文本在語義上是否相似,進(jìn)行分類;位置嵌人層可以解決Transformer無法將序列順序編碼輸人的問題,最后將詞向量輸出。
MacBERT參考WWM策略,改進(jìn)BERT的預(yù)訓(xùn)練任務(wù)。在形式上,采用校正的掩碼策略(MAC)任務(wù),而不是MLM任務(wù)。這種方法將預(yù)測(cè)由[MASK]標(biāo)記表示的原始詞語的任務(wù)轉(zhuǎn)變?yōu)槲谋拘U蝿?wù)。文本校正任務(wù)是用一個(gè)類似的詞語代替原詞語,而不使用[MASK]。這有助于彌補(bǔ)[MASK]對(duì)下游任務(wù)的影響,因?yàn)閇MASK]只在預(yù)訓(xùn)練階段出現(xiàn)。不同掩碼方式如表2所示。其中,掩碼符號(hào)以斜體[MASK]表示。掩碼策略“無”表示原句或者不使用掩碼策略;MLM表示BERT的掩碼方法,MAC表示MacBERT應(yīng)用的校正方法。文本案例為“湖北受天氣影響農(nóng)業(yè)生產(chǎn)發(fā)生損失近76萬人受災(zāi)”,經(jīng)過基于掩碼的語言模型(MLM后,隨機(jī)將一些文字轉(zhuǎn)換為[MASK]掩碼,變?yōu)椤昂盵MASK]天氣影響農(nóng)業(yè)生產(chǎn)發(fā)生損失近76萬人受[MASKJ”,而經(jīng)過校正的掩碼策略(MAC)后,使用相似詞代替基于掩碼的語言模型中的[MASK],變?yōu)椤昂笔軞夂蛴绊戅r(nóng)業(yè)生產(chǎn)發(fā)生損失約76萬人受災(zāi)”。
表2不同掩碼方式及結(jié)果Tab.2Different masking methods and results
1.3 DPCNN網(wǎng)絡(luò)結(jié)構(gòu)
深度金字塔卷積網(wǎng)絡(luò)(DPCNN)23]是基于詞級(jí)別的網(wǎng)絡(luò),具體結(jié)構(gòu)如圖2所示。將農(nóng)業(yè)文本輸入到DPCNN模型,通過詞嵌人層將文本轉(zhuǎn)化為對(duì)應(yīng)的詞嵌人矩陣。詞嵌入矩陣經(jīng)過不同的卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入進(jìn)行處理,這有助于提取不同層次的語義信息。模型能夠更好地理解和捕捉文本中的關(guān)鍵特征。為了進(jìn)一步豐富詞嵌入矩陣的語義信息,農(nóng)業(yè)文本的詞嵌入矩陣被送入兩層等長(zhǎng)卷積。加深對(duì)文本信息的理解,使得模型能夠更全面地把握文本中的語義和結(jié)構(gòu)。在模型結(jié)構(gòu)中引入1/2池化的殘差塊用來增強(qiáng)語義,提升模型的穩(wěn)定性和收斂性。試驗(yàn)證明,DPCNN能夠更有效地捕捉文本中的復(fù)雜語義信息和長(zhǎng)距離依賴關(guān)系,從而提升分類性能。DPCNN在農(nóng)業(yè)領(lǐng)域展現(xiàn)強(qiáng)大的特征提取和分類能力,為農(nóng)業(yè)文本分類任務(wù)提供一種有效的深度學(xué)習(xí)解決方案。
式中: wi —權(quán)重矩陣;hi 一 —BERT和DPCNN的輸出向量;bi 一偏置向量。
然后,使用softmax函數(shù)計(jì)算注意力權(quán)重得分得到權(quán)重向量 ?pi ,如式(2)所示。
最后,對(duì)DPCNN層的輸出向量 hi 與權(quán)重向量 pi 進(jìn)行點(diǎn)乘與累加,得到注意力層的輸出 Att ,如式(3)所示,依據(jù)權(quán)值大小給隱藏層輸出分配相應(yīng)的注意力資源構(gòu)成特征向量的加權(quán)語義向量表示,增強(qiáng)農(nóng)業(yè)文本序列的特征表達(dá)。
1.5 MacBERT一DPCNN一Attention融合模型的 構(gòu)建
針對(duì)農(nóng)業(yè)文本數(shù)據(jù),提出一種融合注意力機(jī)制的MacBERT一DPCNN文本分類算法MDA。通過將MacBERT、DPCNN、Attention相結(jié)合的模型融合策略,可以顯著提升農(nóng)業(yè)文本分類任務(wù)的性能和魯棒性。這一策略充分發(fā)揮兩者在文本特征提取與分類方面的優(yōu)勢(shì)。MDA模型架構(gòu)如圖3所示。
圖2DPCNN模型架構(gòu)Fig.2DPCNNmodelarchitecture
1.4基于Attention的農(nóng)業(yè)文本特征加權(quán)
MacBERT模型和DPCNN模型沒有突顯當(dāng)前語義信息與上下文的關(guān)聯(lián)性。在DPCNN層的輸出端引入注意力機(jī)制,可以有效地強(qiáng)調(diào)當(dāng)前信息在上下文信息中的重要性與關(guān)聯(lián)性,增強(qiáng)語義信息的特征表達(dá),提升農(nóng)業(yè)文本分類的性能。
圖3MDA模型架構(gòu)Fig.3MDAmodelarchitecture
首先,計(jì)算注意力權(quán)重得分 ei ,如式(1)所示。
ei=tanh(wihi+bi)
首先,將農(nóng)業(yè)文本數(shù)據(jù)輸人特征表示層,對(duì)農(nóng)業(yè)文本進(jìn)行預(yù)處理,這一步主要是進(jìn)行分詞操作以及去除標(biāo)點(diǎn)符號(hào)等無用信息,避免無用信息影響最后分類的結(jié)果。接著,通過采用修正的掩碼策略對(duì)輸人的文本數(shù)據(jù)進(jìn)行編碼,生成訓(xùn)練后的特征矩陣。然后,進(jìn)入特征提取層,將特征矩陣輸入到DPCNN模型和MacBERT模型中,分別提取文本距離依賴信息和文本深層次語義信息。最后,進(jìn)行特征融合與分類,將不同層次的特征進(jìn)行融合并傳入輸入注意力機(jī)制,增強(qiáng)農(nóng)業(yè)文本的特征表達(dá)。最終傳送至分類器,通過全連接層進(jìn)行最終的文本分類。
MacBERT在預(yù)訓(xùn)練階段廣泛學(xué)習(xí)了豐富的語言表示24,能夠高效捕獲文本的高層次語義信息,從而提取文本中的關(guān)鍵特征。其廣泛的預(yù)訓(xùn)練使其在小規(guī)模數(shù)據(jù)集上也能有著出色的表現(xiàn)。DPCNN引入深層金字塔結(jié)構(gòu),有效在多個(gè)層次上提取特征,能夠捕獲文本中的局部和全局信息,為特征提取提供多層次的支持。其可以幫助識(shí)別并提取出不同層次的農(nóng)業(yè)特征,例如作物生長(zhǎng)情況、土壤狀況等信息。注意力機(jī)制有助于強(qiáng)調(diào)當(dāng)前信息在上下文中的重要性和關(guān)聯(lián)性,從而增強(qiáng)了語義信息的特征表達(dá),有助于提高農(nóng)業(yè)文本分類的性能。這種整體流程將MacBERT的語言表示、DPCNN的多層次特征提取能力以及注意力機(jī)制中的權(quán)重表達(dá)相結(jié)合,以獲得更具表現(xiàn)力和魯棒性的農(nóng)業(yè)文本特征。這可以提高模型對(duì)不同類型的農(nóng)業(yè)文本數(shù)據(jù)的泛化能力,從而在農(nóng)業(yè)文本分類任務(wù)中取得更好的性能。
2試驗(yàn)結(jié)果與分析
2.1 試驗(yàn)設(shè)置
程序運(yùn)行平臺(tái)的CPU為AMDRyzen95900HSwithRadeon Graphics,GPU 為 NVIDIA GeForceRTX 3060LaptopGPU,操作系統(tǒng)為Windows10,python 版本為 python 3.7。
考慮到所研究的農(nóng)業(yè)文本分類是一個(gè)分類任務(wù),所以選取分類任務(wù)中常用的3個(gè)指標(biāo):精確率 (P) 召回率 (R) 和 F1 值,評(píng)價(jià)指標(biāo)的計(jì)算方式基于二分類的混淆矩陣,如表3所示。其中, TP 和 TN 分別表示預(yù)測(cè)為正例在正樣本中的數(shù)量和預(yù)測(cè)為負(fù)例在負(fù)樣本中的數(shù)量。 FP 表示預(yù)測(cè)的數(shù)據(jù)標(biāo)簽為正類,但真實(shí)的數(shù)據(jù)標(biāo)簽為負(fù)類的樣本數(shù)量。FN表示預(yù)測(cè)的數(shù)據(jù)標(biāo)簽為負(fù)類,但真實(shí)的數(shù)據(jù)標(biāo)簽為正類的樣本數(shù)量。
表3混淆矩陣Tab.3 Confusion matrix
根據(jù)以上3個(gè)指標(biāo)來對(duì)模型算法的性能進(jìn)行客觀比較。3個(gè)指標(biāo)計(jì)算如式(4)~式(6)所示。
2.2 試驗(yàn)結(jié)果
通過對(duì)比試驗(yàn)來驗(yàn)證所設(shè)計(jì)的農(nóng)業(yè)文本分類模型的有效性。(1)BERT—DPCNN:使用預(yù)訓(xùn)練的BERT模型提取輸人文本的上下文信息和語義表示,作為embedding層輸人DPCNN模型,使用DPCNN提取局部信息,對(duì)農(nóng)業(yè)文本進(jìn)行分類。2)BERT一CNN:通過使用BERT模型提取輸人文本的上下文信息和語義表示,作為embedding層輸入CNN模型,使用小型的CNN提取局部特征,對(duì)農(nóng)業(yè)文本進(jìn)行分類。(3)BERT—RNN:通過使用BERT模型提取輸人文本的上下文信息和語義表示,作為embedding層輸人LSTM模型,使用LSTM提取局部特征,對(duì)農(nóng)業(yè)文本進(jìn)行分類。對(duì)比結(jié)果見表 4~ 表6。
表4精確率試驗(yàn)結(jié)果 Tab.4Precision of experimental results
表5召回率試驗(yàn)結(jié)果Tab.5Recall of experimental results
表6調(diào)和平均值試驗(yàn)結(jié)果Tab.6F1 of experimental results
由表 4~ 表6可知,MDA模型在自制數(shù)據(jù)集中的精確率、召回率和 F1 值均在不同程度上優(yōu)于BERT—DPCNN、BERT—CNN、BERT—RNN三種算法。其中,精確率平均提高 5.0% ,召回率平均提高 4.4%,F(xiàn)1 值平均提高 3.51% 。在使用同種算法的情況下,病蟲草害、農(nóng)村環(huán)境及生態(tài)保護(hù)、農(nóng)村基礎(chǔ)設(shè)施建設(shè)、農(nóng)村振興及扶貧政策等類別的文本特征較明顯,分類效果較好。在苗情、農(nóng)產(chǎn)品產(chǎn)量以及農(nóng)產(chǎn)品價(jià)格及供應(yīng)等類別的文本中,文本特征模糊,個(gè)別文字容易混淆,影響模型的特征提取,分類效果較差。而由于收集到的極端天氣及自然災(zāi)害類的文本數(shù)量較少,沒有足夠數(shù)據(jù)集供模型進(jìn)行訓(xùn)練,訓(xùn)練效果和分類效果較差。
2.3超參數(shù)設(shè)置
試驗(yàn)中,影響農(nóng)業(yè)文本分類模型最終效果的關(guān)鍵參數(shù)主要包括農(nóng)業(yè)文本輸入長(zhǎng)度(padsize)、每個(gè)批次的大?。╞atchsize)以及學(xué)習(xí)率(learningrate)。由于農(nóng)業(yè)文本的長(zhǎng)度不一,過長(zhǎng)或過短的padsize都會(huì)對(duì)預(yù)測(cè)效果產(chǎn)生影響。如果輸入長(zhǎng)度過短,可能導(dǎo)致無法捕獲有效的語義信息;而過長(zhǎng)可能會(huì)導(dǎo)致填充短文本,產(chǎn)生不必要的噪聲,從而影響語義提取效果。值得注意的是,由于MacBERT模型的注意力機(jī)制特性,過長(zhǎng)的輸入長(zhǎng)度還可能導(dǎo)致模型計(jì)算時(shí)間呈指數(shù)增長(zhǎng),從而影響分類性能。
如表7所示,對(duì)于不同的padsize取值,模型的準(zhǔn)確率和 F1 值呈現(xiàn)出了一定的變化。當(dāng)padsize值依次取16、24、30時(shí),模型的精確率、召回率和 F1 值逐步提升。然而,當(dāng)padsize值取36時(shí),模型的精確率、召回率和 F1 值均下降。
表7不同padsize超參數(shù)性能對(duì)比Tab.7Performance comparison of differentpadsize hyperparameters
3結(jié)論
1)成功構(gòu)建包含10866條已標(biāo)注類別的農(nóng)業(yè)文本分類數(shù)據(jù)集,該數(shù)據(jù)集覆蓋10類不同的農(nóng)業(yè)主題。該數(shù)據(jù)集的廣泛覆蓋和充分標(biāo)注為研究提供堅(jiān)實(shí)的基礎(chǔ),并在模型訓(xùn)練和驗(yàn)證中展現(xiàn)良好的應(yīng)用潛力。
2)提出的融合注意力機(jī)制的MacBERT—DPCNN模型MDA,在自建數(shù)據(jù)集中實(shí)現(xiàn)更好的分類效果。MacBERT模型充分提取農(nóng)業(yè)類文本內(nèi)容的上下文信息,強(qiáng)化文本的語義特征表示;DPCNN模型的多層卷積神經(jīng)網(wǎng)絡(luò)和池化操作有效地捕獲文本的局部特征;最后,引入注意力機(jī)制進(jìn)一步增強(qiáng)農(nóng)業(yè)文本序列的特征表達(dá)。結(jié)果表明,MDA模型精確率提升1.04% 以上,召回率提升 0.95% 以上, F1 值提升0.14% 以上,驗(yàn)證該模型在農(nóng)業(yè)文本分類任務(wù)中的有效性和潛力。
未來的研究將繼續(xù)探索模型結(jié)構(gòu)的優(yōu)化,尋找更適合農(nóng)業(yè)文本特點(diǎn)的預(yù)訓(xùn)練模型,并考慮結(jié)合其他類型的農(nóng)業(yè)數(shù)據(jù),以進(jìn)一步提高分類性能和適應(yīng)性。
參考文獻(xiàn)
[1]張輝,串麗敏,鄭懷國(guó),等.基于LDA和語步標(biāo)注的主題識(shí)別與分析方法研究[J].數(shù)據(jù)與計(jì)算發(fā)展前沿,2023,5(5):107—118.Zhang Hui,Chuan Limin, Zheng Huaiguo, etal.Research on topic recognition and analysis based on LDAand move tagging[J]. Frontiers of Data amp; Computing,2023,5(5):107—118.
[2]王婷,梁佳瑩,楊川,等.改進(jìn)DPCNN分類模型在金融領(lǐng)域長(zhǎng)文本的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2023,32(12):74-83.WangTing,LiangJiaying,YangChuan,etal.ImprovedDPCNN classification model for long texts in finance [J].Computer Systemsamp;.Applications,2023,32(12):74-83.
[3]蘇錦鈿,余珊珊,洪曉斌.一種面向中文拼寫糾錯(cuò)的自監(jiān)督預(yù)訓(xùn)練方法[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,51(9):90-98.SuJindian,Yu Shanshan, Hong Xiaobin. Aself-supervised pre-training method for Chinese spellingcorrection [J]. Journal of South China UniversityofTechnology(Natural Science Edition),2023,51(9):90-98.
[4]沙明洋,張思佳,傅慶財(cái),等.基于動(dòng)態(tài)權(quán)重的多模型集成水產(chǎn)動(dòng)物疾病防治事件抽取方法[J].華中農(nóng)業(yè)大學(xué)學(xué)報(bào),2023,42(3):80—87.Sha Mingyang, Zhang Sijia, Fu Qingcai,etal.Multi-model integrated event extraction for aquatic animaldisease preventionandcontrol based ondynamicweight[J]. Journal of Huazhong Agricultural University,2023,42(3):80-87.
[5]周俊杰,許鴻奎,盧江坤,等.引入位置信息和Attention機(jī)制的詐騙電話文本分類[J].小型微型計(jì)算機(jī)系統(tǒng),2023,44(11):2502—2509.
[6]王晨雨,葉妍君,邱英俏,等.基于深度學(xué)習(xí)的地震輿情信息提取及時(shí)空可視化[J].自然災(zāi)害學(xué)報(bào),2023,32(5):64-79.
[7]Beltagy I,Lo K,Cohan A.SciBERT:A pretrainedlanguage model for scientific text [J]. arXiv preprintarXiv:1903.10676,2019.
[8]Wang K,Han S,Poon J. InducT—GCN:Inductivegraph convolutional networks for text classification [C].2022 26 th International Conference on Pattern Recognition(ICPR).IEEE,2022:1243—1249.
[9]加米拉·吾守爾,吳迪,王路路,等.基于多卷積核DPCNN的維吾爾語文本分類聯(lián)合模型[J].中文信息學(xué)報(bào),2021,35(7):63—71.
[10] Yu S,Liu D,Zhang Y,et al. DPTCN:A novel deepCNN model for short text classification [J].Journal ofIntelligent amp; Fuzzy Systems,2021,41(6): 7093-7100.
[11]Wang K,Han S,Long S, et al. ME-GCN:Multi-dimensional edge-embeddedgraph convolutionalnetworks for semi-supervised text classification [J]. arXivpreprint arXiv: 2204. 04618,2022.
[12]Yang C,Qi J,Chen S,et al. When bert meets quantumtemporal convolution learning for text classification inheterogeneous computing [C]. ICASSP 2022—2022IEEE International Conference on Acoustics,Speech andSignal Processing(ICASSP). IEEE,2022: 8602-8606.
[13]李牧南,王良,賴華鵬.中文科技政策文本分類:增強(qiáng)的TextCNN視角[J].科技管理研究,2023,43(2):160—166.Li Munan,Wang Liang,LaiHuapeng,et al.Textclassification of Chinese Samp; T policies:EnhancedTextCNN perspective [J]. Science and TechnologyManagement Research,2023,43(2):160—166.
[14]吳雪華,毛進(jìn),陳思菁,等.突發(fā)事件應(yīng)急行動(dòng)支撐信息的自動(dòng)識(shí)別與分類研究[J].情報(bào)學(xué)報(bào),2021,40(8):Wu Xuehua,Mao Jin,Chen Sijing,et al. Research onautomaticidentification and classification of actionableinformation in emergencies [J]. Journal of the ChinaSociety for Scientific and Technical Information,2021,40(8): 817-830.
[15]馬雨萌,黃金霞,王昉,等.融合BERT與多尺度CNN的科技政策內(nèi)容多標(biāo)簽分類研究[J].情報(bào)雜志,2022,41(11):157—163.
[16]鮑彤,羅瑞,郭婷,等.基于BERT字向量和TextCNN的農(nóng)業(yè)問句分類模型分析[J].南方農(nóng)業(yè)學(xué)報(bào),2022,53(7):2068-2076.Bao Tong,Luo Rui,Guo Ting,et al.Agriculturalquestion classification model based on BERT word vectorandTextCNN[J]. Journalof Southern Agriculture,2022,53(7):2068—2076.
[17]楊森淇,段旭良,肖展,等.基于ERNIE + DPCNN+BiGRU的農(nóng)業(yè)新聞文本分類[J].計(jì)算機(jī)應(yīng)用,2023,43(5): 1461-1466.Yang Senqi,Duan Xuliang,Xiao Zhan,et al.Textclassification of agricultural news based on ERNIE + DPCNN+BiGRU [J]. Journal of ComputerApplications,2023,43(5):1461—1466.
[18]吳華瑞,郭威,鄧穎,等.農(nóng)業(yè)文本語義理解技術(shù)綜述[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(5):1—16.Wu Huarui,Guo Wei,DengYing,etal.Reviewofsemantic analysis techniques of agricultural texts [J].Transactions of the Chinese Society for AgriculturalMachinery,2022,53(5):1—16.
[19]吳艷.基于深度學(xué)習(xí)的新聞標(biāo)題文本分類研究與應(yīng)用[D].揚(yáng)州:揚(yáng)州大學(xué),2023.
[20]穆維松,劉天琪,苗子激,等.知識(shí)圖譜技術(shù)及其在農(nóng)業(yè)領(lǐng)域應(yīng)用研究進(jìn)展[J].農(nóng)業(yè)工程學(xué)報(bào),2023,39(16):1—12.Mu Weisong,Liu Tianqi,Miao Ziwei,et al. Researchprogress on knowledge graph technology and its applicationin agriculture [J]. Transactions of the Chinese Society ofAgricultural Engineering,2023,39(16):1—12.
[21]Devlin J,Chang M,Lee K,et al. BERT:Pre-training ofdeep bidirectional transformers for languageunderstanding [J]. arXiv preprint arXiv: 1810.04805,2018.
[22]Cui Y,Che W,Liu T,et al.Pre-training with wholeword masking for Chinese BERT[J]. IEEE/ACMTransactionsonAudio, Speech, andLanguageProcessing,2021,29: 3504-3514.
[23]Johnson R,Zhang T.Deep pyramid convolutional neuralnetworks for text categorization [A]. Proceedings of the55 thAnnualMeetingoftheAssociation forComputational Linguistics,2017:562-570.
[24]陶建華,聶帥,車飛虎.語言大模型的演進(jìn)與啟示[J].中國(guó)科學(xué)基金,2023,37(5):767-775.