唐望徑,許 斌,仝美涵,韓美奐,3,王黎明,鐘 琦
(1.清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084;2.北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044;3.清華大學(xué)深圳國際研究生院,廣東深圳 518055;4.中國科普研究所,北京 100081)
文本分類是信息處理和數(shù)據(jù)挖掘的重要研究方向,是自然語言處理(Natural Language Processing,NLP)的核心任務(wù)之一,廣泛應(yīng)用于新聞分類、輿情分析、推薦系統(tǒng)等領(lǐng)域。隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)科普資源呈指數(shù)級增長,與此同時(shí),海量的科普文本對人工進(jìn)行文本分類提出嚴(yán)峻的挑戰(zhàn)。一方面,傳統(tǒng)人工識(shí)別文本類型的方法耗時(shí)耗力、效率低下;另一方面,由于科普文章涉及領(lǐng)域廣泛,科普工作者對科普文章類型識(shí)別往往受到自身專業(yè)領(lǐng)域知識(shí)的限制,難以掌握科普所有領(lǐng)域。因此,利用計(jì)算機(jī)智能輔助專家對文本進(jìn)行自動(dòng)分類,能夠幫助科普工作者快速、準(zhǔn)確地對文章歸檔。
早期淺層學(xué)習(xí)模型通常使用人工特征工程的方法獲取適當(dāng)?shù)奈谋咎卣鱽肀碚鳂颖?,之后將特征輸入到機(jī)器學(xué)習(xí)分類模型中,如樸素貝葉斯(Naive Bayes,NB)、支持向量機(jī)(Support Vector Machine,SVM)、和K
近鄰(K
-Nearest Neighbor,K
NN)等。淺層學(xué)習(xí)模型需要設(shè)計(jì)特征提取方法,往往代價(jià)昂貴。隨著深度學(xué)習(xí)理論及計(jì)算機(jī)硬件的發(fā)展,深度學(xué)習(xí)模型在文本分類領(lǐng)域得到廣泛應(yīng)用。深度學(xué)習(xí)模型將特征工程集成到模型擬合過程中,簡化了分類流程,降低了模型的成本開銷。深度學(xué)習(xí)常用模型主要有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)以及近些年效果表現(xiàn)優(yōu)異的預(yù)訓(xùn)練模型BERT(Bidirectional Encoder Representation from Transformers)。Kim在2014 年首次提出用于文本分類的CNN 模型,其表現(xiàn)與復(fù)雜的基于特征學(xué)習(xí)的分類器模型相比毫不遜色,激發(fā)了深度學(xué)習(xí)文本分類模型的研究熱潮。然而,當(dāng)文本長度較長時(shí),CNN 難以提取較好的全局特征。RNN 能夠?qū)?fù)雜的單詞序列學(xué)習(xí)特征,有利于在較長的文本中提取單詞的全局時(shí)序特征,但是存在梯度消失和梯度爆炸等問題。預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型通過在大規(guī)模無監(jiān)督的語料上預(yù)訓(xùn)練,再在文本分類任務(wù)上微調(diào)從而達(dá)到目前最優(yōu)的效果;但是預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型輸入的長度受限,無法捕獲長文本語義,同時(shí)由于是端到端模型,缺乏知識(shí)的引導(dǎo)。
基于上述模型的問題,針對科普文章篇幅超過千字導(dǎo)致模型難以聚焦分類關(guān)鍵信息、性能不佳的問題,本文提出了知識(shí)圖譜增強(qiáng)的科普文本分類模型。首先,采用四步法構(gòu)建了科普領(lǐng)域知識(shí)圖譜,之后將圖譜中的實(shí)體信息作為遠(yuǎn)程監(jiān)督器,訓(xùn)練一個(gè)二分類模型作為信息過濾器,對句子進(jìn)行打分、排序并完成篩選,從而使得到的句子特征表示包含更多分類類別相關(guān)信息,以緩解層次模型無法突出關(guān)鍵語義信息的缺陷。然后,為了進(jìn)一步降低主題無關(guān)信息干擾,提高分類模型性能,本文引入句級別注意力模型,對篩選后的句子信息進(jìn)行二次過濾。最后,在構(gòu)建的科普文本分類數(shù)據(jù)集(Popular Science Classification Dataset,PSCD)上進(jìn)行對比實(shí)驗(yàn),根據(jù)實(shí)驗(yàn)結(jié)果,本文所提模型取得良好的分類效果,驗(yàn)證了模型的有效性。相較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型,本文模型在召回率和F1 指標(biāo)上有所提升。
本文的主要工作如下:1)提出了知識(shí)圖譜增強(qiáng)的科普文本分類模型,通過科普知識(shí)圖譜來進(jìn)行主題句篩選,并引入句級別注意力模型,最終通過一個(gè)全連接神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)科普文本分類;2)構(gòu)造了一個(gè)科普文本分類數(shù)據(jù)集,包含了13 372篇科普文章,且本文模型在該數(shù)據(jù)集上取得了最優(yōu)效果。
傳統(tǒng)的NB 和SVM 等文本分類模型通常需要將分類流程劃分為特征工程設(shè)計(jì)和分類器設(shè)計(jì)兩部分,構(gòu)建代價(jià)昂貴。隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)模型將特征提取融合進(jìn)模型擬合過程中,使得模型能夠直接從輸入中學(xué)習(xí)特征表示,無需過多的人工干預(yù)和先驗(yàn)知識(shí)。此外,由于深度學(xué)習(xí)模型具有更高的復(fù)雜度,相較于淺層模型具備更優(yōu)異的效果。TextCNN作為一次成功的嘗試,激發(fā)了研究人員在文本分類領(lǐng)域應(yīng)用CNN 的熱情。由于TextCNN 無法通過卷積獲取文本的長距離依賴關(guān)系,為解決該問題,Johnson 等提出了深度金字塔CNN(Deep Pyramid CNN,DPCNN),通過不計(jì)成本地增加網(wǎng)絡(luò)深度,模型能夠更精準(zhǔn)地抽取長距離的文本依賴關(guān)系。RNN 能夠通過遞歸計(jì)算捕獲長距離依賴關(guān)系,但存在梯度消失和梯度爆炸問題。人們通常使用RNN的改進(jìn)模型長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)。RNN 能夠更好地捕捉上下文信息,但對于局部信息的提取能力欠佳。Lai 等提出了用于文本分類任務(wù)的循環(huán)CNN(Recurrent CNN,RCNN)模型,利用雙向LSTM 結(jié)構(gòu)替換CNN 中的卷積層,對文本進(jìn)行編碼,較好地捕獲了長文本上的序列信息;同時(shí),通過CNN 的最大池化層,較好地捕獲了文本的局部特征。
神經(jīng)網(wǎng)絡(luò)能夠很好地與注意力機(jī)制結(jié)合,在文本建模時(shí)將注意力聚焦于分類的關(guān)鍵信息上,從而提高文本分類效果。注意力機(jī)制在計(jì)算機(jī)視覺領(lǐng)域首先被提出,隨后因被應(yīng)用到機(jī)器翻譯的端到端模型而引入NLP 領(lǐng)域。注意力機(jī)制通過目標(biāo)向量對輸入序列進(jìn)行打分,將注意力聚焦于輸入序列中更為重要的部分,使輸出結(jié)果更加精確。因此,注意力機(jī)制逐漸被應(yīng)用于文本分類等NLP 任務(wù)中。
在處理由許多句子組成的長文本時(shí),直接將文本作為長序列進(jìn)行處理往往容易忽略文本層級結(jié)構(gòu)中蘊(yùn)含的信息,因此Yang 等提出了基于層級注意力網(wǎng)絡(luò)(Hierarchical Attention Network,HAN)的文本分類模型,該模型以雙向門控循環(huán)單元(Gate Recurrent Unit,GRU)作為編碼器,通過兩層注意力機(jī)制使模型更好地捕獲文本中的重要信息,提高了長文本分類的模型性能表現(xiàn)。文獻(xiàn)[13]通過一種無監(jiān)督的段落向量生成模型PV-DM(Distributed Memory model of Paragraph Vectors),基于結(jié)合注意力的CNN 分類模型在長文本分類任務(wù)中取得了較好的效果。Choi 等以ALBERT(A Lite BERT)作為編碼器,通過類別表示層提取分類的類別信息,使用類別信息對句子信息進(jìn)一步增強(qiáng),之后通過句注意力機(jī)制對句子信息進(jìn)行篩選,獲取了文本重要信息,有效提高了長文本分類模型性能。
圖1 為本文所提知識(shí)圖譜增強(qiáng)的科普文本分類模型總體架構(gòu)。
圖1 知識(shí)圖譜增強(qiáng)的科普文本分類模型架構(gòu)Fig.1 Achitecture of popular science text classification model enhanced by knowledge graph
通常,語料中的所有文本表示為T
={t
,t
,…,t
,…,t
},t
表示語料中第i
篇文本,|T
|表示語料中包含的文本數(shù)量;每篇文本可以被表示為t
={S
,S
,…,S
,…,S
},S
表示文本中的第j
個(gè)句子,n
=|t
|表示文本中包含的句子數(shù)量;經(jīng)過特征提取后,句子S
被表示為句向量v
,句向量維度為768。本文分類模型的建立流程如圖2 所示。
圖2 模型流程Fig.2 Model flowchart
流程主要由以下四部分組成:
1)科普領(lǐng)域知識(shí)圖譜構(gòu)建。借鑒“四步法”構(gòu)造科普領(lǐng)域知識(shí)圖譜。
2)文本信息篩選。首先將文本切分為句子集,使用預(yù)訓(xùn)練模型BERT 作為編碼器,將句子編碼為連續(xù)空間下的句向量,以實(shí)現(xiàn)對文本句子特征提取。以二分類器作為過濾器,利用知識(shí)圖譜中蘊(yùn)含的實(shí)體信息對文本句向量進(jìn)行篩選過濾,實(shí)現(xiàn)文本的信息篩選。
3)注意力機(jī)制。使用注意力機(jī)制對信息篩選后結(jié)果做進(jìn)一步的增強(qiáng)。
4)通過全連接層和Softmax 函數(shù)實(shí)現(xiàn)科普文本分類。
K
-Means 聚類算法對文章進(jìn)行聚類,通過人工觀察關(guān)鍵詞和聚類結(jié)果,得到了初步的領(lǐng)域概念。之后結(jié)合百度百科、Wikipedia 等通用圖譜對領(lǐng)域概念進(jìn)行修改并定義領(lǐng)域關(guān)系及其約束。其中:一級概念共10 個(gè),分別為軍事、農(nóng)業(yè)、科學(xué)文化、醫(yī)學(xué)、健康、生態(tài)環(huán)境、信息科技、空間科學(xué)、基礎(chǔ)學(xué)科、生活百科;二級概念共45 個(gè)。最后,根據(jù)中國科普研究所專家指導(dǎo),對構(gòu)建本體進(jìn)行檢查和評估,修改完善后得到最終的科普領(lǐng)域本體。根據(jù)定義好的科普領(lǐng)域本體結(jié)構(gòu),從互聯(lián)網(wǎng)上公開的知識(shí)圖譜(如:百度百科、Wikipedia、XLORE 等)以及其他結(jié)構(gòu)化較好的網(wǎng)站中獲取大量結(jié)構(gòu)較好、質(zhì)量較高的實(shí)體數(shù)據(jù),并結(jié)合半監(jiān)督和遠(yuǎn)程監(jiān)督方法,通過人工篩選獲取實(shí)體間關(guān)系。文本信息篩選是本文模型對文本信息進(jìn)行提取過濾的部分,本節(jié)將按順序分別介紹以下兩步:第一步,以預(yù)訓(xùn)練模型BERT 作為編碼器對文本中所有句子進(jìn)行特征提取;第二步,以科普知識(shí)圖譜為監(jiān)督源構(gòu)建二分類過濾器,使用構(gòu)建的過濾器計(jì)算句子領(lǐng)域相關(guān)系數(shù),并按照該系數(shù)對每篇文本句子進(jìn)行定量篩選。
2.2.1 特征提取
Google 的Devlin 等在2018 年提出了大規(guī)模預(yù)訓(xùn)練模型BERT,在特征提取任務(wù)上取得了極佳效果。BERT 模型由多層雙向的Transformer解碼器構(gòu)成,Transformer 模型的核心是注意力機(jī)制。BERT 采用多頭注意力(Multi-Head Attention)機(jī)制,能夠更好地獲取目標(biāo)字在多種語義場景下與其上下文構(gòu)造的語義信息。H
的計(jì)算公式為:W
表示權(quán)重矩陣,為輸出向量重新分配權(quán)重;h
表示第i
個(gè)頭的輸出向量。h
的計(jì)算公式為:Q
、K
、V
表示輸入向量經(jīng)過線性映射后得到的矩陣;d
表示K
向量的維度。2.2.2 信息過濾
本文通過四步法構(gòu)建了科普領(lǐng)域知識(shí)圖譜,該圖譜的實(shí)體類別與科普文本分類類別一致。首先將科普文本分類數(shù)據(jù)集中的測試集按照7∶3 比例劃分出用于訓(xùn)練信息過濾二分類器的訓(xùn)練集和測試集,對所得訓(xùn)練集和測試集進(jìn)行句子切分,得到以句子為單位的訓(xùn)練句子集和測試句子集。之后,將科普圖譜中實(shí)體與上述所得句子集中句子進(jìn)行鏈接,為句子賦予標(biāo)簽L
=[0,1],實(shí)體鏈接成功句子標(biāo)簽賦1,鏈接失敗句子標(biāo)簽賦0。通過上述預(yù)處理,將語料測試集轉(zhuǎn)化為如下所示數(shù)據(jù)二元組:圖3 句子過濾器結(jié)構(gòu)Fig.3 Structure of sentence filter
將輸入文本切分為句子集合,集合中句子S
輸入訓(xùn)練好的二分類模型后,模型通過預(yù)訓(xùn)練模型BERT 對句子進(jìn)行特征提取,提取的特征信息將會(huì)通過輸出層得到輸出。輸出層包括線性層、激活函數(shù),計(jì)算公式如下所示:L
=1 的概率,將其視為領(lǐng)域相關(guān)系數(shù)q
∈[0,1],計(jì)算公式如下:q
對相應(yīng)的句向量v
進(jìn)行排序,選出分?jǐn)?shù)值排名靠前的n
個(gè)句向量V
=[v
;v
;…;v
]作為下一部分注意力模型輸入。同時(shí),保持了各句向量在原文本中的先后順序,以避免造成位置信息丟失,影響模型分類性能。文章中不同的句子對于文章內(nèi)容理解的貢獻(xiàn)程度不同。為計(jì)算句向量對于區(qū)分文章類別的貢獻(xiàn)程度,本文引入了注意力機(jī)制,其具體結(jié)構(gòu)如圖4 所示。
圖4 注意力機(jī)制結(jié)構(gòu)Fig.4 Structure of attention mechanism
注意力模型的計(jì)算公式如下:
v
,該向量包含了經(jīng)過過濾器和注意力機(jī)制雙重篩選后的文本信息。將v
輸入由全連接層和Softmax 函數(shù)構(gòu)成的多分類器中,得到類別概率:通過最小化分類的交叉熵誤差,以有監(jiān)督的方式訓(xùn)練模型。損失函數(shù)如下:
N
為樣本數(shù);C
為多分類類別總數(shù);若預(yù)測類別和樣本所屬類別相同則y
為1,否則為0;p
為文本t
屬于類別c
的概率。為了驗(yàn)證模型效果,本文構(gòu)建了科普文本分類數(shù)據(jù)集PSCD。首先,對照科普領(lǐng)域知識(shí)圖譜實(shí)體分類,從科普中國等國內(nèi)著名科普網(wǎng)站中爬取相應(yīng)欄目的科普文章。剔除內(nèi)容過短和過長的科普文本,對篩選后文本進(jìn)行去重和數(shù)據(jù)清洗,最終得到科普文本分類數(shù)據(jù)集??破臻L文本分類數(shù)據(jù)集中單個(gè)文本長度為102~26 722。數(shù)據(jù)集中包含10 個(gè)分類,共13 372 篇文本,其中短文本730 篇,長文本11 195 篇,超長文本1 447 篇。實(shí)驗(yàn)隨機(jī)選取80%作為訓(xùn)練數(shù)據(jù),20%作為測試數(shù)據(jù)。數(shù)據(jù)集具體細(xì)節(jié)統(tǒng)計(jì)如表1 和圖5 所示。
表1 數(shù)據(jù)集詳細(xì)情況Tab 1 Dataset details
圖5 輸入文本長度分布統(tǒng)計(jì)情況Fig.5 Statistics on length distribution of input text
3.2.1 基線方法
為評價(jià)模型在長文本分類任務(wù)上的性能,引入了多種典型模型進(jìn)行實(shí)驗(yàn)對比,以下詳細(xì)描述了所有進(jìn)行比較的模型:
1)FastText:該模型是一個(gè)使用淺層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的快速文本分類算法,不需要使用預(yù)訓(xùn)練詞向量,模型會(huì)在訓(xùn)練過程中訓(xùn)練詞向量。該模型分類效果較好,需要的訓(xùn)練時(shí)間極少,是一種高效的工業(yè)級分類模型。
2)TextCNN:該模型是CNN 在NLP 中的一次成功的應(yīng)用,能夠利用CNN 對局部特征捕捉的特性,獲取不同抽象層次的語義信息。
3)TextRNN:該模型是一種RNN,將經(jīng)過預(yù)訓(xùn)練詞向量模型后的詞向量表示按順序輸入雙向LSTM 中,將LSTM最后一個(gè)時(shí)間步長中的隱藏狀態(tài)輸入Softmax 層后輸入全連接層進(jìn)行分類,最終輸出文本分類。
4)TextRCNN:RNN 能夠更好地捕捉上下文信息,而CNN 能夠有效地捕捉局部特征。該模型結(jié)合了RNN 和CNN的特點(diǎn),將CNN 中的卷積層換成了雙向的循環(huán)結(jié)構(gòu),使其能夠有效減少噪聲,最大限度地捕捉上下文信息。同時(shí)該模型保留了最大池化層,保證了模型對局部特征的提取能力。
5)BERT:該模型為2018 年谷歌提出的大規(guī)模預(yù)訓(xùn)練模型,模型框架基于Transformer,實(shí)現(xiàn)了多層雙向Transformer 編碼器。該模型一經(jīng)發(fā)布,就在多項(xiàng)NLP 任務(wù)中取得了SOTA 結(jié)果。雖然該模型主要任務(wù)并不是文本分類,但由于其優(yōu)秀的文本表征能力,本文使用中文BERT 預(yù)訓(xùn)練模型作為編碼器,將結(jié)果輸入Softmax 函數(shù)和全連接層,實(shí)現(xiàn)文本分類任務(wù)。
3.2.2 實(shí)驗(yàn)設(shè)置
所有基線模型均為基于字級別的分類模型。由于BERT輸入長度限制為510 字,且原數(shù)據(jù)集中文本長度較長,故對BERT 模型輸入文本進(jìn)行預(yù)處理,對長度超過510 字文本,從文本開頭截取長度為510 字文本作為模型輸入,對長度未超過限制的文本則不做處理。
對比實(shí)驗(yàn)中,TextCNN、TextRNN、TextRCNN 均使用預(yù)訓(xùn)練詞向量模型Word2Vec 生成詞向量,設(shè)置單詞嵌入維度為300,文本長度均未作處理。
實(shí)驗(yàn)運(yùn)行服務(wù)器配置為Intel Core i9-10900K CPU,顯卡為RTX 3090。
Acc
(Accuracy)、召回率R
(Recall)以及F1 值(F1-score)作為對本文分類模型效果的評價(jià)指標(biāo)。計(jì)算公式如下:TP
(True Positives)表示預(yù)測為正的正樣本,FP
(False Positives)表示預(yù)測為正的負(fù)樣本,FN
(False Negatives)表示預(yù)測為負(fù)的正樣本,TN
(True Negatives)表示預(yù)測為負(fù)的負(fù)樣本。表2 為上述各基線模型與本文模型在科普文本分類數(shù)據(jù)集PSCD 上分類表現(xiàn)。由表2 可知,本文模型在平均召回率以及平均F1 值上最高,相較于TextCNN 和BERT,分別提高了2.88 和1.88 個(gè)百分點(diǎn);BERT 在所有基線模型中表現(xiàn)最佳,TextCNN、TextRCNN 均在數(shù)據(jù)集上取得了較好的分類效果。雖然TextRNN 使用LSTM 替代普通RNN,解決了處理較長文本時(shí)會(huì)出現(xiàn)的梯度消失問題,但是由于科普文本中長文本數(shù)量多、字?jǐn)?shù)長,該模型在PSCD 上的分類表現(xiàn)仍較差。FastText 表現(xiàn)僅優(yōu)于TextRNN,但其模型的訓(xùn)練耗時(shí)明顯少于其他模型,同時(shí)不需要預(yù)訓(xùn)練詞向量,故其仍是一個(gè)非常優(yōu)秀的分類模型。
表2 PSCD上各模型的表現(xiàn) 單位:%Tab 2 Performance of each model on PSCD unit:%
為了更進(jìn)一步探索模型的效果,故對測試集中分類錯(cuò)誤案例進(jìn)行了分析。當(dāng)文本句子個(gè)數(shù)上限設(shè)置為30 時(shí),共在測試集中得到類別錯(cuò)誤劃分案例453 例,其中,文本句子數(shù)量少于30 的案例共272 例,文本句子數(shù)多于或等于30 的案例共181 例。即文本中句子數(shù)量對于模型的分類效果造成了一定的影響。之后,對案例中各分類數(shù)量占比進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)錯(cuò)誤常常出現(xiàn)在涉及學(xué)科領(lǐng)域交叉應(yīng)用的文章的分類中,如圖6 所示。
圖6 錯(cuò)誤案例Fig.6 Error case
該文章開頭提及了以色列國防軍配備了一種裝載人工智能系統(tǒng)的坦克,并在后續(xù)對該坦克進(jìn)行了詳細(xì)介紹,之后花費(fèi)了大量篇幅對軍事領(lǐng)域內(nèi)容進(jìn)行了描述。文章中大量出現(xiàn)“國防軍”“坦克”“裝甲戰(zhàn)斗”等軍事領(lǐng)域詞匯和科普圖譜中屬于軍事科普分類下的“MerkavaMk4Barak 坦克”“IronViewVR 頭盔”等軍事實(shí)體。雖然該文本主要內(nèi)容為人工智能技術(shù)在軍事領(lǐng)域應(yīng)用及相關(guān)的倫理問題,應(yīng)屬于信息科技分類,但大量的軍事領(lǐng)域詞匯和軍事領(lǐng)域?qū)嶓w形成的噪聲誤導(dǎo)了分類器,以至于將本屬于信息科技分類下的文本劃分到軍事科普分類中。類似情況在錯(cuò)誤案例中頻繁發(fā)生。
上述結(jié)果表明,利用知識(shí)圖譜實(shí)體信息構(gòu)建的過濾器,對長文本進(jìn)行句子篩選,能夠有效地提取包含領(lǐng)域相關(guān)實(shí)體、領(lǐng)域詞匯句子,對長文本分類模型性能有所提升。
本文研究基于領(lǐng)域知識(shí)圖譜的文本分類模型,提出了知識(shí)圖譜增強(qiáng)的科普文本分類模型。首先,將輸入文本切分為句子集,使用BERT 作為句子編碼器,將所有句子轉(zhuǎn)化為句向量集;然后,構(gòu)建了一個(gè)以科普領(lǐng)域圖譜實(shí)體信息作為監(jiān)督數(shù)據(jù)源,科普文本句子集作為輸入的二分類過濾器,基于過濾器,對輸入文本進(jìn)行篩選,輸出固定數(shù)量且排名靠前的句子向量;最后,通過注意力模型獲得對文本信息高度總結(jié)的輸出向量,將其輸入分類層獲得文本對應(yīng)類別概率,以實(shí)現(xiàn)文本分類。通過在科普分類數(shù)據(jù)集PSCD 進(jìn)行對比實(shí)驗(yàn)表明,所提出模型在分類性能優(yōu)于基線模型中召回率最高的TextCNN 模型以及F1-Score 最高的BERT 模型,與BERT 模型相比,召回率和F1-Score 分別提升了3.18 個(gè)百分點(diǎn)和1.88個(gè)百分點(diǎn)。對錯(cuò)誤案例的分析可知,僅利用實(shí)體及類別信息不足以解決交叉領(lǐng)域中次要領(lǐng)域信息對分類造成影響的問題。在后續(xù)工作中,將嘗試通過引入更多圖譜信息解決上述問題。
致謝:此項(xiàng)工作得到了中國科普研究所2020年委托合作項(xiàng)目“自然語言處理方法在科普領(lǐng)域的應(yīng)用研究”(200110EMR028)支持。