於張閑 胡孔法
摘 ?要: 目前,對(duì)互聯(lián)網(wǎng)上虛假健康信息的研究多集中于謠言識(shí)別,而對(duì)醫(yī)學(xué)信息自動(dòng)分類(lèi)的研究較少。采用基于雙向編碼的語(yǔ)言表征模型和注意力增強(qiáng)的雙向長(zhǎng)短時(shí)記憶模型(BERT-Att-BiLSTM模型),對(duì)健康信息文本進(jìn)行分類(lèi),實(shí)現(xiàn)自動(dòng)識(shí)別虛假健康信息。實(shí)驗(yàn)結(jié)果表明,BERT-Att-BiLSTM模型可以高效地對(duì)醫(yī)學(xué)信息進(jìn)行分類(lèi),其中BERT模型相較于BiLSTM模型,性能提升明顯;與融合Word2Vec的BiLSTM模型相比,BERT-Att-BiLSTM模型效果更佳。
關(guān)鍵詞: 健康信息; 語(yǔ)言表征模型; 雙向長(zhǎng)短時(shí)記憶模型; BERT-Att-BiLSTM模型
中圖分類(lèi)號(hào):TP389.1 ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ? 文章編號(hào):1006-8228(2020)03-01-04
Medical information classification based on BERT-Att-biLSTM model
Yu Zhangxian, Hu Kongfa
(School of Artificial Intelligence and Information Technology, Nanjing University of Chinese Medicine, Nanjing, Jiangsu 210023, China)
Abstract: At present, the research on false health information on the Internet focuses on rumor recognition, while the research on automatic classification of medical information is less. In this paper, a language presentation model based on BERT (Bidirectional Encoder Representations from Transformers) model and Att-BiLSTM (Attention-based Bidirectional Long Short-Term Memory) model is used to classify the health information texts and realize the automatic identification of false health information. The experimental results show that the BERT-Att-BiLSTM model can classify medical information efficiently. The performance of the BERT model is significantly improved compared with the BiLSTM model. Compared with the BiLSTM model with Word2Vec, the BERT-Att-BiLSTM model is better.
Key words: health information; language representation model; bidirectional long short-term memory model; BERT-Att-BiLSTM model
0 引言
近年隨著互聯(lián)網(wǎng)的快速發(fā)展和人類(lèi)經(jīng)濟(jì)與科學(xué)的進(jìn)步,人們對(duì)自身健康越來(lái)越重視,促使互聯(lián)網(wǎng)上健康相關(guān)信息呈現(xiàn)豐富、多樣的特點(diǎn)。目前,有不少研究表明,網(wǎng)絡(luò)上的一般謠言基本可以自動(dòng)識(shí)別。但是,若要自動(dòng)識(shí)別虛假健康信息卻難以達(dá)到理想的效果。因?yàn)樘摷俳】敌畔⑼剖嵌?,與真實(shí)信息相似度較高,需要具有一定的專(zhuān)業(yè)醫(yī)學(xué)知識(shí)才能識(shí)別,這樣的信息只有靠人工才能夠識(shí)別。因此,自動(dòng)高效地識(shí)別虛假健康信息的意義重大。
文本分類(lèi)是自然語(yǔ)言處理(NaturalLanguage Processing,NLP)的研究熱點(diǎn)之一。近年來(lái),隨著計(jì)算機(jī)硬件性能的提高、云計(jì)算、大數(shù)據(jù)等技術(shù)的成熟,深度神經(jīng)網(wǎng)絡(luò)取得了巨大的突破,在很多應(yīng)用領(lǐng)域取得了顛覆性的成果[1]。目前,網(wǎng)上信息以短文本為主,由于短文本具有長(zhǎng)度短、特征稀疏及上下文依賴(lài)性等特點(diǎn),采用例如樸素貝葉斯(Na?ve Bayes,NB)和支持向量機(jī)(Support Vector Machines,SVM)等傳統(tǒng)的文本分類(lèi)方法,直接進(jìn)行分類(lèi),分類(lèi)效果不佳[2]。
深度學(xué)習(xí)方法將人工選取特征的過(guò)程,轉(zhuǎn)化為通過(guò)數(shù)據(jù)自動(dòng)學(xué)習(xí)特征的通用的學(xué)習(xí)過(guò)程,同時(shí)通過(guò)優(yōu)化訓(xùn)練模型的參數(shù),提高效率和精度,避免了人工選取特征的主觀性和偶然性。2014年,Kim[3]將簡(jiǎn)單卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)用于文本分類(lèi),提高了文本分類(lèi)的準(zhǔn)精確度,使得CNN成為NLP中最具代表性的模型之一,但CNN擅長(zhǎng)學(xué)習(xí)文本的局部特征,忽略了詞的上下文含義。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能學(xué)習(xí)任意時(shí)長(zhǎng)序列的輸入,為了學(xué)習(xí)序列的上下語(yǔ)義關(guān)系,主要采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional RNN,BiRNN)[4]。但隨著輸入的增多,RNN對(duì)很久以前信息的感知能力下降,產(chǎn)生長(zhǎng)期依賴(lài)和梯度消失問(wèn)題[5]。從RNN 改進(jìn)而來(lái)的長(zhǎng)短時(shí)記憶模型(Long Short-Term Memory,LSTM)[6]利用門(mén)機(jī)制可以克服RNN的缺點(diǎn)。
近幾年,注意力(Attention)機(jī)制在文本分類(lèi)領(lǐng)域受到關(guān)注,且該機(jī)制在文本處理領(lǐng)域被驗(yàn)證為一種有效的機(jī)制,它的主要原理是通過(guò)動(dòng)態(tài)學(xué)習(xí)不同特征對(duì)不同任務(wù)的貢獻(xiàn)程度,將注意力集中在重點(diǎn)詞上;就像人類(lèi)視覺(jué)產(chǎn)生的注意力能夠以“高分辨率”聚焦在圖像的特定區(qū)域,同時(shí)以“低分辨率”感知周?chē)鷪D像,然后隨時(shí)間調(diào)整焦點(diǎn)[7]。2018年,可以稱(chēng)之為NLP的一個(gè)重要的分水嶺——ELMo[8]、OpenAI-GPT以及BERT[9]模型的出現(xiàn),尤其是BERT模型,其刷新了11項(xiàng)NLP任務(wù)的之前最優(yōu)性能記錄。
本文以果殼網(wǎng)“流言百科”上的健康相關(guān)信息為研究對(duì)象,采用基于雙向編碼的語(yǔ)言表征模型(Bidirectional Encoder Representations from Transformers,BERT)和注意力增強(qiáng)的雙向長(zhǎng)短時(shí)記憶模型(Attention-Based Bidirectional LSTM,Att-BiLSTM),對(duì)健康信息文本進(jìn)行分類(lèi),實(shí)現(xiàn)對(duì)虛假健康信息的自動(dòng)識(shí)別。
1 相關(guān)研究
文本分類(lèi)包含廣泛的引用場(chǎng)景:垃圾郵件篩查、主題分類(lèi)和情感分析等。近年來(lái),深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)、圖像、語(yǔ)音等領(lǐng)域取得了重大進(jìn)展,但在NLP領(lǐng)域,深度學(xué)習(xí)的潛力并沒(méi)有被挖掘,因此學(xué)者們開(kāi)啟了將深度學(xué)習(xí)應(yīng)用于NLP領(lǐng)域的研究[10],從CNN,RNN到RNN的變型結(jié)構(gòu)——LSTM和GRU等。同時(shí),基于注意力機(jī)制的深度學(xué)習(xí)模型也得到了廣泛的應(yīng)用。潘曉英[11]等提出一種基于雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BLSTM)和注意力機(jī)制的電商評(píng)論情感分類(lèi)模型,實(shí)驗(yàn)表明,相較于傳統(tǒng)的機(jī)器學(xué)習(xí)方法和普通的深度學(xué)習(xí)方法,論模型在準(zhǔn)確率、召回率和F1值指標(biāo)上均有明顯提高,而且BLSTM模型的實(shí)驗(yàn)結(jié)果也明顯優(yōu)于LSTM模型。
2018年,ELMo、OpenAI GPT及BERT模型的出現(xiàn),尤其是BERT模型一度被稱(chēng)為“NLP史上最強(qiáng)模型”。BERT模型是基于Transformer模型,它摒棄了常用的CNN 或者RNN模型,采用Encoder-Decoder架構(gòu)。其本質(zhì)就是一個(gè)預(yù)訓(xùn)練結(jié)構(gòu),先通過(guò)利用大量原始的語(yǔ)料庫(kù)訓(xùn)練,得到一個(gè)泛化能力很強(qiáng)的模型,再進(jìn)行微調(diào)參數(shù)訓(xùn)練,將模型應(yīng)用到任意的特定任務(wù)中[9,12]。目前,NLP領(lǐng)域有些研究的核心都是基于BERT預(yù)訓(xùn)練模型。張培祥[12]結(jié)合BERT預(yù)訓(xùn)練模型和MMR模型,進(jìn)行抽取式自動(dòng)摘要實(shí)驗(yàn),發(fā)現(xiàn)能提取出更符合人們語(yǔ)言邏輯的摘要句。楊飄提出BERT-BiGRU-CRF網(wǎng)絡(luò)結(jié)構(gòu),在MSRA語(yǔ)料上進(jìn)行訓(xùn)練,實(shí)驗(yàn)表明,該模型效果優(yōu)于目前最優(yōu)的 Lattice-LSTM 模型。
2 BERT-Att-BiLSTM模型
BERT-Att-BiLSTM模型如圖1所示,主要分為三部分:先通過(guò)BERT模型訓(xùn)練獲取每則文本的語(yǔ)義表示;再將文本中每個(gè)字的向量表示輸入到Att-iLSTM模型中,進(jìn)行進(jìn)一步語(yǔ)義分析;最后將softmax層輸出文本標(biāo)簽0(假)/1(真)。
2.1 BERT模型
對(duì)于文本分類(lèi)任務(wù),首先要將文本用向量表示,這一過(guò)程稱(chēng)為詞嵌入(Word Embedding)。Mikolov等[13]于2013年提出了Word2Vec模型進(jìn)行詞向量訓(xùn)練,再應(yīng)用于文本分類(lèi)。盡管Word2Vec在不少領(lǐng)域都取得了不錯(cuò)的效果,但其使用惟一的詞向量來(lái)表征一個(gè)詞的多個(gè)語(yǔ)義[14]。與Word2Vec模型相比,BERT模型(如圖2所示)采用的是雙向的Transformer結(jié)構(gòu)進(jìn)行編碼,其中“雙向”意味著模型在處理一個(gè)詞時(shí),其可以根據(jù)上下文的語(yǔ)義關(guān)系,表征字在上下文中的具體語(yǔ)義。
預(yù)訓(xùn)練,是BERT模型的一個(gè)重要階段,通過(guò)對(duì)海量語(yǔ)料的訓(xùn)練,使得單詞學(xué)習(xí)到很好的特征表示。通過(guò)BERT模型訓(xùn)練得到文本的向量表示W(wǎng):
其中W(i)表示第i則文本的向量矩陣,w(i)表示單個(gè)字的表征向量,n表示最大句子長(zhǎng)度(max_seq_length)。
2.2 Att-BiLSTM模型
本文采用Att-BiLSTM模型進(jìn)一步學(xué)習(xí)句中的語(yǔ)義關(guān)系,在正常的BiLSTM模型的輸出層之前增加Attention層,采用Attention機(jī)制,核心在于生成注意力向量,通過(guò)與輸入向量進(jìn)行相似性計(jì)算,更新各個(gè)維度的權(quán)重值,提升重點(diǎn)詞語(yǔ)在句子中的價(jià)值,使模型將注意力集中在重點(diǎn)詞上,降低其他無(wú)關(guān)詞的作用,進(jìn)一步提高文本分類(lèi)的精度[7]。
Att-BiLSTM由詞嵌入層、雙向LSTM層、Attention層及輸出層組成,結(jié)構(gòu)如圖1所示:BERT模型作為Att-BiLSTM的詞嵌入層,雙向LSTM層為隱含層,將輸入序列分別從兩個(gè)方向輸入模型,保存兩個(gè)方向的信息,最后拼接兩個(gè)隱層的信息,得到輸出信息:
其中表示第i則文本的BiLSTM信息,表示第i則文本的前向LSTM信息,表示第i則文本的反向LSTM信息。
為BiLSTM的每個(gè)輸出值分配不同的權(quán)重ω和偏置項(xiàng)b,計(jì)算出第i則文本中每個(gè)單詞的權(quán)重:
通過(guò)softmax歸一化,計(jì)算出各時(shí)刻一個(gè)權(quán)值:
其中uω表示隨機(jī)初始化的注意力矩陣。
對(duì)每個(gè)時(shí)刻的與進(jìn)行加權(quán)求和,得到Attention層的輸出s(i):
將Attention層的輸出s(i)作為輸出層的輸入,通過(guò)softmax對(duì)分類(lèi)情況進(jìn)行歸一化處理,輸出一個(gè)信息真假標(biāo)簽:0(假)/1(真)。
3 實(shí)驗(yàn)與分析
3.1 數(shù)據(jù)收集及預(yù)處理
“流言百科”是果殼網(wǎng)站開(kāi)發(fā)的最新辟謠平臺(tái),該平臺(tái)上包括食品安全、醫(yī)療健康等方面的健康信息。本次實(shí)驗(yàn)的數(shù)據(jù)集是通過(guò)ScraPy和BeautifulSoup等工具,爬取“流言百科”上發(fā)布的健康相關(guān)信息文本(截至2018年10月23日),最終數(shù)據(jù)集大小如表1所示。
3.2 模型參數(shù)設(shè)置
本文中的模型都通過(guò)TensorFlow實(shí)現(xiàn),將Att-BiLSTM、Word2Vec+Att-BiLSTM和BERT模型作為對(duì)照,Word2Vec模型參數(shù)如表2所示。
BERT模型對(duì)硬件要求較高,條件限制較大,但此次實(shí)驗(yàn)的數(shù)據(jù)集較小,所以在進(jìn)行BERT-Att-BiLSTM模型訓(xùn)練時(shí),采用的是同時(shí)進(jìn)行BERT和 Att-BiLSTM模型的參數(shù)優(yōu)化,參數(shù)設(shè)置如表3所示。
3.3 結(jié)果分析
為了檢驗(yàn)本文提出的基于深度學(xué)習(xí)的健康信息分類(lèi)方法的有效性,將Att-BiLSTM、Word2Vec+Att-BiLSTM和BERT模型作為對(duì)照,與BERT-Att-
BiLSTM模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示,融合Word2vec的Att-BiLSTM模型比簡(jiǎn)單的Att-BiLSTM模型在分類(lèi)性能上表現(xiàn)更好。BERT模型相較于神經(jīng)網(wǎng)絡(luò)模型,性能提升非常明顯;與BERT-Att-BiLSTM模型相比,BERT模型的性能略差一些,但是差距較小,可能是由于數(shù)據(jù)集較小導(dǎo)致提升效果不顯著。
4 結(jié)束語(yǔ)
網(wǎng)絡(luò)上的健康信息中含有大量的專(zhuān)業(yè)術(shù)語(yǔ),虛虛實(shí)實(shí),傳統(tǒng)的文本分類(lèi)方法并不適用。本文采用基于雙向編碼的語(yǔ)言表征模型和注意力增強(qiáng)的雙向長(zhǎng)短時(shí)記憶模型,對(duì)健康相關(guān)的信息文本進(jìn)行自動(dòng)分類(lèi),實(shí)驗(yàn)結(jié)果表明,與直接采用神經(jīng)網(wǎng)絡(luò)算法和簡(jiǎn)單利用BERT模型相比,該模型表現(xiàn)更加良好,在測(cè)試集的準(zhǔn)確率最高可達(dá)到89.7%,比常用的神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率更高,也優(yōu)于直接使用BERT模型進(jìn)行分類(lèi)。由于目前數(shù)據(jù)集還比較小,這也可能導(dǎo)致常用的深度神經(jīng)網(wǎng)絡(luò)模型的效果不甚理想,所以需要進(jìn)一步擴(kuò)大數(shù)據(jù)集,并嘗試其他方法來(lái)進(jìn)一步改進(jìn)模型的性能。
參考文獻(xiàn)(References):
[1] Lecun Y, Bengio Y, Hinton G. Deep learning [J].Nature,2015.521(7553):436-444
[2] 劉敬學(xué),孟凡榮,周勇,劉兵.字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)短文本分類(lèi)算法[J].計(jì)算機(jī)工程與應(yīng)用,2018.9:1-11
[3] Kim Y. Convolutional neural networks for sentenceclassification[C].in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, (EMNLP14), Doha, State of Qatar,2014:1746-1751
[4] 李洋,董紅斌.基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J].計(jì)算機(jī)應(yīng)用,2018.38(11):3075-3080
[5] Bengio Y. Learning long-term dependencies with gradientdescent is difficult[J]. IEEE Transactions on Neural Networks,1994.5(2):157-166
[6] Hochreiter S, Bengio Y, Frasconi P, et al. Gradient flow inrecurrent nets: The difficulty of learning long-term dependencies. Kolen JF, Kremer SC. A Field Guide to Dynamical Recurrent Networks. Los Alamitos: IEEE Press,2001.
[7] 朱茂然,王奕磊,高松,王洪偉,鄭麗娟.中文比較關(guān)系的識(shí)別:基于注意力機(jī)制的深度學(xué)習(xí)模型[J].情報(bào)學(xué)報(bào),2019.38(6):612-621
[8] Peters M, Neumann M, Iyyer M, et al. Deep contextualized?word representations. In Proceedings of NAACL,2018:2227-2237
[9] Jacob D, Ming-Wei C, Kenton L, Kristina T. BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[EB/OL],arXiv,2018-10-11, https://arxiv.org/pdf/1810.04805.pdf
[10] 王瑩.基于深度學(xué)習(xí)的文本分類(lèi)研究[D].沈陽(yáng)工業(yè)大學(xué),2019.
[11] 潘曉英,趙普,趙倩.基于BLSTM和注意力機(jī)制的電商評(píng)論情感分類(lèi)模型[J].計(jì)算機(jī)與數(shù)字工程,2019.47(9):2227-2232
[12] 張培祥.中文自動(dòng)摘要模型及其應(yīng)用[D].天津商業(yè)大學(xué),2019.
[13] Mikolov T,Chen K,Corrado G, et al. Efficient estimation?of word representations in vector space[J]. Computer Science,2013:1301,3781
[14] 龔麗娟,王昊,張紫玄,朱立平.Word2vec對(duì)海關(guān)報(bào)關(guān)商品文本特征降維效果分析[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019:1-19