王培 王亞文 盧苗苗
摘要:文本分類是自然語言領(lǐng)域一個(gè)重要的研究方向和技術(shù)核心,一直受到研究者的熱切關(guān)注。在醫(yī)學(xué)領(lǐng)域,中醫(yī)源遠(yuǎn)流長,在人類歷史發(fā)展中發(fā)揮著不可磨滅的作用。中醫(yī)語言包含了大量中醫(yī)領(lǐng)域術(shù)語,且多為表述嚴(yán)謹(jǐn)和富含辯證思維的古文,上下文詞語關(guān)聯(lián)性較強(qiáng),且大多是結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)的形式,這些特點(diǎn)給中醫(yī)病案的智能分析分類造成了很大地困難。該文基于注意力機(jī)制的深度學(xué)習(xí)模型Bert模型實(shí)現(xiàn)中醫(yī)深層全局語義的特征表示,并進(jìn)行中醫(yī)臨床文本的分類研究。最后通過對中醫(yī)臨床文本分類實(shí)驗(yàn)的驗(yàn)證,該模型達(dá)到了非常可觀的分類效果。
關(guān)鍵詞:文本分類;深度學(xué)習(xí);中醫(yī)文本;注意力機(jī)制
中圖分類號:TP311? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)27-0013-02
Abstract: Text classification is an important research direction and technical core in the field of natural language, and it has always received eager attention from researchers. In the field of medicine, Chinese medicine has a long history and has played an indelible role in the development of human history. The language of Chinese medicine contains a large number of terms in the field of Chinese medicine, and most of them are ancient texts with rigorous expressions and rich dialectical thinking. The contextual words are strongly related, and most of them are in the form of structured, semi-structured or unstructured data. These characteristics give Chinese medicine The intelligent analysis and classification of medical records caused great difficulties. In this paper, the Bert model, a deep learning model based on the attention mechanism, realizes the feature representation of the deep global semantics of TCM, and conducts the classification research of TCM clinical text. Finally, through the verification of the TCM clinical text classification experiment, the model achieved a very considerable classification effect.
Key words: text categorization; deep learning; TCM text; attention mechanism
1 引言
文本分類是按照一定的分類規(guī)則對文本進(jìn)行自動(dòng)劃分類別的過程,在很多領(lǐng)域它都有著非常廣泛的應(yīng)用場景[1]。文本分類分為基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類和基于深度學(xué)習(xí)的文本分類。文本分類的核心是文本的處理分類,它有著非常廣的應(yīng)用前景。
在中醫(yī)領(lǐng)域?qū)τ谖谋痉诸惣夹g(shù)的使用和探索從未停止,常被用于中醫(yī)藥文本分類、中醫(yī)方劑相似度計(jì)算等多項(xiàng)任務(wù)之中。中醫(yī)是以古時(shí)候的“天人合一”為指導(dǎo)思想,以陰陽五行理論為工具,研究人體生命變化規(guī)律的一門學(xué)問[2]。中醫(yī)臨床文本承載了名老中醫(yī)的臨床經(jīng)驗(yàn),也是為病人臨床決策的重要依據(jù)。中醫(yī)臨床文本的正確分類對于中醫(yī)的蓬勃發(fā)展有著重要的意義。本文使用Bert模型對中醫(yī)臨床文本進(jìn)行文本分類研究,該模型的向量表示會隨著上下文的不同而變動(dòng),解決了傳統(tǒng)詞向量無法處理的一詞多義的問題。通過Bert預(yù)訓(xùn)練模型可以生成融合中醫(yī)深層全局語義的特征表示,并且進(jìn)行中醫(yī)臨床文本的分類工作,最后輸出分類的結(jié)果。
2相關(guān)研究
文本分類屬于人工智能技術(shù)領(lǐng)域,是自然處理領(lǐng)域一個(gè)重要的應(yīng)用,也是文本處理中一個(gè)很重要的模塊。文本分類算法的研究就從未停止,在中醫(yī)領(lǐng)域的研究者也進(jìn)行了深入的研究。
顧錚等人[3]將文本分類相關(guān)技術(shù)運(yùn)用到中醫(yī)方劑相似度的計(jì)算上,為中醫(yī)藥研究開辟了新的發(fā)展道路。王華珍等人[4]使用傳統(tǒng)分類算法針對數(shù)據(jù)庫中疾病和癥狀的相關(guān)知識進(jìn)行文本挖掘研究,并在此基礎(chǔ)上構(gòu)建智能診療模型用于智能證型的分類,該模型為中醫(yī)輔助診療決策提供了支持。付釗等人[5]研究了基于語義分塊的中醫(yī)病情分類問題,實(shí)現(xiàn)基于TF-IDF特征的隨機(jī)森林病情分類模型和SVM病情分類模型。陳廣等人[6]研究基于關(guān)鍵語義信息的中醫(yī)腎病病情文本分類問題,使用N-Grams片段的信息熵和關(guān)鍵詞提取算法以及文本關(guān)鍵語義信息提取方法應(yīng)用到中醫(yī)腎病病情文本分類上。
3 研究方法
語言模型的研究經(jīng)歷了one-hot、Word2vec、ELMO、GPT再到Bert模型。Word2vec模型訓(xùn)練出來的詞向量屬于靜態(tài)的詞向量,無法表示一詞多義。GPT屬于單向語言模型,無法獲取一個(gè)字或者詞的上下文。ELMO為一詞多義提供了一個(gè)很好的解決方案,會考慮更多的文本信息,基于給定的上下文動(dòng)態(tài)的生成每個(gè)詞的嵌入。Bert模型是綜合ELMO和GPT兩者的優(yōu)勢,是一個(gè)多層雙向Transformer編碼器語言模型,Transformer可以并行訓(xùn)練所有的字,不僅計(jì)算效率很快,而且通過位置嵌入,模型的語言順序的理解能力也比較好。BERT模型具有很多特點(diǎn):真正的雙向、解決一詞多義、并行運(yùn)算、泛化能力強(qiáng)等。Bert是一個(gè)兩階段模型:第一階段雙向語言模型預(yù)訓(xùn)練,預(yù)訓(xùn)練過程中,可以學(xué)習(xí)到每個(gè)詞對應(yīng)的上下文信息。第二階段針對具體的任務(wù)進(jìn)行fine-tine模型,使其學(xué)到新特征,因此可以在具體任務(wù)上打造一個(gè)比較好的效果。