• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的生物醫(yī)學(xué)文本分類研究

      2019-03-24 07:58:18周永稱1崔忠芳2范少萍安新穎
      關(guān)鍵詞:學(xué)科分類卷積向量

      周永稱1,崔忠芳2,范少萍,安新穎

      隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展以及大數(shù)據(jù)時(shí)代的來(lái)臨,人們已經(jīng)進(jìn)入到一個(gè)信息爆炸的年代。在海量的信息資源中,真正有價(jià)值的信息反而被掩蓋和淹沒,人們面臨的不再是信息獲取問題,而是如何在海量信息資源中快速、準(zhǔn)確地獲取有價(jià)值的信息。文本信息是數(shù)量較大也較容易獲取的信息類型,尤其在如今的自媒體時(shí)代,文本信息的產(chǎn)生方式多樣,來(lái)源豐富,但巨大的數(shù)據(jù)量使得人工難以區(qū)分與整理。因此如何有效分類和管理文本信息變得至關(guān)重要,文本分類技術(shù)的重要性也日漸突顯。

      文本分類的相關(guān)研究[1-3]可追溯至20世紀(jì)60年代。“詞頻”概念[4]及概率索引模型[5]等的提出為文本分類的發(fā)展奠定了基礎(chǔ),研究者從詞頻統(tǒng)計(jì)、句法分析及語(yǔ)義分析等角度開展文本分類研究[6]。20世紀(jì)80年代,主要采用知識(shí)工程的方法,根據(jù)領(lǐng)域?qū)<姨峁┑膶I(yè)知識(shí)構(gòu)建類別的推理規(guī)則,手工建立分類器進(jìn)行文本分類。這種方法不僅需要大量的人工參與,分類效果嚴(yán)重依賴類別推理規(guī)則的質(zhì)量,分類效率較低,而且普適性較差,僅適用于特定領(lǐng)域。20世紀(jì)90年代開始,隨著機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,以傳統(tǒng)機(jī)器學(xué)習(xí)方法為基礎(chǔ)的文本分類技術(shù)也逐漸發(fā)展起來(lái)[1]?;跈C(jī)器學(xué)習(xí)的文本分類技術(shù)通過將文本進(jìn)行特征化表示并使用特征數(shù)據(jù)集訓(xùn)練分類器來(lái)開展文本分類[7]。分類過程中,分類知識(shí)或分類規(guī)則由分類器自動(dòng)從數(shù)據(jù)集中學(xué)習(xí),無(wú)需人工干預(yù),分類準(zhǔn)確性及穩(wěn)定性大大提升。然而傳統(tǒng)的基于機(jī)器學(xué)習(xí)方法的文本分類技術(shù)仍存在以下問題:選擇特征詞時(shí)較少考慮詞義,文本表示過程中易形成稀疏向量,向量維度過高易形成維度災(zāi)難,特征降維方法仍需要人工選擇,這些都會(huì)對(duì)最終的文本分類結(jié)果產(chǎn)生影響。

      深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域近年來(lái)發(fā)展最熱的研究方向之一。2006年深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練問題被解決[8],深度學(xué)習(xí)迎來(lái)快速發(fā)展期。由于深度神經(jīng)網(wǎng)絡(luò)具備強(qiáng)大的特征選擇提取與學(xué)習(xí)能力,因此研究者開始將深度神經(jīng)網(wǎng)絡(luò)模型運(yùn)用在圖像識(shí)別、語(yǔ)音識(shí)別及自然語(yǔ)言處理領(lǐng)域,尤其是在文本分類上。

      隨著國(guó)家“雙一流”建設(shè)戰(zhàn)略的推進(jìn),各醫(yī)療衛(wèi)生機(jī)構(gòu)更加重視自身學(xué)科建設(shè),以學(xué)科評(píng)價(jià)排名為亮點(diǎn)的各種醫(yī)院排行榜越來(lái)越受關(guān)注,如復(fù)旦大學(xué)醫(yī)院管理研究所推出的中國(guó)醫(yī)院及??坡曌u(yù)排行榜[9],中國(guó)醫(yī)學(xué)科學(xué)院推出的中國(guó)醫(yī)院科技量值評(píng)價(jià)研究[10]等。在開展學(xué)科評(píng)價(jià)排名,尤其針對(duì)學(xué)科的科研能力水平展開評(píng)價(jià)時(shí),需要將評(píng)價(jià)數(shù)據(jù)按照評(píng)價(jià)體系的學(xué)科分類劃分到不同的學(xué)科類別中,其中就涉及包括SCI論文、臨床試驗(yàn)項(xiàng)目、授權(quán)專利等在內(nèi)的生物醫(yī)學(xué)文本數(shù)據(jù)。針對(duì)生物醫(yī)學(xué)文本的學(xué)科分類,中國(guó)醫(yī)院科技量值評(píng)價(jià)研究課題組先后采用詞表匹配和基于支持向量機(jī)模型的文本分類算法。由于學(xué)科差異性,一些學(xué)科的研究?jī)?nèi)容與其他學(xué)科交叉較少,容易區(qū)分,利用詞表和基于支持向量機(jī)模型的文本分類算法標(biāo)引效果較好,如眼科學(xué)、骨外科學(xué)等。但也有部分學(xué)科由于其研究?jī)?nèi)容與其他學(xué)科交叉較多,利用基于字符串匹配的詞表匹配法和基于支持向量機(jī)模型的文本分類算法分類效果不太理想,仍需采用人工標(biāo)引方法,通過人工閱讀理解文本語(yǔ)義并結(jié)合上下文內(nèi)容確定相關(guān)學(xué)科,如神經(jīng)病學(xué)、消化病學(xué)等。而隨著深度學(xué)習(xí)在文本分類領(lǐng)域的應(yīng)用研究越來(lái)越多,在針對(duì)公開的新聞?wù)Z料或數(shù)據(jù)集的主題分類研究或者社交軟件留言的情感分類研究中,基于深度學(xué)習(xí)的文本分類方法比傳統(tǒng)的淺層機(jī)器學(xué)習(xí)模型具備更好的分類性能?;诖?,本文擬利用深度學(xué)習(xí)相關(guān)模型開展生物醫(yī)學(xué)文本的學(xué)科分類研究。

      本文對(duì)傳統(tǒng)文本分類方法進(jìn)行總結(jié)分析,針對(duì)其中的問題提出基于深度學(xué)習(xí)模型的生物醫(yī)學(xué)文本學(xué)科自動(dòng)分類方法并開展實(shí)證研究,以期提高學(xué)科評(píng)估中生物醫(yī)學(xué)文本的學(xué)科分類效率與質(zhì)量,推動(dòng)醫(yī)院評(píng)價(jià)和學(xué)科評(píng)估工作的開展。

      1 傳統(tǒng)的文本分類方法

      傳統(tǒng)的文本分類方法指基于淺層機(jī)器學(xué)習(xí)模型的文本分類方法,其流程大致可分為文本預(yù)處理、文本表示、特征降維、分類器構(gòu)建及效果評(píng)估幾個(gè)步驟(圖1)。

      文本預(yù)處理階段主要包括文本分詞、去除停用詞等操作,英文文本中還涉及拼寫檢查、詞干提取或詞形還原等操作。開展文本分詞時(shí),英文文本由于單詞之間存在空格,可作為天然的分詞符;而中文文本分詞可采用基于字符串匹配的方法直接匹配詞,也可基于N元模型、隱馬爾可夫算法、條件隨機(jī)場(chǎng)算法等模型或算法根據(jù)字符共現(xiàn)頻率或概率來(lái)衡量字符構(gòu)成一個(gè)詞的可能性。基于字符串匹配的方法對(duì)于未登錄詞無(wú)法處理,基于機(jī)器學(xué)習(xí)相關(guān)模型的分詞方法需要人工構(gòu)建特征,不僅工程量大,而且構(gòu)建質(zhì)量也會(huì)影響分詞效果。

      圖1 傳統(tǒng)文本分類的大致流程

      文本表示旨在將經(jīng)預(yù)處理后的文本轉(zhuǎn)化成計(jì)算機(jī)可識(shí)別、能處理的格式。常見的文本表示模型包括布爾模型[11]、向量空間模型[12]、概率模型[13]等,但它們要么不考慮語(yǔ)義關(guān)系及文本相關(guān)性,要么忽略特征詞之間的相關(guān)性及位置關(guān)系,要么容易形成高維向量和稀疏向量,不僅會(huì)造成分類信息的缺失,而且會(huì)增加計(jì)算開銷。

      特征降維主要包括特征選擇和特征提取。在文本表示階段利用one-hot模型等表示文本時(shí)容易出現(xiàn)高維向量,增加計(jì)算復(fù)雜度和時(shí)間消耗,因此需要生成低維的特征向量,盡量減少分類信息的損失。特征選擇指從特征詞集合中挑選出最能代表該類的特征構(gòu)建特征矢量,常用的方法有信息增益[14]、文檔頻率[15]、卡方統(tǒng)計(jì)法[16]、互信息量[17]等;特征提取是指將特征矢量通過線性映射到低維空間中,常用的方法有主成分分析法[18]、獨(dú)立成分分析法[19]等。特征降維過程需要人工參與,如特征選擇過程的基本思想是使用某些評(píng)估方法對(duì)每個(gè)特征詞賦予不同的分?jǐn)?shù),然后人為設(shè)定閾值,讓分?jǐn)?shù)高于該閾值的特征詞組成新的特征集合。人為的參與會(huì)對(duì)最終的文本分類結(jié)果產(chǎn)生影響。

      分類器構(gòu)建階段常用的分類模型有樸素貝葉斯分類算法[20]、K最近鄰算法[21]、決策樹[22]、支持向量機(jī)(Support Vector Machine,SVM)[23]等,它們?cè)谟邢薜臄?shù)據(jù)集和有限的計(jì)算單元的情況下對(duì)于復(fù)雜函數(shù)的擬合有限,對(duì)于復(fù)雜問題的處理能力被制約[24],并且其分類效果的好壞與特征降維的效果有直接關(guān)系。因此應(yīng)用這些分類模型開展文本分類研究時(shí),還需要在特征選擇與特征提取上耗費(fèi)大量時(shí)間和精力。

      效果評(píng)估則是利用準(zhǔn)確率、召回率和F1值等相關(guān)指標(biāo)衡量分類模型在測(cè)試集中的分類性能。

      2 基于深度學(xué)習(xí)的文本分類方法

      深度學(xué)習(xí)是機(jī)器學(xué)習(xí)發(fā)展到一定程度產(chǎn)生的新的分支。2006年深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難題被解決后,深度學(xué)習(xí)獲得了快速發(fā)展。它通過多層表示學(xué)習(xí)將原始數(shù)據(jù)逐層轉(zhuǎn)化為抽象的表示,從數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,利用其強(qiáng)大的運(yùn)算和學(xué)習(xí)能力發(fā)現(xiàn)高維數(shù)據(jù)中的復(fù)雜結(jié)構(gòu),進(jìn)而將提取的特征信息用于分類和預(yù)測(cè)[25-26]。

      傳統(tǒng)的文本分類方法存在以下問題:文本表示過程中容易形成高維向量或損失語(yǔ)義,特征降維過程需要人工參與,分類器構(gòu)建階段淺層模型對(duì)數(shù)據(jù)的學(xué)習(xí)能力有限。基于此,本文擬利用詞向量的方式進(jìn)行文本表示,利用深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行特征的提取、學(xué)習(xí)與分類?;谏疃葘W(xué)習(xí)的文本分類流程主要包括文本預(yù)處理、文本表示、分類模型構(gòu)建、效果評(píng)估等步驟(圖2)。

      2.1 文本預(yù)處理

      文本預(yù)處理是文本分類的基礎(chǔ),預(yù)處理的結(jié)果會(huì)直接影響分類結(jié)果。由于學(xué)科評(píng)估涉及的生物醫(yī)學(xué)文本多為SCI論文、授權(quán)發(fā)明專利標(biāo)題、臨床試驗(yàn)項(xiàng)目標(biāo)題等英文文本,因此在本文的文本預(yù)處理階段,除了文本分詞、去除停用詞等操作外,還需要進(jìn)行縮寫詞的擴(kuò)展、大小寫轉(zhuǎn)換、詞干提取及詞形還原等操作。目前Python庫(kù)中封裝的相應(yīng)數(shù)據(jù)包可以開展相關(guān)操作,經(jīng)過文本預(yù)處理后,剩下的文本可以更好地表達(dá)文本特征。

      圖2基于深度學(xué)習(xí)的文本分類流程

      2.2 文本表示

      針對(duì)傳統(tǒng)文本分類方法中文本表示容易出現(xiàn)高維向量、稀疏向量,語(yǔ)義缺失等問題,本文擬采用詞向量的方法進(jìn)行文本表示以解決相關(guān)問題。詞向量是指用一個(gè)定長(zhǎng)的稠密向量來(lái)表示一個(gè)詞,向量之間的距離可以反映詞與詞之間的相似性。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的詞嵌入方法被應(yīng)用于文本表示中,其中應(yīng)用較為廣泛的是Mikolov等人提出的Word2vec模型[27]。該模型主要利用大規(guī)模語(yǔ)料,在較短的時(shí)間內(nèi)學(xué)到每個(gè)詞的低維度表達(dá),形成詞向量,不僅可以讓相似的詞在向量上具有更近的距離,而且較低的維度也可減少計(jì)算的復(fù)雜性。Word2vec模型有兩種,分別為Skip-gram模型[28]及Continuous Bag of Words(CBOW)模型[29]。CBOW模型主要利用前后詞預(yù)測(cè)當(dāng)前詞(圖3),而Skip-gram模型主要利用當(dāng)前詞預(yù)測(cè)前后詞(圖4)。由于詞向量具備低維、稠密、向量距離代表語(yǔ)義關(guān)系遠(yuǎn)近等優(yōu)點(diǎn),克服了傳統(tǒng)文本分類方法中文本表示的高維向量等缺點(diǎn),因此可以有效提升生物醫(yī)學(xué)文本的學(xué)科分類精度。

      圖3 CBOW模型

      圖4 Skip-gram模型

      2.3 分類模型構(gòu)建

      針對(duì)傳統(tǒng)文本分類方法中分類模型學(xué)習(xí)能力弱、泛化能力不強(qiáng)、需要人工干預(yù)特征降維等問題,本文擬利用深度神經(jīng)網(wǎng)絡(luò)模型構(gòu)建分類器。隨著深度學(xué)習(xí)的發(fā)展,和在圖像識(shí)別和語(yǔ)音識(shí)別等領(lǐng)域的成功應(yīng)用,研究者開始嘗試將深度學(xué)習(xí)應(yīng)用到自然語(yǔ)言處理領(lǐng)域,尤其是文本分類中。在分類模型上,采用深度神經(jīng)網(wǎng)絡(luò)模型構(gòu)建分類器可實(shí)現(xiàn)對(duì)特征的自動(dòng)提取與分類,且其強(qiáng)大的學(xué)習(xí)與計(jì)算能力可幫助處理更加復(fù)雜的問題。

      目前在文本分類模型構(gòu)建中廣泛使用的深度神經(jīng)網(wǎng)絡(luò)模型有卷積神經(jīng)網(wǎng)絡(luò)模型(Convolutional Neural Networks,CNN)[30]、循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Recurrent Neural Network,RNN)[31]、長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型(Long Short-term Memory Networks,LSTM)[32]等。

      卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),包含輸入層、隱層和輸出層,是深度學(xué)習(xí)中較為經(jīng)典也較有代表性的算法之一。隱層中一般包含卷積層和池化層,其中卷積層的功能是對(duì)輸入數(shù)據(jù)進(jìn)行特征提取,獲得特征映射,通過疊加多個(gè)卷積層可以提取到數(shù)據(jù)中的深層特征;池化層負(fù)責(zé)對(duì)特征進(jìn)行壓縮,提取主要特征。輸出層則利用Softmax分類器[33]計(jì)算文本在各個(gè)類別下的概率,給出最終分類結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)集權(quán)值共享和局部感受野于一體,不僅可以在提取特征的同時(shí)實(shí)現(xiàn)降維和權(quán)值的共享,而且能控制模型參數(shù)個(gè)數(shù)進(jìn)而降低模型復(fù)雜度。循環(huán)神經(jīng)網(wǎng)絡(luò)是以序列數(shù)據(jù)為輸入的遞歸神經(jīng)網(wǎng)絡(luò),在序列演進(jìn)方向遞歸且所有循環(huán)單元按鏈?zhǔn)芥溄?。該網(wǎng)絡(luò)隱層中的前一時(shí)刻狀態(tài)可向下傳遞,從而影響并參與下一時(shí)刻隱層狀態(tài)的計(jì)算,實(shí)現(xiàn)信息的前后關(guān)聯(lián),解決輸入間前后關(guān)聯(lián)的問題。因此,利用循環(huán)神經(jīng)網(wǎng)絡(luò)模型開展文本分類研究,可提取文本的上下文序列信息。但循環(huán)神經(jīng)網(wǎng)絡(luò)模型只能對(duì)短距離的信息進(jìn)行記憶,而長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)上比循環(huán)神經(jīng)網(wǎng)絡(luò)更優(yōu)化,它在循環(huán)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上添加了一個(gè)保存長(zhǎng)距離信息的單元。這種單元通過利用“輸入門”“遺忘門”和“輸出門”這3種門控結(jié)構(gòu)來(lái)控制信息的保留或丟棄,從而實(shí)現(xiàn)對(duì)序列數(shù)據(jù)中長(zhǎng)距離依賴信息的學(xué)習(xí)。

      近年來(lái),注意力(Attention)機(jī)制也開始成為關(guān)注熱點(diǎn)。它借鑒人類視覺在掃描全局內(nèi)容時(shí)會(huì)將注意力放在重點(diǎn)關(guān)注的目標(biāo)區(qū)域,對(duì)神經(jīng)網(wǎng)絡(luò)模型中間狀態(tài)的不同輸入賦予不同的權(quán)重,將對(duì)分類有幫助的因素賦予更大的權(quán)重來(lái)獲得更好的分類效果[34]。

      基于此,本文擬采用以下4個(gè)深度神經(jīng)網(wǎng)絡(luò)模型用于學(xué)科分類。

      CNN模型:CNN模型是較早應(yīng)用于文本分類中,也是較為經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)模型,為增強(qiáng)模型對(duì)特征的提取能力。本文中的CNN模型采用雙卷積層,且每個(gè)卷積層包括多個(gè)卷積核來(lái)幫助提取特征。如圖5所示,輸入層數(shù)據(jù)先進(jìn)入C1卷積層,經(jīng)過卷積操作后輸入S2池化層,再將池化層的輸出輸入C3卷積層進(jìn)行卷積操作,輸出到S4池化層,然后經(jīng)過全連接層最后輸入到分類器中得到分類結(jié)果。

      LSTM模型:由于本文中需要進(jìn)行分類的數(shù)據(jù)是文本數(shù)據(jù),前后文之間存在一定的聯(lián)系,而LSTM模型的獨(dú)特的記憶單元中包含的門控結(jié)構(gòu)可幫助提取長(zhǎng)距離信息,輔助分類。其記憶單元如圖6所示,其中ft是遺忘門,它控制著上一時(shí)刻的長(zhǎng)期記憶狀態(tài)Ct-1可以保留多少信息到當(dāng)前時(shí)刻的記憶狀態(tài)Ct;it是輸入門,它控制著當(dāng)前時(shí)刻的即時(shí)狀態(tài)c't可以保留多少信息到當(dāng)前時(shí)刻的記憶狀態(tài)Ct;ot是輸出門,它控制著當(dāng)前時(shí)刻的記憶狀態(tài)Ct可以保留多少信息到當(dāng)前時(shí)刻的輸出ht[35]。3個(gè)門結(jié)構(gòu)對(duì)于信息的輸入輸出控制均取決于上一個(gè)時(shí)刻的輸出和當(dāng)前即時(shí)的輸入,而3個(gè)門結(jié)構(gòu)控制著當(dāng)前時(shí)刻的輸出。也就是說(shuō),當(dāng)前時(shí)刻的輸出可以由上一個(gè)時(shí)刻的輸出和當(dāng)前即時(shí)的輸入共同決定,有利于文本中上下文序列特征的提取。

      LSTM-CNN模型:由于單個(gè)模型對(duì)于特征的提取各有側(cè)重,因此較多研究者利用混合模型來(lái)發(fā)揮各個(gè)模型的優(yōu)點(diǎn),充分提取特征。本文探索利用混合模型提取文本特征并分類,其過程如下:經(jīng)過文本表示后,詞向量先進(jìn)入LSTM模型以提取文本上下文序列特征,然后輸出到CNN模型的卷積層中提取文本的局部特征,經(jīng)卷積、池化操作后數(shù)據(jù)輸出到全連接層中做拼接,最后利用SoftMax函數(shù)進(jìn)行分類。

      圖5 本文中CNN模型結(jié)構(gòu)

      LSTM-attention模型:由于一條文本數(shù)據(jù)中各個(gè)詞對(duì)于分類的重要性不一樣,因此本文將注意力機(jī)制和LSTM模型相結(jié)合,其結(jié)構(gòu)如圖7所示[36]。

      圖7 本文中LSTM-attention模型結(jié)構(gòu)

      將文本中的單詞用詞向量表示后輸入LSTM模型,提取上下文序列特征,得到隱層的輸出(h0,h1,h2......),然后利用注意力機(jī)制計(jì)算各個(gè)輸入的注意力概率分布值(α0,α1,α2......),對(duì)隱層的不同輸出賦予不一樣的權(quán)重,最后計(jì)算出包含文本信息的特征向量[36]。

      除了構(gòu)建以上4個(gè)深度神經(jīng)網(wǎng)絡(luò)模型外,本文還采用傳統(tǒng)文本分類方法中較為經(jīng)典的SVM模型作為對(duì)照組,以驗(yàn)證基于深度學(xué)習(xí)的文本分類方法是否在生物醫(yī)學(xué)文本的學(xué)科分類上有更好的性能。效果評(píng)估仍采用準(zhǔn)確率、召回率及F1值來(lái)評(píng)估模型的分類性能。

      3 實(shí)驗(yàn)

      本文實(shí)驗(yàn)在Window 10系統(tǒng)下進(jìn)行,GPU為GTX 1080Ti,內(nèi)存大小為32GB,編程語(yǔ)言為Python 3.6,開發(fā)工具為Sublime Text 3,深度學(xué)習(xí)框架為TensorFlow 1.8。數(shù)據(jù)來(lái)源為中國(guó)醫(yī)學(xué)科學(xué)院在中國(guó)醫(yī)院科技量值評(píng)價(jià)研究中累積的人工標(biāo)注的SCI論文,包括神經(jīng)病學(xué)10 471篇、消化病學(xué)13 018篇及腫瘤學(xué)29 172篇。這3個(gè)學(xué)科的文本在以往的學(xué)科分類中,由于與其他學(xué)科的研究?jī)?nèi)容交叉性較大,利用傳統(tǒng)的SVM模型或者詞表匹配方法都無(wú)法得到一個(gè)較高的準(zhǔn)確性。每個(gè)學(xué)科的數(shù)據(jù)按照訓(xùn)練集、驗(yàn)證集、測(cè)試集為6∶2∶2的比例劃分,正負(fù)數(shù)據(jù)比例為1∶1。

      本文采用CNN、LSTM、LSTM-CNN、LSTM-attention及SVM模型,分別對(duì)3個(gè)學(xué)科的文本進(jìn)行學(xué)科分類,每個(gè)學(xué)科的文本分類問題均為二分類問題,然后對(duì)比各個(gè)模型在同一個(gè)學(xué)科文本上的分類性能。

      在利用SVM模型進(jìn)行文本分類時(shí),同樣用基于詞向量的方法進(jìn)行文本表示,以避免因?yàn)樘卣鳂?gòu)建方法不一樣導(dǎo)致結(jié)果無(wú)可比性。

      3.1 文本預(yù)處理

      針對(duì)3個(gè)學(xué)科的數(shù)據(jù)集,均采用Python中自帶的自然語(yǔ)言處理工具集NLTK模塊進(jìn)行文本的切詞、去除停用詞、大小寫轉(zhuǎn)換等操作后得到的數(shù)據(jù)集如圖8所示(以神經(jīng)病學(xué)數(shù)據(jù)為例)。其中第1列為標(biāo)簽列,“1”表示該文本屬于神經(jīng)病學(xué)科,“0”表示該文本不屬于神經(jīng)病學(xué)科;第2列為經(jīng)過文本預(yù)處理的SCI論文標(biāo)題和摘要內(nèi)容。

      圖8 預(yù)處理后的文本集

      3.2 文本表示

      采用Word2vec模型構(gòu)建詞向量進(jìn)行文本表示。由于Skip-gram模型在針對(duì)低頻詞時(shí)比CBOW模型更敏感,因此直接導(dǎo)入Python中的Gensim模塊,選擇Skip-gram模型訓(xùn)練詞向量,設(shè)置詞向量維度為128,窗口長(zhǎng)度為3,訓(xùn)練得到的詞向量見圖9。

      圖9 訓(xùn)練完的詞向量

      3.3 分類模型訓(xùn)練

      以神經(jīng)病學(xué)科的數(shù)據(jù)集為例,分別在訓(xùn)練集和驗(yàn)證集上訓(xùn)練CNN、LSTM、LSTM-CNN、LSTM-attention模型及SVM模型,調(diào)節(jié)相關(guān)參數(shù)。對(duì)CNN模型確定了兩層卷積層結(jié)構(gòu)。第一個(gè)卷積層中,6個(gè)不同大小卷積核的卷積結(jié)果基于通道數(shù)合并后輸入第二層卷積層再輸入全連接層做交叉熵分類。對(duì)LSTM模型采用單層雙向的LSTM模型。對(duì)LSTM-CNN模型,數(shù)據(jù)先輸入單層雙向的LSTM層,然后輸入到包含4個(gè)卷積核的卷積層中,最后輸入全連接層做交叉熵分類。對(duì)LSTM-attention模型,數(shù)據(jù)先輸入單層雙向的LSTM層,對(duì)輸出做拼接和隨機(jī)失活(dropout)處理后再后接一個(gè)self-attention結(jié)構(gòu),對(duì)LSTM層的輸出向量做加權(quán)求和后再輸入到全連接層做交叉熵分類。上述4類模型學(xué)習(xí)率初始化均設(shè)為0.005,激活函數(shù)選用relu函數(shù),dropout值設(shè)為0.8,優(yōu)化器使用adam。在神經(jīng)病學(xué)科的訓(xùn)練集上4類深度神經(jīng)網(wǎng)絡(luò)模型的損失和準(zhǔn)確性隨迭代次數(shù)增加的變化如圖10、圖11所示。

      圖10 4個(gè)模型在神經(jīng)病學(xué)科訓(xùn)練集上隨迭代次數(shù)增加損失值的變化趨勢(shì)

      圖11 4個(gè)模型在神經(jīng)病學(xué)科訓(xùn)練集上隨迭代次數(shù)增加準(zhǔn)確性的變化趨勢(shì)

      隨著迭代次數(shù)的增加,4類模型的損失值趨向于0,準(zhǔn)確性趨向于100%。上述模型訓(xùn)練好后利用測(cè)試集測(cè)試模型分類性能。

      3.4 效果評(píng)估

      通過在神經(jīng)病學(xué)、消化病學(xué)及腫瘤學(xué)3個(gè)學(xué)科的訓(xùn)練集和驗(yàn)證集上訓(xùn)練CNN、LSTM、LSTM-CNN、LSTM-attention及SVM模型,并在相關(guān)測(cè)試集上進(jìn)行測(cè)試,利用準(zhǔn)確率、召回率及F1值評(píng)估各個(gè)模型的分類性能。其結(jié)果如表1所示。

      將5個(gè)模型在3個(gè)學(xué)科測(cè)試集上的F1值用柱狀圖作對(duì)比,如圖12-圖14所示。

      表1 5類模型在3個(gè)學(xué)科測(cè)試集中的準(zhǔn)確率、召回率及F1值對(duì)比

      圖12 5個(gè)模型在神經(jīng)病學(xué)測(cè)試集上的F1值對(duì)比

      圖13 5個(gè)模型在消化病學(xué)測(cè)試集上的F1值對(duì)比

      圖14 5個(gè)模型在腫瘤學(xué)測(cè)試集上的F1值對(duì)比

      從上述對(duì)比圖中可知,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型在3個(gè)學(xué)科文本的學(xué)科分類性能上均明顯優(yōu)于傳統(tǒng)的SVM模型(神經(jīng)病學(xué)科F1值高約10個(gè)百分點(diǎn),消化病學(xué)科F1值高約7個(gè)百分點(diǎn),腫瘤學(xué)科F1值高約4個(gè)百分點(diǎn));同一模型在不同學(xué)科文本上的分類性能有較大區(qū)別,具備學(xué)科差異性;雙卷積層的卷積神經(jīng)網(wǎng)絡(luò)模型在這3個(gè)學(xué)科文本中具有最好的分類性能;混合深度神經(jīng)網(wǎng)絡(luò)模型以及基于Attention機(jī)制的神經(jīng)網(wǎng)絡(luò)模型相比單個(gè)神經(jīng)網(wǎng)絡(luò)模型而言,在3個(gè)學(xué)科文本的學(xué)科分類性能上并無(wú)明顯的優(yōu)越性。

      4 結(jié)論與展望

      鑒于深度學(xué)習(xí)在文本分類中被廣泛應(yīng)用以及課題組針對(duì)生物醫(yī)學(xué)文本的淺層分類模型無(wú)法滿足學(xué)科分類需求,本文對(duì)10 471篇神經(jīng)病學(xué)SCI論文、13 018篇消化病學(xué)SCI論文以及29 172篇腫瘤學(xué)SCI論文進(jìn)行文本預(yù)處理、文本表示等步驟分別構(gòu)建訓(xùn)練集和測(cè)試集,對(duì)CNN、LSTM、LSTM-CNN、LSTM-attention及SVM模型進(jìn)行訓(xùn)練及測(cè)試。實(shí)驗(yàn)結(jié)果表明基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型相比傳統(tǒng)的基于統(tǒng)計(jì)的SVM模型具有更好的分類性能,可見基于深度學(xué)習(xí)的文本分類方法在生物醫(yī)學(xué)文本的學(xué)科分類上也具備相當(dāng)好的分類性能。在中國(guó)醫(yī)院科技量值的后續(xù)研究及學(xué)科評(píng)估中,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,尤其是雙層卷積神經(jīng)網(wǎng)絡(luò)模型為生物醫(yī)學(xué)文本的學(xué)科自動(dòng)分類研究提供了一種解決方法。

      此外,在醫(yī)院評(píng)價(jià)和學(xué)科評(píng)估過程中,往往由第三方評(píng)估機(jī)構(gòu)主導(dǎo)評(píng)價(jià)工作。其中一個(gè)必不可少的過程是數(shù)據(jù)匹配與核對(duì),即將第三方評(píng)估機(jī)構(gòu)掌握的評(píng)價(jià)數(shù)據(jù)與被評(píng)估機(jī)構(gòu)自身上報(bào)的數(shù)據(jù)進(jìn)行匹配,查漏補(bǔ)缺。由于評(píng)價(jià)數(shù)據(jù)尤其是科研產(chǎn)出相關(guān)數(shù)據(jù)如SCI論文、授權(quán)發(fā)明專利等均為文本數(shù)據(jù),在匹配過程中會(huì)涉及到文本相似度計(jì)算的問題。深度學(xué)習(xí)其強(qiáng)大的特征提取與計(jì)算能力也為醫(yī)院評(píng)價(jià)和學(xué)科評(píng)估過程中文本相似度計(jì)算提供了一種解決辦法。

      猜你喜歡
      學(xué)科分類卷積向量
      基于學(xué)科識(shí)別功能的中國(guó)學(xué)位服色彩設(shè)計(jì)研究
      絲綢(2024年7期)2024-12-31 00:00:00
      向量的分解
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      聚焦“向量與三角”創(chuàng)新題
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      審計(jì)學(xué)成為一級(jí)學(xué)科可行性研究
      中醫(yī)藥信息學(xué)教育發(fā)展歷程回顧與學(xué)科發(fā)展現(xiàn)狀分析
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      金山区| 石屏县| 衡阳县| 沙坪坝区| 安丘市| 贡觉县| 新化县| 广昌县| 金乡县| 县级市| 富川| 中方县| 绥化市| 东辽县| 韶关市| 织金县| 天等县| 南丹县| 德保县| 台安县| 东乌珠穆沁旗| 马山县| 常宁市| 莎车县| 榆林市| 利津县| 靖远县| 湟源县| 商洛市| 巴楚县| 宁陕县| 西丰县| 延寿县| 阳西县| 安图县| 珲春市| 米脂县| 岳池县| 呈贡县| 辉县市| 宁国市|