王 熙 呂佳高
(北京航空航天大學(xué)軟件開發(fā)環(huán)境國家重點(diǎn)實(shí)驗(yàn)室,北京,100083)
近年來,隨著科學(xué)技術(shù)的迅猛發(fā)展,海量的科研成果涌現(xiàn),極大地豐富了科技文獻(xiàn)寶庫。據(jù)統(tǒng)計(jì),目前全球每年發(fā)表的科技論文在500萬篇以上,且每年增長率約為7%~8%,而這其中的80%-90%都是生物醫(yī)藥文獻(xiàn)[1]。
生物醫(yī)藥研究領(lǐng)域存在文獻(xiàn)數(shù)量龐大的情況,在實(shí)驗(yàn)過程中新發(fā)現(xiàn)、新積累的數(shù)據(jù)和研究對(duì)象也增長迅速,因此迫切需要運(yùn)用自然語言處理和機(jī)器學(xué)習(xí)的新方法對(duì)該領(lǐng)域的命名實(shí)體識(shí)別和關(guān)系抽取進(jìn)行研究和改進(jìn)。生物醫(yī)藥文獻(xiàn)的命名實(shí)體識(shí)別和關(guān)系抽取是進(jìn)行大規(guī)模生物醫(yī)藥數(shù)據(jù)分析的重要工具,已經(jīng)被廣泛應(yīng)用于許多實(shí)際的任務(wù)中,例如生物醫(yī)藥網(wǎng)絡(luò)構(gòu)建、基因優(yōu)先排序、藥物重定位、新藥預(yù)測、知識(shí)庫構(gòu)建等。其中,生物醫(yī)藥命名實(shí)體識(shí)別是生物醫(yī)藥文本挖掘的關(guān)鍵步驟,隨著技術(shù)的不斷完善,文本挖掘系統(tǒng)的準(zhǔn)確性也在不斷提高。近10年,生物醫(yī)藥文本挖掘和自然語言處理技術(shù)取得了巨大突破,并從生物醫(yī)藥文獻(xiàn)中挖掘出有價(jià)值的科學(xué)信息,為科研人員和大眾服務(wù)[2]。
命名實(shí)體最初是在第六屆消息理解會(huì)議(MUC)[3]上被提出。在語言使用中,命名實(shí)體具有獨(dú)立的意義,常常作為一個(gè)整體出現(xiàn)在語句中。命名實(shí)體識(shí)別是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等,其擴(kuò)展任務(wù)還包括名實(shí)體的單復(fù)數(shù)識(shí)別任務(wù)。
生物醫(yī)藥文獻(xiàn)命名實(shí)體識(shí)別相較于一般的命名實(shí)體識(shí)別更加專業(yè)化,不同的研究對(duì)命名實(shí)體的定義各有不同,主要體現(xiàn)在實(shí)體類型的粒度上,如醫(yī)療一體化語言系統(tǒng)UMLS[4]定義的語義類型把命名實(shí)體分為3類:醫(yī)療問題(包括疾病和癥狀)、治療、檢查。這種分類充分體現(xiàn)了面向問題的思想,醫(yī)療手段是為了治療醫(yī)療問題,檢查是為了確認(rèn)醫(yī)療問題。
實(shí)體和實(shí)體之間存在著語義關(guān)系,當(dāng)兩個(gè)實(shí)體出現(xiàn)在同一個(gè)句子里時(shí),上下文環(huán)境就決定了兩個(gè)實(shí)體間的語義關(guān)系,如雇員和公司間的雇傭關(guān)系、商品和類目之間的類屬關(guān)系、藥品和疾病之間的治療關(guān)系等。完整的實(shí)體關(guān)系包括兩方面:關(guān)系類型和關(guān)系的參數(shù),其中關(guān)系類型說明了是什么關(guān)系,如雇傭關(guān)系、類屬關(guān)系等;關(guān)系的參數(shù)則是發(fā)生關(guān)系的實(shí)體,如雇傭關(guān)系中的雇員和公司,并且至少是兩個(gè)參數(shù),兩個(gè)參數(shù)的關(guān)系叫二元關(guān)系,兩個(gè)以上參數(shù)的關(guān)系是多元關(guān)系。
實(shí)體關(guān)系抽取任務(wù)在命名實(shí)體識(shí)別基礎(chǔ)上開展,對(duì)生物醫(yī)藥文獻(xiàn)中同一個(gè)語句中的兩個(gè)命名實(shí)體賦予預(yù)定義的關(guān)系類型,從而將該任務(wù)轉(zhuǎn)化為分類問題,通常采用基于機(jī)器學(xué)習(xí)的方法來實(shí)現(xiàn),評(píng)價(jià)指標(biāo)采用精確度、召回率和F值。
本文基于大量英文生物醫(yī)藥科技文獻(xiàn)數(shù)據(jù),利用遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、條件隨機(jī)場等多種機(jī)器學(xué)習(xí)模型,進(jìn)行生物醫(yī)藥領(lǐng)域的文獻(xiàn)命名實(shí)體識(shí)別和關(guān)系抽取研究,提高相應(yīng)性能指標(biāo),并最終構(gòu)建了一個(gè)生物醫(yī)藥文獻(xiàn)熱點(diǎn)發(fā)現(xiàn)和追蹤系統(tǒng)。該系統(tǒng)主要研究方法如下。
本文利用帶有條件隨機(jī)場層的雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM-CRF)模型進(jìn)行生物醫(yī)藥文獻(xiàn)命名實(shí)體的識(shí)別和標(biāo)注,并使用多任務(wù)學(xué)習(xí)方法,利用多個(gè)數(shù)據(jù)集同時(shí)訓(xùn)練和學(xué)習(xí),來提升命名實(shí)體識(shí)別算法的性能。
通過比較不同的多任務(wù)模型,并針對(duì)生物醫(yī)藥領(lǐng)域的命名實(shí)體識(shí)別,筆者提出一種新的交叉共享網(wǎng)絡(luò)結(jié)構(gòu)。該模型基于卷積神經(jīng)網(wǎng)絡(luò),以條件隨機(jī)場為輸出層的雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM-CNN-CRF)單任務(wù)學(xué)習(xí)模型(STM)為基礎(chǔ),如圖1所示。
在上述模型中,共享的雙向長短時(shí)記憶網(wǎng)絡(luò)Bi-LSTM單元用以學(xué)習(xí)共享的特征[5],并且針對(duì)每個(gè)數(shù)據(jù)集都有一個(gè)獨(dú)占的雙向長短時(shí)記憶網(wǎng)絡(luò)Bi-LSTM單元,用以學(xué)習(xí)任務(wù)相關(guān)的特征。該模型能夠捕捉兩個(gè)數(shù)據(jù)集的特征信息,并充分利用兩者的特性,優(yōu)化主數(shù)據(jù)集的命名實(shí)體識(shí)別效果。多任務(wù)學(xué)習(xí)模型中的嵌入層、雙向長短時(shí)記憶網(wǎng)絡(luò)Bi-LSTM層、條件隨機(jī)場CRF輸出層的內(nèi)部結(jié)構(gòu)與基準(zhǔn)模型中對(duì)應(yīng)層的結(jié)構(gòu)完全相同。
圖2 交叉共享多任務(wù)學(xué)習(xí)模型(CS-MTM)
如圖2所示,數(shù)據(jù)集中的詞向量和字符向量首先被輸入到嵌入層。在交叉共享結(jié)構(gòu)多任務(wù)學(xué)習(xí)模型中,嵌入層的結(jié)構(gòu)與基準(zhǔn)模型中嵌入層的結(jié)構(gòu)相同。嵌入層能夠捕捉到詞向量和字符向量中的信息,并生成最終的表征向量,供后續(xù)的雙向長短時(shí)記憶網(wǎng)絡(luò)Bi-LSTM層使用。
筆者通過實(shí)驗(yàn)將Ma[6]等學(xué)者提出的單任務(wù)模型作為基準(zhǔn)的單任務(wù)學(xué)習(xí)模型(STM)和其他的多任務(wù)學(xué)習(xí)模型(MTM),并對(duì)其識(shí)別效果進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表1所示。表1展示了不同模型分別在BC2GM、Ex-PTM、NCBI-disease、Linnaeus這4個(gè)目標(biāo)數(shù)據(jù)集上的效果,包括精確率、召回率、F1值的百分比指數(shù),表中加粗?jǐn)?shù)值代表當(dāng)前數(shù)據(jù)集的最佳F1值。
表1 命名實(shí)體識(shí)別效果對(duì)比實(shí)驗(yàn)結(jié)果
通過比較各個(gè)數(shù)據(jù)集的精確率和召回率結(jié)果可以發(fā)現(xiàn):交叉共享多任務(wù)模型(CS-MTM)傾向于產(chǎn)生更高的召回率,并充分利用共享特征和獨(dú)占特征,從而減少了假負(fù)率。
本文提出一個(gè)用于生物醫(yī)藥領(lǐng)域事件抽取和關(guān)系抽取的卷積神經(jīng)網(wǎng)絡(luò)。該模型將輸入處理成了一種詞表示,充分利用多種語義特征信息,采用基于卷積神經(jīng)網(wǎng)絡(luò)的分類模型,能同時(shí)用于檢測實(shí)體關(guān)鍵詞和實(shí)體關(guān)系信息,實(shí)現(xiàn)自動(dòng)化的關(guān)系抽取,達(dá)到較為理想的關(guān)系抽取效果。
筆者選用圖爾庫大學(xué)開發(fā)的生物事件提取系統(tǒng)TEES[7](Turku Event Extraction System,TEES)作為基準(zhǔn)模型,TEES的整個(gè)處理系統(tǒng)是一個(gè)流水線結(jié)構(gòu)。該模型使用了詞向量、詞性標(biāo)注、距離特征、實(shí)體特征、相對(duì)位置、路徑嵌入、最短路徑嵌入和事件參數(shù)嵌入等8種特征向量,所有特征均以向量的形式表示,而且每一個(gè)詞語標(biāo)記都對(duì)應(yīng)唯一的特征向量。
設(shè)計(jì)的系統(tǒng)將結(jié)果作為分類模型的輸入,分類模型采用卷積神經(jīng)網(wǎng)絡(luò)模型,替換基準(zhǔn)模型TEES系統(tǒng)中的支持向量機(jī)(SVM)[8]分類模型。該模型通過使用多種特征向量,得到關(guān)系抽取結(jié)果,提升了模型的效果;并具有原始TEES系統(tǒng)模塊化的屬性,方便使用者進(jìn)行修改和拓展,如圖3所示。
圖3 分類模型結(jié)構(gòu)圖
設(shè)計(jì)的模型將輸入處理成了一種詞表示,充分利用多種語義特征信息,采用基于卷積神經(jīng)網(wǎng)絡(luò)的分類模型,可同時(shí)用于檢測實(shí)體關(guān)鍵詞和實(shí)體關(guān)系信息,實(shí)現(xiàn)自動(dòng)化的關(guān)系抽取,達(dá)到較為理想的關(guān)系抽取效果。
筆者利用生物醫(yī)學(xué)數(shù)據(jù)集BioNLP系列(EPI11、GE09、GE11、GE13、PC13),分別對(duì)TEES模型和Ours(集成模型)的精確率、召回率、F1值進(jìn)行百分比指數(shù)對(duì)比試驗(yàn)[9-10],實(shí)驗(yàn)結(jié)果如表2所示。BioNLP系列數(shù)據(jù)集具有豐富的語料信息,并擁有多樣的數(shù)據(jù)標(biāo)注類型和相對(duì)小的數(shù)據(jù)規(guī)模。從表2中可以看出,設(shè)計(jì)的模型(Ours)除了在GE09語料數(shù)據(jù)集上的F1值達(dá)到51.79%,略遜于TEES模型外,在EPI11、GE11、GE13、PC13語料數(shù)據(jù)集上均實(shí)現(xiàn)了較好的效果。
表2 BioNLP數(shù)據(jù)集對(duì)比實(shí)驗(yàn)結(jié)果
本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)關(guān)系抽取模型,通過使用多種特征向量,提升了模型的效果。將TEES系統(tǒng)的分類模型替換為卷積神經(jīng)網(wǎng)絡(luò)模型,并在數(shù)據(jù)集上進(jìn)行測試,實(shí)驗(yàn)結(jié)果顯示該模型可實(shí)現(xiàn)較為理想的效果。
傳統(tǒng)的文本挖掘系統(tǒng),文獻(xiàn)數(shù)據(jù)通常是以手工定義的分類或關(guān)鍵詞來進(jìn)行組織的,需要花費(fèi)大量的人力和時(shí)間。為了減少處理大量文獻(xiàn)數(shù)據(jù)的成本,本文提出使用主題模型(LDA)[11]來構(gòu)建一個(gè)文本挖掘系統(tǒng),通過該模型挖掘出的主題,能夠幫助終端用戶更好地對(duì)文獻(xiàn)數(shù)據(jù)進(jìn)行探索和查看。
針對(duì)生物醫(yī)藥領(lǐng)域文獻(xiàn),筆者提出了一個(gè)基于LDA主題模型的生物醫(yī)藥文獻(xiàn)挖掘系統(tǒng)BioTopic,BioTopic是一個(gè)瀏覽器/服務(wù)器結(jié)構(gòu)(Browser/Server)系統(tǒng),可以分為6個(gè)組成部分:數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)預(yù)處理、索引和檢索、主題模型、應(yīng)用服務(wù)。其中,數(shù)據(jù)獲取可從已有的文獻(xiàn)數(shù)據(jù)庫中獲取標(biāo)題、作者、機(jī)構(gòu)、摘要等信息;數(shù)據(jù)存儲(chǔ)可為海量的文獻(xiàn)數(shù)據(jù)提供存儲(chǔ)功能,采用一個(gè)分布式的非關(guān)系型的數(shù)據(jù)庫(NoSQL)進(jìn)行文獻(xiàn)數(shù)據(jù)的存儲(chǔ);在數(shù)據(jù)預(yù)處理部分,使用了基于名詞詞組塊和詞性標(biāo)注的預(yù)處理策略,以提升挖掘出的主題的一致性;利用主題模型,可以獲取對(duì)應(yīng)主題中作者和機(jī)構(gòu)的列表,并按相應(yīng)的發(fā)表數(shù)量進(jìn)行排序,此外,還可以獲取研究者之間的關(guān)系,例如共同作者網(wǎng)絡(luò)和機(jī)構(gòu)內(nèi)協(xié)作網(wǎng)絡(luò)等;在應(yīng)用服務(wù)部分,大量的挖掘應(yīng)用構(gòu)建于模型部分和搜索部分。
BioTopic系統(tǒng)設(shè)計(jì)如圖4所示。
圖4 BioTopic系統(tǒng)設(shè)計(jì)圖
BioTopic系統(tǒng)能夠從大量文獻(xiàn)中挖掘出熱點(diǎn)主題。如圖5所示,BioTopic展示了生物文獻(xiàn)中的熱點(diǎn)主題,包括:real time pcr assay(實(shí)時(shí)定量聚合酶鏈反應(yīng)檢測)、arabidopsis thaliana(擬南芥)、reactive oxygen species(活性氧簇)、inflammatory response(炎癥反應(yīng))、genetic diversity(遺傳多樣性)、cell line(細(xì)胞株)、breast cancer(乳腺癌)、estrogen receptor(雌激素受體)、species richness(物種豐富度)、neuron(神經(jīng)元)、cell death(細(xì)胞壞死)、transcription factor(轉(zhuǎn)錄因子)、water quality(水質(zhì))、crystal structure(晶體結(jié)構(gòu))、e.coli(大腸桿菌)、synaptic plasticity(突觸可塑性)、microbial community(微生物群落)、ms medium(培養(yǎng)基)、molecular mechanism(分子機(jī)理)、ion channel(離子通道)、stem cell(干細(xì)胞)、growth rate(生長率)、gene expression(基因表達(dá))、hepatitis virus(肝炎病毒)、phylogenetic analysis(系統(tǒng)進(jìn)化分析)、signaling pathway(信號(hào)通道)、heat shock protein(熱激蛋白)、significant association(顯著相關(guān)性)、molecular dynamic simulation(分子動(dòng)力學(xué)模擬)等主題詞。其中,字體越大的主題詞語熱度越高,主題的熱度值由該主題下文檔的數(shù)量所決定。
圖5 BioTopic熱點(diǎn)主題詞云
BioTopic系統(tǒng)在對(duì)文獻(xiàn)進(jìn)行預(yù)處理后,使用LDA主題模型分析和挖掘發(fā)現(xiàn)生物醫(yī)藥領(lǐng)域的熱點(diǎn)主題,這有助于發(fā)現(xiàn)更多有意義、有價(jià)值的主題。
本文基于上述相關(guān)技術(shù)設(shè)計(jì)生物醫(yī)藥文獻(xiàn)熱點(diǎn)發(fā)現(xiàn)和追蹤系統(tǒng),依托LDA主題模型發(fā)現(xiàn)生物醫(yī)藥熱點(diǎn)主題,并進(jìn)行可視化展示,同時(shí)形成熱點(diǎn)主題報(bào)告,包括相關(guān)領(lǐng)域、相關(guān)熱點(diǎn)、相關(guān)作者、相關(guān)機(jī)構(gòu)等信息。
生物醫(yī)藥文獻(xiàn)熱點(diǎn)發(fā)現(xiàn)和追蹤系統(tǒng)基于海量的生物醫(yī)藥文獻(xiàn)進(jìn)行多角度、多層次的挖掘和分析,然后以多種不同的方式對(duì)挖掘結(jié)果進(jìn)行展示,便于用戶了解生物醫(yī)藥領(lǐng)域的最新熱點(diǎn),掌握該領(lǐng)域內(nèi)的熱點(diǎn)變化情況。圖6展示了該系統(tǒng)的總體架構(gòu)。
圖6 生物醫(yī)藥文獻(xiàn)熱點(diǎn)發(fā)現(xiàn)和追蹤系統(tǒng)總體架構(gòu)
該系統(tǒng)分為用戶層、應(yīng)用層和數(shù)據(jù)層3個(gè)層次,其中應(yīng)用層又分為控制層和業(yè)務(wù)邏輯層,數(shù)據(jù)層又分為數(shù)據(jù)訪問層和數(shù)據(jù)存儲(chǔ)層。原始文獻(xiàn)相關(guān)數(shù)據(jù)經(jīng)過預(yù)處理后存入數(shù)據(jù)庫,供系統(tǒng)使用。
基于海量外文文獻(xiàn)發(fā)現(xiàn)的知識(shí)主要是指抽取與領(lǐng)域相關(guān)的實(shí)體,如生物醫(yī)藥領(lǐng)域的一些專家、優(yōu)勢機(jī)構(gòu)及項(xiàng)目成果,并整合三者建立多維語義網(wǎng)絡(luò),從而構(gòu)建一個(gè)豐富的知識(shí)庫(Knowledge Base)。基于該知識(shí)庫,通過主題模型和頻繁模式挖掘等技術(shù)手段,進(jìn)一步發(fā)現(xiàn)重點(diǎn)領(lǐng)域的產(chǎn)業(yè)技術(shù)研究知識(shí)熱點(diǎn),如生物醫(yī)藥領(lǐng)域開始關(guān)注大數(shù)據(jù)、可穿戴設(shè)備的研究;跟蹤知識(shí)熱點(diǎn)涉及到的專家、機(jī)構(gòu)、項(xiàng)目成果等。從數(shù)據(jù)處理角度看,其基本流程如圖7所示。
圖7 數(shù)據(jù)處理流程示意圖
生物醫(yī)藥文獻(xiàn)熱點(diǎn)發(fā)現(xiàn)和追蹤系統(tǒng)的知識(shí)熱點(diǎn)發(fā)現(xiàn)模塊,首先采用自然語言處理技術(shù)對(duì)外文文獻(xiàn)數(shù)據(jù)進(jìn)行預(yù)處理,然后采用主題模型從外文文獻(xiàn)數(shù)據(jù)中提取有意義的主題(知識(shí)熱點(diǎn)),對(duì)重點(diǎn)領(lǐng)域新出現(xiàn)的、關(guān)注頻率較高的新技術(shù)進(jìn)行發(fā)現(xiàn);同時(shí)提取與主題相關(guān)的研究人員、研究機(jī)構(gòu)等實(shí)體信息,建立主題、研究人員、研究機(jī)構(gòu)之間的對(duì)應(yīng)關(guān)系,并對(duì)其他功能子系統(tǒng)提供知識(shí)熱點(diǎn)和實(shí)體的查詢服務(wù);還可對(duì)知識(shí)熱點(diǎn)和其他實(shí)體進(jìn)行重要性排序,最終以詞云和列表等形式展示知識(shí)熱點(diǎn),以關(guān)系網(wǎng)絡(luò)形式等展示知識(shí)熱點(diǎn)、學(xué)者和機(jī)構(gòu)的關(guān)聯(lián)關(guān)系,用戶可以對(duì)感興趣的主題知識(shí)熱點(diǎn)進(jìn)行訂閱。
除了從海量文獻(xiàn)中發(fā)現(xiàn)知識(shí)熱點(diǎn),該系統(tǒng)還可以通過知識(shí)熱點(diǎn)追蹤模塊,利用技術(shù)手段并結(jié)合專家建議對(duì)該領(lǐng)域內(nèi)的知識(shí)熱點(diǎn)進(jìn)行跟蹤,提供與知識(shí)熱點(diǎn)主題詞相關(guān)的詳細(xì)信息,包括相關(guān)文獻(xiàn)、作者、機(jī)構(gòu)等信息,并對(duì)相關(guān)信息進(jìn)行簡要分析,例如該知識(shí)熱點(diǎn)的出現(xiàn)時(shí)間、發(fā)展趨勢等。此外,該系統(tǒng)可對(duì)技術(shù)領(lǐng)域情報(bào)需求進(jìn)行快速響應(yīng),從領(lǐng)域角度提供分析信息,節(jié)省研究人員搜索確定有效文檔的時(shí)間和精力。
2.5.1 知識(shí)熱點(diǎn)百科
利用維基百科數(shù)據(jù),可獲取該技術(shù)基本概況、應(yīng)用領(lǐng)域、起源、發(fā)展階段等信息,供研究者初步了解知識(shí)熱點(diǎn)的基本信息,如圖8所示。
圖8 知識(shí)熱點(diǎn)百科
2.5.2 知識(shí)熱點(diǎn)熱度曲線
根據(jù)知識(shí)熱點(diǎn)在不同年份對(duì)應(yīng)的文獻(xiàn)數(shù)量,可以繪制一張文獻(xiàn)數(shù)量變化趨勢圖。文獻(xiàn)數(shù)量的變化能間接反映知識(shí)熱點(diǎn)的熱度變化,如圖9所示。
圖9 知識(shí)熱點(diǎn)熱度曲線
2.5.3 相關(guān)知識(shí)熱點(diǎn)
使用知識(shí)熱點(diǎn)關(guān)鍵詞對(duì)文獻(xiàn)進(jìn)行共現(xiàn)分析,尋找與之相關(guān)的知識(shí)熱點(diǎn)詞語并繪制成詞云,如圖10所示。
2.5.4 知識(shí)熱點(diǎn)與學(xué)者關(guān)聯(lián)
利用關(guān)聯(lián)規(guī)則挖掘技術(shù),建立知識(shí)熱點(diǎn)之間的關(guān)聯(lián)。知識(shí)網(wǎng)絡(luò)系統(tǒng)由知識(shí)節(jié)點(diǎn)(指各類知識(shí)單元)以及節(jié)點(diǎn)之間的關(guān)聯(lián)構(gòu)成,根據(jù)主題模型挖掘的結(jié)果可以建立知識(shí)熱點(diǎn)和學(xué)者的關(guān)聯(lián),如圖11所示。
2.5.5 知識(shí)熱點(diǎn)與機(jī)構(gòu)關(guān)聯(lián)
類似知識(shí)熱點(diǎn)與學(xué)者的關(guān)聯(lián),該模塊可以構(gòu)建知識(shí)熱點(diǎn)和機(jī)構(gòu)的關(guān)聯(lián),如圖12所示,顯示與區(qū)塊鏈相關(guān)的機(jī)構(gòu)。
2.5.6 知識(shí)熱點(diǎn)與文獻(xiàn)關(guān)聯(lián)
對(duì)于給定的知識(shí)熱點(diǎn),篩選出與之相關(guān)度最高的文獻(xiàn),并分類整理成文獻(xiàn)列表,供研究者閱讀和參考,如圖13所示。
生物醫(yī)藥文獻(xiàn)熱點(diǎn)發(fā)現(xiàn)和追蹤系統(tǒng)實(shí)現(xiàn)了海量外文生物醫(yī)藥文獻(xiàn)的檢索,并能實(shí)現(xiàn)相應(yīng)的擴(kuò)檢縮檢;同時(shí)以圖形化的形式展示了LDA主題模型發(fā)現(xiàn)的生物醫(yī)藥熱點(diǎn)主題;對(duì)熱點(diǎn)主題形成追蹤報(bào)告,涵蓋相關(guān)領(lǐng)域、相關(guān)熱點(diǎn)、相關(guān)作者、相關(guān)機(jī)構(gòu)等信息,提高了生物醫(yī)藥文獻(xiàn)的挖掘和檢索效率,可為使用者提供有效的參考幫助。
圖10 相關(guān)知識(shí)熱點(diǎn)
圖11 知識(shí)熱點(diǎn)與學(xué)者關(guān)聯(lián)
圖12 知識(shí)熱點(diǎn)與機(jī)構(gòu)關(guān)聯(lián)
圖13 知識(shí)熱點(diǎn)與文獻(xiàn)關(guān)聯(lián)
本文研究基于大量英文生物醫(yī)藥科技文獻(xiàn)數(shù)據(jù),利用遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、條件隨機(jī)場等多種機(jī)器學(xué)習(xí)模型,并在此基礎(chǔ)上綜合交叉共享多任務(wù)學(xué)習(xí)模型、分類模型、LDA主題模型等建立了一個(gè)生物醫(yī)藥文獻(xiàn)熱點(diǎn)發(fā)現(xiàn)和追蹤系統(tǒng),用以生物醫(yī)藥領(lǐng)域的實(shí)體識(shí)別和關(guān)系抽取研究。實(shí)驗(yàn)表明,該系統(tǒng)可以實(shí)現(xiàn)對(duì)海量文獻(xiàn)中熱點(diǎn)主題的主動(dòng)挖掘,有效提升了生物醫(yī)藥文獻(xiàn)的挖掘和檢索效率,為相關(guān)應(yīng)用者提供高效、有價(jià)值的參考。