收稿日期:2014-04-24
作者簡介:吳嘉偉(1989-),男,黑龍江哈爾濱人,碩士研究生,主要研究方向: 自然語言處理、電子病歷信息抽取;
關(guān)毅(1970-),男,黑龍江寧安人,博士,教授,博士生導(dǎo)師,主要研究方向: 自然語言處理、領(lǐng)域本體;
呂新波(1982-),男,內(nèi)蒙古牙克石人,博士研究生,主要研究方向: 用戶健康信息學(xué)、病歷信息抽取。
摘要:電子病歷中包含著醫(yī)療領(lǐng)域的豐富知識,對于醫(yī)療健康信息服務(wù)有著重要的意義。其中的概念實體之間的關(guān)系是醫(yī)療知識的重要組成部分,對于獲取醫(yī)療領(lǐng)域中疾病、治療、檢查之間關(guān)系有著重要的意義。針對于電子病歷中文本結(jié)構(gòu)稀疏的特點,原有的基于詞的特征表示效果有限,所以從特征選擇的角度出發(fā),提出了一種基于深度學(xué)習(xí)的特征學(xué)習(xí),將有限的上下文特征進(jìn)行進(jìn)一步抽象表示的方法。實驗中使用深度稀疏自動編碼來對實體上下文的向量表示進(jìn)行再表示,來得到更抽象和更有識別意義的特征。實驗表明,本文使用的深度學(xué)習(xí)進(jìn)行特征的再表示方法對于識別的召回率對比于基線實驗有比較明顯的提高。
關(guān)鍵詞:電子病歷; 實體關(guān)系抽??; 特征選擇; 深度學(xué)習(xí)
中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A文章編號:2095-2163(2014)03-0035-05
A Deep Learning Approach in Relation Extraction in EMRs
WU Jiawei, GUAN Yi, LV Xinbo
( School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)
Abstract:Electronic medical records contain huge quantity of medical knowledge, and it has great importance to the clinical decision support system. The relations of concepts and entities are very important in the medical knowledge and have significance in getting the relation of diseases, treatment and test. According to the sparsity of the text in the EMR, original method based on the word feature can be limited. This paper starts from the feature selection and makes a research on the feature learning based on deep learning to extract abstract features from the limited context among the entities. Then this paper uses the deep sparse auto-encoder to make a representation of the vector of context for getting more abstract and Discriminative features. The experiment shows that the method of learning features by deep architecture can reach a better result than the baseline experiment by improving the recall rate of the relation extraction.
Key words:EMRs; Entity Relation Extraction; Feature Selection; Deep Architecture
0引言
電子病歷是醫(yī)療機(jī)構(gòu)生成的針對于醫(yī)療活動過程中文字、圖表等數(shù)據(jù)的數(shù)字化信息,而且也是便于轉(zhuǎn)儲、管理和傳輸?shù)尼t(yī)療記錄[1],其中的內(nèi)容是由醫(yī)務(wù)人員撰寫的與患者開展醫(yī)療有關(guān)的過程實錄,包括病程記錄、出院小結(jié)等部分。電子病歷中包含了大量豐富的醫(yī)療知識,通過分析即可得到諸如疾病的患病特征、用藥情況以及治療方式等各項之間的潛在聯(lián)系。這樣的知識數(shù)據(jù)可以對醫(yī)療問題決策提供有建設(shè)性的幫助,并且還可以為用戶建立個性化的健康模型。
電子病歷是結(jié)構(gòu)化文本和非結(jié)構(gòu)化文本相結(jié)合的一種知識數(shù)據(jù),因此可以通過自然語言處理的方法,來對其進(jìn)行信息的抽取,以得到有用的醫(yī)療知識。電子病歷中的一些專業(yè)概念,在自然語言處理問題中可稱為實體,例如藥品名稱、治療名稱,實體和實體之間存在著語義關(guān)系[2],當(dāng)兩個實體出現(xiàn)在一個句子中時,實體以及其對應(yīng)的上下文就決定了這兩個實體之間的關(guān)系。實體關(guān)系抽取任務(wù)可以完成對給定實體關(guān)系類型的判斷,針對于電子病歷中的數(shù)據(jù),就可以選擇合理的特征來對實體之間的關(guān)系實現(xiàn)有效甄別。
電子病歷中的實體關(guān)系抽取主要針對疾病、治療和檢查之間的關(guān)系來進(jìn)行和展開[3],研究中選用的關(guān)系定義來源于I2B2評測提供的8種實體關(guān)系類型,例如關(guān)系TrIP定義為治療改善或治愈了醫(yī)療問題[4]。抽取這幾類實體間的關(guān)系可以構(gòu)造基于患者健康狀況的個體病歷的簡明摘要,并且可以發(fā)現(xiàn)潛在的藥物之間的聯(lián)系。同時以醫(yī)療問題為中心,將抽取得到的實體關(guān)系組織起來,由此而形成對于醫(yī)療知識中疾病、治療和檢查等概念的系統(tǒng)表示。
目前電子病歷中的實體關(guān)系抽取主要采取機(jī)器學(xué)習(xí)的方法,將關(guān)系抽取任務(wù)轉(zhuǎn)化為多分類的問題[5-6]。其具體過程為:首先對候選實體進(jìn)行特征選擇,加入醫(yī)療知識作為輔助分析,并將抽取得到的特征轉(zhuǎn)化為特征向量,在向量空間模型中進(jìn)行有監(jiān)督學(xué)習(xí)的分類判別,由此而得到實體對的關(guān)系。鑒于電子病歷的結(jié)構(gòu)特殊性和領(lǐng)域特殊性,對于其任務(wù)中的特征選擇,將在很大程度上影響關(guān)系識別的準(zhǔn)確性。但是對于全領(lǐng)域中的特征選擇,并沒有能對領(lǐng)域中特征之間的關(guān)系實現(xiàn)整合,因而也并未形成有判別性的特征。同時,若進(jìn)一步考慮到有些實體所處上下文信息不足,將醫(yī)療領(lǐng)域豐富的詞典知識適當(dāng)?shù)匾刖惋@得尤為必要。
1相關(guān)工作
電子病歷中的實體關(guān)系抽取主要針對單句中的實體對,進(jìn)行關(guān)系類別判定時,主要采用的方法則是機(jī)器學(xué)習(xí)中的分類算法[4]。
在已有的研究中,Roberts[7]在臨床信息抽取系統(tǒng)CLEF中使用了SVM分類器來實現(xiàn)對關(guān)系的識別,研究中試圖對跨句子的關(guān)系識別進(jìn)行嘗試,但是得到的準(zhǔn)確率卻較低。Uzuner等[4]針對電子病歷單句內(nèi)實體關(guān)系的抽取,把關(guān)系識別視為分類問題,問題中的實體關(guān)系可分成6大類,并針對每一種類均訓(xùn)練一個特定的分類器,以實現(xiàn)對應(yīng)關(guān)系類別的辨識,并對其特征選擇了實體相對位置特征、組成實體的詞及其上下文、上下文之間的依賴關(guān)系等語法。Demner-Fushman[8]針對I2B2 2010數(shù)據(jù),對關(guān)系抽取任務(wù)的特征選擇部分添加了其他資源以助力提升識別的準(zhǔn)確率,再融入醫(yī)療詞典資源和UMLS中的概念關(guān)系來擴(kuò)充特征,來共同解決部分實體上下文內(nèi)容比較稀疏的問題,研究結(jié)果表明詞典資源在電子病歷關(guān)系抽取任務(wù)中起到了重要作用。Berry de Bruijn[9]則對比研究了有監(jiān)督分類和基于自學(xué)習(xí)的半監(jiān)督分類方法在關(guān)系抽取中的效果表現(xiàn),更通過加入未標(biāo)注數(shù)據(jù)和句法分析中的依存分析結(jié)果,而使得關(guān)系抽取的識別在效果上有比較明顯的提升。Xiaoyan Wang等[10]還對電子病歷從統(tǒng)計方法入手,來計算疾病和癥狀的上下文共現(xiàn)以挖掘?qū)?yīng)實體對之間的關(guān)聯(lián)關(guān)系。Oana Frunza等[11]又針對疾病和治療之間的三種關(guān)系研究中,選擇在每個多分類模型上均給出一個可能性最大的類型預(yù)測結(jié)果,而在分類模型的選擇上,則在以樸素貝葉斯為代表的概率分類模型和以SVM為代表的線性分類模型上取得了較好的結(jié)果。 第3期吳嘉偉,等:基于深度學(xué)習(xí)的電子病歷中實體關(guān)系抽取智能計算機(jī)與應(yīng)用第4卷
2電子病歷中的實體關(guān)系抽取
2.1電子病歷中數(shù)據(jù)及預(yù)處理
本課題研究的電子病歷中的實體關(guān)系抽取,其數(shù)據(jù)主要來源于I2B2在2010年的評測任務(wù)[4]中所提供的病歷訓(xùn)練數(shù)據(jù),并且還帶有官方標(biāo)注實體、實體間關(guān)系的語料。原始數(shù)據(jù)為非結(jié)構(gòu)化文本數(shù)據(jù),下面即對其進(jìn)行句子級別的關(guān)系抽取。
電子病歷中詞語存在著大小寫不統(tǒng)一、詞形以及領(lǐng)域詞縮寫等問題,針對這些問題,要對電子病歷進(jìn)行詞級別的預(yù)處理,也就是進(jìn)行過濾和修改。針對大小寫和詞形的問題,則可以通過由UMLS提供的語言處理工具luiNorm[12]進(jìn)行歸一化的映射。luiNorm是針對醫(yī)學(xué)領(lǐng)域的詞級別處理的專業(yè)工具,對其中的領(lǐng)域詞表現(xiàn)了較好的識別能力。
電子病歷中也存在一些縮寫詞,示例則如圖1所示,在意義上若為了明確表示,應(yīng)該將其展開為多個詞的組合,也就是將縮寫詞進(jìn)行拆分以得到對應(yīng)的詞,有利于更小粒度的特征提取,這樣就形成更多的組合特征。還有些縮寫在醫(yī)療領(lǐng)域中具有著特殊的意義,為此這些詞也需要進(jìn)行展開,實現(xiàn)方法是通過使用UMLS中提供的metamap敘詞表來進(jìn)行詞的展開和替換,圖1的方框中即給出了詞的特殊表示意義[13-14]。圖1 電子病歷中詞的縮寫
Fig.1An example of word abbreviation in the EMR2.2關(guān)系抽取方法
實體關(guān)系抽取問題的基本方法是將其轉(zhuǎn)化為一個多分類問題[4],對實體進(jìn)行特征提取,轉(zhuǎn)化為特征向量,再進(jìn)行分類器的訓(xùn)練學(xué)習(xí)。對于實體關(guān)系抽取的任務(wù),其關(guān)系的描述多取決于詞級別和上下文的詞之間的關(guān)系和組合,為此將選擇特征如下:
實體中包含的詞、實體中包含的詞的詞性、實體前的2個詞、實體后的2個詞、實體前的2個詞的詞性、實體后的2個詞的詞性、實體的類型特征、實體之間的位置關(guān)系特征。
將這些特征組合為特征向量,詞特征可表述為(wi-2,wi-1,wi+1,wi+2),對應(yīng)的實體特征則表示為(type,wordendbegin),其中wordendbegin包含了實體中所有的詞,type為對應(yīng)的實體類型。其后,則將得到的特征向量引入關(guān)系類別識別的分類任務(wù)中,即對訓(xùn)練數(shù)據(jù)實行有監(jiān)督的學(xué)習(xí)[15]。
2.3基于深度學(xué)習(xí)的關(guān)系抽取
2.3.1詞特征的特點
由于詞特征在自然語言處理中是比較低級的特征,而對于詞之間的組合和共現(xiàn)關(guān)系則可以得到更高級的特征,這樣的特征可以表示更加豐富的意義;或者,多個詞之間的組合可以與單個詞有相近的語義表達(dá),這樣的特征對于實體關(guān)系識別將具有特別重要的意義,可以作為一個有判別性的特征對分類進(jìn)行有針對性的指導(dǎo)。
2.3.2特征學(xué)習(xí)
機(jī)器學(xué)習(xí)問題分為兩個部分。第一部分是對數(shù)據(jù)進(jìn)行處理,并且針對研究任務(wù)選擇合適的特征和表示來對數(shù)據(jù)進(jìn)行形式化描述,第二部分則是針對數(shù)據(jù)的表示來進(jìn)行分類模型的訓(xùn)練和學(xué)習(xí),如此即使分類模型在給定的數(shù)據(jù)表示下得到可判別的效果。
對詞的特征的進(jìn)一步表示可以轉(zhuǎn)化為特征學(xué)習(xí)的問題,問題實質(zhì)是如何從數(shù)據(jù)中學(xué)習(xí)得到一個符合任務(wù)的特征表示??紤]到詞之間組合的層次關(guān)系,以及概念意義的抽象層次,可選擇深度學(xué)習(xí)的結(jié)構(gòu)來進(jìn)行多層表示的學(xué)習(xí)。
2.3.3深度結(jié)構(gòu)
深度結(jié)構(gòu)是由多層神經(jīng)網(wǎng)絡(luò)組成的,每層節(jié)點由上層節(jié)點的取值來決定當(dāng)前節(jié)點是否應(yīng)該激活,示例為一個四層的神經(jīng)網(wǎng)絡(luò),構(gòu)成了一個深層結(jié)構(gòu),具體則如圖2所示。圖2 多層神經(jīng)網(wǎng)絡(luò)
Fig.2Multi-layer neural network圖2中,h1層節(jié)點的值由前層V的節(jié)點值計算得到,具體公式為:
h1j=σ(∑W(1)ijVi+b(1))(1)
其中,σ(z)=11+e-z,作為激活函數(shù),將實數(shù)值映射到[0,1]之間,與神經(jīng)元節(jié)點的原理相似,0為神經(jīng)元節(jié)點的抑制狀態(tài),1為激活狀態(tài),以此來描述一種觸發(fā)的組合狀態(tài),從而表示一種特征[16-17]。
2.3.4自動編碼機(jī)
自動編碼機(jī)(auto-encoder)是一種深度學(xué)習(xí)結(jié)構(gòu)的基本單位,深度學(xué)習(xí)的過程就是獲得逐層學(xué)習(xí)特征的表示[17],來進(jìn)行特征的不斷抽象和整合,每層學(xué)習(xí)均可得到一種新的表示,這種表示還能通過某種方式表示成原來的數(shù)據(jù),如圖3所示。
圖3 自動編碼結(jié)構(gòu)
Fig.3Architecture of auto-encoder通過如圖3所示的結(jié)構(gòu),可以進(jìn)行一次特征的變換,如果學(xué)習(xí)到的特征,也就是隱層節(jié)點能夠重構(gòu)表示為曾經(jīng)的原始輸入,則認(rèn)為這個特征是原始輸入的一個良好表示。深度學(xué)習(xí)的多層神經(jīng)網(wǎng)絡(luò)可以以此作為基本模塊,進(jìn)行逐層的特征抽象,再利用得到的隱藏層節(jié)點作為新的輸入來進(jìn)行其下一層的表示學(xué)習(xí)。在逐層學(xué)習(xí)的過程中,使用反向傳播算法來進(jìn)行參數(shù)的調(diào)整,每次只訓(xùn)練一個三層的神經(jīng)網(wǎng)絡(luò),即只有輸入層、隱藏層、輸出層的一個神經(jīng)網(wǎng)絡(luò)。這樣做一方面防止了神經(jīng)網(wǎng)絡(luò)層數(shù)過深可能導(dǎo)致的陷入局部最小值的問題,另一方面也可以通過這樣無監(jiān)督的學(xué)習(xí),得到數(shù)據(jù)的分布表示[18],同時又達(dá)到了對數(shù)據(jù)降維的效果[19]。
由以上過程得到的表示結(jié)構(gòu)和詞特征的形式類似,詞作為基本特征將不斷聚合成高級特征,而高級特征也可以繼續(xù)生成新的特征,所以實驗中正是通過這樣的方法來嘗試提升詞特征的效果。
2.3.5稀疏特征限制
在進(jìn)行特征再表示的過程中,判別一個學(xué)習(xí)到的特征是否為原始輸入的良好表示,則要定義一個損失函數(shù),以其對數(shù)據(jù)重構(gòu)的準(zhǔn)確性進(jìn)行判別。兩個向量之間的距離可通過公式(2)來進(jìn)行計算:
J(w,b)=12‖h(x)-x‖2(2)
對于一個特征的表示,如果越稀疏,就說明這樣的特征只被少數(shù)的上層節(jié)點所激活,也就是這樣的狀態(tài)是只有部分?jǐn)?shù)據(jù)才能達(dá)到的狀態(tài),在一定程度上起到了相應(yīng)的判別作用[20]。所以,為對這一部分做以改進(jìn),也就是使得這樣的特征的判別效果更為明顯,可在損失函數(shù)的后面加上權(quán)重的正則項來提高模型得到特征的稀疏性,具體公式為:
J(w,b)=12‖h(x)-x‖2+λ2∑i,jW2ij(3)
2.3.6特征表示
實驗中,首先將電子病歷中的實體上下文詞進(jìn)行過濾,根據(jù)任務(wù)特點以及電子病歷的文本結(jié)構(gòu)特點,可先進(jìn)行詞性的過濾,只保留有判別意義的詞性,并去除停用詞,按照詞頻進(jìn)行篩選,再將其中詞頻最高的1.5%的詞從表中去除,這些詞對于識別領(lǐng)域內(nèi)的實體關(guān)系并不具有明顯的效果或是指導(dǎo)意義,此后即可只針對于描述關(guān)系有意義的詞性以及部分非通用詞來進(jìn)行特征的選擇和表示[21]。
將特征分成兩部分表示。第一部分使用深度結(jié)構(gòu)對特征進(jìn)行表示,對于詞級別的特征表示為一個0-1詞向量,對其上下文出現(xiàn)的詞進(jìn)行編碼,D={w1,w2,w3,…,wN}為上下文中出現(xiàn)的詞的全集,其中每一個詞對應(yīng)一個向量vi={δ1,δ2,δ3,…,δN},并且δj=0,j≠i
1,j=i,1≤j≤N。關(guān)于一個實體對應(yīng)的上下文,對其進(jìn)行統(tǒng)一的表示,可得到上下文對應(yīng)的向量表示:Vk=∑w∈Pkvw,其中Pk為第k個實體候選相對應(yīng)的上下文的詞集合[21]。這個表示通過多層自動編碼來進(jìn)行深層特征的抽取,作為詞特征的新表示。在進(jìn)行深度學(xué)習(xí)的特征多層抽象過程中,不僅是對輸入數(shù)據(jù)的編碼壓縮,也是對詞級別特征的連續(xù)整合。
另一部分,將已經(jīng)具有明確意義的可區(qū)分特征直接作為輸入特征,包括將實體類別特征,實體相對位置特征進(jìn)行分開,還是表示為原來的數(shù)據(jù)。生成了兩部分特征之后,將其統(tǒng)一整合得到完整的特征,來進(jìn)行分類預(yù)測。
3實驗結(jié)果與分析
本文使用2010年I2B2評測會議中公開的英文電子病歷數(shù)據(jù)進(jìn)行實驗的訓(xùn)練和測試,數(shù)據(jù)中已完成去隱私的工作,并且對于標(biāo)注語料也完成了實體的識別。實驗針對一句中的實體候選對來進(jìn)行關(guān)系類別的識別。實驗數(shù)據(jù)中訓(xùn)練數(shù)據(jù)一共包含3 120對實體關(guān)系,測試數(shù)據(jù)中包含6 293對實體關(guān)系。對其進(jìn)行前面所述的預(yù)處理工作之后,對詞進(jìn)行詞性過濾和詞頻過濾,篩選得到詞特征。對詞進(jìn)行詞形還原和歸一化處理之后對詞進(jìn)行編碼,構(gòu)成詞的向量空間模型表示,進(jìn)行基線實驗的有監(jiān)督分類學(xué)習(xí),實驗中使用CRF模型來對得到的向量進(jìn)行分類。
深度學(xué)習(xí)實驗部分,采取了兩部分對比實驗,分別采用原始方式和加入稀疏特征約束的兩種方式的模型。實驗中詞特征構(gòu)成的上下文特征的0-1向量維數(shù)為3 595,設(shè)置隱藏層節(jié)點參數(shù)分別為2 000、1 000,訓(xùn)練三層的神經(jīng)網(wǎng)絡(luò)[22]。對抽取的特征進(jìn)行分類之后得到結(jié)果。
結(jié)果的評價是分別對于8種預(yù)定實體關(guān)系展開準(zhǔn)確率、召回率、F1值的計算,對比實驗效果如表1所示,表中加重的數(shù)字表示實驗效果提升的部分。表1實驗結(jié)果
Tab.1Result of the experiments基線實驗多層自動編碼多層稀疏自動編碼實體關(guān)系類別PRF1PRF1PRF1TrAP76.297.285.477.290.183.178.295.686.0TeRP89.498.293.689.294.191.690.696.293.3TrIP58.39.215.950.917.826.344.317.825.4TrCP67.339.249.546.847.447.167.044.453.4TrWP00042.92.75.266.71.83.6TrNAP64.38.014.348.413.421.043.615.222.5PIP100.0100.0100.099.198.198.6100.0100.0100.0TeCP72.829.341.856.838.245.663.039.348.5從結(jié)果中可以看出,通過深度學(xué)習(xí)對有限的特征進(jìn)行不斷抽象,可以在基線實驗的效果之上獲得一定的提升,并且主要對于一些召回率過低的類別的識別具有更為明顯的提升效果。多層自動編碼的實驗中,對TrIP和TrWP兩個類別的提高較大,但是對于原有的識別較好的關(guān)系卻略有下降,這就說明特征引入了一些噪聲干擾。加入了稀疏性約束之后的自動編碼模型,相對于原來的兩個實驗則得到了一個較好的整體提升效果,其中對于特征提取的限制更加嚴(yán)格,特征的稀疏性也得到了限制,并且對于噪聲進(jìn)行了合理過濾,這就使得真正具有判別意義的特征能夠保留下來,因而分類的效果得以提升。
4結(jié)束語
本文提出了一種針對英文電子病歷的實體關(guān)系抽取的特征學(xué)習(xí)方法。針對電子病歷文本結(jié)構(gòu)特點,以及詞特征的有限表達(dá)問題,首先對電子病歷中的詞進(jìn)行有效性的過濾和篩選,初步篩選能夠獲得在識別上可能有意義的詞,組成上下文的一個表示,然后通過深度學(xué)習(xí)來學(xué)習(xí)上下文的一個表示,從而發(fā)掘詞之間的組合關(guān)系特征,對于實體關(guān)系抽取任務(wù)能夠?qū)崿F(xiàn)一定的效果提升。實驗證明,相對于電子病歷中的實體關(guān)系抽取任務(wù),采用這樣的方法對有限特征進(jìn)行再整合生成更高級的特征,對于識別的召回率可獲得較大的提升,并可使更多的關(guān)系得到正確識別。然而,該方法距離真正可使用的精度要求還有一定差距,進(jìn)一步提升的空間比較大,可以從更多的特征上面入手進(jìn)行再次抽象,而且在數(shù)據(jù)集合更大的情況下,可通過預(yù)先統(tǒng)計和添加規(guī)則的方法進(jìn)行初步詞過濾,由此而將上下文的特征進(jìn)行一個更好的表示。
參考文獻(xiàn):
[1]中華人民共和國衛(wèi)生部.電子病歷基本規(guī)范(試行). [Online], available: http://wwwgovcn/zwgk/2010-03/04/content_1547432. htm ,2010-03-04.
[2]UZUNER O, MAILOA J, RYAN R, et al. Semantic relations for problem-oriented medical records[J]. Artificial Intelligence in Medicine, 2010, 50(2): 63–73.
[3]徐永東, 權(quán)光日, 王亞東. 基于HL7的電子病歷關(guān)鍵信息抽取技術(shù)研究[J]. 哈爾濱工業(yè)大學(xué)學(xué)報, 2011(11):89–94.
[4]UZUNER D S O, SOUTH B R, SHEN S. 2010 I2B2/VA challenge on concepts , assertions , and relations in clinical text. Challenge, 2011, 18(5): 552–557.
[5]張奇. 信息抽取中實體關(guān)系識別研究[D]. 合肥:中國科學(xué)技術(shù)大學(xué), 2010.
[6]車萬翔,劉挺,李生. 實體關(guān)系自動抽?。跩].中文信息學(xué)報,2005(2):1-6.
[7]ROUBERTS A, GAIZAUSKAS R, HEPPLE M, et al. Extracting clinical relationships from patient narratives[J]. BMC Bioinformatics, 2008, 9 Suppl 11(June): S3.
[8]DEMNER-FUSHMAN A A D, APOSTOLOVAE, ISLAMAJD R, et al. NLM’s system description for the fourth I2B2/VA challenge[C]//Proceedings of the 2010 I2B2/VA Workshop on Challenges in Natural Language Processing for Clinical Data, 2010.
[9]De BRUIJN B, CHERRY C, KIRITCHENKO S, et al. Machine-learned solutions for three stages of clinical information extraction: the state of the art at I2B2 2010[J]. Journal of the American Medical Informatics Association, 2011, 18(5): 557–562.
[10]WANG X, CHUSED A, ELHADAD N, et al. Automated knowledge acquisition from clinical narrative reports[J]. AMIA Annual Symposium proceedingsAMIA Symposium, 2008:783–787.
[11]FRUNZA O, INKPEN D. Extraction of disease-treatment semantic relations from biomedical sentences[C]//Proceedings of the 2010 Workshop on Biomedical Natural Language Processing, 2010, (July): 91–98.
[12]http://lexsrv2nlmnihgov/LexSysGroup/Projects/lvg/2012/docs/
userDoc/tools/luiNorm.html
[13]白海燕,王莉,梁冰.UMLS及其在智能檢索中的應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2012(4):1-9.
[14]方平,胡德華.一體化醫(yī)學(xué)語言系統(tǒng)在醫(yī)學(xué)科技信息檢索中的應(yīng)用[J].湖南醫(yī)科大學(xué)學(xué)報(社會科學(xué)版),2000(1):32-36.
[15]RINK B, HARABAGIU S, ROUBERTS K. Automatic extract ion of relations between medical concepts in clinical texts, 2011.
[16]BENGIO Y. Learning deep architectures for AI. Foundations and Trends in Machine Learning, 2009.
[17]BENGIO Y, LAMBLIN P, POPVICI D, et al. Greedy layer-wise training of deep networks[C]//Advances in Neural Information Processing Systems 19: Proceedings of the 2006 Conference, 2007.
[18]孫志軍,薛磊,許陽明.深度學(xué)習(xí)研究綜述[J].計算機(jī)應(yīng)用研究, 2012, 29(8): 2806- 2810.
[19]HINTON G E, SALAKHUTDINOV R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313:504–507.
[20]LE Q V, RANZATO M A, MONGA R, et al. Building high-level features using large scale unsupervised learning[C]//ICML, 2012.
[21]COATES A, LEE H, NG A Y . An analysis of single-layer networks in unsupervised feature learning[C]//AISTATS 14, 2011.
[22]ZHOU S, CHEN Q, WANG X. Active deep networks for semi-supervised sentiment classification[C]//International Conference on Computational Linguistics, Coling 2010 Organizing Committee, Beijing, China, 2010:1515–1523.