游正洋++王亞強(qiáng)++舒紅平
摘 要文章對(duì)中醫(yī)癥候名語(yǔ)料庫(kù)進(jìn)行研究分析,并建立一個(gè)中醫(yī)癥候名的中英文對(duì)齊語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)可以幫助識(shí)別中醫(yī)醫(yī)療記錄中易混淆的癥候名。同時(shí)設(shè)計(jì)了一種標(biāo)注方法對(duì)癥候名數(shù)據(jù)集進(jìn)行標(biāo)注。語(yǔ)料庫(kù)能夠?qū)χ嗅t(yī)臨床癥候名研究提供幫助。
【關(guān)鍵詞】自然語(yǔ)言處理 文本挖掘 語(yǔ)料庫(kù) 中醫(yī)癥候名 詞性標(biāo)注
1 前言
在西方國(guó)家,中醫(yī)是一種與西醫(yī)互補(bǔ)的、可替代的醫(yī)學(xué)系統(tǒng);但是在亞洲國(guó)家,中醫(yī)在幾千年前就已經(jīng)被用來(lái)治療各種疾病。中醫(yī)是研究人體生理學(xué)、病理學(xué)和預(yù)防治療人類疾病的一門學(xué)科。目前的中醫(yī)理論基于宇宙原理和中國(guó)哲學(xué),包含了整體論、分化、陰陽(yáng)和五行理論。中醫(yī)的醫(yī)療方法專注于提高人體自我控制系統(tǒng)和人體內(nèi)部環(huán)境的協(xié)調(diào)來(lái)增強(qiáng)人體對(duì)疾病的抵抗力。中醫(yī)的治療相對(duì)復(fù)雜,其醫(yī)學(xué)思想與現(xiàn)代西方醫(yī)學(xué)有很大不同,因此,在大部分研究者看來(lái)中醫(yī)的研究難度相對(duì)較大。目前,文本挖掘越來(lái)越多地被應(yīng)用在中醫(yī)臨床記錄地研究中,而自然語(yǔ)言處理方法被考慮作為一種工具來(lái)提高文本挖掘在中醫(yī)臨床記錄研究中的潛力。文本挖掘的基本目標(biāo)是找出文本中的潛在內(nèi)容和萃取潛在知識(shí),如內(nèi)在聯(lián)系、簡(jiǎn)潔的用戶模式等。伴隨者中醫(yī)可用數(shù)據(jù)的迅速增加,迫切的需要瀏覽這些從大量文獻(xiàn)中獲取的資源數(shù)據(jù)。中醫(yī)癥候名就是其中最重要的數(shù)據(jù)之一。
然而,中文,尤其是中醫(yī)癥候名,具有非常豐富的語(yǔ)義。在不同的上下文中,一個(gè)中文漢字可能含有超過(guò)一種語(yǔ)義;不同的中文漢字的組合又會(huì)帶來(lái)另外的含義。在中醫(yī)癥候名中,一些癥候名的含義相同但是癥候名稱不一致。例如,“腎氣虛證”和“腎氣虧虛證”的癥候名稱不一致,但是含義是相同的。由于癥候名稱的不一致導(dǎo)致醫(yī)生之間的交流效率受到影響。因此,提高中醫(yī)臨床記錄中的癥候名識(shí)別程度變得很有必要。
根據(jù)以上需求,研究建立了中醫(yī)癥候名的中英文雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)。語(yǔ)料庫(kù)提供了一種通過(guò)英文識(shí)別有混淆語(yǔ)義的中醫(yī)臨床癥候名的方法。該語(yǔ)料庫(kù)同時(shí)也可供中醫(yī)文獻(xiàn)和臨床記錄的文本挖掘使用。
2 語(yǔ)料庫(kù)建立方法
2.1 數(shù)據(jù)處理
中醫(yī)癥候名原始數(shù)據(jù)從病人的診斷記錄和治療記錄中獲取。從中共獲取了812個(gè)未處理的癥候名稱。為了使數(shù)據(jù)集更簡(jiǎn)潔,我們將原始癥候名進(jìn)行切分。在原始癥候名中包含小括號(hào)和中括號(hào)兩種類型的詞匯。小括號(hào)中的漢字表示可以忽略;中括號(hào)中的漢字表示可以進(jìn)行替換。例如,“心氣(虧)虛證”表示“虧”可以忽略,則可將“心氣(虧)虛證”拆分成“心氣虛證”和“心氣虧虛證”兩個(gè)詞;“沖任失[不]調(diào)證”表示“不”可以被替換,則可將“沖任失[不]調(diào)證”拆分為“沖任失調(diào)證”和“沖任不調(diào)證”。經(jīng)過(guò)處理,數(shù)據(jù)集一共包含了1129個(gè)癥候名。接下來(lái)我們分別使用人工翻譯和機(jī)器翻譯將每個(gè)癥候名翻譯為英文,以便對(duì)翻譯質(zhì)量進(jìn)行對(duì)比。我們將一份翻譯標(biāo)準(zhǔn)作為對(duì)比依據(jù)。將處理后的癥候名再分割為單個(gè)漢字,;例如,“心氣虧虛證”被分割為“心”、“氣”、“虧”、“虛”、“證”5個(gè)漢字。
2.2 標(biāo)注方法
語(yǔ)料庫(kù)使用矩陣來(lái)對(duì)1129個(gè)中醫(yī)癥候名進(jìn)行標(biāo)注。矩陣的第一列為被分割的中醫(yī)癥候名漢字,第一行為該癥候名的英文翻譯。如果拆分的漢字與英文單詞對(duì)應(yīng),則標(biāo)記為“1”;如果在英文翻譯的單詞中沒(méi)有與漢字對(duì)應(yīng)則在“null”列標(biāo)記“1”。圖1為中英文對(duì)齊標(biāo)注矩陣。
我們建立了2個(gè)中英文對(duì)齊數(shù)據(jù)集用于對(duì)比參考。一個(gè)數(shù)據(jù)集通過(guò)翻譯工具進(jìn)行翻譯,另一個(gè)通過(guò)人工進(jìn)行翻譯。我們對(duì)兩者的翻譯質(zhì)量進(jìn)行實(shí)驗(yàn)對(duì)比。
3 實(shí)驗(yàn)
3.1 翻譯質(zhì)量
我們使用一份翻譯標(biāo)準(zhǔn)分別對(duì)工具翻譯和人工翻譯進(jìn)行對(duì)比評(píng)估。使用翻譯工具對(duì)癥候名進(jìn)行翻譯后與翻譯標(biāo)準(zhǔn)進(jìn)行對(duì)比,在1129個(gè)癥候名中工具翻譯與翻譯標(biāo)準(zhǔn)相同的詞為6個(gè),不同的有1123個(gè)。使用人工翻譯對(duì)癥候名進(jìn)行翻譯則有1124個(gè)詞與翻譯標(biāo)準(zhǔn)相同,5個(gè)詞與翻譯標(biāo)準(zhǔn)不同。從統(tǒng)計(jì)數(shù)據(jù)可以看出,工具翻譯與翻譯標(biāo)準(zhǔn)對(duì)比差距較大,而人工翻譯則與翻譯標(biāo)準(zhǔn)差異較小。說(shuō)明人工翻譯比工具翻譯更為準(zhǔn)確。為了說(shuō)明語(yǔ)料庫(kù)的信度和翻譯難度,我們引入了kappa系數(shù)對(duì)數(shù)據(jù)進(jìn)行分析。
3.2 數(shù)據(jù)集的kappa系數(shù)分析
Kappa系數(shù)是一種廣泛使用的評(píng)估者之間的評(píng)分一致性的指標(biāo)。Kappa系數(shù)公式為:
(1)
其中,p0為實(shí)際一致率,pe為隨機(jī)一致率。如果一致率完全相同則K=1。K值計(jì)算結(jié)果為-1到1之間,其絕對(duì)值越小說(shuō)明一致性越低。
為了分別計(jì)算工具翻譯與人工翻譯的kappa值,我們分別建立了兩組工具翻譯和人工翻譯的數(shù)據(jù)集。兩組工具翻譯采用不同的翻譯工具,兩組人工翻譯同樣使用不同的翻譯人員進(jìn)行翻譯。表1展示了工具翻譯的kappa系數(shù)矩陣。從矩陣可計(jì)算出工具翻譯的kappa值為0.583,說(shuō)明不同的工具翻譯具有中等的一致性。表2展示了人工翻譯的kappa系數(shù)矩陣,其kappa值為-0.009,說(shuō)明不同的人工翻譯之間具有較低的一致性。
4 語(yǔ)料庫(kù)相關(guān)分析
中醫(yī)癥候名的中英文雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)共有1129個(gè)癥候名、5618個(gè)分割漢字和4591個(gè)英文翻譯。在語(yǔ)料庫(kù)中,我們使每個(gè)漢字都與一個(gè)英文翻譯對(duì)齊,如圖2所示。我們通過(guò)中英文的映射標(biāo)記了中英癥候名之間的聯(lián)系。語(yǔ)料庫(kù)提供了中英文的癥候名對(duì)齊,該語(yǔ)料庫(kù)可以用于具有混淆語(yǔ)義的中醫(yī)臨床癥候名的識(shí)別,同時(shí)也可用于中醫(yī)文本挖掘的研究。
5 結(jié)論
中醫(yī)癥候名的中英文雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)完成了3個(gè)相關(guān)任務(wù):癥候名預(yù)處理,翻譯和癥候名分割,癥候名標(biāo)注與對(duì)齊。該語(yǔ)料庫(kù)可作為中醫(yī)癥候名研究的基礎(chǔ),同時(shí)可以幫助研究者更有效和更精確地識(shí)別臨床中醫(yī)癥候名。語(yǔ)料庫(kù)也存在以下不足:語(yǔ)料庫(kù)數(shù)據(jù)集數(shù)量偏小。在今后的研究中會(huì)不斷的增加新的中醫(yī)癥候名,使識(shí)別準(zhǔn)確率更加精確。
參考文獻(xiàn)
[1]Fang Y,Huang H,Chen H.TCMGeneDIT:a database for associated traditional Chinese medicine, gene and disease information using text mining[J]. BMC Complementary and Alternative Medicine,2008.endprint
[2]Wang S,Li Y,Devinsky O,et al. Traditional chinese medicine[J]. Complementary and alternative therapies for epilepsy,2005:177-182.
[3]Lu A P,Jia H W,Xiao C,et al.Theory of traditional Chinese medicine and therapeutic method of diseases[J].World journal of gastroenterology:WJG,2004,10(13):1854.
[4]Hafner C.Introduction to Traditional Chinese Medicine (Out of Print)[J]. 2006.
[5]Ananiadou S,Kell DB,Tsujii [J].Text mining and its potential applications in systems biology. Trends Biotechnol.2006(24):571-579.
[6]Feng Y,Wu Z,Zhou X,et al.Knowledge discovery in traditional Chinese medicine: state of the art and perspectives[J].Artificial Intelligence in Medicine,2006,38(03):219-236.
[7]Viera A J,Garrett J M.Understanding interobserver agreement:the kappa statistic[J].Fam Med,2005,37(05):360-363.
[8]Cohen J.A coefficient of agreement for nominal scales[J].Educational and psychological measurement,1960,20(01):37-46.
作者單位
成都信息工程大學(xué)軟件工程學(xué)院 四川省成都市 610225endprint