【摘要】隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的普及,網(wǎng)絡(luò)數(shù)據(jù)正以前所未有的速度發(fā)展。從互聯(lián)網(wǎng)上獲取信息已經(jīng)成為人們常用的方式。醫(yī)療領(lǐng)域是與人們生活密切相關(guān)的領(lǐng)域,各類人員都希望通過(guò)網(wǎng)絡(luò)得到相應(yīng)的指導(dǎo)。但是目前的醫(yī)療網(wǎng)信息內(nèi)容繁雜,結(jié)構(gòu)混亂,不能給相關(guān)人員提供較好的服務(wù)。本文將本體引入到醫(yī)療信息領(lǐng)域,分析和比較現(xiàn)有的本體構(gòu)建方法,根據(jù)它們的特點(diǎn),構(gòu)建藥品本體。
【關(guān)鍵詞】本體;醫(yī)療;信息檢索
一、本體在信息檢索技術(shù)方面的研究現(xiàn)狀
1.本體的概念
本體來(lái)自希臘詞匯,onto表示being,logos表示to reason,最初是哲學(xué)上的一個(gè)分支,這個(gè)術(shù)語(yǔ)在17世紀(jì)誕生,是古希臘哲學(xué)家亞里士多德給出的定義,將Ontology定義為研究“存在”的科學(xué),并將其分為兩個(gè)方面,一方面研究存在的本質(zhì),另一方面研究客體對(duì)象的理論定義,即整個(gè)現(xiàn)實(shí)世界(本體)的基本特征。人工智能領(lǐng)域?qū)⒈倔w的概念引入,用于知識(shí)表示和知識(shí)組織,其概念的內(nèi)涵也因此發(fā)生了改變[1]。
2.國(guó)內(nèi)外研究現(xiàn)狀
本體在信息檢索領(lǐng)域的應(yīng)用研究在20世紀(jì)末至21世紀(jì)初展開(kāi),國(guó)外大量學(xué)者都在此領(lǐng)域進(jìn)行了各種研究,如德國(guó)學(xué)者Nenad和Ljiljana提出了一種在基于本體的信息檢索系統(tǒng)中使用基于邏輯的優(yōu)化檢索方法;巴西學(xué)者Regina等研制了一個(gè)檢索代理系統(tǒng);斯洛伐克的學(xué)者Jan和Ivan在同一個(gè)文本集中將全文檢索方法、潛在語(yǔ)義索引方法和基于本體的方法進(jìn)行對(duì)比研究等[2]。與國(guó)外相比,國(guó)內(nèi)無(wú)論是在理論研究,實(shí)證研究,還是在技術(shù)手段的實(shí)用方面都相對(duì)落后,與國(guó)外高水平的研究相比存在很大差距,有關(guān)學(xué)者在本體的檢索技術(shù)方面也進(jìn)行了大量的研究。但是迄今為止,大量文章仍停留在翻譯,綜述國(guó)外研究的水平上,具有獨(dú)立創(chuàng)新性的研究少之又少。
二、研究?jī)?nèi)容和意義
中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心2013年7月17日發(fā)布《第32次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r調(diào)查統(tǒng)計(jì)報(bào)告》顯示,截至6月底,我國(guó)Ipv4地址數(shù)量為3.31億,擁有IPv6地址數(shù)量較去年同期大幅增長(zhǎng)16.5%。我國(guó)網(wǎng)民數(shù)量達(dá)到5.91億,較去年底增加2656萬(wàn)人[3]??梢?jiàn),在網(wǎng)絡(luò),電視,報(bào)紙,書籍等各種媒介中,網(wǎng)絡(luò)具有其他媒介無(wú)法比擬的優(yōu)勢(shì)。醫(yī)療信息是與人們息息相關(guān)的領(lǐng)域,患有不同程度疾病的人群和亞健康人群不可能頻繁去醫(yī)院檢查,都希望通過(guò)網(wǎng)絡(luò)的快捷得到更多的指導(dǎo)。但是檢索結(jié)果往往會(huì)返回大量無(wú)關(guān)的鏈接,使得用戶將大量的時(shí)間耗費(fèi)在排除無(wú)關(guān)信息上。同時(shí),用戶和網(wǎng)絡(luò)文檔對(duì)同一概念的表述形式往往會(huì)有差異,導(dǎo)致無(wú)法接收到有用信息。目前的關(guān)于藥品的檢索,其實(shí)質(zhì)仍然停留在基于關(guān)鍵字的查詢上。其查詢方式相對(duì)簡(jiǎn)單、容易,但是不能很好地滿足用戶的真正需求,非常機(jī)械,不能夠全面準(zhǔn)確地檢索到用戶關(guān)心的藥品信息。基于本體的檢索可以充分利用本體對(duì)知識(shí)內(nèi)容的結(jié)構(gòu)化描述和概念之間的關(guān)系來(lái)實(shí)現(xiàn)智能化查詢。針對(duì)傳統(tǒng)信息檢索技術(shù)存在的上述問(wèn)題,本體檢索還包括歧義信息和檢索處理,將通過(guò)歧義知識(shí)描述庫(kù)、全文索引、用戶檢索上下文分析以及用戶相關(guān)性反饋等技術(shù)結(jié)合處理,高效、準(zhǔn)確地反饋給用戶最需要的信息。通過(guò)對(duì)比現(xiàn)有構(gòu)建本體的各種方法,根據(jù)它們的特點(diǎn),并結(jié)合醫(yī)療領(lǐng)域的特點(diǎn),立足于醫(yī)療信息的一個(gè)點(diǎn),即藥品,按照本方法建立藥品本體。在構(gòu)建藥品本體的基礎(chǔ)上,改進(jìn)了一種基于藥品本體的信息檢索系統(tǒng)框架。
三、基于本體的醫(yī)療信息檢索系統(tǒng)設(shè)計(jì)
1.設(shè)計(jì)目標(biāo)
(1)具有傳統(tǒng)信息查詢系統(tǒng)的基本檢索功能,也就是根據(jù)用戶輸入的查詢條件,應(yīng)該能夠給用戶返回相應(yīng)的結(jié)果。這是最基本的查詢功能。
(2)對(duì)查詢條件的語(yǔ)義擴(kuò)展的過(guò)程要借助于本體庫(kù)中的信息,在具有傳統(tǒng)信息查詢系統(tǒng)的基本檢索功能基礎(chǔ)上,輸入的查詢條件進(jìn)行同義、近義和上下位關(guān)系進(jìn)行擴(kuò)展,也可以對(duì)用戶提出的查詢請(qǐng)求進(jìn)行規(guī)范化等操作,目的是為了使計(jì)算機(jī)更好的理解語(yǔ)義信息,提高信息檢索的效率和準(zhǔn)確性。
(3)采用傳統(tǒng)的相關(guān)度算法,盡可能地把更好的反映用戶真正意圖的檢索結(jié)果反饋給用戶。
2.體系結(jié)構(gòu)
結(jié)合藥品本體,參考語(yǔ)義檢索機(jī)理[4],信息檢索框架包含五大模塊,分別為用戶接口、條件處理、醫(yī)療信息、信息檢索和結(jié)果顯示。如圖1所示。
(1)用戶接口:系統(tǒng)必須提供給用戶一個(gè)友好的界面,在這里主要是用戶輸入的查詢條件部分,可以采用單一的條件查詢也可以采用多組合查詢。
(2)條件處理部分:處理用戶界面的輸入查詢信息,對(duì)查詢條件進(jìn)行預(yù)處理。
(3)醫(yī)療信息部分:建立醫(yī)療實(shí)例庫(kù)。
(4)信息檢索部分:對(duì)用戶輸入的查詢條件進(jìn)行處理,這里面含有推理規(guī)則。同時(shí)對(duì)查詢條件進(jìn)行語(yǔ)義擴(kuò)展,實(shí)現(xiàn)進(jìn)一步的查詢。
(5)顯示結(jié)果部分:經(jīng)過(guò)信息檢索部分,需要對(duì)所查詢出來(lái)的結(jié)果進(jìn)行匯總,并根據(jù)相關(guān)度算法對(duì)相關(guān)結(jié)果進(jìn)行排序。將更貼近用戶的查詢結(jié)果靠前。
3.構(gòu)建本體常見(jiàn)方法
目前常用的七種本體構(gòu)建方法是:七步法、骨架法、IDEFS法、Methoniology法、TOVE法、SENSUS法和KACTUS法。這七種方法各有利弊,結(jié)合藥品檢索的現(xiàn)狀,領(lǐng)域本體的建設(shè)處于探索性研究階段,在這個(gè)過(guò)程中存在著很多問(wèn)題,對(duì)不同問(wèn)題的認(rèn)識(shí)和解決會(huì)得出不同的方法論。主要問(wèn)題分析如下[5]:
(l)需求不充分
本體構(gòu)建特別是某個(gè)領(lǐng)域的本體構(gòu)建的具體需求還很難描述清楚。沒(méi)有充分的需求,直接導(dǎo)致本體建設(shè)過(guò)程的無(wú)計(jì)劃性。
(2)建設(shè)過(guò)程無(wú)規(guī)范
目前,領(lǐng)域本體構(gòu)建還沒(méi)有成熟的方法論作為指導(dǎo),更談不上對(duì)構(gòu)建過(guò)程的規(guī)范管理。借鑒軟件開(kāi)發(fā)過(guò)程的管理,可以看出文檔的重要作用。因此,在領(lǐng)域本體構(gòu)建過(guò)程中同樣也得關(guān)注文檔,從文檔的編寫中總結(jié)出規(guī)范。
(3)成果沒(méi)有評(píng)價(jià)標(biāo)準(zhǔn)
本體的評(píng)價(jià)方法沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),也沒(méi)有標(biāo)準(zhǔn)的測(cè)試集。不能對(duì)本體的建設(shè)成果進(jìn)行合理評(píng)價(jià),使整個(gè)構(gòu)建過(guò)程的正確度,科學(xué)度大打折扣。
(4)忽視本體的共享和重用
領(lǐng)域本體構(gòu)建的目的不是為某一個(gè)系統(tǒng)提供服務(wù),而是為不同系統(tǒng)提供進(jìn)行交流的語(yǔ)義基礎(chǔ)。共享和重用是本體的本質(zhì)要求,在領(lǐng)域本體的建設(shè)過(guò)程中,如何保證這一點(diǎn)就是個(gè)非常重要的問(wèn)題。
在IT領(lǐng)域引入本體的概念,最終目的是希望計(jì)算機(jī)能夠充分理解語(yǔ)義信息,更加智能的為人類服務(wù),從某種意義上說(shuō),這是一類新的軟件活動(dòng)。因此,對(duì)于本體建設(shè)的過(guò)程,還需要不斷的完善和創(chuàng)新。
4.藥品本體的構(gòu)建
目前互聯(lián)網(wǎng)上關(guān)于藥品的網(wǎng)站很多,但是從內(nèi)容組織上看,大多都是將藥品分為不同的類別,或者是將藥品按身體各個(gè)部位進(jìn)行分類。用戶點(diǎn)擊相關(guān)信息,了解相關(guān)治療藥物,所看到的藥品內(nèi)容繁多,且不規(guī)則,主要原因是沒(méi)有對(duì)藥品形成規(guī)范的查詢體系。因此,針對(duì)藥品本體的構(gòu)建,首先應(yīng)對(duì)此領(lǐng)域建立一個(gè)比較完善的信息集,對(duì)整個(gè)領(lǐng)域本體的數(shù)據(jù)流有一個(gè)清晰的認(rèn)識(shí)。對(duì)領(lǐng)域本體的建設(shè)不是一朝一夕的,而應(yīng)該是先建立核心本體,在構(gòu)建時(shí)先找出領(lǐng)域中最基本的、最重要的概念和關(guān)系作為演化的種子,在此基礎(chǔ)上可以不斷完善,逐步建立起領(lǐng)域內(nèi)的函數(shù)、公理和實(shí)例。
首先,確定好藥品領(lǐng)域的概念分類。如“生物制品”、“解毒藥”、“延緩衰老”、“避孕藥”、“抗躁狂抑郁藥”、“維生素類”等。在“生物制品”這個(gè)概念類中,又分為子類“疫苗”、“菌苗”、“類霉素”、“抗菌素抗血清”、“人血液制品”、“體內(nèi)診斷制品”等。子類“疫苗”下又分為子類“基礎(chǔ)免疫用疫苗”,并添加實(shí)例“乙腦疫苗”,“乙肝疫苗”、“狂犬疫苗”、“出血熱疫苗”、“流腦疫苗”、“甲肝疫苗”、“腮腺炎疫苗”、“流感疫苗”等。其中在子類“基礎(chǔ)免疫用疫苗”中添加了實(shí)例“卡介苗”、“脊髓灰質(zhì)炎疫苗”、“百白破制劑”、“麻疹疫苗”等。其他概念類同此依次向下分類。
其次,定義類之間的關(guān)系。子類和父類之間是“is-a”的關(guān)系,脊髓灰質(zhì)炎疫苗和脊灰糖丸是同義詞的關(guān)系,卡介苗和基礎(chǔ)免疫用疫苗是實(shí)例與概念之間的關(guān)系,在實(shí)際應(yīng)用中充斥著大量的類似的關(guān)系,在此不一一列舉。
最后,定義類的屬性。例如概念類“疫苗”,它應(yīng)具有的屬性有“中文名稱”、“英文名稱”、“計(jì)量單位”、“使用指南”等。
5.系統(tǒng)關(guān)鍵技術(shù)處理
(1)查詢擴(kuò)展
本體可以看作是定義了類及類之間關(guān)系,同時(shí)添加了用于推理的規(guī)則集的分類體系。本體可以通過(guò)對(duì)用戶檢索進(jìn)行領(lǐng)域內(nèi)的概念及屬性關(guān)聯(lián)來(lái)擴(kuò)展用戶檢索。比如用戶以“艾滋病”關(guān)鍵字進(jìn)行檢索,與“獲得性免疫缺陷綜合癥(Acquired Immune Deficiency Syndrome)”相關(guān)的信息也能檢索出來(lái)。再如用戶如果想要檢索關(guān)于“Sars”的信息,同時(shí)本體中定義了“Sars”的關(guān)聯(lián)概念“非典”,這時(shí)候用戶的查詢就擴(kuò)展為“Sars”和“非典”。如果在本體的定義中還包含概念“非典”的子概念,那么這時(shí)候就擴(kuò)展為“Sars”和“非典”及其子概念。
(2)檢索推理
①謂詞和關(guān)聯(lián)的概念
這種方式通過(guò)找出與用戶提供的關(guān)鍵字相關(guān)的謂詞及概念對(duì)用戶查詢進(jìn)行擴(kuò)展。例如概念“疫苗專家”分別通過(guò)謂詞“屬于”及“在……工作”與概念“傳染科室”及概念“醫(yī)院”關(guān)聯(lián),則用戶輸入的查詢“疫苗”可以用來(lái)形成新的查詢條件“疫苗專家屬于傳染科室”及“疫苗專家在醫(yī)院工作”。
②謂詞特性
這種方式通過(guò)傳遞、翻轉(zhuǎn)或?qū)ΨQ謂詞來(lái)擴(kuò)展用戶查詢。例如:實(shí)例“卡介苗”屬于概念“基礎(chǔ)免疫用疫苗”,概念“基礎(chǔ)免疫用疫苗”屬于概念“疫苗”,由此可以推斷出來(lái)實(shí)例“卡介苗”屬于概念“疫苗”。
四、總結(jié)與展望
信息檢索技術(shù)已經(jīng)成為現(xiàn)在信息化時(shí)代不可或缺的重要技術(shù),是人們獲取信息和知識(shí)的重要手段,并隨著數(shù)字化信息量的急速膨脹,人們將越發(fā)的依賴信息檢索技術(shù)給我們提供的便利。本文在信息檢索查詢技術(shù)的研究中,引入本體的概念,以特定領(lǐng)域知識(shí)作為研究對(duì)象,建立起一個(gè)描述藥品知識(shí)的本體。但是本體的語(yǔ)義化查詢?nèi)匀皇遣粔蛲晟频模虼嗽谖磥?lái)的進(jìn)一步研究中還有很多工作要做:如本體設(shè)計(jì)的完善和通用性問(wèn)題,自然語(yǔ)言處理,推理功能的強(qiáng)化等。在未來(lái)的研究中則需要更加復(fù)雜的推理機(jī)制研究。相信未來(lái)基于本體的語(yǔ)義查詢系統(tǒng)將會(huì)有著廣泛的應(yīng)用前景。
參考文獻(xiàn)
[1]王淼洋.東西方哲學(xué)比較研究[M].上海教育出版社(第一版),1994:97-104.
[2]彭鵬.基于本體的信息檢索策略優(yōu)化研究[D].吉林大學(xué),2007.
[3]http://news.daynews.com.cn/gnxw/1835394.html(山西新聞網(wǎng))[OL].
[4]http://kmi.open.ac.uk/projects/ocml(OCML)[OL].
[5]http://www.w3c.org(W3C)[OL].
作者簡(jiǎn)介:朱鐵峰(1981—),男,吉林通化人,碩士研究生,主要研究方向:計(jì)算機(jī)技術(shù)、遠(yuǎn)程開(kāi)放教育等。