• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于本體指標(biāo)的本體版本演變分析方法*

      2016-11-30 09:43:26李致遠(yuǎn)馮志勇李元放饒國(guó)政
      計(jì)算機(jī)與生活 2016年2期
      關(guān)鍵詞:度量本體規(guī)律

      李致遠(yuǎn),馮志勇,王 鑫+,李元放,饒國(guó)政

      1.天津大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300027

      2.天津市認(rèn)知計(jì)算與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,天津 300072

      3.澳大利亞莫納什大學(xué) 克萊頓信息技術(shù)學(xué)院,澳大利亞

      基于本體指標(biāo)的本體版本演變分析方法*

      李致遠(yuǎn)1,2,馮志勇1,2,王鑫1,2+,李元放3,饒國(guó)政1,2

      1.天津大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300027

      2.天津市認(rèn)知計(jì)算與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,天津 300072

      3.澳大利亞莫納什大學(xué) 克萊頓信息技術(shù)學(xué)院,澳大利亞

      LI Zhiyuan,FENG Zhiyong,WANG Xin,et al.Approach to analyzing ontology versioning evolution based on ontology metrics.Journal of Frontiers of Computer Science and Technology,2016,10(2):151-162.

      隨著語(yǔ)義Web的發(fā)展和Web本體語(yǔ)言(Web ontology language,OWL)的普及,在各個(gè)領(lǐng)域出現(xiàn)了越來越多大規(guī)模的本體,其中部分本體已歷經(jīng)多個(gè)版本的演變,因而需要一種簡(jiǎn)單而有效的方法,幫助人們分析和了解不同版本的本體內(nèi)部的變化情況。在已有的本體指標(biāo)相關(guān)工作的基礎(chǔ)上,提出了Property層上的4個(gè)本體指標(biāo),并且選擇版本更新比較完整的OpenGALEN和OpenCyc本體作為數(shù)據(jù)集,基于OWL-API設(shè)計(jì)了一個(gè)實(shí)用工具,對(duì)多個(gè)版本下的本體在Ontology層、Class層和Property層的指標(biāo)進(jìn)行了度量。通過分析實(shí)驗(yàn)結(jié)果和指標(biāo)所代表的意義,總結(jié)出本體指標(biāo)變化所體現(xiàn)出的本體版本演變的規(guī)律。

      本體版本;本體指標(biāo);本體分析;本體演變;OWL-API

      1 引言

      隨著語(yǔ)義Web和Linked Data[1]運(yùn)動(dòng)的發(fā)展,本體[2-3]作為一種能夠描述知識(shí)的模型,已經(jīng)成為語(yǔ)義Web及其相關(guān)技術(shù)中的重要組成部分,被廣泛應(yīng)用在人工智能、信息查詢以及生物醫(yī)療等多個(gè)領(lǐng)域當(dāng)中。Web本體語(yǔ)言(Web ontology language,OWL)[4]在語(yǔ)義Web中是描述本體的語(yǔ)言,也是一項(xiàng)W3C所推薦的Web標(biāo)準(zhǔn),目前許多本體如OpenGALEN[5]和Open-Cyc[6]等都提供了支持Web本體語(yǔ)言標(biāo)準(zhǔn)的文件。

      近年來,在不同領(lǐng)域中涌現(xiàn)出大量新的本體,與此同時(shí),許多本體如NCI Thesaurus Ontology和Open-Cyc等的規(guī)模也在不斷地?cái)U(kuò)大。因?yàn)楸倔w數(shù)量和規(guī)模的迅速增長(zhǎng),給維護(hù)和分析本體帶來了極大的困難,所以需要定義本體指標(biāo)量化本體創(chuàng)建、改變和重構(gòu)的難易程度,方便人們維護(hù)和分析本體。因此從事本體度量指標(biāo)的研究者提出了許多相關(guān)指標(biāo)。文獻(xiàn)[7]通過借鑒評(píng)估軟件度量指標(biāo)的方法,依據(jù)其中部分適用于構(gòu)造本體指標(biāo)的方法設(shè)計(jì)對(duì)應(yīng)的本體度量指標(biāo),并且綜合了文獻(xiàn)[8-9]提出的部分指標(biāo),系統(tǒng)地提出了Ontology層和Class層的本體指標(biāo)。文獻(xiàn)[10]通過研究機(jī)器學(xué)習(xí)的相關(guān)技術(shù),提出了可以預(yù)測(cè)分類時(shí)間的本體指標(biāo),并對(duì)350個(gè)本體進(jìn)行實(shí)驗(yàn),證明了該指標(biāo)能夠有效預(yù)測(cè)本體的推理效率。文獻(xiàn)[11]運(yùn)用語(yǔ)義指標(biāo)作為特征值,建立了一個(gè)高精度、廣泛適用性和統(tǒng)計(jì)結(jié)果顯著的回歸模型,可以用來預(yù)測(cè)本體在不同的6個(gè)推理器上的分類性能。但這些指標(biāo)大多集中在對(duì)Ontology層和Class層的度量分析,尚未發(fā)現(xiàn)對(duì)Property層的指標(biāo)進(jìn)行設(shè)計(jì)分析的相關(guān)工作。

      同時(shí),隨著OWL的推廣和發(fā)展,許多本體出現(xiàn)了版本的演變,因此也出現(xiàn)了許多關(guān)于本體版本控制和管理的相關(guān)工作。文獻(xiàn)[12]定義了本體在本體管理過程中的4個(gè)演變階段,提供方法來表示和鑒定當(dāng)前本體在它生命周期中發(fā)生的變化。文獻(xiàn)[13]從本體的構(gòu)建與維護(hù)角度出發(fā),基于相似度提出了一種本體演變的檢測(cè)方法,并且提出一個(gè)算法來選擇一個(gè)最為合理的本體演變策略,使得其過程代價(jià)最小。類似的工作還有文獻(xiàn)[14-15],從結(jié)構(gòu)和語(yǔ)義兩方面討論了NCI Thesaurus Ontology的變化過程。然而這些研究沒有能夠使用一套系統(tǒng)的本體指標(biāo)來分析版本演變的過程。

      本文基于先前研究者的相關(guān)指標(biāo),尤其是借鑒文獻(xiàn)[7]對(duì)本體度量指標(biāo)的設(shè)計(jì)方法,在其原有的Ontology層和Class層指標(biāo)之外,類似于Class層的設(shè)計(jì)思路構(gòu)建了相應(yīng)的Property層的指標(biāo),使得對(duì)本體的度量更加豐富和系統(tǒng)。并且選擇規(guī)模較大的Open-GALEN和OpenCyc本體,對(duì)它們的多個(gè)歷史版本的Ontology層、Class層以及Property層的指標(biāo)進(jìn)行度量。通過分析這些指標(biāo)變化所代表的意義,總結(jié)出一些在這些本體版本演變過程中所表現(xiàn)出的規(guī)律。可以為以后的研究人員提供一個(gè)新的思考角度,同時(shí)能夠?yàn)楸倔w的創(chuàng)建、維護(hù)和分析提供一種更為簡(jiǎn)單而高效的方法。

      本文的主要貢獻(xiàn)如下:

      (1)對(duì)度量本體復(fù)雜度的指標(biāo)進(jìn)行擴(kuò)充,即增加Property層指標(biāo)的度量方法;

      (2)基于OWL-API[16]編寫一個(gè)分析本體指標(biāo)的實(shí)用工具,分別在Ontology層、Class層和Property層對(duì)本體進(jìn)行全面的度量;

      (3)運(yùn)用該工具度量OpenGALEN和OpenCyc這兩個(gè)本體的不同歷史版本,通過對(duì)比和分析總結(jié)出這些本體指標(biāo)隨版本演變所表現(xiàn)出的規(guī)律。

      本文組織結(jié)構(gòu)如下:第2章給出構(gòu)建指標(biāo)的圖結(jié)構(gòu)模型,并介紹相關(guān)本體指標(biāo)的度量方法;第3章提出擴(kuò)展的Property層指標(biāo)和本體版本演變的分析方法;第4章設(shè)計(jì)實(shí)驗(yàn)獲取本體的不同歷史版本的度量指標(biāo)結(jié)果,并對(duì)這些數(shù)據(jù)進(jìn)行對(duì)比和分析;第5章對(duì)全文進(jìn)行總結(jié)。

      2 基本指標(biāo)介紹

      首先給出本體轉(zhuǎn)化為圖結(jié)構(gòu)的形式化定義,然后簡(jiǎn)單回顧本文實(shí)驗(yàn)分析用到的文獻(xiàn)[7]中總結(jié)的Ontology層指標(biāo)和Class層指標(biāo)。

      2.1圖結(jié)構(gòu)的轉(zhuǎn)化規(guī)則

      本文所用到的指標(biāo)是建立在一個(gè)圖結(jié)構(gòu)上的指標(biāo),這樣就可以把本體復(fù)雜度的度量轉(zhuǎn)化為圖結(jié)構(gòu)復(fù)雜度的度量。本文一共用到了4個(gè)圖結(jié)構(gòu):有向圖G=<N,P,E>,其中N代表圖中的所有節(jié)點(diǎn),包括命名的class和individual組成的節(jié)點(diǎn)Nn和匿名的class和individual組成的節(jié)點(diǎn)Na;P代表property,分為用戶自定義的屬性Pn和OWL/RDFS屬性Pa;E代表圖G中的邊,其形式為E?N×P×N。對(duì)應(yīng)的類繼承關(guān)系圖是G′=<N′,P′,E′>,N′表示class,P′為sub-ClassOf,E′僅為與subClassOf有關(guān)聯(lián)的邊。后兩個(gè)是本文新定義的圖結(jié)構(gòu),property的有向圖GP=<NP,PP,EP>,其中NP表示將property作為這個(gè)圖的節(jié)點(diǎn),PP是連接兩個(gè)property之間的OWL/ RDFS屬性,它的邊的表示形式為EP?NP×PP×Np。property的繼承結(jié)構(gòu)圖為GP′=<NP′,PP′,EP′>,NP′表示把property作為節(jié)點(diǎn),PP′是subPropertyOf屬性,EP′僅為與subPropertyOf有關(guān)聯(lián)的邊。其具體轉(zhuǎn)化規(guī)則見圖1和圖2。

      Fig.1 Translation rules from OWL descriptions to graph structure圖1 OWL描述轉(zhuǎn)化為圖結(jié)構(gòu)表示的規(guī)則

      在圖1和圖2中,τ為轉(zhuǎn)換函數(shù),A和B為命名class,C和D表示OWL中對(duì)class的描述和限制,Q和S表示property,a和b表示individual,_:1表示一個(gè)編號(hào)為1的匿名class,_:1′表示一個(gè)編號(hào)為1的匿名property。其中大部分轉(zhuǎn)換規(guī)則引自文獻(xiàn)[8],僅為了完善property相關(guān)圖結(jié)構(gòu),在OWL描述轉(zhuǎn)化規(guī)則中加入了規(guī)則(7),在OWL公理轉(zhuǎn)化規(guī)則中加入了規(guī)則(21)和(22),從而建立了描述兩個(gè)property之間關(guān)系的圖結(jié)構(gòu)。需要注意的是該結(jié)構(gòu)主要的目的是為了分析本體的復(fù)雜度,而不涉及語(yǔ)義的等價(jià)轉(zhuǎn)換。其正確性分析類似于class層的正確性分析,可參見文獻(xiàn)[7]中的詳細(xì)說明。

      2.2Ontology層指標(biāo)

      Ontology層共有4個(gè)指標(biāo)來度量本體的復(fù)雜度,即SOV、ENR、TIP和EOG。

      SOV是一個(gè)通過統(tǒng)計(jì)所有的命名實(shí)體,來表示本體的規(guī)模大小的指標(biāo),該指標(biāo)的計(jì)算方法是SOV=|Nn|+|Pn|,其中Nn為命名classes與individuals的總量,Pn為用戶定義的property的數(shù)量。SOV這個(gè)值越大,本體的內(nèi)容越豐富,維護(hù)和分析本體的難度越大。

      Fig.2 Translation rules from OWL axioms to graph structure圖2 OWL公理轉(zhuǎn)化為圖結(jié)構(gòu)表示的規(guī)則

      ENR是圖G=<N,P,E>中所有邊與所有節(jié)點(diǎn)的比值,表示圖的連接密度。該指標(biāo)的計(jì)算方法是。這個(gè)值越大,圖G節(jié)點(diǎn)間的邊會(huì)越多,本體內(nèi)的關(guān)系的復(fù)雜度會(huì)越大。

      TIP是圖G′=<N′,P′,E′>與對(duì)應(yīng)的樹結(jié)構(gòu)的差異度,該指標(biāo)的計(jì)算方法是。這個(gè)值越大,該本體的繼承結(jié)構(gòu)就越不像一棵樹的結(jié)構(gòu),其中的繼承關(guān)系也就越復(fù)雜。

      2.3Class層指標(biāo)

      Class層也有4個(gè)指標(biāo)來度量本體的復(fù)雜度,即NOC、DIT、CID和COD。

      NOC是圖G′=<N′,P′,E′>中每個(gè)class的孩子節(jié)點(diǎn)的數(shù)目,該指標(biāo)的計(jì)算方法為NOCC=#{D|D∈N′∧(D,rdfs:subClassOf,C)∈E′},其中C∈N′。這個(gè)值越大,表示改變這個(gè)class對(duì)子類的影響越大,從而越難改變這個(gè)class。

      DIT是圖G′=<N′,P′,E′>中每個(gè)class到根節(jié)點(diǎn)的路徑長(zhǎng)度。該指標(biāo)用于表示一個(gè)class受祖先類影響的程度,該指標(biāo)值越大,其祖先類就越多,改變這個(gè)class的難度也就越大。注意本文定義所有的類均繼承自owl:Thing。

      CID是圖G=<N,P,E>中指向給定的class的邊的數(shù)目,該指標(biāo)的計(jì)算公式為CIDC=#{(D,Q,C)∈E|D∈N∧Q∈P},其中C∈N。該指標(biāo)表示依賴于這個(gè)class的節(jié)點(diǎn)數(shù),這個(gè)值越大,越多節(jié)點(diǎn)依賴于這個(gè)class,改變它所帶來的影響越大。

      COD是圖G=<N,P,E>中指定的class到其他節(jié)點(diǎn)的邊的數(shù)目,其對(duì)應(yīng)的計(jì)算公式為CODC= #{(C,Q,D)∈E|D∈N∧Q∈P},其中C∈N。該指標(biāo)用于表示這個(gè)class依賴于其他class的程度,這個(gè)值越大,表示這個(gè)class依賴于越多的節(jié)點(diǎn),該class就更容易受其他類改變的影響。

      3 本體版本演變分析方法

      首先介紹擴(kuò)充的Property層指標(biāo)的度量方法,而后提出本體演變的規(guī)律和分析方法。

      3.1Property層指標(biāo)

      因?yàn)镻roperty層與Class層有類似的繼承關(guān)系,并且property之間也存在著一些非繼承的關(guān)系,故而可以依據(jù)Class層構(gòu)造指標(biāo)的方法來構(gòu)造Property層上的指標(biāo)。本節(jié)類似于Class層指標(biāo)的建立方法,提出了4個(gè)Property層的指標(biāo),即NOPC、DIPT、PID和POD。為了便于理解本文所建立的指標(biāo),圖3構(gòu)造了一個(gè)簡(jiǎn)單的描述家族成員關(guān)系的Property層規(guī)則,圖4是根據(jù)這個(gè)規(guī)則構(gòu)造的圖。

      Fig.3 OWLaxioms of family relationship on Property-level圖3 家族成員關(guān)系的Property層規(guī)則

      Fig.4 Graph of family relationship on Property-level圖4 家族成員關(guān)系的Property層圖結(jié)構(gòu)

      DIPT是圖GP′=<NP′,PP′,EP′>中每個(gè)property到根節(jié)點(diǎn)的路徑長(zhǎng)度。該指標(biāo)表示一個(gè)property受祖先屬性影響的程度,該值越大,這個(gè)property的祖先屬性就越多,改變它的難度也就越大。需要注意的是這里同樣規(guī)定所有的屬性繼承自owl:Thing。例如,在圖4中hasKinsfolk和hasMother的DIPT值分別為1和3。

      PID是圖GP=<NP,PP,EP>中指向給定的property的邊的數(shù)目,描述為 PIDQ=#{(S,R,Q)∈EP|S∈NP∧R∈PP},其中Q∈NP,R∈NP。該指標(biāo)表示依賴于這個(gè)property的屬性數(shù),這個(gè)值越大,越多屬性依賴于這個(gè)property,其改變所帶來的影響就越大。例如,在圖4中hasSibling和hasMaleSibling的PID值分別為4和0。

      POD是圖GP=<NP,PP,EP>中指定的property到其他property的邊的數(shù)目,該指標(biāo)的計(jì)算方法是PODQ=#{(Q,R,S)∈EP|S∈NP∧R∈PP},其中Q∈NP,R∈PP。該指標(biāo)用于表示這個(gè)property依賴于其他property的程度,這個(gè)值越大,指定的property就依賴于越多的屬性,就越容易受其他property改變的影響。例如,在圖4中hasBrother和hasMaleSibling的POD值分別為2和1。

      3.2本體版本演變規(guī)律與分析算法

      本體隨著版本的變化有一些規(guī)律性的變化趨勢(shì)存在,因此本文將一些比較顯著的演變規(guī)律進(jìn)行如下總結(jié),然后設(shè)計(jì)算法來驗(yàn)證規(guī)律的正確性。

      規(guī)律1(不同本體間的規(guī)模差異判定)這里將本體i記作Oi,Oi在第k個(gè)版本的本體表示為,將本體所涉及的領(lǐng)域記作Domain(Oi),將本體Oi的指標(biāo) j記作Metricj(Oi),并且這個(gè)本體的規(guī)模記作Scale(Oi)。在任意時(shí)刻的本體版本演變中,假如,且Domain(O1)? Domain(O2)成立,那么任意時(shí)刻各自本體最新版本的,其中l(wèi)atest表示距指定時(shí)間節(jié)點(diǎn)最近的版本號(hào)。

      規(guī)律2(本體指標(biāo)在各層次的變化幅度)這里將Oi在Ontology層、Class層和Property層的對(duì)應(yīng)指標(biāo)集合分別記作[Oi]O_l、[Oi]C_l、[Oi]P_l,Ontology層的所有指標(biāo)的平均變化量 VO_l的計(jì)算方法為,其中。同理可以獲得Class層和Property層的平均變化量VC_l和VP_l。Ontology層指標(biāo)平均變化幅度要大于Class層,且Class層指標(biāo)平均變化幅度要大于Property層,即VO_l>VC_l>VP_l。

      規(guī)律3(本體指標(biāo)的發(fā)展趨勢(shì))本體的演變趨勢(shì)是由快速發(fā)展到趨于穩(wěn)定的過程,可表示為,其中的版本分界值l<m<n,應(yīng)根據(jù)版本數(shù)量盡可能取更多的版本數(shù)量的指標(biāo)進(jìn)行平均求值。

      為了分析和驗(yàn)證本體版本演變的規(guī)律,本文總結(jié)出一個(gè)通用的分析算法,該算法以偽代碼的形式表示如下。

      算法1本體版本演變的算法

      算法1用于分析獲取本體版本演變的規(guī)律。輸入為具有多個(gè)版本的不同本體,輸出為對(duì)應(yīng)的指標(biāo)分析結(jié)果。在初始化過程中,需要預(yù)先選擇(Select())或設(shè)計(jì)(Design())一些不同層次的本體指標(biāo),本文對(duì)應(yīng)的是上述的12種指標(biāo)。在第1~13行是選取每一種本體,第2~12行是選取對(duì)應(yīng)本體的不同版本的文件,第3~5行計(jì)算每個(gè)Ontology層的指標(biāo),第6~8行計(jì)算每個(gè)Class層的指標(biāo),第9~11行用于計(jì)算每個(gè)Property層的指標(biāo)。最后將獲取的指標(biāo)分析得出結(jié)果,這里L(fēng)aw1()、Law2()和Law3()函數(shù)分別對(duì)應(yīng)于上文提出的規(guī)律1~規(guī)律3的算法,如果指標(biāo)計(jì)算結(jié)果與規(guī)律的形式化表示一致,則返回正確,否則返回錯(cuò)誤。第17行省略的是本文尚未總結(jié)的本體版本演變的規(guī)律。

      4 實(shí)驗(yàn)結(jié)果及解釋

      本文基于OWL-API設(shè)計(jì)了一個(gè)可以對(duì)本體進(jìn)行度量的工具,能夠針對(duì)文中提到的12個(gè)指標(biāo)統(tǒng)計(jì)結(jié)果并輸出,并且選取當(dāng)前版本更新較為完整的Open-GALEN(http://www.opengalen.org/sources/sources. html)和OpenCyc(http://www.cyc.com/platform/opencyc/ downloads)本體作為數(shù)據(jù)集,與這些本體的歷史版本的指標(biāo)進(jìn)行對(duì)比,最后從指標(biāo)角度探討了本體版本演變過程中所體現(xiàn)的規(guī)律。

      4.1本體數(shù)據(jù)集

      本文所使用的數(shù)據(jù)集信息參見表1。

      Table 1 Characteristics of experimental datasets表1 實(shí)驗(yàn)數(shù)據(jù)集

      OpenGALEN是一個(gè)開放型醫(yī)學(xué)術(shù)語(yǔ)本體,它共有8個(gè)版本的變化,本次實(shí)驗(yàn)所采用的版本是Open-GALEN2到OpenGALEN8,共計(jì)7個(gè)版本,Open-GALEN1由于沒有OWL格式的本體而未被選用。在OpenGALEN8中,由于版本內(nèi)容變化較大,本文選取了以前版本的直接繼承的部分OpenGALEN8_ CRM來進(jìn)行比較分析。

      OpenCyc是一個(gè)綜合型的本體,本次實(shí)驗(yàn)所采用的版本是opencyc-2008-06-10到opencyc-2012-05-10,共4個(gè)版本。

      4.2Ontology層結(jié)果分析

      表2表示的是對(duì)于Ontology層指標(biāo)的度量結(jié)果,D1到D7是OpenGALEN本體的版本,D8到D11是OpenCyc本體的版本。圖5為這兩個(gè)本體的Ontology層指標(biāo)隨版本變化的趨勢(shì)圖。

      Table 2 Measurement values of Ontology-level metrics表2 Ontology層指標(biāo)的度量

      SOV指標(biāo)的變化趨勢(shì)如圖5(a)、(e),它的值在兩個(gè)本體上隨版本的變化都是不斷增長(zhǎng)的。Open-GALEN和OpenCyc平均每個(gè)版本的增長(zhǎng)率分別為0.05和0.11,因此OpenCyc的SOV的平均增長(zhǎng)速度要更快,而且該值在OpenGALEN中的增長(zhǎng)速度在D4后已經(jīng)明顯放緩。

      Fig.5 Evolution of Ontology-level metrics on different rersions datasets圖5 不同版本的數(shù)據(jù)集上Ontology層指標(biāo)變化情況

      SOV指標(biāo)解釋 說明這兩個(gè)本體版本更新都會(huì)帶來實(shí)體規(guī)模的擴(kuò)充。OpenCyc增長(zhǎng)速度更快說明綜合領(lǐng)域本體的實(shí)體擴(kuò)充數(shù)量要大于醫(yī)學(xué)領(lǐng)域。而且可以看出OpenGALEN本體在D4之后已經(jīng)穩(wěn)定和完善,因此SOV的增加明顯變緩,而OpenCyc正處于高速發(fā)展階段,因此其SOV增長(zhǎng)一直保持較快的速度。

      TIP指標(biāo)的變化趨勢(shì)如圖5的(b)、(f),該指標(biāo)與SOV的變化趨勢(shì)相似,TIP在兩個(gè)本體中平均每個(gè)版本的增長(zhǎng)率分別為0.06和0.42。TIP在OpenGALEN本體的D4版本之后增長(zhǎng)明顯變緩。

      TIP指標(biāo)解釋 說明隨著版本變化兩個(gè)本體的繼承關(guān)系在不斷擴(kuò)充,且變得更為復(fù)雜。與OpenGALEN本體相比,OpenCyc本體的版本更新會(huì)對(duì)已有繼承關(guān)系做更多的擴(kuò)充工作。而且當(dāng)本體比較成熟后它的繼承結(jié)構(gòu)所需完善的內(nèi)容會(huì)很少。

      ENR指標(biāo)的變化趨勢(shì)如圖5的(c)、(g),它在兩個(gè)本體中表現(xiàn)出了不同的變化特點(diǎn)。在OpenGALEN本體中,ENR值隨版本的變化大體上保持在2.04左右,但在OpenCyc本體中,它的ENR值卻在不斷地增加。

      ENR指標(biāo)解釋 說明OpenGALEN本體中平均每個(gè)class出現(xiàn)在不同axiom中的個(gè)數(shù)沒有太大變化,即這個(gè)本體版本變化過程中擴(kuò)充的axiom很少。但在OpenCyc本體版本演變過程中,該本體每個(gè)版本都會(huì)對(duì)axiom進(jìn)行擴(kuò)充。

      EOG指標(biāo)的變化趨勢(shì)如圖5的(d)、(h),該指標(biāo)在OpenGALEN本體中度的分布情況在最近版本中沒有變化,而OpenCyc本體隨版本變化度的分布發(fā)生了變化。

      EOG指標(biāo)解釋 說明OpenGALEN本體在版本變化過程中不僅擴(kuò)充的axiom少,而且對(duì)已有的axiom的調(diào)整也少。而OpenCyc本體在版本變化過程中EOG的變化趨勢(shì)和ENR基本類似,因此它的axiom的關(guān)系會(huì)隨版本的變化而進(jìn)行調(diào)整。

      4.3Class層結(jié)果分析

      表3表示的是Class層的指標(biāo)分布情況。首先將所有命名class按照度量值升序排列。其中Med表示中位數(shù),Q3表示位于排序3/4處的class所含有的指標(biāo)值,Max表示最大值。D1到D7是OpenGALEN本體對(duì)應(yīng)的版本,D8到D11是OpenCyc本體對(duì)應(yīng)的版本。由于class眾多,本文將所有class的相應(yīng)指標(biāo)求平均值,然后用圖6記錄了該層指標(biāo)平均值的變化情況。

      NOC在表3中相比于OpenGALEN本體,Open-Cyc本體含有孩子節(jié)點(diǎn)的class的比例要更大些。而在圖6(a)中,OpenGALEN本體的NOC平均值只在從D2更新到D3時(shí)發(fā)生了變化。而在圖6(e)中,OpenCyc本體每個(gè)版本都在發(fā)生變化。

      NOC指標(biāo)解釋 該值的分布表明這兩個(gè)本體中大部分class沒有孩子節(jié)點(diǎn)。平均值的變化趨勢(shì)說明在醫(yī)學(xué)領(lǐng)域本體中的相關(guān)概念的子類數(shù)量擴(kuò)充較少,而綜合領(lǐng)域本體的相關(guān)概念的子類數(shù)量的變化較多。

      Table 3 Measurement values of Class-level metrics表3 Class層指標(biāo)的度量

      Fig.6 Evolution of Class-level metrics on different versions datasets圖6 不同版本的數(shù)據(jù)集上Class層指標(biāo)變化情況

      DIT在兩個(gè)本體中的Med值都大于0。在圖6(b)、(f)中,這兩個(gè)本體的DIT平均值在不斷變化,而且沒有表現(xiàn)出變化的規(guī)律。

      DIT指標(biāo)解釋 該值的分布表明這兩個(gè)本體中大部分class都含有父類。DIT平均值的變化趨勢(shì)表明,這兩個(gè)本體的class的深度在不斷地發(fā)生變化,即本體版本的更新都會(huì)調(diào)整繼承關(guān)系的結(jié)構(gòu)。

      CID在OpenGALEN本體中Med大于0,而Open-Cyc本體小于0。在圖6(c)、(g)中,這兩個(gè)本體的變化趨勢(shì)都是前幾次更新CID的均值在不斷地增加,但增長(zhǎng)速率逐漸變緩,之后的幾個(gè)版本出現(xiàn)了較小幅度的減少。

      CID指標(biāo)解釋 該值的分布表明在OpenGALEN本體中,大部分的class擁有入度,而OpenCyc本體中大部分class沒有入度。而圖中的變化趨勢(shì)表明在版本更新過程中,class對(duì)其他class的影響力共經(jīng)歷了增加、穩(wěn)定到減少3個(gè)過程的變化,反映了本體版本演變的過程就是對(duì)class之間的結(jié)構(gòu)逐步完善、趨于穩(wěn)定、最后精煉的過程。

      COD在兩個(gè)本體中Med值都大于0,并且該值在這兩個(gè)本體中的分布情況基本保持了穩(wěn)定。在圖6(d)中,該本體指標(biāo)的平均值除了在D4版本時(shí)發(fā)生了很小的變化之外,基本保持了穩(wěn)定。而在圖6(h)中,該本體指標(biāo)的平均值在不斷地增加,但增加的速率不斷地變緩。

      COD指標(biāo)解釋 該值的分布表明在兩個(gè)本體中大部分的class都會(huì)受到其他class改動(dòng)的影響。隨著本體版本的變化,OpenGALEN本體中的class所受其他class影響的程度的變化情況并不明顯,說明該本體的class關(guān)系已經(jīng)較為完善。而在OpenCyc本體中,在前幾個(gè)版本更新時(shí),新版本中的class更加易受其他類的影響,之后版本的演變過程中,對(duì)class所受影響程度的改變?cè)絹碓叫 _@個(gè)過程說明OpenCyc本體的class的關(guān)系經(jīng)歷了從高速發(fā)展到相對(duì)穩(wěn)定的過程。

      4.4Property層結(jié)果分析

      表4表示的是對(duì)于Property層指標(biāo)的統(tǒng)計(jì)結(jié)果的分布情況,統(tǒng)計(jì)的同樣是Med、Q3和Max,D1到D7是OpenGALEN本體的相應(yīng)版本,D8到D11是Open-Cyc本體的相應(yīng)版本。圖7表示的是該層指標(biāo)的平均值的變化情況。

      Table 4 Measurement values of Property-level metrics表4 Property層指標(biāo)的度量

      Property層的指標(biāo)值比Class層的值明顯偏小,原因是本體中property的數(shù)量要遠(yuǎn)少于class的數(shù)量。在表4中除了OpenGALEN的DIPT外,其他的分布都是極度扭曲的,大部分的值都集中在了Max值附近,因而只有少數(shù)property擁有孩子節(jié)點(diǎn)、入度和出度。而在圖7中,只有OpenGALEN的NOPC一直保持了穩(wěn)定,其余的折線圖都只在第一個(gè)版本發(fā)生了很小的減少,而后便保持了穩(wěn)定。圖中PID與POD值相同是因?yàn)閳D的平均入度等于平均出度。Open-Cyc本體中的PID與NOPC值基本相同是因?yàn)樵搱D結(jié)構(gòu)中的絕大多數(shù)邊都是與subProperty相關(guān)的邊。

      Property指標(biāo)解釋 說明在版本更新過程中,屬性之間的關(guān)系在創(chuàng)建時(shí)就已經(jīng)比較完善,只需在后續(xù)版本做少量修正和擴(kuò)充。而在之后的版本更新過程中,property節(jié)點(diǎn)與其他節(jié)點(diǎn)的依賴關(guān)系基本保持穩(wěn)定。

      Fig.7 Evolution of Property-level metrics on different versions datasets圖7 不同版本的數(shù)據(jù)集上Property層指標(biāo)變化情況

      4.5實(shí)驗(yàn)總結(jié)

      將不同本體中與本體規(guī)模相關(guān)的指標(biāo)進(jìn)行比較,例如SOV和TIP,可知在任何一個(gè)版本中,這些指標(biāo)在OpenGALEN本體中的值都要小于在OpenCyc本體中的值,因此OpenGALEN作為醫(yī)學(xué)本體,隨版本演變其內(nèi)部的改動(dòng)幅度和規(guī)模要小于OpenCyc這個(gè)綜合性本體,說明本體的領(lǐng)域背景之間的關(guān)系可以反映到本體的規(guī)模大小上,驗(yàn)證了規(guī)律1的正確性。

      通過研究本體的3個(gè)層次指標(biāo)隨版本演變所產(chǎn)生的變化情況,可以求出OpenGALEN本體中的VO_l、VC_l和VP_l分別為0.19、0.04、0.02,而在OpenCyc本體中這些值對(duì)應(yīng)為0.93、0.34、0.32,由此可驗(yàn)證在Ontology層上的指標(biāo)變化最為明顯,Class層的指標(biāo)也有變化,但這些變化大多集中在其指標(biāo)值較大的class上,而Property層指標(biāo)值變化很小。這說明在版本的演變過程中,整個(gè)本體的結(jié)構(gòu)變化是較明顯的,部分重要的class的改動(dòng)和擴(kuò)充也較為顯著,而property的結(jié)構(gòu)較為穩(wěn)定,從而驗(yàn)證了規(guī)律2的正確性。

      從兩個(gè)本體指標(biāo)的值隨本體演變的折線圖可以反映規(guī)律3中給出的公式,即在Ontology層和Class層的指標(biāo)隨版本演化是不斷增長(zhǎng)且增速變緩的,Property層的變化相對(duì)較小,故驗(yàn)證了規(guī)律3的正確性。而且,OpenGALEN本體在最近的版本演變中指標(biāo)變化幾乎為0,而OpenCyc本體的指標(biāo)卻依然在不斷增加,說明OpenGALEN本體已經(jīng)處于一個(gè)發(fā)展較為成熟的階段,而OpenCyc本體正處于一個(gè)高速發(fā)展的時(shí)期。

      結(jié)合4.4節(jié)指標(biāo)解釋的分析,表明本文提出的Property層指標(biāo)可以豐富文獻(xiàn)[7]中的指標(biāo)系統(tǒng),有利于發(fā)現(xiàn)更多property結(jié)構(gòu)變化的規(guī)律。本文將本體版本控制和本體指標(biāo)的研究方法相結(jié)合,分析本體指標(biāo)在不同版本下的實(shí)驗(yàn)結(jié)果,驗(yàn)證了3.2節(jié)中提出的規(guī)律的正確性,因此驗(yàn)證了基于本體指標(biāo)分析版本演變的方法的有效性,為本體的分析提供了一個(gè)新的方法。

      5 總結(jié)與展望

      本文首先進(jìn)一步擴(kuò)充了度量本體指標(biāo)的工作,即添加了Property層的4個(gè)指標(biāo);而后結(jié)合已有的度量指標(biāo),設(shè)計(jì)工具度量了多個(gè)版本的OpenGALEN和OpenCyc本體;最后通過對(duì)不同本體多個(gè)版本的相應(yīng)指標(biāo)的分析和比較,總結(jié)出OpenGALEN和OpenCyc本體在版本演變過程中所表現(xiàn)出的規(guī)律。實(shí)驗(yàn)結(jié)果的分析過程能夠跟蹤本體內(nèi)部的演變情況,可以為維護(hù)和分析本體的人員提供必要的幫助。

      目前本體規(guī)模大,種類多,指標(biāo)和測(cè)量的本體規(guī)模還需要進(jìn)一步擴(kuò)充,因此計(jì)劃提出Individual層的度量指標(biāo),并且度量更多的擁有版本演變的本體,如NCI Thesaurus本體和Gene本體等。希望能夠通過大量本體不同版本的指標(biāo)的對(duì)比分析,總結(jié)出更多的本體版本演變規(guī)律。

      References:

      [1]Bizer C,Heath T,Berners-Lee T.Linked data—the story so far[J].International Journal on Semantic Web&Information Systems,2009,5(3):1-22.

      [2]Gruber T R.Toward principles for the design of ontologies used for knowledge sharing?[J].International Journal of Human-Computer Studies,1995,43(5):907-928.

      [3]Li Shanping,Yin Qiwei,Hu Yujie,et al.Overview of researches on ontology[J].Journal of Computer Research and Development,2004,41(7):1041-1052.

      [4]Horrocks I,Patel-Schneider P F,Harmelen F V.From SHIQ and RDF to OWL:the making of a Web ontology language[J]. Web Semantics Science Services&Agents on the World Wide Web,2003,1(1):7-26.

      [5]Rector A L,Rogers J E,Zanstra P E,et al.OpenGALEN: open source medical terminology and tools[C]//AMIA Annual Symposium Proceedings,Washington,USA,Nov 8-12,2003:982-982.

      [6]Matuszek C,Cabral J,Witbrock M J,et al.An introduction to the syntax and content of Cyc[C]//Proceedings of the 2006 AAAI Spring Symposium on Formalizing and Compiling Background Knowledge and Its Applications to Knowledge Representation and Question Answering,Stanford,USA,Mar 27-29,2006.Palo Alto,USA:AAAI,2006: 44-49.

      [7]Zhang Hongyu,Li Yuanfang,Tan H B K.Measuring design complexity of semantic Web ontologies[J].Journal of Systems&Software,2010,83(5):803-814.

      [8]Kang Dazhou,Xu Baowen,Lu Jianjiang,et al.A complexity measure for ontology based on UML[C]//Proceedings of the 10th IEEE International Workshop on Future Trends of Distributed Computing Systems,Suzhou,China,May 26-28,2004.Piscataway,USA:IEEE,2004:222-228.

      [9]Yao H,Orme A M,Etzkorn L.Cohesion metrics for ontology design and application[J].Journal of Computer Science, 2005,1(1):107-113.

      [10]Kang Yongbin,Li Yuanfang,Krishnaswamy S.Predicting reasoning performance using ontology metrics[C]//LNCS 7649:Proceedings of the 11th International Semantic Web Conference,Boston,USA,Nov 11-15,2012.Berlin,Heidelberg:Springer,2012:198-214.

      [11]Kang Yongbin,Pan J Z,Krishnaswamy S,et al.How long will it take?Accurate prediction of ontology reasoning performance[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence,Québec City,Canada,Jul 27-31,2014. El Segundo,USA:AIAccess Foundation,2014:80-86.

      [12]Javed M,Abgaz Y M,Pahl C.Ontology change management and identification of change patterns[J].Journal on Data Semantics,2013,2(2/3):119-143.

      [13]Li Gaofan,Wang Peng,Yu Bin.Ontology evolution detection:method and results[M]//The Semantic Web and Web Science.Berlin,Heidelberg:Springer,2014:134-145.

      [14]Goncalves R S,Parsia B,Sattler U.Analysing the evolution of the NCI thesaurus[C]//Proceedings of the 2011 24th International Symposium on Computer-Based Medical Systems,Bristol,UK,Jun 27-30,2011.Piscataway,USA:IEEE, 2011:1-6.

      [15]Gon?alves R S,Parsia B,Sattler U.Analysing multiple versions of an ontology:a study of the NCI thesaurus[C]//Proceedings of the 24th International Workshop on Description Logics,Barcelona,Spain,Jul 13-16,2011.Tilburg,Netherlands:Sun SITE Central Europe CEUR-WS,2011:147-157. [16]Horridge M,Bechhofer S.The OWL API:a Java API for OWL ontologies[J].Semantic Web,2011,2(1):11-21.

      附中文參考文獻(xiàn):

      [3]李善平,尹奇韡,胡玉杰,等.本體論研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2004,41(7):1041-1052.

      LI Zhiyuan was born in 1990.He is an M.S.candidate at Tianjin University,and the student member of CCF.His research interests include ontology analysis and ontology measurement.

      李致遠(yuǎn)(1990—),男,天津大學(xué)碩士研究生,CCF學(xué)生會(huì)員,主要研究領(lǐng)域?yàn)楸倔w分析,本體評(píng)估。

      馮志勇(1965—),男,1996年于天津大學(xué)獲得博士學(xué)位,現(xiàn)為天津大學(xué)教授、博士生導(dǎo)師,CCF高級(jí)會(huì)員,主要研究領(lǐng)域?yàn)橹R(shí)工程,服務(wù)計(jì)算。

      王鑫(1981—),男,2009年于南開大學(xué)獲得博士學(xué)位,現(xiàn)為天津大學(xué)副教授,CCF高級(jí)會(huì)員,主要研究領(lǐng)域?yàn)閳D數(shù)據(jù)庫(kù),語(yǔ)義Web,大規(guī)模知識(shí)處理。

      李元放(1977—),男,2006年于新加坡國(guó)立大學(xué)獲得博士學(xué)位,現(xiàn)為澳大利亞莫納什大學(xué)講師,主要研究領(lǐng)域?yàn)檎Z(yǔ)義Web,本體推理,本體度量。

      饒國(guó)政(1977—),男,2009年于天津大學(xué)獲得博士學(xué)位,現(xiàn)為天津大學(xué)副教授,CCF會(huì)員,主要研究領(lǐng)域?yàn)橹R(shí)工程,軟件工程。

      Approach toAnalyzing Ontology Versioning Evolution Based on Ontology Metrics*

      LI Zhiyuan1,2,FENG Zhiyong1,2,WANG Xin1,2+,LI Yuanfang3,RAO Guozheng1,2
      1.School of Computer Science and Technology,Tianjin University,Tianjin 300027,China
      2.Tianjin Key Laboratory of Cognitive Computing andApplication,Tianjin 300072,China
      3.Clayton School of Information Technology,Monash University,Australia
      +Corresponding author:E-mail:wangx@tju.edu.cn

      With the development of semantic Web and the popularity of OWL(Web ontology language),more and more large-scale ontologies are being developed in various fields,some of them have evolved through a number of versions.There is an increasing need for finding a simple and effective way to analyze their evolution.Inspired by some related works about analyzing and designing ontology metrics,this paper presents four ontology metrics on OWL Property-level and selects large ontologies OpenGALEN and OpenCyc that have different versions as the datasets,then designs a tool based on OWL-API to calculate ontology metrics at Ontology-level,Class-level and Propertylevel.In the end,this paper analyzes the experimental results and the meaning of ontology metrics,and points out some features of ontology metrics in different ontology versions.

      ontology versioning;ontology metrics;ontology analysis;ontology evolution;OWL-API

      2015-06,Accepted 2015-08.

      FENG Zhiyong was born in 1965.He the Ph.D.degree from Tianjin University in 1996.Now he is a professor and Ph.D.supervisor at Tianjin University,and the senior member of CCF.His research interests include knowledge engineering and service computing.

      WANG Xin was born in 1981.He the Ph.D.degree from Nankai University in 2009.Now he is an associate professor at Tianjin University,and the senior member of CCF.His research interests include graph databases, semantic Web and large-scale knowledge processing.

      LI Yuanfang was born in 1977.He the Ph.D.degree from National University of Singapore in 2006.Now he is a lecturer at Monash University,Australia.His research interests include semantic Web,ontology reasoning and ontology measurement.

      RAO Guozheng was born in 1977.He the Ph.D.degree from Tianjin University in 2009.Now he is an associate professor at Tianjin University,and the member of CCF.His research interests include knowledge engineering and software engineering.

      10.3778/j.issn.1673-9418.1506044

      *The National Natural Science Foundation of China under Grant No.61100049(國(guó)家自然科學(xué)基金);the National High Technology Research and Development Program of China under Grant No.2013AA013204(國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)).

      CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-08-28,http://www.cnki.net/kcms/detail/11.5602.TP.20150828.1513.006.html

      A

      TP311

      猜你喜歡
      度量本體規(guī)律
      有趣的度量
      Abstracts and Key Words
      模糊度量空間的強(qiáng)嵌入
      規(guī)律睡眠中醫(yī)有妙招
      對(duì)姜夔自度曲音樂本體的現(xiàn)代解讀
      找規(guī)律 畫一畫 填一填
      找排列規(guī)律
      迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
      巧解規(guī)律
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      上杭县| 林甸县| 花莲县| 循化| 博乐市| 邹城市| 阿图什市| 伊金霍洛旗| 文成县| 新蔡县| 巴青县| 桃源县| 武汉市| 丰镇市| 三门县| 洞头县| 子洲县| 平武县| 屏南县| 象山县| 长海县| 容城县| 仲巴县| 昌宁县| 孟津县| 汾阳市| 宜川县| 庆云县| 乐亭县| 普定县| 灵璧县| 读书| 咸宁市| 绥江县| 衢州市| 昌吉市| 梁山县| 绥宁县| 清镇市| 右玉县| 沁阳市|