• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    語義出版驅(qū)動(dòng)的科學(xué)論文論證結(jié)語義建模研究

    2021-12-21 13:58:19曲佳彬歐石燕
    現(xiàn)代情報(bào) 2021年12期
    關(guān)鍵詞:本體結(jié)論語義

    曲佳彬 歐石燕

    DOI.10.3969/j.issn.1008-0821.2021.12.005

    [中圖分類號]G254 [文獻(xiàn)標(biāo)識碼]A [文章編號]1008-0821(2021)12-0048-12

    科學(xué)論文是科研工作者研究成果的固化,是知識傳播和科學(xué)交流的載體。隨著科學(xué)研究的不斷推進(jìn),科學(xué)論文發(fā)表數(shù)量與日俱增。海量的科學(xué)論文造成信息過載,科研人員需要花費(fèi)大量的時(shí)間查找和閱讀相當(dāng)于原來幾倍數(shù)量的文獻(xiàn)。如何精確且快速查找所需文獻(xiàn)并進(jìn)行有效閱讀成為每個(gè)科研人員所要面臨的問題。在此背景下,對科學(xué)論文內(nèi)容進(jìn)行語義表示和組織,實(shí)現(xiàn)論文內(nèi)容的模塊化、結(jié)構(gòu)化、語義化和關(guān)聯(lián)化顯示與發(fā)布變得尤為重要。

    隨著數(shù)字出版的不斷發(fā)展,牛津大學(xué)的Shot-ton D于2009年首次提出了語義出版概念,其實(shí)質(zhì)是利用語義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)技術(shù),通過語義標(biāo)記注釋和豐富出版物的內(nèi)容。語義出版作為一種新型的出版模式和知識表示模式,對科學(xué)論文結(jié)構(gòu)和內(nèi)容進(jìn)行細(xì)粒度語義表示,以結(jié)構(gòu)化和模塊化的方式呈現(xiàn)科學(xué)論文的內(nèi)容,能夠有效提高科研人員的閱讀效率。在語義出版發(fā)展過程中,從早期對論文外部特征(如題錄信息、參考文獻(xiàn)等)的語義描述,正逐漸深入到論文內(nèi)容層面的語義表示,如實(shí)體、概念、科學(xué)結(jié)論、圖表等。

    現(xiàn)有研究多是從篇章結(jié)構(gòu)角度對科學(xué)論文的內(nèi)容結(jié)構(gòu)進(jìn)行解析和知識表示,多是在章節(jié)和段落層面進(jìn)行,缺少對科學(xué)論文內(nèi)容細(xì)粒度的知識表示和知識關(guān)聯(lián)??茖W(xué)論文是一種論證性文本,是對科學(xué)觀點(diǎn)和科學(xué)結(jié)論的論證。從科學(xué)論證角度對科學(xué)論文的結(jié)構(gòu)進(jìn)行解析,對其中細(xì)粒度的論證元素和論證關(guān)系進(jìn)行語義表示,能夠更加精確地表示科學(xué)論文的內(nèi)容。因此,本研究旨在從論證角度構(gòu)建一個(gè)科學(xué)論文論證結(jié)構(gòu)本體,對科學(xué)論文中的論證元素(如研究問題、研究方法、研究結(jié)論等)及其論證關(guān)系進(jìn)行語義表示,實(shí)現(xiàn)對科學(xué)論文細(xì)粒度內(nèi)容的語義出版,從而幫助科研人員快速理解科學(xué)論文內(nèi)容并定位特定信息,促進(jìn)知識傳播和科學(xué)交流。

    1相關(guān)研究

    對科學(xué)論文內(nèi)容進(jìn)行語義描述的目的是將論文中的知識顯性化、結(jié)構(gòu)化和形式化表示。當(dāng)前研究主要是從科學(xué)論文的篇章結(jié)構(gòu)出發(fā)對其進(jìn)行描述。篇章結(jié)構(gòu)是指論文的功能結(jié)構(gòu),其規(guī)范定義了科學(xué)論文各部分的順序和功能,譬如科學(xué)論文中某段文字的作用是介紹“研究背景”或闡述“研究方法”。依據(jù)描述粒度的不同,大致可以分為兩種描述方式:第一種是粗粒度的論文篇章結(jié)構(gòu),主要對論文章節(jié)等文獻(xiàn)組成部件、題錄信息及參考文獻(xiàn)的描述:第二種是細(xì)粒度的論文篇章結(jié)構(gòu),專門用于對論文中研究目標(biāo)、假設(shè)、論據(jù)、方法、試驗(yàn)及結(jié)論等功能元素進(jìn)行描述。

    針對粗粒度的篇章結(jié)構(gòu),目前主要有IMRaD模型和ABCDE模型兩個(gè)代表性模型。IMRaD模型是目前最具影響力的論文寫作框架,將論文的正文內(nèi)容劃分為4個(gè)具有語義功能的模塊,即介紹(In-troduction)、方法(Method)、結(jié)果(Result)和討論(Discussion),被廣泛應(yīng)用于實(shí)證型或?qū)嶒?yàn)型論文。ABCDE模型由荷蘭烏特列支大學(xué)計(jì)算機(jī)科學(xué)系的Waard A D等提出,主要用于計(jì)算機(jī)領(lǐng)域會議論文的標(biāo)注。ABCDE模型將科學(xué)論文的結(jié)構(gòu)劃分為:標(biāo)注信息(Annotations)、背景(Background)、貢獻(xiàn)(Contribution)、討論(Discussion)和實(shí)體(En-tities)共5個(gè)模塊,其中,標(biāo)注信息指科學(xué)論文的外部題錄信息,如題名、作者、出版日期等,實(shí)體指科學(xué)論文中的人名、地名、研究方法名和模型名等。此外,在IMRaD模型基礎(chǔ)上,一些論文內(nèi)容本體被提出,主要有篇章元素本體(Discourse Ele-ments Ontology,簡稱DEO)、文檔組件本體(Document Components Ontology,簡稱DoCO)、修辭塊本體(Ontology of Rhetorical Blocks,簡稱ORB)。這些本體都是將論文中粗粒度的篇章、文本塊或段落,按不同語義功能進(jìn)行分類,并采用形式化語言來描述。

    對于細(xì)粒度篇章結(jié)構(gòu)的描述主要有AZ-J/AZ-Ⅱ模型、CISP模型、核心科學(xué)概念框架。1999年英國劍橋大學(xué)的Teufel S等以計(jì)算語言學(xué)領(lǐng)域的論文為研究對象,提出了AZ-Ⅰ模型。該模型將論文的篇章劃分為7個(gè)類別,包括研究目標(biāo)(Aim)、背景(Background)、相關(guān)研究(Other)、研究起點(diǎn)(Basis)、對比分析(Contrast)、作者研究(Own)和篇章結(jié)構(gòu)描述(Textual)。隨后,Teufel S等人又提出了改進(jìn)版的AZ-Ⅱ模型,在其中增加了支持性研究(Support)、中立比較(Codi)、研究空白(Gap_Weak)和矛盾比較(Atisupp)等情感和論證性的描述。2007年,英國威爾士大學(xué)的Soldatova L等分析了生物學(xué)領(lǐng)域論文篇章結(jié)構(gòu),認(rèn)為科學(xué)論文是一項(xiàng)包含核心信息的科學(xué)調(diào)查研究內(nèi)容表示,構(gòu)建了科學(xué)論文核心信息(The Core Information About Scientific Papers,簡稱CISP)本體,定義了科學(xué)調(diào)查研究中的8個(gè)核心概念,主要包括調(diào)查目標(biāo)(Goal of Investigation)、調(diào)查動(dòng)機(jī)(Motivation)、調(diào)查對象(Obiect of Investigation)、研究方法(Research Method)、實(shí)驗(yàn)(Experiment)、實(shí)驗(yàn)觀察(Observa-tion)、調(diào)查結(jié)果(Result)和調(diào)查結(jié)論(Conclu-sion)。2012年,Liakata M等以CISP本體為基礎(chǔ)進(jìn)行了擴(kuò)展,添加假設(shè)(Hypothesis)、模型(Mod-el)和背景(Background)3個(gè)概念,將該模型定義為核心科學(xué)概念(Core Scientific Concepts,簡稱Co-reSCs)模型。此外,一些國內(nèi)學(xué)者開展了科學(xué)論文內(nèi)容標(biāo)注框架的研究。2017年,秦春秀等通過分析CNKI、萬方、維普數(shù)據(jù)庫中的科技論文的內(nèi)容和結(jié)構(gòu),提出了一種基于知識元的科學(xué)論文標(biāo)注框架,該框架包括了13類知識元(研究背景知識元、問題知識元、方法知識元等)及31個(gè)子類。王曉光等設(shè)計(jì)了科學(xué)論文功能單元標(biāo)注框架,以句子級為標(biāo)注對象將論文內(nèi)容定義為28個(gè)類(背景、主題、緣起、已有研究、假設(shè)、方法、數(shù)據(jù)、結(jié)果等),并定義5個(gè)屬性來描述類的屬性,譬如知識類型、時(shí)態(tài)、來源、情感傾向和確定程度。

    除了從篇章結(jié)構(gòu)角度出發(fā)來描述科學(xué)論文的內(nèi)容,也有學(xué)者從論證結(jié)構(gòu)角度出發(fā)來描述論文的論證過程,構(gòu)建本體或其他語義模型來描述論文中各篇章單元間的論證關(guān)系。博洛尼亞大學(xué)的Vitali F等于2011年提出了論證模型本體(The Argument Model Ontology,簡稱AMO),該本體以圖爾敏模型為原型,采用OWL2DL語言對該模型中的論證元素(主張、保證、根據(jù)、限定詞、支撐、例外)和相互問的論證關(guān)系進(jìn)行了語義描述。此后,哈佛醫(yī)學(xué)院的Clark T等提出微出版模型(Mirco-publication,簡稱MP),主要用于描述科學(xué)論文的論證結(jié)構(gòu),定義不同的論證元素,比如數(shù)據(jù)、方法等概念,來證明科學(xué)論斷,并通過各種語義關(guān)系來關(guān)聯(lián)論文中的各類知識,如研究結(jié)論、事實(shí)等。美國波士頓馬薩諸塞綜合醫(yī)院的Paolo C等提出SWAN(Semantic Web Applications in Neuromedicine)本體,主要用于描述阿爾茨海默病領(lǐng)域論文的外部元數(shù)據(jù)及其內(nèi)容,并將其與其他生物醫(yī)學(xué)資源庫中的知識相關(guān)聯(lián)。該本體定義了3個(gè)主要論證元素:研究聲明(Research Statement)表示科學(xué)論斷或假設(shè)、研究問題(Research Question)和評論(Com-ment),并通過一致(ConsistentWith)、不一致(In-consistentWith)、討論(Discuss)和替代(Alternative-To)語義關(guān)系來關(guān)聯(lián)各個(gè)論證元素。2020年,王曉光等參考AMO本體、微型出版物模型對科學(xué)論文論證過程的基本結(jié)構(gòu)進(jìn)行了表示,并復(fù)用DEO和CoreSCs模型構(gòu)建了論證本體,該本體包括7個(gè)核心類、13個(gè)擴(kuò)展類和15種關(guān)系,其中7個(gè)核心類基本為圖爾敏模型的論證元素,13個(gè)擴(kuò)展類比如事實(shí)、相關(guān)研究、研究問題等。

    總體來說,現(xiàn)有的論文內(nèi)容描述框架多以篇章結(jié)構(gòu)為基礎(chǔ),從粗粒度和細(xì)粒度層面對論文內(nèi)容組成部分進(jìn)行表示和建模。但是這種關(guān)聯(lián)關(guān)系僅是篇章結(jié)構(gòu)問顯性的關(guān)聯(lián),面對海量的科學(xué)論文,科研人員迫切希望了解深層次的知識產(chǎn)生過程。因此,本研究從論證的角度,分析科學(xué)論文包含不同功能元素的句子、句子中的實(shí)體及句子的語境,借助圖爾敏論證結(jié)構(gòu)模型,構(gòu)建深入、全面地揭示科學(xué)論文內(nèi)容信息的論證結(jié)構(gòu)本體。

    2科學(xué)論文論證結(jié)構(gòu)分析

    2.1波普爾知識增長理論

    對于科學(xué)知識的產(chǎn)生與發(fā)展,20世紀(jì)著名的科學(xué)哲學(xué)大師卡爾·波普爾提出了知識增長理論。該理論認(rèn)為,科學(xué)知識的增長不是靜止的,而是一個(gè)動(dòng)態(tài)發(fā)展的過程,這個(gè)過程對應(yīng)著一個(gè)動(dòng)態(tài)研究模式,如圖1所示。

    上述研究模式可以看出,波普爾強(qiáng)調(diào)知識增長始于問題(P1),科學(xué)問題是科學(xué)研究的最初發(fā)源地;問題出現(xiàn)以后,學(xué)者會提出一些針對性的解決方案,被稱為猜想或試探性理論(TT),這些理論是對科學(xué)問題的試探性答復(fù)。理論之間經(jīng)過激烈競爭和相互批判,并通過一些決定性的試驗(yàn)排除錯(cuò)誤的知識,即進(jìn)行證偽(EE),最后得出一個(gè)相對滿意的理論,進(jìn)而提出新問題(P2),如此以往不斷循環(huán)深入,使科學(xué)知識呈螺旋式增長。

    2.2科學(xué)研究過程及構(gòu)成要素分析

    科學(xué)論文是科研工作者對科學(xué)研究過程及其科學(xué)發(fā)現(xiàn)進(jìn)行規(guī)范性描述的文本,其主要目的是實(shí)現(xiàn)科學(xué)交流和知識傳播??茖W(xué)論文報(bào)道了科學(xué)知識的產(chǎn)生過程,符合波普爾的知識增長理論。基于波普爾知識增長理論,本文對科學(xué)研究過程及構(gòu)成要素進(jìn)行梳理和歸納,將科學(xué)研究過程劃分為:提出問題、提出假設(shè)、實(shí)驗(yàn)與分析、研究總結(jié)和未來研究5個(gè)階段,如圖2所示。

    從圖2可以看出,科學(xué)研究中的不同階段包含不同構(gòu)成要素:提出問題階段是在已有研究基礎(chǔ)上通過分析和查漏補(bǔ)缺發(fā)現(xiàn)新的研究問題,由“前人陳述”“研究問題”和“研究目的”3個(gè)要素構(gòu)成:猜想與假設(shè)階段是對科學(xué)問題的解決方案的大膽猜想,即“假設(shè)”:實(shí)驗(yàn)與分析階段由“研究方法”和“研究結(jié)果”構(gòu)成:研究總結(jié)階段表現(xiàn)為科學(xué)“結(jié)論”:未來研究設(shè)想階段則在科學(xué)“結(jié)論”的基礎(chǔ)上擴(kuò)展為“新的研究問題”。針對科學(xué)研究過程中包含的這8種要素,本文對其進(jìn)行了詳細(xì)定義,如表1所示。

    上述分析表明,科學(xué)研究有一套系統(tǒng)、規(guī)范的流程,在不同階段由不同類型的要素構(gòu)成??茖W(xué)論文是科研工作者對科學(xué)研究過程及其科學(xué)發(fā)現(xiàn)進(jìn)行規(guī)范性描述的文本,其中蘊(yùn)含了對科學(xué)研究各階段構(gòu)成元素的描述。因此,從科學(xué)論文中抽取出這些構(gòu)成要素能夠重現(xiàn)科學(xué)研究的整個(gè)過程,反映科學(xué)研究的關(guān)鍵環(huán)節(jié)。

    2.3科學(xué)論文論證結(jié)構(gòu)模型

    科學(xué)論文中包含的各要素并非扁平化的羅列,通常要遵循一定的論證結(jié)構(gòu),只有這樣才能說服讀者接收作者的科學(xué)觀點(diǎn)或科學(xué)發(fā)現(xiàn),達(dá)到科學(xué)交流和知識傳播的目的。在針對自然語言論證的非形式邏輯中,最具有代表性的論證模型是20世紀(jì)50年代英國哲學(xué)家和教育學(xué)家史蒂芬·圖爾敏(Stephen Toulmin)提出的“圖爾敏模型”,如圖3所示。

    通過圖3可知,圖爾敏論證模型由6個(gè)元素構(gòu)成:理由(Grounds)、保證(Warrant)、主張(Claim)、支援(Backing)、模態(tài)限定詞(Modality)和例外(Re-buttals)。其中,“主張”是所要論證的命題,“理由”是論證命題的證據(jù),“保證”是用來連接“主張”和“理由”之間的原則、規(guī)則或推論許可證,這3個(gè)是論證的基本要素,在每個(gè)論證中都會出現(xiàn),構(gòu)成論證的基本模式,即從理由(Grounds)出發(fā),通過保證(Warrant)推出主張(Claim)。此外,該模型還包含“支援”“模態(tài)限定詞”和“例外”3個(gè)補(bǔ)充要素,其中“支援”是對“保證”的支持,“模態(tài)限定詞”是對“主張”確定程度的修飾,“例外”是指反例,這3個(gè)要素不是必須的,可以根據(jù)論證情況有選擇地使用。

    本文基于圖爾敏模型來表示科學(xué)論文中各元素間的論證關(guān)系,形成科學(xué)論文論證結(jié)構(gòu)模型,如圖4所示。在科學(xué)論文中,論文的“結(jié)論(Conclu-sion)”即為要論證的“主張(Claim)”:在關(guān)于“結(jié)論(Conclusion)”的陳述中,往往包含了反映其確定程度的副詞,譬如結(jié)論句“All of the Above Re-sults Suggested that Disturbed Cholesterol Homeostasisin Young Rats May Underlie the Deleterious Effects of Lead Induced Early AD-related Pathology”中的副詞“May”,這些副詞即為對“主張”的“模態(tài)限定詞(Modality)”;為了證明所提出的“結(jié)論”,科學(xué)論文中的“方法(Method)”和“結(jié)果(Results)”構(gòu)成了論證中的“理由(Grounds)”,而科學(xué)論文中的“前人陳述(PriorStatement)”“問題(Problem)”“目標(biāo)(Goal)”和“假設(shè)(Hypothesis)”則是由理由推出結(jié)論的“保證(Warrant)”。

    因此,根據(jù)圖爾敏模型,可以將科學(xué)論文的論證結(jié)構(gòu)表述為:首先提出研究問題,并在已有事實(shí)或理論基礎(chǔ)上進(jìn)行合理的假設(shè):然后通過實(shí)驗(yàn)和分析,得出有價(jià)值的結(jié)論,該結(jié)論可能有限定因素。通過上述分析可以看出,采用圖爾敏模型來構(gòu)建科學(xué)論文論證結(jié)構(gòu),不僅能夠細(xì)粒度展示科學(xué)論文包含的不同元素,而且能清晰地刻畫出論文內(nèi)容的邏輯結(jié)構(gòu),提升科學(xué)知識的可信性。

    3科學(xué)論文論證結(jié)構(gòu)本體模型構(gòu)建

    3.1論證結(jié)構(gòu)本體概覽

    上節(jié)中構(gòu)建的科學(xué)論文論證結(jié)構(gòu)模型只是一個(gè)抽象模型,本節(jié)采用OWL本體語言對其進(jìn)行形式化表示,規(guī)范定義模型中的論證元素及其關(guān)系,最終生成一個(gè)立體化、細(xì)粒度的科學(xué)論文論證結(jié)構(gòu)本體,如圖5所示。

    相較于MP本體和王曉光等構(gòu)建的論證本體,本文構(gòu)建的論證結(jié)構(gòu)本體更全面、更細(xì)粒度地揭示了論文的論證結(jié)構(gòu),主要從語句、實(shí)體及語境3個(gè)層面來描述論文的論證結(jié)構(gòu):論證元素的粒度為句子級;陳述型論證元素(前人陳述、結(jié)論和結(jié)果)采用“實(shí)體—關(guān)系—實(shí)體”三元組來表示:以“確定程度”為對象屬性來描述結(jié)論,增加其語境信息。

    科學(xué)論文論證結(jié)構(gòu)本體主要復(fù)用了DEO、Nan-opublishing、AMO和MP這4個(gè)本體中的部分詞匯。DEO本體是由Shotton D等和Peroni S于2015年構(gòu)建的語義出版與參考本體(Semantic Publishing and Referencing Ontologies,簡稱SPAR本體)家族中的一員,用于描述科學(xué)論文中的修辭要素,包括介紹、方法、材料、結(jié)果、參考文獻(xiàn)等。Nanopublishing本體是由概念網(wǎng)絡(luò)聯(lián)盟于2005年提出的納米出版模型的OWL本體版,用于對科學(xué)論文中的結(jié)論或觀點(diǎn)進(jìn)行語義化描述,以“主—謂—賓”三元組形式表示最小無歧義的知識單元。AMO本體其實(shí)是圖爾敏模型的OWL本體版,由Vitali F等于2011年采用OWL2DL語言對圖爾敏模型進(jìn)行語義化重構(gòu)后生成。MP本體是哈佛醫(yī)學(xué)院的ClarkT等提出微出版模型(Mircopublication)本體,用于對論文中的論證元素及其關(guān)系進(jìn)行語義描述。除了復(fù)用上述本體中的類和屬性之外,科學(xué)論文論證結(jié)構(gòu)本體中還包含了自定義的類和屬性,采用前綴spsao(http:∥www.example.com/spsao#)表示。下面將對該本體中的主要類和屬性(關(guān)系)進(jìn)行詳細(xì)介紹。

    3.2論證結(jié)構(gòu)本體的主要類和關(guān)系

    科學(xué)論文論證結(jié)構(gòu)本體中的主要類如表2所示,主要屬性如表3所示。

    在科學(xué)論文論證結(jié)構(gòu)本體中,最核心的類是spsao:Conclusion(結(jié)論),表示科學(xué)論文的最終結(jié)論,是AMO本體中amo:Claim(主張)類的一個(gè)子類。結(jié)論類具有屬性spsao:hasQualifier(確定程度),描述結(jié)論的確定程度,其值域是spsao:CerntainLev-el(確定程度)類。該類是AMO本體中amo:Qualifer(限定詞)類的一個(gè)子類,是一個(gè)枚舉類,只有Weakly(弱)、Moderately(中)和Strongly(強(qiáng))3個(gè)值。同時(shí),spsao:CemtainLevel(確定程度)類具有屬性amo:forces(對…強(qiáng)調(diào)),描述該類的強(qiáng)調(diào)對象,其值域?yàn)榻Y(jié)論類。結(jié)論類還具有對象屬性amo:hasEvidence(具有證據(jù)…),描述支持該結(jié)論的證據(jù),其值域是DEO本體中的deo:Result(結(jié)果)類。該類和deo:Method(方法)類均是AMO本體amo:Evidence(證據(jù))類的子類,而且方法和結(jié)果之間是amo:supports(支持)關(guān)系。

    spsao:PriorStatement(前人陳述)類、spsao:Problme(問題)類、spsao:Hypothesis(假設(shè))類和spsao:Goal(目標(biāo))類4個(gè)類為AMO本體amo:War-rant(理由)類的子類,它們都是支持結(jié)論類的正當(dāng)理由。其中,假設(shè)類為可缺省類,即論文中可能不包含假設(shè)這一論證元素。前人陳述和問題之間是amo:leadTo(引發(fā))關(guān)系,問題和目標(biāo)之間是spsao:produces(產(chǎn)出)關(guān)系,目標(biāo)類具有對象屬性amo:leadTo(引發(fā)),其值域?yàn)閟psao:Conclusion(結(jié)論)類;問題和假設(shè)之間是spsao:produces(產(chǎn)出)關(guān)系,假設(shè)類也具有對象屬性spsao:produces(產(chǎn)出),其值域?yàn)閟psao:Conclusion(結(jié)論)類。

    此外,spsao:PriorStatement(前人陳述)類和spsao:CurrentStatement(當(dāng)前陳述)類均是MP本體中mp:Statement(陳述)類的子類,該陳述類具有對象屬性rdf:subject(主語)、rdf:predicate(謂語)和rdf:object(賓語),值域?yàn)閟psao:Entity(主語、賓語實(shí)體/概念)和rdf:Property(關(guān)系類)。

    3.3語義描述實(shí)例

    基于構(gòu)建的科學(xué)論文論證結(jié)構(gòu)本體,以科學(xué)論文“Genetically Elevated Gamma-glutamyhransferaseand Alzheimer’s Disease”為例,采用手工方式對該論文中包含的論證元素及其關(guān)系進(jìn)行語義標(biāo)注,結(jié)果如圖6所示。

    本文構(gòu)建的實(shí)例命名空間為“@prefix ex:ht-tp:∥www.example.org/.”。案例論文從兩個(gè)前人陳述出發(fā),發(fā)現(xiàn)了研究問題“γ-谷氨酰轉(zhuǎn)移酶和阿爾茨海默病之間的關(guān)系尚不清楚”,然后提出假設(shè)“腦膽固醇代謝紊亂是鉛暴露導(dǎo)致早期AD相關(guān)結(jié)果的發(fā)病機(jī)制中的一個(gè)候選病因”,通過一系列的實(shí)驗(yàn)方法得到實(shí)驗(yàn)結(jié)果,最后得到最終的研究結(jié)論,即“研究結(jié)果不能證實(shí)γ-谷氨酰轉(zhuǎn)移酶(GGT)對阿爾茨海默?。ˋD)風(fēng)險(xiǎn)的任何因果關(guān)系”,其包含的實(shí)體—關(guān)系—實(shí)體為“γ-谷氨酰轉(zhuǎn)移酶(GGT)—不能影響(cannot_effect)—阿爾茨海默?。ˋD)”,限定詞是“Strongly”表示論文得出的結(jié)論非常確定。

    如圖6所示,通過基于科學(xué)論文論證結(jié)構(gòu)本體的語義標(biāo)注,可以將非結(jié)構(gòu)化的科學(xué)論文文本轉(zhuǎn)換為結(jié)構(gòu)化的RDF數(shù)據(jù)。生成的RDF數(shù)據(jù)可以采用關(guān)聯(lián)數(shù)據(jù)形式進(jìn)行發(fā)布,以供讀者瀏覽和查詢。一方面可以幫助讀者快速獲得科學(xué)論文宏觀的論證結(jié)構(gòu):另一方面可幫助讀者精確定位細(xì)粒度的微觀信息,如研究結(jié)論、研究方法、研究假設(shè)等。此外,還可以進(jìn)一步探索其他相關(guān)論文的信息。

    4論證結(jié)構(gòu)語義數(shù)據(jù)的應(yīng)用

    4.1論證結(jié)構(gòu)語義數(shù)據(jù)應(yīng)用框架

    為了驗(yàn)證所構(gòu)建的科學(xué)論文論證結(jié)構(gòu)本體,以5篇生物醫(yī)學(xué)領(lǐng)域?qū)嶒?yàn)型論文為例,通過手工標(biāo)注方式構(gòu)建本體的實(shí)例數(shù)據(jù),實(shí)現(xiàn)科學(xué)論文中論證要素及其論證關(guān)系的全方位語義關(guān)聯(lián)。首先,從論文的不同部分分別抽取出相應(yīng)的論證元素:從“引言”章節(jié)中抽取出前人陳述、問題、假設(shè)和目的4項(xiàng)論證元素:從“結(jié)果”章節(jié)中抽取出方法和結(jié)果2項(xiàng)論證元素:從“討論/結(jié)論”章節(jié)中抽取出結(jié)論。接下來,基于構(gòu)建的科學(xué)論文論證結(jié)構(gòu)本體,將從論文中抽取出的論證元素轉(zhuǎn)換為RDF格式,各元素的值均是自然語言文本。對于“前人陳述”“結(jié)果”和“結(jié)論”這3種關(guān)于科學(xué)觀點(diǎn)或科學(xué)論斷的陳述,則被進(jìn)一步轉(zhuǎn)換為“實(shí)體—關(guān)系—實(shí)體”三元組形式,“結(jié)論”的確定程度也被識別。

    為了展示科學(xué)論文論證結(jié)構(gòu)關(guān)聯(lián)數(shù)據(jù)的應(yīng)用,本文設(shè)計(jì)了一個(gè)應(yīng)用架構(gòu),如圖7所示。該架構(gòu)在Windows環(huán)境下運(yùn)行,采用Web瀏覽器/Web服務(wù)器/數(shù)據(jù)服務(wù)器3層架構(gòu),空心箭頭為數(shù)據(jù)輸入路線,實(shí)心箭頭為數(shù)據(jù)輸出路線。科學(xué)論文論證結(jié)構(gòu)關(guān)聯(lián)數(shù)據(jù)集存儲在RDF三元組存儲器JeanaTDB中,通過RDF查詢服務(wù)器Jena Fuseki作為數(shù)據(jù)接口來接受外界的訪問。Tomcat作為Web服務(wù)器負(fù)責(zé)用戶請求的調(diào)度、SPARQL查詢語句的構(gòu)建和查詢結(jié)果的格式轉(zhuǎn)換,以及Web頁面的發(fā)布。Web瀏覽器負(fù)責(zé)用戶輸入和關(guān)聯(lián)數(shù)據(jù)查詢與分析結(jié)果的展示。應(yīng)用場景主要有兩類:基于內(nèi)容的語義查詢和基于內(nèi)容的知識可視化顯示。

    4.2基于內(nèi)容的語義檢索

    語義檢索主要是基于科學(xué)論文論證結(jié)構(gòu)關(guān)聯(lián)數(shù)據(jù),有針對性地查詢科學(xué)論文中的特定論證元素,如前人陳述、假設(shè)、目的或結(jié)論等。查詢可以通過內(nèi)置的SPARQL查詢模板來實(shí)現(xiàn)。本節(jié)列舉了以下3種主要的語義檢索方式。

    1)查詢科學(xué)論文中的特定論證元素。通過查詢論文中的特定元素,譬如,查詢某一篇論文的研究結(jié)論,科研人員可以快速獲得其感興趣的信息,以提高查詢和閱讀論文的效率。

    2)查詢科學(xué)論文中的特定實(shí)體。前人陳述、研究結(jié)果和研究結(jié)論均為科學(xué)陳述,因此被進(jìn)一步轉(zhuǎn)換為“實(shí)體—關(guān)系—實(shí)體”的三元組表示形式。因此,可以查詢包含特定實(shí)體的論證元素及其所在論文,譬如,查找在結(jié)果和結(jié)論中包含了“γ-谷氨酰轉(zhuǎn)移酶(GGT)”實(shí)體的科學(xué)論文。

    3)查詢具有某種確定程度的科學(xué)論文結(jié)論??梢圆樵冋撐闹芯哂胁煌_定程度(強(qiáng)、中、弱)的結(jié)論,以便獲得精準(zhǔn)的科學(xué)知識。

    圖8所示為查詢具有某種確定程度的結(jié)論及其來源論文的SPARQL查詢語句,矩形框內(nèi)的值為結(jié)論的確定程度,可以是:Weakly(弱)、Moder-ately(中)和Strongly(強(qiáng)),用戶可以根據(jù)自己的需求選擇不同的查詢限制。檢索結(jié)果如圖9所示,檢索到的兩篇科學(xué)論文的結(jié)論分別采用“might”和“maybe”這樣的限定詞,說明這兩個(gè)結(jié)論的不確定性,從而幫助讀者判斷科學(xué)知識的準(zhǔn)確性。

    4.3基于內(nèi)容的知識可視化分析

    科學(xué)論文中的知識往往分散在論文不同章節(jié)之中,通過對科學(xué)論文論證結(jié)構(gòu)進(jìn)行語義表示,可以將論文中的知識結(jié)構(gòu)化和顯性化。在此基礎(chǔ)上,可以采用可視化技術(shù)以圖形化方式更加生動(dòng)、形象地展示科學(xué)論文的知識,幫助用戶更好地理解和利用語義數(shù)據(jù),進(jìn)一步發(fā)現(xiàn)其中隱含的規(guī)律。面向科學(xué)論文論證結(jié)構(gòu)關(guān)聯(lián)數(shù)據(jù)可視化方式主要有兩種:①論文論證結(jié)構(gòu)的可視化:從宏觀角度出發(fā),概覽一篇科學(xué)論文整體的論證結(jié)構(gòu);②論文中實(shí)體—關(guān)系的可視化:從微觀角度出發(fā),展示一篇科學(xué)論文內(nèi)部實(shí)體間的語義關(guān)系。

    本節(jié)聚焦于實(shí)體—關(guān)系可視化方式,以實(shí)例展示一篇科學(xué)論文中包含的簡單實(shí)體—關(guān)系網(wǎng)絡(luò)。首先,查詢一篇科學(xué)論文中陳述的實(shí)體及其關(guān)系,即“前人陳述”“結(jié)果”和“結(jié)論”這3個(gè)論證元素中包含的“實(shí)體—關(guān)系—實(shí)體”三元組,對應(yīng)的SPARQL查詢語句如圖10所示。在分別得到這3個(gè)論證元素的RDF三元組數(shù)據(jù)后,將該數(shù)據(jù)轉(zhuǎn)換為圖形格式并返回給瀏覽器,在Web客戶端以網(wǎng)絡(luò)圖方式展示實(shí)體—關(guān)系網(wǎng)絡(luò),如圖11所示。從圖中可以看出,該論文中“前人陳述”“結(jié)果”和“結(jié)論”這3個(gè)論證元素中包含的實(shí)體—關(guān)系構(gòu)成了一個(gè)簡單的研究邏輯,即前人研究過“γ-谷氨酰轉(zhuǎn)移酶(GGT)和認(rèn)知能力的關(guān)系”,而“認(rèn)知能力”又與“阿爾茨海默?。ˋD)”相關(guān),作者通過實(shí)驗(yàn)得出結(jié)果之一“GGT相關(guān)的26單核苷酸多態(tài)性與AD不相關(guān)”,最終得出結(jié)論“γ-谷氨酰轉(zhuǎn)移酶(GGT)不能影響阿爾茨海默?。ˋD)”。

    5結(jié)語

    本文提出了一種面向科學(xué)論文內(nèi)容的論證結(jié)構(gòu)本體,該本體詳細(xì)定義了科學(xué)論文中包含的多種論證元素、陳述型論證元素的實(shí)體—關(guān)系表示及論證關(guān)系,使科學(xué)論文的內(nèi)容結(jié)構(gòu)顯性化、模塊化,可以有效促進(jìn)科學(xué)交流和科學(xué)研究。本文首先基于波普爾知識增長理論來解釋科學(xué)研究的過程,從而總結(jié)出科學(xué)論文中包含的7種論證元素:前人陳述、問題、假設(shè)、目的、方法、結(jié)果和結(jié)論。然后,基于圖爾敏模型對論證元素間的論證關(guān)系進(jìn)行語義建模。在復(fù)用DEO、AMO、Nanopublishing等本體的基礎(chǔ)上,采用OWL語言構(gòu)建了科學(xué)論文論證結(jié)構(gòu)本體模型,并通過一篇科學(xué)論文實(shí)例展示了該本體對論文中的論證元素及其論證關(guān)系進(jìn)行語義描述的結(jié)果。此外,在語義描述的基礎(chǔ)上,通過基于內(nèi)容的語義檢索、語義數(shù)據(jù)可視化等實(shí)驗(yàn),展示了科學(xué)論文論證結(jié)構(gòu)語義化表示的應(yīng)用效果。在后續(xù)研究中,擬采用自然語義處理與文本挖掘技術(shù)自動(dòng)識別科學(xué)論文中的論證元素及其論證關(guān)系,實(shí)現(xiàn)對科學(xué)論文內(nèi)容及結(jié)構(gòu)的自動(dòng)語義標(biāo)注,以期構(gòu)建面向知識服務(wù)的科學(xué)交流系統(tǒng)。

    (責(zé)任編輯:郭沫含)

    猜你喜歡
    本體結(jié)論語義
    Abstracts and Key Words
    由一個(gè)簡單結(jié)論聯(lián)想到的數(shù)論題
    立體幾何中的一個(gè)有用結(jié)論
    對姜夔自度曲音樂本體的現(xiàn)代解讀
    語言與語義
    “上”與“下”語義的不對稱性及其認(rèn)知闡釋
    結(jié)論
    《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
    認(rèn)知范疇模糊與語義模糊
    Care about the virtue moral education
    卷宗(2013年6期)2013-10-21 21:07:52
    钟祥市| 济阳县| 措美县| 交城县| 湄潭县| 延庆县| 太原市| 中西区| 抚顺市| 南昌市| 积石山| 东源县| 宝兴县| 浑源县| 衡山县| 乌拉特前旗| 饶平县| 鹤岗市| 交口县| 融水| 桐城市| 边坝县| 正定县| 安吉县| 辽中县| 永兴县| 云龙县| 盖州市| 闽清县| 米易县| 阿坝县| 聂荣县| 祁门县| 同心县| 台南县| 海原县| 潜江市| 获嘉县| 九江县| 安新县| 称多县|