• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      全景式多路徑知識(shí)圖譜構(gòu)建研究*
      ——以水稻粒型基因領(lǐng)域?yàn)槔?/h1>
      2022-06-01 07:52:56曹雨晴鮮國(guó)建黃永文陳博立李嬌羅婷婷孫坦
      數(shù)字圖書館論壇 2022年4期
      關(guān)鍵詞:粒型結(jié)構(gòu)化本體

      曹雨晴 鮮國(guó)建,2 黃永文,3 陳博立 李嬌,3 羅婷婷,3 孫坦

      (1. 中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2. 農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081;3. 國(guó)家新聞出版署農(nóng)業(yè)融合出版知識(shí)挖掘與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室,北京 100081;4. 中國(guó)農(nóng)業(yè)科學(xué)院,北京 100081)

      作為驅(qū)動(dòng)人工智能和推進(jìn)認(rèn)知智能的核心技術(shù),知識(shí)圖譜(Knowledge Graph)采用基于圖模型的關(guān)聯(lián)知識(shí)表達(dá)方式,具有強(qiáng)大的語(yǔ)義處理能力和開放關(guān)聯(lián)能力。知識(shí)圖譜根據(jù)應(yīng)用場(chǎng)景范圍分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜,其中領(lǐng)域知識(shí)圖譜可最大限度地挖掘領(lǐng)域知識(shí)之間的潛在關(guān)聯(lián)以及相關(guān)科技資源的多維特征,在金融、醫(yī)學(xué)等領(lǐng)域都具有廣泛的應(yīng)用,為促進(jìn)領(lǐng)域突破性研究奠定基礎(chǔ)。利用知識(shí)圖譜對(duì)海量領(lǐng)域資源進(jìn)行有效融合,不僅能夠全面揭示領(lǐng)域內(nèi)部的知識(shí)組織體系,還可以幫助用戶發(fā)現(xiàn)潛在的知識(shí)關(guān)聯(lián)、提供新的研究視角。如何通過細(xì)分領(lǐng)域?qū)I(yè)知識(shí)圖譜的構(gòu)建與應(yīng)用,有效解決垂直領(lǐng)域多源異構(gòu)資源的知識(shí)組織與融合問題,是當(dāng)前領(lǐng)域知識(shí)組織研究的重點(diǎn)和熱點(diǎn)。

      以作物領(lǐng)域?yàn)槔?,隨著高通量生物技術(shù)的不斷發(fā)展,各種描述作物基因調(diào)控、蛋白質(zhì)編碼以及表型等多源異構(gòu)作物組學(xué)大數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),為科研人員從多維度研究作物基因調(diào)控機(jī)制帶來了豐富的數(shù)據(jù)來源以及先驗(yàn)知識(shí)。然而,這些數(shù)據(jù)的組織和利用還面臨諸多挑戰(zhàn):①多組學(xué)研究之間耦合性較低;②海量研究數(shù)據(jù)語(yǔ)義化組織與深度挖掘亟待加強(qiáng);③研究成果間關(guān)聯(lián)度不強(qiáng),難以進(jìn)行有效分析與關(guān)聯(lián)發(fā)現(xiàn)等問題[1]。只有將基因組、轉(zhuǎn)錄組、蛋白組、表觀組等多組學(xué)數(shù)據(jù)進(jìn)行系統(tǒng)整合關(guān)聯(lián),才有利于科研人員全面挖掘和利用多組學(xué)大數(shù)據(jù)中潛在規(guī)律和知識(shí),促進(jìn)向數(shù)據(jù)密集型計(jì)算科研范式轉(zhuǎn)變。

      本文以水稻粒型基因研究涉及的多源異構(gòu)多組學(xué)數(shù)據(jù)為例,從全景式、多路徑兩個(gè)維度,研究探索具備較強(qiáng)普適性和通用性的領(lǐng)域知識(shí)圖譜構(gòu)建方案,并對(duì)知識(shí)圖譜驅(qū)動(dòng)的啟發(fā)式知識(shí)關(guān)聯(lián)發(fā)現(xiàn)等應(yīng)用場(chǎng)景進(jìn)行展望,將水稻粒型基因等專業(yè)領(lǐng)域各類數(shù)據(jù)信息表達(dá)為更貼近人類認(rèn)知的形式[2],形成一種更好地組織、管理和理解領(lǐng)域海量信息資源的能力,促進(jìn)科技文獻(xiàn)等通用信息與領(lǐng)域知識(shí)的深度融合關(guān)聯(lián)。

      1 國(guó)內(nèi)外研究進(jìn)展

      知識(shí)圖譜作為一種結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),因其靈活的組成結(jié)構(gòu)和豐富的語(yǔ)義表示能力,已成為人工智能應(yīng)用的重要基礎(chǔ)。知識(shí)圖譜根據(jù)存儲(chǔ)方式一般分為基于RDF數(shù)據(jù)結(jié)構(gòu)的語(yǔ)義知識(shí)圖譜和基于屬性圖數(shù)據(jù)結(jié)構(gòu)的廣義知識(shí)圖譜[3]。近年來,國(guó)內(nèi)外學(xué)者在知識(shí)圖譜構(gòu)建與應(yīng)用領(lǐng)域開展了廣泛研究與實(shí)踐,如側(cè)重通用性知識(shí)的百科知識(shí)圖譜[4-5],以及面向細(xì)分領(lǐng)域或服務(wù)場(chǎng)景的領(lǐng)域知識(shí)圖譜建設(shè)應(yīng)用實(shí)踐。

      目前學(xué)者研究主要聚焦于對(duì)非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取。面向海量的非結(jié)構(gòu)化文本,基于詞典和規(guī)則匹配的傳統(tǒng)抽取方法具有較高的準(zhǔn)確性,但是人工成本較高。隨著深度學(xué)習(xí)技術(shù)不斷發(fā)展,學(xué)術(shù)界逐漸傾向利用小樣本標(biāo)注結(jié)合深度學(xué)習(xí)技術(shù)來實(shí)現(xiàn)自動(dòng)化知識(shí)抽取,研究成果注重對(duì)模型算法的優(yōu)化與提升,尤其是隨著自然語(yǔ)言處理領(lǐng)域預(yù)訓(xùn)練模型的提出,促進(jìn)對(duì)領(lǐng)域非結(jié)構(gòu)化文本的知識(shí)抽取,在金融、醫(yī)學(xué)、電商等領(lǐng)域都取得了顯著的實(shí)踐應(yīng)用成果[6-9]。在知識(shí)圖譜實(shí)際建設(shè)過程中,僅依賴于非結(jié)構(gòu)化知識(shí)抽取的方式,難以保證知識(shí)圖譜的數(shù)據(jù)質(zhì)量,更無法為用戶提供較為宏觀和全面的知識(shí)掌握。

      具體到作物領(lǐng)域知識(shí)圖譜的構(gòu)建方面,法國(guó)農(nóng)業(yè)國(guó)際合作研究發(fā)展中心(French Agricultural Research Centre for International Development,CIRAD)搭建的AgroLD知識(shí)圖譜[10],基于關(guān)聯(lián)數(shù)據(jù)技術(shù)對(duì)多種植物的領(lǐng)域數(shù)據(jù)集進(jìn)行集成并構(gòu)建知識(shí)圖譜。英國(guó)洛桑研究所(Rothamsted Research)面向作物領(lǐng)域的開放關(guān)聯(lián)數(shù)據(jù)模型提出一種應(yīng)用型領(lǐng)域本體BioKNO并基于該本體構(gòu)建大型領(lǐng)域知識(shí)圖譜KnetMiner,為追溯作物復(fù)雜性狀的基因調(diào)控網(wǎng)絡(luò)信息提供借鑒[11]。作為作物領(lǐng)域知識(shí)圖譜的典型范例,兩類圖譜都在一定程度上實(shí)現(xiàn)了面向作物領(lǐng)域的多組學(xué)數(shù)據(jù)融合與集成,為本研究提供了高質(zhì)量數(shù)據(jù)基礎(chǔ)與參考。

      當(dāng)前,面向細(xì)分垂直領(lǐng)域的知識(shí)圖譜構(gòu)建研究與實(shí)踐越來越多,但也面臨諸多挑戰(zhàn)。一方面,領(lǐng)域知識(shí)表示是一個(gè)非常復(fù)雜的系統(tǒng)工程,要求參與人員具有較高專業(yè)素養(yǎng);另一方面,領(lǐng)域數(shù)據(jù)來源分散、數(shù)據(jù)結(jié)構(gòu)復(fù)雜多樣,導(dǎo)致知識(shí)表示、知識(shí)融合工程都較為復(fù)雜,構(gòu)建過程中需要領(lǐng)域?qū)<叶喾角笞C。領(lǐng)域知識(shí)圖譜的模式層構(gòu)建策略以自底向上或自頂向下的方式為主,本體的維度設(shè)計(jì)局限于領(lǐng)域知識(shí)體系范圍,并未完全解決海量科技資源與領(lǐng)域知識(shí)之間的分散割裂問題。如何提出一套較為全面、完善的領(lǐng)域本體構(gòu)建策略,是實(shí)現(xiàn)全景式知識(shí)圖譜建設(shè)的核心。在知識(shí)圖譜數(shù)據(jù)層構(gòu)建方面,側(cè)重于對(duì)非結(jié)構(gòu)化文本的知識(shí)抽取,缺乏多路徑的知識(shí)抽取的流程實(shí)踐,無法實(shí)現(xiàn)多類型知識(shí)抽取融合的有機(jī)統(tǒng)一。本文針對(duì)這些挑戰(zhàn),擬分別在圖譜的模式層全景式設(shè)計(jì)和數(shù)據(jù)層多路徑構(gòu)建策略上進(jìn)行一定的集成應(yīng)用與實(shí)踐探索。

      2 水稻粒型基因領(lǐng)域知識(shí)圖譜構(gòu)建

      中國(guó)作為世界上第二大水稻種植國(guó)家,水稻總產(chǎn)量占全球30%以上。培育優(yōu)良水稻品種,提升水稻畝產(chǎn)量,有助于打贏種業(yè)翻身仗,保障國(guó)家糧食安全,是我國(guó)農(nóng)業(yè)發(fā)展的重要戰(zhàn)略目標(biāo)。水稻粒型作為影響水稻產(chǎn)量和品質(zhì)的重要因素之一,其相關(guān)研究一直是作物領(lǐng)域的重要分支。水稻粒型基因領(lǐng)域研究涉及多組學(xué)知識(shí),不同數(shù)據(jù)源之間的關(guān)聯(lián)性較低,知識(shí)分散程度較高。本文接下來將集成應(yīng)用現(xiàn)有相關(guān)理論方法,開展水稻粒型基因領(lǐng)域知識(shí)圖譜的構(gòu)建實(shí)踐。

      在模式層構(gòu)建方面,本文提出領(lǐng)域知識(shí)圖譜模式層“全景式”構(gòu)建策略,基于專家先驗(yàn)知識(shí),結(jié)合對(duì)領(lǐng)域通用本體的復(fù)用與融合,自頂向下構(gòu)建圖譜模式層。同時(shí)利用文本挖掘技術(shù)自底向上對(duì)本體模型進(jìn)行迭代完善?!叭笆健敝荚趶目v向維度對(duì)領(lǐng)域知識(shí)組織體系的深度挖掘,同時(shí)從橫向維度對(duì)領(lǐng)域科技文獻(xiàn)等其他類型信息資源的關(guān)聯(lián)匯聚,更加系統(tǒng)全面地揭示知識(shí)圖譜模式層中各類實(shí)體、概念及語(yǔ)義關(guān)聯(lián)關(guān)系。在數(shù)據(jù)層構(gòu)建方面,為充分整合現(xiàn)有多種形態(tài)科技資源、提升多源異構(gòu)數(shù)據(jù)之間語(yǔ)義互操作性,提出了綜合現(xiàn)有圖譜數(shù)據(jù)剪切、結(jié)構(gòu)化/半結(jié)構(gòu)化知識(shí)轉(zhuǎn)化映射以及非結(jié)構(gòu)化知識(shí)抽取等方式的“多路徑”知識(shí)抽取和自底向上補(bǔ)充完善知識(shí)圖譜本體模型策略,實(shí)現(xiàn)全景式深層次知識(shí)關(guān)聯(lián)融合。

      2.1 全景式本體模型設(shè)計(jì)

      2.1.1 多層次領(lǐng)域本體模型概要設(shè)計(jì)

      領(lǐng)域本體模型是揭示領(lǐng)域知識(shí)組織體系的核心,為后續(xù)整合海量多源異構(gòu)資源,實(shí)現(xiàn)深層次語(yǔ)義挖掘與關(guān)聯(lián)奠定基礎(chǔ)。本文基于自頂向下構(gòu)建多層次領(lǐng)域本體模型的思路,參考多層次領(lǐng)域本體模型框架[12],結(jié)合水稻粒型基因領(lǐng)域?qū)<蚁闰?yàn)知識(shí),對(duì)多種領(lǐng)域本體資源進(jìn)行復(fù)用與融合,實(shí)現(xiàn)對(duì)細(xì)分領(lǐng)域知識(shí)體系的多層次概念體系描述。

      領(lǐng)域頂層本體作為構(gòu)建領(lǐng)域本體的基本框架,須適應(yīng)不同專題領(lǐng)域的應(yīng)用需求變化,同時(shí)可增強(qiáng)各專題領(lǐng)域之間的互操作性?;拘问交倔w[13](Basic Formal Ontology,BFO)作為頂層本體在OBO本體庫(kù)中的成功應(yīng)用,顯示了其在生物學(xué)領(lǐng)域強(qiáng)大的可擴(kuò)展性。本文選取BFO作為頂層本體框架,基于語(yǔ)義科學(xué)集成本體(Semanticscience Integrated Ontology,SIO)的主要概念分類體系,將實(shí)體(Entity)分為屬性(Attribute)、對(duì)象(Object)和過程(Process),并梳理領(lǐng)域權(quán)威受控詞表等資源,參考多種領(lǐng)域本體資源如基因本體(Gene Ontology)、植物本體(Plant Ontology)、植物性狀本體(Plant Trait Ontology)、關(guān)系本體(Relation Ontology)等,從描述水稻基因組學(xué)、表型組學(xué)信息、蛋白質(zhì)組學(xué)、代謝組學(xué)等多組學(xué)領(lǐng)域知識(shí)維度,構(gòu)建描述水稻粒型基因調(diào)控的核心概念體系;同時(shí)結(jié)合2.2節(jié)多路徑知識(shí)抽取轉(zhuǎn)換過程中發(fā)現(xiàn)的新實(shí)體和實(shí)體關(guān)系類型,自底向上對(duì)領(lǐng)域本體模型進(jìn)行優(yōu)化迭代,使其盡可能滿足多維度定義領(lǐng)域知識(shí)體系的本體構(gòu)建需求。以水稻“粒型基因-性狀調(diào)控網(wǎng)絡(luò)”的概念體系為例,對(duì)本研究中涉及的多層次領(lǐng)域本體中的核心概念進(jìn)行詳細(xì)闡述,如圖1所示。

      圖1 多層次領(lǐng)域本體模型概要

      2.1.2 融合科技資源的全景式領(lǐng)域本體模型

      數(shù)據(jù)密集型科研時(shí)代背景下,科學(xué)數(shù)據(jù)、科技文獻(xiàn)等資源呈現(xiàn)出多來源、跨媒體、多模態(tài)等特點(diǎn),面對(duì)海量的多源異構(gòu)科技資源,基于科技資源聚合的視角,提出融合科技資源的全景式領(lǐng)域本體模型,旨在有效解決領(lǐng)域知識(shí)與科技資源的割裂問題,為領(lǐng)域知識(shí)關(guān)聯(lián)與發(fā)現(xiàn)服務(wù)提供有價(jià)值的數(shù)據(jù)支撐。本文通過引入以科技論文及相關(guān)資源為主要研究對(duì)象的科研通用本體,復(fù)用BIBO、DCMI、FOAF、DoCO等通用性較強(qiáng)的文獻(xiàn)數(shù)據(jù)模型,圍繞水稻粒型基因領(lǐng)域科技資源,從文獻(xiàn)元數(shù)據(jù)、主題詞、外部關(guān)聯(lián)信息、文獻(xiàn)登錄號(hào)、作者信息、出版信息、參考文獻(xiàn)信息等多維度對(duì)實(shí)體對(duì)象進(jìn)行高細(xì)粒度描述,有效揭示水稻粒型基因領(lǐng)域科研活動(dòng)主體與各科研對(duì)象之間的關(guān)聯(lián),添加包含期刊論文、科技報(bào)告、科研機(jī)構(gòu)、科研人員、多媒體資源、科技圖書、基金項(xiàng)目、科學(xué)數(shù)據(jù)集8類實(shí)體。以各類型科研實(shí)體的主題詞屬性作為銜接領(lǐng)域知識(shí)組織體系和科技文獻(xiàn)資源的核心關(guān)聯(lián)點(diǎn),使單維度的領(lǐng)域知識(shí)組織體系轉(zhuǎn)化為多維立體的知識(shí)聚合網(wǎng)絡(luò)(見圖2),有效實(shí)現(xiàn)領(lǐng)域知識(shí)和科技文獻(xiàn)資源的語(yǔ)義互通,為構(gòu)造全景式領(lǐng)域知識(shí)圖譜提供更多研究視角。

      圖2 全景式領(lǐng)域本體模型概要

      2.1.3 基于Protégé的本體構(gòu)建與管理

      為完成全景式領(lǐng)域本體的概念體系和相關(guān)屬性的設(shè)計(jì),更好地對(duì)實(shí)體及實(shí)體間關(guān)系進(jìn)行梳理,本文選擇Protégé本體建模編輯器對(duì)水稻粒型基因領(lǐng)域?qū)崿F(xiàn)面向本體的知識(shí)建模。在實(shí)體類方面,最終定義了11個(gè)一級(jí)類和17個(gè)二級(jí)類,其中核心類可根據(jù)描述性質(zhì)的不同分為科研實(shí)體類和領(lǐng)域?qū)嶓w類:科研實(shí)體類包括期刊論文類(Article)、研究人員類(Researcher)、基金項(xiàng)目類(Project)、科研機(jī)構(gòu)(Organization)、科技圖書(Book)、科學(xué)數(shù)據(jù)集(Dataset)、多媒體資源(DataSource);領(lǐng)域?qū)嶓w類包括基因(Gene)、數(shù)量性狀基因座(QTL)、蛋白質(zhì)(Protein)、蛋白質(zhì)家族(Protein Family)、過程類(Process)、本體注釋(Annotation)、表型(Phenotype)等。在對(duì)象屬性方面,主要定義為三類:第一類是對(duì)領(lǐng)域?qū)嶓w間關(guān)系進(jìn)行界定的18個(gè)對(duì)象屬性,如編碼(encodes)、正調(diào)控(positively regulates)、負(fù)調(diào)控(negatively regulates)等;第二類是描述科研實(shí)體之間相互關(guān)聯(lián)關(guān)系的6個(gè)對(duì)象屬性,主要包括被引關(guān)系(cited_by)、發(fā)表于(published in)等;第三類是銜接領(lǐng)域?qū)嶓w與科研實(shí)體的2個(gè)對(duì)象屬性,即與…關(guān)聯(lián)(associated_with)、具有…主題詞(has_topic)。最后通過基因符號(hào)(GeneSymbol)、資源標(biāo)識(shí)符(IRI)、術(shù)語(yǔ)名稱(TermName)等36個(gè)數(shù)據(jù)屬性對(duì)實(shí)體類的特征實(shí)現(xiàn)具體化描述,便于后續(xù)多路徑知識(shí)抽取過程中的映射轉(zhuǎn)化。

      2.2 多路徑知識(shí)抽取轉(zhuǎn)換

      領(lǐng)域知識(shí)圖譜的構(gòu)建核心是基于既有的本體模型,針對(duì)領(lǐng)域數(shù)據(jù)的特點(diǎn),結(jié)合圖譜構(gòu)建需求實(shí)現(xiàn)對(duì)不同數(shù)據(jù)類型的知識(shí)抽取。以水稻粒型研究為代表的作物領(lǐng)域包含基因組學(xué)、代謝組學(xué)、蛋白質(zhì)組學(xué)等豐富類型的多組學(xué)數(shù)據(jù)及以科技文獻(xiàn)為代表的科技資源,具有數(shù)據(jù)量龐大、多源異構(gòu)等特點(diǎn)。如何將這些多類型數(shù)據(jù)轉(zhuǎn)化為具有應(yīng)用價(jià)值的知識(shí)單元并建立關(guān)聯(lián)關(guān)系,成為當(dāng)前領(lǐng)域知識(shí)組織創(chuàng)新中亟待解決的難題。利用多路徑知識(shí)抽取轉(zhuǎn)換的方式,是對(duì)多類型數(shù)據(jù)資源實(shí)現(xiàn)多維聚合和知識(shí)關(guān)聯(lián)的有效手段。

      本文基于水稻粒型基因領(lǐng)域?qū)<覉F(tuán)隊(duì)針對(duì)水稻粒型基因調(diào)控的綜述論文[14-15],整理歸納出65個(gè)已克隆的水稻粒型基因基本信息,其中包括基因名稱、分子功能描述、染色體位置信息、突變體信息、表型信息、MSU登錄號(hào)等,形成以專家先驗(yàn)知識(shí)為主的“種子”術(shù)語(yǔ)知識(shí)庫(kù)(以下簡(jiǎn)稱“種子知識(shí)庫(kù)”)。在此基礎(chǔ)上,面向AgroLD、Ensemble Plants等多個(gè)高質(zhì)量數(shù)據(jù)源,利用對(duì)現(xiàn)有圖譜數(shù)據(jù)剪切、結(jié)構(gòu)化/半結(jié)構(gòu)化知識(shí)轉(zhuǎn)化映射以及非結(jié)構(gòu)化知識(shí)抽取等多路徑,基于2.1節(jié)構(gòu)建的領(lǐng)域本體模型,對(duì)數(shù)據(jù)進(jìn)行知識(shí)抽取、轉(zhuǎn)換與融合,挖掘知識(shí)間潛在的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)對(duì)領(lǐng)域知識(shí)的深層次挖掘和理解,如圖3所示。

      圖3 多路徑知識(shí)抽取總體思路

      2.2.1 基于圖數(shù)據(jù)的知識(shí)抽取

      近年來,以關(guān)聯(lián)數(shù)據(jù)發(fā)布的不同研究領(lǐng)域的數(shù)據(jù)集增長(zhǎng)迅速,為促進(jìn)各領(lǐng)域資源的開放、互操作、共享、復(fù)用奠定了基礎(chǔ)。采用RDF數(shù)據(jù)模型的關(guān)聯(lián)數(shù)據(jù)技術(shù)在生物信息領(lǐng)域和作物領(lǐng)域的實(shí)踐應(yīng)用探索一直較為活躍,為作物領(lǐng)域的多組學(xué)研究積累了大量寶貴的圖數(shù)據(jù)資源。圖數(shù)據(jù)通過三元組的方式將知識(shí)結(jié)構(gòu)化保存,是一種基于事務(wù)關(guān)聯(lián)關(guān)系的模型表達(dá),具有數(shù)據(jù)天然可解釋性[16],相較于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),圖數(shù)據(jù)庫(kù)對(duì)語(yǔ)義關(guān)系表達(dá)、存儲(chǔ)和高效復(fù)雜查詢提供了良好支撐。目前圖數(shù)據(jù)模型主要分為RDF圖模型和屬性圖模型(Property Graph)。RDF圖模型的超圖本質(zhì),較強(qiáng)的理論性,以及語(yǔ)義Web多年標(biāo)準(zhǔn)化工作的推進(jìn),都促進(jìn)RDF圖模型在學(xué)術(shù)研究社區(qū)的主流地位[17],但隨著以Neo4j為代表的圖數(shù)據(jù)庫(kù)在各個(gè)領(lǐng)域的廣泛應(yīng)用,基于屬性圖模型的圖存儲(chǔ)憑借其強(qiáng)大的可操作性逐漸獲得更高認(rèn)可。因此,本節(jié)主要探索如何解決兩類圖數(shù)據(jù)之間的互操作以實(shí)現(xiàn)基于圖數(shù)據(jù)的知識(shí)抽取。

      就圖數(shù)據(jù)之間的互操作,筆者將其分為以下4種方式。①RDF圖之間的互操作。隨著RDF數(shù)據(jù)的不斷豐富與擴(kuò)展,不同的RDF格式文件之間的相互映射轉(zhuǎn)換以及RDF數(shù)據(jù)庫(kù)之間的互操作成為亟待解決的問題。目前主流的RDF數(shù)據(jù)格式有RDF/XML、N-Triples、Turtle、JSON-LD等,而數(shù)據(jù)庫(kù)有Virtuoso、GraphDB等,筆者團(tuán)隊(duì)基于開源工具Kettle,提出了大規(guī)模RDF一體化治理流程和工具RDFAdaptor[18],顯著增強(qiáng)了RDF三元組數(shù)據(jù)在不同格式和RDF數(shù)據(jù)庫(kù)間的互操作性。②屬性圖之間的互操作。目前關(guān)于屬性圖之間的互操作研究較少,主要是通過不同屬性圖之間的模式層建立映射,再實(shí)現(xiàn)實(shí)例層的轉(zhuǎn)換。③RDF圖向?qū)傩詧D的轉(zhuǎn)化。Neo4j官方推出的neosemantics插件[19]支持將不同格式的RDF數(shù)據(jù)較低損耗地導(dǎo)入Neo4j圖數(shù)據(jù)庫(kù),但模式層的映射規(guī)則不支持自定義,不利于滿足用戶個(gè)性化的應(yīng)用需求。為此,關(guān)于自定義實(shí)現(xiàn)RDF圖向?qū)傩詧D的轉(zhuǎn)化研究越來越多,其中rdf2neo[20]基于既有的領(lǐng)域本體結(jié)合自定義SPARQL查詢實(shí)現(xiàn)大規(guī)模RDF圖數(shù)據(jù)面向Neo4j圖數(shù)據(jù)庫(kù)的存儲(chǔ)。rdf2pg[21]面向不同格式三元組支持用戶自定義映射規(guī)則實(shí)現(xiàn)RDF圖向?qū)傩詧D直接轉(zhuǎn)化。④屬性圖向RDF圖的轉(zhuǎn)化。PREC[22]提出一種轉(zhuǎn)化方法:設(shè)計(jì)統(tǒng)一的RDF規(guī)范化數(shù)據(jù)模型對(duì)屬性圖的節(jié)點(diǎn)、邊、標(biāo)簽等進(jìn)行描述,再依次利用MATCH查詢語(yǔ)句獲取節(jié)點(diǎn)信息、邊信息、標(biāo)簽信息,實(shí)現(xiàn)三元組的重構(gòu)。

      本文以種子知識(shí)庫(kù)中的65個(gè)水稻粒型基因的唯一登錄號(hào)(identifier)作為篩選條件,針對(duì)CIRAD搭建的AgroLD聯(lián)邦型RDF圖數(shù)據(jù)庫(kù),采用作者團(tuán)隊(duì)研發(fā)的RDFAdaptor工具,基于SPARQL的CONSTRUCT圖查詢,批量得到描述水稻粒型基因的RDF子圖并導(dǎo)入Virtuoso中,便于后續(xù)管理操作。針對(duì)RDF圖數(shù)據(jù),一般可通過兩大步驟實(shí)現(xiàn)向?qū)傩詧D的轉(zhuǎn)化處理。首先,實(shí)現(xiàn)主語(yǔ)及其標(biāo)識(shí)和所屬對(duì)象類的轉(zhuǎn)換。RDF三元組的主語(yǔ)是具有URI屬性的資源類型節(jié)點(diǎn)(Resource Nodes),根據(jù)主語(yǔ)確定屬性圖中的實(shí)體(Entity),并將URI屬性轉(zhuǎn)化為屬性圖中實(shí)體的URI屬性;同時(shí),根據(jù)特定謂語(yǔ)標(biāo)簽rdf:type判斷資源類型節(jié)點(diǎn)的所屬類別(ClassType),并基于本體設(shè)計(jì),將所屬類別轉(zhuǎn)化為屬性圖的實(shí)體類別(Label)。其次,完成RDF謂語(yǔ)(數(shù)據(jù)屬性、對(duì)象屬性)和賓語(yǔ)的轉(zhuǎn)換。三元組中的賓語(yǔ)可分為兩類節(jié)點(diǎn),一類是具有URI屬性的資源類型節(jié)點(diǎn),另一類是不具有URI屬性的字面量類型節(jié)點(diǎn)(Literal Nodes)。當(dāng)賓語(yǔ)是資源類型節(jié)點(diǎn)時(shí),則謂語(yǔ)(對(duì)象屬性)映射為屬性圖中的關(guān)系(Relationship);當(dāng)賓語(yǔ)是字面量類型節(jié)點(diǎn)時(shí),則謂語(yǔ)(數(shù)據(jù)屬性)映射為屬性圖中的屬性(Property)的鍵(Key),字面量映射為值(Value),從而實(shí)現(xiàn)RDF圖向?qū)傩詧D的完整轉(zhuǎn)化。

      2.2.2 基于結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)的映射轉(zhuǎn)換

      當(dāng)前,大量有價(jià)值、高質(zhì)量的數(shù)據(jù)資源仍以關(guān)系型數(shù)據(jù)庫(kù)(結(jié)構(gòu)化)或文件(半結(jié)構(gòu)化)形式存儲(chǔ),為知識(shí)圖譜實(shí)例層擴(kuò)充奠定重要的數(shù)據(jù)基礎(chǔ)。在作物領(lǐng)域,面向結(jié)構(gòu)化/半結(jié)構(gòu)化的數(shù)據(jù)源主要有以下類型。①結(jié)構(gòu)化數(shù)據(jù):關(guān)系型數(shù)據(jù)、Excel文件、CSV文件等。②半結(jié)構(gòu)化數(shù)據(jù):OBO格式的本體數(shù)據(jù)、基于JATS標(biāo)準(zhǔn)的XML格式PubMed文獻(xiàn)數(shù)據(jù)、描述蛋白質(zhì)信息的XML格式數(shù)據(jù)等。面向多來源的結(jié)構(gòu)化數(shù)據(jù)的抽取與轉(zhuǎn)化是填充知識(shí)圖譜數(shù)據(jù)層的重要環(huán)節(jié)。半結(jié)構(gòu)化數(shù)據(jù)可通過XML解析器(SAX、DOM等)、OBO解析器等成熟工具便捷地轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。因此本節(jié)將重點(diǎn)敘述如何實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)向圖數(shù)據(jù)的轉(zhuǎn)化,主要根據(jù)圖數(shù)據(jù)模型的不同分為兩項(xiàng)子任務(wù):①結(jié)構(gòu)化數(shù)據(jù)向RDF數(shù)據(jù)的轉(zhuǎn)化;②結(jié)構(gòu)化數(shù)據(jù)向?qū)傩詧D數(shù)據(jù)的轉(zhuǎn)化。

      本文基于全景式本體模型,通過自定義映射規(guī)則的方法,基于Kettle轉(zhuǎn)化工具并結(jié)合插件RDFAdaptor和Neo4j GraphOutput[23]分別實(shí)現(xiàn)面向RDF圖的轉(zhuǎn)化和面向?qū)傩詧D的轉(zhuǎn)化。兩種方法本質(zhì)上都是在已知輸入關(guān)系表設(shè)計(jì)的情況下抽取既定實(shí)體類型,并基于既有本體模型設(shè)定相應(yīng)的配置參數(shù),實(shí)現(xiàn)映射轉(zhuǎn)化。以實(shí)現(xiàn)文獻(xiàn)元數(shù)據(jù)關(guān)系表面向兩種不同數(shù)據(jù)模型的圖數(shù)據(jù)的轉(zhuǎn)化為例,在面向RDF圖的轉(zhuǎn)化中,本文基于既定本體模型依次對(duì)命名空間(NameSpace)和映射規(guī)則進(jìn)行設(shè)定,實(shí)現(xiàn)關(guān)系表向RDF數(shù)據(jù)中主謂賓的映射轉(zhuǎn)化。在面向Neo4j圖數(shù)據(jù)庫(kù)的轉(zhuǎn)化中,本文基于既定本體模型,確定結(jié)構(gòu)化數(shù)據(jù)表中各字段與本體模型(Graph Model)的映射關(guān)系,將字段間的關(guān)聯(lián)關(guān)系劃分為節(jié)點(diǎn)屬性(Properties)和關(guān)系(Relationships)兩種類型。此外,在實(shí)際映射過程中須考慮同名字段的異義、異名字段的匹配映射等問題?;诖擞成湓瓌t,依次對(duì)屬性圖的節(jié)點(diǎn)、關(guān)系、屬性、類型等關(guān)鍵要素以及輸入表字段與各要素之間的映射關(guān)系進(jìn)行設(shè)定,最終實(shí)現(xiàn)面向Neo4j的轉(zhuǎn)化存儲(chǔ)。

      2.2.3 基于非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取

      當(dāng)前,越來越多的數(shù)據(jù)以非結(jié)構(gòu)化文本形式存在。以科技文獻(xiàn)全文為代表的非結(jié)構(gòu)化文本中包含大量具有豐富語(yǔ)義價(jià)值的知識(shí)。面向非結(jié)構(gòu)化文本抽取領(lǐng)域知識(shí)實(shí)體及其語(yǔ)義關(guān)系,是當(dāng)前知識(shí)圖譜構(gòu)建知識(shí)抽取環(huán)節(jié)的主要任務(wù),也是最大挑戰(zhàn)。早期研究主要集中在基于模式匹配的實(shí)體關(guān)系抽取,即結(jié)合領(lǐng)域知識(shí)特點(diǎn)通過人工構(gòu)造規(guī)則實(shí)現(xiàn)知識(shí)抽取,其優(yōu)點(diǎn)是知識(shí)的權(quán)威度和精準(zhǔn)度得到了有效保證。但隨著數(shù)據(jù)量的增加,與日俱增的時(shí)間與人力成本也成為其明顯的缺點(diǎn)。隨著自然語(yǔ)言理解技術(shù)的不斷發(fā)展,自動(dòng)化知識(shí)抽取方法逐步占據(jù)研究的主流地位,例如面向開放域的實(shí)體關(guān)系抽取、基于遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系抽取以及基于深度學(xué)習(xí)的實(shí)體關(guān)系聯(lián)合抽取等[24-26]。相較于傳統(tǒng)知識(shí)抽取方法,自動(dòng)化抽取對(duì)語(yǔ)料庫(kù)本身質(zhì)量要求較高。因此,以領(lǐng)域知識(shí)庫(kù)作為先驗(yàn)增強(qiáng)自動(dòng)化抽取,是實(shí)現(xiàn)非結(jié)構(gòu)化知識(shí)抽取質(zhì)量與效率并重的重要手段。

      本文結(jié)合領(lǐng)域知識(shí)特點(diǎn),在兼顧領(lǐng)域知識(shí)抽取精準(zhǔn)度和效率的基礎(chǔ)上,對(duì)面向領(lǐng)域文本的知識(shí)抽取方法進(jìn)行綜合改進(jìn):①筆者基于PubMed構(gòu)建檢索式“(rice OR oryza sativa)AND粒型基因名稱”批量獲得239篇領(lǐng)域英文文獻(xiàn),通過去標(biāo)簽化等數(shù)據(jù)預(yù)處理工作,構(gòu)建句子級(jí)別的純文本文獻(xiàn)數(shù)據(jù)集,便于后續(xù)語(yǔ)義標(biāo)注;②利用農(nóng)業(yè)領(lǐng)域自動(dòng)化標(biāo)注工具AgroPortal Annotator[27]對(duì)數(shù)據(jù)集進(jìn)行較高效的自動(dòng)化實(shí)體識(shí)別,并基于語(yǔ)義計(jì)算結(jié)果得出最優(yōu)候選實(shí)體;③將自動(dòng)標(biāo)注獲得的實(shí)體集合與種子知識(shí)庫(kù)中既有的實(shí)體集合進(jìn)行去重合并,構(gòu)建“特征詞詞典”,在既有實(shí)體集合基礎(chǔ)上新增258個(gè)領(lǐng)域?qū)嶓w,其中包括與水稻粒型基因調(diào)控密切相關(guān)的激素實(shí)例Auxin(生長(zhǎng)激素)、BR(油菜素內(nèi)酯)、ABA(脫落酸)等;④對(duì)文獻(xiàn)數(shù)據(jù)集進(jìn)行過濾篩選,僅保留包含特征詞的語(yǔ)句28 399條,有效提高數(shù)據(jù)集質(zhì)量;⑤基于開放域知識(shí)抽取工具OpenIE[28]對(duì)數(shù)據(jù)集進(jìn)行自動(dòng)化抽取獲得57 407個(gè)三元組,僅保留特征詞作為頭尾實(shí)體的三元組7 268條;⑥OpenIE的優(yōu)勢(shì)是基于自動(dòng)化抽取三元組幫助研究者發(fā)現(xiàn)潛在的關(guān)系類型,但是易造成同種關(guān)系多種表達(dá)的問題,如“is homologous to”和“are homologs of”都指向關(guān)系類型“homolog of”。因此,為了確保標(biāo)注結(jié)果的精準(zhǔn)度和權(quán)威性,本文邀請(qǐng)學(xué)科領(lǐng)域?qū)<疫M(jìn)行審核,并對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,最終對(duì)圖譜進(jìn)行三元組有效補(bǔ)充848條,新增3種實(shí)體類型Phytohormone(植物激素)、Transcription Factor(轉(zhuǎn)錄因子)、Enzyme(酶)以及3種關(guān)系類型homolog of(是…同源物)、ortholog of(是…垂直同源物)、paralog of(是…并行同源物)。

      2.3 多來源知識(shí)關(guān)聯(lián)融合

      知識(shí)融合是知識(shí)圖譜構(gòu)建的重要環(huán)節(jié),基于多來源的知識(shí)關(guān)聯(lián)融合是對(duì)知識(shí)抽取結(jié)果進(jìn)行深度加工處理和整合的過程,需要挖掘隱性知識(shí)及潛在知識(shí)關(guān)聯(lián),實(shí)現(xiàn)對(duì)知識(shí)的深層次語(yǔ)義挖掘,為后續(xù)知識(shí)發(fā)現(xiàn)等服務(wù)奠定良好的數(shù)據(jù)基礎(chǔ)。多源知識(shí)關(guān)聯(lián)融合主要解決多個(gè)來源的有關(guān)同一實(shí)體或概念的描述信息實(shí)現(xiàn)低冗余、高準(zhǔn)確率的合并,包括概念對(duì)齊、實(shí)體對(duì)齊、屬性對(duì)齊以及沖突檢測(cè)與解決。

      本文實(shí)現(xiàn)多來源知識(shí)關(guān)聯(lián)融合主要包括四大任務(wù)。一是對(duì)多路徑知識(shí)抽取得到的知識(shí)實(shí)體進(jìn)行知識(shí)融合,其中領(lǐng)域?qū)嶓w主要依賴于不同數(shù)據(jù)庫(kù)之間既有的登錄號(hào)映射進(jìn)行融合,文獻(xiàn)實(shí)體可根據(jù)DOI和PMID等唯一登錄號(hào)進(jìn)行實(shí)體對(duì)齊。二是基于既有圖譜對(duì)實(shí)體數(shù)據(jù)進(jìn)行消歧處理,例如水稻粒型基因GS3、LK3、異三聚體G蛋白γ亞基均指向同一實(shí)體,需對(duì)其合并處理。主要方法是基于上述知識(shí)抽取工作,結(jié)合相似度計(jì)算和人工校驗(yàn)進(jìn)行實(shí)體對(duì)齊處理。三是對(duì)文獻(xiàn)中所涉及的圖表信息進(jìn)行抽取,基于圖表在文獻(xiàn)中的位置關(guān)系、圖表標(biāo)簽文本的相似度計(jì)算,建立圖表與基因等實(shí)體的關(guān)聯(lián)。四是將百科中多媒體資源與既有圖譜中的部分實(shí)體進(jìn)行實(shí)體鏈接處理,實(shí)現(xiàn)多維度、細(xì)粒度的全景式知識(shí)圖譜(見圖4)。最終形成圖譜實(shí)體類型16種、關(guān)系類型31種,實(shí)體總量42 862個(gè)以及關(guān)系數(shù)量61 014條。

      圖4 多資源知識(shí)融合示意圖

      2.4 相關(guān)知識(shí)圖譜對(duì)比分析

      本節(jié)主要根據(jù)知識(shí)圖譜的模式層和數(shù)據(jù)層構(gòu)建邏輯,將上述所構(gòu)建水稻粒型基因知識(shí)圖譜與當(dāng)前兩大作物領(lǐng)域知識(shí)圖譜KnetMiner和AgroLD進(jìn)行了對(duì)比分析。

      在圖譜模式層方面,AgroLD旨在利用關(guān)聯(lián)數(shù)據(jù)技術(shù)實(shí)現(xiàn)作物領(lǐng)域多類型數(shù)據(jù)的聚合,具有較強(qiáng)的可擴(kuò)展性和通用性,但其本體模型并不涉及領(lǐng)域文獻(xiàn)等科技資源,僅關(guān)注于對(duì)領(lǐng)域知識(shí)組織體系的描述,無法有效解決領(lǐng)域知識(shí)與科技資源之間的割裂問題;KnetMiner旨在利用UniprotKB自帶的參考文獻(xiàn)構(gòu)建引文網(wǎng)絡(luò),與領(lǐng)域知識(shí)組織體系進(jìn)行有效關(guān)聯(lián)。同時(shí),二者的本體建模主要采用自頂向下的構(gòu)建模式,并未考慮利用文本挖掘技術(shù)發(fā)現(xiàn)新的實(shí)體和關(guān)系,不支持對(duì)既有模型進(jìn)行更新迭代,缺乏一定靈活性。本文所構(gòu)建全景式領(lǐng)域本體模型聚焦水稻粒型基因領(lǐng)域,針對(duì)領(lǐng)域應(yīng)用需求進(jìn)行了更多維度、更高細(xì)粒度的描述設(shè)計(jì),不僅通過文獻(xiàn)外部特征去實(shí)現(xiàn)與領(lǐng)域知識(shí)的關(guān)聯(lián),還通過面向全文的知識(shí)抽取發(fā)現(xiàn)潛在的新實(shí)體類型和關(guān)系類型,實(shí)現(xiàn)對(duì)領(lǐng)域知識(shí)的全景式描述。

      在圖譜數(shù)據(jù)層構(gòu)建方面,AgroLD的知識(shí)抽取是對(duì)既有關(guān)聯(lián)數(shù)據(jù)的集成,KnetMiner則是將知識(shí)抽取的重心放在對(duì)多種半結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取。本文立足全景式領(lǐng)域本體模型,采用多路徑知識(shí)抽取的方法,不僅對(duì)多個(gè)主流領(lǐng)域知識(shí)庫(kù)進(jìn)行知識(shí)融合,還利用優(yōu)化后的自動(dòng)化三元組抽取技術(shù)將領(lǐng)域知識(shí)組織體系與科技文獻(xiàn)的全文內(nèi)容特征建立關(guān)聯(lián),挖掘潛在知識(shí),既實(shí)現(xiàn)了對(duì)圖譜數(shù)據(jù)層的填充,又支撐后續(xù)對(duì)本體模型的迭代完善。

      3 知識(shí)圖譜驅(qū)動(dòng)下知識(shí)關(guān)聯(lián)發(fā)現(xiàn)的應(yīng)用展望

      數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新的智能時(shí)代背景下,知識(shí)圖譜作為實(shí)現(xiàn)數(shù)字資源重構(gòu)和智能化應(yīng)用的技術(shù)支撐,廣泛應(yīng)用于推薦系統(tǒng)、智能問答、實(shí)體檢索、知識(shí)發(fā)現(xiàn)等多種場(chǎng)景,也為推進(jìn)細(xì)分專業(yè)領(lǐng)域知識(shí)服務(wù)的個(gè)性化、智能化轉(zhuǎn)型提供了重要參考。領(lǐng)域知識(shí)圖譜的應(yīng)用研究方向主要是利用知識(shí)圖譜天然的圖結(jié)構(gòu)構(gòu)建關(guān)聯(lián)拓?fù)渚W(wǎng)絡(luò),挖掘知識(shí)單元之間的顯性和隱性關(guān)聯(lián),為實(shí)現(xiàn)圖譜驅(qū)動(dòng)下的知識(shí)關(guān)聯(lián)與發(fā)現(xiàn)服務(wù)奠定數(shù)據(jù)基礎(chǔ)。當(dāng)前,圖譜驅(qū)動(dòng)下的典型新型知識(shí)關(guān)聯(lián)與發(fā)現(xiàn)服務(wù)實(shí)踐包括:以Yewno[29]作為基于概念實(shí)體的知識(shí)關(guān)聯(lián)服務(wù)的范例,通過關(guān)聯(lián)大量數(shù)據(jù)源中的概念促進(jìn)用戶挖掘知識(shí)內(nèi)在的深層次關(guān)聯(lián);以O(shè)pen Knowledge Maps[30]為典型代表的基于聚類的知識(shí)關(guān)聯(lián)服務(wù),利用知識(shí)地圖代替?zhèn)鹘y(tǒng)列表瀏覽進(jìn)行文獻(xiàn)檢索,從而有效提高科學(xué)知識(shí)的可發(fā)現(xiàn)性;在生物醫(yī)學(xué)領(lǐng)域面向藥物間相互作用的基于推理的知識(shí)關(guān)聯(lián)服務(wù)[31]也逐漸興起。以上這些應(yīng)用范例為本文探索以水稻粒型基因知識(shí)圖譜所驅(qū)動(dòng)下的新型知識(shí)服務(wù)場(chǎng)景設(shè)計(jì)提供了新的視角。

      圖譜驅(qū)動(dòng)下的實(shí)體檢索服務(wù)主要是利用知識(shí)圖譜的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)對(duì)實(shí)體與實(shí)體間的豐富語(yǔ)義關(guān)系進(jìn)行有效的表達(dá),不僅能夠幫助用戶檢索和發(fā)現(xiàn)目標(biāo)實(shí)體的相關(guān)信息,還可以深度挖掘知識(shí)實(shí)體間的潛在關(guān)聯(lián),實(shí)現(xiàn)復(fù)雜關(guān)聯(lián)查詢,有效提升了檢索過程中的知識(shí)表示層次。圖譜驅(qū)動(dòng)下的實(shí)體檢索可分為三個(gè)層次:匹配檢索、擴(kuò)展檢索和推薦檢索[32]。以水稻粒型基因GS3進(jìn)行實(shí)體檢索,可通過既有圖譜構(gòu)建的實(shí)體及實(shí)體關(guān)系的關(guān)聯(lián)路徑(如基因→encodes→蛋白質(zhì)→published_in→文獻(xiàn)→has_project→基金項(xiàng)目)實(shí)現(xiàn)基于GS3的多實(shí)體復(fù)雜關(guān)聯(lián)檢索。區(qū)別于傳統(tǒng)的關(guān)鍵詞檢索僅能獲得GS3的單一實(shí)體信息,圖譜驅(qū)動(dòng)下的多維度立體檢索可獲得與基因GS3密切關(guān)聯(lián)的基因(如PGL2)、性狀(如粒寬、粒重、籽粒大小)、生物進(jìn)程(如粒重負(fù)調(diào)控)等實(shí)體信息以及相應(yīng)的多媒體資源,彰顯了全景式領(lǐng)域知識(shí)圖譜的應(yīng)用價(jià)值。

      隨著“數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新”理念的提出,當(dāng)前知識(shí)服務(wù)系統(tǒng)創(chuàng)新的重點(diǎn)是基于既有知識(shí)圖譜或知識(shí)庫(kù)挖掘潛在的語(yǔ)義關(guān)系以及發(fā)現(xiàn)“新”的知識(shí)實(shí)體。知識(shí)發(fā)現(xiàn)服務(wù)主要分為兩類。一類是基于實(shí)體概念之間共現(xiàn)關(guān)系的顯性知識(shí)發(fā)現(xiàn)。例如,研究人員可根據(jù)圖譜中的實(shí)體共現(xiàn)關(guān)系挖掘水稻粒型性狀(粒寬,grain width)、基因(DEP1)以及生物進(jìn)程(淀粉合成調(diào)控,regulation of starch biosynthetic process)之間的語(yǔ)義關(guān)系,促進(jìn)領(lǐng)域科研人員對(duì)新研究方向的思考。另一類是基于語(yǔ)義模型的隱性知識(shí)發(fā)現(xiàn),基于自動(dòng)化知識(shí)抽取技術(shù)可獲取與水稻粒型基因調(diào)控密切相關(guān)的“新”基因包括GGC2、RGG1等,供科研人員進(jìn)一步分析思考。

      4 結(jié)語(yǔ)

      數(shù)據(jù)密集型科研時(shí)代,構(gòu)建全景式領(lǐng)域知識(shí)圖譜在深層語(yǔ)義揭示和關(guān)聯(lián)組織領(lǐng)域知識(shí)、解決領(lǐng)域知識(shí)與科技信息等資源割裂問題等方面具有重要作用。本文以水稻粒型基因領(lǐng)域?yàn)槔?,在綜合集成主流技術(shù)方法的基礎(chǔ)上,進(jìn)一步研究提出了全景式、多路徑的領(lǐng)域知識(shí)圖譜構(gòu)建方案,在盡可能兼顧知識(shí)圖譜中各類知識(shí)覆蓋的廣度和深度的同時(shí),較充分繼承整合現(xiàn)有的各類多源異構(gòu)數(shù)據(jù)和知識(shí),具有一定集成性和通用性,可為其他領(lǐng)域知識(shí)圖譜的快速高效構(gòu)建提供參考。

      本研究也存在不足:在全景式領(lǐng)域本體模型構(gòu)建方面,自頂向下的建模比例仍然較大,需要對(duì)專業(yè)領(lǐng)域知識(shí)結(jié)構(gòu)有較深入理解,基于大量數(shù)據(jù)自底向上自動(dòng)抽取或形成知識(shí)結(jié)構(gòu)的研究不夠深入;在多路徑知識(shí)抽取策略方面,本文主要針對(duì)多形態(tài)數(shù)據(jù)分別提出不同的技術(shù)路線,離形成無縫集成和一體化的解決案例還有一定差距。同時(shí),還需要重點(diǎn)結(jié)合深度學(xué)習(xí)和專業(yè)知識(shí)組織體系,加強(qiáng)知識(shí)抽取對(duì)知識(shí)圖譜結(jié)構(gòu)豐富和實(shí)例動(dòng)態(tài)補(bǔ)全,基于知識(shí)圖譜迭代的思想,不斷實(shí)現(xiàn)領(lǐng)域知識(shí)圖譜的擴(kuò)充、更新、融合與增強(qiáng)。此外,本文目前只針對(duì)水稻粒型基因領(lǐng)域開展小規(guī)模實(shí)驗(yàn)研究,后續(xù)可通過開展大規(guī)模多組學(xué)、多物種數(shù)據(jù)之間的關(guān)聯(lián)與對(duì)比,面向?qū)I(yè)細(xì)分領(lǐng)域的知識(shí)服務(wù)需求,構(gòu)建全景式領(lǐng)域知識(shí)圖譜,打造圖譜驅(qū)動(dòng)下的新型領(lǐng)域知識(shí)服務(wù)系統(tǒng),為研究人員提供精細(xì)化、智能化、個(gè)性化知識(shí)服務(wù)。

      猜你喜歡
      粒型結(jié)構(gòu)化本體
      Abstracts and Key Words
      促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      對(duì)姜夔自度曲音樂本體的現(xiàn)代解讀
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      水稻GLW7基因功能標(biāo)記的開發(fā)和基因效應(yīng)分析
      水稻突變體庫(kù)的構(gòu)建及部分性狀分析
      水稻粒型與粒質(zhì)量的QTL分析
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      水稻粒型基因克隆與分子育種研究進(jìn)展

      随州市| 新蔡县| 嘉义县| 卢龙县| 孟连| 尼木县| 兴城市| 开远市| 正阳县| 大田县| 射洪县| 抚顺县| 宁明县| 新密市| 岱山县| 昭通市| 鄂伦春自治旗| 开阳县| 康保县| 仪陇县| 土默特左旗| 孝感市| 海城市| 潞城市| 济宁市| 崇州市| 德格县| 西藏| 调兵山市| 巍山| 定兴县| 运城市| 土默特右旗| 犍为县| 连云港市| 永丰县| 奉节县| 龙口市| 石台县| 鸡西市| 达拉特旗|