• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于領(lǐng)域知識的學(xué)術(shù)創(chuàng)新力測度本體構(gòu)建研究

      2019-05-07 07:50:40錢玲飛張吉玉汪榮
      現(xiàn)代情報(bào) 2019年5期
      關(guān)鍵詞:構(gòu)建方法知識庫本體

      錢玲飛 張吉玉 汪榮

      摘 要:[目的/意義]大數(shù)據(jù)環(huán)境下學(xué)術(shù)創(chuàng)新力自動(dòng)測度需要建立在相關(guān)學(xué)術(shù)評價(jià)指標(biāo)和學(xué)科知識體系基礎(chǔ)上,基于領(lǐng)域知識的本體構(gòu)建將為學(xué)術(shù)創(chuàng)新力的自動(dòng)測度提供基礎(chǔ)支持。[方法/過程]用手工方式構(gòu)建學(xué)術(shù)創(chuàng)新力概念本體,復(fù)用《中國分類主題詞表》半自動(dòng)化構(gòu)建學(xué)術(shù)創(chuàng)新力評價(jià)知識資源的初始本體,加入CNKI 期刊題錄數(shù)據(jù)的高頻關(guān)鍵詞以豐富本體的知識。然后進(jìn)行學(xué)術(shù)創(chuàng)新力概念本體和學(xué)術(shù)創(chuàng)新力評價(jià)知識資源本體的實(shí)例化。[結(jié)果/結(jié)論]以G3類題錄數(shù)據(jù)為例,共建立了30 097個(gè)概念、41 484個(gè)實(shí)例以及320 609條關(guān)系,基本完成任務(wù)目標(biāo)。

      關(guān)鍵詞:本體;知識庫;構(gòu)建方法;學(xué)術(shù)創(chuàng)新力;評價(jià)

      DOI:10.3969/j.issn.1008-0821.2019.05.004

      〔中圖分類號〕G316 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2019)05-0030-08

      Abstract:[Purpose/Meaning]The automatic measurement of academic innovation in the big data environment needs to be based on relevant academic evaluation indicators and subject knowledge systems.The ontology construction based on domain knowledge will provide basic support for the automatic measurement of academic innovation.[Method/Process]The ontology of academic innovation was constructed by hand,and the Chinese Ontology Thesaurus was used to semi-automatically construct the initial ontology of academic innovation to evaluate knowledge resources.The high-frequency keywords of CNKI journals were added to enrich the ontology knowledge.Then academic innovation power concept and academic innovation measurement knowledge resource were used to the instantiation of ontology.[Result/Conclusion]Taking the G3 bibliographic data as an example,a total of 30097 concepts,41484 instances and 320609 relationships were established to accomplish the mission objectives.

      Key words:ontology;knowledge base;construction method;academic innovation;evaluation

      學(xué)術(shù)創(chuàng)新力是創(chuàng)新主體在對學(xué)術(shù)知識的采納、吸收、創(chuàng)新過程中所體現(xiàn)出的素質(zhì)和能力,即軟技術(shù)力[1]。如何客觀地評價(jià)學(xué)術(shù)創(chuàng)新力,對學(xué)術(shù)創(chuàng)新力進(jìn)行量化是一個(gè)難題,在大數(shù)據(jù)時(shí)代背景下,這一難題的解決得到了有力的支撐。重視信息和數(shù)據(jù)之間的聯(lián)系,運(yùn)用數(shù)據(jù)挖掘和分析技術(shù),整合和利用多種數(shù)據(jù),用數(shù)據(jù)說話,將有助于我們建立更加客觀公正、科學(xué)合理的學(xué)術(shù)創(chuàng)新力測度體系。

      知識庫是能夠組織和表示知識,提供知識服務(wù)的系統(tǒng)。在進(jìn)行特定領(lǐng)域的學(xué)術(shù)創(chuàng)新力的數(shù)據(jù)分析和挖掘之前,先要實(shí)現(xiàn)領(lǐng)域知識的獲取,構(gòu)建特定領(lǐng)域的本體或知識庫。本體作為一種概念模型,可以實(shí)現(xiàn)知識的獲取、聯(lián)系、呈現(xiàn)和重用,對本體的研究已成為知識庫構(gòu)建研究的重要環(huán)節(jié)之一。

      本文采用本體理論和技術(shù),結(jié)合學(xué)科領(lǐng)域知識構(gòu)建學(xué)術(shù)創(chuàng)新力測度本體,是基于大數(shù)據(jù)的學(xué)術(shù)創(chuàng)新力測度的基礎(chǔ),為知識庫構(gòu)建、數(shù)據(jù)挖掘等其他與學(xué)術(shù)創(chuàng)新力自動(dòng)測度相關(guān)的研究提供支持,有助于豐富學(xué)術(shù)創(chuàng)新力測度研究和評價(jià)的研究成果。

      1 相關(guān)研究及本文研究目標(biāo)

      1.1 學(xué)術(shù)創(chuàng)新力相關(guān)研究

      目前國內(nèi)外關(guān)于學(xué)術(shù)創(chuàng)新力測度評價(jià)的研究工作和成果相對都較少,因?yàn)閷W(xué)術(shù)研究、創(chuàng)新的內(nèi)容一般基于一定的學(xué)科領(lǐng)域范疇,所以本文在進(jìn)行文獻(xiàn)調(diào)研時(shí)還參考了與學(xué)術(shù)創(chuàng)新力測度研究內(nèi)容、方法較為相似的學(xué)科創(chuàng)新力評價(jià)的文獻(xiàn)。

      蔣偉偉[1]通過對國內(nèi)外相關(guān)研究的分析以及人文社會科學(xué)學(xué)術(shù)創(chuàng)新力相關(guān)概念的辨析,指出了學(xué)術(shù)創(chuàng)新力的研究內(nèi)涵:學(xué)術(shù)創(chuàng)新力是創(chuàng)新主體在對學(xué)術(shù)知識的采納、吸收、創(chuàng)新的過程中所體現(xiàn)出的素質(zhì)和能力。Mishra S等[2]人基于醫(yī)學(xué)主題詞表,對單篇文獻(xiàn)的主題新穎度進(jìn)行考量,提出了基于改進(jìn)詞頻統(tǒng)計(jì)等一系列方法。楊建林等[3]基于詞頻和共現(xiàn)詞分析等思想,提出了量化文檔主題新穎度的4項(xiàng)原則,給出了基于關(guān)鍵詞對逆文檔頻率的主題新穎度的計(jì)算公式,對衡量單篇文獻(xiàn)或作者個(gè)人的學(xué)術(shù)創(chuàng)新力有重要的指導(dǎo)意義。這些研究為本文構(gòu)建學(xué)術(shù)創(chuàng)新力測度體系概念本體構(gòu)建提供了思路。

      1.2 本體構(gòu)建相關(guān)研究

      領(lǐng)域本體構(gòu)建方法有一系列較為成熟方法,如七步法、IDEF-5法和骨架法等。本體在工程、醫(yī)學(xué)、圖書情報(bào)學(xué)等領(lǐng)域一直有廣泛應(yīng)用,相關(guān)研究主要集中在基于本體的各類工程產(chǎn)品設(shè)計(jì)、醫(yī)學(xué)術(shù)語間聯(lián)系構(gòu)建、圖情領(lǐng)域知識地圖構(gòu)建。具體構(gòu)建方法主要包括手工構(gòu)建、復(fù)用已有本體,近年來有學(xué)者開始研究基于機(jī)器學(xué)習(xí)的本體構(gòu)建。手工構(gòu)建本體耗時(shí)費(fèi)力,且比較主觀,缺少科學(xué)管理和評價(jià)機(jī)制,復(fù)用已有本體或其他知識組織形式的非手工構(gòu)建方法,則可以較容易地獲取領(lǐng)域知識和概念關(guān)系。關(guān)于基于敘詞表的本體構(gòu)建方法的研究已經(jīng)較為成熟。唐愛民等[4]提出將《國防科學(xué)技術(shù)敘詞表》向本體轉(zhuǎn)換,形成軍用飛機(jī)領(lǐng)域本體的方法。丁晟春等[5]分析了航天科技敘詞表的知識組織結(jié)構(gòu)和詞間關(guān)系,完成了向航天領(lǐng)域本體的轉(zhuǎn)化,最后用OWL Lite實(shí)現(xiàn)半自動(dòng)化構(gòu)建。將機(jī)器學(xué)習(xí)方法應(yīng)用于本體的自動(dòng)構(gòu)建是目前的一個(gè)研究熱點(diǎn),但概念間關(guān)系的抽取依賴于復(fù)雜的語言處理模型。郭瑞[6]在構(gòu)建中文領(lǐng)域本體時(shí),以純文本為數(shù)據(jù)源,采用將一系列規(guī)則與統(tǒng)計(jì)的算法進(jìn)行有機(jī)結(jié)合的方法,抽取領(lǐng)域術(shù)語、概念和概念分類關(guān)系。文必龍等[7]在構(gòu)建石油領(lǐng)域本體的實(shí)踐中,將文本分析的思想引入本體方法論。蔣婷等[8-9]學(xué)者對學(xué)術(shù)概念等級關(guān)系和非等級關(guān)系的學(xué)術(shù)概念抽取進(jìn)行了細(xì)致的研究。上述研究為本文學(xué)術(shù)創(chuàng)新力測度體系知識資源本體構(gòu)建提供了借鑒。

      1.3 評價(jià)本體構(gòu)建相關(guān)研究

      目前國內(nèi)有一些基于本體的評價(jià)研究。周紅照等[10]對中文評價(jià)知識本體進(jìn)行研究,基于本體研究成果建立評價(jià)分析規(guī)則庫,建立了一套基于詞典規(guī)則的評價(jià)分析系統(tǒng)。姜韶華等[11]在對《綠色建筑評價(jià)標(biāo)準(zhǔn)》(GB/T50378-2014)進(jìn)行分析的基礎(chǔ)上提出基于本體與BIM的綠色建筑智能評價(jià)系統(tǒng)。馮淑芳等[12]以汽車領(lǐng)域知識為背景,利用Web汽車評論語料庫,自動(dòng)獲取本體知識庫中的核心概念,構(gòu)建了面向觀點(diǎn)挖掘的本體知識庫。Daraio等[13]學(xué)者開發(fā)了一種基于本體的數(shù)據(jù)管理平臺ODBM(Ontology-Based Data Management),通過一個(gè)案例從多維度對創(chuàng)新實(shí)體進(jìn)行評價(jià)和監(jiān)測。Cano-Basave等[14]學(xué)者提出一個(gè)基于本體的語義創(chuàng)新預(yù)測模型(Semantic Innovation Forecast(SIF)model),并以計(jì)算機(jī)學(xué)科為例,驗(yàn)證改模型可以有效提高學(xué)術(shù)前沿的預(yù)測率。這些學(xué)者從不同角度對基于本體的評價(jià)和預(yù)測進(jìn)行研究,為本文基于領(lǐng)域知識的學(xué)術(shù)創(chuàng)新力測度本體研究提供了研究方法。

      1.4 本文研究目標(biāo)

      本文采用本體理論和技術(shù),結(jié)合學(xué)科領(lǐng)域知識實(shí)現(xiàn)學(xué)術(shù)創(chuàng)新力本體,首先分別構(gòu)造學(xué)術(shù)創(chuàng)新力概念本體和知識資源本體,然后實(shí)例化單指標(biāo)評價(jià)體系,將學(xué)術(shù)創(chuàng)新力概念本體與學(xué)術(shù)創(chuàng)新力知識資源本體合并成一個(gè)OWL本體,定義類屬關(guān)系,為大數(shù)據(jù)環(huán)境下學(xué)術(shù)創(chuàng)新力的自動(dòng)測度提供堅(jiān)實(shí)的知識資源基礎(chǔ)和保障。

      2 基于領(lǐng)域知識的學(xué)術(shù)創(chuàng)新力本體構(gòu)建

      2.1 學(xué)術(shù)創(chuàng)新力概念本體的構(gòu)建

      學(xué)術(shù)創(chuàng)新力概念本體是用來描述學(xué)術(shù)創(chuàng)新力測度領(lǐng)域內(nèi)的一些基本概念和概念間關(guān)系的本體。本文采用“七步法”的本體構(gòu)建工程思想,對學(xué)術(shù)創(chuàng)新力測度領(lǐng)域的核心概念、理論和方法,對其中的術(shù)語進(jìn)行明確的描述,形成公理化的認(rèn)知,這樣既可以幫助該領(lǐng)域的學(xué)者們建立一個(gè)形式化的概念體系結(jié)構(gòu),又有助于讓后來進(jìn)入這一領(lǐng)域的研究者們快速建立基本的認(rèn)知,進(jìn)而選擇合適的體系進(jìn)行測度,同時(shí)為該領(lǐng)域未來的學(xué)術(shù)創(chuàng)新力自動(dòng)測度研究提供底層知識,實(shí)現(xiàn)資源共享,方便文獻(xiàn)資源的組織和利用,也避免了重復(fù)開發(fā)相同資源。

      2.1.1 確定類及本體概念

      經(jīng)過調(diào)研得知,學(xué)術(shù)創(chuàng)新力自動(dòng)測度領(lǐng)域尚無本體方向的研究成果,因而也沒有可以復(fù)用的本體資源。所以需要手工抽取領(lǐng)域內(nèi)重要的術(shù)語或概念,在這一過程中,首先確定的是領(lǐng)域內(nèi)的最為重要的概念,然后在這些概念的基礎(chǔ)上,找出其相關(guān)概念,從而得到一份該領(lǐng)域范圍內(nèi)的所有概念的清單。

      在確定核心概念時(shí),將抽取的核心詞匯、術(shù)語分為了基本概念類、相似概念類、基本理論類、指標(biāo)概念類、基本方法類、測度體系類和外部特征類7類。

      1)基本概念類包含由學(xué)術(shù)創(chuàng)新力研究領(lǐng)域的研究者們定義的核心概念,如“學(xué)術(shù)創(chuàng)新力”、“創(chuàng)新績效”等。

      2)相似概念類包括與“學(xué)術(shù)創(chuàng)新力”定義相似的概念,如“學(xué)科創(chuàng)新力”。

      3)基本理論類包括應(yīng)用到該領(lǐng)域的一些核心理論,如“創(chuàng)新過程理論”、“創(chuàng)新系統(tǒng)理論”等。

      4)指標(biāo)概念類包括用于測度學(xué)術(shù)創(chuàng)新力的術(shù)語、指標(biāo)等,如“關(guān)鍵詞交叉率”等。

      5)基本方法類是測度過程中用到的方法,如“單指標(biāo)評價(jià)方法”、“灰色關(guān)聯(lián)分析”等。

      6)測度體系類包括現(xiàn)有關(guān)于學(xué)術(shù)創(chuàng)新力相關(guān)測度的體系,包括核心指標(biāo)評價(jià)體系、單指標(biāo)評價(jià)體系、基于DEA模型的指標(biāo)體系、基于三階段四維度的指標(biāo)體系。

      7)外部特征類是期刊文獻(xiàn)的基本信息,包括文獻(xiàn)的作者、機(jī)構(gòu)、中文刊名等。

      本文只手工抽取了54個(gè)核心概念,最終建立好的概念本體的類如圖1所示。

      2.1.2確定類間關(guān)系

      關(guān)系(Relations)是存在于概念間的交互作用,比如,part-of等基本的關(guān)系。對于特定領(lǐng)域,往往有不同于其他領(lǐng)域的情形,研究者們通常根據(jù)情形自定義符合需求的關(guān)系。本文也使用或自定義了一些適用于學(xué)術(shù)創(chuàng)新力概念本體的關(guān)系以滿足需要。

      1)可以描述上下位概念關(guān)系的subclass-of,如“單指標(biāo)評價(jià)體系”與“測度體系”之間的關(guān)系;

      2)可以描述類與實(shí)例關(guān)系的instance-of,如“有效新詞出現(xiàn)率”與“創(chuàng)新潛力”之間的關(guān)系;

      3)以描述概念來源關(guān)系的come-from,如“有效新詞出現(xiàn)率”這一概念來自期刊文獻(xiàn)《人文社會科學(xué)學(xué)科創(chuàng)新力單指標(biāo)評價(jià)》;

      4)可以描述文獻(xiàn)收錄關(guān)系的indexed-of,如《人文社會科學(xué)學(xué)科創(chuàng)新力單指標(biāo)體系》被收錄于《圖書與情報(bào)》中。

      2.1.3 定義屬性和約束

      概念間的關(guān)系由對象屬性揭示,因此在分析并確定好類間關(guān)系后,需要建立對應(yīng)的對象屬性名,確定屬性的類、定義域和取值范圍。此外類還可以擁有數(shù)據(jù)屬性,需要定義數(shù)據(jù)屬性的屬性名、取值類型等。對象屬性是定義的重點(diǎn)。本文創(chuàng)建的概念本體中,類的數(shù)據(jù)屬性主要是概念或理論的含義,將這一屬性命名為meaning,取值類型為string,定義域?yàn)閷W(xué)術(shù)創(chuàng)新力概念類、理論類。

      2.2 學(xué)術(shù)創(chuàng)新力知識資源本體的構(gòu)建

      學(xué)術(shù)創(chuàng)新力知識資源本體是在學(xué)術(shù)創(chuàng)新力測度過程中需要的知識資源的概念集合,如期刊文獻(xiàn)的關(guān)鍵詞。因而需要對測度過程中用到的關(guān)鍵詞進(jìn)行組織,形成測度過程中需要用到的知識資源。即用戶在選擇了某一種測度體系后,可以自動(dòng)對應(yīng)測評項(xiàng)涉及的具體數(shù)據(jù)資源,從而得出相關(guān)測評結(jié)果,如此便可以為人機(jī)交流和信息共享提供便利,為學(xué)術(shù)創(chuàng)新力自動(dòng)測度系統(tǒng)的研究提供基礎(chǔ)的知識資源和語義支持。

      2.2.1 確定學(xué)術(shù)創(chuàng)新力知識資源核心概念集

      本文以中國分類主題詞表中的G3和G25部分類中的概念,即信息科學(xué)領(lǐng)域的概念為基礎(chǔ),建立知識資源本體的初始本體概念集。知識資源本體包含概念1 697個(gè),其中分類概念148個(gè),主題詞概念1 549個(gè)。在主題詞中,具有屬分關(guān)系的主題詞274個(gè),具有相關(guān)關(guān)系的主題詞1 257個(gè)。隨后,為完善初始本體,加入2013-2017年間的信息科學(xué)領(lǐng)域的期刊論文的新詞概念2 274個(gè)?!靶略~”是未被中國分類主題詞表收錄的信息科學(xué)領(lǐng)域的高頻關(guān)鍵詞。

      2.2.2 建立概念層次結(jié)構(gòu)

      主題詞表中的詞間關(guān)系可分為層次關(guān)系、等價(jià)關(guān)系和相關(guān)關(guān)系3種。層次關(guān)系映射到本體中的關(guān)系,可以有部分與整體的關(guān)系、類與實(shí)例的關(guān)系、繼承關(guān)系等情況,而為方便主題詞表向本體的自動(dòng)轉(zhuǎn)化,本文將層次關(guān)系粗映射為subclass-of類型的關(guān)系,等價(jià)關(guān)系可能存在“相似”或“相等”兩種語義,本文統(tǒng)一粗映射為equivalent-to關(guān)系。而相關(guān)關(guān)系語義更為復(fù)雜,通過觀察中國分類主題詞表可以發(fā)現(xiàn),存在相關(guān)關(guān)系的主題詞都在同一級目錄下,將其粗映射為coordinate-of關(guān)系。

      2.2.3 定義屬性和約束

      為建立概念層次結(jié)構(gòu),將詞間關(guān)系粗映射為subclass-of、equivalent-to、coordinate-of 3種,其中subclass-of可用owl標(biāo)簽〈SubClassOf〉直接實(shí)現(xiàn),因此還需要分別自定義其他2個(gè)對象屬性equivalent-to和coordinate-of,定義域、取值范圍都是一級主題詞或二級主題詞,可取值個(gè)數(shù)為多個(gè)。在完善本體的過程中,新增的新詞類,我們?yōu)槠涮砑訉ο髮傩浴癱ome-from”,其取值范圍為DOI類,可取值個(gè)數(shù)為多個(gè)。

      2.2.4 敘詞表向本體的批量自動(dòng)轉(zhuǎn)換過程

      本文用python和owl語言完成了敘詞表向本體的自動(dòng)轉(zhuǎn)換。首先從《中國分類主題詞表》Web版中抓取需要的G3類數(shù)據(jù)保存到Excel文件中,然后對數(shù)據(jù)進(jìn)行預(yù)處理。用owl語言描述本體時(shí),類名中不能包含“\”、“/”、“〈”、“|”和空格等不合法的字符,而這些字符在分類主題詞表中常常出現(xiàn),預(yù)處理后即可根據(jù)之前的策略,分別定義類、屬性和約束,將類名、屬性名分別用〈/Declaration〉標(biāo)簽進(jìn)行裝飾,如〈Declaration〉〈Class IRI=″#情報(bào)學(xué)″/〉〈/Declaration〉即可建立一個(gè)名為“情報(bào)學(xué)”的類。本體中的關(guān)系是由“類—對象屬性—值”的結(jié)構(gòu)形成的,因此在確定概念層次結(jié)構(gòu)后,需要事先定義好屬性和約束,才能建立關(guān)系。完成上述定義后,將處理好的標(biāo)簽寫入owl文件即可得到初始本體,可以用protégé提供的可視化工具OntoGraf查看建立好的本體。部分本體如圖2所示。

      從圖2可以看出,信息科學(xué)領(lǐng)域的關(guān)鍵詞“情報(bào)學(xué)”、“圖書館學(xué)”、“文獻(xiàn)學(xué)”和他們的子類及分類關(guān)系,他們原來的敘詞表中分別是分類詞和主題詞,在本體中以上下位的關(guān)系組織。點(diǎn)擊某個(gè)類還可以看到該類的數(shù)據(jù)屬性和與其他類的關(guān)系。

      2.2.5 本體完善

      為豐富學(xué)術(shù)創(chuàng)新力知識資源本體,本文利用中國知網(wǎng)的G3類部分期刊題錄數(shù)據(jù),抽取其中的新詞加入到初始核心本體中去。

      選取2013-2017年間的信息科學(xué)領(lǐng)域的期刊論文題錄數(shù)據(jù)為數(shù)據(jù)源,預(yù)處理包括篩選數(shù)據(jù)字段、記錄去重和復(fù)合關(guān)鍵詞的提取等,本研究需要用到年、DOI、復(fù)合關(guān)鍵詞這3個(gè)字段,最終得到30 850條可用于進(jìn)一步分析的數(shù)據(jù),以及61 680個(gè)復(fù)合關(guān)鍵詞。

      61 680個(gè)關(guān)鍵詞中,可能存在大量不屬于信息科學(xué)領(lǐng)域或意義不明確的詞,如“美國課程研究”和“進(jìn)路”,因此應(yīng)對復(fù)合關(guān)鍵詞進(jìn)行過濾。經(jīng)過統(tǒng)計(jì),61 680個(gè)關(guān)鍵詞的可能擁有的詞頻共有206種,詞頻最小為1,最大為1 451。詞頻較少意味著該關(guān)鍵詞可能不是與信息科學(xué)領(lǐng)域相關(guān)的詞,或者是無效的“新詞”,但也可能是由于該詞所反映的研究方向或研究對象,并不是這5年間信息科學(xué)領(lǐng)域研究的熱點(diǎn)。根據(jù)多次實(shí)驗(yàn)得出的結(jié)果,本文選取了詞頻大于等于11的復(fù)合關(guān)鍵詞,此時(shí)得到的關(guān)鍵詞與信息科學(xué)領(lǐng)域聯(lián)系更為密切。然后將上述關(guān)鍵詞集合與本體中已存在的關(guān)鍵詞概念集合取差集,即可得到“新詞”。最后對得到新詞進(jìn)行規(guī)范化處理,處理結(jié)束后即可將新詞按照定義類、確定類間關(guān)系以及定義屬性和約束的步驟將新關(guān)鍵詞的概念類、關(guān)系和屬性加入到初始核心本體中去,該過程由python和owl語言自動(dòng)轉(zhuǎn)化完成。

      3 本體實(shí)例化

      本節(jié)將通過實(shí)例化單指標(biāo)評價(jià)體系[15-16]中的評價(jià)指標(biāo)類:主關(guān)鍵詞、有效新詞和共現(xiàn)詞,以及實(shí)例化單指標(biāo)評價(jià)體系需要利用的期刊文獻(xiàn)類來完成實(shí)例化單指標(biāo)評價(jià)體系的任務(wù),并借由這一體系的實(shí)例化,實(shí)現(xiàn)概念本體和知識資源本體兩部分本體的全部構(gòu)建和最終組合。

      3.1 添加文獻(xiàn)類實(shí)例

      在單指標(biāo)評價(jià)體系中,需要用到的期刊題錄數(shù)據(jù)的字段有:篇名、作者、機(jī)構(gòu)、中文刊名、年、分類號以及 DOI。分別建立各個(gè)字段的集合,將集合中的元素包裝成實(shí)例的標(biāo)簽,逐一建立與對應(yīng)的類的關(guān)系。將處理好的“篇名”、“機(jī)構(gòu)”、“doi”、“中文刊名”類的實(shí)例數(shù)據(jù)寫入到概念本體的owl文件中。

      3.2 添加關(guān)系和屬性

      實(shí)例可以繼承所屬類的關(guān)系。首先,需要了解的是:篇名、作者、年、分類號、DOI、機(jī)構(gòu)和中文刊名,這七者之間的關(guān)系,在數(shù)據(jù)庫中,上述七者都是期刊文獻(xiàn)這一實(shí)體的屬性,DOI是期刊文件實(shí)體的唯一標(biāo)志,因而在本體中,應(yīng)該分別建立其他6個(gè)類與DOI類的關(guān)系“attribute-of”,其他還可以選擇建立篇名與作者的關(guān)系“written-by”,作者與機(jī)構(gòu)的關(guān)系“work-in”,刊名和篇名的關(guān)系“indexed-of”等。

      3.3 添加評價(jià)指標(biāo)體系類實(shí)例

      根據(jù)主關(guān)鍵詞、共現(xiàn)詞和有效新詞的概念及獲取方法,處理2016-2017年G3類期刊題錄數(shù)據(jù),得到詞頻為前20名的關(guān)鍵詞,即主關(guān)鍵詞,如表1所示:

      根據(jù)上述主關(guān)鍵詞可以再分別得出共現(xiàn)詞實(shí)例8 921個(gè)和有效新詞實(shí)例3 361個(gè)。將這些實(shí)例分別加入到對應(yīng)的類下,共建立關(guān)系12 191個(gè)。

      3.4 組合本體

      將文獻(xiàn)類實(shí)例和評價(jià)指標(biāo)類實(shí)例本體按照圖3所示的概念層次結(jié)構(gòu),補(bǔ)充類和關(guān)系的定義,利用protégé提供的Import功能將兩部分本體組合成一個(gè)OWL工程,并且將知識資源本體中的DOI類與概念本體中的doi類建立新的關(guān)系:相等關(guān)系“equivalent to”,即可得到較為完整的學(xué)術(shù)創(chuàng)新力測度本體。

      4 結(jié)論及下一步工作

      本文旨在結(jié)合學(xué)科領(lǐng)域知識,構(gòu)建學(xué)術(shù)創(chuàng)新力本體,為后續(xù)學(xué)術(shù)創(chuàng)新力自動(dòng)測度研究提供基礎(chǔ)支持,通過概念本體描述學(xué)術(shù)創(chuàng)新力測度領(lǐng)域的概念和模型的知識網(wǎng)絡(luò),知識資源本體將測度體系要用到的特定學(xué)科領(lǐng)域的知識資源進(jìn)行組織,二者合二為一才是可支持學(xué)術(shù)創(chuàng)新力自動(dòng)測度研究的實(shí)用本體。在研究過程中,共建立了30 097個(gè)概念,41 484多個(gè)實(shí)例以及320 609條關(guān)系,基本完成創(chuàng)建學(xué)術(shù)創(chuàng)新力測度本體的任務(wù)目標(biāo)。

      本文是對學(xué)術(shù)創(chuàng)新力測度領(lǐng)域構(gòu)建本體的首次嘗試,存在著一些不足之處。首先是前文提到的知識資源本體的完善,后續(xù)工作中可以考慮使用LDA模型抽取期刊文獻(xiàn)的主題詞加入其中,避免作者標(biāo)注關(guān)鍵詞的主觀性,這樣構(gòu)建出來的本體,在應(yīng)用于學(xué)術(shù)創(chuàng)新力測度時(shí)會幫助呈現(xiàn)更加客觀有效的結(jié)果。其次是構(gòu)建概念本體時(shí)采用了手工抽取相關(guān)核心概念的方式,這么做雖然可以保證抽取到的關(guān)鍵詞是準(zhǔn)確有效的,但是難免費(fèi)時(shí)費(fèi)力,當(dāng)學(xué)術(shù)創(chuàng)新力方面的研究成果爆發(fā)時(shí),更會顯得力不從心。因此后面可以考慮利用規(guī)則與統(tǒng)計(jì)相結(jié)合的方法來自動(dòng)化的抽取核心概念。然后是在添加文獻(xiàn)類實(shí)例的過程中,本文簡單將DOI類與其他6個(gè)類的關(guān)系定義為“attribute-of”,今后可以進(jìn)一步細(xì)化類間關(guān)系。最后是本文構(gòu)建的本體是為了后期的知識庫以及學(xué)術(shù)創(chuàng)新力自動(dòng)測度研究服務(wù)的,目前只添加了單指標(biāo)評價(jià)實(shí)例,還需要進(jìn)一步的添加其他測度體系和領(lǐng)域知識實(shí)例、概念間關(guān)系,不斷充實(shí)和完善本體,為學(xué)術(shù)創(chuàng)新力的自動(dòng)測度提供堅(jiān)實(shí)的基礎(chǔ)和保障。

      參考文獻(xiàn)

      [1]蔣偉偉.人文社會科學(xué)學(xué)術(shù)創(chuàng)新力測度研究[D].南京:南京大學(xué),2013:41.

      [2]Mishra S,Torvik V I.Quantifying Conceptual Novelty in the Biomedical Literature[J].Dlib Mag,2016,22(9-10).

      [3]楊建林,錢玲飛.基于關(guān)鍵詞對逆文檔頻率的主題新穎度度量方法[J].情報(bào)理論與實(shí)踐,2013,36(3):99-102.

      [4]唐愛民,真溱,樊靜.基于敘詞表的領(lǐng)域本體構(gòu)建研究[J].現(xiàn)代圖書情報(bào)技術(shù),2005,(4):1-5.

      [5]丁晟春,傅柱.基于航天敘詞表的領(lǐng)域本體半自動(dòng)化構(gòu)建研究[J].情報(bào)理論與實(shí)踐,2011,34(11):113-116.

      [6]郭瑞.基于純文本的領(lǐng)域本體構(gòu)建與實(shí)現(xiàn)[D].石家莊:河北科技大學(xué),2016:53.

      [7]文必龍,段煉,汪志群,等.基于語料庫和規(guī)則庫的石油本體自動(dòng)構(gòu)建研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(9):209-212.

      [8]蔣婷,孫建軍.領(lǐng)域?qū)W術(shù)本體概念等級關(guān)系抽取研究[J].情報(bào)學(xué)報(bào),2017,36(10):1080-1092.

      [9]蔣婷,孫建軍.學(xué)術(shù)資源本體非等級關(guān)系抽取研究[J].圖書情報(bào)工作,2016,60(20):112-122.

      [10]周紅照,侯敏,滕永林. 評價(jià)知識本體研究與規(guī)則實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2016,(10):25-32.

      [11]姜韶華,武靜.基于本體與BIM的綠色建筑智能評價(jià)系統(tǒng)[J].工程管理學(xué)報(bào),2016,30(4):35-39.

      [12]馮淑芳,王素格.面向觀點(diǎn)挖掘的汽車評價(jià)本體知識庫的構(gòu)建[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(5):45-47,105.

      [13]Daraio C,Lenzerini M,Leporelli C,et al.Data Integration for Research and Innovation Policy:An Ontology-Based Data Management Approach[J].Scientometrics,2016,106(2):857-871.

      [14]Cano-Basave A E,Osborne F,Salatino A A.Ontology Forecasting in Scientific Literature:Semantic Concepts Prediction Based on Innovation-Adoption Priors[C]//European Knowledge Acquisition Workshop.Springer International Publishing,2016.

      [15]錢玲飛,楊建林,張莉.基于關(guān)鍵詞分析的學(xué)科創(chuàng)新力比較[J].情報(bào)理論與實(shí)踐,2011,34(1):117-120.

      [16]錢玲飛,楊建林,鄧三鴻.人文社會科學(xué)學(xué)科創(chuàng)新力單指標(biāo)評價(jià)[J].圖書與情報(bào),2013,(2):93-98.

      (責(zé)任編輯:陳 媛)

      猜你喜歡
      構(gòu)建方法知識庫本體
      Abstracts and Key Words
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
      構(gòu)建符合學(xué)生心理的數(shù)學(xué)課堂
      淺論高中地理“雙動(dòng)兩案”的教學(xué)模式構(gòu)建
      考試周刊(2016年86期)2016-11-11 09:00:41
      如何構(gòu)建高效的小學(xué)語文課堂
      考試周刊(2016年76期)2016-10-09 08:48:33
      高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
      農(nóng)村電子商務(wù)成本效益數(shù)學(xué)模式的建立與研究
      《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
      基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      二连浩特市| 县级市| 来凤县| 营山县| 民乐县| 忻城县| 石台县| 威宁| 蒲城县| 松滋市| 渭源县| 萨迦县| 鹤山市| 博湖县| 五峰| 贵州省| 合水县| 突泉县| 稻城县| 舒兰市| 崇明县| 闽侯县| 乳山市| 海原县| 大庆市| 兴城市| 蚌埠市| 双城市| 洛浦县| 丹江口市| 安宁市| 海伦市| 同心县| 多伦县| 陵川县| 军事| 那坡县| 蕉岭县| 吴桥县| 砀山县| 辽宁省|