屈琴芹 華鵬 高超
重慶電子工程職業(yè)學(xué)院/電子與物聯(lián)網(wǎng)學(xué)院 重慶 401331
在當(dāng)今互聯(lián)網(wǎng)時(shí)代,大數(shù)據(jù)、人工智能、知識圖譜等技術(shù)應(yīng)用越來越普及,各行各業(yè)向著信息化和智能化發(fā)展,其中知識圖譜被廣泛應(yīng)用于各大高校的科研管理系統(tǒng)中。知識圖譜主要有自頂向下與自底向上兩種構(gòu)建方式,自頂向下是指先為知識圖譜定義好本體與數(shù)據(jù)模式,再將實(shí)體加入到知識庫[1]。自底向上指的是從一些開放鏈接數(shù)據(jù)中提取出實(shí)體,選擇其中置信度較高的加入到知識庫,再構(gòu)建頂層的本體模式,經(jīng)人工審核后,加入到知識圖譜中。信息在現(xiàn)代社會(huì)日趨重要,合理的決策取決于對大量信息的有效利用,高??蒲泄芾砉ぷ髅媾R雜亂無序的大量數(shù)據(jù),如何將高??蒲泄芾硐到y(tǒng)中的科研人員、科研項(xiàng)目、專著、論文、獲獎(jiǎng)、發(fā)明專利、學(xué)術(shù)影響力等復(fù)雜數(shù)據(jù)進(jìn)行大數(shù)據(jù)分析顯得尤為重要。本文借助知識圖譜技術(shù),對各類科研數(shù)據(jù)進(jìn)行可視化展現(xiàn),指導(dǎo)決策者進(jìn)行合理的規(guī)劃和科研政策的制定,提高科研管理系統(tǒng)的科學(xué)性和高效性[2]。有學(xué)者將內(nèi)容分析與信息可視化相結(jié)合,運(yùn)用基于共現(xiàn)矩陣的知識圖譜及社會(huì)網(wǎng)絡(luò)分析法,分析某高校近十一年來學(xué)術(shù)論文的研究方向、學(xué)術(shù)群體關(guān)系、對外合作關(guān)系等,能高效找出科研中存在的問題[3]。高??蒲泄ぷ鲗?nèi)容和數(shù)據(jù)兼容性方面具有更高的要求,利用知識圖譜對科研數(shù)據(jù)進(jìn)行可視化的展示,將有效提高科研工作效率,同時(shí)也為科研工作的擴(kuò)展應(yīng)用提供了有力支撐。
知識圖譜是將應(yīng)用數(shù)學(xué)、圖形技術(shù)、信息可視化技術(shù)、信息技術(shù)等方法和理論知識與其共同分析等方法相互結(jié)合,利用可視化的圖譜具體地展示出學(xué)科的發(fā)展歷史、核心內(nèi)容、相關(guān)領(lǐng)域以及整體的知識框架,以此來達(dá)到不同數(shù)據(jù)相互融合的一個(gè)現(xiàn)代理論[4]。知識圖譜在邏輯上分為數(shù)據(jù)層和概念層,數(shù)據(jù)層是指以三元組為表現(xiàn)形式的實(shí)體和關(guān)系集合,用<實(shí)體,關(guān)系,實(shí)體>和<實(shí)體,屬性,屬性值>來表示。概念層構(gòu)建在數(shù)據(jù)層之上,是經(jīng)過積累沉淀的知識集合[5]。一個(gè)知識圖譜的構(gòu)建需要包含知識抽取、知識融合、知識加工、圖譜應(yīng)用等過程,其中涉及本體和實(shí)體兩個(gè)概念。本體是共享概念模型的形式化、規(guī)范、明確的說明,即一個(gè)概念的集合,是一個(gè)公認(rèn)的知識框架;實(shí)體是本體、實(shí)例及關(guān)系的整合。本體模型和實(shí)體數(shù)據(jù)庫的建設(shè)是知識圖譜結(jié)構(gòu)的核心,知識圖譜結(jié)構(gòu)如圖1所示。
圖1 知識圖譜結(jié)構(gòu)圖
要應(yīng)用知識圖譜需要提前構(gòu)建知識圖譜,即先要構(gòu)建一個(gè)知識庫,可以通過搜索知識庫來回復(fù)相關(guān)搜索。比如在搜索框里輸入關(guān)鍵詞,可以得到相關(guān)回復(fù)。這是因?yàn)樵谙到y(tǒng)層面上已經(jīng)創(chuàng)建好了一個(gè)包含關(guān)鍵字和回復(fù)內(nèi)容關(guān)鍵詞的實(shí)體以及兩者關(guān)系的知識庫。所以,當(dāng)執(zhí)行搜索任務(wù)時(shí),可以通過關(guān)鍵詞提取以及知識庫上的匹配獲得答案。這種搜索方式不同于傳統(tǒng)的搜索引擎,通常傳統(tǒng)的搜索引擎返回的是相關(guān)網(wǎng)頁,返回的內(nèi)容是有關(guān)聯(lián)度但關(guān)聯(lián)度不高的內(nèi)容,不是最終答案,用戶還需要進(jìn)行篩選并過濾信息。這就是以往的智能分析專注在每一個(gè)個(gè)體上,而知識圖譜除了個(gè)體,還深入分析個(gè)體之間的關(guān)系,只要有關(guān)系分析的需求,知識圖譜就能夠發(fā)揮作用。
知識抽取是構(gòu)建一個(gè)知識圖譜必不可少的部分,基于大數(shù)據(jù)的基本結(jié)構(gòu),利用自動(dòng)化或半自動(dòng)化的技術(shù)抽取出可用的數(shù)據(jù)知識,包括關(guān)系、屬性、事件抽取等。關(guān)系抽取是從信息中抽取出實(shí)體名稱,再通過關(guān)系抽取獲取實(shí)體當(dāng)中的連接關(guān)系,從而形成一個(gè)完整的網(wǎng)絡(luò)知識結(jié)構(gòu),事件抽取是從一個(gè)知識圖譜信息源中抽取出事件信息,包括時(shí)間、人物、地點(diǎn)等,通過人物關(guān)系搜索,形成一個(gè)關(guān)系網(wǎng)絡(luò)。
知識融合是高層次的知識組織,使來自不同知識源的知識在同一框架規(guī)范下進(jìn)行異構(gòu)數(shù)據(jù)整合、消歧、加工、推理驗(yàn)證、更新等步驟,達(dá)到數(shù)據(jù)、信息、方法、經(jīng)驗(yàn)以及人的思想的融合,形成高質(zhì)量的知識庫。高??蒲邢到y(tǒng)中的信息可能來源于不同數(shù)據(jù)源,存在數(shù)據(jù)異構(gòu)的情況,知識質(zhì)量良莠不齊、知識重復(fù)、知識間的關(guān)聯(lián)不夠明確等問題。因此知識融合非常有必要,需要對科研系統(tǒng)中的數(shù)據(jù)進(jìn)行知識融合,實(shí)現(xiàn)信息、數(shù)據(jù)、經(jīng)驗(yàn)、方法以及人的智慧的大融合,形成有效知識庫[6]。在知識融合的過程中,實(shí)體對齊、知識加工是兩個(gè)重要的過程。實(shí)體對齊是從描述相同真實(shí)世界對象的不同知識圖譜中去識別實(shí)體。
知識加工是要去獲得結(jié)構(gòu)化、網(wǎng)絡(luò)化的知識體系,因?yàn)樾畔⒊槿〉玫降氖聦?shí)表達(dá)并不等于知識。信息抽取后,原始材料中可以提取出實(shí)體、關(guān)系與屬性等知識要素。再經(jīng)歷知識融合,消除實(shí)體指稱項(xiàng)與實(shí)體對象之間的歧義,得到基本的事實(shí)表達(dá)[7]。但是事實(shí)不等于知識,要想獲得結(jié)構(gòu)化、網(wǎng)絡(luò)化的知識體系,知識加工是非常重要的一步。知識加工由三部分的內(nèi)容組成,分別是本體建構(gòu)、知識推理和質(zhì)量評估。其中,質(zhì)量評估針對的是現(xiàn)有數(shù)據(jù)結(jié)構(gòu),將符合標(biāo)準(zhǔn)的數(shù)據(jù)放入對應(yīng)知識圖譜中,先檢測是否符合質(zhì)量評估,不是所有的數(shù)據(jù)都能被知識圖譜所采用,需要確保知識圖譜當(dāng)中所查詢到的知識是合理的。知識加工在整個(gè)圖譜構(gòu)建的過程當(dāng)中起了不可分割的作用,只有將數(shù)據(jù)進(jìn)行加工與處理,進(jìn)行質(zhì)量評估后才能增強(qiáng)知識圖譜內(nèi)容的可靠性與合理性。
知識推理是通過對已構(gòu)建好的實(shí)體之間的關(guān)系的計(jì)算和對其三元組的語義進(jìn)行分析,從而找到相互關(guān)聯(lián)的內(nèi)容,獲取更新的知識或者相關(guān)結(jié)論,也可以擴(kuò)展和豐富知識網(wǎng)絡(luò)圖譜。在知識圖譜中,知識推理可以是實(shí)體、實(shí)體之間的相互屬性值、實(shí)體之間的關(guān)系等。同時(shí),知識推理還包括了實(shí)體之間的分類、關(guān)系識別、通過對圖的推理,對邏輯的推理等。例如<作者A,發(fā)表者,科研項(xiàng)目>和<作者B,發(fā)表者,科研項(xiàng)目>從而可以推理出<作者A,共同作者,科研項(xiàng)目>。
高校設(shè)計(jì)科研系統(tǒng)功能時(shí),首先滿足的是學(xué)生和教師的信息采集和存儲,師生能夠在平臺上進(jìn)行個(gè)人信息查詢。本文圍繞如何設(shè)計(jì)一個(gè)基于知識圖譜的高校科研系統(tǒng),在師生便捷查詢個(gè)人信息的同時(shí),搜索相關(guān)信息時(shí),也能查看關(guān)聯(lián)信息,同時(shí)一個(gè)成熟的知識圖譜也可以幫助我們更快的查詢出信息。知識圖譜可以分為知識引入、知識構(gòu)建、存儲計(jì)算、知識展現(xiàn)、知識管理等功能。
高校科研系統(tǒng)圖譜的系統(tǒng)功能涵蓋個(gè)人管理、系統(tǒng)配置、數(shù)據(jù)統(tǒng)計(jì)分析等。個(gè)人管理包括個(gè)人中心、收藏、發(fā)布、自定義增刪改查等功能。系統(tǒng)配置可以在角色、用戶等不同領(lǐng)域進(jìn)行配置。數(shù)據(jù)統(tǒng)計(jì)分析則在系統(tǒng)配套的寄出報(bào)表中進(jìn)行展示。
根據(jù)大數(shù)據(jù)源系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù),可以構(gòu)建不同的知識圖譜。首先,本體類型集合可分為【關(guān)鍵詞、學(xué)院、專著、專利、論文、研究機(jī)構(gòu)、人員】,然后構(gòu)建各種實(shí)體的屬性特征,體現(xiàn)實(shí)體與實(shí)體之間的相互關(guān)系。在實(shí)體管理中,可以通過探索實(shí)體名稱,搜索出所屬本體的名稱,生成一個(gè)大數(shù)據(jù)的知識網(wǎng)絡(luò)。從實(shí)體關(guān)系管理角度,實(shí)體與實(shí)體之間存在相互聯(lián)系,每個(gè)實(shí)體可以通過關(guān)系來尋找實(shí)體之間的關(guān)系,也可以通過找出關(guān)系特征詞,探索出實(shí)體與實(shí)體相互的聯(lián)系。
圖譜可視化技術(shù)主要包括了Raphael和particies.is兩種關(guān)鍵技術(shù)。這兩種技術(shù)可以形象地分析、解釋、模擬或者揭示隱藏在數(shù)據(jù)內(nèi)部當(dāng)中的特征與規(guī)律,也可以提高人類對于事物的理解記憶、觀察等方面的能力,用戶能夠更直觀地感受整體概念的形成。
圖譜可視化編輯。圖譜可視化編輯以可視化的方式進(jìn)行圖譜編輯,降低構(gòu)建難度,可進(jìn)行概念、實(shí)體、屬性、關(guān)系、私有屬性、私有關(guān)系的編輯、知識圖譜列表展示、本體、實(shí)體及其關(guān)系展示。
圖譜探索支持針對實(shí)體的檢索與探索,可以結(jié)合用戶需求對檢索結(jié)果進(jìn)行篩選,支持用戶對層數(shù)、實(shí)體個(gè)數(shù)、關(guān)系個(gè)數(shù)進(jìn)行配置;支持知識用戶進(jìn)行知識卡片展示的配置;支持圖片導(dǎo)出。在知識圖譜探索中,可以通過搜索指定的科研方向,探索出相關(guān)聯(lián)的科研人員,還可以通過一個(gè)具體的科研項(xiàng)目,找出共同的項(xiàng)目參與者。
知識圖譜構(gòu)建完成后,適用于各種關(guān)系間的找尋,在人與人之間,通常屬于一對多或多對一的情況,人可以看作是一個(gè)實(shí)體,由很多的屬性特征點(diǎn)相互組成,人的屬性是多種多樣的,可以在知識圖譜上通過一個(gè)具體的屬性點(diǎn),找到人與人之間的關(guān)系,即人的某個(gè)屬性具有相同或者相似的地方,如按照年齡聚合,可分為90后、00后人群等。人與科研成果之間往往存在多對一或者一對一的關(guān)系,科研成果從構(gòu)思到最后實(shí)施成功,通常是多人共同努力的結(jié)果,闡述某個(gè)具體科研成果時(shí),通過一個(gè)關(guān)系的屬性詞,從而找到實(shí)體與實(shí)體之間的關(guān)系,如參與者,則可以展示出一個(gè)具體的網(wǎng)絡(luò)結(jié)構(gòu)圖。在大數(shù)據(jù)與最優(yōu)化知識圖譜的作用下,能快速地找到一個(gè)實(shí)體關(guān)鍵詞下所相關(guān)聯(lián)的東西。在知識圖譜中,運(yùn)用圖譜探索,在一個(gè)已經(jīng)構(gòu)建完成的圖譜中,指定一個(gè)本體屬性,如學(xué)院,再指定一個(gè)具體的實(shí)體名稱,如xx學(xué)院,點(diǎn)擊檢索,則關(guān)于某學(xué)院的所有相關(guān)研究都會(huì)在這個(gè)知識圖譜中展示出來。
運(yùn)用知識圖譜,最為便捷的就是找尋實(shí)體與實(shí)體之間的關(guān)系,探索人與人,人與科研成果的關(guān)系,成果與成果的關(guān)系。通過這些關(guān)系快速查詢需要的數(shù)據(jù),提高效率,解決高??蒲邢到y(tǒng)管理難的問題。
在當(dāng)今形勢下,科研工作在高校發(fā)展中是不可或缺的一部分,因此保證科研系統(tǒng)的高效性是非常重要的。知識圖譜可以創(chuàng)造出高價(jià)值如關(guān)系的表達(dá)能力強(qiáng)、可以模擬人類思考、分析、知識學(xué)習(xí)、反饋等方面。運(yùn)用知識圖譜在高??蒲邢到y(tǒng)中,可以有效解決知識雜糅亂序、對科研數(shù)據(jù)進(jìn)行可視化的展示,科研系統(tǒng)的用戶和管理員也能更加高效地使用系統(tǒng),提升了科研工作的效率和水平。