朱鵬
摘 要:隨著知識(shí)生產(chǎn)速度和規(guī)模的增加,傳統(tǒng)的基于“字符串”的檢索技術(shù)在正確性和擴(kuò)展性方面都存在著嚴(yán)重的不足,且容易造成知識(shí)迷航。文章討論了基于知識(shí)圖譜的知識(shí)導(dǎo)航系統(tǒng)模型,把人的思維模式應(yīng)用到知識(shí)導(dǎo)航中,降低使用者的知識(shí)檢索成本,同時(shí)提升知識(shí)導(dǎo)航的服務(wù)質(zhì)量。
關(guān)鍵詞:知識(shí)圖譜;知識(shí)導(dǎo)航;知識(shí)服務(wù)
在這信息爆炸卻大多無用的世界里,清晰的見解就成了一種力量。知識(shí)導(dǎo)航的方式因知識(shí)管理技術(shù)的發(fā)展而改進(jìn),傳統(tǒng)的信息檢索技術(shù)主要有關(guān)鍵字匹配、目錄分類和概念搜索,都是以“字符串”匹配的方式去檢索信息,以提供最接近的結(jié)果列表[1]。Google于2012年5月推出了知識(shí)圖譜(Knowledge Graph,KG)技術(shù),增強(qiáng)其搜索引擎的搜索結(jié)果,標(biāo)志著大規(guī)模知識(shí)成功應(yīng)用于互聯(lián)網(wǎng)信息的語義搜索。知識(shí)圖譜中表示互聯(lián)網(wǎng)信息的形式更接近人類的認(rèn)知形式,增強(qiáng)了人們對(duì)海量的互聯(lián)網(wǎng)信息的組織、管理和理解能力。知識(shí)圖譜給互聯(lián)網(wǎng)信息的語義搜索帶來了活力,同時(shí)也為提升知識(shí)導(dǎo)航服務(wù)的質(zhì)量和效率提供新的可能。
1 知識(shí)導(dǎo)航服務(wù)的內(nèi)涵
知識(shí)導(dǎo)航起源于知識(shí)管理,可根據(jù)知識(shí)與檢索主題間的語義相關(guān)程度為用戶呈現(xiàn)結(jié)構(gòu)清晰的知識(shí)體系。垂直的知識(shí)分類,實(shí)現(xiàn)基于學(xué)科本體,面向主題的相關(guān)關(guān)系、等級(jí)關(guān)系和等同關(guān)系術(shù)語的展現(xiàn)[2]。為適應(yīng)社會(huì)發(fā)展以及人們的需要,知識(shí)導(dǎo)航服務(wù)的發(fā)展在諸多方面都呈現(xiàn)出以下新的特征:服務(wù)范圍全球化、服務(wù)對(duì)象具體化、服務(wù)方式智慧化、服務(wù)內(nèi)容深層化。
2 基于知識(shí)圖譜的知識(shí)導(dǎo)航服務(wù)系統(tǒng)
知識(shí)圖譜揭示了實(shí)體之間的關(guān)系,實(shí)現(xiàn)了對(duì)現(xiàn)實(shí)世界的事物及其相互關(guān)系進(jìn)行形式化的描述[3]。知識(shí)圖譜的一般表示為G=(E,R,S)。其中E={e1,e2,…,e|E|}表示了客觀世界中的具體事物,是知識(shí)庫(kù)中的實(shí)體集合,共有|E|個(gè)不同實(shí)體;R={r1,r2,…,r|R|}表示知識(shí)庫(kù)中的關(guān)系集合,描述了概念、實(shí)體、事件之間客觀存在的聯(lián)系,共有|R|種不同關(guān)系;SE×R×E表示知識(shí)庫(kù)中的三元組集合。三元組的基本形式主要包括實(shí)體1(E1)、關(guān)系(R)、實(shí)體2(E2)和概念(C)、屬性(P)、屬性值(V)等,知識(shí)圖譜中的基本元素是實(shí)體,不同的實(shí)體間有不同的關(guān)系。概念是指人們?cè)谡J(rèn)識(shí)世界過程中形成的對(duì)客觀事物的概念化表示[4],如交通工具、公司企業(yè)、政府機(jī)關(guān)等。
基于知識(shí)圖譜的知識(shí)導(dǎo)航系統(tǒng)的技術(shù)架構(gòu)如圖1所示,自低向上可以分為數(shù)據(jù)層、知識(shí)圖譜構(gòu)建層和知識(shí)導(dǎo)航應(yīng)用層3個(gè)部分。與傳統(tǒng)技術(shù)相比,應(yīng)用知識(shí)圖譜技術(shù)構(gòu)建的知識(shí)庫(kù)質(zhì)量更高,知識(shí)之間的語義關(guān)系更豐富?;谥R(shí)圖譜的知識(shí)導(dǎo)航可以對(duì)用戶的檢索內(nèi)容進(jìn)行語義推理,精準(zhǔn)分析用戶知識(shí)需求,快速地幫助用戶找到所需的知識(shí)。
2.1 數(shù)據(jù)層
數(shù)據(jù)層主要任務(wù)有語料庫(kù)的存儲(chǔ)、知識(shí)抽取和知識(shí)存儲(chǔ)。語料庫(kù)中有選擇地從互聯(lián)網(wǎng)上采集了大量信息和數(shù)據(jù),并存儲(chǔ)到本地;知識(shí)抽取則是采用自然語言處理技術(shù),從語料庫(kù)中有選擇地抽取出知識(shí)三元組并存儲(chǔ)到數(shù)據(jù)庫(kù)中;數(shù)據(jù)采用非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL)存儲(chǔ)數(shù)據(jù),向上層提供統(tǒng)一接口并完成一系列的數(shù)據(jù)操作任務(wù)。
2.2 知識(shí)圖譜構(gòu)建層
構(gòu)建層負(fù)責(zé)知識(shí)存儲(chǔ)庫(kù)的構(gòu)建和管理。其中圖模式一般表示形式為本體[5],在圖模式的約束下進(jìn)行知識(shí)融合、知識(shí)推理,融合和推理后產(chǎn)生的新知識(shí)通過質(zhì)量評(píng)價(jià)后存儲(chǔ)到知識(shí)庫(kù)中。知識(shí)圖譜構(gòu)建層中向上提供的抽象接口封裝了具體數(shù)據(jù)操作的內(nèi)容,知識(shí)導(dǎo)航程序通過接口進(jìn)行圖的數(shù)據(jù)訪問操作,而保持底層數(shù)據(jù)存儲(chǔ)透明。
2.3 知識(shí)導(dǎo)航應(yīng)用層
知識(shí)導(dǎo)航應(yīng)用層負(fù)責(zé)導(dǎo)航服務(wù)的應(yīng)用實(shí)現(xiàn)。所以知識(shí)查詢引擎通過圖接口中的抽象概念來構(gòu)建計(jì)算和查詢過程,圖算法、查詢語言端點(diǎn)、知識(shí)點(diǎn)搜索也在該層實(shí)現(xiàn)。查詢結(jié)果集返回給可視化引擎進(jìn)行圖譜渲染,然后在圖譜瀏覽界面顯示給用戶。知識(shí)導(dǎo)航服務(wù)平臺(tái)如圖2所示。
對(duì)知識(shí)圖譜來說,我們的搜索對(duì)象是一個(gè)實(shí)在的事物(Things),而不是單純的字符串(String)[6]。知識(shí)查詢引擎可以提供特定查詢模式對(duì)知識(shí)進(jìn)行高效的查詢。例如,斯坦福大學(xué)的Protégé[7],Apache開源項(xiàng)目Jena[8]以及Google的Cayley[9]。查詢引擎采用語義分析技術(shù)分析用戶輸入,理解用戶意圖和需求,查詢并向用戶提供正確的信息。圖譜可視化渲染引擎負(fù)責(zé)創(chuàng)建可視化的圖譜結(jié)構(gòu)的知識(shí)導(dǎo)航界面。當(dāng)用戶點(diǎn)擊某個(gè)知識(shí)點(diǎn)后,與其相關(guān)的知識(shí)將會(huì)被列出,這時(shí)用戶可以從這些知識(shí)中找出自己所需求的知識(shí),點(diǎn)擊相關(guān)鏈接獲得更加詳細(xì)的資源。應(yīng)用可視化的圖結(jié)構(gòu)展示,用戶可高效地獲得核心與邊緣知識(shí)、上下位知識(shí)、綜述和摘要知識(shí)等。
3 結(jié)語
知識(shí)圖譜技術(shù)的潛力很大,其研究了如何從互聯(lián)網(wǎng)中獲取知識(shí),以知識(shí)驅(qū)動(dòng)的語言理解以及可視化的圖結(jié)構(gòu)展示知識(shí)關(guān)系等。把知識(shí)圖譜技術(shù)應(yīng)用到知識(shí)導(dǎo)航系統(tǒng)中,彌補(bǔ)了傳統(tǒng)技術(shù)方案的不足。知識(shí)導(dǎo)航系統(tǒng)通過知識(shí)圖譜來對(duì)知識(shí)內(nèi)容進(jìn)行組織,提供知識(shí)結(jié)構(gòu)的可視化導(dǎo)航。應(yīng)用知識(shí)圖譜進(jìn)行知識(shí)組織與管理,實(shí)現(xiàn)語義的表達(dá)和識(shí)別,并通過邏輯推理機(jī)制,根據(jù)用戶的思維方式實(shí)現(xiàn)知識(shí)導(dǎo)航,把人的思維模式應(yīng)用到知識(shí)導(dǎo)航中,更好地體現(xiàn)人機(jī)交互,同時(shí)借助可視化的導(dǎo)航界面幫助用戶更全面地理解知識(shí)內(nèi)容。在將來的工作中,還可以建立用戶的知識(shí)狀態(tài)模型,構(gòu)建用戶特征分析模塊,以便從個(gè)性化和專業(yè)性等角度來構(gòu)建知識(shí)圖譜,為向用戶提供個(gè)性化導(dǎo)航服務(wù)提供依據(jù)。采用知識(shí)推送策略,根據(jù)用戶的信息需求和興趣愛好,將知識(shí)推送給使用者,這樣可以有效提高知識(shí)的利用率,降低使用者的檢索成本。在進(jìn)行知識(shí)推送時(shí),要十分慎重,既不遺漏重要的知識(shí),又不能使使用者被無用的或者低效的知識(shí)所干擾。
[參考文獻(xiàn)]
[1]HARARI Y N. 21 Lessons for the 21st Century[M].New York:Spiegel & Grau,2018.
[2]盛東方,孫建軍.基于語義搜索引擎的學(xué)科知識(shí)服務(wù)研究—以GoPubMed為例[J].圖書情報(bào)知識(shí),2015(4):113-120.
[3]徐增林,盛泳潘,賀麗榮,等.知識(shí)圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報(bào),2016(4):589-606.
[4]李涓子,侯磊.知識(shí)圖譜研究綜述[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2017(3):454-459.
[5]杜小勇,李曼,王珊.本體學(xué)習(xí)研究綜述[J].軟件學(xué)報(bào),2006(9):1837-1847.
[6]SINGHA A.Introducing the Knowledge Graph: things, not strings[EB/OL].(2018-05-16)[2018-09-20].https://www.blog.google/products/search/introducing-knowledge-graph-things-not/.
[7]RESEARCH SCFB.Protégé[EB/OL].(2017-05-23)[2018-09-20].https://protege.stanford.edu.
[8]FOUNDATIONAS.Apache Jena[EB/OL].(2018-06-07)[2018-09-20].https://jena.apache.org.
[9]CAYLEYGRAPH.Cayley[EB/OL].(2018-01-06)[2018-09-20].https://github.com/cayleygraph/cayley.