霍珊
摘要
在網(wǎng)絡(luò)信息時(shí)代到來(lái)的今天,大數(shù)據(jù)技術(shù)在諸多領(lǐng)域中得到越來(lái)越廣泛的應(yīng)用,知識(shí)工程也隨之獲得人們的關(guān)注。對(duì)大數(shù)據(jù)進(jìn)行分析的一個(gè)重要前提是從海量數(shù)據(jù)中提出有利用價(jià)值的信息,知識(shí)圖譜的出現(xiàn)為這一問(wèn)題的解決提供了有利條件?;诖它c(diǎn),本文從知識(shí)圖譜及其特點(diǎn)分析入手,論述了知識(shí)圖譜實(shí)現(xiàn)的技術(shù)流程。
【關(guān)鍵詞】知識(shí)圖譜 實(shí)現(xiàn) 技術(shù)流程
1 知識(shí)圖譜及其特點(diǎn)分析
知識(shí)圖譜是一個(gè)全新的概念,它是由全球最大的搜索引擎公司谷歌于2012正式提出的,這一概念的提出為搜索引擎智能化奠定了堅(jiān)實(shí)的基礎(chǔ)。知識(shí)圖譜將多種學(xué)科理論與技術(shù)方法相結(jié)合,將具有復(fù)雜性的知識(shí)領(lǐng)域以圖形繪制的形式顯示出來(lái),最終目的是對(duì)知識(shí)領(lǐng)域的動(dòng)態(tài)發(fā)展規(guī)律進(jìn)行揭示,為學(xué)科研究提供有價(jià)值的參考依據(jù)。知識(shí)圖譜的特點(diǎn)體現(xiàn)在如下幾個(gè)方面:
(1)當(dāng)用戶對(duì)某個(gè)知識(shí)領(lǐng)域搜索的次數(shù)越多,查詢的范圍越廣,谷歌便可從中獲取到更多的信息;
(2)知識(shí)圖譜能夠賦予字串全新的意義;
(3)知識(shí)圖譜融合了大量的學(xué)科,保證了用戶對(duì)某個(gè)知識(shí)領(lǐng)域搜索時(shí)的連貫性;
(4)知識(shí)圖譜能夠?yàn)橛脩粽业礁鼮闇?zhǔn)確的信息,通過(guò)總結(jié)可以使提供的信息內(nèi)容更有深度;
(5)知識(shí)圖譜可將與關(guān)鍵詞有關(guān)的知識(shí)體系完整地呈現(xiàn)給用戶。
2 知識(shí)圖譜實(shí)現(xiàn)的技術(shù)流程
知識(shí)圖譜實(shí)現(xiàn)的技術(shù)流程如圖1所示。
2.1 信息抽取的關(guān)鍵技術(shù)
在知識(shí)圖譜的實(shí)現(xiàn)流程中,信息抽取是最為重要的前提和基礎(chǔ),也是整個(gè)流程中的關(guān)鍵步驟,對(duì)后續(xù)流程的實(shí)現(xiàn)具有直接影響,從異構(gòu)數(shù)據(jù)源中抽取構(gòu)建知識(shí)圖譜所需的信息是該環(huán)節(jié)的重點(diǎn)內(nèi)容,具體可以通過(guò)如下技術(shù)予以實(shí)現(xiàn):
2.1.1 NER技術(shù)
NER即實(shí)體識(shí)別技術(shù),也被稱之為實(shí)體抽取,它可以從文本數(shù)據(jù)集當(dāng)中,對(duì)命名的實(shí)體進(jìn)行自動(dòng)識(shí)別。在實(shí)體識(shí)別過(guò)程中,抽取的實(shí)體準(zhǔn)確率對(duì)知識(shí)的獲取效率及質(zhì)量具有一定的影響。目前,較為常用的實(shí)體抽取方法有以下幾種:基于規(guī)則、基于統(tǒng)計(jì)機(jī)器、面向開(kāi)放域。在上述三種方法中,基于規(guī)則的實(shí)體抽取,需要依賴于大量的模板,總體的覆蓋范圍相對(duì)較小,當(dāng)數(shù)據(jù)出現(xiàn)變化時(shí),無(wú)法滿足新的抽取需求;基于統(tǒng)計(jì)機(jī)器的實(shí)體抽取準(zhǔn)確率約為70%;面向開(kāi)放域是以已知的實(shí)體語(yǔ)義特征,對(duì)命名的實(shí)體進(jìn)行大范圍搜索,再以聚類算法進(jìn)行聚類,由此可進(jìn)一步提升實(shí)體抽取的準(zhǔn)確率。
2.1.2 關(guān)系抽取技術(shù)
對(duì)于不同的實(shí)體而言,存在著語(yǔ)義鏈接的問(wèn)題,通過(guò)關(guān)系抽取技術(shù)能夠使這一問(wèn)題得到有效的解決。目前,常用的關(guān)系抽取方法有以下幾種:基于開(kāi)放式實(shí)體、基于聯(lián)合推理等。在基于開(kāi)放式實(shí)體的關(guān)系抽取中,OLLIE在抽取結(jié)果的準(zhǔn)確性方面效果最佳;基于聯(lián)合推理的關(guān)系抽取中,MLN是最為經(jīng)典的一種方法,其能夠自動(dòng)生成抽取器,在確保準(zhǔn)確率的基礎(chǔ)上,還能大幅度提升召回率。
2.1.3 屬性抽取技術(shù)
該技術(shù)針對(duì)的主要對(duì)象為實(shí)體,借助相關(guān)的屬性能夠?qū)?shí)體進(jìn)行完整地勾畫(huà)。在屬性抽取中,較為常用的方法有基于啟發(fā)式算法,它的抽取準(zhǔn)確率較高,通常能夠達(dá)到95%以上。
2.2 知識(shí)融合的關(guān)鍵技術(shù)
通過(guò)信息抽取得到的結(jié)果中存在一定的錯(cuò)誤信息,并且數(shù)據(jù)與數(shù)據(jù)之間的邏輯性略顯不足,所以需要對(duì)抽取到的信息進(jìn)行整合處理。知識(shí)融合由兩個(gè)部分組成,一部分是鏈接,另一部是合并,經(jīng)過(guò)融合以后,可將錯(cuò)誤的信息從結(jié)果中剔除掉。
2.2.1 實(shí)體鏈接
這是一種將抽取到的實(shí)體與知識(shí)庫(kù)中對(duì)應(yīng)的正確實(shí)體對(duì)象進(jìn)行鏈接的操作過(guò)程,其中的核心技術(shù)為相似度計(jì)算。當(dāng)存在同名實(shí)體時(shí),會(huì)產(chǎn)生歧義的問(wèn)題,此時(shí)可以運(yùn)用實(shí)體消歧技術(shù)進(jìn)行處理,即按當(dāng)前的語(yǔ)境,通過(guò)聚類的方法建立準(zhǔn)確的實(shí)體鏈接。該技術(shù)的應(yīng)用可以使搜索引擎對(duì)用戶的搜索意圖進(jìn)行更加準(zhǔn)確的理解,給出更符合要求的結(jié)果,有助于搜索質(zhì)量的提升。
2.2.2 知識(shí)合并
對(duì)知識(shí)圖譜進(jìn)行構(gòu)建的過(guò)程中,需要對(duì)外部知識(shí)庫(kù)和關(guān)系數(shù)據(jù)庫(kù)進(jìn)行合并處理,在對(duì)外部知識(shí)庫(kù)進(jìn)行本地融合時(shí),主要是對(duì)數(shù)據(jù)層和模式層的融合,可以應(yīng)用LDIF(開(kāi)放數(shù)據(jù)集成框架)。而對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行合并時(shí),則可應(yīng)用RDF(資源描述框架)。
2.3 知識(shí)加工的關(guān)鍵技術(shù)
知識(shí)加工的主要作用是獲得結(jié)構(gòu)化的知識(shí)體系,加工過(guò)程涉及三個(gè)方面的內(nèi)容,即構(gòu)建本體,對(duì)知識(shí)進(jìn)行推理,對(duì)加工質(zhì)量進(jìn)行評(píng)估。在對(duì)本體進(jìn)行構(gòu)建時(shí),可以借助計(jì)算機(jī)和相關(guān)的編輯軟件來(lái)完成;知識(shí)推理的常用方法有兩種,一種是基于邏輯,另一種是基于圖,當(dāng)實(shí)體關(guān)系較為復(fù)雜時(shí),可通過(guò)描述進(jìn)行推理;質(zhì)量評(píng)估是確保知識(shí)庫(kù)質(zhì)量的關(guān)鍵環(huán)節(jié),采用可信度修正的方法,能夠降低判斷信息正確或錯(cuò)誤的不確定性,從而確保了知識(shí)的質(zhì)量。
2.4 知識(shí)更新的關(guān)鍵技術(shù)
信息與知識(shí)量會(huì)隨著時(shí)間的推移而不斷增長(zhǎng),為使知識(shí)圖譜能夠始終滿足用戶的使用需要,就必須對(duì)其中的知識(shí)進(jìn)行更新。在對(duì)知識(shí)庫(kù)進(jìn)行更新的過(guò)程中,涉及兩個(gè)方面的內(nèi)容,即概念層和數(shù)據(jù)層,可以借助百科類網(wǎng)站中的數(shù)據(jù)資源,將其中出現(xiàn)頻率較高的數(shù)據(jù)加入到知識(shí)庫(kù)當(dāng)中,并由專業(yè)團(tuán)隊(duì)對(duì)更新的內(nèi)容進(jìn)行審核,將不符合要求內(nèi)容去除掉。
3 結(jié)論
綜上所述,知識(shí)圖譜作為一個(gè)涵蓋海量數(shù)據(jù)信息的知識(shí)庫(kù),其可以為智能搜索提供強(qiáng)有力的支撐,由此為多個(gè)學(xué)科領(lǐng)域的深入研究帶來(lái)了機(jī)會(huì)。從知識(shí)圖譜出現(xiàn)至今,雖然只有短短幾年的時(shí)間,但卻使其成為業(yè)內(nèi)專家學(xué)者研究的重點(diǎn),這為知識(shí)圖譜的構(gòu)建與應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。
參考文獻(xiàn)
[1]周麗娜,馬志強(qiáng).基于知識(shí)圖譜的網(wǎng)絡(luò)信息體系智能參考架構(gòu)設(shè)計(jì)[J].中國(guó)電子科學(xué)研究院學(xué)報(bào),2018(08):78-79.
[2]郭琳面向Web數(shù)據(jù)的知識(shí)圖譜學(xué)習(xí)與推理關(guān)鍵技術(shù)研究[D].西安郵電大學(xué),2018.
[3]張兆鋒,張均勝,姚長(zhǎng)青.一種基于知識(shí)圖譜的技術(shù)功效圖自動(dòng)構(gòu)建方法[J].情報(bào)理論與實(shí)踐,2017(11):121-122.