曾真 岳陽市高級技工學(xué)校 劉堯 桂林旅游學(xué)院旅游數(shù)據(jù)學(xué)院
知識圖譜構(gòu)建技術(shù)是近幾年來研究比較熱門的話題,知識圖譜(Knowledge Graph)的本質(zhì)就是一種語義網(wǎng)絡(luò),其主要目標(biāo)就是將真實(shí)世界中的各種實(shí)體(Entity)、屬性(property)以及實(shí)體與屬性之間的關(guān)系(Relation)描述出來,知識元素是組件語義檢索系統(tǒng)的基本單位,在漢語體系中,語義之間的邏輯關(guān)系是比較復(fù)雜的,需要結(jié)合上下文結(jié)構(gòu),需要了解當(dāng)時的語境,需要確定具體的歷史時期,這些因素都有可能展示出不同的語義含義和關(guān)系,達(dá)到計(jì)算機(jī)可讀取、好理解以及用戶查詢方便的目的[1]。用戶能通過搜索自己所需的關(guān)鍵詞來獲得相關(guān)更廣泛、更深入的知識信息,大大提高獲取知識的效率,其中語義檢索技術(shù)恰恰就是核心關(guān)鍵所在。接下來,我們了解一下知識圖譜的基本概念。
知識圖譜是21世紀(jì)提出來的,相當(dāng)于將人工智能、大數(shù)據(jù)、數(shù)字化、可視化等相關(guān)技術(shù)進(jìn)行融合后的新概念,它的數(shù)據(jù)形式并不單一,不同的名稱實(shí)體、屬性關(guān)系等數(shù)據(jù)需要從不同的地方去采集,有結(jié)構(gòu)化的,有半結(jié)構(gòu)化的,也有非結(jié)構(gòu)化的,使得互聯(lián)網(wǎng)中的海量無序信息的表達(dá)變成更好組織、管理和理解的數(shù)據(jù)模式,達(dá)到更接近人類思考和認(rèn)知模式[2]。知識圖譜作為一種新型的技術(shù)概念展現(xiàn)在大家面前以來,得到了研究者們廣泛的研究,其中語義檢索就是知識圖譜的研究熱點(diǎn)之一。
知識圖譜構(gòu)建是融合了實(shí)體鏈接、知識可視化、知識分析、關(guān)系提取、語義檢索等相關(guān)技術(shù)。具體如下:
實(shí)體鏈接就是指對用戶查詢時,對其輸入的語句中的實(shí)體進(jìn)行自動識別,并將其與知識圖譜的相應(yīng)節(jié)點(diǎn)進(jìn)行鏈接。主要步驟有兩個,一個是對自然語句中的主語和賓語進(jìn)行實(shí)體識別,主要包括姓名、單位名稱、項(xiàng)目名稱、地方名稱等幾類實(shí)體[3]。另外一個是對自然語句中的實(shí)體關(guān)鍵詞進(jìn)行歧義消除,比方說一語雙關(guān)或一詞多義的問題,主要是要結(jié)合自然語句中的上下文意境來判斷,將自然語句中出現(xiàn)的相關(guān)名稱鏈接到知識圖譜里相應(yīng)的實(shí)體節(jié)點(diǎn)上,充分利用上下文,分析不同含義的實(shí)體出現(xiàn)在該處的概率,已到達(dá)精準(zhǔn)鏈接的目的。
知識可視化是指把現(xiàn)實(shí)世界中所關(guān)心主體知識和客體知識進(jìn)行抽象描述,并將其關(guān)聯(lián)起來,知識可視化需要通過計(jì)算機(jī)數(shù)字化后,實(shí)現(xiàn)計(jì)算機(jī)可識別、分析的數(shù)據(jù),再結(jié)合機(jī)器學(xué)習(xí)模式,不斷進(jìn)行數(shù)據(jù)修正,以達(dá)到人類識別和理解知識的常規(guī)模式。
知識分析是指通過智能系統(tǒng)來實(shí)現(xiàn)推理的程序,通過機(jī)器學(xué)習(xí)模式,并設(shè)置合理的邏輯關(guān)系的規(guī)則,讓系統(tǒng)按照設(shè)定好的邏輯關(guān)系規(guī)則去搜索知識庫里的信息,然后進(jìn)行數(shù)據(jù)匹配,產(chǎn)生或論證出新的知識。知識分析的關(guān)鍵就是對知識之間的邏輯關(guān)系,潛在的語境進(jìn)行甄別,判斷出最合理的語義關(guān)系,得到用戶預(yù)期的需求。
在當(dāng)前信息爆炸、海量數(shù)據(jù)充斥互聯(lián)網(wǎng)的時代背景下,信息抽取工作就顯得格外重要。關(guān)系提取顧名思義,就是在語句結(jié)構(gòu)中,試圖用計(jì)算機(jī)的語言區(qū)識別文字體系中的邏輯關(guān)系,主要是從海量的非結(jié)構(gòu)和半結(jié)構(gòu)的數(shù)據(jù)信息中,提取出與用戶檢索相關(guān)的內(nèi)容,再通過計(jì)算機(jī)的處理,將這些不夠結(jié)構(gòu)化的數(shù)據(jù)變成結(jié)構(gòu)化的數(shù)據(jù),提高后期的檢索效率,使得這些信息能夠成為計(jì)算機(jī)可識別和使用的格式。關(guān)系提取主要分兩個步驟,一個是從文本內(nèi)容中判斷實(shí)體是否有關(guān)聯(lián),另一個就是抽取到與之有關(guān)系的實(shí)體之間的關(guān)系是哪一種屬性[6]。
語義檢索顧名思義就是針對中文語句中的文字含義用計(jì)算機(jī)搜索的方式來進(jìn)行操作的事情,在知識圖譜中找到對應(yīng)的實(shí)體、概念、屬性和聯(lián)系,搜索結(jié)果以結(jié)構(gòu)化信息內(nèi)容展示在用戶面前,直接滿足用戶關(guān)聯(lián)信息需求,而不是一個個獨(dú)立的互聯(lián)網(wǎng)網(wǎng)頁[7]。
語義檢索技術(shù)是知識圖譜構(gòu)建中非常重要的一環(huán),它能改善當(dāng)前搜索引擎的搜索效果,不再刻板的研究和分析用戶搜索時所輸入關(guān)鍵詞的字面意思,而是通過關(guān)聯(lián)分析,能準(zhǔn)確地挖掘到用戶所要找尋的具體內(nèi)容和可能需要但并沒有及時想起來的信息,達(dá)到一種精準(zhǔn)提醒和引導(dǎo)的作用,輔助用戶找到自己更喜歡的內(nèi)容[7]。所以說,在知識圖譜技術(shù)領(lǐng)域里,語義檢索技術(shù)是相當(dāng)重要的一環(huán),也是未來互聯(lián)網(wǎng)研究熱門之一。
說起語義檢索,就不得不提到語義網(wǎng),它是在Web 3.0這一概念中誕生的,說白了就是希望通過人工智能來進(jìn)行表達(dá)的一種網(wǎng)絡(luò)。它不再是簡單的識別詞語和概念的表面含義,關(guān)鍵是能夠?qū)?shí)體之間的邏輯語句進(jìn)行甄別、判讀、推理、學(xué)習(xí)和互動,以達(dá)到更高效、更精準(zhǔn)的信息交流,使得用戶在網(wǎng)絡(luò)上獲得更有價值的數(shù)據(jù)信息[8]。
語義網(wǎng)不同于現(xiàn)在普通的網(wǎng)頁,常規(guī)的網(wǎng)頁更多的是靜態(tài)信息的展示和呈現(xiàn),數(shù)據(jù)沒有變換,而語義網(wǎng)中提供的數(shù)據(jù)主要都是針對可以編輯的動態(tài)數(shù)據(jù),用戶能夠?qū)?shù)據(jù)進(jìn)行更改和編輯,并且可以成為機(jī)器硬件可讀取的數(shù)據(jù),能夠讓計(jì)算機(jī)進(jìn)行邏輯運(yùn)算和處理,以給出用戶能夠理解的結(jié)果出來。
語義關(guān)系是語言詞匯之間的存在某種意義上的關(guān)系,如聚合關(guān)系、組合關(guān)系和邏輯關(guān)系等。在中文語句中,不同的語氣、停頓都能產(chǎn)生不同的意思和理解,這就導(dǎo)致了一句話的語義關(guān)系需要結(jié)合上下文的結(jié)構(gòu)來理解。如:①我不想吃了,②米飯不想吃了,③蝦不想吃了。
這三例句法關(guān)系都一樣,都是主謂關(guān)系。但其背后隱藏的語義關(guān)系是比較復(fù)雜的,打個比方說,小明爬過岳麓山?jīng)]有?這里就有兩個意思,一層意思是小明以前去爬過岳麓山,有沒有爬到山頂并不確定,另一層意思是,小明從岳麓山山頂爬過去,明確是到過岳麓山山頂?shù)摹K哉f這句話不同的人就有不同的理解,是有歧義的。中文的語義存在多種含義聯(lián)系,需要結(jié)合當(dāng)前語境才能獲得比較準(zhǔn)確的理解,只有把多種理解的語義之間的聯(lián)系建立成計(jì)算機(jī)模型,才可以更為合理和精確的解釋負(fù)責(zé)的中文語法結(jié)構(gòu)。
何為語義模型?簡而言之,就是針對語義概念用計(jì)算機(jī)的手段建立的模型,模型能夠給出詞的語義,例如判斷這個詞是地名、日期、書籍、歌曲等等。語義相似度是在語義檢索中最重要的也最難解決的問題,傳統(tǒng)的文本相似性有時無法有效發(fā)現(xiàn)語義類檢索-解答結(jié)果對,如:①存在輸入錯誤。例如輸入的錯誤檢索“稻城雅丁”(稻城亞丁),對于這種錯誤我們希望系統(tǒng)能夠自動的糾錯;②存在表達(dá)冗余。例如輸入“三國志智慧的現(xiàn)實(shí)意義”,在這個語境下,“智慧”是一個無關(guān)緊要的詞。如果強(qiáng)制去匹配“智慧”的話,反而匹配不出真正想要的結(jié)果;③存在語義鴻溝。比如“皮鞋消音”,其中“消音”這個詞的與:“皮鞋”在一起的表達(dá)比較少見,使得同時包含“皮鞋”和“消音”文檔較少。而類似的表達(dá)如“皮鞋走路聲音大如何消除”等可能較多。用戶輸入的檢索和用戶生產(chǎn)內(nèi)容之間存在了語義鴻溝;還有其他類型表達(dá)不完整,意圖不明等等的相似性。檢索和解答就相當(dāng)于鑰匙和鎖之間的關(guān)系,它們之間的關(guān)聯(lián)分析可以很高的幫助語義檢索結(jié)果排序[9]。
語義檢索的基礎(chǔ)是需要在數(shù)據(jù)語義知識庫中進(jìn)行,這個知識庫的建立重點(diǎn)在于將真實(shí)世界中的概念或?qū)ο筮M(jìn)行數(shù)字化,形成數(shù)據(jù)語義,實(shí)現(xiàn)數(shù)據(jù)語義與現(xiàn)實(shí)語言聯(lián)系起來。如果從未使用過計(jì)算機(jī)數(shù)據(jù)庫的人試圖從中提取信息,則用于訪問數(shù)據(jù)庫的單詞和短語是沒有意義的[10]。語義檢索是智能化搜索服務(wù)的前提,探索文本信息數(shù)據(jù)語義化,實(shí)現(xiàn)文本信息從基本機(jī)器可讀逐漸向計(jì)算機(jī)可理解、可計(jì)算、可推理的方向邁進(jìn),是語義檢索有效性的保證。
綜上所述,語義檢索在知識圖譜技術(shù)領(lǐng)域中占有非常重要的一環(huán),使用者能通過輸入關(guān)鍵詞就能實(shí)現(xiàn)自己個性化信息需求,語義檢索起到了至關(guān)重要的作用,也是知識圖譜構(gòu)建的關(guān)鍵所在。本文從語義網(wǎng)的概念、語義關(guān)系、語義模型和數(shù)據(jù)語義等方面來論述語義檢索技術(shù)的優(yōu)勢、要領(lǐng)、基礎(chǔ)和核心需求,為智能化搜索服務(wù)提供一定的參考。