文/陳珺
隨著各國政府對知識庫的日益重視和大力推動,涌現(xiàn)了大量公共組織探索基于開放數(shù)據(jù)的知識庫構建。其中,具有代表性的是開放鏈接數(shù)據(jù)(LOD)項目,其采用RDF 形式在 Web 上發(fā)布各種開放的數(shù)據(jù)集,通過來自不同數(shù)據(jù)源的數(shù)據(jù)項之間設置 RDF 鏈接,將不同本體知知識庫所使用的語義鏈接互相關聯(lián),達到最大程度的全球化知識共享。此外,作為在線關聯(lián)數(shù)據(jù)知識庫項目,DBPedia從維基百科的詞條中抽取結構化數(shù)據(jù),以提供更準確和直接的維基百科搜索,并在其他數(shù)據(jù)集和維基百科之間創(chuàng)建連接,提供跨語言、跨領域的大規(guī)模世界知識。
在企業(yè)工程領域,Google、百度、捜狗等也紛紛投身于大規(guī)模本體知識庫的研究中。比較著名的有 “Knowledge Graph”(Google)、“知心”(百度)以及“知立方”(捜狗)等。其通過整合海量的互聯(lián)網(wǎng)碎片化信息,并將基于圍繞關鍵字的捜索結果知識方式聚合在一起,形成知識集群,對搜索結果進行重新優(yōu)化計算,將最核心的信息展現(xiàn)給用戶。
隨著公共知識庫的開放,眾多旨在將知識庫應用在不同業(yè)務領域的領域知識庫研究也逐漸開展。比如基于案例推理的知識庫系統(tǒng)對相關案例的知識進行提取整理,能夠為用戶輸入的問題推薦相似方案與可參考內(nèi)容?;诒倔w的專題域知識庫系統(tǒng)通過對專題業(yè)務資料進行數(shù)字化語義處理,并按照本體論思想進行分類標注,實現(xiàn)該業(yè)務領域研究的知識集成、知識共享、知識發(fā)現(xiàn)和知識重用。
在媒體領域,相關知識庫技術及應用的研究早已開展,并取得了一定的成果。如下是一種知識庫體系的總體設計框架,由基礎設施層、數(shù)據(jù)資源層、關鍵技術層、系統(tǒng)功能層四層組成。
圖1 知識庫系統(tǒng)總體架構圖
基礎環(huán)境層主要提供各種所需的計算資源、存儲資源、網(wǎng)絡資源以及在此基礎上搭建起來的大數(shù)據(jù)基礎應用。通過提供關系型數(shù)據(jù)庫、文檔知識存儲數(shù)據(jù)庫、消息隊列和緩存等各種存儲形式,實現(xiàn)將不同類型的數(shù)據(jù)按照其自身特點和業(yè)務需求進行分類存儲,從而滿足系統(tǒng)實時性需求以及系統(tǒng)的分布式響應架構。
數(shù)據(jù)資源層主要從業(yè)務層面提供各種與上層功能相關的各類數(shù)據(jù)資源的規(guī)范存儲功能,并提供系統(tǒng)必需的如消息隊列、緩存資源等系統(tǒng)數(shù)據(jù)的統(tǒng)一存儲。
關鍵技術層提供實現(xiàn)系統(tǒng)所需的核心支撐技術系統(tǒng),提供知識描述與獲取、知識圖譜、知識庫構建與分析研判等關鍵技術。
功能層主要提供面向業(yè)務人員的數(shù)據(jù)分析與展示功能,以及面向標注人員的人機交互界面。構建重點媒體知識庫、重點人物知識庫、重點事件知識庫、業(yè)務關鍵詞知識庫、業(yè)務知識百科庫五大知識庫。每個知識庫將實現(xiàn)統(tǒng)一的知識描述方式、分類與組織體系、評價指標體系,最大化兼容現(xiàn)有知識庫和功能模塊。每個知識庫具有知識提取、標注、評估和維護等功能,同時面向標注人員建立評價體系。
基于五大知識庫構建相關分析研判功能,包括知識聯(lián)想與推演、實現(xiàn)業(yè)務統(tǒng)計與分析功能。對重要事件進行地域分布、時間周期、人物分布、規(guī)律挖掘、趨勢預判等分析。
知識庫構建關鍵技術主要包括:知識表示、知識獲取、知識圖譜、知識持久化和知識評價等幾個方面。
知識表示是知識獲取與應用的基礎,目前最常用的是基于本體的知識表示方法。本體是對領域實體存在本質的抽象,它強調(diào)實體間的關聯(lián),并通過多種知識表示元素將這些關聯(lián)表達和反映出來,這些知識表示元素也被稱為原本體,主要包括:(1)概念;(2)屬性;(3)關系;(4)函數(shù);(5)公理;(6)實例。總的來說,構造本體的目的是為了實現(xiàn)某種程度的知識共享和重用:(1)本體分析澄清了領域知識的結構,從而為知識表示打好基礎。本體可以重用,從而避免重復的領域知識分析。(2)統(tǒng)一的術語和概念使知識共享成為可能。
根據(jù)知識來源數(shù)據(jù)類型的不同,對知識進行分類,形成重要媒體、重要人物、重要事件、業(yè)務關鍵詞、業(yè)務知識百科五大類別的知識庫,每一類知識庫可進一步詳細分類。采用知識樹的方法對知識進行組織,在每一層中,知識節(jié)點與其相鄰常點在粒度上保持一致。層次越高,粒度越大;層次越低,粒度越小。系統(tǒng)根據(jù)用戶業(yè)務經(jīng)驗針對每一類知識設置對應的樹形知識體系。用戶可對該體系進行編輯,添加或刪除節(jié)點,并可對節(jié)點名稱進行重置。
知識評價體系是對已有知識質量評估的制度,擬從完整度、有效性和相關度三個方面進行評價。知識的完整性由系統(tǒng)根據(jù)知識條目屬性填充的完整性直接計算得出,完整性計算規(guī)則為:權重*得分。需與業(yè)務人員共同商議確定不同類別知識屬性的權重值及分值,基于此給出每一個知識條目完整度百分比。知識的有效性是由系統(tǒng)與業(yè)務人員交互得到。業(yè)務人員查看某一知識條目時,可以對該知識的有用性進行評價,點擊“有用”或“無用”按鈕,系統(tǒng)會實時顯示每一知識條目的有用性數(shù)量分布情況。相關性與有用性相似,由業(yè)務人員評價某一知識條目是否與業(yè)務相關,指定相關值。若有多人對統(tǒng)一知識條目進行相關性評價時,采用平均值進行顯示。
知識獲取包括:知識提取、知識標注和知識維護等技術。
構建知識庫的過程,即是從結構化和非結構化的數(shù)據(jù)資源中提取知識的過程。結構化知識獲取指從特定格式的數(shù)據(jù),例如結構化數(shù)據(jù)庫記錄、HTML、XML等含有標簽的半結構化數(shù)據(jù)中進行解析,從而獲得多個知識實體及其詳細屬性,以及知識實體間存在的關聯(lián)關系。非結構化知識獲取指對導入的文本類材料提取文檔中提及的實體與關系、要素關鍵詞與文檔摘要等,通過自動識別抽取內(nèi)容的類別將其存儲到不同的知識條目集合中。支持的格式包括TXT、Word、Excel、PDF等多種形式。
系統(tǒng)支持人工對知識庫的詞條進行標注與維護,知識標注可采用眾包方式。標注人員可通過右鍵選中某實體對其進行標注,標注的知識在多個數(shù)據(jù)源中互聯(lián)互通。若待標注的知識已存在于知識庫中,則智能提示補全,節(jié)約標注時間,提高標注效率,保證標注的統(tǒng)一性。同時,針對每個知識實體,以可視化的形式對與該實體存在直接關系的關聯(lián)實體進行展示,并支持對該實體的關聯(lián)實體及關聯(lián)關系的可視化編輯。
支持多個用戶對知識實體的協(xié)同工作,用戶修改實體屬性后,提交修改時如果數(shù)據(jù)庫中版本與用戶修改前版本不一致,系統(tǒng)提醒用戶可能產(chǎn)生沖突。用戶需獲取新版本,并在此基礎上進行修改與提交,以保持一致性。
知識圖譜將研究知識的關聯(lián)、聯(lián)想與推演方法,實現(xiàn)知識推演和研判等應用模式。
知識關聯(lián)分析對知識庫實體間的關聯(lián)關系進行挖掘與展示,以網(wǎng)絡圖譜的形式在離散的知識節(jié)點之間建立關聯(lián)關系,當點擊關聯(lián)圖中的某一節(jié)點時顯示關于該節(jié)點的詳細信息。系統(tǒng)中的知識關聯(lián)不僅支持同類別的知識實體聯(lián)系,同樣支持重點人物、歷史事件、業(yè)務關鍵詞、業(yè)務知識百科等跨通道知識實體的關聯(lián)。
知識聯(lián)想是為了提高業(yè)務人員在使用知識庫過程中的知識檢索效率而提出的。目前,大多數(shù)的信息檢索采用全文檢索技術,檢索策略均建立在對于關鍵詞的詞頻統(tǒng)計學規(guī)律上。基于知識聯(lián)想的檢索根據(jù)用戶搜索內(nèi)容推薦與該詞語義相近的知識條目,為用戶提供備選項。
知識推演將根據(jù)知識關聯(lián)圖譜中已有的知識,推出新的、未知的知識,以提高知識的完備性,擴大知識的覆蓋面,比如同類型知識搜索、關系預測等業(yè)務場景。
知識持久化技術的目的是將構建出的知識庫進行持久化存儲。目前,知識圖譜中的數(shù)據(jù)主要采用基于語義的XML文檔規(guī)范、結構化數(shù)據(jù)庫等存儲手段進行持久化存儲。上述存儲手段在進行大規(guī)模知識子圖查詢的過程中,無法在線性時間內(nèi)實現(xiàn)知識的快速查詢。為了加快查詢速度,現(xiàn)有查詢算法普遍采用圖索引技術,但是知識圖譜的數(shù)據(jù)規(guī)模大,為其建立圖索引需耗費大量的時間和空間開銷,從而導致用戶難以快速獲取滿意的查詢結果。針對以上特征,我們采用基于圖結構(Graph)存儲的知識持久化方案,實現(xiàn)快速高效的知識圖譜存儲與查詢。在分布式圖數(shù)據(jù)處理平臺的基礎上,采用新型的知識圖譜查詢模型、算法和計算平臺分別從知識圖譜查詢模型、分布式查詢算法、分布式查詢執(zhí)行優(yōu)化三個方面對知識進行持久化,并提供快速高效的新型分布式查詢技術。
基于上述構建的重點媒體知識庫、重點人物知識庫、重點事件知識庫、業(yè)務關鍵詞知識庫、業(yè)務知識百科庫等幾大知識庫體系,除能夠直接提供相關知識的檢索和推薦外,還能夠提供知識聯(lián)想與推演、啟發(fā)式搜索、個性化推薦、選題深度策劃、事件深度分析、趨勢預測、機器閱讀、機器寫作等多種豐富的分析應用功能,可應用于各種新聞生產(chǎn)應用場景。
對于采編人員或信息分析員而言,很多時候對想要搜索的信息并不是非常確定,因此會先設定一個大致的分析目標,從海量信息中初篩,然后從初篩結果中再調(diào)整關鍵詞進一步搜尋更精準的內(nèi)容,在這個過程中,通過業(yè)務領域知識之間的關聯(lián)關系,可以通過知識聯(lián)想進行相關知識推薦,從而幫助用戶從點到面逐步進行信息的關聯(lián)分析和深度挖掘,支持這種探索方式的搜索我們可以叫作啟發(fā)式搜索。比如圍繞搜索飛機失事,將相關聯(lián)信息進行推薦,如飛機失事的歷年歷史事件追蹤、發(fā)動機、航空航天、相關制造公司、相關金融股票信息等,通過對大數(shù)據(jù)基于業(yè)務知識關聯(lián)性的探索,得到更為廣泛的分析角度,從而挖掘出更高附加值的信息,加大深度報道產(chǎn)品在社會生活、政治、產(chǎn)業(yè)、金融等各個領域的服務價值。
在采編人員針對一個或一組選題進行策劃的時候,只推薦出描述上相似的內(nèi)容很多時候是遠遠不夠的,用戶更希望能夠挖掘出選題全新的角度,通過從業(yè)務領域之間的知識關聯(lián)上給予知識聯(lián)想和推薦,這對于一個深度報道、數(shù)據(jù)新聞和智庫咨詢的策劃是更具有價值的。比如針對霧霾的報道,如果能夠超出霧霾本身,挖掘分析霧霾關聯(lián)的中國能源消耗結構、產(chǎn)業(yè)結構和布局,以及拓展到歷年國內(nèi)各項宏觀調(diào)控政策的影響甚至到海外能源期貨大宗市場交易情況等,將會大大提升這類報道內(nèi)容挖掘分析的廣度和深度,提供其他簡單同質化報道所不具有的全面性和創(chuàng)新性,從而大大提升媒體報道產(chǎn)品的專業(yè)化水平和公眾影響力。
利用媒體行業(yè)多維度標簽體系,為海量新聞事件進行多維度知識標引,實現(xiàn)具有共指關系新聞內(nèi)容的專題聚合,基于知識驅動進行各種維度的深入分析,包括事件發(fā)生地點、發(fā)生時間、事件發(fā)生主體、事件相關主體、事件同源關系、事件因果關系、事件時空關系、事件首發(fā)媒體、事件涉及的相關政策法規(guī),跟蹤事件發(fā)展過程中每天的子話題演變過程,并分析國內(nèi)外重要人物、重要媒體、重要機構關于該事件所發(fā)表的觀點評述。
趨勢預測提供在未來可能發(fā)生的重點事件以及可能發(fā)生的概率。根據(jù)具體業(yè)務需求,可包括未來發(fā)生事件預測、關鍵詞熱度趨勢預測、敏感事件信息預測。未來發(fā)生事件預測顯示未來指定時間段內(nèi)可能發(fā)生的事件及相關信息和發(fā)生概率等;關鍵詞熱度趨勢顯示與該事件相關的關鍵詞在指定時間段內(nèi)的變化趨勢;敏感事件預測可提供在未來可能發(fā)生的敏感事件及相關信息;用戶可自定義時間段來對指定時間段內(nèi)的趨勢進行預測。
機器閱讀指用機器自動化完成以前需要人來閱讀理解的過程。機器閱讀目前比較常見的任務形式是人工合成問答、實體補全和備選答案預測。人工合成問答是經(jīng)業(yè)務人員事先構造好由若干簡單事實形成的語料以及相對應的問題,由機器閱讀理解文章內(nèi)容并進行一定的推理,從而得出正確答案;實體補全是在機器閱讀并理解語料后,對機器提出相關問題,而問題往往是文章中抽掉實體詞的句子,機器回答問題的過程就是預測問題句子中被抽掉的實體詞;備選答案預測是機器依據(jù)文章、文章的相應問題及候選答案,經(jīng)過理解和推理,在候選答案中預測出正確答案。通過建立標準化的實體標簽,構建知識圖譜和領域知識庫,能夠較好地支持機器閱讀上述相關功能的實現(xiàn)。
機器寫作是一種內(nèi)容生產(chǎn)的自動化趨勢,即基于算法的內(nèi)容生產(chǎn)和編輯的過程。計算機可根據(jù)給定的特定主題,基于特定的算法在已有的備選材料庫中選擇待組合的內(nèi)容,通過獲取數(shù)據(jù)、分析數(shù)據(jù)、提煉觀點后以某種特定的格式自動生成內(nèi)容。
在上述獲取數(shù)據(jù)和分析數(shù)據(jù)階段,知識庫可以提供機器獲取到的特定主題相關的數(shù)據(jù)以及資料中所提及的與知識庫中的知識條目相關的內(nèi)容信息,用于支撐機器寫作過程中的前期數(shù)據(jù)支撐,同時,能夠基于已知的歷史知識對其寫作結果內(nèi)容進行豐富。在提煉觀點的過程中,知識庫的知識條目標簽還可以為觀點提煉提供基礎數(shù)據(jù)支撐,提高對數(shù)據(jù)中重要觀點的提煉效果。