◆武鴻浩
公安領(lǐng)域中知識(shí)圖譜的構(gòu)建與應(yīng)用研究
◆武鴻浩
(北京警察學(xué)院 北京 102202)
公安機(jī)關(guān)圍繞保衛(wèi)政權(quán)穩(wěn)定、維護(hù)社會(huì)治安、打擊違法犯罪三大任務(wù)而產(chǎn)生的各種信息系統(tǒng)積累了大量的數(shù)據(jù)資源,對(duì)公安內(nèi)網(wǎng)資源和互聯(lián)網(wǎng)信息的數(shù)據(jù)整合和信息檢索成為了公安科技十三五規(guī)劃的重要組成方面。語(yǔ)義搜索被認(rèn)為是下一代搜索引擎的趨勢(shì),而其中的核心技術(shù)是構(gòu)建相關(guān)領(lǐng)域的知識(shí)圖譜,在此背景下構(gòu)建面向公安領(lǐng)域的知識(shí)圖譜顯得尤為必要和迫切。知識(shí)圖譜作為一種新興的技術(shù)理念既面臨著大規(guī)模無(wú)監(jiān)督構(gòu)建、實(shí)現(xiàn)快速?gòu)?fù)雜推理這些共性技術(shù)難點(diǎn)。同時(shí),在面向公安領(lǐng)域建設(shè)時(shí)又面臨著特有的信息來(lái)源和推理規(guī)則這些難點(diǎn),為解決這些技術(shù)難點(diǎn),本文綜合運(yùn)用詞向量、模糊推理這些新技術(shù)解決構(gòu)建公安領(lǐng)域知識(shí)圖譜的技術(shù)難點(diǎn),并設(shè)計(jì)了一套公安領(lǐng)域知識(shí)圖譜。
知識(shí)圖譜;語(yǔ)義搜索;自動(dòng)問(wèn)答
知識(shí)圖譜的概念最早由Google在2012年提出,知識(shí)圖譜通過(guò)構(gòu)建統(tǒng)一的知識(shí)庫(kù)打破了因數(shù)據(jù)結(jié)構(gòu)不同而導(dǎo)致的信息孤島問(wèn)題,并能夠?qū)χR(shí)進(jìn)行有效的推理。知識(shí)圖譜是語(yǔ)義搜索中的核心技術(shù),因此被廣泛應(yīng)于與搜索引擎與自動(dòng)問(wèn)答系統(tǒng)中。目前國(guó)內(nèi)外已經(jīng)對(duì)知識(shí)圖譜進(jìn)行了深入的研究,并被應(yīng)用于包括醫(yī)療領(lǐng)域和金融領(lǐng)域。
隨著信息技術(shù)的發(fā)展,公安工作越來(lái)越依賴于大規(guī)模信息檢索與分析技術(shù),目前公安機(jī)關(guān)已經(jīng)積累了大量的數(shù)據(jù)資源,這些資源大多數(shù)屬于結(jié)構(gòu)化的數(shù)據(jù)信息,為整合網(wǎng)頁(yè)中的半結(jié)構(gòu)化和非結(jié)構(gòu)化信息。需要構(gòu)建公安領(lǐng)域的知識(shí)圖譜,以滿足大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析需求。
目前從結(jié)構(gòu)化和半結(jié)構(gòu)化中抽取知識(shí)并構(gòu)建知識(shí)圖譜的技術(shù)已經(jīng)相對(duì)成熟,但超過(guò)80%的信息儲(chǔ)存于非結(jié)構(gòu)化的文本中[1],這就需要設(shè)計(jì)一套可靠的信息抽取技術(shù),而信息抽取也是當(dāng)前自然語(yǔ)言處理技術(shù)的一個(gè)難點(diǎn)。同時(shí)公安領(lǐng)域的知識(shí)圖譜面臨大量的推理任務(wù),這就需要在知識(shí)圖譜中選擇合適的知識(shí)表示形式便于日后的推理工作。
為解決當(dāng)前公安領(lǐng)域的知識(shí)圖譜構(gòu)建面臨的問(wèn)題,本研究用粒計(jì)算的思想構(gòu)建多粒度的知識(shí)圖譜實(shí)現(xiàn)快速推理,構(gòu)造適用于知識(shí)圖譜信息抽取詞向量模型,構(gòu)建面向事件的知識(shí)圖譜構(gòu)建,并開(kāi)發(fā)了一套合適公安工作的知識(shí)圖譜構(gòu)建模型。
相同罪犯或犯罪團(tuán)伙在作案過(guò)程中會(huì)使用相同的作案工具、作案手法,并尋找相似的作案對(duì)象。辦案人員利用此原理根據(jù)已有的受案信息進(jìn)行串并案分析,分析犯罪人員的特征、確定犯罪軌跡、對(duì)潛在作案對(duì)象預(yù)警,這要求偵查人員具有深厚的辦案經(jīng)驗(yàn),并需要處理大量已有的線索,如果運(yùn)用知識(shí)圖譜對(duì)已有的受案信息進(jìn)行分析整理,理清各個(gè)線索之間的關(guān)系,將極大地提高辦案效率。
我們將互聯(lián)網(wǎng)中的有害信息定義為包括以顛覆政權(quán)制造社會(huì)混亂為目的的非法言論,包含色情、恐怖、暴力內(nèi)容的信息,以實(shí)施網(wǎng)絡(luò)詐騙、網(wǎng)絡(luò)賭博、網(wǎng)上非法交易為目的的信息。對(duì)這類信息的及時(shí)發(fā)現(xiàn)、消除是網(wǎng)安部門和各大網(wǎng)站的重要職責(zé)。但由于網(wǎng)絡(luò)信息量大、有害信息隱蔽性強(qiáng)等原因,此項(xiàng)工作需要消耗大量的人力物力,并難以取得良好的效果,如果利用知識(shí)圖譜作到文本內(nèi)容的消歧,并聯(lián)系背景知識(shí)理解隱喻的話,將極大提高有害信息的識(shí)別準(zhǔn)確度,凈化網(wǎng)絡(luò)環(huán)境。
社會(huì)群體性事件容易被不法分子利用演化為街頭政治?;ヂ?lián)網(wǎng)能夠方便地將具有相同利益訴求的人群聯(lián)系在一起,人們通過(guò)社交網(wǎng)絡(luò)、新聞評(píng)論、即時(shí)通訊工具發(fā)泄情緒,組織群體活動(dòng)。對(duì)此類信息及時(shí)掌握,做出預(yù)警,防止事態(tài)擴(kuò)大是情報(bào)部門的重要職責(zé)。但是這需要了解事件的背景信息,把控網(wǎng)民態(tài)度傾向性,并能夠?qū)⒖缙脚_(tái)的輿論信息聯(lián)系在一起,這需要對(duì)信息有一個(gè)統(tǒng)一的知識(shí)框架,知識(shí)圖譜符合此類需求。
知識(shí)圖譜作為一門新興技術(shù)在構(gòu)建過(guò)程中有許多技術(shù)難點(diǎn),其原因歸結(jié)起來(lái)主要由以下幾點(diǎn):
(1)構(gòu)建知識(shí)圖譜所用的信息源包含大量的非結(jié)構(gòu)的文本信息。對(duì)文本語(yǔ)義的理解是一個(gè)復(fù)雜問(wèn)題。這個(gè)問(wèn)題的復(fù)雜性體現(xiàn)在一是文本結(jié)構(gòu)屬于未知結(jié)構(gòu)[2],二是信息的不確定性。在文本結(jié)構(gòu)方面雖然文本的語(yǔ)法是有限的,但由于現(xiàn)實(shí)語(yǔ)境中大量存在省略、倒序,甚至更復(fù)雜的語(yǔ)法錯(cuò)誤,因此不能用有限的語(yǔ)法表達(dá)文本結(jié)構(gòu)。
(2)知識(shí)圖譜的無(wú)監(jiān)督學(xué)習(xí)構(gòu)建問(wèn)題。如果無(wú)法實(shí)現(xiàn)知識(shí)圖譜的無(wú)監(jiān)督學(xué)習(xí),就無(wú)法構(gòu)建大規(guī)模的知識(shí)圖譜,同時(shí)難以對(duì)知識(shí)圖譜及時(shí)更新和維護(hù)。知識(shí)圖譜的無(wú)監(jiān)督學(xué)習(xí)不僅要實(shí)現(xiàn)概念的聚類而且要能夠體現(xiàn)概念之間的關(guān)系,這在基于詞向量的word2vec中有所體現(xiàn),但相關(guān)討論和實(shí)例還比較少。另外知識(shí)圖譜的無(wú)監(jiān)督學(xué)習(xí)同樣面臨小樣本學(xué)習(xí)問(wèn)題[3]。在大數(shù)據(jù)環(huán)境下有限的標(biāo)記語(yǔ)料難以應(yīng)對(duì)高速出現(xiàn)的文本流,主要表現(xiàn)在大量新詞的出現(xiàn),以及主題漂移和新主題的出現(xiàn)。同時(shí)文本信息不具有統(tǒng)計(jì)上的均勻分布,由于領(lǐng)域、語(yǔ)種、平臺(tái)的不同,語(yǔ)言環(huán)境往往有很大的區(qū)別,難以將基于有限標(biāo)記語(yǔ)料產(chǎn)生的語(yǔ)言模型在跨平臺(tái)跨領(lǐng)域以及文本流中推廣。
(3)利用知識(shí)圖譜進(jìn)行復(fù)雜快速推理的問(wèn)題。知識(shí)圖譜主要采用(Subject,Predicate,Object)三元組的形式來(lái)表示知識(shí)[4],這種方法可以較好地表示很多事實(shí)性知識(shí)。然而公安領(lǐng)域的知識(shí)圖譜涉及大量的社會(huì)計(jì)算和復(fù)雜推理,很多知識(shí)并非常識(shí)性知識(shí),而是基于某個(gè)社會(huì)場(chǎng)景下的知識(shí)。
(1)用粒計(jì)算的思想構(gòu)建多粒度的知識(shí)圖譜實(shí)現(xiàn)快速推理
目前采用SPO模型的知識(shí)圖譜,由于大量的實(shí)體之間沒(méi)有關(guān)系,或者只有少數(shù)幾種關(guān)系,造成一個(gè)稀疏的三維數(shù)組,如果為了表達(dá)更復(fù)雜的關(guān)系還要加入時(shí)間、空間、情感等維度,勢(shì)必造成知識(shí)圖譜的結(jié)構(gòu)過(guò)于復(fù)雜,而產(chǎn)生非線性增長(zhǎng)的時(shí)間復(fù)雜度和空間復(fù)雜度。為解決這個(gè)問(wèn)題除了提高計(jì)算能力之外,更需要從改進(jìn)知識(shí)圖譜的模型結(jié)構(gòu)做工作。希望將粒計(jì)算的思想引入到知識(shí)圖譜的模型構(gòu)造中,構(gòu)建多粒度的知識(shí)庫(kù),可以在不需要精確推理的情況下減少計(jì)算量。例如我們要了解網(wǎng)民對(duì)某事件的態(tài)度是支持還是反對(duì),而不是具體的觀點(diǎn)的時(shí)候,我們僅需要查詢網(wǎng)民傾向定的大類進(jìn)行推理。用粒計(jì)算的思想構(gòu)建多粒度的知識(shí)庫(kù)重點(diǎn)在于粒度的劃分,以及多粒度的聯(lián)合計(jì)算。
(2)構(gòu)造適用于知識(shí)圖譜信息抽取詞向量模型
文本作為一種無(wú)結(jié)構(gòu)化數(shù)據(jù),為了實(shí)現(xiàn)大規(guī)模的知識(shí)圖譜建設(shè),同時(shí)能夠做到對(duì)知識(shí)圖譜的及時(shí)更新與維護(hù),需要采用無(wú)監(jiān)督學(xué)習(xí)的方式完成知識(shí)圖譜的知識(shí)抽取。詞向量作為深度學(xué)習(xí)的輸入相對(duì)于傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)模型已經(jīng)能夠表達(dá)詞語(yǔ)之間的相似關(guān)系,同時(shí)兼具統(tǒng)計(jì)模型的魯棒性。Google的word2vec據(jù)稱可以反映詞的上下位關(guān)系(相關(guān)論據(jù)還比較少),但要適用于知識(shí)圖譜的構(gòu)造和推理還需要反映更多的語(yǔ)義關(guān)系,如果能夠?qū)⒃~向量和知識(shí)圖譜模型中描述實(shí)體的特征向量對(duì)應(yīng)起來(lái)的話,將有助于無(wú)監(jiān)督學(xué)習(xí)方法在知識(shí)圖譜構(gòu)建工作中的推廣,也有助于知識(shí)的融合。
(3)構(gòu)建面向事件的知識(shí)圖譜構(gòu)建
知識(shí)圖譜的構(gòu)建具有很強(qiáng)的領(lǐng)域性。公安工作中需要對(duì)社會(huì)熱門事件的發(fā)展及時(shí)跟蹤和了解,需要構(gòu)建面向事件的知識(shí)圖譜。構(gòu)建此類知識(shí)圖譜和傳統(tǒng)的知識(shí)圖譜構(gòu)建具有很大的區(qū)別,首先是社會(huì)熱門事件是動(dòng)態(tài)出現(xiàn)的,單一事件也會(huì)隨著時(shí)間的推移不斷變化發(fā)展,這需要知識(shí)圖譜實(shí)時(shí)更新。同時(shí)時(shí)間軸將是串聯(lián)各個(gè)實(shí)體之間的一個(gè)重要屬性,因此在構(gòu)建面向時(shí)間的知識(shí)圖譜中必須考慮時(shí)間屬性。最后評(píng)價(jià)某一事件往往包含大量的主觀信息,對(duì)于情感類文本的傾向性測(cè)量也是構(gòu)建此類知識(shí)圖譜的一個(gè)工作。因此本研究在面向社會(huì)熱點(diǎn)事件的知識(shí)圖譜構(gòu)建,基于時(shí)間屬性的知識(shí)圖譜推理,以及面向態(tài)度傾向性的知識(shí)圖譜推理方面做出研究。
圖1 基本研究框架
圖1中知識(shí)圖譜的輸入信息包括結(jié)構(gòu)化數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)庫(kù)中的數(shù)據(jù);半結(jié)構(gòu)化或弱結(jié)構(gòu)化信息,包括詢問(wèn)筆錄、勘查記錄等信息;無(wú)結(jié)構(gòu)數(shù)據(jù),如純文本信息等。
這里個(gè)人代理輸出包括問(wèn)答式的語(yǔ)義搜索,結(jié)果可以是單一的,如某人在某段時(shí)間住在哪里?乘坐過(guò)什么交通工具?也可以是列表形式的,如某段時(shí)間和某人同住過(guò)一個(gè)旅店的人有哪些?模式匹配,如和某一案件作案手段相似的案件有哪些?某一輿論事件發(fā)展為群體性事件的可能性有多大?某一信息是否屬于有害信息?圖形化展示,如以圖的形式展現(xiàn)某一案件涉案人員的關(guān)系,或者展現(xiàn)某人的軌跡信息。
要完成此類語(yǔ)義搜索遇到的困難有:隱喻問(wèn)題、跨平臺(tái)的信息聯(lián)合問(wèn)題、突發(fā)事件的及時(shí)檢測(cè)和對(duì)話題的跟蹤問(wèn)題、判斷網(wǎng)民態(tài)度傾向性的問(wèn)題,要解決以上問(wèn)題需要解決兩個(gè)要素:一是推理,二是補(bǔ)全背景知識(shí)。這就需要像知識(shí)圖譜這樣能夠模擬人腦存儲(chǔ)知識(shí)的技術(shù)。
在本研究中將探討適用于面向公安領(lǐng)域知識(shí)圖譜構(gòu)建的詞向量模型,用以解決知識(shí)圖譜的大規(guī)模無(wú)監(jiān)督學(xué)習(xí)。將探討粒計(jì)算的方法用以解決知識(shí)圖譜的快速推理問(wèn)題。
(1)在公安內(nèi)網(wǎng)方面,以金盾工程建設(shè)為契機(jī)建設(shè)了八大資源庫(kù),涵蓋了全國(guó)人、地、事物、組織信息,同時(shí)各地公安部門結(jié)合自身需求建設(shè)了涵蓋人員軌跡、車輛軌跡、出入境信息、旅店住宿信息等資源庫(kù),部分省份完成了辦案文件電子化工作,建成了案件信息庫(kù)。同時(shí)整合外網(wǎng)信息,包括民航、民政、交通等全部或部分資源庫(kù)。之前的工作主要集中在使用包括SOA等技術(shù)實(shí)現(xiàn)各個(gè)資源庫(kù)之間的數(shù)據(jù)整合,但對(duì)于數(shù)據(jù)的語(yǔ)義分析、知識(shí)的推理、結(jié)果的展現(xiàn)仍然有許多技術(shù)難點(diǎn)沒(méi)有突破。
(2)互聯(lián)網(wǎng)信息,對(duì)互聯(lián)網(wǎng)信息的獲取和分析運(yùn)用面對(duì)可以公開(kāi)獲取的信息通過(guò)各種輿情分析和信息檢索工具進(jìn)行分析,對(duì)于不公開(kāi)數(shù)據(jù)一般交由信息平臺(tái)所屬公司處理。一方面輿情分析技術(shù)和信息檢索技術(shù)有待提高,絕大多數(shù)系統(tǒng)的技術(shù)核心仍然是基于關(guān)鍵字的檢索,同時(shí)缺乏面向公安工作需求開(kāi)發(fā)的專用技術(shù)。
面向公安領(lǐng)域的知識(shí)圖譜信息輸入按照數(shù)據(jù)的結(jié)構(gòu)性分可分為:
(1)結(jié)構(gòu)化數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)庫(kù)中的數(shù)據(jù)。
(2)半結(jié)構(gòu)化或弱結(jié)構(gòu)化信息,包括詢問(wèn)筆錄、勘查記錄等信息。
(3)無(wú)結(jié)構(gòu)數(shù)據(jù),如純文本信息等。
面向公安領(lǐng)域的知識(shí)圖譜的輸出按照應(yīng)用場(chǎng)合可分為:
(1)問(wèn)答式的語(yǔ)義搜索,結(jié)果可以是單一的,如某人在某段時(shí)間住在哪里?乘坐過(guò)什么交通工具?也可以是列表形式的,如某段時(shí)間和某人同住過(guò)一個(gè)旅店的人有哪些?
(2)模式匹配,如和某一案件作案手段相似的案件有哪些?某一輿論事件發(fā)展為群體性事件的可能性有多大?某一信息是否屬于有害信息?
(3)圖形化展示,如以圖的形式展現(xiàn)某一案件涉案人員的關(guān)系,或者展現(xiàn)某人的軌跡信息。
面向公安領(lǐng)域的知識(shí)圖譜,需要具有強(qiáng)大的推理能力,能夠處理復(fù)雜的概念之間關(guān)系,為做到這一點(diǎn)需要采取以下方法:
(1)在選擇面向公安領(lǐng)域的知識(shí)圖譜描述語(yǔ)言時(shí),傾向于使用OWL,因?yàn)镺WL增加了關(guān)于描述或提供網(wǎng)絡(luò)內(nèi)容的資源信息,這有助于實(shí)現(xiàn)跨平臺(tái)的知識(shí)整合,并具有較強(qiáng)的表達(dá)能力,適合用來(lái)構(gòu)建面向公安領(lǐng)域的知識(shí)圖譜。
(2)構(gòu)造面向公安工作的模式層。采用無(wú)監(jiān)督的方式構(gòu)建知識(shí)圖譜,雖然可以節(jié)約人力成本,但由于本體概念之間關(guān)系的復(fù)雜性,將會(huì)使知識(shí)圖譜本體之間的關(guān)系繁雜,因此需要根據(jù)公安工作的特點(diǎn)構(gòu)建知識(shí)圖譜的模式層,模式是對(duì)知識(shí)的提煉,便于表達(dá)復(fù)雜的約束關(guān)系。
(3)借助粒計(jì)算的思想減小推理的復(fù)雜性。面向公安領(lǐng)域的知識(shí)圖譜中的概念更為復(fù)雜,既可以是一個(gè)客觀實(shí)體也可以是一個(gè)事件甚至是一種觀點(diǎn),為了能夠清晰地描述概念計(jì)劃引入知識(shí)粒這個(gè)概念。具體的?;绞饺缦拢簩⑾嗨频脑~粒化為一個(gè)知識(shí)粒,將文本表達(dá)的知識(shí)演化成一種有限的可被計(jì)算的模型。對(duì)文本信息的?;罡邔訛橹饔^和客觀,這基本上是文字表達(dá)信息的兩種范疇,客觀事物具有多重屬性,本身和屬性又包括多種特征,這將是文本知識(shí)結(jié)構(gòu),主觀方面主要是對(duì)事物的態(tài)度,態(tài)度可以分為多種,每種又具有不同的程度。
本文分析了公安領(lǐng)域知識(shí)圖譜的應(yīng)用場(chǎng)景,對(duì)構(gòu)建公安領(lǐng)域的知識(shí)圖譜的難點(diǎn)進(jìn)行了分析,并提出了解決方法,在此基礎(chǔ)上提出了一套構(gòu)建公安領(lǐng)域知識(shí)圖譜的方案。知識(shí)圖譜作為語(yǔ)義搜索的核心技術(shù)在未來(lái)具有廣闊的發(fā)展前景,構(gòu)建面向公安領(lǐng)域的知識(shí)圖譜是整合數(shù)據(jù)資源實(shí)現(xiàn)智慧公安的一項(xiàng)重要技術(shù),隨著知識(shí)圖譜構(gòu)建和應(yīng)用技術(shù)的成熟,公安領(lǐng)域知識(shí)圖譜將會(huì)的到更好的發(fā)展。
[1] Nickel M, Murphy K, Tresp V, et al. A Review of Relational Machine Learning for Knowledge Graphs[J]. Proceedings of the IEEE,2015.
[2]漆桂林,高桓,吳天星.知識(shí)圖譜研究進(jìn)展[J].情報(bào)工程,2017.
[3]劉知遠(yuǎn),孫茂松,林衍凱等.知識(shí)表示學(xué)習(xí)研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2016.
[4]Bordes A, Usunier N, Garcia-Duran A, et al. Translating Embeddings for Modeling Multi-relational Data[C] International Conference on Neural Information Processing Systems,2013.
[5]Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality[J],2013.
北京警察學(xué)院院級(jí)課題:面向公安領(lǐng)域的知識(shí)庫(kù)問(wèn)答技術(shù)研究(2017KZY11)。