李書欽,史運濤,劉召,李志軍
北方工業(yè)大學(北京 100144)
重大活動是由各級政府部門主辦的具有一定社會影響力、需要公共衛(wèi)生監(jiān)督保障的高規(guī)格的政治、經(jīng)濟、文化、體育等活動。近年來,我國積極參與全球治理,國際交往更加密切,相繼在各地舉辦各類重大活動,逐漸成為國際政治、經(jīng)濟、文化交流重要舞臺。重大活動政治規(guī)模高、參與人數(shù)多,重大活動食品安全關系參與人員的健康與安全,關乎重大活動成敗。
現(xiàn)代技術、文化沖突、社會割裂裹挾而來的公共風險,極大增加了重大活動中食品安全風險防控和警務保障壓力。重大活動食品安全風險防控面臨有毒有害危險物難防范、難預警、難處置等難題,一旦發(fā)生問題,其政治及社會影響不可估量。根據(jù)《中國食品安全發(fā)展報告(2018)》,2008—2017年全國食品安全事件達40.8萬起,平均每天發(fā)生110余起,這些頻發(fā)的食品安全風險對重大活動食品安全保障提出了更高的要求。亟需借助新技術、新手段開展食品安全風險預測預警研究,變事后處置為事前預防,有效提升重大活動食品安全保障能力。
知識圖譜是知識工程的一個分支,以知識工程中語義網(wǎng)絡作為理論基礎,結合機器學習、自然語言處理、知識表示和推理的最新成果,是用于描述海量實體、實體屬性及實體間關系的有效工具[1-5]。針對重大活動食品安全保障中的問題,擬利用知識圖譜技術,融合結構化、非結構化和半結構化的多源數(shù)據(jù),構建食品安全知識圖譜,實現(xiàn)對象認知、知識推理和知識分析,顯著提升針對食品安全風險的主動發(fā)現(xiàn)能力,這對未來食品安全突發(fā)事件的預測及解決預案的提供有積極的參考價值,在一定程度上幫助重大活動食品安全保障的決策者了解過去、把握現(xiàn)在、決策未來。
知識圖譜(knowledge graph)于2012年5月由Google正式提出,知識圖譜包含實體、概念、屬性、關系等信息,是一個有向圖結構的大規(guī)模語義網(wǎng)絡(semantic network)和知識庫,通過構建基于“結點—邊”的結構化語義網(wǎng)絡知識庫,描述現(xiàn)實世界中的各種實體及其復雜關系,在此基礎上實現(xiàn)知識推理和智能推薦,已被廣泛應用于智能問答、智能搜索、個性化推薦、內容分發(fā)等領域[6]。
知識圖譜由G=(E,R)表示,其中E表示知識圖譜中多類型的實體,R表示知識圖譜的關系集合。知識圖譜由大量三元組組成,每個三元組表示客觀事實的語義信息,表示形式為T=(vh,r,vt),其中vh表示頭實體,vt表示尾實體,r表示頭實體和尾實體之間的關系。實體是知識圖譜中的最基本元素,比如食品安全中的人員、食品、農產(chǎn)品、添加劑、毒害物等實體,不同的實體間存在不同的關系,比如食品安全中的高風險、較高風險、一般風險等關系。
知識圖譜的構造過程如圖1所示,包含知識抽取、知識表示、知識融合、知識加工和知識推理,知識圖譜的構建是一個不斷更新迭代的過程。知識圖譜在邏輯上分為兩個層次:數(shù)據(jù)層與模式層。數(shù)據(jù)層選擇圖數(shù)據(jù)庫作為存儲介質,用(實體,關系,實體)和(實體,屬性,屬性值)來表示。模式層是知識圖譜的核心,構建在數(shù)據(jù)層之上,通常采用本體庫來構建模式層[7]。
圖1 知識圖譜構造過程
1) 知識抽取。知識抽取是知識圖譜構造的第一步,面向半結構化數(shù)據(jù)和非結構化數(shù)據(jù)(文檔、圖片、視頻),通過自動化或半自動化技術抽取出可用的知識,知識抽取包括實體抽取、關系抽取和屬性抽取。實體抽取即自然語言處理中的命名實體識別,從非結構化文本數(shù)據(jù)中自動識別出命名實體,形成知識圖譜中的“結點”,實體抽取是知識抽取中最為基礎和重要的部分。在半結構化數(shù)據(jù)中抽取出命名實體后,采用關系抽取得到實體之間的關聯(lián)關系,形成知識圖譜中的“邊”,從而形成網(wǎng)狀的知識結構。屬性抽取的目標是從不同數(shù)據(jù)源中獲取特定實體的屬性信息,例如對于毒害物,可以獲取其名稱、危害程度、侵入途徑、毒性特征、檢測方法等信息。
2) 知識表示。知識表示主要以資源描述框架RDF(resource description framework)的三元組SPO(subject,property,object)來描述實體之間的關系,RDF方法通用簡單,但在計算效率、數(shù)據(jù)稀疏性等方面存在諸多問題。知識表示學習的主要模型有雙線性模型、距離模型、矩陣分解模型、單層神經(jīng)網(wǎng)絡模型、神經(jīng)張量模型、翻譯模型等。近年來,以深度學習為代表的表示學習技術進展迅速,主要以稠密低維實值向量表示實體的語義信息,從而在低維向量空間中計算實體、關系及實體關系間的復雜語義關聯(lián),在知識庫的構建、融合、推理、應用方面應用廣泛[8]。
3) 知識融合。知識抽取實現(xiàn)了從非結構化和半結構化數(shù)據(jù)中獲取實體、關系以及實體屬性信息,然而由于數(shù)據(jù)來源廣泛,抽取的結果中往往包含大量的重復和缺失信息,數(shù)據(jù)缺乏層次性和邏輯性,需要對抽取結果進行清理和整合。知識融合是知識組織的較高層次,通過對來自多源數(shù)據(jù)的知識進行異構數(shù)據(jù)整合、消歧、加工、推理驗證、更新等過程,達到數(shù)據(jù)、信息、經(jīng)驗、方法以及人的智慧的有機融合,形成更高質量的知識庫。知識融合通過實體鏈接和知識合并剔除冗余和錯誤概念,消除概念的歧義,從而確保知識的質量[9]。
4) 知識加工。在知識抽取和知識融合的基礎上,可以得到一系列知識圖譜的事實表達,然而事實是知識的基本單位,并不等同于知識,要形成高質量的結構化、網(wǎng)絡化知識體系,還需要知識加工,知識加工的過程包括本體構建和質量評估。本體是同一領域內不同主體之間交流、連通的語義基礎,呈樹狀結構,本體在知識圖譜中相當于知識庫的模具,通過本體構建形成的知識庫冗余程度較小、層次結構較強。質量評估通過保留高置信度的知識,剔除低置信度的知識,對知識的可信度進行量化,從而有效確保知識的質量。
5) 知識推理。知識推理是知識圖譜構建的重要環(huán)節(jié),知識推理從已有的實體關系數(shù)據(jù)出發(fā),能夠從已知知識中發(fā)現(xiàn)新的未知知識,建立實體間新的關系,從而拓展和豐富知識圖譜的網(wǎng)絡結構。知識推理的對象包括實體、實體屬性、實體間的關系、本體庫中概念的層次結構等,常見的知識推理方法可以分為基于圖的推理與基于邏輯的推理兩種類別。例如已知(毒害物A,高風險,食品A)和(食品A,同類,食品B),可以推理出(毒害物A,高風險,食品B)。
以重大活動中的相關人員、食品、添加劑、毒害物、快檢數(shù)據(jù)、社會媒體數(shù)據(jù)、電商平臺交易數(shù)據(jù)等為基礎,通過知識抽取形成相關的實體、屬性和關系,然后經(jīng)過知識表示構建相關實體間的三元組,經(jīng)過知識融合和知識加工,構建重大活動食品安全知識圖譜,并進行相關實體間的關系推理。
根據(jù)重大活動食品安全場景中的結構化、半結構化和非結構化數(shù)據(jù),可以構建食品安全知識圖譜。首先,實體類型集合為X={人員,食品,農產(chǎn)品,毒害性物質,傳染性病原體,放射性物質},然后構建各個實體的屬性特征,人員={姓名,民族,性別,單位,學歷,年齡,籍貫},食品={食品名稱,食品大類,食品亞類,食品細類,抽檢項目},農產(chǎn)品={農產(chǎn)品名稱,食品大類,食品亞類,食品品種,食品細類,抽檢項目},毒害性物質={名稱,毒性類型,侵入途徑,健康危害),傳染性病原體={名稱,分類,危害程度,特性,檢測方法},放射性物質={名稱,類型,特征,檢測方法,檢測設備,參考標準},各實體間的關系如圖2所示。
圖2 食品安全知識圖譜實體間關系圖
在已構建的食品安全實體、屬性和關系基礎上,采用圖數(shù)據(jù)庫交互操作框架 Interactive Graph構建食品安全知識圖譜,Interactive Graph是采用Java Script開發(fā)的開源項目,通過構建本地JSON文件,為大規(guī)模圖數(shù)據(jù)三元組提供了一個基于Web的交互操作框架[10]。Interactive Graph提供3個基本功能,分別是圖瀏覽器(Graph Explorer)、圖導航器(Graph Navigator)以及關系查找器(Rel Finder),借助這些功能,可以便捷地實現(xiàn)知識圖譜數(shù)據(jù)的可視化展示和知識推理。
食品安全知識圖譜包含人員、食品、農產(chǎn)品、毒害性物質、傳染性病原體、放射性物質等實體、屬性和實體間的關系,該圖譜由643個節(jié)點和2 859條邊構成,食品安全知識圖譜的可視化效果如圖3所示。通過食品安全知識圖譜,輸入任一食品的名稱,可以方便地查看與其關聯(lián)的毒害物信息及危害后果,實現(xiàn)知識推理。在此基礎上,可以查看食品的分類信息、毒害物危害信息等。
圖3 食品安全知識圖譜可視化效果圖
近年來,我國積極參與全球治理,相繼舉辦各類重大活動,逐漸成為國際政治、經(jīng)濟、文化交流重要舞臺[11]。重大活動政治規(guī)模高、參與人數(shù)多,重大活動食品安全關系參與人員的健康與安全,關乎重大活動成敗,而現(xiàn)代技術、文化沖突、社會割裂裹挾而來的公共風險,增加了此類活動中食品安全風險防控和警務保障壓力。
為解決上述問題,運用Google知識圖譜,以重大活動中的相關人員、食品、農產(chǎn)品、毒害性物質、傳染性病原體、放射性物質等為切入點,繪制重大活動食品安全知識圖譜,對重大活動食品安全數(shù)據(jù)進行可視化展示,有效解決了食品安全風險預測預警中數(shù)據(jù)利用不充分、查詢統(tǒng)計不直觀、信息關聯(lián)不明確等問題,有效提升了食品安全預測預警的效率和水平,為重大活動食品安全保障決策的科學化提供參考。