王珊珊,鄒 佳,程 序,劉汪洋,蔡惠民
(1.中電科大數(shù)據(jù)研究院有限公司,貴州 貴陽 550022;2.提升政府治理能力大數(shù)據(jù)應用技術國家工程實驗室,貴州 貴陽 550022)
政府數(shù)據(jù)分級管理,能夠明確政府數(shù)據(jù)的范圍邊界和使用方式,是政府數(shù)據(jù)治理的關鍵性工作,為數(shù)據(jù)共享開放提供依據(jù)[1-2]。國務院2015年9月5日印發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》(國發(fā)〔2015〕50號)的主要任務中明確提出要大力推動政府部門數(shù)據(jù)共享,穩(wěn)步推動公共數(shù)據(jù)資源開放。國務院辦公廳于2017年5月18日印發(fā)并實施《政務信息系統(tǒng)整合共享實施方案》(國辦發(fā)〔2017〕39號),提出了加快推進政務信息系統(tǒng)整合共享。2018年1月12日,貴陽市發(fā)布《貴陽市政府數(shù)據(jù)共享開放實施辦法》,用以協(xié)調(diào)解決政府數(shù)據(jù)共享開放有關重大問題。
根據(jù)《政務信息資源共享管理暫行辦法》、《貴州省政務數(shù)據(jù)資源管理暫行辦法》、《貴陽市政府數(shù)據(jù)共享開放實施辦法》,政府數(shù)據(jù)分級主要是對數(shù)據(jù)在開放和共享兩個方向進行分級;共享級別分別為無條件共享、有條件共享、不予共享三大等級,開放級別分別為無條件開放、依申請開放和不予開放三大等級。
目前,政府數(shù)據(jù)分級工作多為人工操作,然而,隨著政府數(shù)據(jù)的增長,人工標注已不能滿足分級工作要求,帶來了很多問題。由于分級政策法規(guī)條款較多,人工對大量的數(shù)據(jù)進行分級時需不停查閱相關規(guī)定導致工作量大、效率低;同時人為理解政策法規(guī)具有較強的主觀性,導致現(xiàn)有人工分級工作精確性差、較為主觀等。由于分級工作涉及領域較廣,例如:安全生產(chǎn)、健康保障、信用體系等,且需要政策法規(guī)依據(jù)支撐結果,因此傳統(tǒng)的分類方法不足以支撐分級工作。
法律本體能夠對法律法規(guī)進行條理的梳理、描述;還可通過自定義規(guī)則,以滿足個性化推理需求。Valente從法律的社會角色和功能出發(fā),提出了FOLaw(functional ontology for law)[3]法律本體。Breuker[4]創(chuàng)建了LRI-Core法律本體模型。湯庸等結合了許多研究,提出了新的本體模型DOLegal[5]。賈君枝[6]等以專業(yè)人員參與為核心,提出了一種新的法律框架網(wǎng)絡知識本體模型。盧明純[7]在結合國內(nèi)外研究成果的基礎上,提出了一種新的本體模型,并設計了原型系統(tǒng)。佘貴清等[8]基于歷史案例本體知識庫構建了刑事審判案例推理模型。姜贏等[9]構建了醫(yī)療衛(wèi)生政策法律知識庫,以方便對政策法律進行管理。Thammaboosadee等[10]根據(jù)泰國刑法典提出了一個判決系統(tǒng)。上述研究大多針對《刑法》等法律且推理規(guī)則多關注于行為處罰措施,涉及法律內(nèi)容較為單一。
本體的語義匹配技術較多,有基于模式的匹配、基于概念圖的匹配,以概念分類為基礎的學習策略等;賈君枝等在充分考慮法律語言的模糊性上,結合了相關技術,提出了基于法律框架網(wǎng)絡本體的語義匹配的基本思路;但基于框架網(wǎng)絡的語義匹配更適合應用于范圍界限較為清晰的領域[11]。
隨著大數(shù)據(jù)等技術的發(fā)展,采用大數(shù)據(jù)、人工智能等方法對政府數(shù)據(jù)自動進行分級已成必然趨勢。因此,文中以《中華人民共和國政府信息公開條例》、《政務信息資源共享管理暫行辦法》以及貴州省、貴陽市地方法規(guī)、標準等作為政策法規(guī)依據(jù),以某些省市開放平臺中的典型案例作為案例數(shù)據(jù),設計并實現(xiàn)了政府數(shù)據(jù)自動分級系統(tǒng)—GSGD,以解決現(xiàn)有人工分級支撐依據(jù)不足、主觀性強、精確性差的問題。
GSGD由輸入數(shù)據(jù)、基礎能力、算法模型、結果輸出四個部分構成,系統(tǒng)框架如圖1所示。分級輸入數(shù)據(jù)格式為xx市政府各委辦局“行政區(qū) 委辦局名稱 系統(tǒng)名稱 表名稱 字段名稱”目錄,輸入數(shù)據(jù)樣例見表1。
圖1 分級系統(tǒng)框架
表1 輸入數(shù)據(jù)樣例與分級結果
基礎能力以及算法模型板塊完成了數(shù)據(jù)中間處理過程?;A能力板塊主要是政策法規(guī)庫、典型案例庫、推理規(guī)則庫,文中分級結果以《中華人民共和國政府信息公開條例》、《政務信息資源共享管理暫行辦法》以及《貴州省政務數(shù)據(jù)資源管理暫行辦法》、《貴陽市政府數(shù)據(jù)共享開放條例》、《貴陽市政府數(shù)據(jù)共享開放實施辦法》等貴州省、貴陽市地方法規(guī)、標準作為依據(jù),構建政策法規(guī)庫;以某些省市開放平臺中的典型案例作為依據(jù),構建典型案例庫;根據(jù)政策法規(guī)庫以及典型案例庫中本體概念以及框架,設計自定義推理規(guī)則構成推理規(guī)則庫。將政策法規(guī)庫以及典型案例庫中的關鍵詞(例如:人事任免、健康保障等)提出作為分級關鍵詞。算法模型板塊由BERT[12]模型、相似度計算、Jena推理機[13]以及SPARQL查詢[14]構成;BERT與相似度計算完成輸入數(shù)據(jù)到政策法規(guī)庫/典型案例庫中關鍵詞的映射過程;Jena推理機以及SPARQL查詢完成政策法規(guī)庫/典型案例庫中關鍵詞到分級結果的推理分析過程。結果輸出模塊將對算法模型模塊的結果進行整理,并格式化輸出,輸出內(nèi)容包括:開放結果、共享結果以及結果依據(jù)。系統(tǒng)整體流程如圖2所示。
圖2 系統(tǒng)整體流程
文中采用Protégé作為構建本體工具,Protégé是由斯坦福大學開發(fā)的本體編輯器,具有眾多的插件。Protégé能夠直觀地以樹形層次目錄結構顯示本體,且操作簡便,是目前使用最廣泛的本體編輯器之一[15-16]。
圖3 政策法規(guī)庫本體框架
文中參考許多已有的研究,并結合分級工作的特性,構建了分級政策法規(guī)庫以及典型案例庫。政策法規(guī)本體庫頂層劃分為兩大概念:抽象實體和物理實體。抽象實體的子類有主題、分級、涉敏類別以及秘密類別,物理實體的子類有物理對象。根據(jù)貴陽市政府信息公開目錄對政策法規(guī)進行概念提取,例如,組配分類中的子類有:人事信息、總結公報、規(guī)劃計劃等。規(guī)范文件可分為:憲法、法律、行政法規(guī)、地方性法規(guī)、部門規(guī)章、其他規(guī)范文件,規(guī)范文件子類中各概念之間的效力級別采用“效力高于”這一對象屬性進行描述[17],詳細的分類如圖3所示。典型案例庫采用與構建政策法規(guī)庫相似的方式進行構建,典型案例庫的本體框架如圖 4所示。構建數(shù)據(jù)為某些省市政府開放數(shù)據(jù)平臺上獲得的典型案例,例如:機動車駕駛證滿分名單等。
圖4 典型案例庫本體框架
BERT(bidirectional encoder representations from transformers)是基于深度雙向Transformer的預訓練模型,BERT在訓練任務中關注詞前后的信息,生成融合了上下文信息的語義向量,因此,BERT可以用于問答系統(tǒng)、命名實體識別、文本挖掘等任務中[12,18-20]。文中利用BERT獲得精準的語義向量,并將語義向量用于輸入數(shù)據(jù)以及分級關鍵詞的相似度計算中。
圖5 求詞/句向量流程
通過計算輸入數(shù)據(jù)中委辦局名稱、系統(tǒng)名稱、表名稱、字段名稱部分分別與分級關鍵詞的詞/句向量相似度,選取輸入數(shù)據(jù)每個部分所對應相似度較高的關鍵詞作為查詢推理的輸入。詞/句向量采用BERT進行計算,將BERT模型的輸出,即模型最后一層的輸出,作為輸入數(shù)據(jù)/關鍵詞中每個字的字向量;對輸入數(shù)據(jù)/關鍵詞的字向量求平均,得到輸入數(shù)據(jù)/關鍵詞的詞/句向量,流程如圖5所示。
計算輸入數(shù)據(jù)各部分的詞/句向量與每個分級關鍵詞的詞/句向量的余弦相似度,并取輸入數(shù)據(jù)各部分對應相似度最大的前兩個關鍵詞組成的關鍵詞集合作為查詢推理的輸入。余弦相似度用兩個向量夾角的余弦值作為衡量兩個個體間差異的大小,更加注重兩個向量在方向上的差異,較多地應用于文本相似度計算[21-22];假設有文檔x=
(1)
文中使用Jena推理機完成本體查詢以及推理模塊。Jena是由HP Labs開發(fā)的Java開發(fā),是一種開源的產(chǎn)生式規(guī)則的前向推理系統(tǒng),可通過自定義規(guī)則完成個性化推理,通過Jena提供的OWL API接口、SPARQL查詢接口和本體推理機接口,可以實現(xiàn)基于本體智能應用程序[13,24-25]。
文中通過自定義的推理規(guī)則對通用規(guī)則進行擴展,滿足對實際應用的個性化需求,本體中有間接關系的概念可通過規(guī)則的制訂,經(jīng)過推理最終被查詢到。Jena的推理規(guī)則分為前向規(guī)則和后向規(guī)則,文中使用的是前向規(guī)則,規(guī)則分為前提和結論,形式如下,其中term和hterm是三元組或擴展三元組[26-27]。
term,…,term->hterm,…,hterm
(2)
表2列出了部分推理規(guī)則及其功能。由于一些政策法規(guī)條款內(nèi)容較為相似,例如,貴陽市政府數(shù)據(jù)共享開放實施辦法第二十五條與貴州省政務數(shù)據(jù)資源管理暫行辦法第二十八條。因此文中采用規(guī)則對條款之間的關系進行處理,使得某一條款“繼承”與其內(nèi)容相似條款的關系,減輕人工構建本體時的工作量。雖然,文中所涉及的政策法規(guī)沒有沖突,為防止隨著政策法規(guī)增加,存在條款沖突的情況,給出了沖突檢測的推理規(guī)則,若兩條條款反映的是同一關鍵詞,但兩條條款涉及的分級結果不一致,則兩條條款沖突,此時效力較低的政策法規(guī)服從效力較高的政策法規(guī),分級以效力較高的政策法規(guī)作為分級依據(jù)。表中還給出了獲得分級結果的推理規(guī)則,若某條款反映某一關鍵詞,條款涉及某個分級內(nèi)容(這里以無條件開放為例),則涉及這一關鍵詞的領域數(shù)據(jù)應當無條件開放;若某案例屬于某一平臺,此平臺涉及某個分級內(nèi)容(這里以無條件開放為例),則此案例應當無條件開放。
表2 部分推理規(guī)則及其功能
文中基于自定義規(guī)則,采用SPARQL查詢語句實現(xiàn)推理查詢功能[14,28]。對查詢推理的每個輸入詞進行分級結果查詢,輸出與輸入詞相關的政策法規(guī)條例,并檢測是否有與條例相沖突的其他條例;同時根據(jù)政策法規(guī)條例所屬類別,按其效力進行從高到低的排序,并選取效力最高的結果作為每個輸入詞對應的中間結果;若在政策法規(guī)庫中查找不到結果,則去典型案例庫中查找,將輸入詞與案例所屬平臺、案例名稱作為參考依據(jù)給出。
根據(jù)上述中間結果,開放以不與開放、依申請開放、無條件開放的從高到低的級別等級,共享以不予共享、有條件共享、無條件共享的級別等級,輸出開放和共享最高等級的結果,并輸出所有對應的法律法規(guī)條例作為參考依據(jù)。
圖6為所創(chuàng)建的GSGD系統(tǒng),輸入擬分級數(shù)據(jù)后,上述模塊會對數(shù)據(jù)進行計算、推理、分析,最終系統(tǒng)會自動給出分級結果及其依據(jù),點擊依據(jù)條例,系統(tǒng)會顯示詳細的條例信息。
圖6 系統(tǒng)測試示例
為驗證所實現(xiàn)系統(tǒng)的效果,文中采用歐氏距離(Euclidean distance)作為相似度計算對比方法進行實驗。實驗數(shù)據(jù)為xx市若干委辦局“行政區(qū) 委辦局名稱 系統(tǒng)名稱 表名稱 字段名稱”目錄,共500條,涉及衛(wèi)計委、國稅局、城管局、公安局等委辦局數(shù)據(jù)目錄;由于數(shù)據(jù)是無標簽的,因此對數(shù)據(jù)分別從開放與共享兩個方向進行人工標注,以方便對比實驗結果。實驗結果也分別從開放與共享兩個方向進行對比,由表3可看出,不論是開放還是共享方向,文中方法相比于對比方法在準確率、F1值上更高,驗證了該方法的有效性。
表3 兩種方法對比結果(對共享、開放方向進行分級)
針對政府數(shù)據(jù)分級工作數(shù)據(jù)資源規(guī)模大,支撐依據(jù)不足、主觀性強、精確性差等問題,提出了采用政策法規(guī)庫以及典型案例庫對數(shù)據(jù)進行自動化分級,設計并實現(xiàn)了基于BERT以及本體構建推理的政府數(shù)據(jù)分級系統(tǒng)—GSGD。通過BERT以及相似度計算獲取本體推理查詢的輸入關鍵詞,再通過Jena推理機進行推理查詢,實現(xiàn)對政策法規(guī)沖突檢測、效力級別分析等功能,最終獲得分級結果以及依據(jù);最后通過對比實驗分析,驗證了該方法的有效性。未來在以下幾個方向有待探索:一、采用人工構建本體,但隨著政策法規(guī)/案例的增加,應嘗試采用自動化方法構建政策法規(guī)庫以及案例庫;二、調(diào)整相似度計算方法,將多種相似度計算方法融合以得到更精確的結果。