張馨月 王寧 張瑤瑤
收稿日期:2023-08-18
基金項(xiàng)目:太原科技大學(xué)教學(xué)改革創(chuàng)新項(xiàng)目(XJ2021004)
DOI:10.19850/j.cnki.2096-4706.2024.06.023
摘? 要:我國(guó)建立了完備的食品安全法規(guī)體系,其具有海量和零散性的特點(diǎn),難以檢索分析。以食品安全法規(guī)文本數(shù)據(jù)為依托,通過自頂向下和自下而上的方式進(jìn)行食品安全法規(guī)知識(shí)圖譜的構(gòu)造研究。首先,獲取多源異構(gòu)的食品安全法律法規(guī)和問答數(shù)據(jù)語料,對(duì)用戶的需求進(jìn)行分析。其次,定義食品安全知識(shí)圖譜的本體層及其屬性,使用基于規(guī)則的方法對(duì)知識(shí)進(jìn)行抽取,針對(duì)規(guī)則性不強(qiáng)的知識(shí),使用基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法完成領(lǐng)域命名實(shí)體識(shí)別。最后,實(shí)現(xiàn)食品安全法規(guī)知識(shí)圖譜的構(gòu)建。
關(guān)鍵詞:食品安全法規(guī);知識(shí)圖譜;自然語言處理;機(jī)器學(xué)習(xí);命名實(shí)體識(shí)別;BERT模型
中圖分類號(hào):TP391.1? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? 文章編號(hào):2096-4706(2024)06-0103-07
Construction of Knowledge Graph for Food Safety Regulations
ZHANG Xinyue, WANG Ning, ZHANG Yaoyao
(College of Computer Science and Technology, Taiyuan University of Science and Technology, Taiyuan? 030024, China)
Abstract: China has established a complete food safety regulatory system, which is characterized by massive and fragmented nature and difficult to retrieve and analyze. Therefore, we conduct research on the construction of a Knowledge Graph of food safety regulations through a top-down and bottom-up approach based on the textual data of food safety regulations. First, we obtain multi-source heterogeneous food safety laws and regulations and Q&A data corpus, and analyzes user needs. Then, we define the ontology layer and attributes of the food safety Knowledge Graph. We extract the knowledge by using a rule-based method, and complete the domain named entity recognition by using Machine Learning-based methods for the knowledge with weak regularity. Finally, we realize the construction of Knowledge Graph for the food safety regulations.
Keywords: food safety regulation; Knowledge Graph; natural language processing; Machine Learning; named entity recognition; BERT model
0? 引? 言
“民以食為天,食以安為先”。食品安全是健康中國(guó)的重要內(nèi)容,也是“五大公共安全”的重要內(nèi)容之一[1]。2017年7月8日,國(guó)務(wù)院印發(fā)了《新一代人工智能發(fā)展規(guī)劃》,其中提到促進(jìn)人工智能在法律文件閱讀與分析中的應(yīng)用[2]。因此,使用人工智能技術(shù)來完成對(duì)食品安全法律法規(guī)的閱讀與分析,是實(shí)現(xiàn)“舌尖上的安全”必不可少的環(huán)節(jié)之一。構(gòu)建基于食品安全法律法規(guī)的知識(shí)圖譜,不僅能夠解決知識(shí)查詢問題,還可以將食品安全法律法規(guī)中涉及的重點(diǎn)實(shí)體和層次等內(nèi)容通過知識(shí)圖譜中的邊進(jìn)行連接,這樣就打破了法律法規(guī)的相對(duì)獨(dú)立性,可以對(duì)法律法規(guī)的重要知識(shí)進(jìn)行關(guān)聯(lián)查詢。
目前,知識(shí)圖譜在司法領(lǐng)域的應(yīng)用取得了一些進(jìn)展。Li等人提出了事務(wù)的法律規(guī)定預(yù)測(cè)任務(wù),并使用知識(shí)圖譜中的文本理解和圖推理的方式來完成任務(wù)[3]。Filtz等人構(gòu)造了奧地利法律知識(shí)圖譜,提出了LKG本體論。通過鏈接到地理名稱和開放街道地圖等外部空間知識(shí)庫(kù),對(duì)各種歐盟成員國(guó)的現(xiàn)有法律舉措進(jìn)行深度分析[4]。曾蘭蘭等人基于刑事裁判文書數(shù)據(jù)構(gòu)建了刑事法律知識(shí)圖譜[5]。
《規(guī)劃》指出,要強(qiáng)化利用人工智能等計(jì)算機(jī)技術(shù)實(shí)現(xiàn)對(duì)食品安全的有效保護(hù),在綜合考量食品分類、預(yù)警水平、食品安全風(fēng)險(xiǎn)和評(píng)估等內(nèi)容的基礎(chǔ)上建立了人工智能食品安全預(yù)警系統(tǒng)[6]。但是我國(guó)針對(duì)食品安全法規(guī)知識(shí)圖譜的構(gòu)建和研究仍然處于起步狀態(tài),亟待我們進(jìn)一步深入研究。
1? 圖譜概述
對(duì)用戶需求的正確認(rèn)知直接關(guān)系到所構(gòu)建知識(shí)圖譜質(zhì)量的高低。本文將業(yè)內(nèi)公認(rèn)規(guī)模較大、可信度較高的“12348中國(guó)法網(wǎng)”等網(wǎng)站作為數(shù)據(jù)源,爬取主題為“食品”的法律咨詢問答8 000余條,并進(jìn)行了咨詢用戶畫像和咨詢問答分類分析,從而得到不同類別用戶的具體需求。將如圖1所示的風(fēng)險(xiǎn)識(shí)別因素作為領(lǐng)域?qū)嶓w進(jìn)行存儲(chǔ),將因素的層次結(jié)構(gòu)作為知識(shí)圖譜模型構(gòu)建的參考,并將它們補(bǔ)充進(jìn)食品安全領(lǐng)域詞典中。
圖1? 食品安全風(fēng)險(xiǎn)識(shí)別因素
與食品安全風(fēng)險(xiǎn)因素存在的各個(gè)階段相對(duì)應(yīng),咨詢用戶的角色基本上可以分為四類,即生產(chǎn)者、銷售者、網(wǎng)絡(luò)食品第三方交易平臺(tái)和消費(fèi)者。他們所關(guān)心的問題具有相似性,可分為三類,即賠償問題、行政處罰和刑事責(zé)任。經(jīng)過整理分析,在用戶進(jìn)行搜索或提問之后,公共法律服務(wù)網(wǎng)站反饋給用戶的搜索結(jié)果或回答包括兩個(gè)方面的內(nèi)容,一是違法犯罪行為或受到侵害行為所涉及的法規(guī),包括具體的章節(jié)條例;二是相關(guān)的執(zhí)法部門或可以求助的部門能夠提供的具體幫助。其他詳細(xì)的解答內(nèi)容都是從這兩個(gè)方面延伸出來的。
因此,本文旨在建立法律法規(guī)之間的聯(lián)系,破除法律法規(guī)之間的獨(dú)立性,以法律法規(guī)為核心對(duì)知識(shí)進(jìn)行重載利用。食品安全法規(guī)知識(shí)圖譜作為領(lǐng)域知識(shí)圖譜,主要強(qiáng)調(diào)知識(shí)的體系結(jié)構(gòu)和深層次的領(lǐng)域知識(shí),因此采用自頂向下和自底向上相結(jié)合的方式進(jìn)行構(gòu)建。本文結(jié)合食品安全相關(guān)行政法規(guī)、司法解釋以及地方政府規(guī)章文本數(shù)據(jù)的邏輯特點(diǎn),對(duì)知識(shí)圖譜進(jìn)行設(shè)計(jì)。數(shù)據(jù)來源為全國(guó)人大常委會(huì)、國(guó)務(wù)院、國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局、國(guó)家食品藥品監(jiān)督管理總局、中央編辦、地方食品藥品監(jiān)督管理局等網(wǎng)站公開發(fā)布的有關(guān)食品安全的一般法律、條例、決定、辦法等共計(jì)3 474篇(截至2023年4月)。在構(gòu)建食品安全法規(guī)知識(shí)圖譜時(shí),首先定義食品安全法律政策體系,并根據(jù)該體系形成本體概念。我國(guó)的食品安全政策體系包含法律、法規(guī)、部門規(guī)章、規(guī)范性文件等,形成了國(guó)家、部門、行業(yè)與地方逐層約束的食品安全法規(guī)體系,具有“二元制”和“多層次”的特點(diǎn)。在《中華人民共和國(guó)食品安全法》和《中華人民共和國(guó)農(nóng)產(chǎn)品質(zhì)量安全法》的指導(dǎo)下,全國(guó)人民代表大會(huì)及其常務(wù)委員會(huì)制定了法律,涵蓋立法、執(zhí)法、法律監(jiān)督、刑罰和行政處罰等各個(gè)方面。在食品安全法律法規(guī)體系的縱向關(guān)系上,法律、法規(guī)、部門規(guī)章、規(guī)范性文件和安全標(biāo)準(zhǔn)之間需要相互協(xié)調(diào),彼此銜接,下一層的立法不能和上一層的立法相互抵觸,也就是遵守“法制統(tǒng)一”的原則。
2? 知識(shí)圖譜模式層設(shè)計(jì)與構(gòu)造
2.1? 總結(jié)和分析食品安全法規(guī)領(lǐng)域本體
首先,構(gòu)建知識(shí)圖譜模式層,定義本體概念及屬性:
1)法規(guī)。是食品安全法規(guī)知識(shí)圖譜中的核心概念。使用法規(guī)名稱、主席令號(hào)、發(fā)布時(shí)間、施行時(shí)間、立法主體、法規(guī)目錄、施行范圍、效力等級(jí)、涉及執(zhí)法部門、規(guī)定過程、規(guī)定責(zé)任部門、參考文件、制定依據(jù)、法規(guī)條文等屬性對(duì)法規(guī)進(jìn)行描述。
2)相關(guān)部門。每篇法規(guī)都會(huì)涉及立法主體、執(zhí)行某些條款、觸犯某些條款所牽涉的執(zhí)法部門、責(zé)任部門。
3)品類領(lǐng)域。在不同類型的法律法規(guī)中,所要針對(duì)和規(guī)范的生產(chǎn)品類、角色品類可能類似,也可能不同,因此其實(shí)體內(nèi)容非常廣泛,生產(chǎn)品類如養(yǎng)殖業(yè)、捕撈業(yè)等,角色品類如藥品生產(chǎn)企業(yè)、藥品經(jīng)營(yíng)企業(yè)等,它們?cè)诜ㄒ?guī)中都屬于被定義和被規(guī)范的內(nèi)容。
4)規(guī)定過程。由于食品安全法規(guī)覆蓋了從種植養(yǎng)殖、生產(chǎn)、加工經(jīng)營(yíng)、檢測(cè)到流通消費(fèi)的全過程,所以將規(guī)定過程定義為知識(shí)圖譜中的一個(gè)本體,通過將本體實(shí)例化來描述規(guī)范過程。
5)規(guī)定對(duì)象。覆蓋了大部分食品類別,是參照了GB 2760-2014國(guó)家標(biāo)準(zhǔn)中的附錄E食品分類系統(tǒng)所定義的本體,與規(guī)定過程相對(duì)應(yīng)。若某一法規(guī)約束了某一食品類別下的食品,則可以將該食品作為這一食品類別下其他食品的參考。
2.2? 定義本體之間的關(guān)系
在關(guān)系方面,從當(dāng)前法規(guī)的獨(dú)立性出發(fā),以法規(guī)為核心,將法規(guī)與相關(guān)部門、品類領(lǐng)域、規(guī)定過程、規(guī)定對(duì)象的關(guān)系進(jìn)行知識(shí)圖譜的語義關(guān)系定義,如表1所示。食品安全法規(guī)知識(shí)圖譜的結(jié)構(gòu)如圖2所示。通過命名實(shí)體識(shí)別方法和基于規(guī)則的實(shí)體、實(shí)體屬性和實(shí)體關(guān)系抽取方法,能夠?qū)⒈倔w實(shí)例化,并存入數(shù)據(jù)庫(kù)中,構(gòu)造知識(shí)圖譜。
表1? 本體關(guān)系表
關(guān)系名稱 關(guān)系說明
立法 相關(guān)部門與法規(guī)
規(guī)定職責(zé) 法規(guī)與相關(guān)部門
制定依據(jù) 法規(guī)與依據(jù)法規(guī)
約束領(lǐng)域 法規(guī)與品類領(lǐng)域
針對(duì)的生產(chǎn)過程 法規(guī)與規(guī)定過程
針對(duì)的生產(chǎn)對(duì)象 法規(guī)與規(guī)定對(duì)象
協(xié)同合作 部門與部門
圖2? 知識(shí)圖譜結(jié)構(gòu)圖
3? 知識(shí)抽取
3.1? 主題詞提取
通過提取食品安全法律法規(guī)的所有章節(jié)名實(shí)體來概括該法規(guī)的文本內(nèi)容。為了進(jìn)一步補(bǔ)充法規(guī)內(nèi)容特征,對(duì)每篇法規(guī)進(jìn)行內(nèi)容提取,獲得特征項(xiàng)。食品安全法律法規(guī)的原始數(shù)據(jù)中包含有大量的領(lǐng)域特征詞匯,如果將這些特征詞匯作為特征項(xiàng),會(huì)給后續(xù)處理工作帶來很多不必要的麻煩。因此,使用TF-IDF函數(shù)從特征詞匯中提取出主題詞來表示食品安全法律法規(guī)的主要特征,能夠概括法規(guī)的文本內(nèi)容。
我國(guó)的法律法規(guī)文本與新聞報(bào)道等文本存在著很大的區(qū)別。它們的書寫格式、段落結(jié)構(gòu)、遣詞造句都必須要符合一定的規(guī)范。因此,一些實(shí)體、實(shí)體屬性都可以通過基于規(guī)則的方法進(jìn)行抽取,并且能夠取得較好的抽取效果。特殊用語描述內(nèi)容的附近會(huì)有明顯的提示詞,可以用來提取擴(kuò)充實(shí)體。
3.2? 基于BERT-BiLSTM-CRF的命名實(shí)體識(shí)別
BiLSTM-CRF模型是將雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)和條件隨機(jī)場(chǎng)(CRF)有機(jī)結(jié)合的命名實(shí)體識(shí)別模型[7]。命名實(shí)體識(shí)別問題實(shí)際上是一個(gè)序列標(biāo)注問題。本文使用BIO標(biāo)注集對(duì)數(shù)據(jù)字符進(jìn)行標(biāo)注。BiLSTM模型是由一個(gè)正向LSTM和一個(gè)反向LSTM組合而成的,對(duì)輸入的字符序列進(jìn)行兩個(gè)方向的計(jì)算,能夠用到兩側(cè)的上下文信息。Softmax輸出的概率相對(duì)獨(dú)立,輸出值之間不存在依賴關(guān)系,在每一步選出一個(gè)概率最大的值,輸出其對(duì)應(yīng)標(biāo)簽,會(huì)生成不符合語義邏輯的標(biāo)簽序列。CRF層將輸出層面的關(guān)聯(lián)性進(jìn)行分離,進(jìn)行標(biāo)簽預(yù)測(cè)時(shí)將上下文關(guān)聯(lián)情況考慮在內(nèi)。此外,在求解維特比時(shí),CRF使用動(dòng)態(tài)規(guī)劃算法來求解概率最大的路徑,可以防止結(jié)果中出現(xiàn)非法序列,比如“B-OBJ”后面跟著“I-DEP”。
假設(shè)字符序列輸入的是X = (x1,x2,x3,…,xn),獲取到輸入序列后,進(jìn)行分布式表示,經(jīng)過BiLSTM層的學(xué)習(xí)之后,輸出概率矩陣Pn×m,其中m表示標(biāo)簽的類別個(gè)數(shù)。對(duì)于想要輸出的標(biāo)簽序列y = (y1,y2,y3,…,yn),定義最優(yōu)路徑得分,如式(1)所示:
(1)
最優(yōu)路徑求解如式(2)所示:
(2)
其中,Pi, j表示xi被標(biāo)記為第j個(gè)標(biāo)簽的概率大小,Ai, j表示概率轉(zhuǎn)移矩陣中第i個(gè)標(biāo)簽被轉(zhuǎn)移到第j個(gè)標(biāo)簽的概率。由此可知,CRF建模輸出標(biāo)簽二元組,并且使用動(dòng)態(tài)規(guī)劃的算法求出得分最高的路徑y(tǒng)?作為最優(yōu)路徑。如圖3所示為BiLSTM-CRF模型的網(wǎng)絡(luò)結(jié)構(gòu)。
訓(xùn)練BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)需要將預(yù)處理后的食品安全法律法規(guī)漢字語料輸入到待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型中,但是神經(jīng)網(wǎng)絡(luò)模型不能接收漢字,漢字字符串的長(zhǎng)度也互不相同。因此本文采用BERT模型進(jìn)行字符向量的編碼,解決了Word2Vec歧義詞效果不佳的問題[8]。BERT模型能夠通過在所有層上下語境的基礎(chǔ)上實(shí)現(xiàn)聯(lián)合調(diào)整的方式來預(yù)訓(xùn)練深層雙向表征。只要額外增加一個(gè)輸出層,即可對(duì)預(yù)訓(xùn)練的BERT表征進(jìn)行微調(diào),使它更加適合新任務(wù)和新模型。組成BETR的核心模塊是12層或24層的雙向Transformer,其最為關(guān)鍵的部分是Attention機(jī)制。相對(duì)于RNN,雙向編碼器Transformer更加高效,能夠捕捉到更長(zhǎng)距離的依賴。相對(duì)于LSTM,Transformer能夠并行訓(xùn)練,達(dá)到更快的訓(xùn)練速度。
在BERT模型后接入BiLSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu),使用BiLSTM獲得每個(gè)實(shí)體類型標(biāo)簽的得分,并通過CRF借助維特比算法挑選出概率最大的標(biāo)簽類型。BERT-BiLSTM-CRF的網(wǎng)絡(luò)模型如圖4所示。
圖4? BERT-BiLSTM-CRF模型結(jié)構(gòu)示意圖
其中,Ei表示序列中第i個(gè)位置的輸入。由圖4可以看出,BERT-BiLSTM-CRF模型通過將BERT模型的輸出作為特征表示加入BiLSTM模型中。因?yàn)樾枰A繑?shù)據(jù)和強(qiáng)大的計(jì)算能力來支持模型的訓(xùn)練,本文使用了針對(duì)中文語料的Bert-Base-Chinese版本。
3.3? 命名實(shí)體識(shí)別實(shí)驗(yàn)分析
利用YEDDA文本標(biāo)注工具,參照BIO標(biāo)準(zhǔn)對(duì)數(shù)據(jù)集進(jìn)行類型標(biāo)注。對(duì)改進(jìn)后的CRF模型、BiLSTM-CRF模型和BERT-BiLSTM-CRF模型在有效食品安全相關(guān)行政法規(guī)、司法解釋以及地方政府規(guī)章文本數(shù)據(jù)中命名實(shí)體的識(shí)別效果上進(jìn)行了比較,實(shí)驗(yàn)中采用的評(píng)價(jià)指標(biāo)是機(jī)器學(xué)習(xí)中常用的評(píng)價(jià)機(jī)制準(zhǔn)確率、召回率和F1值。
其中準(zhǔn)確率的求解如式(3)所示:
(3)
其中,P表示命名實(shí)體識(shí)別實(shí)驗(yàn)的準(zhǔn)確率,Q表示結(jié)果中被正確識(shí)別的詞語數(shù),R表示結(jié)果中所有的實(shí)體數(shù)。召回率的求解如式(4)所示:
(4)
其中,R表示命名實(shí)體識(shí)別實(shí)驗(yàn)的召回率,Q表示結(jié)果中被正確識(shí)別的詞語數(shù),T表示文本中所有應(yīng)當(dāng)被識(shí)別的實(shí)體數(shù)。F1值的求解如式(5)所示:
(5)
3.3.1? CRF模型實(shí)驗(yàn)
實(shí)驗(yàn)中使用食品安全法律法規(guī)文本涉及的詞匯和詞性作為詞的特征輸入,借助CRF++0.58工具包實(shí)現(xiàn)對(duì)食品安全法律法規(guī)文本的命名實(shí)體識(shí)別。CRF模型訓(xùn)練需要特征模板,以便通過訓(xùn)練集提取特征函數(shù)。如圖5所示為特征模板的部分截圖。
圖5? 定制CRF特征模板
其中,U表示模板類型是Unigram Feature,每行中的% x[m, n]表示生成一個(gè)CRF中的點(diǎn)函數(shù)。
3.3.2? BiLSTM-CRF模型實(shí)驗(yàn)
針對(duì)該模型使用不同參數(shù)值進(jìn)行了多組實(shí)驗(yàn),根據(jù)實(shí)驗(yàn)機(jī)器具體環(huán)境修改Batch size參數(shù)為20,根據(jù)模型訓(xùn)練效果修改Dropout為0.5,修改Learning rate為0.001。
3.3.3? BERT-BiLSTM-CRF模型實(shí)驗(yàn)
在BERT-BiLSTM-CRF網(wǎng)絡(luò)模型實(shí)驗(yàn)中,使用到的訓(xùn)練數(shù)據(jù)如上文所述。由于數(shù)據(jù)和實(shí)驗(yàn)配置所限,選擇Bert-Base-Chinese版本進(jìn)行實(shí)驗(yàn),并選用模型中的默認(rèn)參數(shù)。其中sequence length設(shè)置為128,以減少因句長(zhǎng)過短導(dǎo)致的命名實(shí)體漏檢。
為了測(cè)試添加了特征的CRF模型、BiLSTM-CRF模型、BERT-BiLSTM-CRF模型在食品安全法律法規(guī)數(shù)據(jù)集上的效果,文章將這些模型應(yīng)用在命名實(shí)體識(shí)別任務(wù)中,設(shè)置了對(duì)比實(shí)驗(yàn)來驗(yàn)證模型的有效性,如圖6所示。
圖6? 實(shí)驗(yàn)結(jié)果對(duì)比圖
在食品安全法律法規(guī)數(shù)據(jù)集中,CRF模型取得了比BiLSTM-CRF模型更為優(yōu)越的效果,驗(yàn)證了對(duì)數(shù)據(jù)進(jìn)行預(yù)處理時(shí)根據(jù)數(shù)據(jù)特點(diǎn)對(duì)特征模板進(jìn)行定制的實(shí)效性。BERT-BiLSTM-CRF模型取得了最好的效果,相對(duì)于BiLSTM-CRF模型,前者的領(lǐng)域命名實(shí)體準(zhǔn)確率提高了0.22%,領(lǐng)域命名實(shí)體召回率提高了3.94%,F(xiàn)值提高了1.91%,說明它捕捉到了更長(zhǎng)距離的依賴和上下文信息,能夠顯著改良食品安全法律法規(guī)領(lǐng)域的命名實(shí)體識(shí)別。
使用BERT-BiLSTM-CRF模型識(shí)別并抽取出法規(guī)施行時(shí)間、地點(diǎn)、部門機(jī)構(gòu)、規(guī)范對(duì)象、約束食品類別等實(shí)體,作為對(duì)食品安全法規(guī)知識(shí)圖譜的實(shí)體擴(kuò)充。將結(jié)果與《GB 2760—2014食品添加劑使用標(biāo)準(zhǔn)》《T/CFLP 0022—2019食品冷庫(kù)溫度監(jiān)測(cè)規(guī)程》等領(lǐng)域的標(biāo)準(zhǔn)和規(guī)范進(jìn)行對(duì)照,保證識(shí)別結(jié)果的有效性和科學(xué)性。抽取后有效的食品安全法規(guī)實(shí)體數(shù)據(jù)量如表2所示。
表2? 識(shí)別實(shí)體統(tǒng)計(jì)表
實(shí)體類型 制定施行時(shí)間 地點(diǎn)名稱 部門機(jī)構(gòu) 規(guī)范對(duì)象 約束食品類別
實(shí)體個(gè)數(shù) 2 570 1 020 417 976 406
3.4? 知識(shí)抽取評(píng)價(jià)
知識(shí)抽取是知識(shí)圖譜構(gòu)建過程中的關(guān)鍵步驟,知識(shí)抽取的效率和準(zhǔn)確性決定了所構(gòu)建知識(shí)圖譜的質(zhì)量,因此評(píng)價(jià)食品安全知識(shí)圖譜和基于食品安全知識(shí)圖譜的分析系統(tǒng),需要對(duì)知識(shí)抽取的有效性進(jìn)行驗(yàn)證。根據(jù)食品安全政策體系,將法規(guī)分為六類,并從每類法規(guī)中隨機(jī)抽取法規(guī)文本段進(jìn)行抽取評(píng)估,比較模型抽取的效果。如表3所示,抽取準(zhǔn)確率較高,但在發(fā)生前綴、后綴省略和術(shù)語位置更換用詞等情況時(shí),會(huì)出現(xiàn)抽取識(shí)別失敗的問題。
4? 知識(shí)圖譜的存儲(chǔ)
根據(jù)知識(shí)圖譜中知識(shí)的類別,對(duì)實(shí)體、實(shí)體屬性和實(shí)體關(guān)系進(jìn)行存儲(chǔ)。本文中采用Protégé工具[9]進(jìn)行了本體的創(chuàng)建和存儲(chǔ)。對(duì)于實(shí)體和實(shí)體之間的關(guān)系,如國(guó)家層面的政策法規(guī)與國(guó)家級(jí)的食品安全監(jiān)管部門建立的聯(lián)系,規(guī)范某個(gè)食品類別的法規(guī)與生產(chǎn)企業(yè)、食品對(duì)象建立的聯(lián)系等,需要用三元組的形式進(jìn)行存儲(chǔ),使用Neo4j數(shù)據(jù)庫(kù)進(jìn)行有效表示,構(gòu)建食品安全法規(guī)知識(shí)圖譜。例如,為了滿足用戶對(duì)《食品安全法》具體章節(jié)條目?jī)?nèi)容的需求,本文將法規(guī)章節(jié)、法規(guī)條目作為實(shí)體內(nèi)容與法規(guī)名稱實(shí)體建立包含關(guān)系,組成實(shí)體關(guān)系三元組數(shù)據(jù),并將其導(dǎo)入Neo4j數(shù)據(jù)庫(kù)[10]中,形成法規(guī)內(nèi)容管理類圖譜,如圖7所示。
表3? 知識(shí)抽取對(duì)比表
基本法律 《中華人民共和國(guó)畜牧法》已由中華人民共和國(guó)第十屆全國(guó)人民代表大會(huì)常務(wù)委員會(huì)第十九次會(huì)議于……自2006年7月1日起施行 《中華人民共和國(guó)畜牧法》->法規(guī)名稱
全國(guó)人民代表大會(huì)常務(wù)委員會(huì)->部門機(jī)構(gòu)
2006年7月1日->施行時(shí)間
行政法規(guī) 其他食品生產(chǎn)經(jīng)營(yíng)者應(yīng)當(dāng)在依法取得相應(yīng)的食品生產(chǎn)許可、食品流通許可、餐飲服務(wù)許可后,辦理工商登記 食品生產(chǎn)經(jīng)營(yíng)者->規(guī)范對(duì)象
食品生產(chǎn)經(jīng)許可->規(guī)范對(duì)象
食品流通許可->規(guī)范對(duì)象
餐飲服務(wù)許可->規(guī)范對(duì)象
工商登記->規(guī)范對(duì)象
部門規(guī)章 生產(chǎn)企業(yè)必須在巴氏殺菌乳和超高溫滅菌乳包裝主要展示面上緊鄰產(chǎn)品名稱的位置 生產(chǎn)企業(yè)->規(guī)范對(duì)象
巴氏殺菌乳->約束視頻類別-乳及乳制品
滅菌乳->約束食品類別-乳及乳制品
當(dāng)用戶查詢有關(guān)某種食品添加劑的問題時(shí),結(jié)合食品名稱,通過知識(shí)圖譜挖掘到相關(guān)規(guī)章對(duì)于該添加劑功能、最大使用量和使用標(biāo)準(zhǔn)的約束。構(gòu)建<約束食品名稱>-<最大使用量>-<食品添加劑>三元組,將所得到的三元組數(shù)據(jù)存儲(chǔ)到Neo4j數(shù)據(jù)庫(kù)中。如圖8所示為食品添加劑子類圖譜。
5? 結(jié)? 論
通過爬蟲技術(shù)獲取了多源異構(gòu)的食品安全法律法規(guī)等相關(guān)語料和法律咨詢網(wǎng)站的問答數(shù)據(jù)語料。根據(jù)問答數(shù)據(jù)語料對(duì)用戶的需求進(jìn)行分析,總結(jié)出用戶的知識(shí)盲點(diǎn)和搜索重點(diǎn),以此確定研究方法和研究?jī)?nèi)容。在處理食品安全法律法規(guī)文本時(shí),根據(jù)法律法規(guī)文本用詞比較規(guī)范的特點(diǎn),使用基于規(guī)則的方法對(duì)部分實(shí)體、實(shí)體屬性和實(shí)體關(guān)系進(jìn)行抽取。對(duì)于規(guī)則不明顯的非結(jié)構(gòu)化法律法規(guī)文本語料,采用命名實(shí)體識(shí)別的方法完成領(lǐng)域命名實(shí)體識(shí)別。將抽取出的實(shí)體、實(shí)體屬性和實(shí)體關(guān)系存入圖數(shù)據(jù)庫(kù),構(gòu)建食品安全法規(guī)知識(shí)圖譜。
參考文獻(xiàn):
[1] 蔡嬌麗.國(guó)民收入、健康不平等與健康產(chǎn)業(yè)發(fā)展 [D].武漢:武漢理工大學(xué),2019.
[2] 張子洞.淺談人工智能產(chǎn)業(yè)的創(chuàng)新與發(fā)展——統(tǒng)籌推進(jìn)現(xiàn)代化經(jīng)濟(jì)體系建設(shè) [J].新絲路:上旬,2021(1):1-3.
[3] LI L Q,BI Z,YE H B,et al. Text-guided Legal Knowledge Graph Reasoning [C]//Knowledge Graph and Semantic Computing: Knowledge Graph Empowers New Infrastructure Construction. Singapore:Springer,2021:27-39.
[4] FILTZ E,KIRRANE S,POLLERES A. The Linked Legal Data Landscape: Linking Legal Data across Different Countries [J].Artificial Intelligence and Law,2021,29(4):485-539.
[5] 曾蘭蘭.刑事法律知識(shí)圖譜構(gòu)建技術(shù)研究 [D]. 貴陽(yáng):貴州大學(xué),2023.
[6] 徐博.當(dāng)前我國(guó)智慧法院建設(shè)問題研究 [D].武漢:華中師范大學(xué),2019.
[7] DANG N C,MORENO-GARC?A MN,PRIETAF D L. Sentiment Analysis Based on Deep Learning: A Comparative Study [J/OL].arXiv:2006.03541v1 [cs.CL].(2020-06-05).https://arxiv.org/abs/2006.03541.
[8] MU X F,WANG W,XU A P. Incorporating Token-level Dictionary Feature into Neural Model for Named Entity Recognition [J].Neurocomputing,2020,375:43-50.
[9] MUSEN M A. The Protégé Project: a Look Back and a Look Forward [J].AI Matters,2015,1(4):4-12.
[10] FERNANDES D,BERNARDINO J. Graph Databases Comparison: AllegroGraph, ArangoDB, InfiniteGraph, Neo4J, and OrientDB [C]//Proceedings of the 7th International Conference on Data Science, Technology and Applications DATA. Porto:Scitepress Digital Library,2018:373-380.
作者簡(jiǎn)介:張馨月(1995—),女,漢族,山西太原人,助教,碩士研究生,研究方向:知識(shí)圖譜。