張寅升,秦貝貝,向劍勤,張燕新,王海燕*
浙江工商大學(xué)(杭州 310018)
食品添加劑是指為改善食品的品質(zhì)和色、香、味以及為防腐和加工工藝的需要而加入食品中的化學(xué)合成或天然的物質(zhì)[1]。添加劑的非法、過(guò)量使用和濫用情況持續(xù)存在,給民眾健康、行業(yè)發(fā)展以及政府監(jiān)管帶來(lái)挑戰(zhàn)。圍繞食品安全及添加劑監(jiān)管問(wèn)題,國(guó)外部分學(xué)者認(rèn)為食品安全監(jiān)管是各利益主體之間的博弈[2]。研究主題也多是關(guān)注于食品安全本身及社會(huì)背景,如消費(fèi)者行為[3]及政府監(jiān)管方式等。國(guó)內(nèi)學(xué)者則總結(jié)分析添加劑濫用引發(fā)的安全問(wèn)題并提出對(duì)策[4-5]。同時(shí),添加劑作用機(jī)理研究、檢測(cè)技術(shù)研發(fā)和膳食開發(fā)等方面的研究也未止步[6-8]。
從現(xiàn)有文獻(xiàn)來(lái)看,針對(duì)食品安全及食品添加劑問(wèn)題的研究大多集中在完善管理機(jī)制、提高添加劑檢測(cè)技術(shù)水平、發(fā)現(xiàn)添加劑的新應(yīng)用領(lǐng)域等方面,運(yùn)用文本挖掘分析食品添加劑的數(shù)據(jù)驅(qū)動(dòng)型研究仍處于新興階段[9]?;谝陨媳尘?,文章通過(guò)關(guān)聯(lián)規(guī)則學(xué)習(xí)與文本挖掘技術(shù),從政府抽檢數(shù)據(jù)和新聞通報(bào)等多渠道信息來(lái)源中獲取不同食品與相應(yīng)食品添加劑的關(guān)聯(lián)強(qiáng)度/支持度,構(gòu)建可視化的知識(shí)圖譜,借以直觀了解特定食品易含有的非法添加劑和食用添加劑種類,并應(yīng)用時(shí)空演化分析,得到食品安全事件的區(qū)域性和季節(jié)性特征。
數(shù)據(jù)資源是準(zhǔn)確分析問(wèn)題和科學(xué)決策的基礎(chǔ),獲取到包含食品實(shí)體與添加劑實(shí)體之間關(guān)聯(lián)關(guān)系的知識(shí)圖譜是解決分析問(wèn)題的關(guān)鍵。食品安全問(wèn)題的信息具有極強(qiáng)的主題性,因此若要構(gòu)建食品實(shí)體與添加劑實(shí)體的知識(shí)圖譜、實(shí)現(xiàn)食品安全事件的時(shí)空演化,需要構(gòu)建食品安全主題語(yǔ)料庫(kù)并從中提取食品、添加劑、時(shí)間、地點(diǎn)等關(guān)鍵實(shí)體?;谏鲜鲞壿?,文章中所用到的整體研究方案見(jiàn)圖1。
圖1 整體研究方案
第一步:數(shù)據(jù)采集與清洗。數(shù)據(jù)采集包括官方發(fā)布的食品添加劑界定文件以及通過(guò)網(wǎng)絡(luò)爬蟲工具收集食品安全相關(guān)的新聞報(bào)道、事件通報(bào)、網(wǎng)購(gòu)評(píng)論、消費(fèi)者輿情等文本數(shù)據(jù)。數(shù)據(jù)清洗時(shí)完成無(wú)用字符的刪除以及數(shù)據(jù)格式的轉(zhuǎn)換。網(wǎng)絡(luò)評(píng)論、消費(fèi)者輿情等網(wǎng)絡(luò)文本可能涉及企業(yè)、法人或消費(fèi)者的隱私信息,針對(duì)此類數(shù)據(jù),在數(shù)據(jù)采集和數(shù)據(jù)清洗階段將使用脫敏和匿名化技術(shù)處理。
第二步:構(gòu)建食品安全事件語(yǔ)料庫(kù)。語(yǔ)料庫(kù)中的每條文本記錄包含了食品安全事件的關(guān)鍵信息,如事件時(shí)間、地點(diǎn)、事件原因、不合格食品種類、非法或超量添加劑種類等特征。通過(guò)設(shè)置定期運(yùn)行的爬蟲腳本,可以不斷更新和擴(kuò)展該語(yǔ)料庫(kù)。
第三步:構(gòu)建知識(shí)圖譜。對(duì)語(yǔ)料庫(kù)中的信息完成分詞與詞頻統(tǒng)計(jì)操作,并進(jìn)行基于詞典的命名實(shí)體識(shí)別(Dictionary-based named entity recognition,NER)與關(guān)聯(lián)提取,根據(jù)實(shí)體共現(xiàn)頻率構(gòu)建食品和添加劑的知識(shí)圖譜,并使用力導(dǎo)向圖進(jìn)行知識(shí)圖譜的交互可視化。
第四步:時(shí)空演化分析。時(shí)空演化的可視化使用cpca(chinese_province_city_area_mapper)實(shí)現(xiàn),cpca可用于提取簡(jiǎn)體中文字符串中省、市和區(qū),并能夠進(jìn)行繪圖。在提取語(yǔ)料庫(kù)中的時(shí)空信息后應(yīng)用cpca進(jìn)行圖像的繪制。
在構(gòu)建食品實(shí)體與添加劑實(shí)體的知識(shí)圖譜時(shí)用到了力導(dǎo)向圖,其依托于力導(dǎo)向布局可視化算法實(shí)現(xiàn),在此對(duì)相關(guān)算法的原理進(jìn)行介紹。
1.3.1 力導(dǎo)向布局算法
力導(dǎo)向布局算法的原理是自然界中電子之間的相互作用。在力導(dǎo)向布局算法中,各節(jié)點(diǎn)和連線的位置是通過(guò)斥力和引力的作用不斷更新的,在力的作用下節(jié)點(diǎn)經(jīng)過(guò)不斷位移之后趨于平衡[10]。
力導(dǎo)向布局算法中的引力與斥力按式(1)和(2)計(jì)算。
式(1)中:d為兩節(jié)點(diǎn)之間的笛卡爾距離;K為調(diào)節(jié)全局節(jié)點(diǎn)之間的斥力常量;符號(hào)“-”為斥力的表征方向。
式(2)中:H為彈簧力的倔強(qiáng)系數(shù);Li為第i層的默認(rèn)彈簧長(zhǎng)度,且Li/Li+1=I,即第i層和第i+1層的邊長(zhǎng)比值為一個(gè)固定常數(shù)I[11]。
力導(dǎo)向布局算法因其結(jié)果具有良好的對(duì)稱性和局部聚合性而被廣泛應(yīng)用于知識(shí)圖譜和復(fù)雜網(wǎng)絡(luò)的可視化中。
文章針對(duì)食品安全問(wèn)題,使用了五類數(shù)據(jù)來(lái)源,見(jiàn)表1。其中從《食品監(jiān)督抽查不合格信息》《食品中可能違法添加的非食用物質(zhì)和易濫用的食品添加劑名單》中整理出食品和添加劑的術(shù)語(yǔ),作為初始的領(lǐng)域詞典。從《中國(guó)食品安全網(wǎng)-抽檢通告》《食安網(wǎng)-食品安全專欄》《食安網(wǎng)-曝光臺(tái)專欄》中挖掘食品安全事件中食品實(shí)體與添加劑實(shí)體的關(guān)聯(lián)關(guān)系及食品安全事件的時(shí)空實(shí)體,為構(gòu)建知識(shí)圖譜和時(shí)空演化分析等應(yīng)用奠定基礎(chǔ)。
表1 數(shù)據(jù)來(lái)源
2.2.1 構(gòu)建初始領(lǐng)域詞典
首先,從《食品監(jiān)督抽查不合格信息》《食品中可能違法添加的非食用物質(zhì)和易濫用的食品添加劑名單》中獲取添加劑的術(shù)語(yǔ),并手動(dòng)添加缺失的添加劑術(shù)語(yǔ),確定最終的添加劑名單。然后,按照(食品,添加劑,關(guān)聯(lián)強(qiáng)度)的格式對(duì)獲取到的食品和對(duì)應(yīng)添加劑等數(shù)據(jù)進(jìn)行提取處理,獲取到4 548種食品種類、275種添加劑及7 075組表示食品與相應(yīng)添加劑關(guān)聯(lián)強(qiáng)度的組合信息。
2.2.2 構(gòu)建食品安全事件主題語(yǔ)料庫(kù)
食品安全事件的關(guān)鍵信息包括事件時(shí)間、地點(diǎn)、事件原因、不合格食品種類、非法或超量添加劑種類等特征。通過(guò)網(wǎng)絡(luò)爬蟲工具收集“中國(guó)食品安全網(wǎng)-抽檢報(bào)告”“食安網(wǎng)-食品安全專欄”“食安網(wǎng)-曝光臺(tái)專欄”中與食品安全相關(guān)的文本數(shù)據(jù),對(duì)初始領(lǐng)域詞典進(jìn)行補(bǔ)充,并根據(jù)食品安全事件的相關(guān)特征構(gòu)建食品安全事件語(yǔ)料庫(kù),最終得到一個(gè)包含13 698份文本的專題語(yǔ)料庫(kù)。
2.3.1 命名實(shí)體提取
2.3.1.1 分詞與詞頻統(tǒng)計(jì)
常用的分詞工具有jieba、HanLP(漢語(yǔ)言處理包)、SnowNLP(中文的類庫(kù))、Jiagu(甲骨NLP)、pyltp(哈工大語(yǔ)言云)等,通過(guò)對(duì)不同分詞工具的效果進(jìn)行測(cè)試發(fā)現(xiàn),Jiagu(甲骨NLP)在MSR(微軟亞洲研究院語(yǔ)料庫(kù))、PKU(人民日?qǐng)?bào)語(yǔ)料庫(kù))等多個(gè)數(shù)據(jù)集上表現(xiàn)最優(yōu)。因此,最終選用Jiagu(甲骨NLP)對(duì)所獲得食品安全事件主題語(yǔ)料庫(kù)進(jìn)行分詞,接著利用遍歷對(duì)關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì)并實(shí)現(xiàn)詞云可視化。
2.3.1.2 詞云可視化
對(duì)語(yǔ)料庫(kù)中的食品實(shí)體與添加劑實(shí)體進(jìn)行詞頻統(tǒng)計(jì)與可視化,詞云可視化效果見(jiàn)圖2。
圖2 詞云可視化
通過(guò)詞云可視化可以清晰關(guān)注到語(yǔ)料庫(kù)中食品種類和添加劑種類出現(xiàn)的頻率。在食品種類中,茶葉的出現(xiàn)次數(shù)最多;在添加劑種類中,鉛和鎘的出現(xiàn)次數(shù)居于首位。
2.3.2 構(gòu)建知識(shí)圖譜
2.3.2.1 知識(shí)圖譜的構(gòu)建
知識(shí)圖譜構(gòu)建的依據(jù)是食品實(shí)體和添加劑實(shí)體的共現(xiàn)頻率(關(guān)聯(lián)強(qiáng)度),語(yǔ)料庫(kù)中食品實(shí)體與添加劑實(shí)體關(guān)聯(lián)強(qiáng)度前十的組合見(jiàn)表2。
表2 食品實(shí)體與添加劑實(shí)體的關(guān)聯(lián)強(qiáng)度(前10位)
這十條語(yǔ)義關(guān)聯(lián)反映了不恰當(dāng)使用食品添加劑的最典型、最廣泛的幾個(gè)場(chǎng)景,下面將逐一分析,并為監(jiān)管部門提供重點(diǎn)抽檢參考。
鳊魚和黃鱔中檢測(cè)出環(huán)丙沙星的頻率高居榜首。環(huán)丙沙星(ciprofloxacin,CIP)是恩諾沙星(enrofloxacin,ENR)在動(dòng)物體內(nèi)發(fā)生脫乙基反應(yīng)生成的具有活性的代謝產(chǎn)物,具有毒副作用且極易產(chǎn)生耐藥性。恩諾沙星是第一個(gè)動(dòng)物專用的抗生素,人若是長(zhǎng)期使用則會(huì)影響軟骨發(fā)育,產(chǎn)生畸形。目前NY 5071—2002《無(wú)公害食品漁用藥物使用準(zhǔn)則》[12]已將環(huán)丙沙星列為禁用漁藥。GB 31650—2019《食品安全國(guó)家標(biāo)準(zhǔn)食品中獸藥最大殘留限量》[13]將水產(chǎn)動(dòng)物中ENR及其代謝產(chǎn)物CIP的總殘留限量定為100 μg/kg,但近年來(lái)在各類食品的抽檢中,常有在淡水魚中檢測(cè)出超標(biāo)恩諾沙星的問(wèn)題。
在年糕中檢測(cè)出的脫氫乙酸是能夠抑制酵母菌、霉菌繁殖的防腐劑,如按照國(guó)家規(guī)定的劑量使用食用后不會(huì)在體內(nèi)殘留,但如果超量,則會(huì)造成皮膚問(wèn)題,在2021年已被禁用;在豇豆中檢測(cè)出的甲氨基阿維菌素苯甲酸鹽(甲維鹽)則是一款常用綠色生物殺蟲劑,少量殘留對(duì)身體無(wú)害,但若是長(zhǎng)期使用甲維鹽超標(biāo)的食品則會(huì)對(duì)人體造成影響;海蜇中的鋁是由于多次使用鹽礬造成的,高濃度的鋁殘留會(huì)迫害人體腎臟和神經(jīng)系統(tǒng);香蕉和老姜中檢測(cè)出的噻蟲胺則是一種新型殺蟲劑,與常規(guī)農(nóng)藥無(wú)交互抗性,但仍是要在標(biāo)準(zhǔn)劑量范圍內(nèi)使用。
2.3.2.2 知識(shí)圖譜的可視化
前文完成各種食品類型和相應(yīng)添加劑的關(guān)聯(lián)強(qiáng)度/支持度的提取,形成了食品實(shí)體和添加劑實(shí)體的知識(shí)圖譜,為使食品實(shí)體與添加劑實(shí)體的關(guān)聯(lián)情況更清晰直觀,提高關(guān)聯(lián)信息的可解讀性,文章基于Apache ECharts使用力導(dǎo)向圖實(shí)現(xiàn)了知識(shí)圖譜Web端的交互可視化,效果見(jiàn)圖3。
通過(guò)對(duì)圖3的觀察可以得知,得到的關(guān)于[食品,添加劑,關(guān)聯(lián)強(qiáng)度]的知識(shí)圖譜直觀展示了同一食品類型與不同添加劑之間的關(guān)聯(lián)強(qiáng)度關(guān)系以及不同產(chǎn)品類型容易檢測(cè)出哪些添加劑。
以我國(guó)大宗淡水養(yǎng)殖魚類鳊魚為例,鳊魚實(shí)體與添加劑實(shí)體關(guān)聯(lián)強(qiáng)度知識(shí)圖譜見(jiàn)圖4。在此次爬取的數(shù)據(jù)中,在鳊魚中檢測(cè)出了孔雀石綠、氯霉素、硝基呋喃代謝物、地西泮、培氟沙星、環(huán)丙沙星、恩諾沙星、磺胺類藥物和鋁共9種添加劑。
圖4 鳊魚實(shí)體與添加劑實(shí)體關(guān)聯(lián)強(qiáng)度知識(shí)圖譜
其中:孔雀石綠、氯霉素、硝基呋喃代謝物因致癌、致畸、引起再生障礙性貧血等副作用被列為禁用藥物[14];地西泮則是第二類精神藥品,有致癌風(fēng)險(xiǎn);培氟沙星是一種通過(guò)干擾DNA的復(fù)制和菌體蛋白的合成發(fā)揮作用的抗生素,已被停用;起殺菌、防腐作用的環(huán)丙沙星、恩諾沙星、磺胺類藥物和鋁(鹽礬的殘留)常在鳊魚的加工環(huán)節(jié)中用到,但是常被檢測(cè)出超標(biāo),如環(huán)丙沙星和恩諾沙星的含量之和要<100 μg/kg、磺胺嘧啶等12種磺胺類總量要<100 μg/kg[15]。
以上數(shù)據(jù)說(shuō)明在鳊魚的加工制作中濫用環(huán)丙沙星、恩諾沙星、磺胺類藥物和鹽礬(殘留物為鋁)較為普遍,是監(jiān)管部門、消費(fèi)者及相關(guān)上下游企業(yè)應(yīng)重點(diǎn)關(guān)注的食品質(zhì)量安全項(xiàng)目。綜上,構(gòu)建出食品與相應(yīng)添加劑的知識(shí)圖譜后,食品與添加劑之間的關(guān)系更為直觀,能夠提升社會(huì)公眾以及相關(guān)部門對(duì)食品安全現(xiàn)狀的認(rèn)知,并指導(dǎo)后續(xù)的購(gòu)買、抽檢、政策制定等行為。
知識(shí)圖譜本質(zhì)上是由具有屬性的實(shí)體通過(guò)關(guān)系鏈接而成的網(wǎng)狀知識(shí)庫(kù),單獨(dú)使用難以直觀表示食品安全事件的分布以及發(fā)展態(tài)勢(shì),時(shí)空演化的可視化則充分利用了從新聞報(bào)道、網(wǎng)絡(luò)輿情等文本數(shù)據(jù)中實(shí)時(shí)提取食品安全事件的時(shí)間和地理信息,為特定的食品安全事件渲染時(shí)空演化過(guò)程,使得讀者了解重大事件的起源、發(fā)展和消亡,以及不同食品的區(qū)域性和季節(jié)性風(fēng)險(xiǎn)特征。
根據(jù)語(yǔ)料庫(kù)中食品安全事件的時(shí)空信息,對(duì)2014—2022年間的數(shù)據(jù)以三年為一組進(jìn)行可視化,同時(shí)按照季度分類進(jìn)行可視化,得到如圖5和圖6所示的年份分布圖和季度分布圖。從圖5和圖6中可以直觀看出在不同年份下食品安全事件發(fā)生的分布特點(diǎn)以及各季度下食品安全事件發(fā)生的分布特點(diǎn)。圖中顏色越深,則表示該區(qū)域安全事件發(fā)生的頻率越高。
圖5 食品安全事件年份分布圖
圖6 食品安全事件季度分布圖
以上介紹的知識(shí)圖譜交互可視化及時(shí)空演化技術(shù),有望推廣到更多的應(yīng)用場(chǎng)景中,能夠發(fā)現(xiàn)研究對(duì)象之間的隱含聯(lián)系,為決策行為提供支撐依據(jù)。
3.1.1 開放的、自動(dòng)定期更新的專題語(yǔ)料庫(kù)
基于目前由于食品添加劑相關(guān)數(shù)據(jù)多源異構(gòu)造成的問(wèn)題,初步整合互聯(lián)網(wǎng)上的分散數(shù)據(jù),部署了一個(gè)支持公開訪問(wèn)、可自動(dòng)更新的食品添加劑專題語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)可以作為研究食品安全及食品添加劑問(wèn)題的基礎(chǔ)性工具,提供已經(jīng)整理好的添加劑名單,相關(guān)研究可以基于此語(yǔ)料庫(kù)開展。
3.1.2 開放的、自動(dòng)定期更新的可視化知識(shí)圖譜和時(shí)空演化
表示食品實(shí)體與添加劑實(shí)體關(guān)聯(lián)關(guān)系的可視化知識(shí)圖譜以及表示食品安全事件區(qū)域性、季節(jié)性風(fēng)險(xiǎn)特征的可視化時(shí)空演化同樣是自動(dòng)更新且可公開訪問(wèn)的。政府監(jiān)管部門、研究同行及其他想要了解食品安全問(wèn)題的群體,均可通過(guò)此種方式對(duì)食品添加劑不恰當(dāng)使用的實(shí)時(shí)情況以及食品安全事件的時(shí)空演化過(guò)程有一個(gè)直觀的掌握。
針對(duì)研究的不足之處,為能夠更簡(jiǎn)便、準(zhǔn)確地為決策行為提供依據(jù),表示食品實(shí)體與添加劑實(shí)體關(guān)聯(lián)度的知識(shí)圖譜仍需不斷完善,未來(lái)的研究可以從以下問(wèn)題進(jìn)行展開。
3.2.1 語(yǔ)義粒度的細(xì)化處理
研究在爬取添加劑實(shí)體信息時(shí),未將添加劑進(jìn)行細(xì)化分類,在實(shí)際應(yīng)用中,添加劑可以按照不同的性質(zhì)分為食用/不可食用,抑或是加工合成/天然形成,還可按照作用和功能分類為抗氧化劑、漂白劑、著色劑和營(yíng)養(yǎng)強(qiáng)化劑等[1]。后續(xù)工作可以考慮將分類信息作為添加劑實(shí)體的屬性,細(xì)化語(yǔ)義粒度,構(gòu)建更加詳細(xì)的知識(shí)圖譜應(yīng)用。
另外,目前只是對(duì)食品實(shí)體是否含有添加劑進(jìn)行提取,而未對(duì)添加劑的含量進(jìn)行判定和約束。科學(xué)表明,符合國(guó)家標(biāo)準(zhǔn)的合理適量的食品添加劑使用并不會(huì)對(duì)人體健康產(chǎn)生威脅。因此,后面還可以考慮將提取到的添加劑含量融合到語(yǔ)義關(guān)聯(lián)強(qiáng)度的計(jì)算中。
在時(shí)空演化應(yīng)用中,后續(xù)可以考慮細(xì)化到市縣級(jí)層次,在各個(gè)省份內(nèi)做時(shí)空分析,以獲取地域性更強(qiáng)的時(shí)空演化規(guī)律。
3.2.2 新命名實(shí)體的處理
隨著食品技術(shù)和化學(xué)工業(yè)的發(fā)展,新型食品及新食品添加劑的產(chǎn)生是不可避免的,準(zhǔn)確高效地識(shí)別新的命名實(shí)體是一個(gè)重要挑戰(zhàn)。采用經(jīng)典的基于詞典(dictionary-based)的方法,為發(fā)現(xiàn)新出現(xiàn)的命名實(shí)體,需要持續(xù)及時(shí)地更新領(lǐng)域詞典。為克服該不足,后面可以嘗試基于規(guī)則(rule-based)和代表最前沿(state-of-the-art,SOTA)的基于深度學(xué)習(xí)(deep learning-based,DL)的方法。其中,基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法能夠基于海量文本數(shù)據(jù),習(xí)得各種單詞之間的語(yǔ)義和句法關(guān)系,其魯棒性和有效性得到了保證[16]。
3.2.3 APP/小程序的開發(fā)
專題語(yǔ)料庫(kù)、知識(shí)圖譜以及代碼庫(kù)可服務(wù)于研究機(jī)構(gòu)和學(xué)者的二次開發(fā)及科研,但對(duì)于普通消費(fèi)者群體,存在一定的技術(shù)壁壘。為此,后續(xù)將進(jìn)行APP/小程序的開發(fā),提供面向消費(fèi)端的知識(shí)圖譜和時(shí)空演化等應(yīng)用,并定期推送食品添加劑相關(guān)的事件統(tǒng)計(jì)信息。