楊 璐 張馨月 鄭麗敏
(1.中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院, 北京 100083; 2.食品質(zhì)量與安全北京實驗室, 北京 100083)
可視化是把數(shù)據(jù)信息轉(zhuǎn)換為人眼能識別的可視符號,是人機交互、虛擬現(xiàn)實應(yīng)用的關(guān)鍵技術(shù)[1]。圖可視化是信息可視化領(lǐng)域的一個重要分支, 又稱為關(guān)聯(lián)網(wǎng)絡(luò)、網(wǎng)絡(luò)或關(guān)聯(lián)圖,是關(guān)聯(lián)數(shù)據(jù)分析過程中的重要部分[2]。
為了對結(jié)構(gòu)語義進行可視化,研究者提出了文本的語義結(jié)構(gòu)可視化技術(shù)[3]。DAViewer將文本的敘述結(jié)構(gòu)語義以樹的形式進行可視化,同時進行了相似度統(tǒng)計、修辭結(jié)構(gòu),以及展示了相應(yīng)的文本內(nèi)容[4]。DocuBurst以放射狀層次圓環(huán)的形式表示文本結(jié)構(gòu)[5]。基于主題的文本聚類是文本數(shù)據(jù)挖掘的重要研究內(nèi)容,為了可視化表示文本聚類效果,通常將一維的文本信息投射到二維空間中,以便于對聚類的關(guān)系予以展示。Hipp是一種基于層次化點排布的投影方法,可廣泛用于文本聚類可視化[6]。在面對高維數(shù)據(jù)時,LAI等[7]提出一種通過局部增強的投影探索高維數(shù)據(jù)的交互式探索方案,以幫助用戶根據(jù)他們的興趣點和分析任務(wù)定制線性投影。
可視化分析視圖或分析系統(tǒng)是一種輔助數(shù)據(jù)分析和決策的技術(shù),能夠讓用戶更好地理解復(fù)雜的領(lǐng)域知識。CHEN 等[8]根據(jù)農(nóng)藥殘留數(shù)據(jù)的特點和食品安全領(lǐng)域的需求,提出一種基于層次聚類的關(guān)聯(lián)層次數(shù)據(jù)可視化分析方法。CHEN等[9]在面臨綜合比較多區(qū)域MRL標準數(shù)據(jù)的挑戰(zhàn)時,提出一種復(fù)雜層次數(shù)據(jù)多重比較可視化分析方法。CHUI 等[10]以多面板圖展現(xiàn)年齡、時間和疾病之間的相互作用,幫助流行病學(xué)家構(gòu)造了視覺分析圖。LI 等[11]提出了為不同背景的房地產(chǎn)市場用戶提供服務(wù)、滿足不同程度需求的交互式視覺分析系統(tǒng)。
近年來,農(nóng)產(chǎn)品及食品質(zhì)量安全事件時有發(fā)生,在給消費者帶來健康威脅的同時,也給行業(yè)帶來了沖擊[12]。食品安全相關(guān)的大數(shù)據(jù)通常具有多源、多維、時空、層次、關(guān)聯(lián)和不確定性等特征[13]。而對于食品安全這一特殊領(lǐng)域,監(jiān)控、溯源食品安全事件,進行風險評估和預(yù)警是十分重要的[14]。食品安全檢測是食品安全監(jiān)管的重要環(huán)節(jié),檢測環(huán)節(jié)的薄弱和缺失是我國出現(xiàn)食品安全問題的直接原因[15-16]。借助于可視化方式,能夠清晰地展現(xiàn)數(shù)據(jù)的表面特征,挖掘數(shù)據(jù)的內(nèi)在關(guān)系,總結(jié)不合格產(chǎn)品的產(chǎn)生原因, 對評價當前食品安全形勢、查找風險因素、引導(dǎo)監(jiān)管方向、推動食品行業(yè)健康發(fā)展具有重要作用。
為更好地挖掘以食品抽檢不合格報告為代表的數(shù)據(jù)關(guān)系,本文提出一種數(shù)據(jù)關(guān)系挖掘可視分析圖——ExploreView,展現(xiàn)數(shù)據(jù)集中的層次結(jié)構(gòu),同時提供隱藏在數(shù)據(jù)層次結(jié)構(gòu)中的關(guān)聯(lián)關(guān)系。
以2017年12月25日至2018年1月15日間的國家食品藥品監(jiān)督管理總局抽檢不合格報告的數(shù)據(jù)集為研究對象,共包含1 014條抽檢數(shù)據(jù)。不合格抽檢報告數(shù)據(jù)集一般包括標稱生產(chǎn)企業(yè)名稱、企業(yè)地址、被抽樣單位名稱、單位地址、食品名稱、規(guī)格型號、商標、生產(chǎn)日期及批號、不合格項目名稱、檢驗結(jié)果、標準值、食品分類、公告號、公告日期、任務(wù)來源和檢驗機構(gòu)等內(nèi)容。
對數(shù)據(jù)集進行數(shù)據(jù)預(yù)處理、規(guī)范化和特征提??;根據(jù)數(shù)據(jù)集的特點,建立數(shù)據(jù)模型,分析實際任務(wù)需求并進行映射;最后進行視覺元素編碼,完成可視化。
數(shù)據(jù)立方體是多維模型的形象概念。雖然立方體只有三維,但多維模型不限于此,可以組合更多的維度,展示更多維度的數(shù)據(jù)特征。食品的抽檢不合格報告維數(shù)眾多,經(jīng)過數(shù)據(jù)預(yù)處理、轉(zhuǎn)換,根據(jù)實際需要,能夠按照預(yù)先定義的多維模型,將數(shù)據(jù)加載進去。
實現(xiàn)多維數(shù)據(jù)操作的一種方法是使用維的層次關(guān)系,每個層次包含一個或多個維成員,多個層次中的維成員排列成多個層次,這種層次結(jié)構(gòu)為數(shù)據(jù)的上鉆和下鉆提供了基礎(chǔ)。實現(xiàn)多維數(shù)據(jù)操作的另一種方法是使用維內(nèi)元素的類,對應(yīng)類的屬性對維成員進行劃分,類屬性不同,得到的劃分也不同。層次和類是兩個不同的概念,層次有父子關(guān)系,而類的成員之間不存在父子關(guān)系,只反映成員的共同特征。
在對食品抽檢報告的分析中,既有按維的層次關(guān)系進行的分析,也有按維成員的類進行的分析。在層次關(guān)系上進行的分析,包括從維的低層次到高層次的數(shù)據(jù)綜合,即聚集分析,以及從維的高層次到低層次的數(shù)據(jù)鉆取分析。成員類的分析包括分類與歸納,分類是由粗粒度成員向細粒度成員進行的下探,歸納則是由細粒度成員向粗粒度成員進行的匯總。
聚合、組織數(shù)據(jù)集是將數(shù)據(jù)按照所需的n個維度進行轉(zhuǎn)換。比如,選擇食品、抽檢項目和地點3個維度,分別表示為F(食品)、P(項目)和L(地點),則笛卡爾乘積F×P×L隱喻地稱為數(shù)據(jù)立方體[17]。出于實際目的,3個集合F、P和L離散且有限。由指定食品f∈F、抽檢項目p∈P和地點l∈L組成的任何組合稱為立方體的點,表示為(f,p,l)。
任務(wù)分析是探索數(shù)據(jù)集三維空間中的研究對象的變化和關(guān)系。但是,不能從結(jié)構(gòu)F×P×L的高維度看到這種變化和關(guān)系,所以整個任務(wù)被分解成為更簡單的子任務(wù)??梢酝ㄟ^考慮其切片來完成任務(wù)分析,其中一個維度固定,探究剩余維度變量的變化和關(guān)系。例如,在F×P×L所構(gòu)成的數(shù)據(jù)立方體中,為了探究F和P之間的關(guān)系,就需要進行切片。在地點維上選定一個維成員,可得到地點維的一個切片。
將一些匯總運算符(求和、平均值等)應(yīng)用在一個維變量的多個值的多個切片上,可以聚合這些切片,稱為投影,如圖1b所示。投影的數(shù)據(jù)結(jié)構(gòu)和獲得它的切片(圖1a)的數(shù)據(jù)結(jié)構(gòu)相同,投影結(jié)構(gòu)中的值是來自切片的值的聚合[18]。
圖1 切片與投影模型示意圖Fig.1 Schematic diagrams of slice and projection model
本文用三維數(shù)據(jù)立方體的方式來簡化多維模型進行描述,并將其他維度作為切片或投影中的變量,使用二分圖進行表示。
通??梢孕问交瘜D表述為二元組(V,E),即G=(V,E),其中V為頂點集合,E為頂點間關(guān)聯(lián)關(guān)系所對應(yīng)的邊集合[19]。二分圖也稱二部圖,為圖論中的一種特殊模型,該類圖的特點是其頂點集可以分成2個不相交的集合,使得在同一個集合內(nèi)的頂點互不相鄰(沒有共同邊)[20]。如果M?E,并且M中沒有任何兩邊有公共端點且不含環(huán),則稱M為G的一個匹配。
圖3 食品與抽檢項目關(guān)系任務(wù)分析圖Fig.3 Schematic of data cube and bipartite graph model mapping
食品和地點形成二分圖,其中每個邊表示某個地點某種食品抽檢出不合格項目。類似地,食品和抽檢項目也形成二分圖,其中邊表示某種食品抽檢出某種不合格項目,如圖2所示。
圖2 數(shù)據(jù)立方體與二分圖模型映射示意圖Fig.2 Schematic of data cube and bipartite graph model mapping
食品抽檢報告內(nèi)容豐富,維數(shù)眾多,可根據(jù)需要選取適當維度映射為多維模型。本文以數(shù)據(jù)立方體為例來進行分析。經(jīng)過數(shù)據(jù)處理和特征提取,選擇3個維度F、P和L。在F×P×L數(shù)據(jù)立方體取一個切片,切點與其中一個維度內(nèi)的一個選定值相對應(yīng),并通過二分圖表示。相應(yīng)的分析任務(wù)就在切片內(nèi)進行,以降低多個變量變化造成的任務(wù)復(fù)雜度。基于數(shù)據(jù)立方體切片的任務(wù)包括:
(1)l→(F×P→M):對于選定的抽檢地點l∈L,M是食品集合F和抽檢項目集合P形成的二分圖的匹配。不同食品和不合格抽檢項目的關(guān)系如圖3所示。通過指定食品或樣品名稱篩選出不合格項目檢出情況,包括食品名稱、檢出項目名稱、檢出頻次、標準值、超標中位數(shù)等。進一步鉆取相關(guān)抽檢條目的具體信息,包括檢驗結(jié)果、檢驗機構(gòu)等。篩選出與某些特定食品檢出同一不合格項目的其他食品,并進行不合格項目的對比,包括項目名稱、檢驗結(jié)果、標準值、檢出頻次等。展示檢出不合格項目屬于一定項目類別內(nèi)的食品類型。分析檢出不合格項目頻次最高的食品種類名稱,并對應(yīng)顯示檢出項目的名稱、頻次、檢驗結(jié)果和標準值對比。
(2)f→(L×P→M):對于選定的被抽檢食品f∈F,M是抽檢地點集合L和抽檢項目集合P形成的二分圖的匹配。研究抽檢地點與抽檢不合格項目的關(guān)系,分析這些不合格項目的相似性關(guān)系。
(3)p→(L×F→M):對于選定的抽檢項目p∈P,M是抽檢地點集合L和食品集合F形成的二分圖的匹配。研究不同抽檢地點與抽檢不合格食品的關(guān)系,展示該地點范圍內(nèi)檢出不合格項目的食品種類、性質(zhì)。
投影是沿一個維度創(chuàng)建數(shù)據(jù)立方體內(nèi)容的聚合操作。聚合不但可以作為整體應(yīng)用于集合L、F和P,而且可以應(yīng)用于集合的子集[17]。任務(wù)類型與基于切片的任務(wù)相對應(yīng),包括:①∑L→(F×P→M),忽略抽檢地點因素,M是集合F和集合P形成的二分圖的匹配,研究不同食品和不合格抽檢項目的關(guān)系。②∑F→(L×P→M),對于所有食品一起考慮,M是集合L和集合P形成的二分圖的匹配,研究不同地點出現(xiàn)抽檢不合格項目的內(nèi)在邏輯。③∑P→(L×F→M),忽略所有抽檢不合格項目因素,M是集合L和集合F形成的二分圖的匹配,研究隨著地點變化,出現(xiàn)抽檢不合格的食品種類的變化趨勢。
從任務(wù)需求出發(fā),構(gòu)造ExploreView的層次圖、細節(jié)描述圖和關(guān)系挖掘圖,基于Gephi、D3.js[21]和Echarts.js[22]進行腳本編碼。數(shù)據(jù)傳輸?shù)秸埱蟮腏SON輸入結(jié)構(gòu)中,并且可以創(chuàng)建、調(diào)整、分析和下載生成的可視化效果。通過層次圖,可以對數(shù)據(jù)項有最基本的了解。通過細節(jié)描述圖,可以對食品藥品監(jiān)督管理局抽檢數(shù)據(jù)集中的具體數(shù)值進行獲取,對用戶關(guān)心并且鉆取的數(shù)據(jù)關(guān)系和細節(jié)進行詳細展示。通過關(guān)系挖掘圖,可以得到抽檢食品與不合格抽檢項目之間的關(guān)系,探索節(jié)點間的內(nèi)在關(guān)聯(lián)。
3.2.1層次圖
概覽視圖的作用為可視化食品藥品監(jiān)督管理局抽檢的基本情況。根據(jù)任務(wù)需求選擇合適的多維模型維度,再對每個維度進行展開。
首先展示抽檢基本信息,根據(jù)專家知識用層次樹展示食品種類和抽檢項目種類,展示這兩個維的層次關(guān)系,使用戶對展示對象有大概的了解。該樹圖可以根據(jù)需要進行展開和收縮,當樹中節(jié)點包含子節(jié)點時,節(jié)點顏色為灰色,否則為白色,如圖4所示。
圖4 層次圖示意圖Fig.4 Schematic of hierarchy
3.2.2細節(jié)描述圖
細節(jié)描述圖結(jié)合了多種視圖,其中包括可視化查詢條件篩選設(shè)計、檢測關(guān)系及頻率分布圖設(shè)計、時空熱力圖設(shè)計和檢測具體信息列表等,對用戶關(guān)心并且鉆取的數(shù)據(jù)關(guān)系和細節(jié)進行詳細展示,試圖提供一個多尺度的編碼方案來可視化用戶交互時不同層次的細節(jié)。數(shù)據(jù)鉆取是在分析時選擇數(shù)據(jù)立方體的投影方向,改變維的力度對數(shù)據(jù)進行層層深入的查看,主要是在建立分析時設(shè)定鉆取的維度和層次,在查看時通過鼠標點擊某個數(shù)據(jù)點時就能捕捉到下個頁面。具體步驟包括:
(1)獲取用戶選擇的省份lu并設(shè)為焦點,將焦點作為切點產(chǎn)生數(shù)據(jù)立方體切片,獲取切片對應(yīng)的檢測報告中的兩個維度,計算相關(guān)聯(lián)的二分圖G1,得到集合F1和P1,獲取相應(yīng)的食品名稱和檢測項目名稱。
(2)根據(jù)用戶分析的目標,連接集合F1和P1的相應(yīng)節(jié)點,計算得到新的二分圖G2,用力導(dǎo)向圖、圓環(huán)圖等進行數(shù)據(jù)的展示。
(3)在圓環(huán)圖中,將二分圖G2的食品集合F2和抽檢項目集合P2分別可視化為不同顏色的視覺元素,加以區(qū)分,以更好地體現(xiàn)兩者的關(guān)聯(lián)。計算G2所有的食品抽檢中的不合格檢測項目和檢出頻率,采用強對比度的配色方案,根據(jù)其值可視化映射為食品類型的節(jié)點顏色、抽檢項目的節(jié)點顏色、連線的粗細。若某種食品檢出某不合格項目,兩者之間就進行連線。所檢出的不合格項目頻率越高,連線越粗,與檢測頻率呈等比例關(guān)系展示,如圖5a所示。為了避免信息雜亂影響用戶體驗,當數(shù)據(jù)節(jié)點超過設(shè)定值時,抽檢項目名稱或食品名稱將根據(jù)需要被隱藏。為了避免不同食品曲線交錯復(fù)雜,用戶可以點擊感興趣的曲線,其他線段將被隱去,同時抽檢食品與抽檢項目及簡單的抽檢詳情以浮動窗口的形式展現(xiàn),如圖5b所示。
(4)用戶可以進行進一步分析,通過過濾不合格抽檢頻率、食品名稱、不合格項目類型,顯示符合要求的抽檢數(shù)據(jù),突出顯示用戶關(guān)心的內(nèi)容,展示經(jīng)過過濾得到的集合F3和P3的可視化結(jié)果,實現(xiàn)交互式動態(tài)協(xié)調(diào),如圖5c所示。
圖5 圓環(huán)圖Fig.5 Schematics of doughnut chart
(5)在3D柱狀圖中,將二分圖G2的食品集合F2和抽檢項目集合P2可視為橫縱坐標,過濾掉不需要的集合,分析一定范圍內(nèi)的食品集合F4和抽檢項目集合P4,并形成二分圖G4,以準確地顯示兩者的數(shù)量關(guān)系,并可視化為不同高度、不同顏色的視覺元素??v坐標Z表示檢出頻次,即所檢出的不合格項目頻率越高,柱狀越高,顏色越向暖色調(diào)接近。用戶可以進行進一步分析,通過過濾不合格抽檢頻率、食品名稱、不合格項目類型,展示符合要求的抽檢數(shù)據(jù),展示經(jīng)過過濾得到的食品集合F5和抽檢項目集合P5的可視化結(jié)果,如圖6所示。
圖6 3D柱狀圖Fig.6 Schematic of 3D histogram
(6)改變用戶焦點,獲取用戶選擇的食品類別Pu并設(shè)為焦點,使數(shù)據(jù)立方體沿著焦點軸的方向投影,計算切片相關(guān)聯(lián)的二分圖G6,得到抽檢地點集合L6和食品集合F6,獲取L6集合中所有元素在集合F6中對應(yīng)的關(guān)聯(lián)邊集合,并將關(guān)聯(lián)邊集合中的元素數(shù)量可視化為時空熱力圖中的不同顏色的視覺元素。用戶可以進行進一步分析,通過過濾食品名稱、不合格項目類型展示符合要求的抽檢數(shù)據(jù),展示各省份特定食品類型的特定項目檢出情況。若某不合格抽檢項目集中出現(xiàn),或按照某種規(guī)律出現(xiàn),展示出異常點的特征,就可能預(yù)示著即將爆發(fā)的食品安全事件,如圖7所示。
圖7 時空熱力圖Fig.7 Map of space-time heat
3.2.3關(guān)系挖掘圖
為了挖掘抽檢食品不合格項之間的關(guān)系,探索節(jié)點間的內(nèi)在關(guān)聯(lián),使用相似度計算和聚類分析數(shù)據(jù),并基于層次扇形綁定的思想,通過熱力散點同心圓圖展示聚類結(jié)果。用戶可通過點擊節(jié)點鉆取更加詳細的信息。關(guān)系挖掘圖的設(shè)計步驟如下:
(1)獲取抽檢產(chǎn)品名稱及其所屬食品類型,可根據(jù)食品類型進行動態(tài)過濾。
(2)根據(jù)抽檢產(chǎn)品的不合格項目類型和不合格項目與抽檢產(chǎn)品的關(guān)聯(lián)關(guān)系,確立食品類型數(shù)據(jù)點。首先根據(jù)《中華人民共和國食品安全法》等相關(guān)法律法規(guī)對每類食品的抽檢項目進行粗分類。然后將每個抽檢食品類型向量表示為
xi=(xi1,xi2,…,xin)
(1)
式中xi——第i個抽檢食品類型
xin——第i個抽檢食品與項目類別n的關(guān)系標識,若抽檢出的不合格項目屬于抽檢項目類別n,則標識值為1,反之為0
抽檢食品類型之間的距離計算公式表示為
d(xi,yj)=|xi1-yj1|+|xi2-yj2|+ …+|xin-yjn|
(2)
式中d(xi,yj)——第i個抽檢食品與第j個抽檢食品的距離
yj——第j個抽檢食品類型
yjn——第j個抽檢食品與項目類別n的關(guān)系標識,若抽檢出不合格項目屬于抽檢項目類別n,則標識值為1,反之為0
(3)根據(jù)實際需求確定聚類個數(shù),表示為k。根據(jù)抽檢食品類型之間的距離進行K-means聚類[23],得出聚類向量,迭代上述過程直到滿足聚類終止條件。
(4)根據(jù)上述聚類結(jié)果,所有節(jié)點組成k個簇。將最后的聚類結(jié)果寫入可視分析數(shù)據(jù)表,作為可視化映射的依據(jù)。
(5)用各個熱力散點同心圓圖展示各個簇的聚類結(jié)果。簇中的食品類型組成同心圓的外環(huán),以扇形外環(huán)的顏色代表食品的類型,如圖8a所示。
(6)抽檢項目的頻次和性質(zhì)可視化在同心圓的內(nèi)部。扇形外環(huán)代表的食品對應(yīng)的檢出項目類型以扇形同心圓形式按照總的檢出頻率由大到小由外向內(nèi)排列,如圖8b所示,屬于同一類別的檢出項目半徑相同。節(jié)點的大小代表具體檢出項目的檢出頻次,節(jié)點的顏色代表不同的檢出項目,如圖8c所示。
圖8 關(guān)系挖掘圖示意圖Fig.8 Schematics of relationship mining map
為驗證視圖的有效性,利用ExploreView對食品藥品監(jiān)督管理局發(fā)布的不合格食品抽檢報告進行可視分析。
視圖提供了直觀的交互功能。過濾條件選擇窗口支持對一定類型、頻次和時間的檢測項目進行過濾。用戶可以對視圖進行拖動、放大或縮小,并進行多個視圖的鏈接分析。如圖9a所示,在過濾條件選擇窗口,用戶選擇了茶葉及其相關(guān)制品、糕點、蜂產(chǎn)品等食品類型,選擇不合格頻次為3~25次。經(jīng)過動態(tài)過濾,用戶可通過生成的視圖得到相關(guān)食品的不合格項目檢出情況,并獲得兩者的關(guān)聯(lián)關(guān)系。如圖9b所示,由于節(jié)點個數(shù)小于之前設(shè)定的完全顯示節(jié)點最大數(shù)(30個),所以所有的節(jié)點都進行了顯示。其中,食品類型的節(jié)點(茶葉及其相關(guān)制品、糕點、調(diào)味品和蜂產(chǎn)品)分別為深藍色、孔雀藍、薄荷綠和橙色,其他抽檢項目節(jié)點為紅色??梢院苊黠@地看出,糕點類型和調(diào)味品類型的食品抽檢出的不合格項目最多(連線較多),且頻次高(連線相對而言較粗)。將鼠標置于“調(diào)味品”節(jié)點上,如圖9c所示,可以突出顯示調(diào)味品在選定時間范圍內(nèi)檢測出的不合格項目名稱。將鼠標置于“調(diào)味品”和“糖精鈉(以糖精計)”之間的連線上,可以顯示兩者之間的抽檢關(guān)系,包括檢測不合格頻次、標準值和超標值中位數(shù),如圖9d所示。將鼠標置于抽檢項目中的“糖精鈉(以糖精計)”節(jié)點上,可以突出顯示檢出此種不合格項目的食品類型,即蜂產(chǎn)品、調(diào)味品和糕點,如圖9e所示。如果僅想保留本次食品、抽檢項目的計算關(guān)聯(lián)邊,可在過濾條件選擇窗口刪除多余的節(jié)點項目,并由此進行更深入的分析和數(shù)據(jù)鉆取。
在圖9f中,可以看出抽檢項目和食品類型之間的數(shù)量關(guān)系??梢园l(fā)現(xiàn),大多數(shù)抽檢的檢出頻次在5次以下,但其中“糕點”的不合格抽檢項目“防腐劑混合使用時各自用量占其最大使用量的比例之和”的柱形為紅色,頻次高達25次,且標準值為小于1,超標值中位數(shù)為1.5。
在過濾條件選擇窗口,選擇“糕點”這一類型,選擇添加劑相關(guān)的不合格抽檢項目。如圖9g所示,圖中有標記的省份都在該食品類型中抽檢出了該不合格項目,綠色節(jié)點、黃色節(jié)點至紅色節(jié)點的顏色過渡代表抽檢不合格頻次的增加。其中紅色所標記的省份河南省抽檢出的頻次最多,應(yīng)當引起有關(guān)部門的重視。將鼠標置于節(jié)點上,可查看該省份、該食品種類、該抽檢項目的具體抽檢信息,比如在所選時間段內(nèi),北京市糕點食品被抽檢出添加劑項目不合格的頻次為2次,在全國范圍內(nèi)屬于不合格頻次較低的省份。
圖9 案例分析效果Fig.9 Schematics of case analysis
對所有抽檢信息進行過濾、聚類,可得到不合格抽檢項目與被抽檢食品的相關(guān)性信息。如圖9h所示,視圖中展示了不合格抽檢項目分類信息的層次關(guān)系,不合格抽檢項目之間的關(guān)聯(lián)關(guān)系以及被抽檢食品與不合格抽檢項目的關(guān)聯(lián)關(guān)系。通過鉆取點擊可知,“添加劑”不合格項目包括“防腐劑混合使用時各自用量占其最大使用量的比例之和”、“脫氫乙酸及其鈉鹽”、“山梨酸及其鉀鹽”等內(nèi)容?!拔⑸铩表椖康摹按竽c桿菌”和“菌落總數(shù)”等經(jīng)常被同時檢測出不合格。通過聚類可知,肉制品、調(diào)味品、飲料、方便食品、酒類在理化指標、微生物和添加劑這幾類項目上經(jīng)常出現(xiàn)不合格現(xiàn)象,這與它們的食品理化性質(zhì)有關(guān),也與加工過程有關(guān),生產(chǎn)過程或者保存過程中的不合規(guī)操作行為具有相似性,需要根據(jù)具體情況給予更多關(guān)注。比如,調(diào)味品和肉制品頻繁在添加劑項目上出現(xiàn)不合格現(xiàn)象,突出表現(xiàn)在“防腐劑混合使用時各自用量占其最大使用量的比例之和”這一方面,反映出企業(yè)可能忽視了混合使用防腐劑時對其使用量的控制。而肉制品和飲料在微生物項目上常常不達標。因此,有關(guān)部門在抽檢發(fā)現(xiàn)某種食品的某種項目不達標現(xiàn)象時,也應(yīng)對聚類得到的類似食品種類提高警惕,注意潛在的共性和聯(lián)系,根據(jù)實際情況重點抽檢。
提出了一種挖掘數(shù)據(jù)關(guān)系的可視分析視圖ExploreView。在展示數(shù)據(jù)信息基本情況的同時,根據(jù)用戶的實際需求進行動態(tài)交互,體現(xiàn)數(shù)據(jù)的屬性和數(shù)據(jù)間的各種層次結(jié)構(gòu)以及關(guān)聯(lián)關(guān)系。用指定時間內(nèi)食品藥品監(jiān)督管理局食品抽檢不合格報告的信息數(shù)據(jù)集對本文方法進行驗證,結(jié)果表明,ExploreView可以全面地展示數(shù)據(jù)基本信息,并挖掘出不合格抽檢項目的細節(jié)層次關(guān)系、關(guān)聯(lián)關(guān)系、潛在的相似性,以及被抽檢食品與抽檢項目的關(guān)聯(lián)信息,實現(xiàn)對統(tǒng)計分布結(jié)果的展示和交互,為食品質(zhì)量安全的監(jiān)測和預(yù)警提供幫助。