郝志剛,秦 麗,2*
(1.華中農(nóng)業(yè)大學(xué)信息學(xué)院,武漢 430070;2.湖北省農(nóng)業(yè)大數(shù)據(jù)工程技術(shù)研究中心(華中農(nóng)業(yè)大學(xué)),武漢 430070)
食品安全國(guó)家標(biāo)準(zhǔn)的起草和實(shí)施是我國(guó)食品安全體系建設(shè)中重要的一環(huán)。隨著食品行業(yè)的發(fā)展以及食品安全體系建設(shè)的不斷完善,現(xiàn)有的食品標(biāo)準(zhǔn)數(shù)量已經(jīng)達(dá)到上千個(gè)。普通民眾很難對(duì)這些食品標(biāo)準(zhǔn)有一個(gè)清晰的認(rèn)識(shí),而且由于我國(guó)食品安全標(biāo)準(zhǔn)體系仍不完善,各標(biāo)準(zhǔn)之間不協(xié)調(diào)統(tǒng)一,這導(dǎo)致標(biāo)準(zhǔn)的審查和執(zhí)行上也存在問(wèn)題,特別是標(biāo)準(zhǔn)更新周期的不一致,有些標(biāo)準(zhǔn)更新周期長(zhǎng),標(biāo)準(zhǔn)的版本較早;有些標(biāo)準(zhǔn)更新周期短,存在多個(gè)標(biāo)準(zhǔn)。食品生產(chǎn)企業(yè)和食品質(zhì)檢部門(mén)如果對(duì)這些標(biāo)準(zhǔn)的認(rèn)識(shí)不統(tǒng)一,將會(huì)導(dǎo)致同時(shí)執(zhí)行多個(gè)標(biāo)準(zhǔn),對(duì)我國(guó)的食品生產(chǎn)和檢測(cè)造成嚴(yán)重影響,進(jìn)一步危害我國(guó)的食品安全體系建設(shè)。而造成這一結(jié)果的原因主要是食品安全標(biāo)準(zhǔn)數(shù)量較多,種類(lèi)繁雜,標(biāo)準(zhǔn)之間存在著較多的引用關(guān)系,對(duì)食品標(biāo)準(zhǔn)的修訂帶來(lái)很大難處,尤其是那些占據(jù)著核心地位的食品標(biāo)準(zhǔn),對(duì)這些標(biāo)準(zhǔn)的修訂“牽一發(fā)而動(dòng)全身”。對(duì)食品生產(chǎn)企業(yè)來(lái)說(shuō),準(zhǔn)確把握眾多標(biāo)準(zhǔn)中的核心標(biāo)準(zhǔn)對(duì)指導(dǎo)食品生產(chǎn)是很有必要的。為了找出這些隱藏在所有食品安全標(biāo)準(zhǔn)中的“核心標(biāo)準(zhǔn)”,需要利用食品安全標(biāo)準(zhǔn)引用網(wǎng)絡(luò)來(lái)從眾多的食品安全國(guó)家標(biāo)準(zhǔn)中找到對(duì)食品安全檢驗(yàn)、檢測(cè)影響較大的關(guān)鍵標(biāo)準(zhǔn),因此本文提出了一種基于多屬性綜合評(píng)價(jià)的食品安全標(biāo)準(zhǔn)引用網(wǎng)絡(luò)重要節(jié)點(diǎn)的發(fā)現(xiàn)方法。
網(wǎng)絡(luò)模型是對(duì)現(xiàn)實(shí)世界中事物以及事物之間的關(guān)系的抽象,網(wǎng)絡(luò)中的節(jié)點(diǎn)和邊分別表示事物和關(guān)系,通過(guò)分析網(wǎng)絡(luò),可以得到很多有用的信息來(lái)進(jìn)行下一步研究。其中,最具代表性的工作就是社交網(wǎng)絡(luò)分析。而食品安全標(biāo)準(zhǔn)引用網(wǎng)絡(luò)雖然節(jié)點(diǎn)只有一千多個(gè),但節(jié)點(diǎn)間的引用關(guān)系比較復(fù)雜,因此社交網(wǎng)絡(luò)節(jié)點(diǎn)的分析方法也可以應(yīng)用到食品標(biāo)準(zhǔn)引用網(wǎng)絡(luò)中?;谶@一想法,本文使用社交網(wǎng)絡(luò)中評(píng)價(jià)節(jié)點(diǎn)重要性的一些指標(biāo),如度中心性(Degree Centrality,DC)、緊密度中心性(Closeness Centrality,CC)、介數(shù)中心性(Betweenness Centrality,BC)等,并結(jié)合PageRank(PR)頁(yè)面重要性算法來(lái)對(duì)標(biāo)準(zhǔn)節(jié)點(diǎn)的重要性進(jìn)行綜合評(píng)價(jià),以此來(lái)判斷哪些食品安全標(biāo)準(zhǔn)屬于“核心標(biāo)準(zhǔn)”。
近年來(lái),社交網(wǎng)絡(luò)的研究領(lǐng)域越來(lái)越廣泛。在這些研究中,對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)重要性進(jìn)行排序是一項(xiàng)重要工作。基于此,誕生了一些經(jīng)典的排序方法,如度中心性、半局部中心性、緊密度中心 性、Katz中心性、介數(shù)中心性、PageRank等其他算法。鄭文萍等提出了節(jié)點(diǎn)中心性度量指標(biāo)LNC(Local Neighbor Centrality)識(shí)別網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn);羅浩等提出了采用信息融合的IOMEC(In-degree Out-degree Multiplex Evidential Centrality)節(jié)點(diǎn)重要性度量方法;杜航原等提出利用節(jié)點(diǎn)的內(nèi)聚度和分離度計(jì)算節(jié)點(diǎn)重要性;馬媛媛等提出KI(K-shell Intimacy)算法計(jì)算節(jié)點(diǎn)的親密度從而對(duì)節(jié)點(diǎn)重要性進(jìn)行排序;邵豪等提出H 算法識(shí)別動(dòng)態(tài)網(wǎng)絡(luò)中的重要節(jié)點(diǎn);尹榮榮等融合了結(jié)構(gòu)洞與K核指標(biāo)來(lái)對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)重要度進(jìn)行評(píng)估;梁耀洲等通過(guò)排名聚合的方法來(lái)挖掘社交網(wǎng)絡(luò)中的關(guān)鍵用戶(hù)。隨著社交網(wǎng)絡(luò)相關(guān)研究的成功,研究人員將目光轉(zhuǎn)向了其他領(lǐng)域內(nèi)的復(fù)雜網(wǎng)絡(luò)研究,并將社交網(wǎng)絡(luò)研究中的一些成果直接應(yīng)用到其他網(wǎng)絡(luò)中,如物流配送節(jié)點(diǎn)重要性、公路網(wǎng)絡(luò)節(jié)點(diǎn)重要性等,且取得了不錯(cuò)的研究成果。
G
中共有N
個(gè)節(jié)點(diǎn),其中,節(jié)點(diǎn)x
共有k
個(gè)節(jié)點(diǎn)與之直接相連,則記該節(jié)點(diǎn)度數(shù)為deg
(x
)=k
,對(duì)應(yīng)的度中心性計(jì)算為式(1):但是,這一指標(biāo)只能表明節(jié)點(diǎn)在局部小范圍內(nèi)的重要程度,沒(méi)有考慮節(jié)點(diǎn)在網(wǎng)絡(luò)中所處的位置信息。因此,需結(jié)合其他評(píng)判標(biāo)準(zhǔn)來(lái)綜合考慮節(jié)點(diǎn)的重要程度。
x
和節(jié)點(diǎn)y
之間的距離用d
(x
,y
)來(lái)表示,則x
的緊密度中心性計(jì)算如式(2):x
和節(jié)點(diǎn)y
之間的最短路徑數(shù)為σ
(x
,y
),其中通過(guò)節(jié)點(diǎn)i
的數(shù)目為σ
(x
,y
|i
),則節(jié)點(diǎn)i
的介數(shù)中心性計(jì)算如式(3):v
其PR 值計(jì)算如式(4):食品安全標(biāo)準(zhǔn)引用網(wǎng)絡(luò)的構(gòu)建主要由兩部分工作組成:一個(gè)是節(jié)點(diǎn)的抽取,另一個(gè)是節(jié)點(diǎn)間關(guān)系的抽取。
食品安全標(biāo)準(zhǔn)引用網(wǎng)絡(luò)的節(jié)點(diǎn)名稱(chēng)由食品標(biāo)準(zhǔn)的標(biāo)準(zhǔn)編號(hào)表示,該編號(hào)是獨(dú)一無(wú)二的,因此每個(gè)節(jié)點(diǎn)都代表一種食品安全標(biāo)準(zhǔn),節(jié)點(diǎn)抽取本質(zhì)上就是對(duì)每個(gè)食品安全標(biāo)準(zhǔn)的編號(hào)進(jìn)行抽取。而食品安全標(biāo)準(zhǔn)的編號(hào)組成是有規(guī)律的,比如:1)每種標(biāo)準(zhǔn)編號(hào)以“GB”開(kāi)頭,表示國(guó)標(biāo);2)“GB”之后是每種標(biāo)準(zhǔn)對(duì)應(yīng)的特殊數(shù)字串;3)最后是每種標(biāo)準(zhǔn)的發(fā)布時(shí)間。根據(jù)這些信息,可以通過(guò)正則式將其提取出來(lái)。
食品安全標(biāo)準(zhǔn)之間的引用關(guān)系隱含在標(biāo)準(zhǔn)文檔的內(nèi)容中,經(jīng)過(guò)數(shù)據(jù)處理后的文本和表格信息作為關(guān)系抽取的原始數(shù)據(jù),使用一些簡(jiǎn)單的自然語(yǔ)言處理技術(shù)就可以將食品標(biāo)準(zhǔn)引用關(guān)系抽取出來(lái)。
本文采用了基于規(guī)則的模式匹配方法。因?yàn)橐槿〉年P(guān)系比較簡(jiǎn)單,在文檔中表述標(biāo)準(zhǔn)之間的引用關(guān)系時(shí)會(huì)寫(xiě)明在哪一方面參考了其他標(biāo)準(zhǔn),比如,在《GB2717―2018 食品安全國(guó)家標(biāo)準(zhǔn)醬油》中在引用其他標(biāo)準(zhǔn)時(shí),相應(yīng)的描述文本為“污染物限量應(yīng)符合GB2762 的規(guī)定”“真菌毒素限量應(yīng)符合GB2761 的規(guī)定”“致病菌限量應(yīng)符合GB29921 的規(guī)定”等。而類(lèi)似“污染物限量”“真菌毒素限量”等關(guān)鍵詞在其他標(biāo)準(zhǔn)中的描述也大致相同。因此,只需要預(yù)先定義關(guān)鍵詞庫(kù)并輔以一些匹配規(guī)則即可進(jìn)行標(biāo)準(zhǔn)引用關(guān)系抽取。
在本文的前期工作中,經(jīng)過(guò)節(jié)點(diǎn)和關(guān)系抽取后,共得到1 239 個(gè)節(jié)點(diǎn)和2 593 條邊,借助可視化軟件將其繪制為如圖1 所示的引用關(guān)系網(wǎng)絡(luò)。
圖1 食品安全標(biāo)準(zhǔn)引用關(guān)系網(wǎng)絡(luò)Fig.1 Food safety standard reference network
圖1 中,不同的節(jié)點(diǎn)標(biāo)簽顯示的文字大小會(huì)根據(jù)節(jié)點(diǎn)的度數(shù)大小而改變,節(jié)點(diǎn)的度數(shù)越大,標(biāo)簽文字越大。
對(duì)食品安全標(biāo)準(zhǔn)引用網(wǎng)絡(luò)中的節(jié)點(diǎn)依據(jù)節(jié)點(diǎn)的度、度中心性、緊密度中心性、介數(shù)中心性分別進(jìn)行計(jì)算,并利用PageRank 算法對(duì)每個(gè)節(jié)點(diǎn)的重要程度進(jìn)行評(píng)價(jià),以下是一些節(jié)點(diǎn)的計(jì)算結(jié)果。
從圖1 中可以粗略地看出大部分節(jié)點(diǎn)的度數(shù)比較小,有少部分節(jié)點(diǎn)度數(shù)較大,此外,還列出了排名前十的節(jié)點(diǎn)相關(guān)信息(表1)。在表1 中,度數(shù)排名靠前的節(jié)點(diǎn)如GB5009.12、GB/T14454、GB/T6682―2008、GB/T11538―2006、GB/T11540、GB/T14455 等節(jié)點(diǎn)度數(shù)在100 以上的食品安全標(biāo)準(zhǔn),在圖1 中展示較為清晰。而這些節(jié)點(diǎn)的出度全為0,說(shuō)明這些節(jié)點(diǎn)的度數(shù)全部來(lái)源于節(jié)點(diǎn)入度,也表明了這些標(biāo)準(zhǔn)被其他標(biāo)準(zhǔn)引用較多,從側(cè)面證明了這些食品安全標(biāo)準(zhǔn)的重要程度。
表1 食品標(biāo)準(zhǔn)引用網(wǎng)絡(luò)節(jié)點(diǎn)度數(shù)(Top10)Tab 1 Degrees of food standard reference network nodes(Top10)
DC 是對(duì)節(jié)點(diǎn)度數(shù)進(jìn)行標(biāo)準(zhǔn)化,經(jīng)過(guò)標(biāo)準(zhǔn)化后的度中心性值可以反映某一節(jié)點(diǎn)的鄰居節(jié)點(diǎn)數(shù)目在總節(jié)點(diǎn)中的占比情況。表2 列出了食品標(biāo)準(zhǔn)引用網(wǎng)絡(luò)節(jié)點(diǎn)的前十位。
表2 食品標(biāo)準(zhǔn)引用網(wǎng)絡(luò)節(jié)點(diǎn)的DC值(Top10)Tab 2 DC values of food standards reference network nodes(Top10)
從表2 中可以看出,排名前四的節(jié)點(diǎn)GB5009.12、GB/T14454、GB/T6682―2008 和GB/T11538―2006 的引用標(biāo)準(zhǔn)數(shù)量達(dá)到了所有標(biāo)準(zhǔn)的10%以上,遠(yuǎn)超過(guò)其他的標(biāo)準(zhǔn),表明這幾個(gè)標(biāo)準(zhǔn)在所有標(biāo)準(zhǔn)中占據(jù)著重要地位。
節(jié)點(diǎn)的緊密度反映了節(jié)點(diǎn)在整個(gè)網(wǎng)絡(luò)中所處的“中心程度”。經(jīng)過(guò)計(jì)算,本文列出了一些節(jié)點(diǎn)的CC 值(表3),這些節(jié)點(diǎn)之間的CC 值差異不大且數(shù)值較小,而從圖1 中也可以看出該引用網(wǎng)絡(luò)中仍然存在著不少的孤立節(jié)點(diǎn),這表明整個(gè)網(wǎng)絡(luò)連通度較低,并沒(méi)有一個(gè)節(jié)點(diǎn)能夠輻射整個(gè)網(wǎng)絡(luò),少部分節(jié)點(diǎn)只能影響局部的一些節(jié)點(diǎn)。
表3 食品標(biāo)準(zhǔn)引用網(wǎng)絡(luò)節(jié)點(diǎn)的CC值(Top10)Tab 3 CC values of food standard reference network nodes(Top10)
節(jié)點(diǎn)的BC 反映了節(jié)點(diǎn)在網(wǎng)絡(luò)中所處位置的重要程度,節(jié)點(diǎn)的BC 值越高,表明該節(jié)點(diǎn)處在越多的“關(guān)鍵路徑”上,該節(jié)點(diǎn)在網(wǎng)絡(luò)中的地位越高。表4 只列出了5 個(gè)節(jié)點(diǎn)的相應(yīng)數(shù)據(jù),這是因?yàn)槠渌?jié)點(diǎn)的介數(shù)中心性值為零。而且5 個(gè)節(jié)點(diǎn)的介數(shù)中心值也較小,這也從側(cè)面反映出整個(gè)標(biāo)準(zhǔn)引用網(wǎng)絡(luò)的連通程度較低,相應(yīng)的關(guān)鍵路徑數(shù)目也較少。
表4 食品標(biāo)準(zhǔn)引用網(wǎng)絡(luò)節(jié)點(diǎn)的BC值(Top5)Tab 4 BC values of food standards reference network nodes(Top5)
PR 算法是谷歌用來(lái)對(duì)網(wǎng)頁(yè)進(jìn)行重要度排序的一種算法,其核心思想是:一個(gè)網(wǎng)頁(yè)的重要程度由這個(gè)網(wǎng)頁(yè)所指向的目標(biāo)網(wǎng)頁(yè)以及指向本網(wǎng)頁(yè)的其他網(wǎng)頁(yè)的重要程度所共同決定。這個(gè)算法可以應(yīng)用到網(wǎng)絡(luò)中節(jié)點(diǎn)重要度分析,即網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)重要度由該節(jié)點(diǎn)相連的節(jié)點(diǎn)重要度所決定。表5 列出了食品標(biāo)準(zhǔn)引用網(wǎng)絡(luò)中一些重要度排名靠前的節(jié)點(diǎn)數(shù)據(jù)。從表5 中可以看出,有許多DC 排名靠前的節(jié)點(diǎn),如GB5009.12,GB14454,GB/T6682―2008,GB/T11538―2006等,也出現(xiàn)在表2 中,且排名靠前。這表明在該網(wǎng)絡(luò)中節(jié)點(diǎn)的DC 值對(duì)使用PR 算法計(jì)算的節(jié)點(diǎn)重要度也有重要影響。
表5 食品標(biāo)準(zhǔn)引用網(wǎng)絡(luò)節(jié)點(diǎn)的PR重要度(Top10)Tab 5 PR importance of food standard reference network nodes(Top10)
為了對(duì)標(biāo)準(zhǔn)引用網(wǎng)絡(luò)的這幾個(gè)指標(biāo)從整體上進(jìn)行分析,本文統(tǒng)計(jì)了每種指標(biāo)相應(yīng)數(shù)值下對(duì)應(yīng)的節(jié)點(diǎn)數(shù)量,并繪制成圖2。從圖2 中可以看到,節(jié)點(diǎn)的度中心性圖像分布、介數(shù)中心性圖像分布和PageRank 重要度圖像分布都呈現(xiàn)一種下降趨勢(shì),表明在該引用網(wǎng)絡(luò)中,大部分節(jié)點(diǎn)的重要程度較低,相應(yīng)的指標(biāo)值也較小。而緊密度中心性圖像分布卻呈現(xiàn)兩極分化的情況,整個(gè)網(wǎng)絡(luò)中的節(jié)點(diǎn)分為了兩部分:1)節(jié)點(diǎn)的緊密度值較小,代表了網(wǎng)絡(luò)中那些離散的節(jié)點(diǎn);2)節(jié)點(diǎn)的緊密度值較大,代表了網(wǎng)絡(luò)中那些局部中心點(diǎn)。同時(shí)這兩部分節(jié)點(diǎn)各自的緊密度值差距不大,整體的緊密度值也較小,反映出整個(gè)引用網(wǎng)絡(luò)的連通度不高。此外,度中心性圖像分布與PR 重要度圖像分布大致相同,表明在該網(wǎng)絡(luò)中節(jié)點(diǎn)的PR 值計(jì)算中,節(jié)點(diǎn)的度起著重要的作用。
圖2 各指標(biāo)下節(jié)點(diǎn)的數(shù)量分布Fig.2 Number distribution of nodes under each index
前文給出了評(píng)價(jià)節(jié)點(diǎn)重要性的多個(gè)衡量指標(biāo),并對(duì)每種指標(biāo)進(jìn)行了簡(jiǎn)要的分析,但是僅僅依賴(lài)某一指標(biāo)來(lái)判斷節(jié)點(diǎn)的重要程度存在很大的片面性。因此,要依據(jù)這幾個(gè)指標(biāo)對(duì)節(jié)點(diǎn)進(jìn)行一個(gè)綜合性的評(píng)價(jià),并將評(píng)價(jià)較高的節(jié)點(diǎn)作為標(biāo)準(zhǔn)引用網(wǎng)絡(luò)中的重要節(jié)點(diǎn),該節(jié)點(diǎn)所代表的標(biāo)準(zhǔn)作為重要標(biāo)準(zhǔn)。為了得到每個(gè)節(jié)點(diǎn)的重要性綜合值,首先要確定每種指標(biāo)的計(jì)算權(quán)重。
4.7.1 指標(biāo)權(quán)重
對(duì)于指標(biāo)權(quán)重的確定可以使用常用的主成分分析法和層次分析法(Analytic Hierarchy Process,AHP)。主成分分析法是在指標(biāo)數(shù)量較多時(shí)通過(guò)數(shù)學(xué)變化將指標(biāo)進(jìn)行線(xiàn)性組合并選擇其中信息量占比大的幾個(gè)相關(guān)性較小的指標(biāo)作為主成分,并確定主成分的計(jì)算權(quán)重,在盡可能不影響客觀(guān)評(píng)價(jià)的基礎(chǔ)上減少工作量;而層次分析法主要依據(jù)實(shí)驗(yàn)人員的經(jīng)驗(yàn)來(lái)判斷指標(biāo)之間的重要程度,通過(guò)構(gòu)建判斷矩陣來(lái)確定各指標(biāo)權(quán)重,不對(duì)指標(biāo)進(jìn)行篩選,對(duì)實(shí)驗(yàn)人員的經(jīng)驗(yàn)依賴(lài)更強(qiáng)。在后續(xù)的節(jié)點(diǎn)綜合重要性評(píng)價(jià)中共用到了四個(gè)指標(biāo),分別為度中心性(DC)、緊密度中心性(CC)、介數(shù)中心性(BC)、PageRank(PR)算法。對(duì)于這四個(gè)指標(biāo)權(quán)重的確定,由于不需要使用主成分分析法來(lái)篩選主要指標(biāo),同時(shí)對(duì)于指標(biāo)之間重要性的判斷,實(shí)驗(yàn)者的經(jīng)驗(yàn)要更為重要一些,因此采用了更為適合的層次分析法。利用層次分析法確定各指標(biāo)權(quán)重步驟如下:
1)對(duì)于指標(biāo)m
與指標(biāo)m
(i
,j
∈{DC,CC,BC,PR}),使用(0,1,2)三標(biāo)度法進(jìn)行兩兩比較,建立如下比較矩陣B
:其中:
B
中,m
與m
、m
與m
、m
與m
的比較值都為2,表明在4 個(gè)指標(biāo)中,節(jié)點(diǎn)的度中心性(DC)是最重要的。主要是因?yàn)樵谑称钒踩珮?biāo)準(zhǔn)引用網(wǎng)絡(luò)中,節(jié)點(diǎn)之間的關(guān)系種類(lèi)比較單一,DC 能夠很好地體現(xiàn)出一個(gè)標(biāo)準(zhǔn)的重要程度,度越大代表該標(biāo)準(zhǔn)被其他標(biāo)準(zhǔn)引用的次數(shù)越多,同時(shí)也由于節(jié)點(diǎn)關(guān)系類(lèi)型比較單一(只涉及引用關(guān)系)且網(wǎng)絡(luò)中存在著很多的離散節(jié)點(diǎn),而節(jié)點(diǎn)的CC 和BC 的計(jì)算與整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)緊密相連,大量離散節(jié)點(diǎn)的存在導(dǎo)致整個(gè)網(wǎng)絡(luò)的連通度較低,使得節(jié)點(diǎn)的這兩個(gè)指標(biāo)計(jì)算結(jié)果很小,在引用網(wǎng)絡(luò)中的影響程度較低。從圖2 中可以看到,節(jié)點(diǎn)的DC 與節(jié)點(diǎn)的PR 值圖像中的節(jié)點(diǎn)分布大致相同,表明這兩個(gè)指標(biāo)之間是有一定聯(lián)系的,節(jié)點(diǎn)的PR 值由節(jié)點(diǎn)的相鄰節(jié)點(diǎn)的PR 值不斷進(jìn)行迭代相加計(jì)算得出。在該引用網(wǎng)絡(luò)中,由于只有局部中心點(diǎn)即度數(shù)較大的節(jié)點(diǎn)周?chē)衅渌?jié)點(diǎn)的存在,而每個(gè)節(jié)點(diǎn)的PR 值主要通過(guò)相鄰節(jié)點(diǎn)的PR 值相加得出,該節(jié)點(diǎn)的度數(shù)越大意味著通過(guò)相加計(jì)算得到的節(jié)點(diǎn)PR 值就越大,從這一層面來(lái)說(shuō),節(jié)點(diǎn)的PR 值在一定程度上反映了節(jié)點(diǎn)的度數(shù);但如果這些局部中心點(diǎn)的相鄰節(jié)點(diǎn)不再和其他節(jié)點(diǎn)相連,也會(huì)導(dǎo)致局部中心點(diǎn)的重要度有所下降,這種情況在引用網(wǎng)絡(luò)中是較為常見(jiàn)的。因此相較于度中心性,節(jié)點(diǎn)的PR 值的重要程度要弱一些,但是要比節(jié)點(diǎn)的緊密度中心性和介數(shù)中心性更重要。因此,本文將m
與m
、m
與m
的比較值設(shè)為2。而m
與m
的比較值為2,表明節(jié)點(diǎn)的CC 要比節(jié)點(diǎn)的BC 重要。從圖2 中各指標(biāo)下節(jié)點(diǎn)數(shù)量分布來(lái)看,幾乎所有節(jié)點(diǎn)的BC 值為零,而CC 值不為零的節(jié)點(diǎn)數(shù)量占據(jù)了一半以上,表明在該網(wǎng)絡(luò)中節(jié)點(diǎn)的m
要比m
更重要些。2)通過(guò)變換將比較矩陣B
轉(zhuǎn)換為判斷矩陣C
并證明滿(mǎn)足一致性,最后來(lái)確定各指標(biāo)的相應(yīng)權(quán)重w
。具體步驟如下:①按照極差法構(gòu)造判斷矩陣C
。表6 平均隨機(jī)一致性指標(biāo)Tab 6 Average random consistency index
經(jīng)過(guò)一致性檢驗(yàn)后,最終得到各指標(biāo)的權(quán)重w
=0.490 8,w
=0.152 7,w
=0.083 5,w
=0.272 9。將利用這些權(quán)重來(lái)計(jì)算每個(gè)節(jié)點(diǎn)的綜合指標(biāo)重要性。4.7.2 節(jié)點(diǎn)綜合指標(biāo)重要性計(jì)算
本文采用的是基于逼近理想解排序法(Technique for Order Preference by Similarity to an Ideal Solution,TOPSIS)的多屬性決策方法。具體計(jì)算步驟如下:
D
、D
以及Z
如表7 所示。表7 標(biāo)準(zhǔn)引用網(wǎng)絡(luò)節(jié)點(diǎn)綜合重要性(Top10)Tab 7 Comprehensive importance of standard reference network nodes(Top10)
從表7 可以看出,最后經(jīng)過(guò)綜合評(píng)價(jià)后得到的排名前十的節(jié)點(diǎn)與之前單一屬性評(píng)價(jià)時(shí)有了很大變化,其中只有GB5009.3、GB2763 和GB/T14455 在之前排名信息中出現(xiàn)過(guò),而其余節(jié)點(diǎn)則是未曾出現(xiàn)過(guò)的新節(jié)點(diǎn)。這一情況表明,節(jié)點(diǎn)的度在綜合評(píng)價(jià)中雖然占據(jù)較大權(quán)重,但不再是節(jié)點(diǎn)重要性的決定性因素,節(jié)點(diǎn)其他屬性也起到了綜合性評(píng)價(jià)作用。
在節(jié)點(diǎn)的單一屬性指標(biāo)中,節(jié)點(diǎn)的度對(duì)節(jié)點(diǎn)的重要性起著重要作用,而經(jīng)過(guò)綜合評(píng)價(jià)后可以看到新的重要性排名與節(jié)點(diǎn)的度指標(biāo)排名有些不同,為了驗(yàn)證哪種評(píng)價(jià)方式在引用網(wǎng)絡(luò)中更為合理,本文從原始網(wǎng)絡(luò)中分別刪除兩份排名表中的節(jié)點(diǎn),通過(guò)比較刪除節(jié)點(diǎn)后的網(wǎng)絡(luò)連通性來(lái)判斷節(jié)點(diǎn)的重要程度,因?yàn)楣?jié)點(diǎn)集在網(wǎng)絡(luò)中的重要性等價(jià)于在該網(wǎng)絡(luò)中將節(jié)點(diǎn)集刪除后對(duì)網(wǎng)絡(luò)的破壞性,該評(píng)價(jià)方法的研究的是節(jié)點(diǎn)集刪除前后圖的連通狀況的變化情況,連通性越差說(shuō)明節(jié)點(diǎn)集對(duì)網(wǎng)絡(luò)越重要。
表8 中展示了原始網(wǎng)絡(luò)以及刪除相應(yīng)節(jié)點(diǎn)后的網(wǎng)絡(luò)信息。從表8 可以看到,由于G2 和G3 中刪除了相應(yīng)節(jié)點(diǎn)后節(jié)點(diǎn)數(shù)目有所下降,但兩者差距不大,G2 只少一個(gè)節(jié)點(diǎn),但G2比G3 邊的數(shù)目卻少了將近700 條,只留下G1 原始圖邊數(shù)的52%,而G3 是77.7%,從這一點(diǎn)上來(lái)說(shuō),應(yīng)該是G2 的連通性要更差一些。
表8 網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比Tab 8 Comparison of network structure
為了對(duì)G2 和G3 有一個(gè)直觀(guān)的認(rèn)識(shí),本文使用Gephi 繪圖工具繪制出了這兩個(gè)引用網(wǎng)絡(luò)的圖,如圖3 所示。從圖3可以看到,相較于原始網(wǎng)絡(luò)G1(圖1),G2 中少了很多大字體的標(biāo)簽節(jié)點(diǎn),說(shuō)明度很大的節(jié)點(diǎn)去掉了,而G3 與G1 的圖標(biāo)簽節(jié)點(diǎn)效果差距不大,但是并不能因此而斷定G2 的連通性要比G3 的連通性更差,因?yàn)檎麄€(gè)網(wǎng)絡(luò)的連通性并不是完全由網(wǎng)絡(luò)中邊的數(shù)量決定的。對(duì)網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行社區(qū)劃分,通過(guò)社區(qū)分類(lèi)可以很好地判斷整個(gè)引用網(wǎng)絡(luò)的連通性。本文采用的社區(qū)劃分算法是Louvain 算法,基本思想是:
圖3 G2與G3引用網(wǎng)絡(luò)對(duì)比Fig.3 G2 and G3 reference network comparison
1)將每個(gè)節(jié)點(diǎn)看作獨(dú)立社區(qū),并計(jì)算當(dāng)前的模塊度Q
;2)隨機(jī)選擇一個(gè)節(jié)點(diǎn)加入其鄰近社區(qū)并計(jì)算對(duì)應(yīng)Q
值,選擇令Q
值增加值最大的社區(qū)加入;3)將新的社區(qū)看作一個(gè)節(jié)點(diǎn),重復(fù)上述步驟直到所有社區(qū)Q
值不再變化。該算法進(jìn)行社區(qū)劃分時(shí),由于要判斷一個(gè)節(jié)點(diǎn)加入鄰近社區(qū)的Q
值,所以對(duì)于那些離散的節(jié)點(diǎn)是不進(jìn)行社區(qū)劃分的,因?yàn)樗鼈儧](méi)有鄰近社區(qū)。因此,可以通過(guò)判斷網(wǎng)絡(luò)經(jīng)過(guò)Louvain 算法社區(qū)劃分后。得到的社區(qū)數(shù)量、社區(qū)內(nèi)節(jié)點(diǎn)的數(shù)量以及未參與劃分的節(jié)點(diǎn)數(shù)量來(lái)綜合判斷網(wǎng)絡(luò)的連通性。網(wǎng)絡(luò)的連通性越高,則劃分后的社區(qū)數(shù)量越少,社區(qū)內(nèi)節(jié)點(diǎn)數(shù)量越多,且未參與劃分的節(jié)點(diǎn)數(shù)量越少。本文對(duì)G1、G2、G3 進(jìn)行社區(qū)劃分后的結(jié)果如表9 所示。表9 網(wǎng)絡(luò)社區(qū)劃分結(jié)果Tab 9 Results of network community division
從表9 中可以看出,刪除原始網(wǎng)絡(luò)G1 中那些度數(shù)較大的節(jié)點(diǎn)后,整個(gè)網(wǎng)絡(luò)G2 的連通性下降,導(dǎo)致離散節(jié)點(diǎn)增多,未參與劃分的節(jié)點(diǎn)數(shù)量也隨之增加,所以得到的社區(qū)數(shù)量也由66 個(gè)下降成3 個(gè),最大社區(qū)內(nèi)的節(jié)點(diǎn)數(shù)量只有原始網(wǎng)絡(luò)劃分后的最大社區(qū)節(jié)點(diǎn)數(shù)量的24.3%;但G3 的連通性相較于G2 要更差,整個(gè)網(wǎng)絡(luò)中參與社區(qū)劃分的節(jié)點(diǎn)數(shù)為0,表明這些節(jié)點(diǎn)之間離散程度更高,即使有一些度數(shù)較大的節(jié)點(diǎn)存在,但是由于缺少了一些關(guān)鍵節(jié)點(diǎn)導(dǎo)致它們之間無(wú)法連通,在計(jì)算模塊度Q
時(shí)不能使得Q
值增加,無(wú)法加入任何一個(gè)社區(qū)。上述實(shí)驗(yàn)結(jié)果表明,使用TOPSIS 算法找出的節(jié)點(diǎn)要比單獨(dú)使用節(jié)點(diǎn)的度這一單一指標(biāo)效果要好,將該方法應(yīng)用在食品安全標(biāo)準(zhǔn)網(wǎng)絡(luò)中判斷節(jié)點(diǎn)的重要性是有效的。為了找出食品安全國(guó)家標(biāo)準(zhǔn)中那些“重要標(biāo)準(zhǔn)”,本文挖掘了所有標(biāo)準(zhǔn)之間的相互引用關(guān)系,構(gòu)建了食品標(biāo)準(zhǔn)引用網(wǎng)絡(luò),并分析這個(gè)復(fù)雜網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要程度。本文使用的衡量指標(biāo)有:節(jié)點(diǎn)度數(shù)、節(jié)點(diǎn)緊密度、節(jié)點(diǎn)介數(shù)以及PageRank 重要度。由于單一指標(biāo)的計(jì)算不能全面地衡量節(jié)點(diǎn)的重要性,所以本文采用了一種節(jié)點(diǎn)重要性綜合性評(píng)價(jià)方法,即先使用層次分析法計(jì)算各個(gè)指標(biāo)參與評(píng)價(jià)的權(quán)重,再基于TOPSIS 的多屬性決策方法重新計(jì)算節(jié)點(diǎn)重要性。
相較于僅通過(guò)度來(lái)計(jì)算節(jié)點(diǎn)重要性,本文方法在節(jié)點(diǎn)重要性判斷上有了一些不一樣的結(jié)果。為了比較兩種結(jié)果的有效性,本文通過(guò)在網(wǎng)絡(luò)結(jié)構(gòu)中刪除重要節(jié)點(diǎn)的方法來(lái)比較刪除重要節(jié)點(diǎn)后網(wǎng)絡(luò)結(jié)構(gòu)的連通性,連通性的判斷則是通過(guò)使用Louvain 算法對(duì)標(biāo)準(zhǔn)引用網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)社區(qū)發(fā)現(xiàn),網(wǎng)絡(luò)中如果未參與社區(qū)劃分的節(jié)點(diǎn)數(shù)量越多,該網(wǎng)絡(luò)的連通性越差。實(shí)驗(yàn)結(jié)果證明,基于多屬性的綜合評(píng)價(jià)方法發(fā)現(xiàn)的重要節(jié)點(diǎn)被刪除后,不能劃入社區(qū)的節(jié)點(diǎn)為1 239 個(gè),即沒(méi)有任何節(jié)點(diǎn)被劃入社區(qū),而基于度的評(píng)價(jià)方法發(fā)現(xiàn)的重要節(jié)點(diǎn)被刪除后,不能劃入社區(qū)的節(jié)點(diǎn)為1 039 個(gè),共發(fā)現(xiàn)了3 個(gè)社區(qū),最大的社區(qū)有120 個(gè)節(jié)點(diǎn),所以基于多屬性的綜合評(píng)價(jià)方法發(fā)現(xiàn)的節(jié)點(diǎn)在網(wǎng)絡(luò)中更為重要。
本文的實(shí)驗(yàn)結(jié)果證明了多屬性綜合評(píng)價(jià)方法在復(fù)雜網(wǎng)絡(luò)重要節(jié)點(diǎn)發(fā)現(xiàn)上是有效的;但在利用層次分析法計(jì)算多指標(biāo)權(quán)重時(shí),需要對(duì)比較矩陣中各指標(biāo)之間的重要性關(guān)系進(jìn)行人工定義,而定義的準(zhǔn)確性依賴(lài)于操作人員的經(jīng)驗(yàn)。為了進(jìn)一步降低多屬性評(píng)價(jià)方法對(duì)人的經(jīng)驗(yàn)依賴(lài),在未來(lái)的工作中,將考慮加入對(duì)歷史評(píng)價(jià)數(shù)據(jù)的學(xué)習(xí),以此來(lái)實(shí)現(xiàn)多指標(biāo)比較矩陣的自動(dòng)生成,增強(qiáng)多屬性綜合評(píng)價(jià)方法的智能性。