劉 剛,傅瑋萍,馬鶯歌
(哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)
中國社會(huì)保障政策體系逐漸趨于碎片化發(fā)展態(tài)勢,導(dǎo)致了城市社保制度與農(nóng)村社保制度的互相割離,私有經(jīng)濟(jì)以及與國有經(jīng)濟(jì)社會(huì)保險(xiǎn)制度不同,多種社會(huì)保險(xiǎn)政策同時(shí)生效的不良狀況[1]。為有效地緩解并預(yù)防社保政策中的碎片化現(xiàn)象,本文通過分析政策碎片之間深層的內(nèi)在聯(lián)系,實(shí)現(xiàn)碎片化政策的重新組織。在此基礎(chǔ)上對(duì)結(jié)構(gòu)化的政策網(wǎng)絡(luò)進(jìn)行碎片消解,使政策網(wǎng)絡(luò)結(jié)構(gòu)更加明晰。除此之外,本文基于結(jié)構(gòu)化的政策網(wǎng)絡(luò),在新政策的制定過程中,對(duì)碎片化政策的產(chǎn)生加以預(yù)防。本文所提出的政策分析與制定計(jì)算機(jī)仿真技術(shù),可以幫助決策者清晰看到政策的體系結(jié)構(gòu),并預(yù)測新政策在該政策體系中的地位,為有效地消減和預(yù)防政策碎片化現(xiàn)象提供有效的解決方案。
1.1.1 國內(nèi)外研究現(xiàn)狀
政策網(wǎng)絡(luò)研究起始于20世紀(jì)90年代初,幾位數(shù)學(xué)科學(xué)家及諾貝爾獎(jiǎng)獲得者共同提出了政策系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)及其特征。發(fā)展到目前,主要有三種研究方向: 英國傳統(tǒng)、美國傳統(tǒng)以及荷蘭和德國傳統(tǒng)[2]。T.Lowi、H.Heclo等美國學(xué)派研究者著眼于政策網(wǎng)絡(luò)的微觀層次,通過模擬政策在制定的流程節(jié)點(diǎn)間的互動(dòng),來分析預(yù)測政策制定和執(zhí)行的效果及網(wǎng)絡(luò)的形態(tài)演化。而英國傳統(tǒng)將分析重點(diǎn)放在不同政策部門之間的結(jié)構(gòu)關(guān)系上。從政策體制本身入手,分析政策網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)及影響。以荷蘭、德國領(lǐng)域?qū)<覟槭椎膶W(xué)者從宏觀層次上進(jìn)行政策網(wǎng)絡(luò)理論研究,將政策網(wǎng)絡(luò)看成一種全新的國家治理手段[3]。
我國政策網(wǎng)絡(luò)理論研究起步較晚,近些年開始逐漸流行,成果較少。目前,只有很少的政策網(wǎng)絡(luò)理論成果問世[4-5]。文獻(xiàn)[6]對(duì)政策網(wǎng)絡(luò)的方方面面進(jìn)行了細(xì)致而又全面的介紹,包含: 政策網(wǎng)絡(luò)起源、政策網(wǎng)絡(luò)的不同釋義、政策網(wǎng)絡(luò)要素及其作用、政策網(wǎng)絡(luò)的研究意義,以及具體的政策網(wǎng)絡(luò)的理論研究手段。然而,不同派別的研究人員對(duì)于政策網(wǎng)絡(luò)理論的認(rèn)識(shí)并不統(tǒng)一,對(duì)于政策網(wǎng)絡(luò)中的基礎(chǔ)定義各執(zhí)一詞。鑒于此種情況,系統(tǒng)深入地研究政策網(wǎng)絡(luò)理論是十分重要的[7-8]。
政策血緣挖掘理論是政策網(wǎng)絡(luò)研究的一個(gè)新方向。文獻(xiàn)[9]形式化地定義了政策族譜樹的概念,用于描述顯性的政策體系樹狀結(jié)構(gòu),在此基礎(chǔ)上形成了政策森林的概念。該理論的基本思想是,挖掘政策體系中不能從政策族譜樹中體現(xiàn)的政策碎片之間的隱藏關(guān)系。并稱這種關(guān)系為隱性政策血緣關(guān)系,稱不同政策中形成這種隱性政策血緣的因素為隱性政策基因。
文獻(xiàn)[10]利用隱性政策血緣挖掘理論,闡述了一種有效的隱性政策血緣關(guān)系的挖掘方法。將隱性基因引入文本進(jìn)行相似度計(jì)算中,從而發(fā)現(xiàn)了常規(guī)政策語言相似關(guān)系探究手段所無法提取的隱性政策血緣關(guān)系。除此之外,文獻(xiàn)[11]在文獻(xiàn)[10]建立的政策網(wǎng)絡(luò)基礎(chǔ)上,利用節(jié)點(diǎn)的介數(shù)計(jì)算,挖掘政策血緣網(wǎng)絡(luò)中的顯性政策要點(diǎn)。通過對(duì)網(wǎng)絡(luò)政策血緣的傳播演化規(guī)律進(jìn)行探索,實(shí)現(xiàn)了基于網(wǎng)絡(luò)政策血緣負(fù)載模型的建立?;谠撠?fù)載模型,定義并計(jì)算政策血緣網(wǎng)絡(luò)中節(jié)點(diǎn)的脆性度,并據(jù)此進(jìn)行衡量政策血緣網(wǎng)絡(luò)里網(wǎng)絡(luò)節(jié)點(diǎn)的重要度,從而挖掘出網(wǎng)絡(luò)中的脆性點(diǎn)。
1.1.2 現(xiàn)存理論的不足
盡管上述理論從不同方面對(duì)政策進(jìn)行了深入的研究,并取得了豐富的研究成果。然而針對(duì)政策碎片化問題時(shí),上述方法仍存在著如下不足:
(1) 政策模型分析。政策模型分析主要通過基于Agent進(jìn)行政策實(shí)施環(huán)境建模,通過政策與政策執(zhí)行環(huán)境之間的互動(dòng),研究分析政策的執(zhí)行效果,以及環(huán)境對(duì)政策延邊的影響。然而這些研究方法是從政策外部對(duì)政策進(jìn)行分析,并未深入剖析政策內(nèi)部深層的層次結(jié)構(gòu)。面對(duì)政策碎片化問題時(shí),只能分析碎片政策對(duì)社會(huì)的影響,并不能分析或解決政策碎片化對(duì)于政策系統(tǒng)本身帶來的影響。
(2) 政策網(wǎng)絡(luò)分析。政策網(wǎng)絡(luò)分析將政策體系看作復(fù)雜網(wǎng)絡(luò)系統(tǒng)架構(gòu),是從復(fù)雜網(wǎng)絡(luò)系統(tǒng)演化的角度上研究政策系統(tǒng)本身的演變過程,并通過演化算法預(yù)測政策體系未來的發(fā)展趨勢。政策網(wǎng)絡(luò)分析方法網(wǎng)絡(luò)的構(gòu)建,完全拋開了現(xiàn)實(shí)世界的真實(shí)網(wǎng)絡(luò),只是通過演化生成網(wǎng)絡(luò)與實(shí)際網(wǎng)絡(luò)進(jìn)行對(duì)比校正網(wǎng)絡(luò)演化模型及其參數(shù)。除此之外,面對(duì)政策碎片化問題,只能預(yù)測政策系統(tǒng)的碎片化趨勢,并不能有效地提出解決并預(yù)防政策碎片化現(xiàn)象。
(3) 隱性政策血緣理論。該理論基于真實(shí)政策網(wǎng)絡(luò),對(duì)其結(jié)構(gòu)進(jìn)行深層挖掘。并在此基礎(chǔ)上對(duì)政策節(jié)點(diǎn)的重要性以及脆弱性進(jìn)行了深層的研究。然而該理論中并未提出針對(duì)建成的網(wǎng)絡(luò)進(jìn)行碎片化的治理與防護(hù)的措施,這使得該理論對(duì)于政策碎片化問題的解決顯得不夠完善。
本文從上述結(jié)論出發(fā),立足于現(xiàn)階段的已有研究成果,提出一種全新的政策分析方法。本方法基于隱性政策血緣理論,引入政策文本處理的語義理解,并基于“知網(wǎng)”的政策詞語相似度和依存句法分析算法,實(shí)現(xiàn)政策血緣網(wǎng)絡(luò)的構(gòu)建。在此基礎(chǔ)上,基于層次聚類思想,提出政策血緣網(wǎng)絡(luò)層次演化方法,提取政策血緣網(wǎng)絡(luò)的樹狀結(jié)構(gòu),并在此結(jié)構(gòu)基礎(chǔ)上提出新政策的判余與位置鎖定。
深入研究新中國成立后的政策體系演化過程,可以發(fā)現(xiàn),所有政策均由憲法衍化而來,因而目前所有有效或已失效的政策都因與憲法之間的祖孫關(guān)系而存在內(nèi)在的聯(lián)系,稱之為政策血緣關(guān)系。例如,在我國的社會(huì)保障體系中,政策之間的政策血緣關(guān)系如圖1所示。
圖1中所展示的即為一顆政策族譜樹,它描述了圖中節(jié)點(diǎn)的父子關(guān)系。由圖可知,樹中路徑距離較遠(yuǎn)的政策節(jié)點(diǎn)之間的血緣關(guān)系應(yīng)當(dāng)較為薄弱[10]。
圖1 中華人民共和國社保體系結(jié)構(gòu)示意
1.2.1 政策基因
家族政策通過家族基因來傳播和繼承政策血緣關(guān)系[11]。同理,政策族譜樹的衍化過程中傳遞的主要內(nèi)容便是政策基因。政策基因具體到以自然語言書寫的政策文本中,即可以是政策概念、政策詞語、政策條款、政策段落或政策篇章,視具體情況而定。
1.2.2 政策血緣網(wǎng)絡(luò)
正是政策之間隱性血緣關(guān)系的存在,使政策譜系樹中不同的分支之間存在了或強(qiáng)或弱的聯(lián)系,形成網(wǎng)狀結(jié)構(gòu),稱之為政策血緣網(wǎng)絡(luò),這種網(wǎng)絡(luò)以政策文本為網(wǎng)絡(luò)頂點(diǎn),政策文本之間的血緣關(guān)系作為邊,兩個(gè)政策文本間的相似度作為權(quán)值,下面進(jìn)行形式化定義,如式(1)所示。
G=(V,E,W)
(1)
其中,V是頂點(diǎn)集合,該集合有限非空,V中的每個(gè)節(jié)點(diǎn)代表真實(shí)政策系統(tǒng)中的政策文本。E為邊的集合集,任意ej∈E(G),使得ej=(vi,vj),且ej=(vi,vj)表示政策網(wǎng)絡(luò)節(jié)點(diǎn)之間的政策血緣關(guān)系。頂點(diǎn)之間的相似度W為網(wǎng)絡(luò)中邊的權(quán)值。
復(fù)雜網(wǎng)絡(luò)從本質(zhì)上講是具有一定特性和拓?fù)鋸?fù)雜性的圖,一個(gè)由著名學(xué)者錢學(xué)森提出的較為嚴(yán)謹(jǐn)?shù)亩x為: 如果一個(gè)網(wǎng)絡(luò)具有自組織、自相似、吸引子、小世界以及無標(biāo)度中的部分或全部性質(zhì),則該網(wǎng)絡(luò)是復(fù)雜網(wǎng)絡(luò)[12]。
聚類分析是將所需處理的數(shù)據(jù)對(duì)象的集合按照它們的相似度分成多個(gè)聚類簇或數(shù)據(jù)對(duì)象子集的過程,是一種常用的數(shù)據(jù)挖掘方法。
文獻(xiàn)[13]綜合上述分類方法,對(duì)聚類算法進(jìn)行如圖2所示的分類,并對(duì)每一類聚類算法進(jìn)行簡要介紹。圖2中,根據(jù)聚類算法是否需要在聚類之前輸入?yún)?shù),將聚類方法分為參數(shù)方法和非參數(shù)方法。在參數(shù)聚類方法中,又可分為軟聚類方法(模糊聚類方法)、劃分聚類方法和基于模型的聚類方法。
圖2 聚類方法分類
觀察中華人民共和國人力資源與社會(huì)保障部官方網(wǎng)站中公開的社保相關(guān)政策體系,該體系中將社保政策分為八大類,其主要組織形式如圖3所示。
圖3 社會(huì)保險(xiǎn)政策體系
對(duì)于上述不同類別的政策子系統(tǒng),其內(nèi)部又可根據(jù)不同的側(cè)重分出不同的子類,每個(gè)子類包含若干相關(guān)政策。有些政策的組織形式是彼此隔離,互不相關(guān)的。從內(nèi)容上來講,它們或?qū)嵤┑氖荏w相似或相關(guān),或?qū)嵤┺k法相似或相關(guān),這種聯(lián)系并沒能從政策族譜樹中體現(xiàn),這就是政策間的隱性血緣關(guān)系。挖掘這種政策間的隱性血緣,并根據(jù)這種天然的聯(lián)系構(gòu)建隱性政策網(wǎng)絡(luò),將是解決政策碎片化問題的有力工具。
政策血緣網(wǎng)絡(luò)是一個(gè)由微觀、中觀、宏觀三個(gè)層面構(gòu)成的政策網(wǎng)絡(luò)體系。其中,微觀層次的政策血緣網(wǎng)絡(luò)是從政策基因的角度上來考慮的;中觀政策血緣網(wǎng)絡(luò)是從政策細(xì)胞的角度上來考慮的;而宏觀政策血緣網(wǎng)絡(luò)是從政策文本的角度上來研究政策血緣網(wǎng)絡(luò)。
定義1(政策個(gè)體) 對(duì)于政策文本集C={L1,L2,…,Ln},C所包含的每一個(gè)獨(dú)立的政策文本Li即為一個(gè)政策個(gè)體。
定義2(政策細(xì)胞) 對(duì)于政策文本L={M1,M2, …,Mn},L所包含n個(gè)政策條款M1,M2, …,Mn即為組成L的n個(gè)政策細(xì)胞。
定義3(政策基因) 對(duì)于政策細(xì)胞M={S1,S2, …,Sn},M所包含的m個(gè)政策詞語S1,S2, …,Sn即為M的m個(gè)政策基因。
政策細(xì)胞作為政策個(gè)體的基本單位,是政策個(gè)體所攜帶信息的最小單位載體,而政策基因作為政策細(xì)胞內(nèi)的遺傳物質(zhì)對(duì)于政策細(xì)胞的形態(tài)以及功能特點(diǎn)起到?jīng)Q定性的作用,進(jìn)而決定對(duì)政策個(gè)體的形態(tài)以及所攜帶的信息。
將《中華人民共和國社會(huì)保險(xiǎn)法》的第二章 “基本養(yǎng)老保險(xiǎn)”的前兩句和第三章“基本醫(yī)療保險(xiǎn)”的前兩句分別當(dāng)作兩個(gè)政策個(gè)體,如表1所示。那么對(duì)于政策個(gè)體L1,組成它的政策細(xì)胞為L1M1和L1M2,L1M1和L1M2任何政策條款的改變都會(huì)直接引起政策個(gè)體L1結(jié)構(gòu)上的改變。而對(duì)于政策細(xì)胞L1M1={S1,S2,S3}={基本,養(yǎng)老,保險(xiǎn)},S1,S2,S3分別是對(duì)政策細(xì)胞產(chǎn)生決定性作用的組成部分。
表1 政策個(gè)體的一個(gè)例子
綜上所述,政策血緣網(wǎng)絡(luò)體系的結(jié)構(gòu)如圖4所示。
圖4 政策血緣網(wǎng)絡(luò)體系結(jié)構(gòu)示意圖
首先對(duì)于三層政策血緣網(wǎng)絡(luò)體系加以形式化定義:
定義4(三層政策網(wǎng)絡(luò)) 微觀政策網(wǎng)絡(luò)Snet(V1,E1,W1),中觀政策網(wǎng)絡(luò)Mnet(V2,E2,W2)及宏觀政策網(wǎng)絡(luò)Lnet(V3,E3,W3),它們都是加權(quán)無向網(wǎng)絡(luò),其中:
網(wǎng)絡(luò)節(jié)點(diǎn)的集合分別為V1={S1,S2,…,Sn},V2={M1,M2,…,Mn},V3={L1,L2,…,Ln},其中Si為政策基因,Mi為政策細(xì)胞,Li為政策個(gè)體;邊的集合都表示為E={e1,e2,…,em},集合中的元素分別描述了節(jié)點(diǎn)間的相似關(guān)系;邊的權(quán)值的集合表示為W,集合中元素為邊所連接的節(jié)點(diǎn)對(duì)應(yīng)的政策基因(政策細(xì)胞或政策個(gè)體)間的相似度值。
明確了由微觀到宏觀的三層政策血緣網(wǎng)絡(luò),下面可以形式化定義政策血緣網(wǎng)絡(luò)體系的概念:
定義5(政策血緣網(wǎng)絡(luò)體系) 政策血緣網(wǎng)絡(luò)體系可形式化為PNS=(Lnet,Mnet,Snet,R(L,M),R(M,S)),其中: (1)Lnet,Mnet,Snet依次分別為宏觀,中觀和微觀政策血緣網(wǎng)絡(luò);(2)R(L,M)={e1lm,e2lm, …,enlm}為宏觀政策血緣網(wǎng)絡(luò)與中觀政策血緣網(wǎng)絡(luò)之間的邊的集合,集合內(nèi)元素eilm表示宏觀政策血緣網(wǎng)絡(luò)節(jié)點(diǎn)Lp對(duì)于中觀政策血緣網(wǎng)絡(luò)中節(jié)點(diǎn)Mc的包含關(guān)系(Lp,Mc, weight);(3)R(M,S)={e1ms,e2ms, …,enms}為中觀政策血緣網(wǎng)絡(luò)與微觀政策血緣網(wǎng)絡(luò)之間的邊的集合,集合內(nèi)元素eims表示中觀政策血緣網(wǎng)絡(luò)節(jié)點(diǎn)Mp對(duì)于微觀政策血緣網(wǎng)絡(luò)中節(jié)點(diǎn)Sc的包含關(guān)系(Mp,Sc, weight)。
政策血緣網(wǎng)絡(luò)體系的構(gòu)建主要包括體系中節(jié)點(diǎn)的發(fā)現(xiàn),節(jié)點(diǎn)間關(guān)系的挖掘,節(jié)點(diǎn)間關(guān)系權(quán)重的計(jì)算。其中,政策血緣網(wǎng)絡(luò)體系中的節(jié)點(diǎn)包括政策個(gè)體、政策細(xì)胞以及政策基因。政策個(gè)體即政策篇章,政策細(xì)胞為政策篇章中所包含的政策條款,而政策基因則為政策條款中的政策詞語。本文規(guī)定,政策篇章中的每句話作為政策條款。而獲取政策基因的關(guān)鍵在于對(duì)政策文本進(jìn)行分詞,因此政策血緣網(wǎng)絡(luò)體系構(gòu)建的節(jié)點(diǎn)發(fā)現(xiàn)主要依靠基于標(biāo)點(diǎn)的政策條款獲取和政策文本分詞技術(shù)來實(shí)現(xiàn)。
政策血緣網(wǎng)絡(luò)體系中主要存在兩種類型的邊: (1)網(wǎng)內(nèi)邊: 各層網(wǎng)絡(luò)內(nèi)部節(jié)點(diǎn)之間的邊;(2)網(wǎng)際邊: 聯(lián)通不同層次網(wǎng)絡(luò)之間的邊。每個(gè)下層節(jié)點(diǎn)都存在一條指向上層節(jié)點(diǎn)的被包含關(guān)系的邊。網(wǎng)際邊的權(quán)值由如下公式計(jì)算,對(duì)于上層節(jié)點(diǎn)i,以及下層節(jié)點(diǎn)j,聯(lián)通i和j之間邊的權(quán)值為:
(2)
政策血緣網(wǎng)絡(luò)體系中,邊的挖掘以及權(quán)值計(jì)算主要分為兩部分,其一是網(wǎng)際邊的權(quán)值計(jì)算,這項(xiàng)工作可由式(2)實(shí)現(xiàn);另一部分則為網(wǎng)內(nèi)邊的權(quán)值計(jì)算,具體到三個(gè)層次的政策血緣網(wǎng)絡(luò)。微觀網(wǎng)絡(luò)的網(wǎng)內(nèi)邊權(quán)值由政策基因相似度計(jì)算得來。中觀網(wǎng)絡(luò)的網(wǎng)內(nèi)邊權(quán)值由政策條款的相似度計(jì)算得來,宏觀網(wǎng)絡(luò)的網(wǎng)內(nèi)邊權(quán)值由政策個(gè)體的相似度計(jì)算得來,實(shí)現(xiàn)了上述過程,便可實(shí)現(xiàn)政策血緣網(wǎng)絡(luò)的構(gòu)建,其構(gòu)建過程如圖5所示。
圖5 政策網(wǎng)絡(luò)體系構(gòu)建流程
圖5中,政策血緣網(wǎng)絡(luò)體系的構(gòu)建主要分為兩個(gè)步驟。首先根據(jù)宏觀網(wǎng)絡(luò)中政策個(gè)體包含條款的數(shù)量建立宏觀網(wǎng)絡(luò)與中觀網(wǎng)絡(luò)之間的網(wǎng)際邊,網(wǎng)際邊的權(quán)值由公式(2)計(jì)算。依次通過中文分詞,依存對(duì)提取算法,計(jì)算每個(gè)政策細(xì)胞內(nèi)部包含的政策基因數(shù)量,根據(jù)公式建立中觀網(wǎng)絡(luò)與微觀網(wǎng)絡(luò)之間的網(wǎng)際邊。至此體系框架構(gòu)建完成。
然后,基于《知網(wǎng)》的詞語相似度計(jì)算方法[14-15],實(shí)現(xiàn)政策基因的相似度計(jì)算,得到微觀網(wǎng)絡(luò)中網(wǎng)內(nèi)邊的權(quán)值;利用依存句法分析方法[16-19]對(duì)政策細(xì)胞進(jìn)行句法分析,將政策細(xì)胞間的相似度計(jì)算轉(zhuǎn)化為政策細(xì)胞句法分析樹之間的相似度計(jì)算,從而利用句法分析樹匹配的方法[20]實(shí)現(xiàn)政策細(xì)胞相似度計(jì)算,得到中觀網(wǎng)絡(luò)中網(wǎng)內(nèi)邊的權(quán)值;基于向量空間模型[21]將政策個(gè)體表示為政策細(xì)胞的特征向量,將兩個(gè)政策個(gè)體所包含的政策細(xì)胞之間相似度的期望作為政策個(gè)體的相似度值,從而得到宏觀網(wǎng)絡(luò)的網(wǎng)內(nèi)邊權(quán)值。整個(gè)政策血緣網(wǎng)絡(luò)體系的構(gòu)建,算法如下:
算法1 政策血緣網(wǎng)絡(luò)體系構(gòu)建算法輸入: 政策個(gè)體集合C={Text1, Text2,…, Textn}輸出: 政策血緣網(wǎng)絡(luò)體系PNS=(Lnet, Mnet, Snet, R(L, M), R(M, S))PNS=(Lnet, Mnet, Snet, R(L, M), R (M, S))for 每一個(gè) 政策文本Texti in C { Li=Texti; Lnet=Lnet∪{ Li} 根據(jù)標(biāo)點(diǎn)符號(hào), 提取Li中的政策條款Li={item1, i-tem2, … , itemn} for 每一個(gè)政策條款 itemj in Li { Mj= itemj; R(L, M)=R(L, M) ∪C (Li, Mj, 1/l); Mnet=Mnet∪Mj 對(duì)Mi進(jìn)行分詞,得到政策基因序列Mj={word1, word2, … ,wordm} for 每一個(gè)政策詞語wordk in Mj{ Sk=wordk; R(M, S)=R(M, S)∪C (Mj, Sk, 1/m); Snet=Snet∪Sk } } }for Li, Lj in Lnet{ for Mi in Li,Mj in Lj{ for Si in Mi,Sj in Mj{ 計(jì)算并返回Sim (Si, Sj) Snet=Snet∪Sim (Si, Sj) } 計(jì)算并返回Sim (Mi, Mj) Mnet=Mnet∪Sim (Mi, Mj) } 計(jì)算Sim (Li, Lj) Lnet=Lnet∪Sim (Li, Lj)}
通過第二節(jié)的敘述,實(shí)現(xiàn)了政策血緣網(wǎng)絡(luò)體系的構(gòu)建。該體系使從微觀、中觀和宏觀三個(gè)不同的角度觀察政策血緣網(wǎng)絡(luò)體系的結(jié)構(gòu)成為可能。無論從哪個(gè)角度來看,政策血緣網(wǎng)絡(luò)都是沒有層次的扁平化網(wǎng)絡(luò)。當(dāng)面對(duì)越來越嚴(yán)重的政策碎片化問題時(shí),僅僅依靠該網(wǎng)絡(luò)體系并不能對(duì)政策的碎片管理和消減產(chǎn)生直接貢獻(xiàn)。解決政策碎片化問題的關(guān)鍵是對(duì)宏觀政策網(wǎng)絡(luò)進(jìn)行層級(jí)劃分,實(shí)現(xiàn)同功能政策的替代或分解,減少平行政策數(shù)量。因此,本文提出應(yīng)用劃分聚類方法,實(shí)現(xiàn)政策網(wǎng)絡(luò)節(jié)點(diǎn)的聚類,從而延緩碎片化。
3.1.1 自底向上的層次聚類方法AGNES
自底向上的層次聚類的基本思想是,對(duì)于待聚類數(shù)據(jù)集合,首先將集合中的每一個(gè)數(shù)據(jù)都看做是一個(gè)類,然后根據(jù)一定的計(jì)算標(biāo)準(zhǔn)計(jì)算不同類之間的相似度,合并相似度滿足要求的類,形成新的類,照此過程進(jìn)行迭代,直到數(shù)據(jù)集中所有的數(shù)據(jù)都合并到一個(gè)大類中。其主要步驟描述如下:
(1)首先把數(shù)據(jù)集合中的每個(gè)數(shù)據(jù)初始化為一個(gè)初始類。(2)對(duì)于每個(gè)類,利用既定的相似度計(jì)算方法,兩兩計(jì)算不同類之間的相似度。(3)選擇相似度符合實(shí)驗(yàn)法要求的類,將這些類合并為一個(gè)類。(4)重復(fù)步驟(2)~(3),直到數(shù)據(jù)集中所有的類聚集都凝聚為一個(gè)大類。
AGNES算法是一種硬聚類方法,每個(gè)類中的節(jié)點(diǎn)只明確的歸屬于一個(gè)類,這必將導(dǎo)致某些節(jié)點(diǎn)間相似關(guān)系的忽視。除此之外,AGNES算法中只考慮了節(jié)點(diǎn)之間的相似關(guān)系,并未考慮節(jié)點(diǎn)之間的包含關(guān)系。在實(shí)際的政策網(wǎng)絡(luò)節(jié)點(diǎn)中,其政策個(gè)體可能是另一個(gè)政策的子政策。AGNES中,某個(gè)類一旦形成,那么該類中的任何節(jié)點(diǎn)將永遠(yuǎn)從屬于該類,并不能隨著該類節(jié)點(diǎn)的增多而偏移向其他的類。如果某個(gè)合并的決策在后來被證明是不好的選擇,在AGNES算法中是無法退回并修正的,這將導(dǎo)致聚類結(jié)果的偏差愈加增大。為此,本文提出一種新的層次聚類方法PBNAP(Policy Blood Network Architecture Partition)。該方法基于AGNES算法思想,并加以改進(jìn),適用于在政策血緣網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行網(wǎng)絡(luò)層次劃分。
3.1.2 宏觀政策血緣網(wǎng)絡(luò)層級(jí)劃分算法PBNAP
政策細(xì)胞指政策條款,政策個(gè)體指包含了多個(gè)政策條款的政策篇章。政策細(xì)胞的相似度采用基于依存句分析及依存樹匹配相結(jié)合的方法,而政策個(gè)體間的相似度值是政策細(xì)胞相似度的期望值。由于政策個(gè)體中包含了政策細(xì)胞,故兩者的相似度值可以進(jìn)行比較,從而定義政策個(gè)體的相異度如下:
對(duì)于政策個(gè)體L1和L2,其相似度為Sim(L1,L2),設(shè)L1所包含的所有政策細(xì)胞中,與L2中任意節(jié)點(diǎn)間相似度都小于Sim(L1,L2)的節(jié)點(diǎn)個(gè)數(shù)為nsub,則稱nsub與L1的比值為L1相對(duì)于L2的相異度。形式化定義如下:
定義6(相異度) 對(duì)于政策個(gè)體L1和L2,設(shè)L1與L2之間的相似度為Sim(L1,L2),L1的子集SubL1與L2的子集SubL2形成以兩政策節(jié)點(diǎn)之間的二元關(guān)系為元素的集合,S={ (3) L2相對(duì)于L1的相異度與上述公式類似。由上述定義可知,政策個(gè)體之間的相異度反映的是政策個(gè)體的個(gè)性程度。Dif(L1,L2)越大,說明在政策個(gè)體L1中,其包含的政策細(xì)胞與L2中政策細(xì)胞相異的就越多,政策個(gè)體L1相對(duì)于L2的個(gè)性程 度 就 越 大。那么對(duì)于政策個(gè)體L1和L2,在推斷他們之間的包含關(guān)系時(shí),假設(shè)相異度閾值β是一個(gè)較小的常數(shù),則由相異度可以得到如下推斷: (1) 若min{Dif(L1,L2),Dif(L2,L1)}>β,則說明,L1和L2不具有父子關(guān)系; (2)若Dif(L1,L2)>β>Dif(L2,L1),則L2是L1的子政策; (3)反之,若Dif(L2,L1)>β>Dif(L1,L2),則L1是L2的子政策;(4)若min{Dif(L1,L2),Dif(L2,L1)}≤β,則L1和L2是完全相同的兩個(gè)節(jié)點(diǎn); 定義7(政策個(gè)體之間的包含度) 對(duì)于政策個(gè)體L1對(duì)L2的包容度定義為政策個(gè)體L2從屬于政策個(gè)體L1,其計(jì)算如式(4)所示。 (4) 由式(4)可知,當(dāng)C(L1,L2) >1時(shí),說明L2是L1的子政策;當(dāng)C(L1,L2)∈(0,1)時(shí),說明L1是L2的子政策。當(dāng)C(L1,L2)=0時(shí),說明L2與L1互為冗余政策;而當(dāng)C(L1,L2)=-1時(shí),說明L1與L2之間無父子關(guān)系。 對(duì)于已構(gòu)建好的政策血緣網(wǎng)絡(luò),首選在宏觀政策血緣網(wǎng)絡(luò)LNet中選取度最低(即度為1)的n個(gè)節(jié)點(diǎn)SubLNet0={L1,L2,…,Ln}作為最底層的葉子節(jié)點(diǎn)(網(wǎng)絡(luò)中度數(shù)最小的節(jié)點(diǎn)必定為葉子節(jié)點(diǎn))。關(guān)于?Li∈SubLNet0,其只存在一個(gè)鄰居節(jié)點(diǎn),設(shè)為pLi。假設(shè)網(wǎng)絡(luò)是連通圖的前提下,那么其鄰居節(jié)點(diǎn)pLi必定會(huì)有另外的 鄰 居 節(jié) 點(diǎn)。 故pLi的 度 一 定大于1,且其鄰居節(jié)點(diǎn)pLi為Li的父節(jié)點(diǎn)。由此網(wǎng)絡(luò)中初始形成了n個(gè)由SubLNet中節(jié)點(diǎn)以及其鄰居節(jié)點(diǎn)形成類。之后,對(duì)于SubLNet中所有節(jié)點(diǎn)的鄰居節(jié)點(diǎn)形成的集合NebSubLNet0,對(duì)?Li∈NebSubLNet0滿足Li沒有父節(jié)點(diǎn)。首先,確定其鄰居節(jié)點(diǎn)集合Neb={LiN1,LiN2,…,LiNm},然后,對(duì)于?LiNj∈NebLi且滿足Sim(Li,LiNj)以及LiNj沒有父節(jié)點(diǎn)和子節(jié)點(diǎn),分別計(jì)算C(Li,LiNj),根據(jù)包含度確定這Li和LiNj之間的父子關(guān)系。反復(fù)迭代,直至網(wǎng)絡(luò)中最后一個(gè)節(jié)點(diǎn)的位置確定。算法的示意圖如圖6所示。 圖6 PBNAP算法流程示意圖 綜上所述,政策血緣網(wǎng)絡(luò)層次劃分算法描述如下: 算法2 政策血緣網(wǎng)絡(luò)層次劃分算法輸入: 政策血緣網(wǎng)絡(luò)體系PNS,包含度閾值β輸出: 宏觀層次的政策血緣網(wǎng)絡(luò)Lnet中的父子關(guān)系集合Rfor節(jié)點(diǎn)Li in Lnet{ for節(jié)點(diǎn)Lj in Lnet{ 計(jì)算Li與Lj之間的包含度C(Li, Lj) IfC(Li, Lj) > 0 && C(Li, Lj) < 1 { R=R∪{(Lj, Li)} }else if C(Li, Lj) > 1{ R=R∪{(Li, Lj)} }else if C(Li, Lj)=0{ R=R∪{(Li, Lj)} } } } 通過3.1節(jié)介紹的理論,實(shí)現(xiàn)了扁平化宏觀政策血緣網(wǎng)絡(luò)的樹狀層次劃分。然而這種樹狀層次的形成是以犧牲政策個(gè)體內(nèi)部比重較小的政策細(xì)胞之間的相似度為代價(jià)的。在實(shí)際的政策網(wǎng)絡(luò)中,政策碎片化的正向傳播體現(xiàn)在政策個(gè)體之間時(shí),不僅沒有鮮明的體系層次,且從政策文本內(nèi)容上來講,還存在著不同政策個(gè)體所包含的政策細(xì)胞之間的交叉。針對(duì)此問題,本文在層次化宏觀政策血緣網(wǎng)絡(luò)的基礎(chǔ)上,對(duì)中觀的政策細(xì)胞網(wǎng)絡(luò)進(jìn)行演化,消減網(wǎng)絡(luò)中的碎片化節(jié)點(diǎn)。 在物理學(xué)中的萬有引力定律中,任意兩個(gè)質(zhì)點(diǎn)通過連心線方向上的力相互吸引。該引力大小與它們質(zhì)量的乘積成正比,與它們距離的平方成反比,與兩物體的化學(xué)組成和其間介質(zhì)種類無關(guān)。故可以如下定義政策個(gè)體之間的吸引力。 定義8(政策個(gè)體之間吸引力) 政策個(gè)體之間吸引力表示文本之間的相互吸引程度,它與文本的長度成正比,與文本之間的距離成反比。 對(duì)于政策個(gè)體L1={M11,M12,…,M1n}和L2={M21,M22,…,M2n},由上文可以計(jì)算L1,L2之間的相似度Sim(L1,L2),則文本之間的距離為: (5) 那么L1,L2之間的吸引力F(L1,L2)的計(jì)算公式為: (6) 對(duì)于政策文本L1和L2,它們所包含的內(nèi)容越多,相似度越大,則它們之間的吸引力越強(qiáng)。對(duì)于一個(gè)政策細(xì)胞M和一個(gè)政策個(gè)體L,在考量它們之間的吸引力F(L,M)時(shí)可以將政策細(xì)胞M看成是一篇只由一條政策條款組成的政策個(gè)體,表示為長度為1的空間向量,那么它們之間吸引力可簡化為式(7): F(L,M)=|L|×Sim(L,M) (7) 由此本文提出基于政策文本吸引力的政策文本去碎片化方法,其中政策森林的構(gòu)建過程如圖7所示。 圖7 政策森林構(gòu)建 具體的去碎片化算法描述如下: 算法3 政策血緣網(wǎng)絡(luò)層去碎片化算法輸入: 政策血緣網(wǎng)絡(luò)體系PNS,Lnet的層次結(jié)構(gòu)R(節(jié)點(diǎn)父子關(guān)系),相似度閾值γ輸出: 政策血緣森林for Li in Lnet { for Lj in Lnet { if ( Li, Lj ) 不屬于R { for Mx屬于Li { 續(xù)表 通過政策血緣網(wǎng)絡(luò)的去碎片化,刪除了層次政策血緣網(wǎng)絡(luò)中的非父子關(guān)系,從而構(gòu)建了有一棵或多棵政策血緣樹構(gòu)成的政策血緣森林。下面對(duì)政策血緣樹進(jìn)行形式化定義: 定義9(政策血緣樹)T(V,E, root(T))為一棵由政策文本組成的樹,滿足: (1)該樹中,有且只有一個(gè)根節(jié)點(diǎn)root(T); (2)頂點(diǎn)集合V={L1,L2,…,Ln}中元素為政策文本; (3)邊集合E={ek=3.2 政策網(wǎng)絡(luò)的去碎片化演化
經(jīng)過前面的介紹,已經(jīng)可以將現(xiàn)存的碎片化政策進(jìn)行層次構(gòu)建,并消除了層次化血緣網(wǎng)絡(luò)體系中的碎片化條款,從而形成政策血緣森林。在新政策制定的過程當(dāng)中,政策制定者難以掌握所有現(xiàn)存政策信息,因此產(chǎn)生新的政策碎片。如何利用上面提出的層次化的政策血緣網(wǎng)絡(luò)對(duì)新政策進(jìn)行定位至關(guān)重要。本文提出一種基于樹的層次檢索的方法。對(duì)于新政策,在政策血緣森林中尋找與新政策節(jié)點(diǎn)相似的已存在的政策個(gè)體,通過與這些節(jié)點(diǎn)的匹配為政策制定者提供政策定位的輔助信息。
3.3.1 政策血緣網(wǎng)絡(luò)層次有序化
層次化的政策血緣網(wǎng)絡(luò)的實(shí)質(zhì)是一棵或多棵政策血緣樹組成的政策森林。每棵政策樹中的父子節(jié)點(diǎn)之間的關(guān)系存在著相似度大,及包含度大的特點(diǎn)。這棵政策血緣樹的兄弟節(jié)點(diǎn)對(duì)于父節(jié)點(diǎn)來說是平等的。它們所處的位置與它們與父節(jié)點(diǎn)的聯(lián)系緊密程度無關(guān),這不利于政策的逐層檢索。因此,本文在前文所構(gòu)建的政策血緣樹的基礎(chǔ)上,提出一種政策文本包含度的無序政策樹有序化算法,其流程如圖8所示。
圖8 政策樹有序化示例
對(duì)于圖中政策血緣樹T={L1,L2,…,L11},按廣度優(yōu)先的順序?qū)進(jìn)行層次遍歷,對(duì)于遍歷中的每個(gè)非葉子節(jié)點(diǎn)Li,設(shè)其直系子節(jié)點(diǎn)集合為Child(Li)=={Li1,Li2,…,Lin},對(duì)于?Lij∈Child(Li),由加權(quán)樹的邊的權(quán)值可以得到Li對(duì)其子節(jié)點(diǎn)Lij的包含度C(Li,Lij),對(duì)Li的所有子節(jié)點(diǎn)按照包含度的由大到小進(jìn)行排序,分別作為Li由左到右的孩子節(jié)點(diǎn)。繼續(xù)迭代,直至政策血緣樹T中所有的非葉節(jié)點(diǎn)的子節(jié)點(diǎn)全部有序排列。
3.3.2 新政策的位置鎖定
應(yīng)用上文構(gòu)建的政策血緣有序樹所構(gòu)成的政策血緣森林,對(duì)于新制定的政策,本文提出一種基于有序樹檢索的政策碎片預(yù)防機(jī)制。該機(jī)制可以執(zhí)行在新政策的制定和修訂的過程中,用于檢驗(yàn)新政策相對(duì)于已存在的政策樹的冗余度,及對(duì)于非冗余政策在政策森林中插入位置的確定。其大致流程如圖9所示。
圖9 新政策的插入
如圖9所示,對(duì)于一個(gè)新制定的政策Lnew,首先計(jì)算政策森林F={T1,T2,…,Tn}中所有樹根節(jié)點(diǎn)對(duì)于Lnew的包含度Croot(F,Lnew),其中Croot(F,Lnew)包含的內(nèi)容為Croot(F,Lnew)={C(root(T1Lnew)),C(root(T2Lnew)),…,C(root(TnLnew))}。Croot(F,Lnew)中,如果其最大元素Max(C(root(TnLnew)))<0,則將政策Lnew作為政策森 林F的 新 政
策樹;若存在Lnew對(duì)某個(gè)跟節(jié)點(diǎn)的包含度大于所有根節(jié)點(diǎn)對(duì)于Lnew的包含度,則Lnew為該根節(jié)點(diǎn)的父節(jié)點(diǎn);否則Lnew的從屬于對(duì)于Lnew包含度最大的政策樹,下面從該樹的根節(jié)點(diǎn)開始,迭代計(jì)算Lnew與本次迭代的父節(jié)點(diǎn)的子節(jié)點(diǎn)中,尋找Lnew的下次迭代父節(jié)點(diǎn),直到找到Lnew的直系父節(jié)點(diǎn)。尋找的過程如圖10所示。
圖10 新政策判余與位置鎖定
圖10中,已知本層父節(jié)點(diǎn)為L,本層父節(jié)點(diǎn)對(duì)新政策Lnew的包含度為C(L,Lnew),則在判斷下一層節(jié)點(diǎn)時(shí)會(huì)遇到三種情況:
(1)C(L,Lnew) >C(L,LLC),其中LLC為L的最左孩子。此時(shí)若Sim(LLC,Lnew)
(2)C(L,Lnew) >C(L,LRC),其中LRC為L的最右孩子。此時(shí)若Sim(LRC,Lnew)
(3)C(L,LCi)
具體的位置鎖定算法描述如下:
算法4 新政策節(jié)點(diǎn)的插入位置鎖定輸入: 政策個(gè)體Lnew,有序化政策血緣森林F輸出: 經(jīng)過插入操作的政策森林F計(jì)算Lnew與F中所有根節(jié)點(diǎn)的包含度if max ( C( Lnew, root(T) ) )=0{ Lnew 為冗余政策}else if max ( C( Lnew, root(T) ) ) > 1{ Lnew 為政策血緣樹的新的根節(jié)點(diǎn)}else if max ( C( Lnew, root(T) ) ) < 0{ Lnew 為政策森林中的一棵新樹}else{ Lnew 為樹T的子節(jié)點(diǎn), 按包含度確定Lnew鄰居兄弟節(jié)點(diǎn) if存在包含關(guān)系, 則遍歷下一層 else{ 在兄弟節(jié)點(diǎn)之間插入Lnew }}
本實(shí)驗(yàn)以中華人民共和國人力資源與社會(huì)保障部網(wǎng)站上,政府公開法律法規(guī)的養(yǎng)老保險(xiǎn)菜單中,城鎮(zhèn)職工基本養(yǎng)老保險(xiǎn)目錄下的10個(gè)養(yǎng)老保險(xiǎn)相關(guān)政策文本為例,驗(yàn)證文中研究技術(shù)的有效性。實(shí)驗(yàn)中使用的每一個(gè)政策文本,均保存為txt格式。實(shí)驗(yàn)分為四個(gè)階段,分別為:
(1) 政策文本相似度計(jì)算。通過依存句法分析方法,基于《知網(wǎng)》的詞語相似度計(jì)算方法,政策細(xì)胞相似度計(jì)算方法,以及政策個(gè)體相似度計(jì)算方法,實(shí)現(xiàn)政策文本相似度計(jì)算。
(2) 依據(jù)政策文本相似度計(jì)算結(jié)果,構(gòu)建城鎮(zhèn)職工養(yǎng)老保險(xiǎn)政策血緣網(wǎng)絡(luò)體系。探究各層次城鎮(zhèn)職工養(yǎng)老保險(xiǎn)政策血緣網(wǎng)絡(luò)特點(diǎn)。
(3) 在政策血緣網(wǎng)絡(luò)體系的基礎(chǔ)上,對(duì)宏觀政策網(wǎng)絡(luò)進(jìn)行層次劃分,去碎片演化,觀察樹狀政策血緣網(wǎng)絡(luò)結(jié)構(gòu)特征。
(4) 在政策血緣森林的基礎(chǔ)上,分別對(duì)一個(gè)新政策個(gè)體及數(shù)據(jù)集中某政策個(gè)體的部分政策細(xì)胞稍加改動(dòng)作為“新政策”,對(duì)新政策的冗余判斷及位置鎖定仿真。在此,本文僅展現(xiàn)重要步驟的實(shí)驗(yàn)結(jié)果,省略了某些中間過程的結(jié)果。
經(jīng)過了政策基因、政策細(xì)胞和政策個(gè)體之間的相似度計(jì)算之后,可以分別構(gòu)建微觀政策血緣網(wǎng)絡(luò)、中觀政策血緣網(wǎng)絡(luò)和宏觀政策血緣網(wǎng)絡(luò)。其中,微觀政策網(wǎng)絡(luò)共14 885個(gè)節(jié)點(diǎn),中觀政策血緣網(wǎng)絡(luò)節(jié)點(diǎn)共644個(gè),宏觀政策網(wǎng)絡(luò)節(jié)點(diǎn)共10個(gè)。三層網(wǎng)絡(luò)構(gòu)建結(jié)果分別如圖11~13所示。
圖11 微觀政策血緣網(wǎng)絡(luò)
由圖11中,隨著節(jié)點(diǎn)度的由小增大,節(jié)點(diǎn)的顏色由深至淺逐漸變化。而邊的顏色由深至淺是由邊的權(quán)重(節(jié)點(diǎn)相似度)由大變小導(dǎo)致的。由微觀層次的政策網(wǎng)絡(luò)圖可以看出,微觀層次的網(wǎng)絡(luò)節(jié)點(diǎn)度分布滿足無標(biāo)度特性。
圖12為中觀層次的政策血緣網(wǎng)絡(luò)。由圖可知: 中觀層次的政策網(wǎng)絡(luò)節(jié)點(diǎn)的度分布也明顯具有無標(biāo)度的特性。該圖中節(jié)點(diǎn)越大,顏色越深,度越大;邊顏色越深權(quán)值越大。圖12可以較為明顯的看出實(shí)驗(yàn)數(shù)據(jù)及中的不同政策文本間,第五條政策細(xì)胞的相似度比較大。
圖12 中觀政策血緣網(wǎng)絡(luò)
由圖12可以看出,政策L1、L2、L3、L4、L5、L6、L7、L8、L9的第5個(gè)條款M5相似度較大,且與其他同一政策文本內(nèi)的其他政策細(xì)胞基本不相似,由此可以推斷該條款為政策文本中的通用性文字,與特定政策相關(guān)性不大。而對(duì)于圖中類似于L8M1、L6M4等節(jié)點(diǎn),其度較大。說明與其相似的政策細(xì)胞較多,從而可以推斷該條款包含內(nèi)容較廣,后續(xù)有可能細(xì)化成多個(gè)政策細(xì)胞或者獨(dú)立的政策。
圖13為宏觀政策血緣網(wǎng)絡(luò)的網(wǎng)絡(luò)圖,由圖可知,政策文本L8、L5、L2與較多的政策之間存在著相似關(guān)系,因此可能成為政策樹的根節(jié)點(diǎn)。而L5與L4、L3與L8、L8與L2之間存在著較強(qiáng)的相似關(guān)系,因此有可能成為具有父子關(guān)系的節(jié)點(diǎn)。
圖13 宏觀政策血緣網(wǎng)絡(luò)
4.2.1 政策血緣網(wǎng)絡(luò)的層次劃分
對(duì)于構(gòu)建好的宏觀政策血緣網(wǎng)絡(luò),僅僅能感性的從中觀察出可能的節(jié)點(diǎn)間關(guān)系。而且該政策網(wǎng)絡(luò)是扁平的,并不存在明顯的層次結(jié)構(gòu)。針對(duì)此問題,本階段主要對(duì)上一階段構(gòu)建的宏觀層次的政策網(wǎng)絡(luò)進(jìn)行層次劃分、政策樹的構(gòu)建等相關(guān)處理,以提取出宏觀層次的政策血緣網(wǎng)絡(luò)中的層次結(jié)構(gòu)。首先,要對(duì)宏觀政策血緣網(wǎng)絡(luò)中的層次結(jié)構(gòu)進(jìn)行提取。本實(shí)驗(yàn)中,相異度閾值β選定為0.896,各政策個(gè)體之間的包含度計(jì)算部分結(jié)果見表2。
表2 政策個(gè)體包含度計(jì)算部分結(jié)果
經(jīng)試驗(yàn)反復(fù)調(diào)試,本實(shí)驗(yàn)采用包含度閾值c為0.3,則政策個(gè)體中,包含度大于3或大于0小于0.3的為存在父子關(guān)系的節(jié)點(diǎn),則由政策個(gè)體之間的包含度,將宏觀層次的政策網(wǎng)絡(luò)進(jìn)行層級(jí)劃分,結(jié)果如圖14所示。
圖14 宏觀政策血緣網(wǎng)絡(luò)層級(jí)劃分
圖14中,節(jié)點(diǎn)間較寬的邊即為有政策節(jié)點(diǎn)之間的包含度所提取出的父子關(guān)系,節(jié)點(diǎn)之間的邊顏色越深,則該邊兩段所連接的父子節(jié)點(diǎn)中,父節(jié)點(diǎn)對(duì)于子節(jié)點(diǎn)的包含度越大。而包含所述內(nèi)容較多的節(jié)點(diǎn),其包含的子節(jié)點(diǎn)越多。如圖中節(jié)點(diǎn)L8的直系孩子節(jié)點(diǎn)為L2,L3,L6,而節(jié)點(diǎn)L6的直系孩子節(jié)點(diǎn)只有L5,那么由此可以初步推斷,L8比L6包含更多的政策信息。
4.2.2 政策血緣網(wǎng)絡(luò)的去碎片化演化
層次化的政策血緣網(wǎng)絡(luò)中還存在著很多相似度較大的非父-子關(guān)系的節(jié)點(diǎn)。針對(duì)這樣的節(jié)點(diǎn),分析其內(nèi)部相似度較大的政策細(xì)胞,并計(jì)算這種條款與對(duì)應(yīng)節(jié)點(diǎn)之間的萬有引力。對(duì)于層次化的宏觀政策血緣網(wǎng)絡(luò)中的非父子節(jié)點(diǎn),分別檢索這些非父子節(jié)點(diǎn)內(nèi)部條款見的相似度。當(dāng)相似度大于閾值γ大于0.5時(shí),則對(duì)該政策細(xì)胞與對(duì)方政策個(gè)體的萬有引力進(jìn)行計(jì)算。并將該政策細(xì)胞劃分到萬有引力較大的政策個(gè)體中,經(jīng)過去碎片化演化的政策血緣網(wǎng)絡(luò)形成政策血緣森林。如圖15所示。
由圖15可知,由實(shí)驗(yàn)數(shù)據(jù)集中這10個(gè)政策文本組成的宏觀政策血緣網(wǎng)絡(luò)經(jīng)過去碎片化演化形成的政策血緣森林為兩棵政策血緣樹。其中一棵樹只有一個(gè)根節(jié)點(diǎn)L10,另一棵樹中包含9個(gè)政策個(gè)體,L8為根節(jié)點(diǎn)。對(duì)于樹中的父子節(jié)點(diǎn),其對(duì)于子節(jié)點(diǎn)的包含度越大,邊的顏色越深。對(duì)于一個(gè)根節(jié)點(diǎn),其子節(jié)點(diǎn)的個(gè)數(shù)越多,意味著該節(jié)點(diǎn)越有可能包含更多的信息。而對(duì)于一對(duì)指定的父子節(jié)點(diǎn),其包含度越大,說明父節(jié)點(diǎn)與子節(jié)點(diǎn)父子關(guān)系的可靠性就越大。
圖15 政策血緣森林
4.2.3 政策血緣森林的有序化
上面所構(gòu)建的政策血緣森林中的政策血緣樹是無序樹。即對(duì)父節(jié)點(diǎn)來說,其與某個(gè)子節(jié)點(diǎn)間包含關(guān)系的大小與該節(jié)點(diǎn)位置無關(guān),這種無序狀態(tài)不利于樹的檢索與插入操作。因此,本實(shí)驗(yàn)對(duì)上述政策血緣森林進(jìn)行包含度的排序,得到有序化的政策血緣森林,其過程如圖16所示。
圖16 政策血緣有序森林
圖16中,在經(jīng)過有序化的政策森里共包含兩棵政策有序樹,其根節(jié)點(diǎn)分別為L8和L10,其中L10為只有一個(gè)節(jié)點(diǎn)構(gòu)成的政策樹。而在以L8為根節(jié)點(diǎn)的政策有序樹中,隨著父子節(jié)點(diǎn)間邊的由深至淺,所有父節(jié)點(diǎn)的子節(jié)點(diǎn)均按照父節(jié)點(diǎn)對(duì)其包含度由大到小排列。
4.2.4 新政策位置鎖定
對(duì)于上述有序化的政策血緣森林,假設(shè)有L11為新政策節(jié)點(diǎn),本文將演示該政策在政策血緣森林中進(jìn)行親緣關(guān)系尋找與位置鎖定的過程。該過程通過計(jì)算原有政策森林中的各節(jié)點(diǎn)對(duì)于新的政策節(jié)點(diǎn)的包含度,進(jìn)而判斷原有政策節(jié)點(diǎn)與新政策節(jié)點(diǎn)之間的潛在父子關(guān)系。首先計(jì)算該節(jié)點(diǎn)與政策森林中所有節(jié)點(diǎn)之間的包含度和相似度,計(jì)算結(jié)果見表3。
表3 新政策與政策血緣森林節(jié)點(diǎn)之間的相似度與包含度
圖17 新節(jié)點(diǎn)的插入
圖17中,經(jīng)過包含度和相似度的計(jì)算,新政策L11為非冗余節(jié)點(diǎn),且是政策L6的左孩子。圖中節(jié)點(diǎn)的大小表示節(jié)點(diǎn)孩子數(shù)目的多少,而邊的粗細(xì)表示父子節(jié)點(diǎn)間包含關(guān)系的強(qiáng)弱。
本文提出一種自動(dòng)化的政策系統(tǒng)結(jié)構(gòu)分析方法,通過分析政策之間深層聯(lián)系,實(shí)現(xiàn)碎片化政策的網(wǎng)絡(luò)結(jié)構(gòu)組織,并進(jìn)行碎片消解,形成結(jié)構(gòu)清晰的政策網(wǎng)絡(luò),實(shí)現(xiàn)基于該政策網(wǎng)絡(luò)的新政策碎片預(yù)防。本文提出的政策分析與制定計(jì)算機(jī)輔助技術(shù),可以幫助決策者直觀地把握政策的體系結(jié)構(gòu),預(yù)測新政策在該政策體系中的地位,為有效地消減和預(yù)防政策碎片化現(xiàn)象提供了有效的解決方案。目前,本文提出的方法尚未完全成熟。如政策文本相似度計(jì)算算法,仍處于犧牲算法效率換取算法精確度的階段,尚不足以處理大規(guī)模的文本集。未來的工作主要集中在此類算法的性能優(yōu)化上,以充分發(fā)揮本政策血緣網(wǎng)絡(luò)體系及演化方法在現(xiàn)實(shí)政策分析中的重要作用。
[1] 馮瑩. 碎片與重塑社保制度公平之路[N]. 人民法院報(bào),2010-05-17.
[2] 朱亞鵬.公共政策研究的政策網(wǎng)絡(luò)分析視角[J].中山大學(xué)學(xué)報(bào), 2008: 80-83.
[3] Ismael Blanco, Vivien Lowndes, Lawrence Pratchett. Policy Networks and Governance Networks: Towards Greater Conceptual Clarity[J]. Political Studies Review, 2011: 25.
[4] 楊代福.政策網(wǎng)絡(luò)理論途徑的缺失與修正.理論月刊,
2008(3):82-85.
[5] 譚羚雁, 婁成武. 保障性住房政策過程的中央與地方政府關(guān)系——政策網(wǎng)絡(luò)理論的分析與應(yīng)用[J]. 公共管理學(xué)報(bào), 2012, 09(1):52-63.
[6] 朱春奎.政策網(wǎng)絡(luò)與政策工具:理論基礎(chǔ)與中國實(shí)踐[M].上海:復(fù)旦大學(xué)出版, 2012.
[7] 唐云鋒, 許少鵬. 政策網(wǎng)絡(luò)理論及其對(duì)我國政策過程的啟示[J]. 中共浙江省委黨校學(xué)報(bào), 2012, 28(2):40-45.
[8] 范如國.制度演化及其復(fù)雜性理論[M]. 北京: 科學(xué)出版社, 2011.
[9] 劉剛.面向領(lǐng)域的軟件需求一致性驗(yàn)證方法研究[D]. 哈爾濱工程大學(xué)博士學(xué)位論文, 2008:21-54.
[10] 劉影. 面向領(lǐng)域的隱形政策血緣挖掘方法研究[D]. 哈爾濱工程大學(xué)碩士學(xué)位論文, 2013:14-33.
[11] 路彩霞. 基于語義的領(lǐng)域政策要點(diǎn)分析與形式化方法研究[D].哈爾濱工程大學(xué)碩士學(xué)位論文, 2014:8-46.
[12] 盧志剛,劉俊榮,劉寶旭. 基于GTST-MLD的復(fù)雜網(wǎng)絡(luò)風(fēng)險(xiǎn)評(píng)估方法[J]. 計(jì)算機(jī)科學(xué), 2014.14-23.
[13] 陳寶樓. K-Means算法研究及在文本聚類中的應(yīng)用[D]. 安徽大學(xué)碩士學(xué)位論文, 2013.23-46.
[14] 張瑞霞, 楊國增, 吳慧欣. 基于《知網(wǎng)》的漢語未登錄詞語義相似度計(jì)算[J]. 中文信息學(xué)報(bào), 2012, 26(1):16-21.
[15] 朱新華, 馬潤聰, 孫柳,等. 基于知網(wǎng)與詞林的詞語語義相似度計(jì)算[J]. 中文信息學(xué)報(bào), 2016, 30(4):29-36.
[16] 陳功,羅森林,陳開江,等.結(jié)合結(jié)構(gòu)下文及詞匯信息的漢語句法分析方法[J]. 中文信息學(xué)報(bào), 2012(1): 9-15.
[17] Calvo H, Gambino O J, Gelbukh A, et al. Dependency syntax analysis using grammar induction and a lexical categories precedence system[C]//Proceedings of the Computational Linguistics and Intelligent Text Processing -, International Conference, Cicling 2011, Tokyo, Japan, February 20-26, 2011. Proceedings. DBLP, 2011:109-120.
[18] 車萬翔,張梅山,劉挺.基于主動(dòng)學(xué)習(xí)的中文依存句法分析[J].中文信息學(xué)報(bào), 2012(2):18-22.
[19] 辛霄,范士喜,王軒,等.基于最大熵的依存句法分析[J].中文信息學(xué)報(bào), 2009(2):18-22.
[20] 黎琛. 基于依存樹相似度計(jì)算的漢語復(fù)句關(guān)系詞自動(dòng)識(shí)別[D]. 華中師范大學(xué)碩士學(xué)位論文, 2015.
[21] Abril D, Navarroarribas G, Torra V. Vector Space Model Anonymization[J]. 2013, 256:141-150.