陳慧敏,康怡琳,劉浩,朱容波*
(1 中南民族大學 計算機科學學院,武漢 430074;2 華中農(nóng)業(yè)大學 信息學院,武漢 430074)
政策文本為社會的發(fā)展提供了權(quán)威性、原則性的指導和方向,對社會發(fā)展產(chǎn)生了極大的影響.然而,隨著中央和地方政府政策文本的不斷發(fā)布,一方面由于政策文本繁多且分布在各部門網(wǎng)站系統(tǒng)中,較為分散,難以流通共享,導致相關政策瀏覽受阻;另一方面,由于政策的專業(yè)性與民眾知識的限制,大多數(shù)民眾難以準確全面獲取自己想要了解的政策信息.此外,與普通文本不同,政策文本的結(jié)構(gòu)相對多樣,政策文本之間的信息通常是離散的,并沒有明確連接的關系[1].一篇政府政策基本包含3種類型的實體:政策標題、發(fā)布此政策的部門和此政策所涵蓋的主題.實體之間存在著各種類型的關系:政策與部門之間的發(fā)布關系、部門之間的合作發(fā)布關系、政策與主題之間的涵蓋關系,構(gòu)建多實體政府政策網(wǎng)絡需要考慮直接和間接的關系,多實體節(jié)點之間的關系要比單實體更加復雜和多樣化.因此,如何快速準確地從海量政策中找出相關的政策文本值得深入研究.
鏈路預測通過已知信息預測尚不存在關聯(lián)的兩個節(jié)點潛在連接關系的可能性,在社交網(wǎng)絡[2]、司法案件推薦[3]、動態(tài)網(wǎng)絡[4]、生物醫(yī)學[5]方面有廣泛應用.通過對政策網(wǎng)絡進行鏈路預測來挖掘政策間的相關性、部門間的協(xié)同性,將政策間、部門間關系顯性化,不僅為政策發(fā)展演化與政策制定提供了科學依據(jù),有效地促進了部門間協(xié)同合作,也為民眾提供了更全面準確的政策推薦服務,滿足了不同主體的政策訴求,擴大了政策的普及范圍,實現(xiàn)了主動化服務.例如某大學生準備返鄉(xiāng)創(chuàng)新創(chuàng)業(yè),在省人民政府瀏覽創(chuàng)新創(chuàng)業(yè)政策后,會推薦給該主體關于財政廳如何從財政上支持大學生返鄉(xiāng)創(chuàng)新創(chuàng)業(yè).
但由于交叉學科以及相對專業(yè),目前針對政策文本的鏈路預測現(xiàn)有工作相對較少,現(xiàn)有的鏈路預測方法主要分為基于結(jié)構(gòu)相似性的方法[6-7]和基于矩陣分解的方法[8-9].基于結(jié)構(gòu)相似性的方法由于方法簡單,計算信息易于獲取,復雜度相對較低.然而,現(xiàn)有的基于結(jié)構(gòu)相似性的方法大多從所預測節(jié)點對之間的共同鄰居節(jié)點信息出發(fā),難以充分表示網(wǎng)絡的信息,導致預測精度偏低.基于矩陣分解的方法考慮了網(wǎng)絡中的拓撲結(jié)構(gòu)信息,將網(wǎng)絡矩陣分解為低維矩陣,適用于數(shù)據(jù)稀疏的網(wǎng)絡,具有較高的預測精度.但該方法沒有捕獲節(jié)點連接偏好以及綜合利用局部和全局信息,不能很好地分析政策并對政策網(wǎng)絡進行鏈路預測.因此,在面對政策文本時,如何從復雜的政策中有效地獲取政策中的重點信息以及如何通過鏈路預測對政策間的關系進行預測具有挑戰(zhàn)性.
針對現(xiàn)有工作較少、政策文本間關系錯綜復雜、政策實體間潛在連接關系隱性、多實體政策網(wǎng)絡數(shù)據(jù)稀疏、網(wǎng)絡節(jié)點屬性豐富等特點,以及現(xiàn)有研究大多集中于單一類型的政策實體及關系,難以全面準確地刻畫政策間多類實體潛在關系的不足,本文考慮從節(jié)點相似出發(fā),提出了一種融合節(jié)點相似和屬性偏好的多實體政策鏈路預測算法(Link Prediction via Node Similarity and Attribute Preference,LP-NA).LP-NA 以反映局部信息的鏈接聚類系數(shù)[10]和全局信息的接近中心性[11]來計算節(jié)點相似度,構(gòu)建原始權(quán)重矩陣,并將政策網(wǎng)絡的節(jié)點屬性偏好和預測偏離值融入矩陣分解框架中,對網(wǎng)絡中已知連邊信息進行綜合計算,提升了鏈路預測的準確性,可有效地為民眾提供服務.
傳統(tǒng)鏈路預測算法大多是利用共同鄰居節(jié)點個數(shù)、共同鄰居節(jié)點度值或聚類系數(shù)等節(jié)點信息對節(jié)點間連邊概率進行預測,未考慮到數(shù)據(jù)集特征對預測結(jié)果的影響.基于此,從政策網(wǎng)絡數(shù)據(jù)集的特性出發(fā),本文提出了一種融合節(jié)點相似和屬性偏好的多實體政策網(wǎng)絡鏈路預測算法LP-NA.LP-NA 首先從收集到的政策文本數(shù)據(jù)集,獲取其所包含的實體及關系,構(gòu)建一個多實體政策網(wǎng)絡,然后通過已知網(wǎng)絡中的相關信息、網(wǎng)絡的相關局部特征、全局特征和潛在特性的分析,利用矩陣分解的思路對網(wǎng)絡節(jié)點間的鏈路進行預測,系統(tǒng)流程如圖1所示.
圖1 系統(tǒng)流程圖Fig.1 Flow chart of system
針對政策網(wǎng)絡進行鏈路預測計算,包括通過構(gòu)建融合節(jié)點相似的原始權(quán)重矩陣,計算不同節(jié)點間的連接屬性偏好和預測值偏差,根據(jù)LP-NA 算法計算節(jié)點間連接預測值,其目標函數(shù)為:
其中,Ek表示網(wǎng)絡中已知節(jié)點對連邊集合,Rij表示權(quán)重矩陣中的值,Hi與Hj表示同一類網(wǎng)絡節(jié)點i和j的特征向量,β表示防止過度擬合化參數(shù).公式(1)將權(quán)重矩陣分解為兩個相同的節(jié)點特征矩陣,通過分解后得到的矩陣乘積,再將屬性偏好以及預測偏差值融入計算從而構(gòu)建一個新的相似概率矩陣sim,根據(jù)相似概率矩陣sim中的取值對節(jié)點間產(chǎn)生連邊的可能性進行預測.本文所提出的預測方法融合了更多因素,可以更好地挖掘出節(jié)點之間的潛在關聯(lián),得出更準確的預測.
本文將多實體政策網(wǎng)絡建模為一個異構(gòu)圖,定義多實體政策網(wǎng)絡為:G(VD,VP,VT,E),其中,VD={D1,D2,…,Da}、VP={P1,P2,…,Pb}和VT={T1,T2,…,Tc}分別代表政策發(fā)布部門、政策標題和政策主題;E表示邊的集合.在網(wǎng)絡中定義了兩種類型的邊:同構(gòu)實體邊和異構(gòu)實體邊.同構(gòu)實體邊是連接相同類型的兩個節(jié)點的邊,例如E(D1,D2)表示部門1和部門2由同構(gòu)實體邊連接,它們是相同類型的實體;異構(gòu)實體邊即連接的兩個節(jié)點屬于不同的類型,例如E(D1,P1)表示部門1 與政策標題1 由異構(gòu)實體邊連接.本文構(gòu)建多實體政策網(wǎng)絡(Multi-Entity Policy Network,M-EPN)的框架如圖2所示,具體步驟如下:
圖2 M-EPN框架Fig.2 M-EPN framework
(1)數(shù)據(jù)采集.本文以中國政府官網(wǎng)公開發(fā)布的政策文本作為研究數(shù)據(jù)集,在政策選擇時,邀請專業(yè)人員來分析數(shù)據(jù)源,剔除不相關的政策.對政策數(shù)據(jù)集預處理是保證數(shù)據(jù)質(zhì)量的重要操作,通過刪除每篇政策中的噪聲數(shù)據(jù),以確保獲得的主題的質(zhì)量.此外,考慮到政策內(nèi)容的非結(jié)構(gòu)性,本文將政策重命名為原政策標題的格式加上相應的部門名稱,便于政策標題及部門的提取.如:《關于做好2020 年電子商務進農(nóng)村綜合示范工作的通知》_財政部辦公廳+商務部辦公廳+國務院扶貧辦綜合司.
(2)實體及關系的提取.在構(gòu)建多實體政策網(wǎng)絡之前,必須提取政策中包含的實體及關系,針對主題的提取,本文采用最流行的方法之一Latent Dirichlet Allocation(LDA)主題模型[12]獲取政策主題.LDA假設一個單詞屬于一個主題,并且一個文檔在這個過程中至少屬于一個主題.因此,有一個二維數(shù)組來顯示每個政策所包含的主題,這意味著政策標題與主題之間的對應關系被挖掘出來.在構(gòu)建模型之前需要確定參數(shù)Z值,它表示政策中包含的主題數(shù)量.困惑度是用來評估模型泛化能力的指標,其值越低模型的泛化能力越強.本文利用困惑度確定了最優(yōu)主題數(shù)Z.在LDA 模型中,困惑度是指文檔d屬于訓練模型所確定的特定主題的不確定性程度.困惑度得分越低,模型對文檔d主題的推斷就越準確.對于M個文檔的數(shù)據(jù)集,困惑度計算[12]如公式(2)所示:
式中:D表示所有文檔的集合,M表示文檔的數(shù)量,Nd表示第d個文檔中的單詞數(shù),tj表示第j個主題,P(wi|tj)表示單詞wi出現(xiàn)在第j個主題中的概率,P(tj|d)表示第j個主題出現(xiàn)在第d個文檔中的概率.在政策數(shù)據(jù)集中,每篇政策的標題是唯一的,但其發(fā)布部門的名稱可能與其他政策的發(fā)布部門相同.因此,在使用正則表達式提取標題和部門后,還需要對部門實體去重以保證唯一性.
(3)構(gòu)建多實體政策網(wǎng)絡.通過實體及關系的提取,建立了政策標題、部門和主題之間的對應關系,本文將不同的實體及關系視為三元組,使用Python將獲得的實體及關系編碼到一個多實體的政策網(wǎng)絡中.
為了解決稀疏數(shù)據(jù)中網(wǎng)絡潛在特征信息挖掘的難題,LP-NA算法融合了節(jié)點的多屬性信息,包括節(jié)點的鏈接聚類系數(shù)、接近中心性值以及對不同屬性節(jié)點偏好等信息.將上述網(wǎng)絡信息融入到矩陣分解的框架中,能夠很好地解決政策網(wǎng)絡稀疏性的問題,從而更好地挖掘出政策網(wǎng)絡中的潛在關聯(lián)信息.
LP-NA 算法框架如圖3 所示,首先將政策網(wǎng)絡用矩陣形式表示,通過計算節(jié)點間吸引力Si,j,構(gòu)建權(quán)重矩陣Rn×n,通過矩陣分解方法將權(quán)重矩陣Rn×n分解為兩個相同的矩陣A,使得Rn×n≈AAT,再融入不同節(jié)點屬性偏好Ci,j以及預測偏差值Di,j,利用矩陣分解中乘法更新規(guī)則更新權(quán)重矩陣Rn×n中的值,得到節(jié)點間連邊的預測值.
圖3 LP-NA算法框架圖Fig.3 LP-NA algorithm framework diagram
1.3.1 權(quán)重矩陣的構(gòu)建
政策網(wǎng)絡中不同的節(jié)點自身擁有的資源不同,對其他節(jié)點的吸引力也不同,導致節(jié)點間連邊的重要程度也不同.對于權(quán)重矩陣的構(gòu)建,首先定義已知節(jié)點間連邊的重要程度.
現(xiàn)有的節(jié)點間的連邊重要程度預測方法未考慮被預測節(jié)點與其共同鄰居節(jié)點之間連邊的緊密程度,如圖4(a)所示,節(jié)點B與節(jié)點C的度值相等且共同鄰居個數(shù)都為1,但節(jié)點A與C之間的吸引力顯然比節(jié)點A與B之間的吸引力要高.本文充分利用共同鄰居的節(jié)點信息和共同鄰居與節(jié)點對之間的信息,采用鏈接聚類系數(shù)評估兩節(jié)點之間的結(jié)構(gòu)信息.對于圖4(b)來說,如果節(jié)點A與E相連,節(jié)點C與E相連,與圖4(a)相比可以看到節(jié)點之間的平均最短路徑縮短,這說明網(wǎng)絡中的平均最短路徑對節(jié)點間是否可能產(chǎn)生連邊有較大的影響.接近中心性計算每個結(jié)點到其他結(jié)點的最短路徑的平均長度,衡量節(jié)點間的接近程度.即對于一個結(jié)點而言,距離其他結(jié)點越近,其接近中心性值越高,越可能與尚未連邊的節(jié)點相連.本文采用鏈接聚類系數(shù)與接近中心性來定義節(jié)點自身的吸引力:
圖4 實例網(wǎng)絡示意圖Fig.4 Example network diagram
其中,Γ(i)表示節(jié)點i的鄰居節(jié)點集合,m指節(jié)點i與節(jié)點j的共同鄰居節(jié)點,ki指節(jié)點i的度值,指節(jié)點i的接近中心性.
為了使結(jié)構(gòu)相似的節(jié)點間連接的概率更大,對兩個節(jié)點的吸引力值作歸一化處理,得:
將歸一化處理的結(jié)果放入信息熵的計算公式中,最終得到已知節(jié)點間連邊的權(quán)重Si,j:
1.3.2 融合屬性偏好及預測偏差的計算
在政策網(wǎng)絡中,節(jié)點間的連接關系與自身的屬性有關.由于在整個網(wǎng)絡中,部門屬性的節(jié)點和主題屬性的節(jié)點在已知連邊中占比較高,容易與別的節(jié)點產(chǎn)生連接.為了使預測更準確,需要考慮節(jié)點自身的屬性偏好,定義如下:
其中,counti,j表示節(jié)點i所代表屬性與節(jié)點j所代表屬性(如部門節(jié)點-主題節(jié)點存在連邊)在網(wǎng)絡中有連邊的個數(shù),sum 表示網(wǎng)絡現(xiàn)有連邊數(shù),表示該權(quán)重矩陣的均值,counti,j/sum 表示屬性的重要程度,Si,j/表示屬性比值.
節(jié)點間的預測偏差值根據(jù)與網(wǎng)絡節(jié)點中相似的節(jié)點來計算,Si',j'表示與i節(jié)點最相似的節(jié)點和與j節(jié)點最相似的節(jié)點的邊權(quán)值,預測偏差值為:
最終融合節(jié)點相似和屬性偏好的多實體政策網(wǎng)絡鏈路預測值為:
其中α和γ分別表示控制屬性偏好和預測偏差的權(quán)重參數(shù),α+γ=1,Ai和Aj表示潛在因子矩陣A的第i行和第j行.
鑒于公開的政策網(wǎng)絡數(shù)據(jù)集缺乏,本文構(gòu)建了真實的多實體政策網(wǎng)絡數(shù)據(jù)集.為確保數(shù)據(jù)的真實性與適用性,本文選擇了2014—2021年期間的中央政府和6 個省政府發(fā)布的600 余篇關于農(nóng)村創(chuàng)新創(chuàng)業(yè)的政策文本作為研究對象,并邀請專業(yè)人員對政策進行篩選鑒證.實驗環(huán)境配置如表1所示.
表1 實驗環(huán)境Tab.1 Experimental environment
本文將改進的鏈接預測方法應用于構(gòu)建的7個政策網(wǎng)絡,以10種鏈路預測算法作為基準算法進行對比.為了驗證本文提出的LP-NA 算法的效果,評價時使用鏈路預測中衡量準確度認可度較高的指標——AUC[13].AUC 指標是根據(jù)測試集中邊的相似值與不存在的邊的相似值進行比較的,當測試集ET中邊的相似值>不存在邊的相似值時,則加1 分;當測試集ET中邊的相似值=不存在邊的相似值時,則加0.5 分.假設經(jīng)過獨立比較n次,有n'次測試集ET中邊的相似值>不存在邊的相似值、n''次測試集ET中邊的相似值=不存在邊的相似值.AUC 值越高表示此算法預測準確度越高.AUC定義如下:
根據(jù)政策數(shù)據(jù)集的數(shù)量,本文估計最佳主題數(shù)量在10~100 之間,通過計算模型在不同Z值下的困惑度選擇最優(yōu)的主題數(shù)量.困惑度隨Z的變化如圖5所示.
圖5 不同Z值下困惑度的變化Fig.5 Variation of perplexity under different Z values
從圖5 中可以看出,當Z的范圍從10 到50 時,困惑度的值從大約1200 顯著降低到450.盡管當Z>50 時,困惑度仍在下降,但下降速度比之前要慢,因此,本文選定這600余項政策的主題數(shù)為50.由于篇幅原因,表2 展示所提取的部分主題.此外,本文提取了政策標題與發(fā)布部門,所提取的實體及其關系如表3所示.在上述工作中,本文提取了政策標題及其對應的發(fā)布部門,通過LDA 主題模型挖掘了政策標題與主題之間的關系,獲得了構(gòu)建多實體政策網(wǎng)絡必要的三類實體及它們之間的關系.
表2 部分主題及關鍵詞Tab.2 Part of the topics and keywords
表3 7個數(shù)據(jù)集中實體及關系的數(shù)量Tab.3 Number of entities and relationships in the seven datasets
中心性是網(wǎng)絡理論中的一個基本度量指標,用于檢測或識別網(wǎng)絡中最具影響力的實體節(jié)點.為了評價政策網(wǎng)絡的中心性,本文計算了7 個政策數(shù)據(jù)集中每個實體的接近中心性值和度中心性值[14],并在表4中列出了最具影響力的實體節(jié)點及其中心性值.通過計算多實體政府政策網(wǎng)絡的中心性,發(fā)現(xiàn)7 個數(shù)據(jù)集中最具影響力的實體幾乎都是部門實體.例如,在中央數(shù)據(jù)集中,D41和D7是國務院及國務院辦公廳.在四川省數(shù)據(jù)集中,T44 作為主題實體,包括了“創(chuàng)新創(chuàng)業(yè)”、“大學生創(chuàng)新”、“農(nóng)產(chǎn)品加工”等關鍵詞.在廣西數(shù)據(jù)集中,D4 為自治區(qū)農(nóng)村廳,D33為自治區(qū)人民政府.因為幾乎每一篇政策標題實體都涉及到多個發(fā)布部門實體,且部門數(shù)量固定,因此部門實體在網(wǎng)絡中最具影響力.
表4 7個政策數(shù)據(jù)集中心性最高值及對應節(jié)點Tab.4 Maximum values and corresponding nodes of centrality in seven policy datasets
為了找到各省對農(nóng)村創(chuàng)新創(chuàng)業(yè)發(fā)展貢獻最大的部門以及所涉及的熱點話題,本文以湖北省政策網(wǎng)絡為例,詳細討論實體節(jié)點,由于完整網(wǎng)絡節(jié)點間關系龐雜,本文僅展示了政策標題、部門以及主題之間的關系,如圖6所示.其中部分節(jié)點對應名稱如表5 所示.由圖6 中可見:實體節(jié)點D2(湖北省人民政府)與政策標題實體和主題實體的連接數(shù)量最多,這表明湖北省人民政府對湖北省農(nóng)村創(chuàng)新創(chuàng)業(yè)的發(fā)展做出的貢獻最大;另一方面,可以觀察到湖北省各部門更加重視T25(農(nóng)業(yè)科技創(chuàng)新農(nóng)村電子商務)和T8(農(nóng)村電子商務)主題.
表5 部分湖北省多實體政策網(wǎng)絡節(jié)點對應名稱Tab.5 Corresponding names of some Hubei multi-entity policy network nodes
圖6 湖北省多實體政策網(wǎng)絡Fig.6 Multi-entity policy network of Hubei Province
表6 展示了在湖北省政策網(wǎng)絡中,以湖北省委和湖北省人民政府于2019年聯(lián)合發(fā)布的《湖北省鄉(xiāng)村振興戰(zhàn)略規(guī)劃(2018—2022 年)》為例的政策間相關性研究的結(jié)果,由于政策間的相關性預測值區(qū)間為[0-1],因此相關性預測值以中間值0.5 為界限,預測值越高則表明這兩篇政策越相關.根據(jù)表6 看出:《湖北省鄉(xiāng)村振興戰(zhàn)略規(guī)劃(2018—2022 年)》與2019 年湖北省旅游委、湖北省扶貧辦聯(lián)合發(fā)布的《關于支持深度貧困地區(qū)旅游扶貧行動方案》以及2020 年湖北省人民政府發(fā)布的《關于印發(fā)加快推進科技創(chuàng)新促進經(jīng)濟穩(wěn)定增長若干措施的通知》《關于印發(fā)湖北省“擦亮小城鎮(zhèn)”建設美麗城鎮(zhèn)三年行動實施方案》相關性預測值分別達到0.651、0.614以及0.603,表明政策的有效實施.同時此鏈路預測結(jié)果可以根據(jù)預測值的大小為民眾推薦相關的政策,實現(xiàn)民眾與政策的精準對接,克服了政策分散在不同網(wǎng)站以及人工搜索方法獲取政策不及時、不準確等問題,擴大了政策傳播力度.而2020年發(fā)布的《關于加快推動水產(chǎn)養(yǎng)殖業(yè)綠色發(fā)展的意見》與《湖北省鄉(xiāng)村振興戰(zhàn)略規(guī)劃(2018—2022 年)》相關性預測值較低,為0.272,一方面可能因為在鄉(xiāng)村振興戰(zhàn)略規(guī)劃中,政策篇幅較多,涉及主題較廣,是全局性的指導文件,其所涉及到的養(yǎng)殖領域涵蓋畜牧、家禽、水產(chǎn)等不同的類型,而《關于加快推動水產(chǎn)養(yǎng)殖業(yè)綠色發(fā)展的意見》作為其水產(chǎn)養(yǎng)殖政策方面的細化,涉及領域比較單一,表明該政策與鄉(xiāng)村振興戰(zhàn)略規(guī)劃指導文件響應度不高,需加強湖北省農(nóng)業(yè)農(nóng)村廳、湖北省自然資源廳、湖北省財政廳等部門與湖北省人民政府在養(yǎng)殖領域的協(xié)同合作.
表6 政策間鏈路預測結(jié)果示例Tab.6 Example of inter-policy link prediction results
為了證明LP-NA 算法對上述政策間鏈路預測結(jié)果的有效性,本文進行了分析對比.LP-NA 算法包含α、β和低秩維度K三個重要參數(shù).在研究一個參數(shù)對AUC 值的影響時,需固定另外兩個參數(shù).本文分別做了10 組實驗來確定α的值對LP-NA 算法性能的影響,確保取到可靠的參數(shù).圖7 為不同α值在不同數(shù)據(jù)集的AUC上的實驗結(jié)果.由圖7可見:隨著參數(shù)α的增大,AUC值開始呈上升趨勢,云南省和廣西自治區(qū)政策網(wǎng)絡數(shù)據(jù)集在α=0.4 時AUC 最大,中央、甘肅省以及河南省政策網(wǎng)絡數(shù)據(jù)集在α=0.5 時AUC 達到最大值,而四川省和湖北省政策網(wǎng)絡數(shù)據(jù)集則在α=0.6 時AUC 達到最大值.當α取值繼續(xù)增加時,AUC 的值逐漸下降.當α值較小時,節(jié)點連邊的屬性偏好對AUC 的影響過小,而預測偏差值對AUC 的影響過大,此時預測值可能出現(xiàn)偏低的情況,使得預測誤差增大;同理,當α值較大時也會導致預測值誤差增大,導致AUC值降低.
圖7 α值對誤差的影響Fig.7 Impact of parameter α on the deviation
參數(shù)β是為了防止過擬合,其結(jié)果如圖8 所示,可以看出中央、四川省以及甘肅省政策網(wǎng)絡數(shù)據(jù)集在β=0.08 時達到最優(yōu)效果,湖北省、云南省、廣西自治區(qū)以及河南省在β=0.10時AUC 值達到最佳.由圖8 可見:隨著參數(shù)β的增加,各個數(shù)據(jù)集下的AUC 值呈現(xiàn)明顯的先升后降的趨勢,表明參數(shù)β對算法精度有較大影響.
圖8 β值對誤差的影響Fig.8 Impact of parameter β on the deviation
低秩維度K直接影響LP-NA 算法的性能,當K取值較大時,計算復雜度高;而當K取值較小時,其性能表現(xiàn)較差.圖9表示7個數(shù)據(jù)集分別在各自α和β取最優(yōu)值的前提下,低秩維度K的不同取值對AUC 值的影響.由圖9 可見:各個數(shù)據(jù)集的AUC 值隨著K值增加而逐漸增加,甘肅省、湖北省、云南省以及河南省政策網(wǎng)絡數(shù)據(jù)集在K=30 時AUC 取得最大值,四川省政策網(wǎng)絡數(shù)據(jù)集在K=35時AUC取得最大值,而中央和廣西政策網(wǎng)絡數(shù)據(jù)集在K=40 時AUC取得最大值.當AUC值增加到一個最值時,隨著K值的繼續(xù)增加,AUC 值趨于平緩,低秩維度K的增加對于AUC值的變化影響較小.
圖9 K值對誤差的影響Fig.9 Impact of parameter K on the deviation
為了測試LP-NA 算法的健壯性,本文分別測試了訓練集占比由50%到90%時各種方法下的AUC值.以中央政策網(wǎng)絡為例,實驗結(jié)果如圖10所示.由圖10 可見:當測試集由50%增加到90%時,各個方法的AUC 值均有所上升,這是因為隨著訓練集所占比例的增大,節(jié)點間連邊數(shù)增多導致鏈接聚類系數(shù)以及接近中心性值增大,節(jié)點間吸引力加強,使AUC 值上升.在不同的訓練集規(guī)模下,LP-NA 的AUC 值都高于其他算法,表明本文提出的LP-NA 算法的健壯性優(yōu)于其他算法.
圖10 中央數(shù)據(jù)訓練集從50%~90%時不同方法下AUC變化Fig.10 AUC changes under different methods when the central data training set varies from 50% to 90%
表7 列出了政策網(wǎng)絡訓練集所占比例為90%時,7 個政策網(wǎng)絡在不同算法下的預測精度AUC 值.由表7 可見:本文提出的LP-NA 算法與其他鏈路預測算法[15-23]相比,各個政策網(wǎng)絡的預測精度AUC 值都取得了最大值.若與CN-L3算法進行比較,網(wǎng)絡的預測精度AUC 值在中央政策網(wǎng)絡中提高了4.76%,在四川省網(wǎng)絡中提高了4.20%,在廣西壯族自治區(qū)網(wǎng)絡中提高了0.89%,在云南省網(wǎng)絡中提高了3.08%,在甘肅省網(wǎng)絡中提高了3.25%,在湖北省網(wǎng)絡中提高了4.59%,在河南省網(wǎng)絡中提高了3.03%.這是因為LP-NA 算法充分挖掘原始網(wǎng)絡節(jié)點間的相似度且考慮了屬性偏好及預測偏差,其他的算法僅考慮到共同鄰居節(jié)點數(shù)、共同鄰居節(jié)點度值以及聚類系數(shù)對預測的影響.因此可見:由于LP-NA 算法考慮了節(jié)點相似、屬性偏好及預測偏差,獲取信息相對豐富,使得預測精度有所提高.
表7 各算法對不同網(wǎng)絡進行鏈路預測的AUC值Tab.7 AUC of each algorithm for link prediction of different networks
本文通過預測政策網(wǎng)絡中的尚未連邊節(jié)點的連接概率,最大化地利用了政策信息為研究政策網(wǎng)絡提供依據(jù),也為民眾提供了更方便快捷的政策信息服務.為了解決數(shù)據(jù)稀疏以及以往鏈路預測算法考慮不全面等問題,本文提出了一種融合節(jié)點相似和屬性偏好的LP-NA 算法.LP-NA 融合節(jié)點相似和屬性偏好去捕獲局部和全局信息,通過矩陣分解,在求解過程中使用乘法規(guī)則進行參數(shù)學習,優(yōu)化算法性能.在7 個多實體政策網(wǎng)絡數(shù)據(jù)集上的實驗結(jié)果表明,與現(xiàn)有算法相比,提出的LP-NA 算法能夠有效提升鏈路的預測精度,挖掘出政策間的潛在關系,豐富了政策研究的方法,有利于促進部門間協(xié)同合作,為相關政策研究提供了參考.下一步的工作將研究有向政策網(wǎng)絡的構(gòu)建以及央地政策間的協(xié)同演進機制.