閆盈盈
[摘 ? ?要] 創(chuàng)新性地提出了政府公文公告主題研究方法?;趧討B(tài)主題模型(Dynamic Topic Models,DTM),學習不同時間段政府公文公告數(shù)據(jù)的文檔-主題分布和主題-詞語分布的信息,通過統(tǒng)計分析與可視化分析,展示政府公文公告的主題及主題下詞語演化情況。選取貴州省人民政府網(wǎng)站和貴陽市人民政府網(wǎng)站的公文公告數(shù)據(jù),選擇2017年7月至2018年7月的數(shù)據(jù)進行分析,實驗結果表明,本文提出的方法能夠有效幫助公眾理解政府發(fā)文的主題情況及關鍵詞語內(nèi)容。
[關鍵詞] 政府; 公文公告;DTM;主題分析; 演化
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2020. 21. 067
[中圖分類號] TP391 ? [文獻標識碼] ?A ? ? ?[文章編號] ?1673 - 0194(2020)21- 0151- 05
1 ? ? ?引 ? ?言
目前,全球已進入大數(shù)據(jù)時代,每兩年互聯(lián)網(wǎng)上的數(shù)據(jù)會翻一番,未來,數(shù)據(jù)將會成為全球最有價值的資產(chǎn),政府數(shù)據(jù)作為鉆石富礦,占據(jù)中國數(shù)據(jù)總量80%以上的份額[1]。激活沉睡在檔案袋、文件夾里的政府數(shù)據(jù)資源,實現(xiàn)政府數(shù)據(jù)資源價值變現(xiàn),將驅(qū)動地方政府實現(xiàn)經(jīng)濟發(fā)展轉型,提升社會治理能力、公共服務能力,增進民生福祉,推動數(shù)字經(jīng)濟發(fā)展。利用大數(shù)據(jù)方法和手段激活政府數(shù)據(jù)價值,提升政府治理能力越來越成為政府部門、政府大數(shù)據(jù)研究者的使命和研究焦點。
近年來,我國學者對政府數(shù)據(jù)進行了大量的探索[2-6],然而,這些探索大多采用CNKI為數(shù)據(jù)源,利用傳統(tǒng)的數(shù)學統(tǒng)計方法進行數(shù)據(jù)分析和處理,通過可視化的方法揭示政府的政策、主題、范圍、傾向等狀況。顯然,基于文獻的研究屬于間接政府數(shù)據(jù)研究,一定程度上,直接的政府數(shù)據(jù)研究更能夠揭示政府的工作狀況。此外,在文本、圖像、視頻等數(shù)據(jù)處理方面,機器學習、自然語言處理、概率圖模型、深度學習等主流的大數(shù)據(jù)分析與挖掘方法被廣泛應用在各行各業(yè)的數(shù)據(jù)分析實踐中。但很少有研究聚集在政府公文公告方面。因此,本文利用動態(tài)主題模型(DTM)[7],揭示了不同層級政府在公文公告主題方面的區(qū)別與聯(lián)系,有利于公眾更加清晰地了解政府公文公告的主題演化趨勢與主題詞選擇傾向。
2 ? ? ?政府公文公告
政府公文公告的主題分析包括兩個過程,數(shù)據(jù)獲取與預處理、動態(tài)主題提取。首先,從政府網(wǎng)站爬取公文公告數(shù)據(jù)形成語料庫,利用文本預處理方法對抓取的數(shù)據(jù)進行數(shù)據(jù)清洗獲得較為規(guī)整的文本語料;其次,通過動態(tài)主題模型從文本語料庫中提取時序主題信息,完成統(tǒng)計分析。
2.1 ? 數(shù)據(jù)獲取與預處理
使用網(wǎng)絡爬蟲的方法從“貴州省人民政府”網(wǎng)站、“貴州省貴陽市人民政府”網(wǎng)站按照一定的規(guī)則,批量抓取已公布的公文公告數(shù)據(jù),主要抓取標題和正文內(nèi)容,形成規(guī)模較大的語料庫。爬蟲分為兩個模塊,頁面抓取和數(shù)據(jù)清洗。頁面抓取模塊通過初始URL,向?qū)γ娴姆掌靼l(fā)送請求,獲取頁面的靜態(tài)或動態(tài)代碼。數(shù)據(jù)清洗模塊通過解析DOM樹或其他方面,將需要的數(shù)據(jù)從頁面代碼中清洗出來,并獲取下一個爬取的URL,開始新的數(shù)據(jù)抓取與預處理。
2.2 ? 動態(tài)主題提取
通過動態(tài)主題模型獲取動態(tài)時序主題。主題模型是一類無監(jiān)督的機器學習算法,能夠挖掘大規(guī)模文檔集中潛在的主題信息,本質(zhì)為一種主題聚類方法,將一篇文章表示為若干主題的概率集合,一個主題表示為若干詞語的概率集合,將相似度較高的文檔聚集在一個主題之內(nèi)[8]。動態(tài)時序主題模型是在傳統(tǒng)主題模型[9]的基礎上引入了時間特征。
將省級、市級的政府公文公告數(shù)據(jù)分別按照一定的時間段劃分。通過動態(tài)主題模型DTM,可以獲得每一個層級,每個時間片的主題分布、主題-詞語分布,通過統(tǒng)計分析,可以得到各主題信息和各主題下詞語的信息?;谥黝}以及詞語信息,可以實現(xiàn)深度的政府公文公告數(shù)據(jù)挖掘與分析。
3 ? ? ?DTM主題模型
DTM模型是一種無監(jiān)督的動態(tài)時序主題模型。其基本思想分為兩個部分。首先,將整體時間按照一定的時間段大小進行劃分,將文檔集合中的文檔根據(jù)其內(nèi)在的時間戳信息劃分到相應的時間片中。其次,對每一個時間片中的文檔子集通過LDA進行主題挖掘得到主題隨時間動態(tài)演化的情況。每一個時間片上的分布結果根據(jù)之前一個時間片的主題訓練結果進行動態(tài)變化。概率圖模型如圖1所示。
圖中符號解釋如表1所示。
采用EM算法進行參數(shù)推斷,需要推斷的參數(shù)包括超參數(shù)αi、隱變量φk,i、ηd,i、以及每個詞語的主題標識zd,n,i。具體推斷過程見文獻[6]。另外一種較為簡潔的方法是基于Gibbs采樣的方法[10]。
4 ? ? ?實驗
4.1 ? 數(shù)據(jù)集選取與分析
爬取貴州省與貴陽市人民政府網(wǎng)站的所有公文公告數(shù)據(jù),并以“半年”為一個時間片進行劃分統(tǒng)計,如圖2所示。
從圖2可以發(fā)現(xiàn):
(1)貴州省每半年發(fā)布公文公告的數(shù)據(jù)量在500篇上下浮動,需要特別說明的是2011以前的數(shù)據(jù)為2056篇,該節(jié)點是對2010年12月31日以前的所有數(shù)據(jù)進行計數(shù)統(tǒng)計。
(2)貴陽市2017年上半年之前的數(shù)據(jù)數(shù)量多為個位數(shù),甚至為0,可推測貴陽市人民政府網(wǎng)站公布的公文公告數(shù)據(jù)具有一定的時效,會不定期的清理和更換,僅保留最新一年左右的數(shù)據(jù)。因此,由于貴陽市2017下半年的數(shù)據(jù)量過小,不能夠繼續(xù)用于不同層級的公文公告關聯(lián)分析研究。
(3)對比2017年下半年至2018年上半年的貴州省與貴陽市人民政府網(wǎng)站的公文公告數(shù)據(jù),貴陽市的發(fā)文數(shù)量遠高于貴州省,尤其是貴陽市2018年的上半年的數(shù)據(jù)屬于陡增趨勢。
本文選取2017年下半年與2018年上半年的數(shù)據(jù)作為主題提取與分析的數(shù)據(jù)集。將數(shù)據(jù)劃分為T=4個時間片,每個時間片為一個季度。每個時間片的統(tǒng)計信息如圖3所示。
本文選取2017年下半年與2018年上半年的數(shù)據(jù)作為主題提取與分析的數(shù)據(jù)集。將數(shù)據(jù)劃分為T=4個時間片,每個時間片為一個季度。每個時間片的統(tǒng)計信息如圖3所示。
從圖3可以發(fā)現(xiàn),貴陽市的發(fā)文數(shù)量遠高于貴州省的發(fā)文數(shù)量,可猜測貴陽市會積極響應貴州省的發(fā)文號令,推動貴陽市經(jīng)濟社會水平不斷向前發(fā)展。數(shù)據(jù)集文檔詞語信息如表3所示。
從表3可以發(fā)現(xiàn),貴州省政府公文公告的平均文檔詞語高于貴陽市,但是平均詞語密度略低于貴陽市。這表明,貴州省的公文公告篇幅較長,貴陽市略短,在詞語密度方面,貴陽市同一詞語的使用頻率要大于貴州省。
在公文公告數(shù)據(jù)集上運行DTM模型。超參數(shù)的設置采用經(jīng)驗值,設置超參數(shù)α=0.01,δ=a=σ=0.05,主題值K=6。
4.2 ? 實驗結果與分析
由于DTM是無監(jiān)督模型,因此沒有明確的類標簽。該研究用topic 0~topic 5分別表示貴州省公文公告數(shù)據(jù)的6個類標簽。通過DTM模型學習得到各時間片的文檔-主題分布ηd,i,計算得到貴州省公文公告數(shù)據(jù)在各時間片的主題分布比例,如圖4所示。
為了近一步了解各類標簽的具體含義,結合DTM模型學習得到的各時間片的主題-詞語分布φk,i,列出了隨著時間變化的各主題下Top 10詞語信息,如表4所示。
根據(jù)表4,可以看出:貴州省公文公告數(shù)據(jù)主題大致分為“產(chǎn)業(yè)發(fā)展”、“政務公開”、“生態(tài)改革”、“人員招聘”“建設規(guī)劃”以及“發(fā)展服務”。
結合圖4,可以得出如下結論:
(1)貴州省針對“人員招聘”和“建設規(guī)劃”的發(fā)文數(shù)量較少,其他四類主題的發(fā)文數(shù)量相差不多。
(2)在2017年三季度,貴州省政府較為注重“生態(tài)改革”,主要針對全省各市、貴安新區(qū)的住房、生態(tài)、廁所改造和管理提出了管理和實施意見,表達了貴州省對“大生態(tài)”建設的積極響應。
(3)在2017年四季度,占比較大的為“政務公開”,主要與政務服務中的審批、網(wǎng)上辦事、信息公開、項目投資與交易有關。該主題在2018年二季度的焦點由投資服務變?yōu)樗聪嚓P的政務服務。
(4)在2018年一季度,貴州省工作重點在“產(chǎn)業(yè)發(fā)展”方面,目的在積極響應國家精準扶貧的號召,重點支持和發(fā)展綠色農(nóng)業(yè)、節(jié)能工業(yè)的任務。
(5)“人員招聘”公文公告主要是貴州省發(fā)布的公務員人員招聘公告,主要包括組織領導、職務職位,報考資格、培訓等事項要求。
(6)在“建設規(guī)劃”主題中,前兩個季度主要針對貴州省的住房問題、土地問題進行規(guī)劃與管理,后兩個季度主要針對學校、林木進行總體規(guī)劃與保護。
(7)“發(fā)展服務”公文公告主要在倡導企業(yè)利用大數(shù)據(jù)技術手段進行改革創(chuàng)新,推動醫(yī)療、旅游、養(yǎng)老等服務的社會服務,促進經(jīng)濟發(fā)展。在2017年三季度,主要以旅游和醫(yī)療為主。在2018年二季度,轉移為以養(yǎng)老和旅游為主。
貴陽市公文公告數(shù)據(jù)在各時間片的主題趨勢如圖5所示。
貴陽市各主題下的Top 10關鍵詞,如表5所示。
根據(jù)表5,貴陽市公文公告數(shù)據(jù)主題大致分為“企業(yè)信息”“行政處罰”“項目招標“采購中標”“財政預算”“采購項目”。
結合圖5,發(fā)現(xiàn)招投標類公告占據(jù)了貴陽市政府公文公告數(shù)據(jù)的半壁江山,說明貴陽市政府在該期間具有較大的招標需求。結合貴陽市公文公告數(shù)據(jù)的文檔主題標簽、部分數(shù)據(jù)集內(nèi)容以及貴陽市人民政府網(wǎng)站,該研究發(fā)現(xiàn)topic 2(項目招標)、topic 3(采購中標)、topic 5(采購項目)的區(qū)別如下。
(1)“項目招標”主題主要為貴陽市省政府發(fā)布的關于各市區(qū)縣在道路設計、景觀提升、棚戶區(qū)改造、扶貧搬遷工程、農(nóng)田建設、醫(yī)院新院區(qū)、電梯設備采購等項目建設方面的招標公告,公告中詳細說明了招標具備的條件、招標人、代建單位、投標文件、投標保證金、聯(lián)系方式、日期等招標內(nèi)容。
(2)“采購中標”主題側重在中標結果的公示方面,主要為項目名稱、采購方式、采購日期、評審時間、評審地點、委員會、采購聯(lián)系人、中標供應商、采購代理機構等信息。由于“貴陽市公共資源交易中心”是貴陽市招投標的主要負責單位,同時也是貴陽市政府公文公告數(shù)據(jù)的信息來源單位之一,因此“公共資源”、“交易中心”的出現(xiàn)概率較大。
(3)“采購項目”主題側重在采購,因此在四個時間片,采購出現(xiàn)的概率最大。采購招投標分為兩類,采購招標和采購合同,在采購招標中,涉及到指標文件、投標供應商、投標保證金、采購代理機構等信息;在采購合同公告中,存在項目名稱、采購方式、技術要求、合同金額、供應商、產(chǎn)品類型(服務)、合同簽訂時間等內(nèi)容。在topic 5中,前兩個時間片的文檔有較大的概率為采購合同類別,而后兩個時間片有較多的公文公告屬于采購招標內(nèi)容。
除此之外,從topic 0的關鍵字可以發(fā)現(xiàn)內(nèi)容為企業(yè)信息和人員信息。該研究在topic 0的基礎上,結合貴陽市人民政府網(wǎng)站信息,發(fā)現(xiàn)topic 0展示來源于貴陽市資源交易中心的中標公示信息,內(nèi)容均為中標候選企業(yè)信息,尤其是企業(yè)項目管理機構人員的信息,包括姓名、職稱、執(zhí)業(yè)資格、證書等信息。結合貴陽市公文公告數(shù)據(jù)主題趨勢,2017年三季度無該主題的公文公告數(shù)據(jù),在2018年二季度,該主題下公文公告數(shù)據(jù)達到最多。
從“行政處罰”主題可以看出,包括的關鍵詞有“依法”“監(jiān)督”“責任”“住房”“房屋”“審查”“當事人”“依法”等詞語。根據(jù)該主題隨時間的演變情況,可以發(fā)現(xiàn),前兩個季度公文公告數(shù)據(jù)側重在監(jiān)督審查,后兩個季度側重在房屋和住房問題的監(jiān)管、處罰,這與2018年貴陽市大力開展住房監(jiān)管,形成房屋規(guī)范的實際情況相一致。
topic4的主題為“建設支出”,出現(xiàn)了大量與財政相關的關鍵字,例如“萬元”“預算”“支出”“經(jīng)費”“審計”等詞語,除此之外也出現(xiàn)了“建設”“發(fā)展”“服務”“項目”“信息”“企業(yè)”“生產(chǎn)”等詞語。在2017年的兩個季度,“檢查”出現(xiàn)概率較高,表明在這期間,關于財政預算方面的檢查項目、管理是貴陽市政府關注的重點,這與年末財政總結和核查密不可分。在2018年的兩個季度中,關鍵詞“審計”有較高的出現(xiàn)概率,結合貴陽市公文公告數(shù)據(jù),發(fā)現(xiàn)在該段時間內(nèi),貴陽市各區(qū)各縣的審計機關分別在推進審計工作方面發(fā)布了公文公告,包括“黨建與審計工作深度融合”“深化經(jīng)濟責任審計”“主題教育”“扶貧攻堅”等內(nèi)容。
結合利用DTM發(fā)現(xiàn)的貴州省與貴陽市的公文公告數(shù)據(jù)主題以及主題詞信息,該研究發(fā)現(xiàn):貴州省的主題范圍較為總體和全局,通過產(chǎn)業(yè)發(fā)展、政務服務、生態(tài)改革、人員招聘、建設規(guī)劃等公文公告指導和推進貴州省綜合規(guī)劃與發(fā)展,而貴陽市的主題比較具體和集中,招投標項目、行政處罰、行政預算等均為項目建設情況內(nèi)容。在主題內(nèi)容的關聯(lián)度方面,關鍵詞“發(fā)展”“建設”“生產(chǎn)”“企業(yè)”、“服務”“管理”出現(xiàn)在兩個層級的多個主題中,表明“生產(chǎn)建設”與“服務管理”工作是貴陽市和貴州省的重中之重。
5 ? ? ?結 ? ?語
該研究利用動態(tài)主題模型DTM挖掘貴州省和貴陽市公文公告數(shù)據(jù)集的主題演化與詞語演化信息,并在此基礎上進行公文公告主題分析研究,有助于公眾了解貴州省與貴陽市公文公告數(shù)據(jù)主題分布和發(fā)文內(nèi)容,同時可給政府工作提供可參考的統(tǒng)計基礎。進一步的工作為建立跨層級公文公告主題挖掘新模型,從層級關系和時間關系探索國家、省、市、區(qū)、縣政府公文公告數(shù)據(jù)的主題關聯(lián)與區(qū)別,挖掘政府工作存在優(yōu)勢與問題,輔助政府決策,同時也會研究針對跨層級公文公告主題分析結果量化指標。
主要參考文獻
[1]九次方.九次方大數(shù)據(jù)使命:激活政府數(shù)據(jù)價值,構建全球數(shù)據(jù)生態(tài)[EB/OL].[2018-05-09].http://www.sohu.com/a/230919267_1000543
87.
[2]湯志偉,郭雨暉.我國開放政府數(shù)據(jù)的利用:基于CNKI的系統(tǒng)性文獻綜述[J].情報雜志,2018,37(7).
[3]袁冰潔,羅賢春,李伶思,等.我國政務信息資源研究熱點主題領域與趨勢[J].現(xiàn)代情報,2016,36(12):133-138.
[4]胡吉明,張曉娟,譚婧.我國政府信息資源研究的主題結構與演化態(tài)勢[J].信息資源化管理學報,2018(3).
[5]張敏,吳郁松,霍朝光.我國電子政務的研究熱點與研究趨勢分析[J].情報雜志,2015(2):137-141.
[6]楊蘭蓉,潁潁.2015年國際電子政務研究的主題與趨勢——基于社會科學引文索引(SSCI)數(shù)據(jù)庫分析[J].現(xiàn)代情報,2016,36(11):140-145.
[7]David M Blei, John D Lafferty. Dynamic Topic Models[C]//Proceedings of the 23rd International Conference on Machine Learning,2006:113-120.
[8]Jelodar Hamed,Wang Yongli,Yuan Chi,et al.Latent Dirichlet allocation (LDA) and Topic Modeling:Models,Applications,a Survey[J].Multimedia Tools and Applications,2018,78.
[9]Blei D M,Ng A Y,Jordan M I. Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003.
[10]Chen J,Zhu J,Wang Z,et al. Scalable Inference for Logistic-Normal Topic Models[C]//Proceedings of the 26th Internatconal Conference on Neural Information Processing Systems,Volume2,2013:2445-2453.