李永忠,蔡 佳,詹曉斌
(福州大學 經(jīng)濟與管理學院,福建 福州 350116)
國外電子政府研究經(jīng)過二十多年的發(fā)展,已經(jīng)逐步趨于成熟。隨著大數(shù)據(jù)時代的到來,國外電子政府研究迎來了新的發(fā)展機遇。如何整體把握國外電子政府研究的現(xiàn)狀及未來發(fā)展趨勢,從而推動我國電子政務研究邁上一個新臺階,這些都是值得國內學者不斷思索的問題。筆者通過主題模型挖掘出1993—2016年國外電子政府研究中的潛在主題,采用社會網(wǎng)絡、主題河等分析方法對挖掘結果進行可視化展示,進而分階段對國外電子政府研究熱點進行分析,希冀發(fā)現(xiàn)電子政府研究的主題演化規(guī)律。
為促進電子政府研究進一步發(fā)展,國內外許多學者用主題演化的方法對電子政府學科進行了相關的探索。董偉等通過SPSS統(tǒng)計軟件探索國外電子政府學科研究進展,運用多維尺度分析方法對研究結果進行可視化展示[1];張璇等通過CiteSpace和VOSviewer工具獲取學科熱點主題,采用時區(qū)視圖、突變詞列表等分析國外電子政府研究的發(fā)展趨勢[2];PRZEYBILOVICZ等通過社會學和文獻計量學方法對巴西電子政府的論文數(shù)量、來源期刊、研究內容等進行分析,并運用社會網(wǎng)絡呈現(xiàn)出研究結果[3];辛剛運用CiteSpace II軟件從知識基礎、研究熱點和研究前沿3個角度對國內外電子政府進行可視化對比分析,明確國內外電子政府的研究差異,并對國內電子政務的發(fā)展提出了相關的建議[4];王炳立對高頻關鍵詞、高被引和高中心度電子政府文獻進行識別和解讀,采用折線圖、共現(xiàn)知識圖譜等方式對研究結果進行展示[5];BOLIVAR等通過科學計量學的方法預測未來電子政府研究領域,挖掘潛在有價值的研究方法[6]。
上述研究采用了傳統(tǒng)詞頻、文獻計量及共詞分析等方法對文本主題詞進行抽取,然而,在電子政府研究與探索過程中,難免會出現(xiàn)術語使用不精確之處,導致以上方法分析得到的電子政府研究主題不規(guī)范。而LDA(潛在狄利克雷分配)主題模型[7]能在挖掘出主題詞的同時對主題詞進行聚類,只需規(guī)范抽取出潛在主題即能保證實驗運行結果的真實性與規(guī)范性。因而,該模型被許多學者們運用在文本挖掘領域[8-13]。而在主題可視化方面,上述研究大多采用知識圖譜、社會網(wǎng)絡等可視化分析方法,這些方法可展現(xiàn)學科主題卻無法體現(xiàn)主題演變的生命周期。采用主題河的分析方法能夠呈現(xiàn)出主題的新生、消亡、分流、合流等主題演變過程,有利于整體把握學科發(fā)展動態(tài),分析實驗結果。此外,較少有學者專門對國外電子政府研究主題進行分析。為此,筆者將主題模型應用到國外電子政府研究當中,并通過社會網(wǎng)絡、主題河等文本分析方法刻畫電子政府研究過程中主題的演變趨勢。
美國聯(lián)邦政府于1993年提出“信息高速公路”計劃,成為電子政府建設起步最早的國家。為此,筆者以“e-government” OR “e government” OR “electronic-government” OR “digital government”為主題在Web of Science核心學術期刊中進行文獻檢索,獲得了Web of Science數(shù)據(jù)庫在1993—2016年收錄的37 540篇文檔(每篇文檔包含標題、關鍵詞和摘要)。實驗對語料做如下預處理:①去掉除英文外其他語言的語料文本,僅保留每篇文檔的英文標題、摘要及關鍵詞。②利用nltk英文分詞工具將每篇文檔分成一個個獨立的詞,通過nltk.WordNetLemmat-izer()方法將主題詞小寫還原。③為保證文檔運行結果的快速有效,將文檔中常見的停用詞預先去除。同時,采用gensim.corpora.Dictionary工具去除文檔中的低頻詞/低關聯(lián)詞,并人工去除TI、DE、AB等與主題無關的詞匯。
LDA主題模型是由文檔-主題-主題詞構成的三層抽樣結構,如圖1所示。通常,一篇文檔由多個主題構成,而每一個主題可以使用與該主題相關的頻率最高的主題詞來描述。LDA模型在傳統(tǒng)主題模型基礎上加入了貝葉斯學派的觀點,即事先從文檔分布中確定主題層的主題數(shù)K值,然后依據(jù)主題分布依次抽取出文檔主題,將其編號為1至K,再依據(jù)詞分布在每一個主題下抽取出主題詞(主題詞在不同文檔中能進行互換,因為此時主題詞已不考慮其歸屬文檔,而是考慮其歸屬于同一個主題)。這樣的過程減少了實驗抽詞的總次數(shù),提高了主題模型運行的效率。
圖1 LDA主題模型拓撲結構示意圖
LDA模型中主題個數(shù)K值的確定一直飽受爭議,人工設定主題K值導致模型有較大的主觀性。因此許多學者對其進行了改進,其中HDP(分層的狄利克雷過程)模型[14]就因加入了DP過程和通過非參特性自動確定K值而獲得了學術界的廣泛認可。但在后期實證中發(fā)現(xiàn),HDP模型由于自動生成的主題過多,而且主題之間相似程度高,已經(jīng)遠遠超過了最優(yōu)主題數(shù)。因此,筆者采用基于密度的自適應模型選擇方法[15],該方法中,文檔規(guī)模以及主題之間的相關程度會決定最優(yōu)主題的個數(shù),文檔規(guī)模越大,K值就越大;主題詞越能代表單一主題而非多個主題,則該主題詞對該主題的代表性越強。
實驗通過LDA主題模型抽取每年文檔主題詞,以困惑度最小狀態(tài)時的結果作為實驗運行結果。每年的最優(yōu)主題個數(shù)即為最佳K值數(shù)。然后運用吉布斯方法進行采樣,即高維情況下,采樣點不斷沿坐標軸輪換,按照相關的條件概率做轉移,直至收斂。
將表1中的主題依次放入1993—2016年實驗結果中進行二次檢索,通過主題文本在總文本中所占的比例來確定研究主題在電子政府研究中的重要程度。主題文本占總文本的比例越大,說明研究主題就越重要;反之,就越不重要。
國外電子政府研究主題強度總體分布圖如圖2所示,其中公共服務(public service,14.80%)、公共管理(public administration,14.21%)、信息技術(information technology,9.68%)等主題占比較大,加上與其主題相關的政府信息服務(government information service,12.91%)、服務創(chuàng)新(service innovation,1.77%)、在線服務(online service,2.25%)、
表1 1993—2016年文檔主題運行結果一覽表
續(xù)表1
圖2 國外電子政府研究主題強度總體分布圖
服務評價(evaluation service, 2.84%)、信息資源管理(information resource management,7.16%)等主題,這8個主題所占比例過半(65.62%),因此,這些主題在研究過程中顯得極為重要。另外,與大數(shù)據(jù)相關的研究主題大數(shù)據(jù)(big data)、數(shù)據(jù)開放(open data)、智慧城市(smart city),與安全、法律相關的主題電子政府法案(e-government act)、政府安全(government security),與商務貿易相關的研究主題電子商務(electronic business、electronic commerce)等也分別占據(jù)一定的研究比例。
為了進一步了解各個主題之間的相關關系,使零散的主題整體化,并理清研究思路,筆者用Ucinet 6和Netdraw社會網(wǎng)絡分析主題內部間的相關關系。社會網(wǎng)絡中的連線表示主題之間存在相關關系,連線越多,表示該主題與其他主題越相關;結點代表主題,結點越大,表示與之相關的主題個數(shù)越多。國外電子政府研究主題關系網(wǎng)絡圖如圖3所示,可看出:①公共服務(public service)與績效評價(performance evaluation)、服務創(chuàng)新(service innovation)、服務評價(evaluation service)、在線服務(online service)等密切相關;②公共管理(public administration)與管理創(chuàng)新(management innovation)、數(shù)據(jù)管理(data management)、信息資源管理(information resource management)等緊密相關,說明政府部門非常重視服務、管理在電子政府中的應用,提出“以客戶為中心”作為政府工作目標,并在實踐過程中不斷進行實質性的創(chuàng)新;③信息技術(information technology)與辦公自動化(OA)、管理信息系統(tǒng)(MIS)、信息數(shù)據(jù)庫(information database)等關系密切,信息技術的革新為國外電子政府的發(fā)展奠定了堅實的基礎;④大數(shù)據(jù)(big data)與數(shù)據(jù)開放(open data)、數(shù)據(jù)安全(data security)、智慧城市(smart city)、信息公開(disclosure of information)等關聯(lián)程度較大,意味著數(shù)據(jù)作為一種重要的信息資源,已經(jīng)逐步應用于各行各業(yè),對于電子政府的發(fā)展也不例外。將大數(shù)據(jù)技術應用在政府民主化進程中,通過建設智慧型政府、智慧型組織,為公民提供更為精準的個性化服務。
河流圖是指一條從左至右的水平軸,不同的顏色帶代表不同的主題,河寬表示該時點下主題代表的文檔數(shù)在總文本數(shù)量中所占的比例(由于一篇文檔可能屬于多個主題,因此總文檔數(shù)量會大于實際文檔數(shù)量之和)。主題的演化過程主要分為:主題新生、主題消亡、主題合流和主題分流。
圖3 國外電子政府研究主題關系網(wǎng)絡圖
筆者結合社會網(wǎng)絡呈現(xiàn)出主題之間的相關關系,進一步發(fā)現(xiàn)主題之間的演化規(guī)律,通過主題河清晰地呈現(xiàn)主題的演化過程。1993—2016年主題河流圖如圖4所示。
圖4 1993—2016年主題河流圖
由圖4可知,信息技術(information technology)、公共管理(public administration)、公共服務(public service)、政府安全(government security)等均貫穿河流始終,且占據(jù)較大比例。在河流隨時間涌動的過程中,各個研究主題在河道中呈現(xiàn)出不同的發(fā)展特點。如信息技術(information technology)、信息資源管理(information resource management)、信息數(shù)據(jù)庫(information database)初期發(fā)展速度較快,后期發(fā)展逐步減慢;公共管理(public administration)、公共服務(public service)、在線服務(online service)初期發(fā)展較緩,后期研究逐步變多,更分流出服務創(chuàng)新(service innovation)主題,與管理、服務相關的主題突顯出越發(fā)重要的地位;電子治理(electronic governance)在研究后期被電子民主(e-democracy)所取代,說明政府部門愈發(fā)重視民主在工作中的體現(xiàn),以公眾的利益為中心將是政府部門未來工作的重要目標;大數(shù)據(jù)(big data)、數(shù)據(jù)開放(open data)、智慧城市(smart city)、數(shù)據(jù)安全(data security)自2009年開始出現(xiàn),研究比例逐年上漲,當前屬于國外電子政府研究的熱門領域。
為了更深入探討主題演化趨勢形成的原因,筆者將圖4中關系緊密的主題聚集在一起,最終匯集成6條主線的折線變化圖,如圖5所示,可看出:①公共服務主線與公共管理主線在研究中占據(jù)很大的比例,電子政府研究大致圍繞這兩條主
圖5 1993—2016年國外電子政府研究主題演化趨勢示意圖
線進行。1997年以后這兩條研究主線的占比保持在較高水平,但2010年以后這兩條研究主線的占比相對減少。這是由于文檔總數(shù)增多,導致研究占比銳減;②信息技術主線在研究前期占比較大,可見該時期政府部門希望借助信息技術來提高管理和服務水平。實踐證明,電子政府的應用確實優(yōu)化了政府的服務,給民眾辦事帶來了便利。同樣地,其研究趨勢也隨著時間的推移逐步下降,這是因為新的信息化發(fā)展逐步取代原始的信息技術,并在電子政府研究過程中得到廣泛運用;③法律與安全主線前期研究相對較少,后期研究逐步增多。這是由于電子政府發(fā)展過程中呈現(xiàn)出越來越多的政務安全、數(shù)據(jù)安全等問題,相關法律、法規(guī)的出臺可為政府安全提供法律保障,新的學科逐步發(fā)展起來;④電子商務主線是在20世紀90年代末發(fā)展起來的,信息技術的快速興起,致使網(wǎng)絡貿易成為可能。2010年后,電子商務的研究比例變得較少,這是由于國外電子商務研究經(jīng)過多年的發(fā)展已趨于成熟;⑤大數(shù)據(jù)時代的興起,為電子政府研究帶來新的機遇。大數(shù)據(jù)主線自2009年開始出現(xiàn)在公眾的視野,在電子政府研究領域中占據(jù)越來越大的比例。
當前,對國外電子政府的發(fā)展階段已經(jīng)有了公認的劃分,但幾乎沒有學者對國外電子政府研究有一個細致的劃分。筆者依據(jù)上述主題演化結果,將國外電子政府研究劃分為3個階段:信息技術應用階段、公共管理與公共服務階段、數(shù)據(jù)開放與增值服務階段,如圖6所示。
3.4.1信息技術應用階段(1993—1999年)
為了解決美國政府管理和服務方面存在的效率和質量等問題,美國政府于1993年提出了“信息高速公路”計劃。這一概念的提出揭開了電子政府發(fā)展的序幕。隨后,新加坡、韓國、英國等國家也投入到電子政府的建設當中。從辦公自動化、政府門戶網(wǎng)站建設,到提供在線服務、進行網(wǎng)絡安全治理等相關工作的開展,電子政府不斷面臨工作創(chuàng)新的挑戰(zhàn)。將信息技術融合到政務領域建設,提出政府服務高效化、管理有序化等建設理念,完美塑造了美國政府在公眾心目中的形象。這一階段是國外電子政府研究的起步階段,文獻總數(shù)量相對較少,研究內容主要是研究眾多信息技術在政府現(xiàn)代化中的應用,辦公自動化(OA)、信息技術(information technology)、網(wǎng)絡安全(network security)、在線服務(online service)等成為了這個階段的高頻詞。
圖6 國外電子政府研究主題演化階段劃分
3.4.2公共管理與公共服務階段(2000—2008年)
經(jīng)過前一階段的沉淀,國外電子政府研究得到了很大的提升,但政府管理與服務過程中還是存在許多問題。因此,學者們開始研究新技術環(huán)境下如何進一步提升公共管理與公共服務的效率和質量。例如:為提高政府的辦事效率,許多國家創(chuàng)建了政府門戶網(wǎng)站,簡化了政府辦事流程,拓寬了政府辦事渠道;為了消除數(shù)字鴻溝,許多國家建立了政府信息公開平臺,大力整合政府部門內部資源,倡導各部門之間的信息交流。此外,電子商務作為“信息高速公路”中的一員,在這一階段也得到了長足的發(fā)展。一方面,推動了國家信息化產(chǎn)業(yè)的布局,改變企業(yè)的生產(chǎn)經(jīng)營模式,擴大公司的核心競爭力。另一方面,將信息化直接融入到民眾的生活中,使公民對信息化進程有了更深入的理解,促進了公眾對電子政府工作開展的支持。
這一階段是國外電子政府研究的快速發(fā)展階段,文獻數(shù)量明顯增多,研究內容涉及管理與服務的各個方面,不斷創(chuàng)新的信息技術在這個階段起到很大的推動作用。信息公開(disclosure of information)、信息技術(information technology)、公共服務(public service)、公共管理(public administration)、績效評價(performance evaluation)、電子商務(electronic business)等是這個階段呈現(xiàn)出的高頻詞匯。
3.4.3數(shù)據(jù)開放與增值服務階段(2009—2016年)
2009年,美國總統(tǒng)奧巴馬提出開放數(shù)據(jù),以提升政府的透明度,更好地實施問責制,提高公眾參與度。他認為,開放數(shù)據(jù)將推動企業(yè)創(chuàng)新、政府創(chuàng)新,為政府部門提供數(shù)字化的管理和高水平的服務奠定基礎。當然,數(shù)據(jù)開放也帶來了各類安全問題。因此,本階段對于政務安全、網(wǎng)絡安全、數(shù)據(jù)安全的研究明顯增加。此外,智慧城市將物聯(lián)網(wǎng)、云計算等新的信息技術與人們的生產(chǎn)生活聯(lián)系起來。通過城市資源整合,分析、檢測各種信息數(shù)據(jù),智能化地響應市民的需求,降低城市的能耗和生活成本。在服務研究領域,本階段更加注重服務品質的提升,政府部門為用戶提供虛擬公共服務以滿足用戶的即時需求。這一階段國外電子政府研究總體趨于平穩(wěn),研究內容主要通過大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等一系列新的技術推動政府數(shù)據(jù)開放和服務創(chuàng)新,給予公眾全新的服務體驗。大數(shù)據(jù)(big data)、數(shù)據(jù)開放(open data)、智慧城市(smart city)、電子政府法案(e-government act)、服務創(chuàng)新(service innovation)、在線服務(online service)等成為這一階段的重要研究主題。
通過LDA模型對國外電子政府研究潛在主題進行挖掘與分析,發(fā)現(xiàn)公共管理與公共服務一直貫穿于國外電子政府研究的始終。最初為了解決管理與服務中效率和質量的問題,國外學者開始將信息技術應用于電子政府研究,并引發(fā)了其他學者對電子政府研究領域的廣泛關注。而后學者們更深入探索公共管理與公共服務的各個研究動向,為民眾提供精準化的管理以及個性化的服務。到數(shù)據(jù)開放與增值服務階段,云計算與物聯(lián)網(wǎng)技術的運用不斷推動政府管理與服務上的創(chuàng)新,這為公眾帶來更好的用戶體驗,也給國外電子政府的研究指明了方向。
未來,電子政府的相關政策將日趨完善,政府部門之間以及政府和企業(yè)之間的數(shù)據(jù)共享亦將完全打通。為此,筆者認為未來電子政府研究可以關注政府政策對政府、企業(yè)和個人的影響,以及數(shù)據(jù)共享后政府如何優(yōu)化辦事流程、進行服務創(chuàng)新、開展智慧城市建設等相關問題。此外,未來政府將構建自己的數(shù)據(jù)倉庫,用戶獲取的數(shù)據(jù)不再零散雜亂,而是精確的、結構化的數(shù)據(jù)。電子政府的相關研究也必將更多地聚焦于政府的數(shù)據(jù)挖掘及產(chǎn)業(yè)知識發(fā)現(xiàn)。
參考文獻:
[1]董偉,賈東琴.國外電子政務研究進展分析:基于共詞分析方法的研究[J].圖書情報工作,2011,55(21):125-129.
[2]張璇,蘇楠,楊紅崗,等.2000—2011年國際電子政務的知識圖譜研究:基于Citespace和VOSviewer的計量分析[J].情報雜志,2012,31(12):51-57.
[3]PRZEYBILOVICZ E, CUNHA M A, COELHO T R. The development of studies on electronic government in brazil: a bibliometric and sociometric study[C]∥International Conference on Information Resources Management. Ho Chi Minh City: AIS Electronic Library,2014:2-14.
[4]辛剛.國內外電子政務可視化比較研究[D].合肥:安徽大學,2012.
[5]王炳立.基于共現(xiàn)與共被引網(wǎng)絡的國際電子政務研究進展可視化分析[J].情報科學,2016,34(1):20-25.
[6]BOLIVAR M P R, MUNOZ L A, HERNANDEZ A M L. Scientometric study of the progress and development of e-government research during the period 2000—2012[J]. Information Technology for Development,2016,22(1): 36-74.
[7]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research,2003,3(4-5):993-1022.
[8]ZHENG Y, ZHANG Y J, LAROCHELLE H. A deep and autoregressive approach for topic modeling of multimodal data[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(6):1056-1069.
[9]LU H M, WEI C P, HSIAO F Y. Modeling healthcare data using multiple-channel latent dirichlet allocation[J]. Journal of Biomedical Informatics,2016,60(2):210-223.
[10]SONG G, LI Y, CHEN X, et al. Influential node tracking on dynamic social network: an interchange greedy approach[J]. IEEE Transactions on Knowledge and Data Engineering,2017,29(2):359-372.
[11]馬紅,蔡永明. 共詞網(wǎng)絡LDA模型的中文文本主題分析:以交通法學文獻(2000—2016)為例[J].現(xiàn)代圖書情報技術,2016,32(12):17-26.
[12]WANG Y, WANG J, LIAO H, et al. An efficient semi-supervised representatives feature selection algorithm based on information theory[J]. Pattern Recognition,2017,61(1):511-523.
[13]李永忠,蔡佳.基于LDA的國內電子政務研究主題演化及可視化分析[J].現(xiàn)代情報,2017,37(4):158-164.
[14]TEH Y W, JORDAN M I, BEAL M J, et al. Hierarchical dirichlet processes[J]. Journal of the American Statistical Association,2006,101(476):1566-1581.
[15]曹娟,張勇東,李錦濤,等.一種基于密度的自適應最優(yōu)LDA模型選擇方法[J].計算機學報,2008,31(10):1780-1787.
[16]U.S. Copyright Office. The library of congress[EB/OL].[2017-06-01].http:∥id.loc.gov/search/?q=&q=cs%3A%2F2Fid.loc. gov%2Fauthor ities%2Fsubjects.
[17]NATIONAL INFORMATION STANDARS ORGANIZATION. Information retrieval: application service definition & protocol specification: ANSI/NISO Z39.50-2003(S2014)[S]. Baltimore: American National Standards Institute,2017:1-238.