祝長華,謝俊貴,李少勇,呂玉文
(1.韶關學院 數(shù)學與統(tǒng)計學院,廣東 韶關 512005; 2.廣州大學 經(jīng)濟與統(tǒng)計學院/社會創(chuàng)新研究中心,廣東 廣州 510006)
中國互聯(lián)網(wǎng)信息中心(CNNIC)是負責中國域名注冊和互聯(lián)網(wǎng)統(tǒng)計的準政府機構,于1997年開始發(fā)布有關中國網(wǎng)絡人口(以前稱為互聯(lián)網(wǎng)用戶)的統(tǒng)計信息.僅20多年,中國的網(wǎng)絡人口就從62萬增長到9.89億(截至2020年12月31日),占中國總人口70.4%.伴隨這一飛速發(fā)展的同時,網(wǎng)絡人口的區(qū)域發(fā)展非常不平衡,例如,2016年,北京網(wǎng)絡人口普及率達到77.8%,而云南僅為39.7%.在數(shù)字經(jīng)濟時代,網(wǎng)絡人口是數(shù)字經(jīng)濟的生產(chǎn)者和消費者.一個省網(wǎng)絡人口的發(fā)展水平會影響它在國民經(jīng)濟中的潛在地位.
網(wǎng)絡人口研究一直受到重視[1].早在2000年,美國就在“調查數(shù)字未來”調查中對網(wǎng)絡人口進行了定量分析.網(wǎng)絡空間具有社會的特征,可以稱為網(wǎng)絡社會[2].因此,可以將Internet用戶稱為網(wǎng)絡人口.謝俊貴提議建立網(wǎng)絡人口統(tǒng)計學[3].現(xiàn)有文獻中有關中國網(wǎng)絡人口區(qū)域分布的決定因素主要有:經(jīng)濟因子、電信設施建設水平、教育發(fā)展水平、科學和技術發(fā)展、總人口、城市化水平等.其中,陳揚樂發(fā)現(xiàn)區(qū)域經(jīng)濟的發(fā)展水平,城市化率,信息基礎設施和教育水平是影響中國網(wǎng)絡人口區(qū)域分布的因素[4].但當時中國網(wǎng)絡人口的發(fā)展還處于起步階段,且忽略了時間的影響以及各省之間的發(fā)展差異.孫中偉等認為GDP和人口總數(shù)是關鍵因素,盡管總人口規(guī)模將影響Internet人口的發(fā)展,但如果僅將經(jīng)濟和總人口作為因素,則會高估總人口的影響[5].雖然對中國網(wǎng)絡人口區(qū)域分布影響因素的研究尚未深入,但學者們對互聯(lián)網(wǎng)擴散和數(shù)字鴻溝的影響因素卻進行了廣泛的研究[6-8].這些研究可以為本研究選擇指標提供很好的參考.大多數(shù)學者對一些因素已經(jīng)達成共識,其中最常見的是經(jīng)濟因素[9].同樣電信基礎設施,特別是電話密度,也被認為是重要影響因素[10];然而,在當前的移動互聯(lián)網(wǎng)和寬帶時代,選擇電話密度作為信息基礎設施建設水平的代理變量顯然是不合理的.此外,教育也被認為是一個重要影響因素[11].教育是全球信息技術傳播的重要影響因素.最后,一個國家或地區(qū)對外開放程度,尤其是對外貿(mào)易開放程度,對技術擴散也具有重要影響,也是一個重要影響因素.
盡管先前的研究已經(jīng)分析了多種因素,但它們卻忽略了時間和個體差異的影響,這有可能會完全扭曲分析結果.而且,他們大多使用多元線性回歸進行檢驗,這不能動態(tài)分析因素之間的動態(tài)變化.因此,有必要考慮使用因素、個體差異和時間的動態(tài)面板回歸模型來分析中國網(wǎng)絡人口區(qū)域分布的影響因素,以更好地解釋中國網(wǎng)絡人口的區(qū)域分布差異.文章采用面板向量自回歸(PVAR)模型分析了中國網(wǎng)絡人口的分布情況解釋了網(wǎng)絡人口與影響因素之間的互動關系,豐富了有關地區(qū)經(jīng)濟發(fā)展不平衡的影響因素研究,并能為數(shù)字經(jīng)濟發(fā)展提供參考價值.
研究調查了31個中國省市(不包括臺灣,香港和澳門)的2001-2016年的年度數(shù)據(jù).數(shù)據(jù)主要來自于CNNIC和中國統(tǒng)計年鑒(1998-2017).為了避免異方差,對所有變量取對數(shù).所有分析均使用Stata 12和Excel 2010進行.研究從經(jīng)濟發(fā)展水平、對外開放程度、教育發(fā)展程度和信息基礎設施建設等幾個方面分析影響因素.在參考前人研究基礎上選取如下變量,見表1.
表1 變量列表
面板聚類分析將多元統(tǒng)計方法應用于面板數(shù)據(jù),很快得到廣泛應用.本研究采用李因果等提出的自適應權重的面板數(shù)據(jù)聚類方法[12].它綜合考慮個體間的“絕對量距離”(dij(AQED))、“增長速度距離”(dij(ISED))和“變異系數(shù)距離”(dij(VCED)).設面板數(shù)據(jù)集為{xitk},i=1,…,N;t=1,…,T;k=1,…,Q.其中Q為指標個數(shù),T為總時期,N為個體數(shù).選取因變量和自變量一起對樣本進行分類.這3類距離的表達式分別為:
對dij(AQED)按照公式(4)進行標準化,得到標準化距離zdij(AQED),即:
同理,可以得到其它兩個標準距離分別為zdij(ISED),zdij(VCED).
再將它們代入式(5),即:
得到最終距離dij(CED),其中ω1,ω2,ω3為權重,可由熵權法得到.
設類GL和GK合并為新類GR,則其他類Gi與新類GR的距離平方為:
最后合并距離最小的兩類,分類數(shù)由碎石圖判斷.
研究采用的面板向量自回歸(PVAR)模型是由 Holtz-Eakin等于1988年提出的[13].它綜合了面板分析和向量自回歸模型的優(yōu)點,既能夠控制不可觀測的個體異質性(包含時間效應和個體效應),也可以分析面對沖擊時變量的動態(tài)反應.與向量自回歸模型相比,它對時間序列中時間的維度大大降低.本研究采用簡化式PVAR模型,它的具體模型表達式為:
其中Yit是1×5的因變量向量,ui和eit是1×5的面板固定效應和隨機誤差向量.矩陣A1,…,Ap是5×5的待估參數(shù)向量.模型假設E(eit)=0,E(éit eit)=Σ,E(éit eis)=0,對任意t>s.然而,PVAR 模型對變量的排序很敏感.因此,通常的慣例是,在系統(tǒng)中將更外生的變量排在前面,而更內生的變量排在后面.本研究假設變量按以下順序:{lnpinver,lnpgdp,lnpedu,lnpphone,lnpinter}.
對模型(7)的處理和估計主要分為4個步驟:(1)模型診斷及估計.首先對各變量進行平穩(wěn)性檢驗,否則會出現(xiàn)偽回歸.文章采用常用的Levin等2002年提出的ADF檢驗[14].隨后按照信息準則選擇模型,選擇了滯后一階的PVAR模型.最后,為了消除模型中個體效應和時間效應造成的系數(shù)估計偏差,采用截面均值差分和向前均值差分來分別消除時間效應和個體效應.這樣保證了轉換后的變量與滯后變量正交,從而可以將滯后變量作為工具變量進行估計.文章采用GMM方法對模型進行估計.由于模型中有許多待估參數(shù)難以解釋,因此,研究者更感興趣的是格蘭杰因果關系檢驗、預測誤差方差分解和脈沖響應函數(shù)圖. (2)格蘭杰因果關系檢驗.檢驗變量之間的因果關系.(3)預測誤差方差分解.能夠刻畫模型中一個變量的沖擊對其它變量波動的貢獻度.(4)脈沖響應函數(shù)圖.能夠很好的隔離出一個變量的沖擊對其它內生變量的影響.采用蒙特卡洛模擬500次得到脈沖響應函數(shù)標準誤的置信區(qū)間.
通過熵權法計算,絕對歐幾里得距離,增量速度歐幾里得距離和變異系數(shù)歐幾里得距離的權重分別為0.302、0.271和0.427,可將省市分為4類.第一類包括經(jīng)濟發(fā)達但網(wǎng)絡人口相對不多的省份(北京、天津和上海),例如北京,2016年,網(wǎng)絡人口普及率達到77.8%.這一類型的網(wǎng)絡人口普及率均超過70%.它們的經(jīng)濟發(fā)展水平較高,網(wǎng)絡人口發(fā)展較早.但近年來,與其他省份相比,網(wǎng)絡人口規(guī)模較少,而互聯(lián)網(wǎng)普及率卻很高.第二類包括經(jīng)濟發(fā)達而且網(wǎng)絡人口規(guī)模也大的省份(江蘇、浙江、廣東和福建),例如廣東省,主要位于東部沿海地區(qū).這些省份的網(wǎng)絡人口發(fā)展較早,并且近年來一直處于前列,網(wǎng)絡人口普及率均超過65%.第三類包括經(jīng)濟和網(wǎng)絡人口水平中等的省份(湖北、湖南、四川、山東、重慶、遼寧、吉林、黑龍江、河南、河北、安徽、江西、廣西、內蒙古、山西、陜西、貴陽和海南),例如湖南.此類省份數(shù)量最多,主要集中在中部地區(qū),網(wǎng)絡人口普及率在55%左右.這些省份所有指標的發(fā)展水平均是中等水平,人口眾多,網(wǎng)絡人口也較大.又如,在河南,盡管網(wǎng)絡人口普及率在中等水平,但是,近年來,網(wǎng)絡人口規(guī)模卻一直處于前列.第四類是經(jīng)濟和網(wǎng)絡人口發(fā)展都落后的省份(云南、新疆、西藏、青海、甘肅和寧夏),例如云南,2016年網(wǎng)絡人僅為39.7%.這些省各個指標都相對落后.
所有變量在顯著性水平0.05下均通過平穩(wěn)性檢驗.在顯著性水平0.1下,經(jīng)濟發(fā)展水平,教育發(fā)展水平和對外開放程度是網(wǎng)絡人口發(fā)展的格蘭杰原因,但是信息基礎設施不是網(wǎng)絡人口發(fā)展的格蘭杰原因.另外,網(wǎng)絡人口發(fā)展和教育發(fā)展水平互為格蘭杰因果;網(wǎng)絡人口發(fā)展與對外開放程度互為因果關系;經(jīng)濟發(fā)展水平和對外開放程度互為因果關系;經(jīng)濟發(fā)展水平與信息基礎設施建設互為因果關系;信息基礎設施與教育發(fā)展水平互為因果關系.這為中國的互聯(lián)網(wǎng)+戰(zhàn)略提供了理論基礎.此外,教育發(fā)展水平是對外開放程度的格蘭杰(Granger)原因;信息基礎設施建設是對外開放程度的格蘭杰原因.盡管格蘭杰因果關系檢驗揭示了變量之間的因果關系,但該檢驗無法衡量這種關系的強度或樣本時間以外的情況.預測誤差方差分解可以用來度量各變量的擾動項對其它變量預測誤差的單獨貢獻,即可以度量某個變量對另外一個變量的影響.所有變量對其它變量(包含自身)預測誤差方差的貢獻比例之和為1.
PVAR模型的穩(wěn)定性檢驗顯示模型滿足穩(wěn)定性條件,這意味著結果可用于預測.表2給出了預測期數(shù)為1期和10期的預測結果.預測期數(shù)為1時,所有變量預測誤差方差主要受自身的影響;在第10期,網(wǎng)絡人口發(fā)展的變化42.5%由教育發(fā)展水平解釋,26.3%由自身解釋,其次是信息基礎設施建設(14.5%)和經(jīng)濟發(fā)展水平(12.3%).這一結果證明了教育發(fā)展水平對于網(wǎng)絡人口發(fā)展的重要性.對外開放程度和教育發(fā)展水平的預測誤差方差主要受自身的影響(分別高達78.9%和70.3%).信息基礎設施建設和經(jīng)濟發(fā)展水平的預測誤差方差變化也主要受教育發(fā)展水平的影響,但相比來說比例較低分別為49.3%和37.9%.綜上,教育發(fā)展水平對于網(wǎng)絡人口發(fā)展、經(jīng)濟發(fā)展水平和信息基礎設施建設均非常重要.
表2 預測誤差方差分解結果
脈沖響應函數(shù)用于分隔系統(tǒng)中變量的作用,分析一個變量純粹受其他變量沖擊的反應.脈沖響應函數(shù)的分析結果表明,網(wǎng)絡人口發(fā)展對信息基礎設施建設的響應為正,但影響越來越弱并最終趨于平穩(wěn).短期內教育發(fā)展水平對網(wǎng)絡人口發(fā)展產(chǎn)生較強的負向影響,但很快回落.這可能是因為在后期學歷較低的人是網(wǎng)絡人口增加的主力軍.起初,經(jīng)濟發(fā)展水平對網(wǎng)絡人口發(fā)展產(chǎn)生了正向且強烈的影響,但后來逐漸消失.對外開放程度對網(wǎng)絡人口發(fā)展的沖擊不大,影響很小.信息基礎設施建設似乎對網(wǎng)絡人口發(fā)展的影響并不十分敏感.可能是因為信息基礎設施的建設更多地取決于國家政策.從對信息基礎設施的影響看,網(wǎng)絡人口發(fā)展和教育發(fā)展水平對信息基礎設施建設的沖擊相對較大.從對教育發(fā)展水平的影響看,信息基礎設施建設和經(jīng)濟發(fā)展水平對教育發(fā)展水平有持續(xù)的正向影響.網(wǎng)絡人口發(fā)展對教育發(fā)展水平提升也有正向作用,但是最終會回落.從對經(jīng)濟發(fā)展水平影響看,信息基礎設施建設對經(jīng)濟發(fā)展水平有較強的正向影響.教育發(fā)展水平對經(jīng)濟發(fā)展水平有負向影響.在樣本期內,中國的教育發(fā)展迅速,但是它對收入的促進作用已減弱. 2005年,出現(xiàn)民工荒;大學生工資不如民工收入現(xiàn)象是一個跡象.從對對外開放程度影響看,經(jīng)濟發(fā)展水平和信息基礎設施建設對對外開放程度的影響持續(xù)為正向影響.網(wǎng)絡人口發(fā)展和教育發(fā)展水平對對外開放程度的影響短暫,最終將回落.
交換相關系數(shù)較小變量的順序對結果的影響較?。?5].筆者交換了具有較大相關系數(shù)變量的順序,以評估模型的穩(wěn)健性.在變量中,經(jīng)濟發(fā)展水平與網(wǎng)絡人口發(fā)展之間的相關系數(shù)最大(0.993),其次是經(jīng)濟發(fā)展水平與教育水平之間的相關系數(shù)(0.989).最后是網(wǎng)絡人口發(fā)展與教育發(fā)展水平之間的相關系數(shù)(0.982).通過交換這三對變量的順序重新建模,共建立了三次模型.觀察格蘭杰因果關系,預測誤差方差分解和脈沖響應函數(shù)圖的變化(由于長度限制,結果未列出).與原始模型相比,結果幾乎沒有差異.因此,該模型具有很高的穩(wěn)健性.
利用2001年至2016年31個省的數(shù)據(jù),分析了中國網(wǎng)絡人口的區(qū)域分布特征和影響因素,并采用面板數(shù)據(jù)聚類分析方法對31個省進行分類.進而采用PVAR模型對中國網(wǎng)絡人口的區(qū)域分布的影響因素及因素之間的相互作用進行分析.結果表明:(1)中國網(wǎng)絡人口區(qū)域分布不均衡呈現(xiàn)由東向西遞減.這31個省市可以分為4類:經(jīng)濟發(fā)達,網(wǎng)絡人口普及率高,但網(wǎng)絡人口規(guī)模相對較少的省市;經(jīng)濟發(fā)達,網(wǎng)絡人口普及率高且網(wǎng)絡人口規(guī)模大的省市;經(jīng)濟發(fā)展水平和網(wǎng)絡人口普及率均中等水平的省市以及經(jīng)濟落后和網(wǎng)絡人口普及率低的省市.(2)對外開放程度、經(jīng)濟發(fā)展水平和教育發(fā)展水平都是影響中國網(wǎng)絡人口分布的重要因素.(3)從長期看,教育發(fā)展水平將是網(wǎng)絡人口發(fā)展、信息基礎設施建設和經(jīng)濟發(fā)展水平的重要影響因素.(4)除了對外開放程度的沖擊對其它變量的影響較小外,各變量的變動對其它變量均有一定程度的影響.這里重點關注到,短期內,教育發(fā)展水平對網(wǎng)絡人口發(fā)展的負向影響,可能原因是當高學歷人群的互聯(lián)網(wǎng)普及率接近100%飽和時,網(wǎng)絡人口的增長主要取決于教育程度低的人群.教育發(fā)展水平的沖擊將導致網(wǎng)絡人口在短期內為負向影響.
隨著互聯(lián)網(wǎng)對社會生活的深入滲透,網(wǎng)絡人口的發(fā)展將影響地區(qū)的社會經(jīng)濟發(fā)展.因此,筆者提出一些建議,以期能促進我國網(wǎng)絡人口和數(shù)字經(jīng)濟的發(fā)展:(1)地方政府應頒布各種優(yōu)惠政策以吸引外國投資,并學習和引進先進的外國技術和設備,特別是信息技術產(chǎn)品.(2)在農(nóng)村和西部地區(qū),引導和鼓勵企業(yè)和個體戶與互聯(lián)網(wǎng)融合,利用互聯(lián)網(wǎng)不受時間和空間限制的優(yōu)勢,擴展銷售市場以提高經(jīng)濟增長水平;降低互聯(lián)網(wǎng)訪問成本,特別是手機流量成本,并保證公共信息服務的最低數(shù)量和基本質量,將有利于網(wǎng)絡人口的增長;一些網(wǎng)民建議將Wi-Fi視為最低需求水平,并提出了“新馬斯洛需求理論層次”.(3)政府帶頭并鼓勵非政府組織共同努力,為弱勢群體提供資金和培訓;在農(nóng)村和西部地區(qū)建立信息服務站,并為普通民眾提供互聯(lián)網(wǎng)咨詢服務和培訓.(4)國家應加大對教育的投入,提高中國網(wǎng)絡人口的素質.網(wǎng)絡人口是高質量的資源,不能單純追求數(shù)量增長.網(wǎng)絡人口可以促進經(jīng)濟發(fā)展和社會進步.受過較高教育和收入的互聯(lián)網(wǎng)人群傾向于將互聯(lián)網(wǎng)用于經(jīng)濟利益,而那些社會經(jīng)濟地位較低的人群則主要將互聯(lián)網(wǎng)用于娛樂活動.