武楷彪 董瑜
關(guān)鍵詞:政策擴(kuò)散:創(chuàng)新價(jià)值鏈:文本關(guān)聯(lián)挖掘;人工智能
政策擴(kuò)散是政策過(guò)程理論的重要研究領(lǐng)域,研究?jī)?nèi)容主要包括特征、影響因素和機(jī)制等。隨著自然語(yǔ)言處理技術(shù)的不斷發(fā)展以及政府信息公開(kāi)措施的逐步加強(qiáng),政策擴(kuò)散的路徑與活動(dòng)得以被更好地記錄,從而為該項(xiàng)研究提供了新視角與更多的數(shù)據(jù)樣本。當(dāng)前,越來(lái)越多的學(xué)者運(yùn)用文本挖掘方法來(lái)分析政策擴(kuò)散特征,并已在政策文本語(yǔ)義挖掘方面取得了較大進(jìn)展。但從計(jì)算社會(huì)科學(xué)的視角來(lái)看,還需在政策擴(kuò)散特征規(guī)律挖掘基礎(chǔ)上結(jié)合相關(guān)理論與方法探索其背后的影響因素和機(jī)制,即遵循先“大數(shù)據(jù)發(fā)現(xiàn)”后“小數(shù)據(jù)驗(yàn)證”的邏輯。為實(shí)現(xiàn)這一目標(biāo),需要對(duì)政策文本挖掘方法進(jìn)行改進(jìn),其中就包括增強(qiáng)政策文本挖掘結(jié)果的理論性,這是因?yàn)槿藗兤毡檎J(rèn)為大數(shù)據(jù)方法強(qiáng)調(diào)數(shù)據(jù)驅(qū)動(dòng)和相關(guān)關(guān)系發(fā)現(xiàn),而社會(huì)科學(xué)研究注重因果分析,而從相關(guān)關(guān)系走向因果關(guān)系需結(jié)合研究議題的領(lǐng)域知識(shí)和理論:回到基于文本挖掘的政策擴(kuò)散研究中,以政策擴(kuò)散的主題分布特征研究為例,現(xiàn)有研究大多集中在不同機(jī)構(gòu)之間政策主題分布異同、演化趨勢(shì)的描述性分析,而較少探究主題分布特征背后所蘊(yùn)含的政府行為邏輯、價(jià)值取向以及擴(kuò)散機(jī)制。事實(shí)上,目前已有研究指出,在政策擴(kuò)散特征研究基礎(chǔ)上尋找擴(kuò)散的驅(qū)動(dòng)因素和動(dòng)力機(jī)制,既是未來(lái)研究的重要議題,同時(shí)也是計(jì)算社會(huì)科學(xué)快速發(fā)展背景下數(shù)據(jù)驅(qū)動(dòng)方法和學(xué)科指導(dǎo)理論不斷融合交叉的必然要求。
當(dāng)前,對(duì)政策擴(kuò)散過(guò)程中政策主題挖掘大多是運(yùn)用人工編碼或概率主題建模方法,其中,人工編碼方法可以根據(jù)需要選擇研究者關(guān)注的主題要點(diǎn),但面臨效率低下的問(wèn)題:而概率主題建模由于對(duì)主題的判斷并無(wú)統(tǒng)一的標(biāo)準(zhǔn),因而結(jié)果難以復(fù)現(xiàn),更重要的是,目前還尚未有較好結(jié)合主題模型和公共政策理論的政策擴(kuò)散特征研究。而在政府醫(yī)療服務(wù)評(píng)價(jià)等領(lǐng)域,已有學(xué)者開(kāi)始嘗試采用成熟的理論來(lái)輔助判斷主題聚類(lèi)算法得到的主題含義。為此,本文嘗試建立文本挖掘主題與現(xiàn)有成熟理論分析框架之間的映射關(guān)系,以更好地揭示政策擴(kuò)散過(guò)程中不同政府對(duì)同一政策議題不同方面的價(jià)值取向異同以及背后的潛在機(jī)制。本文以我國(guó)人工智能政策為分析對(duì)象,探討了如何有效結(jié)合文本挖掘方法和創(chuàng)新價(jià)值鏈理論測(cè)度政策擴(kuò)散特征并探究其背后的擴(kuò)散機(jī)制。在文本挖掘方法設(shè)計(jì)上,本文從文本相似度和主題分布比例兩方面揭示政策內(nèi)容擴(kuò)散程度和主題擴(kuò)散分布特征。在基于創(chuàng)新價(jià)值鏈的政策主題分析框架構(gòu)建上,由于我國(guó)人工智能政策布局是覆蓋人工智能理論研究到促進(jìn)社會(huì)發(fā)展的全過(guò)程,而政策主題擴(kuò)散(即由政府價(jià)值取向所反映的政策主題選擇性擴(kuò)散)可以發(fā)生在創(chuàng)新價(jià)值鏈的各個(gè)階段。因而,本文選擇創(chuàng)新價(jià)值鏈理論構(gòu)建文本分析框架,具體是通過(guò)建立政策文本詞匯與創(chuàng)新價(jià)值鏈理論的對(duì)應(yīng)關(guān)系實(shí)現(xiàn)政策擴(kuò)散主題傾向性分析。
在得到政策主題擴(kuò)散分布計(jì)算結(jié)果后,本文進(jìn)一步分析了政策擴(kuò)散的潛在機(jī)制。已有大量研究表明,地方政府的經(jīng)濟(jì)資源是影響政策采納主題傾向性的重要因素.而對(duì)于科技政策而言,某地科技資源存量會(huì)影響該地政策采納傾向性。不同于之前研究是采用因果推斷方法建立了地方政府的資源稟賦與政策采納與否(即二元變量)的關(guān)系,本文嘗試從文本數(shù)據(jù)挖掘角度試圖探索政府科技發(fā)展情況與政策主題傾向(即定序變量)的關(guān)系,最終發(fā)現(xiàn)政策主題擴(kuò)散傾向性與政府資源稟賦之間存在相關(guān)性。從方法改進(jìn)角度,通過(guò)探索基于成熟理論的政策文本主題確定方法,有助于彌補(bǔ)當(dāng)前政策文本分析領(lǐng)域存在深層次方法創(chuàng)新欠缺而應(yīng)用研究富余的不足。從政策擴(kuò)散實(shí)踐角度,通過(guò)探索我國(guó)人工智能政策擴(kuò)散實(shí)踐過(guò)程特征,可為我國(guó)人工智能政策試點(diǎn)示范推廣提供補(bǔ)充性的依據(jù)。
1國(guó)內(nèi)外文獻(xiàn)綜述
1.1基于文本挖掘的政策擴(kuò)散特征研究
1.1.1政策擴(kuò)散的概念
政策擴(kuò)散(Policy Diffusion)通常是指政策創(chuàng)新的擴(kuò)散,包括兩個(gè)角度:一是政策創(chuàng)新(Policy Inno-vation),二是創(chuàng)新擴(kuò)散(Innovation Diffusion)。Walk-er J將政策創(chuàng)新定義為,某一政府首次采納的政策或項(xiàng)目(無(wú)論該政策或項(xiàng)目是否已經(jīng)出現(xiàn)或已被其他政府采納)。Rogers E M將創(chuàng)新擴(kuò)散定義為,“政策創(chuàng)新的傳播過(guò)程就是創(chuàng)新擴(kuò)散”,即一種新的理念、思想或方法在社會(huì)系統(tǒng)中交流。上述兩個(gè)角度實(shí)際上都是對(duì)政府A的政策創(chuàng)新被政府B采納這一政策過(guò)程的觀察。通過(guò)文本挖掘分析政策擴(kuò)散特征可分為政策內(nèi)容擴(kuò)散程度研究和政策主題擴(kuò)散分布研究。
1.1.2政策內(nèi)容擴(kuò)散程度特征研究
政策內(nèi)容擴(kuò)散程度主要是通過(guò)文本相似度計(jì)算描述政策擴(kuò)散過(guò)程中不同機(jī)構(gòu)發(fā)布政策文本的相似性和差異性來(lái)衡量,其反映的是不同機(jī)構(gòu)之間政策總體相似性。通常采用政策文本相似度計(jì)算,一般而言,文本相似度數(shù)值越高,就代表一項(xiàng)政策的擴(kuò)散程度越低,即新政策對(duì)原型政策的細(xì)化更新較少。這類(lèi)研究會(huì)將文本計(jì)算結(jié)果結(jié)合其他分析對(duì)象(如文本頒布的機(jī)構(gòu)等)進(jìn)行進(jìn)一步特征規(guī)律的揭示。如Garrett K N等通過(guò)立法機(jī)構(gòu)頒布文本和利益集團(tuán)機(jī)構(gòu)頒布文本之間的相似度構(gòu)建政策擴(kuò)散網(wǎng)絡(luò),再運(yùn)用社會(huì)網(wǎng)絡(luò)分析的方法研究利益集團(tuán)在政策擴(kuò)散網(wǎng)絡(luò)中扮演的角色地位。Hinkle R K通過(guò)對(duì)法律文本計(jì)算研究了聯(lián)邦法院在洲際政策擴(kuò)散中的影響,具體是對(duì)比洲際政策文本與聯(lián)邦法院立法文本之間的相似性,反映各州立法者對(duì)聯(lián)邦法律政策學(xué)習(xí)和模仿的程度。Linder F等提出了一種可識(shí)別立法文本的相似序列以衡量文本之間相似性程度的算法,并進(jìn)一步測(cè)算了政策傳播網(wǎng)絡(luò)中政策模仿?tīng)顟B(tài)變化,最終得到由意識(shí)形態(tài)相似的發(fā)起人提出的法案具有很高的文本重用率等結(jié)論。Alschner W等對(duì)2100份IIA(International Investment Agree-ments,國(guó)際投資協(xié)議)的24 000篇文章從4個(gè)維度(國(guó)際維度、國(guó)家維度、擴(kuò)條約水平以及個(gè)別條約)研究全球主要國(guó)家(地區(qū))的投資條約文本中的一致性和創(chuàng)新性,從而發(fā)現(xiàn)各國(guó)(地區(qū))投資政策內(nèi)容變化。郁建興計(jì)算了“最多跑一次”政策擴(kuò)散中浙江省出臺(tái)的政策文本與27個(gè)省份出臺(tái)的“最多跑一次”政策文本的相似度。王雪玲研究了各城市海外高層次人才市級(jí)核心政策的文本相似度以測(cè)度政策擴(kuò)散程度。
1.1.3政策主題擴(kuò)散分布特征研究
主題擴(kuò)散分布研究主要通過(guò)政策文本主題來(lái)反映政策擴(kuò)散過(guò)程中不同機(jī)構(gòu)之間的政治理念傳遞、政令部署和政策議題采納等主題擴(kuò)散傾向特征。通常是先計(jì)算文本主題分布,再分析這些主題在政策擴(kuò)散過(guò)程中的變化。當(dāng)前對(duì)主題分布的挖掘方法主要集中在主題模型。如王芳等從政策發(fā)布時(shí)間、布局?jǐn)?shù)量、政策主題強(qiáng)度等維度提出了大數(shù)據(jù)政策擴(kuò)散傾向性模型。政府機(jī)構(gòu)的政策擴(kuò)散傾向性分值越高,則代表越傾向于進(jìn)行政令部署(如政治經(jīng)濟(jì)布局和動(dòng)員等),其中對(duì)政策主題擴(kuò)散強(qiáng)度的刻畫(huà)便用到了LDA主題模型。段堯清等利用開(kāi)源工具,提煉了政策文本的關(guān)鍵詞,接下來(lái)計(jì)算了政策主題擴(kuò)散的繼承比、擴(kuò)散比和創(chuàng)新比。裴雷等提出了針對(duì)信息政策主題擴(kuò)散的漣漪效應(yīng)與漏洞效應(yīng)的5項(xiàng)指標(biāo):擴(kuò)散比率、繼承比率、擴(kuò)散加權(quán)比率、繼承加權(quán)比率與主題分布相似性。Gilardi F等研究了在政策擴(kuò)散的問(wèn)題定義階段引入Text-as-Data方法的可行性,具體使用了結(jié)構(gòu)主題模型(Structural Topic Model,
STM)對(duì)1996-2013年49份有關(guān)禁煙政策的報(bào)紙中共計(jì)52 675個(gè)段落文本數(shù)據(jù)進(jìn)行分析,最終驗(yàn)證了4項(xiàng)影響政策擴(kuò)散框架因素的假設(shè)。
1.1.4小結(jié)
綜合已有研究發(fā)現(xiàn),現(xiàn)有政策擴(kuò)散特征研究在具體文本挖掘技術(shù)方法選擇上存在差異:國(guó)外學(xué)者傾向于使用文本相似度,而國(guó)內(nèi)學(xué)者多基于引用關(guān)系和主題模型,而主題模型中主題含義通常是由主觀決定的,其理論性和可解釋性較弱。針對(duì)這一不足,已有研究開(kāi)始討論如何通過(guò)構(gòu)建詞典的方式來(lái)完成主題模型的詞匯聚類(lèi)結(jié)果與現(xiàn)有理論主題的映射,這類(lèi)通過(guò)理論驅(qū)動(dòng)主題識(shí)別的方法對(duì)于社會(huì)科學(xué)研究人員而言,可有效提升主題結(jié)果解釋力和增加與理論對(duì)話的空間。在政策擴(kuò)散研究中,政策文本是政府進(jìn)行社會(huì)利益和價(jià)值分配的載體,而不同層級(jí)政府面臨的資源約束和預(yù)期目標(biāo)也不相同。政府面對(duì)一項(xiàng)新政策時(shí),通常會(huì)進(jìn)行一定程度的調(diào)整,換言之是改變?cè)姓膬r(jià)值排序。因此,應(yīng)當(dāng)嘗試從理論視角搭建政策擴(kuò)散過(guò)程中的主題變化分析框架,以更好地挖掘不同政府之間的價(jià)值傳遞結(jié)果。
1.2基于創(chuàng)新價(jià)值鏈理論的人工智能政策研究
本文擬選擇人工智能政策作為實(shí)證分析對(duì)象,理由包含:人工智能技術(shù)是當(dāng)前世界科技強(qiáng)國(guó)在新一輪國(guó)際科技競(jìng)爭(zhēng)中爭(zhēng)奪的焦點(diǎn);與其他國(guó)家(地區(qū))政策相比,中國(guó)人工智能政策尤其注重頂層設(shè)計(jì)和引導(dǎo)功能,并強(qiáng)調(diào)應(yīng)用端市場(chǎng)的牽引,在技術(shù)研發(fā)與應(yīng)用、產(chǎn)業(yè)經(jīng)濟(jì)發(fā)展和智能社會(huì)等方方面面主題均有布局。因此,從實(shí)證角度,可較充分說(shuō)明政策文本詞匯與主題對(duì)照過(guò)程;從現(xiàn)實(shí)角度,就我國(guó)而言,在頒布《新一代人工智能發(fā)展規(guī)劃》后,“中央一地方”“地方一地方”之間形成了顯著的傳播、采納和借鑒現(xiàn)象,即我國(guó)人工智能政策擴(kuò)散符合現(xiàn)實(shí)情況。
在政策文本主題研究方面,現(xiàn)有分析維度有政策工具、政策目標(biāo)、政策主體以及針對(duì)政策對(duì)象特點(diǎn)構(gòu)建的理論分析框架,具體在人工智能政策研究中,學(xué)者基于創(chuàng)新價(jià)值鏈理論構(gòu)建了文本主題分析框架并取得一定進(jìn)展。創(chuàng)新價(jià)值鏈(Innovation Val-ue Chain,IVC)是在價(jià)值鏈理論基礎(chǔ)上融人了技術(shù)創(chuàng)新理論,其包含從創(chuàng)新源到從創(chuàng)新源轉(zhuǎn)化為新產(chǎn)品、再到市場(chǎng)化的不斷增值過(guò)程,在產(chǎn)業(yè)政策文本分析中,由于創(chuàng)新價(jià)值鏈理論蘊(yùn)含的技術(shù)價(jià)值實(shí)現(xiàn)過(guò)程與新興產(chǎn)業(yè)成長(zhǎng)發(fā)展過(guò)程比較一致,學(xué)者已借助該理論分析科技成果轉(zhuǎn)化政策、5G技術(shù)發(fā)展政策等。
我國(guó)人工智能政策重點(diǎn)在于對(duì)人工智能產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)進(jìn)行布局,包括基礎(chǔ)理論研究、技術(shù)研發(fā)、產(chǎn)業(yè)融合以及對(duì)社會(huì)整體福利的促進(jìn),現(xiàn)有研究在創(chuàng)新價(jià)值鏈的階段劃分上各有側(cè)重:如湯志偉等研究維度包括基礎(chǔ)理論研究、應(yīng)用技術(shù)深化、學(xué)科人才建設(shè)、產(chǎn)業(yè)市場(chǎng)發(fā)展和服務(wù)智能社會(huì)5個(gè)方面。馬曉飛等則是從基礎(chǔ)層、技術(shù)層和應(yīng)用層3個(gè)方面對(duì)文本內(nèi)容進(jìn)行分析編碼。呂文晶等從政策工具和創(chuàng)新過(guò)程兩個(gè)維度展開(kāi)分析,其中創(chuàng)新過(guò)程維度被劃分為科學(xué)技術(shù)研究、產(chǎn)業(yè)化和商業(yè)化3個(gè)階段。宋偉等從基礎(chǔ)理論、核心關(guān)鍵技術(shù)、支撐平臺(tái)、產(chǎn)業(yè)化、融合應(yīng)用和發(fā)展環(huán)境6個(gè)方面展開(kāi)了各省政策的比較分析。張濤等主要關(guān)注人工智能政策的五大任務(wù)(科技創(chuàng)新體系、智能經(jīng)濟(jì)、智能社會(huì)、央地融合以及科技項(xiàng)目)主題相似程度。
上述研究在方法上以人工編碼為主,在內(nèi)容上主要關(guān)注政策中有關(guān)創(chuàng)新價(jià)值鏈的技術(shù)創(chuàng)新過(guò)程,而忽略了政策環(huán)境、創(chuàng)新主體以及支撐要素等在創(chuàng)新價(jià)值鏈中扮演的角色。因此,有必要進(jìn)一步拓寬現(xiàn)有創(chuàng)新價(jià)值鏈分析框架的維度,同時(shí)構(gòu)建更為自動(dòng)化的從文本主題到創(chuàng)新價(jià)值鏈過(guò)程的政策文本挖掘方法,從而更好地描述各地政府所頒布的人工智能政策中政策議題的選擇傾向性。
2政策擴(kuò)散特征測(cè)度方法構(gòu)建
依照前文所述,政策擴(kuò)散特征主要包含兩部分:一是內(nèi)容擴(kuò)散程度特征,直接通過(guò)已有文本關(guān)聯(lián)挖掘算法實(shí)現(xiàn)測(cè)度,該算法是通過(guò)對(duì)文本進(jìn)行依存句法分析得到短語(yǔ)詞組的方式計(jì)算相似度,除了計(jì)算結(jié)果較為準(zhǔn)確,還可識(shí)別文本之間具體關(guān)聯(lián)的短語(yǔ)結(jié)構(gòu),可直接利用該算法計(jì)算政策文本之間相似度來(lái)測(cè)度內(nèi)容演化特征。二是主題擴(kuò)散分布特征,核心包含兩個(gè)步驟,如圖1所示,分別是映射詞典的構(gòu)建及驗(yàn)證和政策主題擴(kuò)散分布計(jì)算。
2.1映射詞典構(gòu)建及驗(yàn)證
2.1.1基于創(chuàng)新價(jià)值鏈的政策文本主題分析框架構(gòu)建
在已有研究基礎(chǔ)上,為更細(xì)致地分析不同地方政府頒布政策的主題傾向性,借助采用映射詞典識(shí)別政策主題方法的優(yōu)勢(shì),本文進(jìn)一步拓寬主題分析框架的維度,分別從發(fā)展階段、創(chuàng)新主體及合作組織、支持要素和政策保障4個(gè)維度構(gòu)建基于創(chuàng)新價(jià)值鏈理論的文本主題分析框架。其中,發(fā)展階段維度構(gòu)建了人工智能從基礎(chǔ)理論研究到技術(shù)研發(fā)應(yīng)用再到最后人工智能產(chǎn)業(yè)發(fā)展以及促進(jìn)社會(huì)整體智能化的過(guò)程:創(chuàng)新主體及組織合作維度主要關(guān)注參與創(chuàng)新價(jià)值鏈的實(shí)體,可能包括從事人工智能技術(shù)的研發(fā)機(jī)構(gòu)、產(chǎn)品生成的相關(guān)企業(yè)以及創(chuàng)新主體之間形成的合作聯(lián)盟(如產(chǎn)業(yè)集群、創(chuàng)業(yè)園等);支撐要素維度涉及人才、資本以及底層資源和服務(wù)平臺(tái),最后是政策保障維度。
2.1.2關(guān)鍵短語(yǔ)抽取和映射詞典構(gòu)建及驗(yàn)證
本文利用依存句法分析和語(yǔ)義計(jì)算將政策文本拆成多個(gè)圍繞句子核心詞匯的兩類(lèi)短語(yǔ)結(jié)構(gòu),一類(lèi)是動(dòng)賓短語(yǔ)結(jié)構(gòu),如“建設(shè)人工智能人才實(shí)訓(xùn)基地”;一類(lèi)是修飾短語(yǔ)結(jié)構(gòu),如“科研院所”“產(chǎn)業(yè)聯(lián)盟”等,上述短語(yǔ)結(jié)構(gòu)可以較好涵蓋并傳達(dá)句子的核心內(nèi)容。因此,本文將政策文本抽取后的高頻短語(yǔ)結(jié)構(gòu)與上述主題分析框架建立一一映射關(guān)系,由此便可實(shí)現(xiàn)短語(yǔ)結(jié)構(gòu)詞匯對(duì)應(yīng)詞典的構(gòu)建。具體在構(gòu)建詞典過(guò)程中為了保證詞典構(gòu)建的信度和效度,本文還涉及了多人多輪編碼與專(zhuān)家知識(shí)相結(jié)合的方式,并根據(jù)政策文本固有篇章結(jié)構(gòu)構(gòu)建了文本“內(nèi)容一主題”的驗(yàn)證集來(lái)進(jìn)一步驗(yàn)證詞典的準(zhǔn)確性。
2.2政策主題擴(kuò)散分布特征計(jì)算
在構(gòu)建完成詞典之后,便可對(duì)政策文本主題分布進(jìn)行測(cè)度。在具體實(shí)驗(yàn)過(guò)程中,本文發(fā)現(xiàn)政策文本的章節(jié)標(biāo)題往往是對(duì)所在章節(jié)內(nèi)容的有效概括,可綜合章節(jié)標(biāo)題和內(nèi)容共同判斷文本主題以提高準(zhǔn)確率。因此,本文在實(shí)際進(jìn)行政策主題分布計(jì)算時(shí),通過(guò)詞典分別得到文本篇章結(jié)構(gòu)中標(biāo)題與內(nèi)容的主題,通過(guò)對(duì)比兩者結(jié)果(若一致,則根據(jù)結(jié)果得到主題維度;若不一致,則引人人工判讀)從而實(shí)現(xiàn)更加精準(zhǔn)的主題分布計(jì)算。最后,在主題分布計(jì)算結(jié)果基礎(chǔ)上,通過(guò)比較不同省份在基于創(chuàng)新價(jià)值鏈理論構(gòu)建的主題分析框架中的分布情況得到政策主題擴(kuò)散分布特征。
3我國(guó)人工智能政策擴(kuò)散特征的實(shí)證研究
3.1政策文本數(shù)據(jù)搜集和預(yù)處理
3.1.1數(shù)據(jù)搜集時(shí)間范圍
自2017年國(guó)務(wù)院頒布《新一代人工智能發(fā)展規(guī)劃》以來(lái),我國(guó)人工智能相關(guān)政策進(jìn)入深化階段,并開(kāi)始強(qiáng)調(diào)在各行業(yè)領(lǐng)域的試點(diǎn)示范,因此,本文將數(shù)據(jù)搜集時(shí)間限定在2017年7月8日(《新一代人工智能發(fā)展規(guī)劃》頒布時(shí)間)-2021年12月31日。
3.1.2數(shù)據(jù)搜集過(guò)程
首先,在北大法寶、iPolicy政策分析系統(tǒng)以及各級(jí)政府官網(wǎng)根據(jù)關(guān)鍵詞“人工智能”進(jìn)行標(biāo)題檢索,獲得初始數(shù)據(jù)集;接下來(lái),對(duì)初始數(shù)據(jù)進(jìn)行人工篩選。鑒于本文主要從政策文本內(nèi)容的角度分析人工智能政策擴(kuò)散特征,為保證搜集得到的政策文件具有可比性且符合政策擴(kuò)散實(shí)際情況,在人工篩選時(shí)保留了規(guī)劃類(lèi)文本,如政策文本標(biāo)題含“發(fā)展規(guī)劃”或“產(chǎn)業(yè)規(guī)劃”等詞匯,同時(shí)刪除人工智能創(chuàng)新發(fā)展試驗(yàn)區(qū)的回復(fù)函等文本。此外,還有一些省份的人工智能政策規(guī)劃文本標(biāo)題為“智能XX發(fā)展規(guī)劃”,如《智能貴州發(fā)展規(guī)劃(2017-2020年)》也一并納人數(shù)據(jù)集。在初步形成本文研究數(shù)據(jù)集后,對(duì)比現(xiàn)有人工智能政策研究中采用的數(shù)據(jù)集以查漏補(bǔ)缺,同時(shí)剔除掉已失效的政策文件,最終形成針對(duì)人工智能發(fā)展制定的規(guī)劃性或綱領(lǐng)性政策文件庫(kù),共110份。其中,由國(guó)家級(jí)或省級(jí)政府機(jī)構(gòu)頒布的政策文件57份,地級(jí)市及以下行政級(jí)別政府政策文件53份。
3.2政策擴(kuò)散的時(shí)空分布特征
3.2.1時(shí)間分布特征
統(tǒng)計(jì)隨時(shí)間推移累計(jì)出臺(tái)人工智能政策的省級(jí)政府?dāng)?shù)量如圖2所示,其擴(kuò)散趨勢(shì)符合S型經(jīng)典累積分布曲線。圖2表明截至2021年年底,我國(guó)共有24個(gè)省份(不含港、澳、臺(tái)地區(qū))頒布了人工智能政策,其累計(jì)分布曲線反映我國(guó)人工智能政策呈現(xiàn)早期快速擴(kuò)散、中期逐步放緩的特征。
3.2.2空間層級(jí)特征
使用Gephi繪制2017-2021年我國(guó)人工智能政策擴(kuò)散網(wǎng)絡(luò),具體是以各個(gè)省份出臺(tái)的政策文本為節(jié)點(diǎn),政策之間的參照關(guān)系為節(jié)點(diǎn)之間的連邊,將演化過(guò)程以年為單位進(jìn)行切片,再?gòu)木W(wǎng)絡(luò)密度、網(wǎng)絡(luò)平均模塊化指數(shù)和網(wǎng)絡(luò)平均路徑長(zhǎng)度分析我國(guó)人工智能政策擴(kuò)散網(wǎng)絡(luò)演化特征和趨勢(shì),如圖3所示。
可以發(fā)現(xiàn),隨時(shí)間推移,我國(guó)人工智能政策擴(kuò)散網(wǎng)絡(luò)密度逐步降低,這表明網(wǎng)絡(luò)節(jié)點(diǎn)之間連接緊密程度呈下降趨勢(shì),即“地方一地方”之間的政策擴(kuò)散現(xiàn)象逐步增多;平均度先上升、后下降。在2018年、2019年我國(guó)密集出臺(tái)了大量人工智能政策,隨后年份出臺(tái)數(shù)量減少。模塊化指數(shù)不斷上升,即各省份出臺(tái)的人工智能規(guī)劃政策與配套政策之間逐步形成模塊。網(wǎng)絡(luò)平均路徑長(zhǎng)度不斷上升,這是因?yàn)槿斯ぶ悄苷哒粩鄰闹醒胂虻胤绞∈袇^(qū)進(jìn)行擴(kuò)散,網(wǎng)絡(luò)層級(jí)結(jié)構(gòu)不斷增加。整體而言,我國(guó)人工智能政策擴(kuò)散網(wǎng)絡(luò)的核心節(jié)點(diǎn)始終是中央出臺(tái)的兩項(xiàng)政策,呈現(xiàn)出“由點(diǎn)到面”的特征。
3.3政策內(nèi)容擴(kuò)散程度特征
以中央文件為對(duì)比對(duì)象,對(duì)24個(gè)省份的人工智能領(lǐng)域政策文本進(jìn)行相似度計(jì)算,為保證各省之間納入計(jì)算的政策文本具有可比性,只考慮省級(jí)政府層面頒布的政策文本。在計(jì)算之前,還需對(duì)文本進(jìn)行預(yù)處理:刪除文本中與人工智能規(guī)劃部署無(wú)直接關(guān)聯(lián)的內(nèi)容(如戰(zhàn)略態(tài)勢(shì)、指導(dǎo)思想等),僅保留對(duì)人工智能發(fā)展規(guī)劃做出詳細(xì)部署的內(nèi)容(如重點(diǎn)目標(biāo)、保障措施等),此外還刪除政策內(nèi)容中的專(zhuān)欄部分內(nèi)容。同時(shí),若該省份發(fā)布的人工智能領(lǐng)域政策數(shù)量超過(guò)1份時(shí),對(duì)該省份進(jìn)行標(biāo)記,最終得到各省份相對(duì)于中央政策文件的相似度數(shù)值如圖4所示(按相似度從高至低展示)。
由圖4可知,這24個(gè)省份和直轄市的平均相似度為0.704,其中,頒布文本數(shù)量為1份的省份平均相似度(0.726)高于政策文本數(shù)量大于1的省份平均相似度(0.679)。因此,從數(shù)據(jù)反映的特征可以發(fā)現(xiàn),中國(guó)人工智能政策在擴(kuò)散過(guò)程中,各個(gè)省份首先會(huì)學(xué)習(xí)模仿中央出臺(tái)的政策規(guī)劃,然后再根據(jù)本省的實(shí)際情況出臺(tái)其他配套政策,因而出臺(tái)政策較少的省份與中央政策相似度越高,因?yàn)槌雠_(tái)政策較少的省份尚處于政策擴(kuò)散早期,因此會(huì)傾向于先模仿中央政策迅速出臺(tái)相關(guān)政策文件。然而,文本相似度數(shù)值對(duì)政策擴(kuò)散過(guò)程內(nèi)容變化程度揭示的粒度仍較粗,因此,有必要進(jìn)一步探究各省政策文本主題擴(kuò)散情況。
3.4政策主題擴(kuò)散分布特征
3.4.1主題映射詞典構(gòu)建及驗(yàn)證
首先構(gòu)建文本短語(yǔ)結(jié)構(gòu)與主題分析框架映射關(guān)系的詞典,具體從實(shí)際分析的政策文本(字?jǐn)?shù)約351844字)中分別抽取兩類(lèi)短語(yǔ)結(jié)構(gòu),其中動(dòng)賓短語(yǔ)結(jié)構(gòu)13437個(gè),修飾短語(yǔ)結(jié)構(gòu)8328個(gè),依據(jù)短語(yǔ)的依存關(guān)系,從這些短語(yǔ)結(jié)構(gòu)中抽取主要成分關(guān)系(動(dòng)賓結(jié)構(gòu)和修飾語(yǔ)結(jié)構(gòu)等),再剔除掉結(jié)構(gòu)中不能表達(dá)文本主題的詞匯(如動(dòng)詞、介詞等),得到7572個(gè)不同詞組。在建立映射關(guān)系詞典時(shí),主要考慮高頻短語(yǔ)詞組,這是因?yàn)楦哳l短語(yǔ)詞組往往也是政策文本內(nèi)容關(guān)聯(lián)的詞組結(jié)構(gòu)。高頻詞組的選取過(guò)程參考了學(xué)界對(duì)高頻詞的選取方法,研究表明,借助二八定律的思想來(lái)確定高頻詞閾值是比較合理的。具體到本研究,以累計(jì)詞頻為20%的詞組結(jié)構(gòu)作為高頻詞組,則應(yīng)選取頻率大于或等于13的詞組作為待分析高頻詞組,考慮到并非所有高頻詞組都能一一對(duì)應(yīng)至主題分析框架,因此適當(dāng)拓寬詞組,最終選取詞頻大于等于12的詞組,得到154個(gè)高頻短語(yǔ)詞組。通過(guò)回溯政策文本內(nèi)容,結(jié)合上下文語(yǔ)境,將這些詞組對(duì)應(yīng)到文本主題分析框架不同維度,形成最終高頻短語(yǔ)詞典,如表1所示。
本文還進(jìn)一步驗(yàn)證了所提主題分布算法的有效性,由于政策文本標(biāo)題可在一定程度上概括章節(jié)內(nèi)容,因而可將部分段落作為算法測(cè)試驗(yàn)證集。本文從原始文本數(shù)據(jù)集中提取了105個(gè)政策文本段落,人工標(biāo)記文本主題標(biāo)簽用于測(cè)試算法有效性,在分別計(jì)算不納入和納入章節(jié)標(biāo)題后,發(fā)現(xiàn)算法準(zhǔn)確率由72.54%上升至82.35%。由此可見(jiàn),本文算法可較好地輔助人工主題識(shí)別和判讀,且考慮章節(jié)標(biāo)題主題的算法,有效提升了主題識(shí)別準(zhǔn)確率。
3.4.2政策主題擴(kuò)散分布結(jié)果
央地政策主題分布計(jì)算如圖5所示,可發(fā)現(xiàn)央地政策在創(chuàng)新價(jià)值鏈各環(huán)節(jié)上均有所布局,但側(cè)重點(diǎn)有所不同。
上述主題擴(kuò)散分布計(jì)算結(jié)果表明,從整體上,在發(fā)展階段維度,中央和地方都更關(guān)注“技術(shù)研發(fā)與應(yīng)用”,可見(jiàn)當(dāng)前我國(guó)人工智能發(fā)展規(guī)劃更為人工智能技術(shù)的研發(fā)及具體應(yīng)用,具體體現(xiàn)在對(duì)人工智能相關(guān)產(chǎn)品針對(duì)性展開(kāi)布局:在創(chuàng)新主體及組織合作維度,中央和地方都更注重強(qiáng)調(diào)發(fā)展人工智能企業(yè);在支撐要素維度,中央和地方都較少對(duì)資金資本進(jìn)行規(guī)劃,而更強(qiáng)調(diào)人才建設(shè)和資源平臺(tái)在人工智能發(fā)展中起到的作用。在央地政策細(xì)分主題對(duì)比上,計(jì)算相較于中央而言各省頒布政策主題的側(cè)重點(diǎn)。計(jì)算結(jié)果表明,發(fā)展階段維度,北京市、上海市、福建省、天津市、廣東省、浙江省、江蘇省和安徽省更注重在創(chuàng)新價(jià)值鏈的前端進(jìn)行布局:陜西省、山東省、河南省、吉林省、貴州省、山西省、江西省、廣西壯族自治區(qū)、甘肅省、黑龍江省和云南省則更注重在創(chuàng)新價(jià)值鏈的后端進(jìn)行布局:創(chuàng)新主體維度,除企業(yè)以外,相較于中央政策而言,安徽省、北京市、福建省、廣東省、上海市和江蘇省更強(qiáng)調(diào)科研機(jī)構(gòu)作為創(chuàng)新價(jià)值鏈主體發(fā)揮的作用:支撐要素維度,中央當(dāng)前發(fā)布的政策更強(qiáng)調(diào)人才建設(shè),具體表現(xiàn)在教育部出臺(tái)了兩項(xiàng)有關(guān)加強(qiáng)人工智能人才培養(yǎng)和學(xué)科建設(shè)的政策文件。而各省份有的更強(qiáng)調(diào)加快人才培養(yǎng),有的則更強(qiáng)調(diào)建設(shè)資源平臺(tái)。其中,安徽省、重慶市、廣東省、甘肅省、貴州省、黑龍江省、湖北省、吉林省、江蘇省、江西省、遼寧省、四川省、山東省、上海市、陜西省、山西省和浙江省這17個(gè)省份更強(qiáng)調(diào)對(duì)資源平臺(tái)建設(shè)的布局,而北京市、福建省、廣西壯族自治區(qū)、河南省、天津市和湖南省這6個(gè)省份更強(qiáng)調(diào)人才建設(shè);政策保障維度,中央與地方政策這一部分內(nèi)容占比相較于其他維度較少,與中央政策相比,有7個(gè)省份有關(guān)政策保障的內(nèi)容占比較高,表明這些省份更強(qiáng)調(diào)人工智能發(fā)展規(guī)劃中軟環(huán)境的營(yíng)造,分別是重慶市、廣東省、甘肅省、廣西壯族自治區(qū)、黑龍江省、遼寧省和山西省。
3.4.3政策擴(kuò)散潛在機(jī)制探因
為進(jìn)一步考察政策擴(kuò)散潛在機(jī)制,本文建立各省份人工智能發(fā)展階段與政策主題擴(kuò)散傾向性的關(guān)系。其中,各省按人工智能的發(fā)展程度劃分3個(gè)梯度,劃分方式參考了國(guó)家工業(yè)信息安全發(fā)展研究中心發(fā)布的《中國(guó)人工智能產(chǎn)業(yè)發(fā)展指數(shù)(2019)》、中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)和中國(guó)信息通信研究院發(fā)布的《中國(guó)“智能+”社會(huì)發(fā)展指數(shù)報(bào)告(2019)》和呂榮杰等對(duì)中國(guó)人工智能區(qū)域發(fā)展水平的動(dòng)態(tài)測(cè)度,結(jié)合政策主題擴(kuò)散分布計(jì)算結(jié)果得到各省在創(chuàng)新價(jià)值鏈各環(huán)節(jié)主題側(cè)重如表2所示。
將省份所在梯隊(duì)階段和政策主題擴(kuò)散傾向性分別作為定序變量并賦值,并計(jì)算兩者的Spearman等級(jí)相關(guān)系數(shù)。結(jié)果表明,在0.01的置信水平區(qū)間上,兩者相關(guān)性為0.6636,由此發(fā)現(xiàn),地方政府在面對(duì)中央政府政策文件時(shí),當(dāng)前人工智能發(fā)展?fàn)顩r較好、具有較多科技資源的省份會(huì)相對(duì)更注重對(duì)創(chuàng)新價(jià)值鏈的前端進(jìn)行布局,反之亦成立。對(duì)于這一現(xiàn)象,行政指令機(jī)制可作為潛在解釋機(jī)制。在我國(guó)人工智能政策發(fā)展過(guò)程中,中央頒布了《國(guó)家新一代人工智能創(chuàng)新發(fā)展試驗(yàn)區(qū)建設(shè)》(以下簡(jiǎn)稱(chēng)“試驗(yàn)區(qū)”)的相關(guān)文件,指出要在2023年建成20個(gè)試驗(yàn)區(qū),通過(guò)先行先試的方式探索人工智能技術(shù)與經(jīng)濟(jì)社會(huì)的融合路徑,探索適應(yīng)人工智能創(chuàng)新發(fā)展的制度環(huán)境和智能時(shí)代政府治理的方法,以及強(qiáng)化人工智能發(fā)展的基礎(chǔ)設(shè)施建設(shè),并重點(diǎn)依托人工智能創(chuàng)新資源較為豐富的城市作為探索載體,發(fā)揮引領(lǐng)作用。在試驗(yàn)區(qū)的建設(shè)過(guò)程中,科技部對(duì)各城市發(fā)展試驗(yàn)區(qū)的致函中體現(xiàn)了對(duì)不同城市發(fā)揮示范引領(lǐng)作用的要求,如對(duì)北京市強(qiáng)調(diào)“打造全球人工智能技術(shù)創(chuàng)新策源地”、對(duì)杭州市強(qiáng)調(diào)“打造人工智能產(chǎn)業(yè)聚集高地”、對(duì)濟(jì)南市強(qiáng)調(diào)“推動(dòng)人工智能在重大場(chǎng)景中的創(chuàng)新應(yīng)用”等。由此可見(jiàn),上級(jí)政府及部門(mén)通過(guò)直接介入政策內(nèi)容,以行政指令方式推動(dòng)了人工智能政策的廣泛擴(kuò)散和實(shí)施,對(duì)于各省市的要求貼合該省市的資源稟賦,由此影響了各省政策規(guī)劃布局重點(diǎn)的傾向性和價(jià)值取向。在未來(lái),為進(jìn)一步增強(qiáng)我國(guó)人工智能產(chǎn)業(yè)發(fā)展的推動(dòng)力,可適當(dāng)采用政治和經(jīng)濟(jì)手段混合激勵(lì)方式。
4結(jié)論和討論
本文構(gòu)建了融合創(chuàng)新價(jià)值鏈理論和文本關(guān)聯(lián)挖掘方法的政策擴(kuò)散特征測(cè)度方法,并以人工智能政策為例說(shuō)明了這一過(guò)程。研究結(jié)果表明,相較于中央政策,各省人工智能政策主題擴(kuò)散各有側(cè)重,其中,人工智能發(fā)展?fàn)顩r較好、具有較多科技資源的省份相對(duì)更注重對(duì)創(chuàng)新價(jià)值鏈的前端(即基礎(chǔ)理論)進(jìn)行布局,反之亦成立。此外,在日寸間上,呈現(xiàn)早期快速擴(kuò)散、中期逐步放緩特征;在空間上,形成了圍繞中央頒布政策的擴(kuò)散網(wǎng)絡(luò),且地方政策正逐步形成模塊化效應(yīng);在內(nèi)容上,各省政府先“學(xué)習(xí)模仿中央政策”后“因地制宜創(chuàng)新細(xì)化”。
與現(xiàn)有研究相比,本文部分結(jié)論與前人研究一致,如宋偉等提出,央地政策均更強(qiáng)調(diào)人工智能技術(shù)應(yīng)用。單曉紅等比較了人工智能產(chǎn)業(yè)區(qū)域(京津冀、長(zhǎng)三角、珠三角)政策,指出這些區(qū)域政策主題均側(cè)重于基礎(chǔ)理論與技術(shù)研究以及相關(guān)產(chǎn)業(yè)智能化升級(jí)。在內(nèi)容擴(kuò)散程度研究方面,有學(xué)者的計(jì)算結(jié)果也同樣表明,遼寧省人工智能政策文本與中央政策文本相似度最高。但需要特別說(shuō)明的是,上述關(guān)于政策主題擴(kuò)散研究對(duì)特定主題的識(shí)別采用的是人工編碼方式,而本文是通過(guò)建立詞典的方式,考慮到政策文本用詞的穩(wěn)定性以及構(gòu)建的主題分析框架不僅僅適用于人工智能政策,也同樣適用于其他對(duì)貫穿創(chuàng)新價(jià)值鏈各環(huán)節(jié)進(jìn)行政策指引的科技政策。因此,本文構(gòu)建的詞典和分析框架具有一定的拓展性,可重復(fù)利用在其他相關(guān)領(lǐng)域政策。
除了上述提到的優(yōu)勢(shì),得益于基于成熟理論構(gòu)建的政策文本主題分析框架,本文核心貢獻(xiàn)在于在政策主題擴(kuò)散分布特征基礎(chǔ)上,進(jìn)一步探討了各級(jí)政府主題傾向與其資源稟賦關(guān)系以及潛在擴(kuò)散機(jī)制,這將有助于更細(xì)粒度揭示政府創(chuàng)新行為。當(dāng)然,本文目前還處于相關(guān)性關(guān)系探索階段,未來(lái)可以在本文結(jié)果基礎(chǔ)上,將內(nèi)容擴(kuò)散程度數(shù)值作為因變量,將潛在影響因素(如科技資源)作為自變量,建立回歸方程進(jìn)行因果推斷研究。