宋大成 焦鳳枝 范 升
(1.上海大學圖書情報檔案系 上海 200444;2.上海大學管理學院 上海 200444)
自21世紀以來,我國積極參與全球開放科學、開放數(shù)據運動,先后頒布并實施了一系列與科學數(shù)據開放共享相關的政策,如《科學數(shù)據管理辦法》《國家重點基礎研究發(fā)展計劃資源環(huán)境領域條目數(shù)據匯交暫行辦法》《政務信息資源共享管理暫行辦法》《中國科學院科學數(shù)據管理與開放共享辦法》等。這些政策文件規(guī)范促進了我國科學數(shù)據開放共享活動的發(fā)展。目前,國內已經對國內外科學數(shù)據開放共享政策內容[1-4]、框架體系[5-6]、利益相關者[7]以及與個人數(shù)據保護的政策協(xié)同[8]等主題,運用內容分析法、文本分析等定性研究方法進行了探索性研究,還利用層次分析法構建了科學數(shù)據開放政策評估指標體系[9],但我國科學數(shù)據開放共享政策的量化評價研究相對不足。為了更全面、深入了解我國科學數(shù)據開放共享政策內容與實施效果,本文結合利用文本數(shù)據挖掘、PMC指數(shù)模型對我國科學數(shù)據開放共享政策量化評價,以便為完善我國科學數(shù)據開放共享政策提供參考。
我國科學數(shù)據開放共享政策不僅包括國家層面出臺的相關政策,而且不同省市也依據國家層面的指導思想制定相應的地方政策[10]。由于國家層面和省市級層面制定的政策存在一定的差異性,并且科學數(shù)據開放共享政策類型范圍廣、種類多,因此本文選取國家層面出臺的科學數(shù)據開放共享相關政策,從而保持政策研究層面上的一致性以及滿足研究對象的普適性和權威性。
1.1政策文本的選擇本文在收集科學數(shù)據開放共享政策文本時,為了保證政策文本的查全率,采用以下檢索策略:①通過文獻調研的方式對我國有關科學數(shù)據開放共享政策的文獻進行檢索,從相關文獻內容中收集我國科學數(shù)據開放共享相關政策。②通過政府官方網站中數(shù)據文件庫、政府信息公開、公報、政策專題等查檢索相關政策文件。③通過訪問“北大法寶”等專業(yè)數(shù)據庫檢索相關政策文本。④登陸我國為促進科學數(shù)據開放共享實踐而建立的科學數(shù)據開放共享的網站,將其中與科學數(shù)據開放共享相關的實施細則、技術標準、實施辦法等政策文本提取出來。⑤利用百度、Google等搜索引擎進行檢索,查缺補漏。通過以上檢索策略,最終確定185項科學數(shù)據開放共享政策作為政策分析樣本(檢索時間截至2021年5月1日)。
1.2政策文本的篩選為了避免政策文本的重復收集或無效收集,保證政策文本的查準率,本文在對科學數(shù)據開放共享政策文本篩選過程遵循及時性、相關性等原則,以確保所搜集的政策文本具有科學合理性和代表性。①及時性原則。由于我國科學數(shù)據開放共享實踐活動已經開展多年,其中有些政策文本進行相應的更新修訂,因此所以選取最新的政策作為本文的研究對象。②相關性原則。為了保證所選政策文本與科學數(shù)據開放共享密切相關,通過對政策文本全文瀏覽從而挑選出符合研究主題的政策,該過程由兩名研究生各自獨立完成,然后將初步篩選后的政策文本進行歸納合并,對討論意見不一致的政策文本再次進行商榷。此外,本次政策文本的選取不選取討論稿、征求意見稿、函、批復等一些非正式的政策文本,從而保證政策文本選取的權威性。按照以上原則篩選整理后,最終確定114條具有代表性的科學數(shù)據開放共享政策文本作為本次的研究對象,時間跨度為2001年—2020年,政策文本形式包括辦法、意見、細則、方案、規(guī)定、通知、措施、規(guī)劃、計劃等13種,政策文本內容共計20余萬字。
PMC(Policy Modeling Consistency)指數(shù)模型可以被定義為一種學術或實證分析研究方法,它通過以不同的理論為基礎,定量或定性模型為支撐,由此來科學地評估任何政策發(fā)布的原因以及對社會產生的影響[11]。PMC指數(shù)模型作為政策量化評價的方法,通常以多指標構建來衡量政策建模過程中的一致性,它的構建涉及9個主變量和若干個子變量,研究各個子變量對整體變化的累積效應。它通過多指標構建來評價政策制定的一致性,使用三維可視化空間構造的方法來展現(xiàn)政策的優(yōu)劣,這也是PMC指數(shù)模型區(qū)別于其他政策評估最大的不同。一般來說,PMC指數(shù)模型包括以下四個步驟(見圖1):①變量選取及參數(shù)識別;②多投入產出表構建;③PMC 指數(shù)計算;④PMC 曲面繪制。
圖1 PMC指數(shù)模型的構建
2.1變量選取及參數(shù)識別在構建科學數(shù)據開放共享政策評價模型之前,需要考慮與科學數(shù)據開放共享政策所有相關和可能相關的變量。本文采用內容分析和文本數(shù)據挖掘的方法,利用ROSTCM文本挖掘分析軟件來提取政策文本中的高頻詞,去掉無明顯意義的高頻詞,如“科學數(shù)據”“共享”,將其余高頻詞歸納整理后得到 “政策內容”主變量與子變量,并在現(xiàn)有研究基礎上建立并調整其他8個主變量以及各主變量下的子變量,見圖2。
圖2 變量選取的過程
根據Omnia Mobilis假設,PMC指數(shù)模型反映相關政策之間存在的內部關系,需要從政策動態(tài)發(fā)展的角度來看待其基本屬性,因此PMC指數(shù)模型不能孤立地考慮一些變量,需要廣泛、全面地考慮所有與其相關的變量[12]。本文參考Ruiz Estrad對政策量化評價設計的經典變量,用“政策性質”“政策時效”這兩個主變量以判斷某一條科學數(shù)據開放共享政策的相關性質以及政策的有效時長,根據我國政府部門文件的有關規(guī)定,政策文件的有效期一般為3~5年,我們將政策文件作用時效為5年以上的政策定義為長期政策,3~5年為中期,3年以下為短期[13];由于科學數(shù)據開放共享政策制定者目的不同,不同政策作用的領域也有所不同,因此設置“政策領域”用來判斷政策制定的作用領域;對我國國家層面頒布的科學數(shù)據開放共享政策采用內容分析和文本數(shù)據挖掘的方法提取高頻詞,通過對政策文本中的高頻詞進行整合形成PMC指數(shù)模型中“政策內容”變量;為了更加清楚地了解科學數(shù)據開放共享目標是如何通過具體的方法或手段實現(xiàn)的,利用政策工具理論將科學數(shù)據開放共享政策工具劃分為供給型、需求型及環(huán)境型,從而設置“政策工具”變量;由于不同科學數(shù)據開放共享政策目標需要涉及相關作用對象來實現(xiàn),因此將政策作用的對象設置成“政策客體”變量;科學數(shù)據開放共享政策的制定涉及科學數(shù)據的產生到消亡所經歷的不同階段,因此在前人研究的基礎上將科學數(shù)據的生命周期劃分為創(chuàng)建與匯交、組織與存儲、共享與傳播、增值與利用、監(jiān)督與評價5個階段,并設置“生命周期”變量;為了更好地對科學數(shù)據開放共享政策整體制定的情況做出判斷,以及了解相關政策整體的執(zhí)行效力,因此設置“政策評價”“效力級別”這兩個子變量來對科學數(shù)據開放共享政策做出評價及其政策效力做出判斷。因此,本文在現(xiàn)有相關研究基礎上調整并建立9個子變量和42個子變量。其中,這9個子變量分別為政策性質(X1)、政策時效(X2)、政策領域(X3)、政策內容(X4)、政策工具(X5)、政策客體(X6)、政策生命周期(X7)、政策評價(X8)、效力級別(X9),具體內容見表1。
表1 科學數(shù)據開放共享政策量化評價子變量的選取
2.2子變量參數(shù)的設定PMC指數(shù)模型的核心思想是需要盡可能地考慮多的相關變量,而不能忽視一些相關變量的作用,因此在對所有的子變量進行選擇和分類之后,需要對每個子變量的參數(shù)進行設置。為了保證所有的子變量具有相同的重要程度和權重,需要對每個子變量采用二進制0或1賦值。具體來說,如果科學數(shù)據開放共享政策文本中涉及相關子變量的內容,則該子變量的參數(shù)為1,否則為0(見表2)。
表2 子變量參數(shù)的設定
續(xù)表2 子變量參數(shù)的設定
續(xù)表2 子變量參數(shù)的設定
2.3多投入產出表構建為了更好地量化各子變量的數(shù)值,PMC指數(shù)模型第三步需要建立多投入產出表(見表3)。多投入產出表作為數(shù)據庫分析框架的另一種表現(xiàn)形式,允許存儲大量數(shù)據來度量單個變量,這些單一變量從總的角度反映某項政策的演變,所以它被用來設計評估不同類型的變量[14]。多投入產出表是衡量科學數(shù)據開放共享政策的基本分析框架,其中每個主變量由多個子變量組成。
表3 多投入產出表
2.4PMC指數(shù)計算PMC指數(shù)的計算通常通過以下4個步驟:①將科學數(shù)據開放共享政策中9個主變量和42個子變量放入多輸入輸出表中;②利用文本挖掘的方法并結合公式(1)和公式(2),將同一主變量下的多個子變量賦值;③根據公式(3)分別計算每個主變量;④根據公式(4)計算出亟待評價的科學數(shù)據開放共享相關政策的PMC指數(shù),即所有主變量之和相加。
X:N[0,1]
(1)
X={PR:[0,1]}
(2)
(3)
其中,i為子變量,j為子變量
(4)
最后,根據現(xiàn)有的研究PMC指數(shù)可以分為4個一致性級別[14](見表4):當PMC指數(shù)的得分在0~3.9之間時,則該政策是低一致性政策,評分等級為不及格;如果分數(shù)在4~5.9之間,則是可接受的一致性政策,評分等級為及格;如果分數(shù)在6~7.9之間,則是較好的一致性政策,評分等級為良好;如果分數(shù)在8~9.0之間,則是完美的一致性政策,評分等級為優(yōu)秀。即PMC指數(shù)的值越大,則等級越高。
表4 政策等級劃分
2.5PMC曲面繪制為了將PMC矩陣的結果以可視化方式呈現(xiàn),為此需要構建PMC曲面。PMC曲面是一個3×3的矩陣,它保留表1中的9個主變量的結果,這9個主變量可以建立一個對稱的立體曲面。如果PMC矩陣保持相同的行數(shù)和列數(shù),那么PMC曲面可以顯示為對稱視圖。根據公式(5)來繪制PMC曲面,可以更加直觀地以圖形化的方式看出某項科學數(shù)據開放共享政策的優(yōu)劣程度,從而判斷該政策的評價效果。
(5)
在構建PMC指數(shù)模型之后,需要對科學數(shù)據開放共享政策做進一步的量化評價,科學數(shù)據開放共享政策量化評價分為四個階段:樣本政策的選取、PMC指數(shù)計算、PMC曲面繪制、政策量化評價。
3.1樣本政策的選取PMC指數(shù)模型的主旨是不忽略任何一個可能相關的變量,因而在實證研究選取政策樣本時不必遵循特定的規(guī)律,在選取政策時不必按照政策工具的類型、發(fā)布機構和效力級別等維度進行劃分,如果主觀地選取樣本,這樣無疑會帶來評估模型的主觀偏差[20]。本文對114項科學數(shù)據開放共享政策通過簡單隨機抽樣的方法,選取我國國家部門出臺的六項科學數(shù)據開放共享政策(見表5)。
表5 科學數(shù)據開放共享政策樣本
3.2PMC指數(shù)計算依據上述子變量和子變量的選取以及參數(shù)的變量參數(shù)的設定,建立六項科學數(shù)據開放共享政策的多投入產出表(見表6)。
表6 六項科學數(shù)據開放共享政策的多投入產出表
依據公式(4),分別計算出政策P1、P2、P3、P4、P5、P6的PMC指數(shù),這六項不同政策樣本的PMC指數(shù)(見表7)。
表7 六項科學數(shù)據開放共享政策樣本的PMC指數(shù)
依據表4中關于政策等級劃分,對上述六項科學數(shù)據開放共享政策樣本進行政策等級認定(見表8)。
表8 六項科學數(shù)據開放共享政策等級評價
3.3PMC曲面繪制依據公式(5),按照PMC指數(shù)計算的結果對六項科學數(shù)據開放共享政策樣本進行排列,得出3×3的PMC矩陣(見表9)。
表9 六項科學數(shù)據開放共享政策PMC矩陣
根據公式(5)繪制PMC曲面,可以更加直觀地從圖形化的方式看出某項科學數(shù)據開放共享政策的優(yōu)劣程度,從而判斷其政策的評價效果。下面以P1為例繪制出政策曲面圖(見圖3),其余政策曲面圖可以依照同樣的方法得到,其中矩陣的橫坐標為圖中的123,縱坐標為系列123。
圖3 科學數(shù)據開放共享政策P1的曲面圖
為了更加直觀地顯示各項科學數(shù)據開放共享政策的整體得分情況,因此選取三項得分變化最明顯的政策(P1、P3、P5),利用戴布拉圖進行展示(見圖4)。通過戴布拉圖可以直觀地觀察出這三項科學數(shù)據開放共享政策得分的整體變動情況,其中變動明顯的指標為政策時效、政策領域、政策內容、政策工具、政策客體、效力級別;相對而言變化較小的指標為政策性質、生命周期、政策評價。
圖4 科學數(shù)據開放共享政策的戴布拉圖
3.4政策量化評價
3.4.1 政策整體評價 通過對上述六項科學數(shù)據開放共享政策計算其PMC指數(shù)并繪制相應的曲面,按照得分的高低將六項政策排序為:P5>P2>P6>P1>P4>P3,并根據表4中政策等級劃分,因此我們可以將這六項劃分為3個不同的等級:①I級政策:政策得分在8~9分之間,政策等級為優(yōu)秀,如P5;②II級政策:政策得分在6~8分之間,政策等級為良好,如P2、P6、P1、P4;③III級政策:政策得分在4~6分之間,政策等級為合格,如P3。從總體上來看,國務院出臺的政策(P5)得分大于其他部門出臺的政策(P2、P6、P1、P4、P5),各部門政策得分高低的原因可能是政策作用的時長、政策的專指性等原因,P5雖然和P2、P6、P1、P4同為國家部門規(guī)章政策,但P5主要是3年內的短期政策,政策時效性比較短,此外該政策的領域范圍僅涉及社會和科技,涉及范圍比較狹窄,并且該政策主要針對國家科技基礎條件平臺,內容上相對于其他政策而言不夠全面。由此可見,政策的效力級別越高,PMC指數(shù)的得分越高,如P5;政策的專指性越強,PMC指數(shù)的得分越低,如P3;同一效力級別的政策得分的高低取決于政策時效、政策領域、政策內容等變量。
3.4.2 各項政策評價 結合科學數(shù)據開放共享政策的PMC指數(shù)及相應的曲面圖,對六項科學數(shù)據開放共享政策依據政策級別以及得分的高低對其依次進行分析(見圖5)。
圖5 科學數(shù)據開放共享政策的得分柱狀圖
a.I級政策。P5的得分為8.29,排名第一 ,政策等級為優(yōu)秀。在具體的變量評分中,該政策分別在X2政策時效、X5政策工具、X6政策客體、X7生命周期、X8政策評價分別達到最高值,因為國務院辦公廳出臺的《關于印發(fā)科學數(shù)據管理辦法的通知》是關于科學數(shù)據開放共享的長期指導政策,其政策時效、效力級別達到最高;且該項政策首次明確國務院科學技術行政部門、國務院相關部門、省級人民政府相關部門、科研院所、高等院校和企業(yè)、科學數(shù)據中心等政策客體在科學數(shù)據生命周期過程中以及在“保密與安全”環(huán)節(jié)上的職責與做法[21],采用供給型、需求型、環(huán)境型政策工具來提高我國科學數(shù)據開放共享水平,即該項政策在政策客體、生命周期、政策工具變量中評分明顯高于平均水平,所以該項政策的評級為優(yōu)秀。
b.II級政策。P2、P6、P1、P4這四項政策等級均為良好。P2的得分為7.96,排名第2,它是由中國地震局頒布的關于地震科學數(shù)據的中長期管理辦法,涉及地震科學數(shù)據的產出與匯交、管理與服務、共享與使用等不同生命周期的階段的管理,且該政策條文對政策時效、政策內容以及政策的作用對象做出詳盡的闡述與說明,在政策性質、政策時效、政策領域、政策內容高于全部政策的均值,但是該政策缺乏在需求層面拉動科學數(shù)據開放共享活動的開展,沒有涉及鼓勵引導、示范工程等方面,即缺少對需求型政策工具的使用,因此政策工具低于均值。P6的得分為6.69,排名第3,隨著人工智能、工業(yè)互聯(lián)網以及5G技術的發(fā)展,為促進工業(yè)大數(shù)據的開發(fā)利用和大數(shù)據在工業(yè)領域中的應用,因此工業(yè)和信息化部出臺中長期政策以貫徹落實工業(yè)大數(shù)據發(fā)展戰(zhàn)略。該項政策內容涉及數(shù)據匯聚、數(shù)據共享、數(shù)據應用、數(shù)據治理、數(shù)據安全、組織保障等多方面規(guī)定,采用多種政策工具手段從而實現(xiàn)并完善我國工業(yè)大數(shù)據生態(tài)體系,在政策時效、政策內容、政策工具、政策評價明顯高于均值,但是該項政策僅涉及政府和企業(yè)這兩個政策客體,不涉及公眾、非盈利組織等其他政策客體,且效力級別相對于其他政策而言較低,因此在政策客體、效力級別這兩項變量的得分低于均值。P1的得分為6.9,排名第4,它是由中國氣象局根據《中華人民共和國氣象法》有關規(guī)定制定的中長期管理辦法,涉及氣象數(shù)據資料的共享、使用、保管以及違反規(guī)定的罰責等方面,且該項政策對涉及不同客體(政府部門、科研單位、企業(yè)、公眾等)的職責做出明確的說明,該項政策在政策時效、政策客體、政策評價等方面明顯高于政策的平均水平,但是該項政策并沒有涉及科學創(chuàng)新、基礎設施以及數(shù)據安全,且在實現(xiàn)政策目標上并沒有涉及需求型工具的使用,即政策內容、政策工具這兩項的得分低于均值。P4的得分為6.69,排名第5,該項政策是由交通運輸部辦公廳發(fā)布的中短期規(guī)劃,主要實現(xiàn)建立健全交通運輸業(yè)數(shù)據資源開放共享機制和完善開放共享技術體系,打通全行業(yè)之間的壁壘,建成互聯(lián)互通的開放共享平臺,打造行業(yè)數(shù)據資源開放共享示范應用,涉及經濟、社會、科技等方面,因此在政策性質、政策時效、政策內容、效力級別低于均值,但是該項政策在政策工具、政策評價這兩項變量的得分高于均值。
c.III級政策。P3的得分為4.95,排名第6,政策等級為合格。其中,政策時效、政策領域、政策內容、政策客體這幾項變量的評分偏低,主要是因為該項政策主要針對的是三年內的短期政策,政策時效性比較短,影響力比較低,即政策時效是所有變量中評分最低的參數(shù);且該政策的內容具有高度的專指性,僅涉及科學數(shù)據的基礎設施、科學創(chuàng)新、資源共享這三方面內容;政策領域范圍僅涉及社會和科技,涉及范圍比較狹窄,即政策領域、政策內容這兩項變量的評分比較低;此外,該項政策客體涉及的作用對象為政府和非盈利組織,不涉及其他的作用對象,即政策客體評分也較低;另外,該項政策的政策性質、政策工具、生命周期等其他變量的評分都低于所有政策的均值,所以該項政策的評級為合格。
本文以2001-2020年我國國家層面出臺的114項科學數(shù)據開放共享政策為研究對象,利用內容分析、文本挖掘方法歸納、合并高頻詞,并在已有學者研究基礎上構建科學開放共享政策的評價模型,從而對六項科學數(shù)據開放共享政策文本進行量化分析。研究結果表明:①選取的六項政策按照等級劃分,其中P5處于優(yōu)秀水平,P1、P2、P4、P6處于良好水平,P3處于及格水平,政策得分高低的主要原因是由于政策性質、政策內容、政策工具以及效力級別等指標的影響。②科學數(shù)據開放共享政策整體質量表現(xiàn)良好,但所有政策的作用效力均達不到法律法規(guī)級別,科學數(shù)據開放共享政策的法律法規(guī)有待完善。③科學數(shù)據開放共享政策的級別效力水平越高,PMC指數(shù)的得分也越高,如《關于印發(fā)科學數(shù)據管理辦法的通知》;專項政策涉及的調控范圍比較小,但政策專指性卻較強,如《關于進一步推動國家科技基礎條件平臺開放共享工作的通知》?;诖?,本文提出以下幾點建議:
第一,政策性質層面。當前的科學數(shù)據開放共享政策主要體現(xiàn)在建議和描述層面,預測、反饋、監(jiān)督作用居中,而引導作用不足。一方面,在政策制定時應適當增加引導性的內容。如在某些政策中,大篇幅都在強調如何管理科學數(shù)據,而涉及科學數(shù)據開放共享的內容較少,缺乏引導社會更多人開放共享數(shù)據。另一方面,科學數(shù)據開放共享政策制定的目的是促進科學數(shù)據開放共享的實踐,因此,應適當增加監(jiān)督方面的內容,比如增加設置監(jiān)督機構等類似內容。
第二,政策內容層面。目前大部分科學數(shù)據開放共享政策內容涉及社會發(fā)展、資源共享與經濟建設等方面,往往忽視科學創(chuàng)新和基礎設施等內容。但是在科學數(shù)據開放共享整個活動過程中,基礎設施是基礎,是科學數(shù)據開放共享實踐的重要保障;科學數(shù)據開放共享最重要的價值是創(chuàng)新,因此,需要拓寬科學數(shù)據開放共享政策內容,重視開放基礎設施和科學創(chuàng)新科技創(chuàng)新的政策內容,確??茖W數(shù)據開放共享活動行之有效。
第三,政策工具層面。應該加強科學數(shù)據開放共享政策工具的設計與使用,尤其是將供給型工具、需求型工具、環(huán)境型工具將這三種工具以組合的方式對科學數(shù)據開放共享政策進行設計,以此促進科學數(shù)據開放共享政策的實施,發(fā)揮出政策制定的作用與價值。
第四,政策效力級別層面。我國科學數(shù)據開放共享政策大部分屬于部門規(guī)章,目前尚未出臺科學數(shù)據開放共享政策相關的法律法規(guī),未來我國相關政策法規(guī)的制定應該結合科學數(shù)據開放共享不同階段的具體情況,以及出臺相應的配套政策來優(yōu)化我國科學數(shù)據開放共享環(huán)境,從而實現(xiàn)科學數(shù)據價值的最大化。