潘娜
改革開放史研究如何應(yīng)對(duì)大數(shù)據(jù)時(shí)代的新挑戰(zhàn)
潘娜
隨著大數(shù)據(jù)浪潮的深卷,人類社會(huì)正在加速進(jìn)入計(jì)算型和智能型社會(huì)。就當(dāng)前的科學(xué)研究而言,大數(shù)據(jù)不僅廣泛應(yīng)用于自然科學(xué)領(lǐng)域,社會(huì)科學(xué)中的許多研究領(lǐng)域也逐漸轉(zhuǎn)變?yōu)閿?shù)據(jù)密集型學(xué)科,包括歷史學(xué)??v觀改革開放近40年的歷史,其中的半部已然是數(shù)字信息技術(shù)驅(qū)動(dòng)我國經(jīng)濟(jì)社會(huì)創(chuàng)新發(fā)展的歷史。數(shù)據(jù)不僅是記錄和測量這段歷史的工具,更是繼續(xù)創(chuàng)造這段歷史的“基礎(chǔ)設(shè)施”。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)收集與數(shù)據(jù)挖掘技術(shù)已經(jīng)發(fā)生了翻天覆地的變化。甚至繼大數(shù)據(jù)之后,信息科學(xué)領(lǐng)域?qū)υ獢?shù)據(jù)(metadata)的認(rèn)知與挖掘正在快速加強(qiáng)人類應(yīng)對(duì)復(fù)雜數(shù)據(jù)世界的能力。這一趨勢使量化歷史研究迎來了前所未有的黃金時(shí)代。但遺憾的是,我們的思維方式和研究方法還沒有跟上這種改變。當(dāng)前,在探討改革開放史學(xué)科建設(shè)和方法體系建設(shè)時(shí),大數(shù)據(jù)已經(jīng)成為一個(gè)無法回避的話題。
大數(shù)據(jù)是計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)發(fā)展到一定階段的必然產(chǎn)物。然而,大數(shù)據(jù)的影響已經(jīng)遠(yuǎn)遠(yuǎn)超出了信息技術(shù)領(lǐng)域,正在深刻改變著整個(gè)人類歷史的發(fā)展邏輯和發(fā)展方向。在這種情況下,改革開放史研究的外部條件和歷史本體均發(fā)生了質(zhì)的變化,傳統(tǒng)的歷史資料、研究范式、學(xué)科發(fā)展正在一步步受到?jīng)_擊與挑戰(zhàn)。
首先,大數(shù)據(jù)時(shí)代改革開放史研究資料巨量化、多源化、數(shù)據(jù)化的新挑戰(zhàn)。一是巨量化。與年代較遠(yuǎn)的歷史相比,改革開放史研究的史料瓶頸并不在于稀缺,反而在其巨量特征上。正如有學(xué)者指出的那樣,雖然改革開放史研究的機(jī)密檔案多未解密,但是通過公開渠道披露信息的速度極快、數(shù)量極大①章百家:《積極開展改革開放史研究》,《中共黨史研究》2009年第1期。。這實(shí)際上加重了研究者收集史料和應(yīng)用史料的難度。二是多源化。隨著互聯(lián)網(wǎng)和智能移動(dòng)終端的普及,歷史資料的來源越來越廣泛,保存的介質(zhì)也更加多元,文本、圖片、音頻、視頻等各種載體的歷史資料豐富多樣。傳統(tǒng)的黨史國史研究往往較多依賴解密檔案和權(quán)威部門文獻(xiàn)這些集中呈現(xiàn)歷史事實(shí)的“直接史料”。而在大數(shù)據(jù)條件下,原本鮮少作為史料使用的歷史信息,一旦數(shù)量達(dá)到一定規(guī)模形成完整信息鏈或相關(guān)性信息網(wǎng),便可以作為更為客觀的歷史資料反映歷史事實(shí),但處理這些海量“新史料”需要借助新的研究方法和分析工具。三是數(shù)據(jù)化。改革開放進(jìn)程中越來越多的歷史信息直接以數(shù)據(jù)的形式產(chǎn)生和存儲(chǔ),非數(shù)據(jù)形式存儲(chǔ)的歷史信息數(shù)據(jù)化的速度在不斷加快,特別是國內(nèi)圖書檔案管理機(jī)構(gòu)和教學(xué)研究機(jī)構(gòu),甚至研究者個(gè)人都在大規(guī)模、系統(tǒng)性地將珍藏史料進(jìn)行數(shù)據(jù)轉(zhuǎn)化。數(shù)據(jù)化意味著計(jì)算機(jī)可識(shí)別、可檢索、可復(fù)制、可計(jì)算,這將從根本上改變史料應(yīng)用的邏輯和效能。
其次,大數(shù)據(jù)時(shí)代改革開放史研究面臨“范式失靈”的危機(jī)。每一個(gè)學(xué)科經(jīng)過一段時(shí)期的發(fā)展和積累,都會(huì)形成本學(xué)科獨(dú)特的內(nèi)在結(jié)構(gòu)和研究模式。例如,改革開放史研究的學(xué)術(shù)共同體在史觀、史料、史學(xué)理論、研究手段、技術(shù)標(biāo)準(zhǔn)等各方面所達(dá)成的基本遵循,構(gòu)成了該學(xué)科的研究范式。研究范式往往具有穩(wěn)定性,但如果研究對(duì)象或研究條件發(fā)生巨大變遷則會(huì)導(dǎo)致“范式失靈”,即傳統(tǒng)研究范式不能提供解決新問題、應(yīng)對(duì)新挑戰(zhàn)的科學(xué)方法和理論預(yù)設(shè)。在大數(shù)據(jù)的沖擊下,改革開放史研究的范式失靈突出體現(xiàn)在兩個(gè)方面。一是傳統(tǒng)研究方法缺少量化研究流程的缺陷被放大,定性研究或抽樣統(tǒng)計(jì)方法正在受到大樣本量化研究的挑戰(zhàn)。傳統(tǒng)歷史研究方法以具體檔案或文獻(xiàn)為支撐,依靠研究者的經(jīng)驗(yàn)判斷和理論思辨得出結(jié)論,不管被大數(shù)據(jù)證實(shí)或證偽,其科學(xué)性和規(guī)范性顯然都難有說服力,難免被詬病為“史觀學(xué)派”。二是傳統(tǒng)的解釋性研究難以揭示歷史規(guī)律的弊端更加顯露。黨史國史領(lǐng)域已有的改革開放史研究成果較多聚焦于對(duì)改革開放緣起、分期、主線等問題的學(xué)理探討以及對(duì)改革開放進(jìn)程中某些爭論的思想交鋒,而對(duì)波瀾壯闊的歷史實(shí)踐和歷史規(guī)律性問題研究則較為薄弱。由于改革開放史與現(xiàn)實(shí)發(fā)展緊密相接,改革開放實(shí)踐的全局性、規(guī)律性問題恰恰是黨和國家現(xiàn)實(shí)決策亟須汲取的歷史經(jīng)驗(yàn)。在大數(shù)據(jù)條件下,挖掘隱藏在海量歷史資料中的規(guī)律性問題在技術(shù)上已經(jīng)具備可行性,而傳統(tǒng)學(xué)科范式缺乏對(duì)技術(shù)發(fā)展的積極回應(yīng),局限性日益突出。
再次,非專業(yè)領(lǐng)域的“數(shù)據(jù)治史”挑戰(zhàn)改革開放史學(xué)科發(fā)展的地位和前景。當(dāng)前,統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)、新聞傳播學(xué)、情報(bào)學(xué)、管理學(xué)等社會(huì)科學(xué)的許多領(lǐng)域已經(jīng)建立了大數(shù)據(jù)的研究體系和挖掘平臺(tái),產(chǎn)出的研究成果也深入改革開放史研究的廣闊領(lǐng)域。例如,清華大學(xué)公共管理學(xué)院建立“政府文獻(xiàn)中心”并研制開發(fā)“政府文獻(xiàn)信息系統(tǒng)”供學(xué)者進(jìn)行量化研究①有學(xué)者基于這一系統(tǒng),對(duì)1978年至2013年的科技政策文獻(xiàn)進(jìn)行數(shù)據(jù)挖掘,在聯(lián)合行文部門之間行文數(shù)量的異常變化中,發(fā)現(xiàn)了科技主管部門與其他部門的合作與沖突關(guān)系,而政府部門間沖突往往是隱蔽化的,不通過大樣本量化研究很難證實(shí)。參見黃萃:《政策文獻(xiàn)量化研究》,科學(xué)出版社,2016年,第202、215—217頁。;北京師范大學(xué)新聞與傳播學(xué)院與大數(shù)據(jù)平臺(tái)公司合作建立視頻大數(shù)據(jù)挖掘研究基地,形成開放性平臺(tái)吸引國內(nèi)外學(xué)者進(jìn)行視頻大數(shù)據(jù)挖掘②《北師大—藍(lán)鷹視頻大數(shù)據(jù)挖掘研究示范基地成立將探索校企合作良好范式》, 《北京師范大學(xué)校報(bào)》2017年3月15日。。在非專業(yè)學(xué)科積極主動(dòng)將大數(shù)據(jù)內(nèi)化為學(xué)科發(fā)展新動(dòng)力的形勢下,黨史國史領(lǐng)域的改革開放史研究對(duì)大數(shù)據(jù)的反應(yīng)相對(duì)遲滯。雖然80年代以來隨著西方計(jì)量史學(xué)研究方法的引入,人口史、經(jīng)濟(jì)史、軍事史、社會(huì)史等領(lǐng)域產(chǎn)生了一些關(guān)于改革開放歷史階段的計(jì)量研究成果,但量化研究遠(yuǎn)未形成主流。此外,在互聯(lián)網(wǎng)開放平臺(tái)上,各種真?zhèn)坞y辨的“歷史檔案” “歷史回憶”“歷史數(shù)據(jù)”往往居心叵測地“抹殺”改革開放的歷史成就。而反駁歷史虛無主義,僅靠邏輯之辯或個(gè)別史料回?fù)簦峙乱搽y以體現(xiàn)學(xué)術(shù)研究的專業(yè)性、嚴(yán)肅性和權(quán)威性??傊?,在大數(shù)據(jù)條件下,非專業(yè)領(lǐng)域計(jì)算歷史、檢驗(yàn)歷史的技術(shù)能力越來越強(qiáng),黨史國史學(xué)科開展改革開放史研究的專業(yè)優(yōu)勢在逐漸減弱,“專家治史”越來越深地受到“數(shù)據(jù)治史”的挑戰(zhàn),研究成果影響力式微、學(xué)科發(fā)展邊緣化的風(fēng)險(xiǎn)日益嚴(yán)峻。
從積極的角度來看,大數(shù)據(jù)沖擊是“倒逼”改革開放史夯實(shí)量化研究基礎(chǔ),逐步趨向于科學(xué)研究范式的寶貴契機(jī)。事實(shí)上,對(duì)歷史全面進(jìn)行量化研究并不是新理念。早在20年代,梁啟超就提出了“歷史統(tǒng)計(jì)學(xué)”的概念,并設(shè)想將統(tǒng)計(jì)學(xué)應(yīng)用到全部史學(xué)研究當(dāng)中③梁啟超認(rèn)為:“欲知?dú)v史真相,決不能單看臺(tái)面上幾個(gè)大人物幾樁大事件便算完結(jié);最要的是看出全個(gè)社會(huì)的活動(dòng)變化。全個(gè)社會(huì)的活動(dòng)變化,要集積起來比較一番才能看見。往往有很小的事,平常人絕不注意者,一旦把他同類的全搜集起來,分別部居一研究,便可以發(fā)現(xiàn)出極新奇的現(xiàn)象而且發(fā)明出極有價(jià)值的原則?!薄读簡⒊返?4卷,北京出版社,1999年,第4045頁。這一設(shè)想實(shí)際上就是大數(shù)據(jù)時(shí)代的計(jì)算特征即全樣本,可見我國史學(xué)研究在理念上是十分超前的。雖然這一超越時(shí)代條件的設(shè)想在實(shí)踐中并沒有實(shí)現(xiàn),但梁啟超史學(xué)研究的量化思維和全景思維直到今天仍然有其前沿啟示性。。時(shí)至今日,這一史學(xué)理想終于具備了時(shí)代條件。當(dāng)前,利用大數(shù)據(jù)開展改革開放史量化研究,既在技術(shù)上具備可能性,又在政策上進(jìn)入窗口期,亟須在史料基礎(chǔ)、范式轉(zhuǎn)換、人才結(jié)構(gòu)等層面提出應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的可行路徑。
第一,呼吁改革開放以來的政府?dāng)?shù)據(jù)實(shí)現(xiàn)全面開放共享。沒有歷史數(shù)據(jù)的全面開放共享,改革開放史的量化研究只能是空談。與傳統(tǒng)計(jì)量史學(xué)“抽樣樣本+數(shù)學(xué)模型”的研究方法不同,大數(shù)據(jù)邏輯是全樣本邏輯,需要盡可能窮盡歷史數(shù)據(jù)。而改革開放以來高質(zhì)量的歷史數(shù)據(jù)大部分都集中在政府部門和行業(yè)機(jī)構(gòu),不是研究者個(gè)人或個(gè)別研究單位收集史料自建數(shù)據(jù)庫就能完成的,需要得到國家層面的支持。當(dāng)前,世界各國都在加快政府?dāng)?shù)據(jù)開放以助力經(jīng)濟(jì)社會(huì)和科學(xué)研究的創(chuàng)新發(fā)展。以美國為例,美國政府的數(shù)據(jù)開放網(wǎng)站發(fā)布的數(shù)據(jù)集已經(jīng)超過19.4萬個(gè)①2017年6月12日,筆者在美國政府?dāng)?shù)據(jù)開放網(wǎng)站以“China”為關(guān)鍵詞進(jìn)行搜索,可以找到1822個(gè)中國主題的數(shù)據(jù)集,涉及領(lǐng)域廣泛。其中,美國國家航空航天局地球觀測系統(tǒng)數(shù)據(jù)與信息系統(tǒng)數(shù)據(jù)中心單獨(dú)設(shè)立了一個(gè)“中國數(shù)據(jù)集”,11個(gè)子集主要呈現(xiàn)了中國20世紀(jì)八九十年代的基礎(chǔ)地理、人口、農(nóng)業(yè)、醫(yī)療、行政區(qū)劃等方面內(nèi)容,為研究者和公眾提供了觀察中國改革開放以來經(jīng)濟(jì)社會(huì)快速發(fā)展的數(shù)據(jù)信息。詳見美國政府?dāng)?shù)據(jù)開放網(wǎng)站 https://catalog.data.gov/ dataset?q=CHINA&sort=score+desc%2C+name+ asc&ext_location=&ext_bbox=&ext_prev_extent=-183.515625%2C-30.751277776257812%2C-17.578125%2C72.81607371878991&page=1.。當(dāng)前,我國正在加快透明政府建設(shè)的步伐。2015年9月,國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,著力解決我國各級(jí)政府?dāng)?shù)據(jù)“不愿開放共享”“不敢開放共享”“不會(huì)開放共享”②單志廣:《抓住“開放共享”這個(gè)關(guān)鍵》,《人民日?qǐng)?bào)》2015年11月20日。的問題,明確提出到2018年底建成國家政府?dāng)?shù)據(jù)統(tǒng)一開放平臺(tái)。借這一政策窗口期,改革開放史專業(yè)領(lǐng)域應(yīng)進(jìn)一步呼吁將政府歷史數(shù)據(jù)開放納入國家大數(shù)據(jù)戰(zhàn)略,并提出全面清理和開放政府歷史數(shù)據(jù)的實(shí)施方案。除了保密期檔案和敏感部門數(shù)據(jù),應(yīng)將改革開放以來大量沉積在各級(jí)政府部門和公共機(jī)構(gòu)的歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)庫化建設(shè),并在一定范圍內(nèi)全面開放共享,不宜聯(lián)網(wǎng)獲取的數(shù)據(jù)也應(yīng)建立完整的信息資源目錄以備研究者申請(qǐng)利用。
第二,充分利用元數(shù)據(jù)建構(gòu)改革開放史量化研究的分布式數(shù)據(jù)關(guān)聯(lián)平臺(tái)。在數(shù)據(jù)開放的基礎(chǔ)上,數(shù)據(jù)關(guān)聯(lián)是更為重要的基礎(chǔ)建設(shè)。實(shí)際上,近年來國內(nèi)相關(guān)研究單位和圖書檔案管理機(jī)構(gòu)基本上都在大規(guī)模、系統(tǒng)性地將庫藏檔案和文獻(xiàn)資料進(jìn)行數(shù)據(jù)庫建設(shè),如“中國共產(chǎn)黨思想理論資源數(shù)據(jù)”“中國共產(chǎn)黨歷史文庫”“人民數(shù)據(jù)庫”“文獻(xiàn)研究室資料數(shù)據(jù)庫”“國家圖書館海外中國問題研究資料”“當(dāng)代中國研究所自建數(shù)據(jù)庫”以及大量由高校和社會(huì)研究機(jī)構(gòu)建設(shè)的歷史檔案資料數(shù)據(jù)庫等。當(dāng)前亟須將分散在全國各地的數(shù)據(jù)庫進(jìn)行平臺(tái)一體化整合,形成數(shù)據(jù)庫聯(lián)盟,這是大數(shù)據(jù)量化研究的重要基礎(chǔ)準(zhǔn)備。在技術(shù)層面,元數(shù)據(jù)的挖掘和運(yùn)用提供了數(shù)據(jù)庫整合的解決路徑。例如,歐洲數(shù)字圖書館和美國數(shù)字公共圖書館都開發(fā)了獨(dú)有的元數(shù)據(jù)模式,將來自于數(shù)千個(gè)文化遺產(chǎn)機(jī)構(gòu) (包括圖書館、檔案館、博物館等)的資料進(jìn)行平臺(tái)性整合與在線共享。而這兩個(gè)機(jī)構(gòu)并不存放這些巨量資料,只是作為“樞紐”為用戶提供在線搜索和利用這些資料的操作平臺(tái)。改革開放史的量化研究亟須建立數(shù)據(jù)庫聯(lián)盟,以分布式數(shù)據(jù)共享平臺(tái)的模式實(shí)現(xiàn)高質(zhì)量的政府?dāng)?shù)據(jù)、行業(yè)數(shù)據(jù)、文獻(xiàn)數(shù)據(jù)一體化整合,從而擴(kuò)大樣本規(guī)模,加強(qiáng)多源數(shù)據(jù)的相關(guān)性研究。當(dāng)前,建立數(shù)據(jù)庫聯(lián)盟的難點(diǎn)不在技術(shù)層面,關(guān)鍵在于學(xué)術(shù)共同體的合作意識(shí)和意愿,能否以開放的心態(tài)實(shí)現(xiàn)改革開放歷史數(shù)據(jù)的共享共建。
第三,改革開放史量化研究的范式轉(zhuǎn)換要與大數(shù)據(jù)挖掘相結(jié)合。在做好基礎(chǔ)數(shù)據(jù)準(zhǔn)備的同時(shí),更為重要的是如何形成善用數(shù)據(jù)的研究范式。這就需要改革開放史研究的學(xué)術(shù)共同體能夠?qū)Ρ緦W(xué)科逐漸轉(zhuǎn)向數(shù)據(jù)密集型學(xué)科的發(fā)展趨勢有清醒認(rèn)識(shí),從而達(dá)成推進(jìn)量化研究主流化的共識(shí)。研究者要能夠突破傳統(tǒng)研究范式的思維慣性和流程缺陷,從學(xué)科規(guī)范的角度將量化研究內(nèi)化為研究流程中一個(gè)不可或缺的步驟,更要將大數(shù)據(jù)挖掘作為檢驗(yàn)研究結(jié)論、發(fā)現(xiàn)歷史事實(shí)、探尋歷史規(guī)律的基本方法。在此基礎(chǔ)上,逐步建構(gòu)歷史數(shù)據(jù)科學(xué)的研究框架和體系。需要特別強(qiáng)調(diào)的是,強(qiáng)化數(shù)據(jù)挖掘的基礎(chǔ)作用并不是否定史學(xué)研究者的主體性,而是為研究者抓住改革開放過程中的大線索、大脈絡(luò)、大節(jié)奏提供客觀的判斷依據(jù)。正如有學(xué)者指出的那樣,“數(shù)據(jù)挖掘始于數(shù)據(jù)”的觀念十分錯(cuò)誤,數(shù)據(jù)的挖掘始于要解決的問題,只有弄清解決什么問題,才知道需要什么樣的數(shù)據(jù),才知道選擇何種數(shù)據(jù)源③陳潭等:《大數(shù)據(jù)時(shí)代的國家治理》,中國社會(huì)科學(xué)出版社,2015年,第49頁。。當(dāng)前,黨史國史學(xué)科的研究重心正在整體向改革開放史轉(zhuǎn)移,很多重點(diǎn)難點(diǎn)問題尚未找到研究突破口, 數(shù)據(jù)挖掘無疑是打破學(xué)科發(fā)展內(nèi)在瓶頸的“他山之石”。
第四,通過改革開放史量化研究積極培養(yǎng)歷史數(shù)據(jù)科學(xué)專業(yè)人才。學(xué)科發(fā)展的根本動(dòng)力在人才,特別是創(chuàng)新型人才。史學(xué)研究者往往并不善于使用有一定技術(shù)門檻的統(tǒng)計(jì)方法和分析工具,這實(shí)際上是制約量化歷史研究精深發(fā)展的最大瓶頸。有研究者考察已有計(jì)量歷史研究成果,發(fā)現(xiàn)大多是頻率分析、回歸分析等基本統(tǒng)計(jì)方法,主成分分析、判別分析和聚類分析等高級(jí)統(tǒng)計(jì)方法在史學(xué)界很少有人用①〔英〕艾瑞克·霍布斯鮑姆著,賈世蘅譯: 《帝國的年代》,第372—373頁。陳爭平:《大數(shù)據(jù)時(shí)代與經(jīng)濟(jì)史計(jì)量研究》,《中國經(jīng)濟(jì)史研究》2016年第6期。。更別說在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘的多維性和復(fù)雜性更抬高了史學(xué)研究者開展改革開放史量化研究的進(jìn)入門檻。短期內(nèi)完成階段性研究項(xiàng)目,可以委托專業(yè)大數(shù)據(jù)公司承接數(shù)據(jù)挖掘的基礎(chǔ)工作,也可以與相關(guān)專業(yè)加強(qiáng)跨學(xué)科合作。但從長遠(yuǎn)來看,改革開放史量化研究的可持續(xù)發(fā)展,最終還是要培養(yǎng)本專業(yè)人才開展長期深入的研究,這就需要積極探索歷史數(shù)據(jù)科學(xué)這一新的專業(yè)領(lǐng)域。當(dāng)前,大數(shù)據(jù)挖掘剛剛起步,產(chǎn)學(xué)研合作培養(yǎng)數(shù)據(jù)科學(xué)專業(yè)人才也在探索之中。例如,2015年,阿里云與八所高校合作開設(shè)“云數(shù)據(jù)與數(shù)據(jù)科學(xué)”專業(yè)方向,未來幾年將逐步擴(kuò)大數(shù)據(jù)科學(xué)教育的覆蓋面。歷史數(shù)據(jù)科學(xué)在史學(xué)領(lǐng)域和數(shù)據(jù)挖掘領(lǐng)域均處于學(xué)科探索的最前沿,應(yīng)當(dāng)通過開展改革開放史量化研究的契機(jī),積極加強(qiáng)產(chǎn)學(xué)研合作,聯(lián)合培養(yǎng)歷史數(shù)據(jù)科學(xué)的專業(yè)人才。
(本文作者 中國社會(huì)科學(xué)院當(dāng)代中國研究所助理研究員 北京 100009)
(責(zé)任編輯 吳志軍)