• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    中國實(shí)證社會科學(xué)的演進(jìn)及使用大數(shù)據(jù)研究之現(xiàn)狀與挑戰(zhàn)〔*〕

    2018-05-24 06:46:51何曉斌
    學(xué)術(shù)界 2018年5期
    關(guān)鍵詞:社會科學(xué)論文期刊

    ○ 何曉斌, 李 強(qiáng)

    (清華大學(xué) 社會學(xué)系, 北京 100084)

    實(shí)證社會科學(xué)研究是指基于實(shí)際調(diào)查或者訪談資料來驗(yàn)證理論假設(shè)或者構(gòu)建理論的研究范式。區(qū)別于純理論思辨式的傳統(tǒng)社會科學(xué)研究,實(shí)證社會科學(xué)研究的重要基礎(chǔ)是獲得有代表性的研究對象的詳實(shí)數(shù)據(jù)。改革開放以來,我國的實(shí)證社會科學(xué)是在開展全國性社會調(diào)查和學(xué)習(xí)國外實(shí)證社會科學(xué)研究方法及技術(shù)的基礎(chǔ)上發(fā)展起來的。

    一、 改革開放以來中國實(shí)證社會科學(xué)的演進(jìn)及其數(shù)據(jù)來源

    1978年以后,隨著“實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)”的確立,隨著國家統(tǒng)計(jì)機(jī)構(gòu)的建立,我國開始實(shí)行普查制度,先后開展了四次人口普查:1982年的第三次全國人口普查,1990年第四次全國人口普查,2000年的第五次全國人口普查,以及2010年的第六次全國人口普查,獲得了一些重要的基礎(chǔ)數(shù)據(jù)?!?〕除了人口普查,在其他專題領(lǐng)域如農(nóng)村、經(jīng)濟(jì)、企業(yè)、住房等也展開了各種各樣的普查和社會調(diào)查,比如1981年對全國農(nóng)業(yè)資源的調(diào)查; 1982年春對工人階級狀況的全國范圍的大規(guī)模調(diào)查;1985年和1986年兩次生育力的抽樣調(diào)查;1986年和1995年第二次、第三次全國工業(yè)普查;1984年開始?xì)v時(shí)兩年完成的第一次城鎮(zhèn)房屋普查;1987年和2006年的第一次和第二次全國殘疾人抽樣調(diào)查;1997年和2007年進(jìn)行的兩次全國農(nóng)業(yè)普查;2004年、2008年和2013年分別進(jìn)行了三次全國經(jīng)濟(jì)普查;1993年和2003年的兩次全國第三產(chǎn)業(yè)普查?!?〕這些普查和調(diào)查都為新時(shí)期黨和國家戰(zhàn)略、方針、政策的制定提供了重要依據(jù)。同時(shí),在社會科學(xué)界也重新興起了社會調(diào)查之風(fēng)。以社會學(xué)界的調(diào)查為例,改革開放以來,在國家相關(guān)部門和機(jī)構(gòu)的支持下,一大批社會學(xué)者針對中國社會的方方面面做了詳細(xì)深入的研究,比如1982年費(fèi)孝通先生倡導(dǎo)的對小城鎮(zhèn)的實(shí)地調(diào)查研究;1992年到20世紀(jì)末,中國人民大學(xué)社會學(xué)系組織的多次全國規(guī)模抽樣問卷調(diào)查;1993年,復(fù)旦大學(xué)社會學(xué)系和上海浦東新區(qū)社會發(fā)展局合作開展的社會變遷研究;2004年,北京市社會科學(xué)院組織的“城區(qū)角落”的調(diào)查;1999年,陸學(xué)藝教授主持的中國社會科學(xué)院社會學(xué)所對中國社會分層和流動(dòng)問題的大規(guī)模專題調(diào)查,產(chǎn)生了一系列有影響的有關(guān)國家社會經(jīng)濟(jì)問題的重要報(bào)告、實(shí)證論文和專著?!?〕此外,由國家和知名高??蒲袡C(jī)構(gòu)主導(dǎo)的一些社會調(diào)查,特別是過去十幾年來一些大型綜合性全國社會調(diào)查的開展和數(shù)據(jù)免費(fèi)對外開放,為中國實(shí)證社會科學(xué)研究提供了重要數(shù)據(jù)來源(參見下頁表1)。

    同時(shí),在中國社會科學(xué)界的對外交流和合作研究中,特別是對國外社會科學(xué)研究方法的學(xué)習(xí)和推廣,使得高級統(tǒng)計(jì)方法和工具在實(shí)證社會科學(xué)研究中得到大量應(yīng)用,并形成了比較成熟的研究范式?!?〕這些實(shí)證社會科學(xué)的研究成果,基本上都是通過目前實(shí)證社會科學(xué)常用的數(shù)據(jù)收集手段如問卷調(diào)查法、訪談法、實(shí)驗(yàn)法和觀察法等收集、清理之后,輔之以計(jì)算機(jī)相關(guān)統(tǒng)計(jì)軟件來計(jì)算和建模完成的。這些實(shí)證社會科學(xué)研究論文使用的數(shù)據(jù)來源往往可以分為這么幾類:一是研究者自己組織收集的大型社會調(diào)查數(shù)據(jù)(問卷、實(shí)驗(yàn)、量表等)。這類數(shù)據(jù)收集手段需要花費(fèi)的經(jīng)費(fèi)和時(shí)間成本都很高,研究者常常只有得到國家基金和各級政府部門的經(jīng)費(fèi)支持才能完成數(shù)據(jù)收集。二是中央、地方黨和政府機(jī)構(gòu)公開的數(shù)據(jù),包括統(tǒng)計(jì)年鑒、年報(bào)、簡報(bào),會議記錄等官方數(shù)據(jù)和資料來源。隨著我國電子政務(wù)公開工作的推進(jìn),這類數(shù)據(jù)的獲取來源也越來越多,成本變低。三是國內(nèi)外學(xué)術(shù)科研機(jī)構(gòu)公開的數(shù)據(jù)庫,比如北京大學(xué)中國社會科學(xué)調(diào)查中心組織收集的中國家庭調(diào)查追蹤數(shù)據(jù),中國人民大學(xué)中國調(diào)查與數(shù)據(jù)中心組織收集的中國綜合社會調(diào)查數(shù)據(jù)等。這種科研機(jī)構(gòu)提供的數(shù)據(jù)質(zhì)量高,而且是免費(fèi)的,目前成為很多實(shí)證社會科學(xué)研究者的數(shù)據(jù)來源。四是市場上可以購買的數(shù)據(jù)庫,比如國內(nèi)外上市公司數(shù)據(jù)庫,這些數(shù)據(jù)庫成為經(jīng)濟(jì)管理類實(shí)證研究者的重要數(shù)據(jù)來源,但是要購買這些數(shù)據(jù)庫的成本很高,往往在幾十萬甚至上百萬元以上。

    表1改革開放以來社會科學(xué)領(lǐng)域比較知名的中國綜合性社會調(diào)查〔5〕

    資料來源:筆者根據(jù)水延凱主編的《中國社會調(diào)查簡史》(中國人民大學(xué)出版社,2017年)第361-363頁及其他公開資料整理。

    近年來,隨著大數(shù)據(jù)概念的出現(xiàn),〔6〕大數(shù)據(jù)的重要性和應(yīng)用前景隨著各行各業(yè)的廣泛討論已經(jīng)得到了商業(yè)、政府部門和科研機(jī)構(gòu)的高度關(guān)注?!?〕大數(shù)據(jù)受到關(guān)注是過去二十多年來以互聯(lián)網(wǎng)為基礎(chǔ)的信息科技高速發(fā)展和廣泛應(yīng)用的結(jié)果,特別是移動(dòng)互聯(lián)網(wǎng)的發(fā)展和移動(dòng)設(shè)備的普及使得人類每時(shí)每刻都在生產(chǎn)和儲存數(shù)量驚人的數(shù)據(jù)。截至2020年,全世界每人每天平均將產(chǎn)生1.5GB的數(shù)據(jù);每臺無人駕駛車每天將產(chǎn)生4TB的數(shù)據(jù);一家小型工廠平均每天能產(chǎn)生高達(dá)1PB的數(shù)據(jù)?!?〕《大數(shù)據(jù)時(shí)代》的作者維克托認(rèn)為大數(shù)據(jù)是一種可以繞過隨機(jī)采樣而處理分析全部數(shù)據(jù)獲得認(rèn)知的一種新的方法和思維模式,大數(shù)據(jù)并不是絕對意義上的數(shù)量“大”。〔9〕本文所討論的大數(shù)據(jù),是指主要通過互聯(lián)網(wǎng)渠道自動(dòng)收集的,包含全體研究對象的大量數(shù)據(jù)的集合?!?0〕比如,所有手機(jī)用戶某一時(shí)期的使用行為數(shù)據(jù),春節(jié)期間所有中國人的出境旅游的基本數(shù)據(jù),政府官方網(wǎng)站上的所有留言數(shù)據(jù)等。這些新的數(shù)據(jù)來源的出現(xiàn),以及海量的圖書、報(bào)紙、期刊、照片、繪本、樂曲、視頻等人文資料被數(shù)據(jù)化,并在互聯(lián)網(wǎng)上提供給研究者存取和利用,使得原來很難或者無法量化的社會科學(xué)問題的研究成為可能。

    就像20世紀(jì)60年代計(jì)算機(jī)技術(shù)和統(tǒng)計(jì)分析工具的出現(xiàn)促進(jìn)了社會科學(xué)的量化和實(shí)證研究一樣,〔11〕大數(shù)據(jù)時(shí)代的來臨和新處理工具的逐步出現(xiàn)也可能會對目前社會科學(xué)的研究范式和方法帶來新的沖擊。雖然大數(shù)據(jù)在商業(yè)領(lǐng)域的研究和應(yīng)用已經(jīng)非常活躍,〔12〕但是大數(shù)據(jù)在中國社會科學(xué)研究中的應(yīng)用現(xiàn)狀到底如何,碰到了哪些挑戰(zhàn),有何對策,這些問題卻很少有人做深入具體的分析。

    二、中國實(shí)證社會科學(xué)使用大數(shù)據(jù)的研究成果現(xiàn)狀

    為了全面深入把握使用大數(shù)據(jù)的實(shí)證社會科學(xué)研究在中國的發(fā)展情況,同時(shí)兼與美國實(shí)證社會科學(xué)研究作比較,筆者專門瀏覽了2006—2017年發(fā)表在國內(nèi)三大著名社會科學(xué)期刊《經(jīng)濟(jì)研究》《社會學(xué)研究》《政治學(xué)研究》,以及美國三大著名社會科學(xué)期刊 American Economic Review(AER), American Sociological Review(ASR), American Political Science Review(APSR)上的所有研究論文,對這些研究論文的數(shù)量,是否采用傳統(tǒng)數(shù)據(jù)開展實(shí)證社會科學(xué)的研究,是否以大數(shù)據(jù)作為實(shí)證研究的數(shù)據(jù)來源等情況作了認(rèn)真統(tǒng)計(jì)。這里的傳統(tǒng)數(shù)據(jù)是指使用社會調(diào)查、訪談、實(shí)驗(yàn)、量表等形式獲得的數(shù)據(jù),而這里的大數(shù)據(jù)指的是從互聯(lián)網(wǎng)網(wǎng)站、銀行交易系統(tǒng)、衛(wèi)星傳感器等渠道獲得的以研究對象全部數(shù)據(jù)作為實(shí)證研究論文全部或者部分論證來源的數(shù)據(jù)類型?!?3〕統(tǒng)計(jì)結(jié)果如表2。

    表2中國三大社會科學(xué)期刊實(shí)證研究論文統(tǒng)計(jì)〔14〕

    資料來源:筆者根據(jù)三大期刊發(fā)表的論文人工統(tǒng)計(jì)。

    從上述統(tǒng)計(jì)結(jié)果來看,以傳統(tǒng)數(shù)據(jù)為基礎(chǔ)進(jìn)行的實(shí)證研究比例最高的是經(jīng)濟(jì)學(xué),2006—2017年采用傳統(tǒng)數(shù)據(jù)為基礎(chǔ)發(fā)表的實(shí)證論文占所有發(fā)表論文總量的比例平均為66%(最低年份的比例為59%,最高年份的比例為80%),也就是說,目前中國大部分經(jīng)濟(jì)學(xué)的研究都采用計(jì)量和統(tǒng)計(jì)模型為立論基礎(chǔ)的實(shí)證主義研究范式。比例次高的是社會學(xué),12年中以傳統(tǒng)數(shù)據(jù)為基礎(chǔ)發(fā)表的社會學(xué)研究論文平均占到28%(最低年份的比例為16%,最高年份的比例為41%)。比例最低的是政治學(xué),平均只有7%(最低年份的比例為0%,最高年份的比例為19%)。類似地,以大數(shù)據(jù)為基礎(chǔ)發(fā)表在三大期刊上的實(shí)證研究論文可以說是屈指可數(shù),12年間在《經(jīng)濟(jì)研究》上共有9篇,《社會學(xué)研究》上共2篇,而《政治學(xué)研究》上1篇都沒有,三大期刊在過去12年使用大數(shù)據(jù)的實(shí)證研究論文占所有發(fā)表論文的比例平均不到1%。

    再看看發(fā)表在美國三大著名社會科學(xué)期刊上的實(shí)證研究論文的情況(參見表3),我們可以看到:

    表3美國三大社會科學(xué)期刊實(shí)證研究論文統(tǒng)計(jì)

    資料來源:筆者根據(jù)三大期刊發(fā)表的論文人工統(tǒng)計(jì)。

    《美國經(jīng)濟(jì)學(xué)評論》上以傳統(tǒng)數(shù)據(jù)為基礎(chǔ)的實(shí)證研究論文12年平均占比為59%(最低為47%,最高為74%),比中國《經(jīng)濟(jì)研究》的相應(yīng)比例還稍微低一些,但總體差別不大。但是在社會學(xué)和政治學(xué)領(lǐng)域,美國實(shí)證研究論文的比例要顯著高于中國相對應(yīng)的期刊?!睹绹鐣W(xué)評論》和《美國政治學(xué)評論》上實(shí)證研究論文占全部發(fā)表文章數(shù)量的比例分別為77%、58%,而中國對應(yīng)期刊的所占比例分別為28%、7%。從使用大數(shù)據(jù)的實(shí)證社會科學(xué)研究來看,美國的數(shù)量稍微多些,但是差別不大。美國三大期刊發(fā)表的大數(shù)據(jù)實(shí)證研究論文的總數(shù)為18篇,而中國三大期刊的總數(shù)為11篇。中美三大社會科學(xué)期刊上使用大數(shù)據(jù)的實(shí)證研究論文占所有論文的比重過去12年平均都不到1%。因此,目前整個(gè)美國社會科學(xué)界和中國社會科學(xué)界如果單從大數(shù)據(jù)實(shí)證研究論文的數(shù)量上來看,使用大數(shù)據(jù)進(jìn)行實(shí)證研究都處于早期發(fā)展階段。

    如果我們把《經(jīng)濟(jì)研究》和《社會學(xué)研究》上使用大數(shù)據(jù)發(fā)表的實(shí)證社會科學(xué)的論文再做仔細(xì)分析的話(參見表4),可以發(fā)現(xiàn):中國經(jīng)濟(jì)學(xué)的研究繼承了一貫的注重量化實(shí)證研究的傳統(tǒng),在使用大數(shù)據(jù)的實(shí)證研究創(chuàng)新方面也引領(lǐng)了整個(gè)中國社會科學(xué)界。

    表4中國社會科學(xué)期刊使用大數(shù)據(jù)的實(shí)證研究論文數(shù)據(jù)類型、計(jì)量模型和研究類別

    《經(jīng)濟(jì)研究》上發(fā)表的以大數(shù)據(jù)為基礎(chǔ)的計(jì)量經(jīng)濟(jì)學(xué)研究的數(shù)據(jù)類型包括:美國國家海洋和大氣管理局(NOAA)公布的全球燈光數(shù)據(jù);DSMP/OLS 夜間燈光數(shù)據(jù)和 Landscan 全球人口動(dòng)態(tài)分布數(shù)據(jù);百度搜索詞指數(shù);余額寶七日年化收益率數(shù)據(jù);人人貸網(wǎng)絡(luò)借貸平臺的數(shù)據(jù);拍賣網(wǎng)站eBay公司的拍賣數(shù)據(jù)。而仔細(xì)分析這些論文可以發(fā)現(xiàn),這些使用大數(shù)據(jù)的實(shí)證研究論文基本上都只是把大數(shù)據(jù)作為整篇論文實(shí)證論證的一部分,或者把大數(shù)據(jù)作為更好測量論文構(gòu)念的一個(gè)來源,比如用燈光數(shù)據(jù)來測量經(jīng)濟(jì)總量,同時(shí)跟官方的一些統(tǒng)計(jì)數(shù)據(jù)相結(jié)合來驗(yàn)證理論模型。而只有少數(shù)論文的數(shù)據(jù)全部來源于大數(shù)據(jù),比如人人貸的網(wǎng)站數(shù)據(jù),ebay公司的拍賣數(shù)據(jù)。

    《社會學(xué)研究》上的這兩篇使用大數(shù)據(jù)的實(shí)證研究的論文,論證基礎(chǔ)全都是大數(shù)據(jù),一是百度搜索熱詞,二是社交網(wǎng)絡(luò)數(shù)據(jù)。第一篇有關(guān)代內(nèi)文化反授的文章以“網(wǎng)絡(luò)熱詞”的傳播為例,利用提取自新浪微博和百度搜索2013—2015年的網(wǎng)絡(luò)熱詞的每日詞頻指標(biāo)進(jìn)行了流行文化傳播規(guī)律的探索,利用時(shí)間序列的宏觀分析和面板數(shù)據(jù)的微觀分析證實(shí)了“文化反授”模式的存在。第二篇研究者搜集了從2010 年8 月1 日0 時(shí)起到2010年9 月30 日24 時(shí)止兩個(gè)月內(nèi)1133365 個(gè)韓國人賬戶創(chuàng)建的77452090 個(gè)推特(Tweet),對韓國人推特的內(nèi)容進(jìn)行了描述,對于內(nèi)容傳播的規(guī)律和特征進(jìn)行了探索性的分析。

    在計(jì)量模型的運(yùn)用上,這些使用大數(shù)據(jù)的實(shí)證研究論文所使用的計(jì)量模型也都是為學(xué)術(shù)界所接受和熟悉的成熟的社會科學(xué)常用的統(tǒng)計(jì)模型,如線性和非線性回歸、時(shí)間序列和面板數(shù)據(jù)分析等?!?5〕在研究類型上,這些使用大數(shù)據(jù)的實(shí)證研究論文跟使用傳統(tǒng)數(shù)據(jù)的論文一樣,主要注重于社會科學(xué)領(lǐng)域的因果機(jī)制。

    綜上而言,盡管一些使用大數(shù)據(jù)的實(shí)證研究拓展和加深了我們對社會經(jīng)濟(jì)運(yùn)行和人類行為規(guī)律的認(rèn)識,但截至目前還沒有產(chǎn)生對傳統(tǒng)實(shí)證研究范式有重大突破的成果。目前使用大數(shù)據(jù)研究的實(shí)證研究論文大部分只是把大數(shù)據(jù)作為對傳統(tǒng)數(shù)據(jù)來源的一個(gè)有益補(bǔ)充。按照目前的發(fā)展現(xiàn)狀來看,這些使用大數(shù)據(jù)的實(shí)證社會科學(xué)研究短期內(nèi)不可能取代傳統(tǒng)的研究手段。這說明,大數(shù)據(jù)量化實(shí)證研究雖然在很多研究者看來有非常好的前景,但是目前還遠(yuǎn)遠(yuǎn)沒有成為探索研究社會科學(xué)問題的主流研究手段和方法?!?6〕

    三、使用大數(shù)據(jù)的中國實(shí)證社會科學(xué)研究發(fā)展的挑戰(zhàn)及對策

    總體而言,當(dāng)前大數(shù)據(jù)作為一種新的數(shù)據(jù)來源,還只是以傳統(tǒng)數(shù)據(jù)為基礎(chǔ)的實(shí)證社會科學(xué)研究的一種補(bǔ)充。完全應(yīng)用大數(shù)據(jù)做出原創(chuàng)性實(shí)證社會科學(xué)研究的還極少。實(shí)證社會科學(xué)研究的基礎(chǔ)是高質(zhì)量的數(shù)據(jù),目前的中國社會科學(xué),除了經(jīng)濟(jì)學(xué),社會學(xué)和政治學(xué)在使用傳統(tǒng)數(shù)據(jù)基礎(chǔ)上的實(shí)證研究程度還遠(yuǎn)遠(yuǎn)低于美國的社會學(xué)和政治學(xué)學(xué)科。在使用大數(shù)據(jù)的實(shí)證社會科學(xué)發(fā)展程度上,我國目前跟美國沒有顯著差別?!?7〕

    目前使用大數(shù)據(jù)的實(shí)證社會科學(xué)的發(fā)展還處于初步階段,主要受制于以下幾方面的原因:

    一是在大數(shù)據(jù)的獲得上還有很大的制度障礙。目前大數(shù)據(jù)的兩個(gè)主要來源是政府和大型互聯(lián)網(wǎng)高科技公司。而我國政府部門的大數(shù)據(jù)的整合和開放的程度較低,政府各個(gè)部門或出于各自的部門利益,或出于安全考慮,或由于開發(fā)成本問題,很多的大數(shù)據(jù)都沒有公開,“信息孤島”問題普遍存在。而大型互聯(lián)網(wǎng)公司對于大數(shù)據(jù)的開放和利用的主要?jiǎng)恿υ谟谏虡I(yè)動(dòng)機(jī)和短期利益,與學(xué)術(shù)研究工作者的關(guān)注點(diǎn)不一樣。正如維克托在其《大數(shù)據(jù)時(shí)代》書里所說的,大型科技互聯(lián)網(wǎng)公司的主要關(guān)注點(diǎn)在于大數(shù)據(jù)所反映出來的客戶行為的相關(guān)關(guān)系,〔18〕而實(shí)證社會科學(xué)希望通過研究互聯(lián)網(wǎng)和物聯(lián)網(wǎng)軌跡背后的人類行為能夠構(gòu)建行為變量之間,或者環(huán)境變量和行為變量之間的因果機(jī)制。當(dāng)然這個(gè)制度障礙的背后還有我國相關(guān)信息大數(shù)據(jù)立法的滯后。對于政府部門的大數(shù)據(jù)而言,如何在保護(hù)個(gè)人隱私的基礎(chǔ)上合理開放政府部門的數(shù)據(jù),如何確立大數(shù)據(jù)使用的知識產(chǎn)權(quán),這些問題目前都還處于探索階段。

    二是獲取成本和技能障礙。上述的制度障礙其實(shí)也可以看成獲取成本的一部分。如果數(shù)據(jù)不開放,那么通過市場上科技公司去抓取,往往也要支付相當(dāng)高的成本。對于大數(shù)據(jù)的獲取、使用和分析目前還缺乏相應(yīng)的技能普及。一些大數(shù)據(jù)分析工具,比如文本抓取和分析工具 Python、R等軟件學(xué)習(xí)成本較高,從而給大數(shù)據(jù)的分析和使用帶來不小的障礙。正如Gary King已經(jīng)意識到的那樣,〔19〕大數(shù)據(jù)必須依賴合適的分析工具才能發(fā)揮其重要價(jià)值。目前在商業(yè)領(lǐng)域雖然出現(xiàn)比較流行并可能成為大數(shù)據(jù)分析標(biāo)準(zhǔn)的軟件系統(tǒng)Hadoop,還有各種各樣的大數(shù)據(jù)分析工具和軟件包,〔20〕但這些工具在商業(yè)領(lǐng)域的應(yīng)用還處于早期階段,使用起來非常復(fù)雜,大部分社會科學(xué)研究者都還不清楚這些工具。

    三是大數(shù)據(jù)本身的代表性問題。大數(shù)據(jù)的獲取來源是其平臺或者設(shè)備的載體,但是沒有一個(gè)平臺或者載體能夠記錄和存取所有研究對象的所有活動(dòng)。從某種程度上說,大數(shù)據(jù)只是全體研究樣本的一個(gè)方便樣本,不是一個(gè)隨機(jī)抽樣樣本。比如,如果研究對象是全體中國城市居民,那么互聯(lián)網(wǎng)用戶只是中國城市居民的一部分,因?yàn)闆]有一個(gè)平臺能夠記錄所有中國城市居民的行為。因此,以大數(shù)據(jù)為基礎(chǔ)的實(shí)證研究論文在結(jié)論一般化方面會受到很大限制。

    那么,如何推動(dòng)大數(shù)據(jù)在實(shí)證社會科學(xué)領(lǐng)域的應(yīng)用呢?最重要的還是要推動(dòng)數(shù)據(jù)的公開和分享。首先,應(yīng)逐步推動(dòng)不涉及國家安全的大數(shù)據(jù)在脫敏后開放給社會公眾使用。政府部門可以通過與高校和科研機(jī)構(gòu)的合作,來更好地規(guī)劃、處理和開發(fā)大數(shù)據(jù)的應(yīng)用,無論是學(xué)術(shù)層面還是公共服務(wù)層面,讓政府大數(shù)據(jù)真正為社會服務(wù)。同時(shí)推動(dòng)互聯(lián)網(wǎng)公司與高校和科研機(jī)構(gòu)在建立相互信任的基礎(chǔ)上開展深度合作,探索一種有效的互聯(lián)網(wǎng)公司與科研工作者的合作模式?!?1〕其次,應(yīng)積極建立社會科學(xué)大數(shù)據(jù)應(yīng)用和交流的平臺,盡管目前不少高校已經(jīng)建立了大數(shù)據(jù)研究院,但是這些研究院剛開始往往與企業(yè)合作較多,而很少有專門針對社會科學(xué)的媒介和平臺。三是需要全社會加快對于大數(shù)據(jù)相關(guān)分析工具的開發(fā)和普及,推動(dòng)大數(shù)據(jù)分析技能在社會科學(xué)領(lǐng)域的推廣和應(yīng)用,不斷改進(jìn)使用大數(shù)據(jù)的實(shí)證研究的方法。但是,要實(shí)現(xiàn)上述領(lǐng)域的進(jìn)步,需要政府、企業(yè)界和學(xué)術(shù)界共同努力和長期協(xié)作,并不是一朝一夕能夠?qū)崿F(xiàn)的。

    清華大學(xué)社會學(xué)系的呂浩、張新望、余涵為本文做了一些資料整理工作,在此謹(jǐn)致謝意。

    注釋:

    〔1〕我國的第一次人口普查始于1953年,第二次在1964年,后來因?yàn)槲幕蟾锩袛唷3巳丝谄詹?,國家統(tǒng)計(jì)局還分別于1987年、1995年、2005年、2015年進(jìn)行了全國1%抽樣調(diào)查。

    〔2〕水延凱主編:《中國社會調(diào)查簡史》,北京:中國人民大學(xué)出版社,2017年,第350-355頁;劉云:《我國社會調(diào)查研究歷史的回顧》,《新疆大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版)》1994年第4期。

    〔3〕水延凱主編:《中國社會調(diào)查簡史》,北京:中國人民大學(xué)出版社,2017年,第356-361頁。

    〔4〕有統(tǒng)計(jì)表明,1992年以后,隨著調(diào)查技術(shù)、分析手段的進(jìn)步,以及社會研究方法的成熟,越來越多的社會學(xué)者用高級統(tǒng)計(jì)分析方法來進(jìn)行社會科學(xué)問題的研究,而1992年之前則基本上是以描述分析的簡單量化研究為主,參見水延凱主編:《中國社會調(diào)查簡史》,北京:中國人民大學(xué)出版社,2017年,第364頁。

    〔5〕該表格只列舉了根據(jù)公開參考資料和筆者多年實(shí)證社會科學(xué)研究所接觸和熟悉的一些數(shù)據(jù)來源。囿于筆者的知識和接觸面所限,該表并不能包括改革開放以來所有中國綜合性社會調(diào)查的數(shù)據(jù)。

    〔6〕IBM公司概括了大數(shù)據(jù)的5V特征,即數(shù)量(Volume)大、類型(Variety)多、速度(Velocity)快、準(zhǔn)確性(Veracity)強(qiáng)、價(jià)值(Value)大。

    〔7〕2009年Lazer等人在《科學(xué)》雜志上發(fā)表的《計(jì)算社會科學(xué)》,標(biāo)志著計(jì)算社會科學(xué)的誕生。Lazer, D, Pentland, A., Adamic L. A., et al.,“Computational Social Science”, Science, 2009, 323(5915), pp.721-723;劉濤雄、尹德才:《大數(shù)據(jù)時(shí)代與社會科學(xué)研究范式變革》,《理論探索》2017年第6期。

    〔8〕數(shù)據(jù)來源:第1財(cái)經(jīng),http://www.yicai.com/news/5390789.html?xueqiu_status_id=99157680,2018年3月16日登錄。

    〔9〕〔12〕〔18〕〔英〕維克托·邁爾-舍恩伯格、〔英〕肯尼思·庫克耶:《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》,盛楊燕、周濤譯,杭州: 浙江人民出版社, 2013年。

    〔10〕這里的全體研究對象也是相對的。因?yàn)樵趯?shí)際的數(shù)據(jù)儲存或提取過程中,受制于成本或者技術(shù)限制,獲得全體研究對象的信息是非常困難的。比如研究婚戀行為的社會科學(xué)研究者,即使獲得了一個(gè)大型婚戀網(wǎng)站的所有注冊用戶的網(wǎng)上活動(dòng)資料,也很難獲取一個(gè)大范圍地域內(nèi)所有經(jīng)歷過婚戀行為的人的行為數(shù)據(jù),因?yàn)檫@些注冊用戶只是被研究總體對象的一部分。

    〔11〕1960年代末,美國斯坦福大學(xué)的一個(gè)政治學(xué)博士生Norman Nie和兩個(gè)計(jì)算機(jī)系的博士生Dale Bent和'Tex' Hull合作開發(fā)了一個(gè)專為社會科學(xué)統(tǒng)計(jì)分析使用的計(jì)算機(jī)軟件SPSS(Statistical Package for the Social Sciences),該軟件界面友好,操作簡單,為社會調(diào)查之后的數(shù)據(jù)清理和統(tǒng)計(jì)分析提供了方便,很大程度上推動(dòng)了社會科學(xué)實(shí)證研究的發(fā)展。Norman Nie因?yàn)閷φ慰茖W(xué)量化研究的貢獻(xiàn)和對該軟件的開發(fā)推廣而獲得了美國民意研究學(xué)會頒發(fā)的終生成就獎(jiǎng),并當(dāng)選為美國藝術(shù)和科學(xué)院院士。

    〔13〕我們對傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)的劃分也不是絕對的,我們這里的大數(shù)據(jù)是指隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展出現(xiàn)的相對創(chuàng)新的數(shù)據(jù)收集手段。比如經(jīng)濟(jì)學(xué)者很早就開始利用上市公司全部股票交易數(shù)據(jù)來進(jìn)行研究了,還有一些政治學(xué)者使用了瑞典所有政府登記的選民的數(shù)據(jù),這些數(shù)據(jù)的獲得也相對容易,因此在本研究統(tǒng)計(jì)過程中把這些類型的數(shù)據(jù)也歸為傳統(tǒng)數(shù)據(jù)。

    〔14〕這里的實(shí)證研究論文是指使用大規(guī)模數(shù)據(jù)樣本(含大數(shù)據(jù))為理論基礎(chǔ)的論文。經(jīng)濟(jì)學(xué)的一些論文只有基于理論模型和數(shù)學(xué)模型的推理,但沒有用數(shù)據(jù)來驗(yàn)證或者計(jì)算這些模型的結(jié)果,這些沒有算在這里的實(shí)證研究論文里面。在統(tǒng)計(jì)文章總數(shù)時(shí)可能包括了一些學(xué)術(shù)會議的綜述,但是這部分文章在總體文章數(shù)量中占比很少,因此對我們計(jì)算實(shí)證研究論文比例不會產(chǎn)生太大影響。

    〔15〕絕大部分論文對于數(shù)據(jù)處理和分析的計(jì)算機(jī)統(tǒng)計(jì)軟件沒有給出說明,因此筆者無法知悉和統(tǒng)計(jì)這些實(shí)證研究論文所使用的分析工具。但是根據(jù)筆者的經(jīng)驗(yàn)判斷,大部分這些論文所使用的大數(shù)據(jù)文件的大小都還在現(xiàn)有成熟計(jì)算和統(tǒng)計(jì)軟件如R、SPSS、Stata、SAS能夠處理的計(jì)算能力范圍之內(nèi)。

    〔16〕由于篇幅所限,我們沒有在表4中列出對美國三大社會科學(xué)期刊18篇使用大數(shù)據(jù)的實(shí)證研究論文的分析。但是對于美國三大期刊上使用大數(shù)據(jù)的實(shí)證研究論文的分析并沒有使我們改變這個(gè)結(jié)論。

    〔17〕不過,發(fā)表在國內(nèi)這些期刊上的一些使用大數(shù)據(jù)的實(shí)證研究論文明確表明是受到了美國相關(guān)研究論文的啟示,比如表4中發(fā)表在2006年《經(jīng)濟(jì)研究》上的論文就受到美國一篇2000年就發(fā)表的使用電子商務(wù)交易網(wǎng)站數(shù)據(jù)的啟發(fā)。

    〔19〕King,Gary,“Preface:Big Data is Not About the Data!”,in Computational Social Science: Discovery and Prediction,edited by R.Michael Alvarez,Cambridge:Cambridge University Press,2016.

    〔20〕曾忠祿:《大數(shù)據(jù)分析:方向、方法與工具》, 《情報(bào)理論與實(shí)踐》2017年第1期。

    〔21〕筆者曾經(jīng)參加過阿里巴巴研究院與研究者商談合作的會議,但是向這些大企業(yè)獲取數(shù)據(jù)的程序非常繁瑣,這些大公司也對研究者非常謹(jǐn)慎。

    猜你喜歡
    社會科學(xué)論文期刊
    期刊更名啟事
    期刊簡介
    《云南社會科學(xué)》征稿征訂啟事
    《河北農(nóng)業(yè)大學(xué)(社會科學(xué)版)》2021年喜報(bào)
    期刊問答
    數(shù)學(xué)在社會科學(xué)中的應(yīng)用
    下期論文摘要預(yù)登
    下期論文摘要預(yù)登
    下期論文摘要預(yù)登
    2013年5—12月最佳論文
    新聞前哨(2014年1期)2014-03-12 22:10:06
    驻马店市| 宝丰县| 临汾市| 普定县| 遂宁市| 镇沅| 丹凤县| 泊头市| 泰州市| 濉溪县| 建水县| 贡山| 岱山县| 青冈县| 文安县| 溧水县| 资阳市| 基隆市| 泽州县| 郑州市| 台山市| 桑日县| 高雄县| 璧山县| 古交市| 闵行区| 株洲县| 平度市| 罗城| 苏尼特左旗| 全椒县| 明水县| 绥芬河市| 冷水江市| 韶关市| 三亚市| 德令哈市| 盐池县| 金湖县| 襄汾县| 兴山县|