王強(qiáng),丁恩俊,劉愿理
1.西南大學(xué) 圖書館, 重慶 400715 ; 2.重慶工商大學(xué) 工商管理學(xué)院, 重慶 400067
大數(shù)據(jù)、云時(shí)代的到來為地理科學(xué)研究提供了新的機(jī)遇和挑戰(zhàn). 1999年中國科學(xué)院聯(lián)合19個(gè)部委主持召開國際數(shù)字地球會(huì)議, 2019年, 國際數(shù)字地球?qū)W會(huì)中國國家委員會(huì)在北京召開“首屆中國數(shù)字地球大會(huì)”, 中國科學(xué)院地理科學(xué)與資源研究所建立了多個(gè)國家級(jí)野外觀測(cè)研究網(wǎng)絡(luò)和科學(xué)數(shù)據(jù)中心[1]. GoodChild[2]于2012年發(fā)表論文“Next-generation Digital Earth”, 程昌秀等[3]指出大數(shù)據(jù)對(duì)地理學(xué)的研究方法、研究進(jìn)展提供了新的挑戰(zhàn)和機(jī)遇, 王戈飛等[4]利用相關(guān)數(shù)據(jù)對(duì)大規(guī)劃、地理信息系統(tǒng)、地理信息產(chǎn)業(yè)發(fā)展等領(lǐng)域進(jìn)行了分析研究. 綜上, 這些研究從某種程度上說明數(shù)據(jù)在地理科學(xué)研究領(lǐng)域扮演著不可或缺的角色.
數(shù)據(jù)已被廣泛應(yīng)用于教學(xué)科研、管理、生產(chǎn)生活的方方面面, 科學(xué)合理地使用數(shù)據(jù)對(duì)提高科研水平、推進(jìn)創(chuàng)新等具有重要作用. 如, 在教育研究領(lǐng)域, 張穎超[5]就大數(shù)據(jù)對(duì)高等教育發(fā)展影響進(jìn)行了系統(tǒng)的分析; 任一明等[6]指出大數(shù)據(jù)對(duì)高等教育的研究、創(chuàng)新、發(fā)展發(fā)揮著巨大的影響. 在哲學(xué)研究領(lǐng)域, 黃欣榮[7]研究發(fā)現(xiàn), 數(shù)據(jù)將成為科學(xué)研究的新對(duì)象, 大數(shù)據(jù)可能帶來科學(xué)研究范式的變革, 數(shù)據(jù)解釋將成為科學(xué)說明的新模式; 董艷麗[8]對(duì)大數(shù)據(jù)所涉及的哲學(xué)內(nèi)涵進(jìn)行挖掘. 在經(jīng)濟(jì)學(xué)領(lǐng)域, 麥肯錫研究機(jī)構(gòu)肯定了大數(shù)據(jù)對(duì)于提升各個(gè)商業(yè)領(lǐng)域價(jià)值創(chuàng)造力的巨大潛能, 世界經(jīng)濟(jì)論壇甚至將大數(shù)據(jù)定義為類似于黃金或貨幣一樣的新經(jīng)濟(jì)資產(chǎn), 李國杰等[9]指出, 在未來科技及經(jīng)濟(jì)社會(huì)發(fā)展進(jìn)程中, 大數(shù)據(jù)將扮演重要角色. 在地理學(xué)科領(lǐng)域, 楊振山等[10]與甄峰等[11]指出, 大數(shù)據(jù)的發(fā)展對(duì)完善人文—經(jīng)濟(jì)地理學(xué)學(xué)科思維和研究方法將起到積極的推動(dòng)作用; 馬振剛等[12]研究了自然地理學(xué)的大數(shù)據(jù)源及相關(guān)變革; 裴韜等[13]揭示了地理大數(shù)據(jù)的本質(zhì)特點(diǎn), 對(duì)地理大數(shù)據(jù)挖掘方法進(jìn)行了分類.
綜上研究大多是從如何利用數(shù)據(jù)以及如何應(yīng)對(duì)大數(shù)據(jù)對(duì)學(xué)科發(fā)展帶來的機(jī)遇、挑戰(zhàn)等方面進(jìn)行研究, 而基于文獻(xiàn)內(nèi)容計(jì)量學(xué)分析視角, 系統(tǒng)梳理某一學(xué)科領(lǐng)域內(nèi)數(shù)據(jù)來源的識(shí)別、歸類及應(yīng)用特征的文獻(xiàn)較少. 基于此, 本文采用文獻(xiàn)分析計(jì)量與編碼相結(jié)合的方法對(duì)地理學(xué)研究領(lǐng)域中的數(shù)據(jù)名稱進(jìn)行識(shí)別、分類, 探索這些數(shù)據(jù)獲取方式以及在地理學(xué)科領(lǐng)域中的應(yīng)用特征, 以期為地理學(xué)學(xué)科發(fā)展及相關(guān)研究提供參考.
本文選取同時(shí)被中國社會(huì)科學(xué)引文索引(CSSCI)、中國科學(xué)引文數(shù)據(jù)庫(CSCD)收錄, 且具有較好代表性的《地理學(xué)報(bào)》《地理科學(xué)》《地理研究》《地理科學(xué)進(jìn)展》和《經(jīng)濟(jì)地理》5種期刊2000年以來發(fā)表的所有論文為樣本, 采用人工編碼與數(shù)據(jù)抽取相結(jié)合的方法對(duì)這些論文所使用的數(shù)據(jù)進(jìn)行標(biāo)識(shí)、分類, 探究地理學(xué)科領(lǐng)域數(shù)據(jù)獲取方式及應(yīng)用特征.
在中國知網(wǎng)(CNKI)檢索獲取上文所述5種地理學(xué)核心期刊刊載的中文文獻(xiàn)的題錄信息, 包括題名、作者、關(guān)鍵詞、摘要、發(fā)表時(shí)間等, 采用高級(jí)檢索方式進(jìn)行檢索, 檢索式為: 文獻(xiàn)來源= (地理學(xué)報(bào) + 地理科學(xué) + 地理研究 + 地理科學(xué)進(jìn)展 + 經(jīng)濟(jì)地理); 檢索時(shí)間跨度為2000年1月1日至2021年12月31日. 共獲取文獻(xiàn)24 974篇, 剔除圖書推介、刊物簡(jiǎn)介、會(huì)議紀(jì)要、講話、通知、賀詞等文章, 共獲取可編碼文獻(xiàn)24 903篇.
第一步, 因文獻(xiàn)題錄信息總數(shù)據(jù)量較大, 由2名編碼人員在充分熟悉編碼方案后, 采用人工編碼和自動(dòng)抽取相結(jié)合的方式對(duì)數(shù)據(jù)名稱進(jìn)行編碼, 在參考地理科學(xué)研究常用數(shù)據(jù)相關(guān)文獻(xiàn)的基礎(chǔ)上[14-16], 對(duì)所獲取的題錄信息按照編碼方案進(jìn)行識(shí)別、統(tǒng)計(jì)分析, 具體的編碼方案見表1至表3, 主要處理步驟如下.
由2名編碼人員對(duì)選取的《地理學(xué)報(bào)》所載的6 037篇論文進(jìn)行人工編碼, 通過進(jìn)一步討論形成數(shù)據(jù)名稱詞集合, 編碼完成后對(duì)編碼結(jié)果進(jìn)行信度檢驗(yàn), 使用編碼交互判別信度K計(jì)算編碼的一致性[17].
第二步, 使用Visual Basic對(duì)數(shù)據(jù)名稱詞集合與題錄信息內(nèi)容進(jìn)行自動(dòng)識(shí)別匹配, 若數(shù)據(jù)名稱集合中的詞與題名、關(guān)鍵詞及摘要等內(nèi)容的詞實(shí)現(xiàn)完全匹配, 則對(duì)該文獻(xiàn)自動(dòng)編碼, 形成自動(dòng)編碼的數(shù)據(jù)名稱數(shù)據(jù)集.
第三步, 對(duì)于利用數(shù)據(jù)名稱集合無法自動(dòng)識(shí)別編碼的文獻(xiàn), 采用人工編碼的方式完成文獻(xiàn)的編碼. 最后, 對(duì)每類數(shù)據(jù)名稱的出現(xiàn)頻次進(jìn)行統(tǒng)計(jì)分析.
3.1.1 人文地理學(xué)
人文地理類數(shù)據(jù)來源主要類別有經(jīng)濟(jì)地理、人口地理、娛樂地理、城市地理、交通地理. 統(tǒng)計(jì)發(fā)現(xiàn), 出現(xiàn)頻次前10的數(shù)據(jù)名稱有就業(yè)類數(shù)據(jù)、產(chǎn)業(yè)企業(yè)類數(shù)據(jù)、貿(mào)易數(shù)據(jù)、交易消費(fèi)數(shù)據(jù)、人口統(tǒng)計(jì)類數(shù)據(jù)、旅游數(shù)據(jù)、房?jī)r(jià)地價(jià)類數(shù)據(jù)、快遞物流數(shù)據(jù)、客運(yùn)貨運(yùn)數(shù)據(jù)、經(jīng)濟(jì)狀態(tài)類統(tǒng)計(jì)數(shù)據(jù). 從以上統(tǒng)計(jì)數(shù)據(jù)及表1可知, 人文地理類數(shù)據(jù)品目種類多、來源豐富, 且與人類生產(chǎn)生活密切相關(guān).
3.1.2 自然地理學(xué)
自然地理學(xué)數(shù)據(jù)來源類別主要有大氣候、地形地貌、水文、植物地理, 由于自然地理學(xué)本身更加注重自然地理環(huán)境的組成、形成發(fā)展及空間分異規(guī)律研究, 出現(xiàn)頻次較高的數(shù)據(jù)有溫度氣溫類數(shù)據(jù)、氣候氣象類數(shù)據(jù)、水汽溫度類數(shù)據(jù)、地表河流地形類數(shù)據(jù)、水土水沙類數(shù)據(jù)、水質(zhì)水位數(shù)據(jù)、降水降雨類數(shù)據(jù)、森林植被類數(shù)據(jù). 從以上統(tǒng)計(jì)數(shù)據(jù)及表2來看, 自然地理環(huán)境要素與人類活動(dòng)的關(guān)系越密切, 就越容易受到關(guān)注, 相關(guān)的研究及數(shù)據(jù)也會(huì)越多, 如氣溫溫度、氣候氣象、水位水質(zhì)等.
表1 人文地理學(xué)數(shù)據(jù)識(shí)別及歸類
表2 自然地理學(xué)數(shù)據(jù)識(shí)別及歸類
3.1.3 地理信息科學(xué)及其他
對(duì)識(shí)別出的地理信息科學(xué)數(shù)據(jù)名稱進(jìn)行統(tǒng)計(jì)分析發(fā)現(xiàn), 其數(shù)據(jù)來源主要類別有環(huán)境地理、農(nóng)業(yè)地理、人地關(guān)系、能源、衛(wèi)星遙感、位置定位等, 出現(xiàn)頻次靠前的數(shù)據(jù)名稱有空氣質(zhì)量類數(shù)據(jù)、氣體排放類數(shù)據(jù)、農(nóng)作物類數(shù)據(jù)、土地利用變更類數(shù)據(jù)、能源資源類數(shù)據(jù)、衛(wèi)星遙感類數(shù)據(jù)、位置定位類數(shù)據(jù). 從以上統(tǒng)計(jì)數(shù)據(jù)及表3來看, 地理信息科學(xué)數(shù)據(jù)品目種類多, 與人類生產(chǎn)、生活相關(guān)的數(shù)據(jù)出現(xiàn)頻次較高, 數(shù)據(jù)獲取的方式有衛(wèi)星遙感、圖像攝像、數(shù)據(jù)庫、網(wǎng)絡(luò)平臺(tái).
表3 地理信息科學(xué)及其他數(shù)據(jù)識(shí)別及歸類
續(xù)表3 地理信息科學(xué)及其他數(shù)據(jù)識(shí)別及歸類
3.2.1 高頻使用數(shù)據(jù)類型
對(duì)樣本期刊所刊載的789種數(shù)據(jù)類型名稱在論文中的分布情況進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn), 約33.2%的數(shù)據(jù)類型僅被1篇論文使用, 30.1%數(shù)據(jù)類型被5篇或5篇以上的論文使用. 依據(jù)使用頻次統(tǒng)計(jì), 地理學(xué)使用頻次靠前的數(shù)據(jù)名稱有面板數(shù)據(jù)、遙感影像、調(diào)查數(shù)據(jù)、TM數(shù)據(jù)、空間數(shù)據(jù)、遙感數(shù)據(jù)、Landsat數(shù)據(jù)、NDVI數(shù)據(jù)、人口普查數(shù)據(jù)、MODIS數(shù)據(jù)、觀測(cè)數(shù)據(jù)、土地利用數(shù)據(jù)、歷史文獻(xiàn)數(shù)據(jù)、POI數(shù)據(jù)、ETM數(shù)據(jù)、氣象數(shù)據(jù)、影像數(shù)據(jù)、降水?dāng)?shù)據(jù)、企業(yè)數(shù)據(jù)、DEM數(shù)據(jù)、人口數(shù)據(jù)、統(tǒng)計(jì)年鑒、實(shí)測(cè)數(shù)據(jù)、監(jiān)測(cè)數(shù)據(jù)、氣溫資料、SPOT數(shù)據(jù)、百度數(shù)據(jù)、夜間燈光數(shù)據(jù).
3.2.2 高頻使用數(shù)據(jù)聚焦主題
利用CiteSpace 軟件對(duì)地理學(xué)高頻使用數(shù)據(jù)的文獻(xiàn)研究主題進(jìn)行聚類分析發(fā)現(xiàn), 地理學(xué)高頻使用數(shù)據(jù)的文獻(xiàn)研究主題主要聚焦于土地利用、時(shí)空分異、青藏高原、長(zhǎng)江經(jīng)濟(jì)帶、房?jī)r(jià)、經(jīng)濟(jì)貿(mào)易、社會(huì)經(jīng)濟(jì)、旅游、交通出行、快遞物流、人口地理、能源資源、位置定位、氣候氣象、氣溫降水等.
3.3.1 WOS與CNKI等數(shù)據(jù)庫
地理科學(xué)研究常用的國內(nèi)外商業(yè)數(shù)據(jù)庫有CNKI、萬方、維普、CSSCI、WOS、SSCI、JCR. 有學(xué)者根據(jù)研究需要, 自建某專題類數(shù)據(jù)庫/集, 如中國科學(xué)院張生瑞等[19]構(gòu)建了全國跨省界自然地理實(shí)體地名數(shù)據(jù)庫, 中國旅游研究院蔣依依等[20]構(gòu)建了2001-2015年中國出境游客與目的地入境游客規(guī)模數(shù)據(jù)庫.
3.3.2 政府職能部門官方網(wǎng)站
官方網(wǎng)站數(shù)據(jù)主要為政府各職能部門、各行業(yè)類官方統(tǒng)計(jì)數(shù)據(jù), 常見的有住房和城鄉(xiāng)建設(shè)部、農(nóng)業(yè)農(nóng)村部、自然資源部、海關(guān)、氣象局、企業(yè)類官方數(shù)據(jù). 例如, 選取國家氣象信息中心發(fā)布的數(shù)據(jù)分析中國常年氣候季節(jié)空間變化[21], 利用住房和城鄉(xiāng)建設(shè)部發(fā)布的數(shù)據(jù)分析中國小城鎮(zhèn)鎮(zhèn)區(qū)土地利用結(jié)構(gòu)特征[22], 利用中國能源統(tǒng)計(jì)年鑒發(fā)布的數(shù)據(jù)構(gòu)建能源消耗空間格局預(yù)測(cè)模型[23].
3.3.3 百度和騰訊等企業(yè)平臺(tái)
常見的企業(yè)平臺(tái)有百度、騰訊、美團(tuán)、餓了么、中國移動(dòng)、高德地圖、攜程. 劉海洋等[24]基于騰訊人口遷徙大數(shù)據(jù)研究了黃河流域城市聯(lián)系網(wǎng)絡(luò)格局; 彭詩堯等[25]利用百度地圖POI數(shù)據(jù)分析軌道交通客流的空間特征; 丁亮等[26]基于移動(dòng)通信用戶的個(gè)體移動(dòng)軌跡數(shù)據(jù), 驗(yàn)證多中心城市引力模型.
3.3.4 調(diào)研實(shí)測(cè)
調(diào)研實(shí)測(cè)是獲取地理學(xué)數(shù)據(jù)最重要的基本方法, 可直接收集第一手資料. 例如, 宋昊澤等[27]根據(jù)野外實(shí)測(cè)數(shù)據(jù)和小型無人機(jī)所攝地景影像, 采用地形數(shù)字化方法提取地貌原始數(shù)據(jù), 分析描述羅布泊地區(qū)雅丹形態(tài)特征及演化過程; 李佳等[28]通過實(shí)地調(diào)查和訪談獲取數(shù)據(jù)分析了旅游社會(huì)—生態(tài)系統(tǒng)的內(nèi)部運(yùn)行機(jī)制; 王澤東等[29]基于山東省124個(gè)高校校區(qū)的調(diào)研數(shù)據(jù), 對(duì)高等教育用地的時(shí)空演化特征進(jìn)行了系統(tǒng)闡述.
3.3.5 衛(wèi)星遙感
地域性、空間性是地理學(xué)科重要特征, 衛(wèi)星遙感技術(shù)是獲取該類數(shù)據(jù)的重要方式. 例如, 劉紀(jì)遠(yuǎn)等[30]基于遙感數(shù)據(jù)分析了中國城鄉(xiāng)建設(shè)用地?cái)U(kuò)張時(shí)空特征; 范科科等[31]基于衛(wèi)星遙感數(shù)據(jù)對(duì)青藏高原土壤濕度數(shù)據(jù)進(jìn)行了評(píng)估; 劉睿等[32]基于環(huán)境減災(zāi)衛(wèi)星CCD數(shù)據(jù)對(duì)呼倫貝爾地區(qū)植被分類進(jìn)行了研究.
3.4.1 人文地理類數(shù)據(jù)更豐富
對(duì)識(shí)別出的數(shù)據(jù)名稱進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn), 地理信息科學(xué)數(shù)據(jù)的種類較多, 尤以人文地理類數(shù)據(jù)種類最豐富、數(shù)量最多. 人文地理、地理信息科學(xué)類數(shù)據(jù)與其他學(xué)科的交叉性、融合性更強(qiáng), 其所涉及的學(xué)科面更廣、更豐富.
3.4.2 數(shù)據(jù)獲取方式及載體形式趨向多樣化、現(xiàn)代化
數(shù)據(jù)信息的獲取方式及載體形式更加多樣化、現(xiàn)代化. 統(tǒng)計(jì)發(fā)現(xiàn), 地理類數(shù)據(jù)主要獲取方式有調(diào)研實(shí)測(cè)、官方網(wǎng)站、商業(yè)數(shù)據(jù)庫、衛(wèi)星遙感、手機(jī)APP、企業(yè)平臺(tái)等. 近年, 通過手機(jī)APP、衛(wèi)星遙感、大數(shù)據(jù)等現(xiàn)代化手段獲取數(shù)據(jù)的方式越來越多. 數(shù)據(jù)的載體形式主要有圖書、期刊論文、學(xué)位論文、會(huì)議論文、圖片影像、地圖、古籍歷史資料、報(bào)紙報(bào)告、專利、統(tǒng)計(jì)年鑒、遙感軟件等, 近年來, 數(shù)據(jù)載體類型有由紙本化向電子化、數(shù)字化轉(zhuǎn)變的趨勢(shì).
3.4.3 與人類社會(huì)活動(dòng)密切相關(guān)
對(duì)識(shí)別出的數(shù)據(jù)統(tǒng)計(jì)分析發(fā)現(xiàn), 數(shù)據(jù)內(nèi)容與人類生產(chǎn)、生活密切相關(guān), 如天氣預(yù)報(bào)(氣候氣象)、吃喝歡樂(糧食、旅游等)、衣食住行(房?jī)r(jià)、交通等)、醫(yī)療教育等, 這些事物的空間性、地域性都是地理學(xué)科研究領(lǐng)域涉及的范圍, 也是由地理學(xué)學(xué)科特性的綜合性、社會(huì)性所決定.
3.4.4 時(shí)代性特征明顯
時(shí)代性特征明顯. 無論是數(shù)據(jù)內(nèi)容的研究主題, 還是數(shù)據(jù)獲取方式、載體形式都隨著時(shí)代的進(jìn)步而發(fā)展, 體現(xiàn)出鮮明的時(shí)代性特征. 數(shù)據(jù)研究主題與時(shí)俱進(jìn), 如快遞物流、空氣質(zhì)量、環(huán)境污染、城市房?jī)r(jià)、交通出行、POI等; 數(shù)據(jù)獲取方式、載體形式亦是如此, 數(shù)據(jù)獲取遠(yuǎn)程化、現(xiàn)代化, 數(shù)據(jù)載體電子化、現(xiàn)代化, 如無人機(jī)、遙感衛(wèi)星、GIS軟件、電子書刊等.
本文研究發(fā)現(xiàn), 地理學(xué)研究高頻使用的數(shù)據(jù)有經(jīng)濟(jì)人口數(shù)據(jù)、遙感影像、空間數(shù)據(jù)、調(diào)查數(shù)據(jù)、城市及旅游類數(shù)據(jù)等; 高頻數(shù)據(jù)文獻(xiàn)聚焦主題于時(shí)空分異、經(jīng)濟(jì)貿(mào)易、青藏高原、長(zhǎng)江經(jīng)濟(jì)帶、旅游交通、位置定位、氣溫降水等; 數(shù)據(jù)獲取方式主要有數(shù)據(jù)庫、官方數(shù)據(jù)網(wǎng)站、企業(yè)、調(diào)研實(shí)測(cè)和衛(wèi)星遙感; 數(shù)據(jù)特征為人文地理類數(shù)據(jù)更豐富, 數(shù)據(jù)獲取方式及載體形式現(xiàn)代化, 數(shù)據(jù)內(nèi)容與人類社會(huì)活動(dòng)密切相關(guān), 時(shí)代性特征明顯.
對(duì)地理學(xué)研究領(lǐng)域數(shù)據(jù)的識(shí)別及應(yīng)用特征的分析, 既有利于結(jié)合社會(huì)實(shí)踐, 解決實(shí)際問題, 也利于推動(dòng)地理學(xué)理論與技術(shù)、方法的不斷創(chuàng)新, 對(duì)地理學(xué)研究具有重要的現(xiàn)實(shí)意義.