肖 明,商慧語(yǔ),肖 毅,廖莉莉
(1.華中師范大學(xué)信息化辦公室, 武漢 430079; 2.華中師范大學(xué)語(yǔ)言與語(yǔ)言教育研究中心, 武漢 430079;3.中原銀行數(shù)智金融創(chuàng)新實(shí)驗(yàn)室, 鄭州 450046; 4.華中師范大學(xué)信息管理學(xué)院, 武漢 430079)
科學(xué)引文索引文獻(xiàn)作為科學(xué)技術(shù)研究成果的載體,是科研發(fā)展水平的重要體現(xiàn),又是把握學(xué)科領(lǐng)域研究現(xiàn)狀、認(rèn)識(shí)熱門話題以及了解主流研究方法的重要途徑.2016年黨中央、國(guó)務(wù)院印發(fā)《國(guó)家創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略綱要》強(qiáng)調(diào)科技創(chuàng)新在國(guó)家發(fā)展全局的核心位置[1].近年來(lái),文獻(xiàn)數(shù)量呈指數(shù)規(guī)模增長(zhǎng),使得通過(guò)人工閱讀方式來(lái)獲取研究領(lǐng)域的相關(guān)信息變得愈加低效和困難.科研人員如何從海量文獻(xiàn)中把握學(xué)科領(lǐng)域的前沿?zé)狳c(diǎn)主題,預(yù)測(cè)其演化趨勢(shì),進(jìn)而輔助科研選題與決策,找到創(chuàng)新突破口,推動(dòng)科技創(chuàng)新,成為統(tǒng)計(jì)學(xué)界關(guān)注的一個(gè)重要研究方向.本文利用統(tǒng)計(jì)學(xué)與NLP方法對(duì)統(tǒng)計(jì)學(xué)領(lǐng)域CSSCI期刊上的文獻(xiàn)進(jìn)行主題模型分析,通過(guò)信息抽取和整理歸納,得到統(tǒng)計(jì)學(xué)領(lǐng)域相關(guān)知識(shí)網(wǎng)絡(luò)圖譜,助力科研人員迅速了解統(tǒng)計(jì)學(xué)科的研究狀況,提高研究效率.
關(guān)于主題模型的方法,國(guó)內(nèi)外已有一些研究基礎(chǔ).國(guó)外主題模型的研究起源于Papadimitriou等[2]提出的隱性語(yǔ)義索引(LSI).隱性語(yǔ)義索引的基本思想是通過(guò)奇異值分解(SVD)構(gòu)造一個(gè)維度比原空間低的全新的隱性語(yǔ)義空間,從而找到文本更簡(jiǎn)單的表達(dá)方式;Hofmann[3]在LSI的基礎(chǔ)上進(jìn)一步提出了概率隱性語(yǔ)義索引(pLSI),不同于LSI以最優(yōu)低秩逼近作為優(yōu)化目標(biāo),pLSI將觀測(cè)值的似然值作為優(yōu)化目標(biāo)并使其最大化;2003年,Blei等[4]基于貝葉斯思想提出了隱含狄利克雷分布(LDA),將pLSI中待估參數(shù)視為隨機(jī)變量,對(duì)其施加Dirichlet先驗(yàn)分布,并通過(guò)最大后驗(yàn)估計(jì)進(jìn)行推斷;AlSumait等[5]提出在線LDA(online latent Dirichlet allocation, OLDA)模型,通過(guò)演化矩陣記錄已有主題,檢測(cè)新主題,根據(jù)到達(dá)的文本在線更新模型,用來(lái)表示主題內(nèi)容和強(qiáng)度的演化,但是忽略了文本量對(duì)主題數(shù)量的影響.因此,LDA在主題內(nèi)容分析上比pLSI更加合理有效.
對(duì)于各學(xué)科進(jìn)行文獻(xiàn)計(jì)量分析的研究,已經(jīng)取得了非常豐富的成果.針對(duì)期刊的個(gè)案研究有,仇一微等[6]和汪琛等[7]對(duì)期刊《統(tǒng)計(jì)與決策》的歷年文獻(xiàn)進(jìn)行了計(jì)量分析,發(fā)現(xiàn)領(lǐng)域內(nèi)合作研究不斷交叉和演化.在統(tǒng)計(jì)學(xué)領(lǐng)域的文獻(xiàn)計(jì)量分析方面.2012年,楊國(guó)立[8]考察了1998—2010年統(tǒng)計(jì)學(xué)研究機(jī)構(gòu)、被引頻次、高產(chǎn)作者、高產(chǎn)機(jī)構(gòu)的分布情況;2019年,韓兆洲等[9]利用編程語(yǔ)言R分析了統(tǒng)計(jì)學(xué)核心期刊的分布情況和研究現(xiàn)狀.在圖書(shū)情報(bào)學(xué)領(lǐng)域的文獻(xiàn)計(jì)量分析方面,2018年,朱茂然等[10]通過(guò)相似主題下的詞匯概率分布得到主題內(nèi)容的變化,運(yùn)用在中文情報(bào)學(xué)領(lǐng)域,發(fā)現(xiàn)“語(yǔ)義分析”等主題的關(guān)注度持續(xù)上升;2021年,譚春輝等[11]采用近20年來(lái)CKNI及Web of Science收錄的數(shù)據(jù)挖掘領(lǐng)域核心期刊論文,通過(guò)LDA主題模型分析國(guó)內(nèi)外該領(lǐng)域熱點(diǎn)主題演化的區(qū)別與聯(lián)系;2021年,張金年等[12]以2017—2019年圖書(shū)館學(xué)領(lǐng)域7本CSSCI來(lái)源期刊論文為研究對(duì)象,發(fā)現(xiàn)有72位潛在合作者,8個(gè)潛在合作團(tuán)隊(duì),1個(gè)整體合作中心和多個(gè)區(qū)域合作中心,而潛在合作主題為7大類.此外,在其他學(xué)科領(lǐng)域有,呂拉昌等[13]借助文獻(xiàn)計(jì)量工具,發(fā)現(xiàn)區(qū)域創(chuàng)新系統(tǒng)與大數(shù)據(jù)等前沿技術(shù)融合的趨勢(shì)較為明顯,未來(lái)區(qū)域創(chuàng)新系統(tǒng)的研究將趨向于多視角、多尺度、多學(xué)科,注重創(chuàng)新主體及創(chuàng)新行為、創(chuàng)新主體與創(chuàng)新環(huán)境的耦合研究;邱均平等[14]分析CNKI收錄的近10年關(guān)于大數(shù)據(jù)的論文,通過(guò)LDA主題模型能夠較為準(zhǔn)確地提取大數(shù)據(jù)領(lǐng)域文獻(xiàn)的研究主題,有利于研究人員把握研究方向,探尋新興主題;周健等[15]通過(guò)LDA主題模型對(duì)不同時(shí)間窗口下的區(qū)塊鏈文獻(xiàn)進(jìn)行挖掘,引入新穎度指標(biāo)和熱度指標(biāo)來(lái)識(shí)別熱點(diǎn)主題,挖掘出區(qū)塊鏈研究主題及熱點(diǎn)分布.還有部分學(xué)者在研究如何提高分類準(zhǔn)確率,代表性的成果有,郭劍飛[16]采用多個(gè)LDA模型來(lái)增強(qiáng)主題完備性,提升了分類準(zhǔn)確率與穩(wěn)定性;李湘東等[17]考察基于加權(quán)的LDA方法,結(jié)合k近鄰和支持向量機(jī)等算法,提高主題獲取的準(zhǔn)確率;張金柱等[18]探討依存句法抽取短語(yǔ)構(gòu)建短語(yǔ)序列,并結(jié)合向量聚類方法分析研究相似度與潛在合作網(wǎng)絡(luò),結(jié)果可讀性和解釋性更強(qiáng);朱光等[19]利用LDA模型和長(zhǎng)短期記憶模型的關(guān)聯(lián)預(yù)測(cè)方法,可以更準(zhǔn)確挖掘研究主題,分析主題關(guān)聯(lián)關(guān)系;關(guān)鵬等[20]等發(fā)現(xiàn)摘要和關(guān)鍵詞+摘要作為語(yǔ)料的LDA主題抽取的效果均優(yōu)于關(guān)鍵詞作為語(yǔ)料的LDA主題抽取效果;阮光冊(cè)等[21]發(fā)現(xiàn)結(jié)合詞權(quán)重的LDA模型,具有更好的模型擬合度和主題的語(yǔ)義區(qū)分度;李賀等[22]利用LDA模型與Kano模型設(shè)置用戶需求調(diào)查問(wèn)卷,結(jié)合用戶滿意指數(shù)分析各項(xiàng)需求對(duì)用戶滿意度的影響,更有效克服傳統(tǒng)用戶需求調(diào)查方法中存在的需求來(lái)源滯后及可靠性不足等問(wèn)題.
綜上,上述文章對(duì)研究熱點(diǎn)進(jìn)行分析多采用文獻(xiàn)計(jì)量方法,而運(yùn)用LDA主題模型和“摘要+關(guān)鍵詞”分析統(tǒng)計(jì)學(xué)文獻(xiàn)的熱門主題的文章極少.為適應(yīng)當(dāng)前文獻(xiàn)數(shù)量大幅度增加的現(xiàn)狀,本文試圖基于LDA模型,以統(tǒng)計(jì)學(xué)CSSCI期刊為數(shù)據(jù)來(lái)源分析統(tǒng)計(jì)學(xué)學(xué)科熱門主題、演化趨勢(shì)及主流研究方法.
LDA在主題模型中占有非常重要的地位,常用來(lái)對(duì)文本進(jìn)行分類.以下基于LDA模型來(lái)闡述本文的具體研究方法.
LDA作為主題生成模型的一種,意味著文章中的每一個(gè)詞的生成過(guò)程相同,均是文檔先以一定的概率分布挑選一個(gè)主題,接著,該主題又以一定的概率分布生成某一個(gè)詞語(yǔ),如此循環(huán)往復(fù).文檔生成主題屬于多項(xiàng)式分布,主題生成詞語(yǔ)也屬于多項(xiàng)式分布.隱含狄利克雷分布模型的終極目標(biāo)就是找到主題集合,接著把詞-文檔概率分布變成主題-文檔概率分布和詞-主題概率分布.
關(guān)于隱含狄利克雷分布模型的參數(shù)估計(jì)方式,本文綜合考慮其復(fù)雜性、準(zhǔn)確性及可操作性,采用Collapsed Gibbs Sampling算法,即主題-文檔概率分布和詞-主題概率分布.利用積分避開(kāi)待估計(jì)的主題-文檔概率分布θ和詞-主題概率分布φ.一旦知道了每個(gè)詞所屬的主題,就可以通過(guò)統(tǒng)計(jì)頻數(shù)的方式計(jì)算待估計(jì)的主題-文檔概率分布θ和詞-主題概率分布φ.本文采用馬氏鏈蒙特卡羅方法(MCMC)分解問(wèn)題,一次只采樣一個(gè)因變量,采樣公式的最終形式可推導(dǎo)為式(1):
(1)
其中,假設(shè)wi=t,zi表示第i個(gè)單詞所歸屬的主題類別;i表示提取第i項(xiàng);表示k主題中詞項(xiàng)v的出現(xiàn)頻次;βv表示詞項(xiàng)v的Dirichlet先驗(yàn);表示文檔m中主題z的出現(xiàn)頻次;αz表示主題z的Dirichlet先驗(yàn).
當(dāng)?shù)弥總€(gè)單詞w的主題z的編號(hào),則可按下式計(jì)算相關(guān)參數(shù):
(2)
(3)
其中,φk,t表示主題k中出現(xiàn)詞語(yǔ)t的概率;θm, k表示文獻(xiàn)m中主題k所占的比重,若每個(gè)單詞的主題標(biāo)簽明確,代入公式(2)、公式(3)即可完成參數(shù)估計(jì).
LDA主題數(shù)的確定依據(jù)困惑度理論.可用困惑度衡量隱含狄利克雷分布模型擬合的好壞,困惑度越小,擬合度越高.文檔生成模型視為詞在句子中某個(gè)位置的概率分布,表示每一個(gè)詞在此位置出現(xiàn)的概率.
(4)
實(shí)驗(yàn)數(shù)據(jù)通過(guò)Python 3.6爬取自中國(guó)知網(wǎng)中的統(tǒng)計(jì)學(xué)類CSSCI期刊《統(tǒng)計(jì)研究》《統(tǒng)計(jì)與信息論壇》《數(shù)理統(tǒng)計(jì)與管理》《統(tǒng)計(jì)與決策》創(chuàng)辦至今發(fā)布過(guò)的全部文章,共獲取文獻(xiàn)43 001篇.去除與統(tǒng)計(jì)學(xué)專業(yè)知識(shí)無(wú)關(guān)的刊文后保留文獻(xiàn)41 495篇,保留率約96.5%.其中,取自《統(tǒng)計(jì)研究》(5 709篇)占比約13.76%;《統(tǒng)計(jì)與決策》(27 780篇)占比約66.95%;《數(shù)理統(tǒng)計(jì)與管理》(3 771篇)占比約9.09%;《統(tǒng)計(jì)與信息論壇》(4 235篇)占比約10.21%.相關(guān)字段為九個(gè),分別是標(biāo)題、關(guān)鍵字、摘要、作者、作者機(jī)構(gòu)、引用數(shù)、下載數(shù)、出版年月、所屬期刊.
本研究使用摘要作為語(yǔ)料進(jìn)行實(shí)驗(yàn).從實(shí)驗(yàn)的可操作性及期刊的主題可比較性出發(fā),選取2007年1月至2020年12月發(fā)布的文章,刪除期刊導(dǎo)讀、書(shū)評(píng)、投稿須知、啟事、公告、編讀往來(lái)、簡(jiǎn)訊、答疑、選題方向等無(wú)摘要的文獻(xiàn)后保留文獻(xiàn)26 397篇(其中《統(tǒng)計(jì)研究》2 830篇,《統(tǒng)計(jì)與決策》18 838篇,《數(shù)理統(tǒng)計(jì)與管理》1 759篇,《統(tǒng)計(jì)與信息論壇》2 970篇).
首先對(duì)原始語(yǔ)料庫(kù)進(jìn)行預(yù)處理.用jieba分詞庫(kù)把一句話切分成若干個(gè)詞語(yǔ),采用停用詞及自定義字典兩種方式進(jìn)行文本整體去噪和分詞去噪,然后統(tǒng)一轉(zhuǎn)換為易于理解的向量空間模型.
借助math庫(kù)的自定義函數(shù)計(jì)算困惑度[23],獲取“文檔摘要-表征詞”的稀疏表征、主題數(shù)量以及模型擬合結(jié)果.經(jīng)過(guò)多次實(shí)驗(yàn)發(fā)現(xiàn)主題數(shù)量為20時(shí)最符合“統(tǒng)計(jì)學(xué)”的實(shí)驗(yàn)?zāi)P?,每個(gè)主題由高比率表征詞按比率從大到小依次排列組成,它們共同代表了這一主題的主旨含義.邀請(qǐng)兩位同行專家在多次協(xié)商后分別對(duì)每個(gè)主題用統(tǒng)計(jì)學(xué)領(lǐng)域代表性術(shù)語(yǔ)對(duì)各個(gè)主題進(jìn)行標(biāo)簽標(biāo)注.并將抽取出的20個(gè)研究主題分為13個(gè)內(nèi)容型主題(topic-1到 topic-13)和7個(gè)方法型主題(topic-14到 topic-20),如表1所示.
表1 主題屬性分類與主題表征詞展示Tab.1 Topic attribute classification and topic epithet display
續(xù)表1
從表征詞覆蓋率(即每個(gè)表征詞的概率和)對(duì)各個(gè)主題進(jìn)行評(píng)價(jià),以了解模型的優(yōu)劣.高質(zhì)量主題的表征詞詞頻概率分布一般表現(xiàn)為嚴(yán)重的偏斜狀態(tài),較少的核心詞以高概率出現(xiàn),其他絕大多數(shù)詞語(yǔ)出現(xiàn)的概率很小.而低質(zhì)量主題的表征詞一般由若干隨機(jī)單詞構(gòu)成,且每個(gè)詞的出現(xiàn)概率較小,很難找到核心表征詞主題.所以,可以根據(jù)表征詞的覆蓋率對(duì)主題的質(zhì)量進(jìn)行篩選.設(shè)Pij是第i個(gè)主題的第j個(gè)表征詞出現(xiàn)的概率,可將第i個(gè)topic的前m個(gè)詞的概率和Coverage(i,m)定義為:
(5)
本文選取m=20時(shí)的表征詞覆蓋率.在爬取的字段中,“引用數(shù)”與“下載數(shù)”為數(shù)值型數(shù)據(jù),可以直接分析使用;“關(guān)鍵詞”與“作者機(jī)構(gòu)”存儲(chǔ)在列表中,為半結(jié)構(gòu)化數(shù)據(jù),通過(guò)切分計(jì)數(shù)可衍生數(shù)值型特征(如關(guān)鍵詞出現(xiàn)頻次,關(guān)鍵詞-作者機(jī)構(gòu)共現(xiàn)頻次);“標(biāo)題”與“摘要”屬于非結(jié)構(gòu)化文本數(shù)據(jù).本研究基于以上三類數(shù)據(jù),對(duì)統(tǒng)計(jì)學(xué)期刊的關(guān)鍵詞分布進(jìn)行對(duì)比分析.
從關(guān)鍵詞維度看,四大期刊創(chuàng)辦至今涉及關(guān)鍵詞3.4萬(wàn)個(gè),其中2007—2013年統(tǒng)計(jì)學(xué)的熱門關(guān)鍵詞如圖1所示,2014—2020年統(tǒng)計(jì)學(xué)的熱門關(guān)鍵詞分布如圖2所示.兩張圖中均出現(xiàn)經(jīng)濟(jì)增長(zhǎng)、面板數(shù)據(jù)、貨幣政策、聚類分析、指標(biāo)體系等詞,表明這些詞是統(tǒng)計(jì)學(xué)領(lǐng)域持續(xù)的熱門話題和主流方法.根據(jù)2007—2013年的關(guān)鍵詞,前7年統(tǒng)計(jì)學(xué)的研究熱點(diǎn)集中在國(guó)內(nèi)生產(chǎn)總值、時(shí)間序列預(yù)測(cè)及金融產(chǎn)品的組合投資方面;最常使用的方法是GM(灰色模型法)、VaR(風(fēng)險(xiǎn)價(jià)值模型)和連接函數(shù).而2014—2020年的統(tǒng)計(jì)學(xué)研究熱點(diǎn)不只是集中在國(guó)內(nèi)生產(chǎn)總值的預(yù)測(cè),更重要的是注重宏觀貨幣調(diào)控、產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化及產(chǎn)業(yè)附加值提高.在研究方法上則大量采用結(jié)構(gòu)方程模型或分位數(shù)回歸法.此外,大數(shù)據(jù)成為近年來(lái)新增的高頻詞,表明大數(shù)據(jù)成為了統(tǒng)計(jì)學(xué)領(lǐng)域的新型熱點(diǎn)話題,揭示了統(tǒng)計(jì)學(xué)學(xué)科未來(lái)的研究走向.
圖1 2007—2013年統(tǒng)計(jì)學(xué)熱門關(guān)鍵詞分布Fig.1 Distribution of popular keywords in statistics from 2007 to 2013
圖2 2014—2020年統(tǒng)計(jì)學(xué)熱門關(guān)鍵詞分布Fig.2 Distribution of popular keywords in statistics from 2014 to 2020
利用LDA潛在主題模型對(duì)預(yù)處理后的語(yǔ)料庫(kù)進(jìn)行聚類,經(jīng)過(guò)Python編程共提煉出20個(gè)主題集群(topic-m),將這些主題集群進(jìn)一步拆分為13個(gè)研究?jī)?nèi)容主題(subject-p)和7個(gè)研究方法主題(method-q).將基于subject-p與method-q在每篇文獻(xiàn)中的共現(xiàn)關(guān)系,建立“subject-method”鄰接矩陣,并進(jìn)行“subject-method”二模網(wǎng)絡(luò)的可視化分析.
3.2.1 “內(nèi)容-方法”二模網(wǎng)絡(luò) 二模網(wǎng)絡(luò)是描述兩種異質(zhì)數(shù)據(jù)之間關(guān)系的網(wǎng)絡(luò).設(shè)S=(s1,s2,…,sp)表示統(tǒng)計(jì)學(xué)領(lǐng)域的“研究?jī)?nèi)容”數(shù)據(jù)集,p=13;M=(m1,m2,…,mq)表示統(tǒng)計(jì)學(xué)領(lǐng)域的“研究方法”數(shù)據(jù)集,q=7;G=(g1,g2,…,gp),其中g(shù)p=(g1n,g2n,…,gqp)表示各研究方法和研究?jī)?nèi)容共現(xiàn)的文獻(xiàn)集合數(shù).
圖3中共有節(jié)點(diǎn)20個(gè),邊31條.其中,紅色圓點(diǎn)表示研究方法(method),灰色圓點(diǎn)表示研究?jī)?nèi)容(subject).與此節(jié)點(diǎn)相連的邊的數(shù)目稱為“度”,“度”越大,圓點(diǎn)越大,表示該研究方法更具普適性或者該研究?jī)?nèi)容為熱門問(wèn)題.邊的粗細(xì)與該研究方法和研究?jī)?nèi)容的共現(xiàn)次數(shù)呈正比關(guān)系,觀察粗邊,可挖掘統(tǒng)計(jì)學(xué)最熱門的研究方法及應(yīng)用最廣泛的領(lǐng)域.統(tǒng)計(jì)學(xué)領(lǐng)域?qū)W者的熱門研究話題及典型研究方法的“內(nèi)容-方法”二模網(wǎng)絡(luò)如圖3所示.
圖3 “內(nèi)容-方法”二模網(wǎng)絡(luò)Fig.3 “Content-method” 2-mode network
3.2.2 一種研究方法對(duì)應(yīng)多項(xiàng)研究?jī)?nèi)容 由圖3可知,較大的method節(jié)點(diǎn)包括method-1評(píng)價(jià)體系、method-2抽樣調(diào)查,并且,這兩個(gè)節(jié)點(diǎn)與周邊研究?jī)?nèi)容連線最多,表明其是統(tǒng)計(jì)學(xué)研究領(lǐng)域中最常被采用的研究方法.
method-1評(píng)價(jià)體系被用于10項(xiàng)研究?jī)?nèi)容,其中,subject-9經(jīng)濟(jì)增長(zhǎng)與subject-6企業(yè)管理與該方法連線較粗,表明method-1評(píng)價(jià)體系在統(tǒng)計(jì)學(xué)77%以上的領(lǐng)域均具有適用性,這與統(tǒng)計(jì)目標(biāo)多為評(píng)估某一政策或某一行為緊密相關(guān).
method-2抽樣調(diào)查被用于8項(xiàng)研究?jī)?nèi)容.由于總體樣本太大或者實(shí)驗(yàn)破壞性強(qiáng),普查不太現(xiàn)實(shí),所以抽樣調(diào)查一直受到傳統(tǒng)統(tǒng)計(jì)學(xué)的青睞,并借助低成本、高成效的優(yōu)勢(shì)成為統(tǒng)計(jì)學(xué)領(lǐng)域主流的研究方法.
3.2.3 一項(xiàng)研究?jī)?nèi)容對(duì)應(yīng)多種研究方法 圖3中,各主題節(jié)點(diǎn)(subject)的大小相似,即與各研究?jī)?nèi)容耦合的研究方法數(shù)目相近,每個(gè)研究主題對(duì)應(yīng)的研究方法約為2~3個(gè).subject-7大數(shù)據(jù)與周圍method的連線最多,包括機(jī)器學(xué)習(xí)、模型改進(jìn)、聚類分析、求最優(yōu)解4種方法.對(duì)大數(shù)據(jù)相關(guān)問(wèn)題的大量研究與近年來(lái)海量數(shù)據(jù)的出現(xiàn)有關(guān),不只是結(jié)構(gòu)化數(shù)據(jù),更多的是半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù).近年來(lái)各類深度學(xué)習(xí)算法、遺傳算法及傳統(tǒng)因子分析、主成分分析的應(yīng)用實(shí)踐是當(dāng)代科研人員急于體現(xiàn)大數(shù)據(jù)價(jià)值的表現(xiàn).
從圖3還可看出, subject-1生產(chǎn)效率對(duì)應(yīng)研究方法有評(píng)價(jià)體系、模型改進(jìn)、最優(yōu)解3種;subject-2金融風(fēng)險(xiǎn)對(duì)應(yīng)的研究方法有評(píng)價(jià)體系、抽樣調(diào)查、最優(yōu)解3種;subject-3貨幣政策對(duì)應(yīng)的研究方法有評(píng)價(jià)體系、模型改進(jìn)2種;subject-4居民消費(fèi)、subject-6企業(yè)管理、subject-9經(jīng)濟(jì)增長(zhǎng)對(duì)應(yīng)的研究方法都有評(píng)價(jià)體系、抽樣調(diào)查2種.
“作者-內(nèi)容-方法”共現(xiàn)是指不同作者的論文其內(nèi)容和方法高度一致.在一個(gè)數(shù)據(jù)集合內(nèi),不同的作者使用的相同主題(topic)越多,則表明他們的研究?jī)?nèi)容越相似;反之,如果某個(gè)主題僅個(gè)別作者討論,則表明其研究?jī)?nèi)容較為獨(dú)特.
本次實(shí)驗(yàn)共涉及1.5萬(wàn)人次作者,依據(jù)普賴斯公式確定候選核心作者.來(lái)自暨南大學(xué)的韓兆洲教授發(fā)表CSSCI論文最多,累計(jì)發(fā)文59篇,即nmax=59.通過(guò)普萊斯公式可得最低發(fā)文量為M=5.75,表明發(fā)表文獻(xiàn)6篇及以上的作者為候選核心作者,總計(jì)540位.考慮到候選作者數(shù)目較多,為使結(jié)果展示更加清晰明確,本次實(shí)驗(yàn)限制發(fā)文數(shù)在20篇以上,滿足該條件的作者有35人,涉及文獻(xiàn)1 031篇.構(gòu)建的“作者-內(nèi)容-方法”多重共現(xiàn)網(wǎng)絡(luò)如圖4所示.
圖4 “作者-方法-內(nèi)容”多重共現(xiàn)網(wǎng)絡(luò)Fig.4 “Author-methodology-content” co-occurrence network
圖4中共有節(jié)點(diǎn)55個(gè)(包括35個(gè)作者節(jié)點(diǎn)、13個(gè)研究?jī)?nèi)容節(jié)點(diǎn)、7個(gè)研究方法節(jié)點(diǎn)),邊143條.紅色圓點(diǎn)表示作者節(jié)點(diǎn),灰色圓點(diǎn)表示主題節(jié)點(diǎn).度表示與此節(jié)點(diǎn)相連邊的數(shù)目,度越大,則圓點(diǎn)面積越大,表明該作者涉獵的研究面越廣.邊的粗細(xì)與該作者在該研究主題下發(fā)表過(guò)的文獻(xiàn)數(shù)目成正比,邊越粗,也表示該作者越擅長(zhǎng)此領(lǐng)域的研究?jī)?nèi)容或研究方法.由于圖4中的節(jié)點(diǎn)較多,不易觀察,剔除“作者-內(nèi)容-方法”共現(xiàn)頻次≤5次的節(jié)點(diǎn)及邊,并將研究?jī)?nèi)容全部置于左邊,研究方法置于右邊,作者節(jié)點(diǎn)置于中間,精煉版的“作者-方法-內(nèi)容”共現(xiàn)網(wǎng)絡(luò)如圖5所示.
圖5 “作者-方法-內(nèi)容”共現(xiàn)網(wǎng)絡(luò)(精煉版)Fig.5 “Author-methodology-content” co-occurrence network(optimized version)
依據(jù)圓點(diǎn)大小,涉及研究范圍較廣的學(xué)者有暨南大學(xué)韓兆洲和劉建平、廈門大學(xué)朱建平、中國(guó)人民大學(xué)金勇進(jìn)、中國(guó)人民大學(xué)孟生旺.從研究?jī)?nèi)容來(lái)看,subject-7大數(shù)據(jù)和subject-8時(shí)間序列領(lǐng)域的引領(lǐng)研究學(xué)者為朱建平,subject-3貨幣政策的引領(lǐng)學(xué)者為許滌龍,且其慣用研究方法為method-1評(píng)價(jià)體系法;subject-6企業(yè)管理領(lǐng)域的代表研究者為孟生旺,subject-9經(jīng)濟(jì)增長(zhǎng)領(lǐng)域的代表科研人員為劉建平.從研究方法來(lái)看,method-1評(píng)價(jià)體系法及method-2抽樣調(diào)查法仍是Top熱門作者最慣用的研究手段,與上節(jié)“內(nèi)容-方法”二模共現(xiàn)網(wǎng)絡(luò)分析結(jié)論呈現(xiàn)一致性.
從作者角度出發(fā),依據(jù)邊的粗細(xì),可以揭示“作者-內(nèi)容-方法”隱性關(guān)聯(lián)組.比如關(guān)聯(lián)組“許滌龍-subject-3貨幣政策-method-1評(píng)價(jià)體系”“朱建平-subject-7大數(shù)據(jù)-method-6機(jī)器學(xué)習(xí)”等.據(jù)此關(guān)聯(lián)組可得到,許滌龍常用評(píng)價(jià)體系法研究貨幣政策相關(guān)問(wèn)題,朱建平常用機(jī)器學(xué)習(xí)相關(guān)方法研究大數(shù)據(jù)領(lǐng)域問(wèn)題.由此可方便研究人員了解統(tǒng)計(jì)學(xué)各領(lǐng)域的熱門研究方法及領(lǐng)軍學(xué)者,節(jié)省研究前人成果的時(shí)間.
統(tǒng)計(jì)學(xué)的四大CSSCI期刊自創(chuàng)刊以來(lái),其研究范疇及應(yīng)用領(lǐng)域隨著時(shí)代的發(fā)展呈現(xiàn)出不同的特點(diǎn).本節(jié)將15年的刊文分為兩個(gè)時(shí)間段(2007—2013年和2014—2020年),采用與上節(jié)相同的方式構(gòu)建“時(shí)間-內(nèi)容-方法”多重共現(xiàn)網(wǎng)絡(luò),以此反映統(tǒng)計(jì)學(xué)領(lǐng)域各主題強(qiáng)度的變化趨勢(shì).
依據(jù)LDA潛在主題模型可確定每篇文獻(xiàn)的出版時(shí)間與其所屬研究?jī)?nèi)容類別、研究方法類別的對(duì)應(yīng)關(guān)系.統(tǒng)計(jì)“時(shí)間-內(nèi)容”“時(shí)間-方法”的共現(xiàn)頻次后,可得“時(shí)間-內(nèi)容”共現(xiàn)矩陣及“時(shí)間-方法”共現(xiàn)矩陣.構(gòu)建的“時(shí)間-內(nèi)容-方法”三模共現(xiàn)網(wǎng)絡(luò)如圖6所示.
從研究?jī)?nèi)容角度看,每項(xiàng)研究?jī)?nèi)容在兩個(gè)時(shí)間段內(nèi)均有出現(xiàn),只是強(qiáng)度不同,呈現(xiàn)出穩(wěn)中有變趨勢(shì).subject-9經(jīng)濟(jì)增長(zhǎng)歷年來(lái)都是熱門話題,subject-7大數(shù)據(jù)近5年上升態(tài)勢(shì)最為明顯.在13個(gè)研究?jī)?nèi)容中,明顯呈現(xiàn)強(qiáng)度上升態(tài)勢(shì)的主題有subject-7大數(shù)據(jù)、subject-13生態(tài)協(xié)調(diào);呈現(xiàn)明顯強(qiáng)度減弱態(tài)勢(shì)的是subject-8時(shí)間序列、subject-9經(jīng)濟(jì)增長(zhǎng);其余9個(gè)研究?jī)?nèi)容的主題變化趨勢(shì)不明顯.subject-7大數(shù)據(jù)強(qiáng)度趨勢(shì)呈上升態(tài)勢(shì).這是隨著2015年我國(guó)提出“國(guó)家大數(shù)據(jù)戰(zhàn)略”,學(xué)界對(duì)大數(shù)據(jù)研究越來(lái)越重視的一個(gè)積極響應(yīng).2017年,習(xí)近平總書(shū)記在十九大報(bào)告中明確提出綠水青山就是金山銀山、人和自然和諧并存的發(fā)展理念.在這種背景下,subject-13生態(tài)協(xié)調(diào)主題強(qiáng)度趨勢(shì)也呈上升態(tài)勢(shì).
圖6 “時(shí)間-內(nèi)容-方法”共現(xiàn)網(wǎng)絡(luò)Fig.6 “Time-content-methodology” co-occurrence network
從研究方法視角看,有的研究方法在兩個(gè)時(shí)間段內(nèi)均出現(xiàn),特別是評(píng)價(jià)體系和參數(shù)估計(jì),在兩個(gè)時(shí)間段內(nèi)都是主流研究方法.近年來(lái),隨著云存儲(chǔ)、分布式計(jì)算的出現(xiàn),大數(shù)據(jù)記錄與處理技術(shù)快速發(fā)展,數(shù)據(jù)使用者可以使用hive、spark、flink對(duì)數(shù)據(jù)總體分布進(jìn)行統(tǒng)計(jì),因此,抽樣調(diào)查主題強(qiáng)度明顯下降.
另外,機(jī)器學(xué)習(xí)主題強(qiáng)度呈現(xiàn)上升態(tài)勢(shì).機(jī)器學(xué)習(xí)作為人工智能的重要分支,是大數(shù)據(jù)領(lǐng)域最常用的研究方法.隨著數(shù)據(jù)生成速度的不斷加快,數(shù)據(jù)量空前增加,與之相對(duì)應(yīng),各種新型數(shù)據(jù)分析方法和技術(shù)應(yīng)運(yùn)而生,包括深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)等,這些新技術(shù)為海量文本和圖像的處理提供支持.
本文以1985—2020年CNKI數(shù)據(jù)庫(kù)收錄的統(tǒng)計(jì)學(xué)CSSCI期刊41 495篇文獻(xiàn)為研究對(duì)象,運(yùn)用LDA主題模型及共現(xiàn)網(wǎng)絡(luò)模型對(duì)熱門主題、演化趨勢(shì)及主流研究方法等指標(biāo)進(jìn)行分析,并繪制相關(guān)知識(shí)網(wǎng)絡(luò)圖譜.研究表明,統(tǒng)計(jì)學(xué)領(lǐng)域持續(xù)關(guān)注的熱門主題和研究方法是經(jīng)濟(jì)增長(zhǎng)、面板數(shù)據(jù)、貨幣政策、聚類分析、指標(biāo)體系等詞.近5年來(lái)研究方法上則大量采用結(jié)構(gòu)方程模型和分位數(shù)回歸法,大數(shù)據(jù)成為近年來(lái)新增的高頻詞,表明大數(shù)據(jù)成為統(tǒng)計(jì)學(xué)領(lǐng)域的新型熱點(diǎn)話題.構(gòu)建的統(tǒng)計(jì)學(xué)領(lǐng)域知識(shí)網(wǎng)絡(luò)顯示近十年的研究主題可概括為13個(gè)內(nèi)容型主題,7個(gè)方法型主題.在主題強(qiáng)度變化維度上,近5年來(lái)大數(shù)據(jù)和生態(tài)協(xié)調(diào)兩項(xiàng)研究主題強(qiáng)度上升態(tài)勢(shì)非常明顯;在方法主題維度上,抽樣調(diào)查法主題強(qiáng)度明顯下降,機(jī)器學(xué)習(xí)相關(guān)方法主題強(qiáng)度明顯上升.本文一方面是對(duì)統(tǒng)計(jì)學(xué)學(xué)科近年來(lái)的整體回顧,另一方面也是希望幫助學(xué)者把握發(fā)展趨勢(shì),進(jìn)而輔助科研選題與決策,找到創(chuàng)新突破口,為推動(dòng)科技創(chuàng)新提供參考.
華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年5期