任敏慧, 樊 宇,2
(1.北京信息科技大學 經(jīng)濟管理學院, 北京 100192; 2.綠色發(fā)展大數(shù)據(jù)決策北京市重點實驗室, 北京 100192)
當前,學科在發(fā)展中不斷融合,學術(shù)研究中普遍存在學科交叉現(xiàn)象,不同學科之間的壁壘不再明顯。自然語言處理(natural language processing, NLP)是計算機語言學的分支之一,是計算機文化的開路先鋒,是一門跨語言、信息、認知科學和計算機技術(shù)的邊緣學科[1]。近年來各類互聯(lián)網(wǎng)平臺快速發(fā)展,自然語言信息體量的迅速增長,在學科融合的背景下,NLP技術(shù)已在人文社會科學各個領(lǐng)域產(chǎn)生廣泛而深遠的影響[2],相關(guān)技術(shù)被應(yīng)用于機器翻譯[3-4]、情感分析[5]、文本分類[6-9]等場景,場景的應(yīng)用需求也不斷推動人文社會科學領(lǐng)域發(fā)現(xiàn)新問題,創(chuàng)造新任務(wù),開拓新方法。
引文分析是文獻計量研究中的重要方法,CiteSpace等科學計量學工具從引文分析的角度,為研究知識擴散和知識整合現(xiàn)象提供方法支撐[10-11]。然而,引文分析在知識發(fā)現(xiàn)中存在滯后性[12],因此僅利用上述工具完成研究主題發(fā)展路徑的準確識別依然存在困難。同時,從研究主題看,NLP領(lǐng)域已有的研究綜述大多基于計算機技術(shù)視角或僅針對某一個單獨的研究方向[5,13-16],在學科不斷交叉與融合的背景下,這些研究難以概述NLP技術(shù)應(yīng)用的發(fā)展歷史,也無法進一步探究NLP對其他學科領(lǐng)域產(chǎn)生的影響[17]。
本文旨在利用引文分析法,綜合分析NLP各研究方向的歷史發(fā)展脈絡(luò),全面準確地刻畫其應(yīng)用發(fā)展路徑。首先,基于NLP領(lǐng)域2010—2021年年國內(nèi)CSSCI的文獻,利用CiteSpace軟件從作者、機構(gòu)、研究主題、研究內(nèi)容時區(qū)演化等角度對該領(lǐng)域研究現(xiàn)狀進行分析;其次,基于關(guān)鍵詞信息,利用關(guān)鍵詞階段演進與中心度特征構(gòu)建技術(shù)應(yīng)用發(fā)展路徑框架,并根據(jù)研究熱點偏移情況,最終形成NLP技術(shù)在社科領(lǐng)域主要應(yīng)用方向的發(fā)展路徑。
在中國知網(wǎng)搜索主題詞為“自然語言處理”的學術(shù)期刊,利用知網(wǎng)自動統(tǒng)計功能,統(tǒng)計該主題的年度發(fā)文趨勢和關(guān)鍵詞分布,結(jié)果如圖1和圖2所示。
圖1 主題檢索年發(fā)文量
圖2 主題數(shù)量統(tǒng)計
年度發(fā)文數(shù)據(jù)表明近年來NLP領(lǐng)域受到越來越多國內(nèi)研究人員的重視,該技術(shù)在我國社會科學領(lǐng)域的應(yīng)用更加廣泛。從NLP技術(shù)發(fā)展視角,2013年CBOW和Skip-Gram模型被提出[18],基于這兩種模型,可計算得到高質(zhì)量的詞向量,并可實現(xiàn)語義合成;2017年Transformer模型被提出[19],結(jié)束之前以RNN為主要基線結(jié)構(gòu)的時代,對眾多學者的研究方式產(chǎn)生重大影響。按照上述兩次里程碑事件將2010—2021年劃分成三個階段,考慮到技術(shù)發(fā)展和應(yīng)用之間存在一定的時間差,以2014年和2018年作為第二、三階段的開端。
最終劃分2010—2013年為平穩(wěn)期,在該階段發(fā)文數(shù)量沒有明顯的增長特征,每年的發(fā)文數(shù)量都在100篇以下;2014—2017年為增長期,發(fā)文數(shù)量明顯呈現(xiàn)逐年遞增的趨勢;2018—2021年為爆發(fā)期,每年的發(fā)文數(shù)量急劇增加,增速持續(xù)保持在相對較高的水平。
圖2中,一些關(guān)鍵詞具有較強領(lǐng)域特征或方法特征,還有一些關(guān)鍵詞發(fā)文量較多,并在我國社會科學領(lǐng)域被廣泛應(yīng)用,根據(jù)這些關(guān)鍵詞繼續(xù)添加檢索條件。設(shè)置檢索條件的主題為“文本分類”“情感分析”“知識圖譜”“機器翻譯”“NLP”“實體識別”“問答系統(tǒng)”“中文分詞”“注意力機制”,設(shè)置時間為2010—2021年,篩選出CSSCI來源的期刊,一共得到4 445篇相關(guān)文獻,從中剔除如翻譯、教育等專業(yè)性極強的文章,剔除領(lǐng)域和研究主題與本文差異程度較大的文獻計量類文章,這些發(fā)文對本文研究意義較小。最終導(dǎo)出1 968篇文獻,利用CiteSpace軟件進行格式轉(zhuǎn)化處理,得到的文獻記錄全部有效。
表1 主要作者統(tǒng)計
對作者之間的合作關(guān)系進行可視化呈現(xiàn),以分析本領(lǐng)域作者的合作關(guān)系特征。作者合作關(guān)系圖譜如圖3所示。
圖3 作者合作關(guān)系圖譜
在圖3中,節(jié)點代表學者,邊代表學者間存在合作關(guān)系。圖中節(jié)點共460個,邊為235條,密度為0.002 2。國內(nèi)的作者合作網(wǎng)絡(luò)主要有王昊、鄧三鴻、王東波等形成的網(wǎng)絡(luò),主要研究內(nèi)容包括情感分析、文本分類、效果評價等;袁勤儉、沈洪洲、宋乾進等形成的網(wǎng)絡(luò),主要以知識圖譜的方法對領(lǐng)域問題進行研究;鮮國建、趙瑞雪、寇遠濤等形成的網(wǎng)絡(luò),主要對農(nóng)業(yè)知識服務(wù)進行研究,這些作者合作關(guān)系廣,但合作次數(shù)較少。
高校在人文社會科學研究中發(fā)揮著重要作用[21],如圖4所示,NLP技術(shù)在我國社科領(lǐng)域的研究機構(gòu)主要有各高校信息管理類學院等圖書情報類研究機構(gòu),發(fā)文量占比較大的高校有武漢大學、南京大學、中山大學、吉林大學等。
圖4 主要研究機構(gòu)占比統(tǒng)計
對比圖4和表1結(jié)果可知,武漢大學信息管理學院總發(fā)文量多于南京大學信息管理學院,但作者最大發(fā)文量為8篇,遠少于南京大學信息管理學院王昊的15篇,說明兩個單位的研究力量存在不同優(yōu)勢特點。
如圖5所示,基于機構(gòu)間合作關(guān)系形成以南京大學信息管理學院和武漢大學信息管理學院為核心的兩大機構(gòu)群,此外武漢大學還擁有信息資源研究中心,該研究中心由原武漢大學圖書館學情報學研究所改組而來,已成為針對社會經(jīng)濟信息化問題重要的研究機構(gòu)。
圖5 主要研究機構(gòu)合作關(guān)系
基于CiteSpace軟件的關(guān)鍵詞聚類得到圖6所示的關(guān)鍵詞聚類圖,所有關(guān)鍵詞被聚類到特定網(wǎng)絡(luò)類別中,整個網(wǎng)絡(luò)有節(jié)點545個,邊1 229條,密度為0.008 3。所有文獻被聚為10個類別,并用不同顏色加以區(qū)分,聚類平均輪廓值為0.868 7,聚類模塊值為0.525 4。平均輪廓值大于0.5,可認為聚類合理;大于0.7,可認為聚類是令人信服的;聚類模塊值大于0.3,表明聚類結(jié)構(gòu)顯著[22]。
圖6 關(guān)鍵詞聚類
根據(jù)具體研究內(nèi)容,將CiteSpace的聚類代表性標簽繼續(xù)分類,結(jié)果如表2所示,共得到4種分類主題,第一類包含知識發(fā)現(xiàn)的相關(guān)關(guān)鍵詞,主要研究內(nèi)容包括作者的合作關(guān)系、研究內(nèi)容的發(fā)展路徑、研究內(nèi)容的熱點前沿和演化過程等;第二類指文本數(shù)據(jù)處理關(guān)鍵詞,包含特征選擇、聚類分析等方法;第三類是NLP技術(shù)在翻譯領(lǐng)域的應(yīng)用;第四類是指情感分析的方法和應(yīng)用,情感分析多應(yīng)用在如用戶評論等主觀傾向較為明顯的語料中。
表2 關(guān)鍵詞分類
CiteSpace所形成的關(guān)鍵詞時區(qū)圖能夠分階段展現(xiàn)文獻研究內(nèi)容的演化情況。按照階段對時間進行劃分,得到如圖7所示的時區(qū)視圖。
圖7 時區(qū)視圖
第一階段(2010—2013年)出現(xiàn)的關(guān)鍵詞對應(yīng)NLP領(lǐng)域不同研究內(nèi)容以及應(yīng)用方法,研究內(nèi)容如知識圖譜、情感分析、機器翻譯等,研究方法如機器學習、聚類分析、詞頻分析等。
第二階段(2014—2017年)的關(guān)鍵詞有深度學習、神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)、研究動態(tài)等,說明深度學習模型開始被應(yīng)用于相關(guān)研究。由于文本數(shù)據(jù)首先需要進行轉(zhuǎn)化才能被數(shù)學模型所處理,因此詞嵌入成為一個關(guān)鍵環(huán)節(jié),高質(zhì)量的詞向量為深度學習模型的應(yīng)用奠定基礎(chǔ)。
第三階段(2018—2021年)關(guān)鍵詞有集成學習、遷移學習、知識融合等。在第三階段,NLP在我國社科領(lǐng)域的研究與應(yīng)用整體呈現(xiàn)方法融合、領(lǐng)域融合的態(tài)勢,Bommasani等[23]預(yù)訓練模型的出現(xiàn)對社科領(lǐng)域研究方法產(chǎn)生深遠影響,后續(xù)模型架構(gòu)發(fā)生改變,并呈現(xiàn)明顯的同質(zhì)性,同時,計算與人文學科之間的聯(lián)系與研究得到進一步加深。
利用正則表達式提取6種具有不同階段演進特征的關(guān)鍵詞:在第一、二、三階段都出現(xiàn),只在第一、二階段出現(xiàn),只在第二、三階段出現(xiàn),分別只在第一、二、三階段出現(xiàn),分別得到146、59、207、467、809、2 037個關(guān)鍵詞。利用CiteSpace計算每個關(guān)鍵詞的中心度,篩選出60個中心度≥0.01的關(guān)鍵詞,結(jié)果如表3所示。
表3 中心度≥0.01的關(guān)鍵詞
基于表3對具有階段演進特征的關(guān)鍵詞進行過濾,得到具有階段演進特征的重要關(guān)鍵詞如圖8所示。其中三個階段都出現(xiàn)的關(guān)鍵詞沒有在圖中展示,包括中文分詞、共詞分析、信息抽取、在線評論等34個關(guān)鍵詞。
圖8 具有階段分布特征的關(guān)鍵詞
獲取以上關(guān)鍵詞所屬文章的完整關(guān)鍵詞集合,并提取這些文章共同的關(guān)鍵詞,據(jù)此構(gòu)建如圖9~圖13所示的技術(shù)發(fā)展路徑框架。其中,橫線表示技術(shù)演化的方向,橫線上方表示多篇文章共同的關(guān)鍵詞,橫線下方表示重要關(guān)鍵詞及其所屬文章的關(guān)鍵詞集合。
圖9 第一、二階段關(guān)鍵詞
圖10 第二階段關(guān)鍵詞
圖11 第二、三階段關(guān)鍵詞
圖12 第二、三階段關(guān)鍵詞(二)
圖13 第三階段關(guān)鍵詞
NLP技術(shù)在我國社科領(lǐng)域應(yīng)用的關(guān)鍵詞演變情況如圖9~圖13所示:在第一、二階段出現(xiàn)的互信息,以及與之共同出現(xiàn)的SVM、決策樹等方法在第三階段消失,而深度學習、注意力機制等模型和方法在第三階段出現(xiàn),說明在我國社科領(lǐng)域NLP的相關(guān)研究方法在不斷地更新迭代,并與計算機緊密結(jié)合,進一步說明NLP在我國社科領(lǐng)域的研究充分具備基礎(chǔ)活力;第二、三階段出現(xiàn)的輿情、社交網(wǎng)絡(luò)、突發(fā)事件等研究內(nèi)容在第一階段未出現(xiàn),說明技術(shù)進步對我國社科領(lǐng)域的影響愈加深刻,特定領(lǐng)域知識體系逐漸形成。但以上未對研究方向做區(qū)分,也無法定量考察研究熱點的偏移情況,因此有必要結(jié)合關(guān)鍵詞的詞頻信息進一步研究。
分別統(tǒng)計三個階段關(guān)鍵詞的詞頻,表4以各關(guān)鍵詞數(shù)量在當前階段所占百分比的方式展示。
表4 不同階段的關(guān)鍵詞統(tǒng)計
隨著研究階段的推進,不同研究內(nèi)容的文獻數(shù)量占比也在發(fā)生改變,該現(xiàn)象與NLP技術(shù)在我國社科領(lǐng)域研究和應(yīng)用的熱點偏移情況相契合。如圖6和圖7所示,NLP技術(shù)在我國社會科學領(lǐng)域主要分為4個應(yīng)用方向,分別為文本分類、科學知識圖譜、機器翻譯和情感分析,在表4中,文本分類發(fā)文數(shù)在第一階段比例最大,但在第二、三階段比例持續(xù)降低;科學知識圖譜的發(fā)文比例有所降低,但維持在中間水平;機器翻譯在第二階段的發(fā)文比例較小,在第三階段增加;情感分析在第一階段發(fā)文數(shù)相對較少,但在第二、三階段增多。
結(jié)合上文所述的技術(shù)發(fā)展路徑框架和表4所展示的熱點偏移情況,并輔以文獻查找,分別統(tǒng)計4個方向發(fā)文所涉及的具體方法,最終各方向的發(fā)展路徑如圖14所示。
圖14 4個研究方向應(yīng)用發(fā)展路徑
綜合圖9~圖14,文本分類、機器翻譯、情感分析3個方向的研究方法在我國社科領(lǐng)域的應(yīng)用整體上經(jīng)歷了由機器學習到深度學習、由獨立模型到集成模型、由粗粒度任務(wù)到細粒度任務(wù)的演化進程,在最后一階段的研究大都應(yīng)用深度學習模型,在解決社科問題的同時,為構(gòu)建AI治理貢獻解決方案,實現(xiàn)人與智能體的相互依存,進而實現(xiàn)AI賦能社會[24]??茖W知識圖譜的研究方法變化不明顯,其主要方法包括可視化、文獻計量、詞共現(xiàn)等,但其研究主題有明顯變化。
3.4.1 文本分類應(yīng)用的發(fā)展路徑
文本分類技術(shù)在我國社科領(lǐng)域應(yīng)用的前兩個階段大多基于概率分布模型,如SVM、LDA模型和TF-IDF算法等,后續(xù)學者在此基礎(chǔ)上進行改進,并將其應(yīng)用于各個場景,第三階段的學者則明顯傾向于應(yīng)用集成學習和深度學習模型。隨著我國社科領(lǐng)域各應(yīng)用場景進一步擴展,以及場景細分下分類模型的效果不斷提升,相關(guān)研究與社科研究場景融合進一步加深,純粹針對文本分類的創(chuàng)新潛在機會變少,因此該方向發(fā)文數(shù)量逐漸減少。
3.4.2 科學知識圖譜應(yīng)用的發(fā)展路徑
在科學知識圖譜發(fā)展路徑中,值得注意的關(guān)鍵詞有區(qū)塊鏈、協(xié)同創(chuàng)新等,這些關(guān)鍵詞大多出現(xiàn)在第三階段。針對該方向,相較于模型應(yīng)用,社科領(lǐng)域?qū)χR發(fā)現(xiàn)的研究結(jié)果以及其結(jié)論更為重視,因此我國社會科學領(lǐng)域大量學者針對自己的細分研究領(lǐng)域開展了調(diào)查研究。第三階段NLP在我國社會科學領(lǐng)域的應(yīng)用研究具有以下特點:①學科融合化,如對體育管理學、農(nóng)村體育的研究;②產(chǎn)業(yè)新興性,如對區(qū)塊鏈、協(xié)同創(chuàng)新機制的研究;③政策理論化,如鄉(xiāng)建研究、廉政研究;④方向創(chuàng)新性,如對靜坐少動行為的研究,對農(nóng)民工城市化的研究。學科概念在不斷的融合與創(chuàng)新中得到發(fā)展,新的研究領(lǐng)域持續(xù)涌現(xiàn),科學知識圖譜的構(gòu)建工作始終在進行,因此該方向的發(fā)文保持相對平衡的數(shù)量。
3.4.3 機器翻譯應(yīng)用的發(fā)展路徑
機器翻譯技術(shù)在我國社科領(lǐng)域第一階段的研究和應(yīng)用主要基于依存句法、統(tǒng)計機器翻譯等方法,在第三階段的發(fā)文大多對當前的大數(shù)據(jù)時代具有高度敏感性,有很多學者探討了人工智能發(fā)展和翻譯的聯(lián)系、大數(shù)據(jù)時代的翻譯人才培養(yǎng)、大數(shù)據(jù)時代的譯后編輯工作等。從翻譯技術(shù)到翻譯人才,我國社科領(lǐng)域?qū)τ跈C器翻譯方向的研究內(nèi)容更加豐滿、深刻,Transformer等模型的出現(xiàn)使得機器翻譯技術(shù)得到進一步發(fā)展,因此第三階段發(fā)文數(shù)量增多。
3.4.4 情感分析應(yīng)用的發(fā)展路徑
情感分析本身具有從用戶角度出發(fā)的屬性,與人類社會構(gòu)成的聯(lián)系較緊密,因此相關(guān)技術(shù)被廣泛應(yīng)用于我國社科領(lǐng)域的相關(guān)研究。情感分析方向的研究在第一階段主要針對情感極性的分類方法;在第二階段將情感極性拓展至用戶滿意度、輿情、社交網(wǎng)絡(luò)等概念,說明情感分析得到進一步的研究和應(yīng)用;在第三階段的研究對象變化不大,但發(fā)文明顯更傾向于對深度學習模型、多模態(tài)分析、細粒度分析等方法的應(yīng)用,其中細粒度情感分析往往以實體識別作為前置任務(wù)。社會科學領(lǐng)域?qū)η楦蟹治龅囊蟛粩嗵岣?細粒度情感分析逐漸成為該方向的熱門研究內(nèi)容,因此該方向的發(fā)文持續(xù)增加。
綜上,從文本分類、科學知識圖譜、機器翻譯、情感分析4個方向出發(fā),NLP技術(shù)在我國社會科學領(lǐng)域研究和應(yīng)用的發(fā)展路徑構(gòu)建完成。相較于關(guān)鍵詞聚類分析,在分類基礎(chǔ)上將各類別的邏輯關(guān)系納入考慮,形成如圖14具有“研究方向-階段分布-統(tǒng)一方法”具有遞進邏輯層次關(guān)系的發(fā)展路徑;相較于關(guān)鍵詞時區(qū)視圖,在最大限度避免重要信息丟失的情況下,清晰刻畫各研究方向的關(guān)鍵詞階段演進路線,并通過定量計算總結(jié)出各研究方向研究熱度和主流研究方法的偏移情況。
以中國知網(wǎng)數(shù)據(jù)庫中CSSCI期刊在2010—2021年自然語言處理領(lǐng)域的發(fā)文為樣本,借助CiteSpace軟件可視化功能,結(jié)合階段演進和中心度特征,通過分階段的關(guān)鍵詞篩選和熱點偏移研究,分別對文本分類、科學知識圖譜、機器翻譯、情感分析4個方向進行挖掘,識別與構(gòu)建出自然語言處理技術(shù)在我國社會科學領(lǐng)域應(yīng)用的發(fā)展路徑。結(jié)果表明,我國社會科學領(lǐng)域自然語言處理技術(shù)發(fā)展與應(yīng)用需求相互促進,在短短的十余年間,主流技術(shù)從機器學習到深度學習,再到預(yù)訓練模型不斷演進,這離不開學者的國際視野以及其良好的信息素養(yǎng)[25]。
此外,NLP與社會科學各細分領(lǐng)域研究的結(jié)合得到不斷加深,不同學科之間的融合日益緊密,在知識圖譜研究方法的支持下,我國社會科學領(lǐng)域中越來越多的知識體系得以建立和發(fā)展,NLP技術(shù)在模型算法、關(guān)鍵任務(wù)、場景應(yīng)用等不同維度上對其他研究領(lǐng)域產(chǎn)生了廣泛影響。
本文也存在局限性,一方面,主體研究內(nèi)容基本基于關(guān)鍵詞信息,但關(guān)鍵詞是一種知識要素載體,欠缺對知識要素本身的挖掘[12];另一方面,由于各研究方向絕對數(shù)量的差異,發(fā)文較少的方向可能被掩蓋,因此內(nèi)容局限于文中所述的4個研究方向,后續(xù)研究將會針對以上兩方面問題進行改進。