趙 磊,章成志
(南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院信息管理系,南京 210094)
隨著信息技術(shù)的進(jìn)步和開放獲取運(yùn)動(dòng)的日益蓬勃發(fā)展,以期刊、報(bào)告、會(huì)議為代表的全文本數(shù)據(jù)獲取更加容易,數(shù)據(jù)量呈爆發(fā)式增長(zhǎng)。與此同時(shí),自然語言處理、機(jī)器學(xué)習(xí)等計(jì)算機(jī)技術(shù)不斷發(fā)展,使得對(duì)學(xué)術(shù)論文的挖掘分析深入到全文之中。與基于機(jī)器可讀目錄等元數(shù)據(jù)進(jìn)行的傳統(tǒng)文獻(xiàn)計(jì)量研究相比,基于全文本文獻(xiàn)的計(jì)量研究在引用行為、實(shí)體抽取、關(guān)鍵詞自動(dòng)抽取、新興研究話題和新興技術(shù)預(yù)測(cè)等方面為文獻(xiàn)計(jì)量學(xué)的研究提供了更加廣闊的空間[1]。
盡管全文本文獻(xiàn)的獲取更加容易,但是與標(biāo)題和摘要相比,文獻(xiàn)的全文內(nèi)容仍然較難獲取,例如在Web of Science(簡(jiǎn)稱WOS)數(shù)據(jù)庫(kù)中,只提供了文獻(xiàn)的標(biāo)題和摘要內(nèi)容,沒有提供全文內(nèi)容,這給基于全文本文獻(xiàn)的主題分析帶來了困難。因此,分析標(biāo)題和摘要、全文內(nèi)容中的主題差異,對(duì)使用標(biāo)題和摘要中的主題內(nèi)容來揭示全文的研究?jī)?nèi)容具有重要意義。此外,引文內(nèi)容是作者對(duì)他人研究成果的總結(jié)和概括,分析引文內(nèi)容與施引文獻(xiàn)內(nèi)容的主題差異,可以發(fā)現(xiàn)引文內(nèi)容對(duì)其施引文獻(xiàn)內(nèi)容的作用,進(jìn)而分析作者的引用動(dòng)機(jī)[2]。然而,目前鮮有研究從不同內(nèi)容層面:標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容,對(duì)其主題差異進(jìn)行分析,因此該研究是有必要的。
隨著新冠肺炎(簡(jiǎn)稱COVID-19)疫情的爆發(fā)并在全球范圍內(nèi)蔓延,眾多領(lǐng)域的科研人員積極投入到了新冠病毒的研究中,發(fā)表了大量的學(xué)術(shù)成果,為病毒結(jié)構(gòu)分析、病例診斷、疫苗研發(fā)、公共衛(wèi)生管理等工作做出極大貢獻(xiàn)。目前,已有一些研究人員從大量文獻(xiàn)中挖掘信息,為新冠研究提供參考,例如為分析當(dāng)前科學(xué)研究的轉(zhuǎn)變和在全球流行病預(yù)防和控制中的應(yīng)用,YANG 等使用文獻(xiàn)計(jì)量聚類算法從國(guó)際合作、跨學(xué)科合作和研究熱點(diǎn)的角度描述和分析當(dāng)前的COVID-19 研究態(tài)勢(shì)[3]。
為了探究在文獻(xiàn)的標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中的研究主題是否存在差異,并分析國(guó)內(nèi)學(xué)者在應(yīng)對(duì)新冠肺炎疫情的過程中所關(guān)注的主要研究?jī)?nèi)容。本研究將基于新冠領(lǐng)域的中文期刊論文,從文獻(xiàn)的標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中識(shí)別研究主題,并進(jìn)行對(duì)比研究,分析三者之間的主題差異,總結(jié)新冠研究的主要內(nèi)容,為后續(xù)的新冠防治和研究提供參考。
本研究主要使用主題識(shí)別方法來提取新冠論文中的研究主題,并對(duì)文獻(xiàn)的標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中的主題差異進(jìn)行分析。因此,首先介紹了情報(bào)分析和數(shù)據(jù)挖掘領(lǐng)域中主題識(shí)別的相關(guān)方法,并提出了本文所采用的主題識(shí)別方法;然后列舉了基于不同內(nèi)容層面的主題分析研究,提出了本文研究的不同之處。
目前,主題識(shí)別方法主要包括兩類,一類是基于特征詞的主題識(shí)別方法,另一類是基于概率模型的主題識(shí)別方法[4]?;谔卣髟~的主題識(shí)別方法,主要包括詞頻分析法、共詞分析法等。其中,詞頻分析方法主要對(duì)文本中的特征詞進(jìn)行分析,能夠較為直接地反映文本的主要內(nèi)容,例如儲(chǔ)節(jié)旺等[5]運(yùn)用詞頻分析法,對(duì)文獻(xiàn)關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì),分析了2002—2011 年10年來知識(shí)管理領(lǐng)域的研究熱點(diǎn)、應(yīng)用領(lǐng)域和研究方法。共詞分析法是在詞頻統(tǒng)計(jì)的基礎(chǔ)上,更加關(guān)注特征詞的共現(xiàn)關(guān)系,例如陳紅琳等[6]以國(guó)內(nèi)文本情感分析的學(xué)術(shù)論文為對(duì)象,利用共詞分析法,研究關(guān)鍵詞之間的聯(lián)系,探討了近10 年來在文本情感分析的研究熱點(diǎn)及現(xiàn)狀。此外,這兩種方法還可以進(jìn)行融合,共同用于主題識(shí)別研究,如高勁松等[7]構(gòu)建了一個(gè)詞頻分析和共詞分析融合的關(guān)鍵詞頻度演化模型,以揭示學(xué)科熱點(diǎn)及其類團(tuán)結(jié)構(gòu)的變化情況。
在基于概率模型的主題識(shí)別方法中,具有代表性的模型方法是LDA 模型[8]。該模型用一個(gè)服從Dirichlet 分布的K 維隱含隨機(jī)變量表示文檔的主題概率分布,模擬文檔的生成過程,可用于從大規(guī)模文檔數(shù)據(jù)中抽取潛在主題,已經(jīng)被廣泛應(yīng)用于各類文本的主題識(shí)別任務(wù)中,例如BOON-ITT[9]為了分析Twitter 用戶在新冠疫情期間關(guān)注的話題,使用LDA 主題模型和自然語言處理方法分析了107 990 條與新冠相關(guān)的Twitter 推文。
雖然LDA 模型逐漸成為主題識(shí)別領(lǐng)域的主要方法之一,但由于LDA 采用詞袋模型,僅考慮一個(gè)詞匯是否在一篇文檔中出現(xiàn),而不考慮其出現(xiàn)的順序[10],使得不同語義的詞匯可能會(huì)出現(xiàn)在同一個(gè)主題下,再加上缺乏研究領(lǐng)域的相關(guān)知識(shí),很難對(duì)每一個(gè)主題進(jìn)行總結(jié)。因此,本文在進(jìn)行主題識(shí)別時(shí),采用基于特征詞的主題識(shí)別方法,即首先從文檔內(nèi)容中抽取特征詞,并使用Word2Vec 模型來訓(xùn)練詞向量,在相鄰詞之間建立語義聯(lián)系;然后使用AP 聚類算法對(duì)特征詞進(jìn)行聚類,以避免相同詞反復(fù)出現(xiàn)在同一簇中,同時(shí)降低不同語義的特征詞出現(xiàn)在同一簇中的可能性;最后采用人工判讀的方式,識(shí)別文檔內(nèi)容中的主題。
主題分析能夠反映某領(lǐng)域的研究水平和總體狀況,揭示該領(lǐng)域的研究現(xiàn)狀、熱點(diǎn)及發(fā)展趨勢(shì)[11]。目前,可用于文獻(xiàn)主題分析的數(shù)據(jù)源有文獻(xiàn)標(biāo)題、摘要、作者給出的關(guān)鍵詞、全文,例如劉志輝[12]為了分析國(guó)外信息歷史的研究現(xiàn)狀,從文獻(xiàn)的標(biāo)題中抽取關(guān)鍵詞,然后對(duì)高頻關(guān)鍵詞進(jìn)行分析,得到圖書館史、信息學(xué)史、信息科學(xué)、信息社會(huì)是信息歷史關(guān)注的重要領(lǐng)域。李萬輝等[13]從文獻(xiàn)的摘要中抽取高頻關(guān)鍵詞,得到1990—2009 年20 年內(nèi)城市信息化持續(xù)研究的熱點(diǎn)詞有:數(shù)字城市、信息產(chǎn)業(yè)、電子政務(wù)、信息技術(shù)、無線城市、信息資源建設(shè)、電子商務(wù)、企業(yè)信息化、社會(huì)信息化、信息共享、信息服務(wù)等詞。張濤等[14]以CSSCI 數(shù)據(jù)庫(kù)中1998—2019 年1 361 篇輿情文獻(xiàn)為數(shù)據(jù)集,使用作者給出的關(guān)鍵詞,分析了中國(guó)輿情文獻(xiàn)研究的主題及演化趨勢(shì)。TATSAWAN 等[15]為了細(xì)粒度地掌握?qǐng)D書館學(xué)的知識(shí)趨勢(shì),運(yùn)用了共詞分析、文本摘要、主題建模等文本挖掘技術(shù),對(duì)6 種圖書館學(xué)的全文期刊文章進(jìn)行了細(xì)致的分析。
在所使用的數(shù)據(jù)源中,文獻(xiàn)的標(biāo)題、摘要、全文需要使用自然語言處理等技術(shù),從文本中抽取出特征詞或者關(guān)鍵詞,然后在特征詞或者關(guān)鍵詞的基礎(chǔ)上進(jìn)行主題識(shí)別研究,比基于作者給出的關(guān)鍵詞的主題分析復(fù)雜,因而使用這些數(shù)據(jù)源進(jìn)行主題分析的研究相對(duì)較少。此外,從全文內(nèi)容中抽取的引文內(nèi)容也是研究被引文獻(xiàn)主題內(nèi)容的重要數(shù)據(jù)源。
目前,大多數(shù)研究均使用單一數(shù)據(jù)源對(duì)文獻(xiàn)的研究主題進(jìn)行分析,鮮有學(xué)者關(guān)注到文獻(xiàn)的標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中的研究主題是否存在差異。因此,本文以新冠領(lǐng)域的中文期刊文獻(xiàn)為數(shù)據(jù)集,探究在文獻(xiàn)的標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中的研究主題是否存在差異,分析標(biāo)題和摘要中的主題內(nèi)容是否可以揭示全文的研究?jī)?nèi)容,以及引文內(nèi)容對(duì)其施引文獻(xiàn)內(nèi)容的作用,并總結(jié)國(guó)內(nèi)學(xué)者在新冠流行期間所做的主要研究工作,為后續(xù)的新冠防治和研究提供參考。
本研究以CNKI 數(shù)據(jù)庫(kù)(https://www.cnki.net)中的新冠論文為研究對(duì)象,分析標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中的主題差異,其研究過程主要分為3 部分:第一部分是新冠數(shù)據(jù)的采集;第二部分是數(shù)據(jù)的預(yù)處理;第三部分是數(shù)據(jù)分析和主題對(duì)比研究,如圖1 所示。
圖1 研究框架圖Fig.1 Research framework
在數(shù)據(jù)采集的過程中,為方便文獻(xiàn)內(nèi)容的解析,本文采集了HTML 文檔等內(nèi)容,并同時(shí)采集了論文中作者標(biāo)注的關(guān)鍵詞以及新冠病毒疫情防控相關(guān)詞匯(https://cidian.cnki.net/cidian/XG_Link),以用于擴(kuò)展分詞器的詞典,讓分詞器具有識(shí)別新冠術(shù)語的能力。在預(yù)處理階段,需要解析HTML 文檔,即從文檔內(nèi)容中抽取出論文摘要、全文以及參考文獻(xiàn)內(nèi)容,并根據(jù)參考文獻(xiàn)在全文中的引用標(biāo)志找到對(duì)應(yīng)的引文內(nèi)容句。在數(shù)據(jù)分析和主題對(duì)比研究中,分別從標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中抽取特征詞,根據(jù)詞頻度量特征詞的分布差異,并使用聚類算法進(jìn)行特征詞聚類,分析研究主題并進(jìn)行對(duì)比研究。
為了分析在文獻(xiàn)的標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中的研究主題差異,需要確保研究的數(shù)據(jù)集之間彼此互不相交。因此,在全文內(nèi)容中,需要去掉標(biāo)題、摘要和引文內(nèi)容,而對(duì)剩余的部分進(jìn)行分析。在本文中,將去掉標(biāo)題、摘要和引文內(nèi)容的全文依然稱為全文,但實(shí)際上這部分內(nèi)容已不再包含標(biāo)題、摘要和引文內(nèi)容,需要引起讀者注意。
3.2.1 數(shù)據(jù)采集及預(yù)處理
(1)數(shù)據(jù)來源。COVID-19 是一場(chǎng)全人類正在遭受的重大突發(fā)公共衛(wèi)生事件,為了能夠?qū)ふ业胶线m的應(yīng)對(duì)辦法,國(guó)內(nèi)學(xué)者積極開展新冠研究,發(fā)表了大量的學(xué)術(shù)論文。CNKI 為其開辟了一個(gè)出版專欄(https://cajn.cnki.net/xgbt),以方便研究者分享和交流最新的研究成果。本文從該專欄中采集了2020 年1 月份至6 月份的新冠文獻(xiàn),去除重復(fù)、信息不全以及全文內(nèi)容是英文的文獻(xiàn),共獲得HTML 全文數(shù)據(jù)2 510 條,采集的字段內(nèi)容如表1 所示。
表1 采集的論文字段Table 1 The fields of collected papers
圖2 是論文發(fā)文量隨OA 首發(fā)時(shí)間變化的分布圖,該時(shí)間字段在OA 專欄中可以獲取,時(shí)間范圍為2020年1 月29 日至2020 年6 月30 日。由圖2 可知,自COVID-19 爆發(fā)以來,有關(guān)此項(xiàng)研究的學(xué)術(shù)論文產(chǎn)出不斷增加,尤其是前3 個(gè)月,發(fā)文總數(shù)急劇增加。這表明COVID-19 從爆發(fā)之初就得到了國(guó)內(nèi)學(xué)者的普遍關(guān)注。隨著研究力度不斷加大,有關(guān)COVID-19 的認(rèn)識(shí)進(jìn)一步深化,對(duì)戰(zhàn)勝病毒、控制疫情起著重要作用。
圖2 新冠論文時(shí)間分布曲線Fig.2 Time distribution curve of COVID-19 papers
(2)數(shù)據(jù)預(yù)處理。由于采集到的全文數(shù)據(jù)是HTML格式,不能直接用于數(shù)據(jù)分析,需要從HTML 文檔中抽取出文獻(xiàn)摘要、全文和參考文獻(xiàn)內(nèi)容,然后在全文內(nèi)容的基礎(chǔ)上,抽取出引文內(nèi)容句,完成文本分詞等工作。①引文內(nèi)容句抽取。引文內(nèi)容是作者引用他人研究成果的文字表述,是對(duì)他人研究成果的吸收和借鑒,在一定程度上能夠反映他人成果的主要內(nèi)容,需要使用引用標(biāo)記進(jìn)行標(biāo)注。本文根據(jù)參考文獻(xiàn)對(duì)應(yīng)的引用標(biāo)記從全文內(nèi)容中抽取引文內(nèi)容句,即通過引用標(biāo)記的位置向前和向后尋找句子的結(jié)束標(biāo)志,通常為句號(hào),將引文內(nèi)容句從全文中抽取出來。通常,一篇文獻(xiàn)會(huì)引用多篇文獻(xiàn),也就會(huì)抽取出多個(gè)引文內(nèi)容句,將這些引文內(nèi)容句組合在一起,就構(gòu)成了該篇文獻(xiàn)對(duì)應(yīng)的引文內(nèi)容數(shù)據(jù)。②基于規(guī)則的參考文獻(xiàn)解析。每條參考文獻(xiàn)的內(nèi)容都按照一定的格式規(guī)范進(jìn)行組織和書寫,可以使用基于規(guī)則的方式進(jìn)行解析。在本文采集的學(xué)術(shù)論文集合中,參考文獻(xiàn)的引用格式主要采用的是“GB/T 7714-2015”,但也有少數(shù)參考文獻(xiàn)存在格式錯(cuò)誤。因此,本文在進(jìn)行解析之前,剔除了格式錯(cuò)誤的參考文獻(xiàn),并使用正則表達(dá)式進(jìn)行各字段內(nèi)容的提取,如引用文獻(xiàn)的標(biāo)題、作者、來源、年份。通過解析,共獲得了35 773 條引用文獻(xiàn)信息,文獻(xiàn)的類型主要是期刊、專著和會(huì)議文獻(xiàn)。③文本分詞。文本分詞是進(jìn)行文本分析的基礎(chǔ),其效果的好壞會(huì)直接影響到分析結(jié)果。本文使用的分詞工具是Jieba 分詞器(https://pypi.org/project/jieba/),由于該分詞器中的詞典不包含新冠研究領(lǐng)域的專業(yè)術(shù)語,在進(jìn)行本文分詞時(shí),會(huì)造成專業(yè)術(shù)語無法切分準(zhǔn)確。因此,需要擴(kuò)展Jieba的分詞詞典。
通常,學(xué)術(shù)論文中作者標(biāo)注的關(guān)鍵詞是由相關(guān)術(shù)語組成。為了提升分詞效果,采集了新冠論文中的13 865個(gè)關(guān)鍵詞作為Jieba 分詞器的拓展詞典,使分詞器可以識(shí)別新冠研究領(lǐng)域中的術(shù)語。對(duì)分詞后的文本去停用詞,其中停用詞主要包括數(shù)字、數(shù)學(xué)符號(hào)和無意義的虛詞等。
3.2.2 文檔特征詞抽取
TF-IDF 算法可以計(jì)算一個(gè)詞對(duì)于一篇文檔或者一篇文檔對(duì)于一個(gè)文檔集合的重要性。其基本原理是:詞項(xiàng)的重要性與其在文檔中出現(xiàn)的頻次正相關(guān),與其在文檔集中出現(xiàn)的頻次負(fù)相關(guān),其中TF 代表詞項(xiàng)頻率,IDF 代表逆文檔頻率指數(shù),通過公式(1)得到詞項(xiàng)Wi在單篇文檔中的重要程度[16]。
其中,nij表示詞Wi在文檔j 中出現(xiàn)的次數(shù),N 為文檔集中總的文檔數(shù),ni表示包含詞Wi的文檔數(shù)總和。一般來說,單字詞和雙字詞包含的語義過于廣泛,例如“治療”“疫情”等,而由3 個(gè)及以上的字符構(gòu)成的詞所包含的語義更具體,如“核酸檢測(cè)”“中醫(yī)藥”等。因此,本文在對(duì)一篇文檔中的詞計(jì)算TF-IDF權(quán)重后,將字符長(zhǎng)度低于3 的詞過濾,以確保抽取到的特征詞語義清晰。
此外,一篇文檔中包含大量特征詞,但絕大多數(shù)是一些高頻低權(quán)詞,對(duì)于文檔的表征意義不大。因此,本文根據(jù)實(shí)驗(yàn)的需求,選取了TF-IDF 權(quán)重排名前50的詞作為文檔的特征詞。
3.2.3 特征詞分布差異度量與聚類
(1)基于JS 散度的特征詞分布差異度量。Kullback-Leibler散度(簡(jiǎn)稱KL散度)于1951年由KU1LBACK 等提出,主要用于統(tǒng)計(jì)變量間的獨(dú)立性,即從概率分布的角度去衡量?jī)蓚€(gè)變量間的距離[17],計(jì)算公式如公式(2)所示。由于該方法在度量?jī)蓚€(gè)變量的分布時(shí)不具有對(duì)稱性,LIN 在此基礎(chǔ)上提出了一種變體——JS 散度,解決了KL 散度非對(duì)稱的問題[18],計(jì)算公式如公式(3)所示。
本文將使用JS 散度來度量在文獻(xiàn)的標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中抽取的特征詞的分布差異,即根據(jù)標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容,對(duì)抽取的特征詞進(jìn)行分組,然后從每部分中選取相同數(shù)量的高頻特征詞,使用詞頻進(jìn)行歸一化,計(jì)算JS 距離值。JS 值取值范圍為[0,1],若值趨近于1,則兩個(gè)變量獨(dú)立性更強(qiáng),即兩者之間的差異更大,反之,差異更小。
(2)構(gòu)造詞向量。文本數(shù)據(jù)是一種符號(hào)集合,無法直接通過計(jì)算機(jī)進(jìn)行處理。詞嵌入可以將文本數(shù)據(jù)中的詞映射為一個(gè)向量,即將詞語表示為一個(gè)濃密的、低維度的實(shí)值向量,向量中的每一個(gè)維度可視為對(duì)應(yīng)特定的語義[19],從而使得計(jì)算機(jī)可以對(duì)文本數(shù)據(jù)進(jìn)行計(jì)算和分析。
Word2Vec 是谷歌開發(fā)的一款詞嵌入開源工具,其基礎(chǔ)是神經(jīng)語言模型[20]。Word2Vec 可以將詞從一個(gè)非常稀疏的向量空間映射到一個(gè)低維的空間,并保留詞向量之間的位置關(guān)系。Word2Vec 中有兩種模型,分別是CBOW 和Skip-gram。其中,CBOW 模型訓(xùn)練時(shí)需要輸入的是上下文中詞t 相關(guān)詞的詞向量,對(duì)這些輸入詞向量進(jìn)行累加處理后輸出詞t 的詞向量。Skip-gram與CBOW 的輸入與輸出相反,輸入詞t 的詞向量,通過恒等投影輸出詞t 上下文對(duì)應(yīng)詞的詞向量。本文借助Gensim 庫(kù),使用論文全文數(shù)據(jù)對(duì)Word2Vec 的CBOW模型進(jìn)行訓(xùn)練,從而獲得相應(yīng)詞的詞向量。
(3)基于AP 的特征詞聚類。近鄰傳播算法(英文名為Affinity Propagation,簡(jiǎn)稱AP算法)是最早由FREY 等在2007 年提出,該聚類算法的主要特點(diǎn)是無需事先指定聚類數(shù)目并且聚類結(jié)果穩(wěn)定[21]。近鄰傳播算法的基本原理是通過吸引度和歸屬度矩陣的更新來調(diào)整聚類中心的數(shù)量和位置,直到聚類中心不再變動(dòng)或者迭代次數(shù)超過預(yù)先設(shè)定的最大迭代次數(shù),其中兩個(gè)矩陣的更新是近鄰傳播算法的關(guān)鍵步驟。對(duì)于具有n個(gè)點(diǎn)的數(shù)據(jù)集,其吸引度和歸屬度可以表示為n×n 矩陣。本文借助Sklearn 庫(kù)(https://scikit-learn.org/stable),使用余弦相似度[22]計(jì)算n 個(gè)節(jié)點(diǎn)的相似度矩陣,以初始化AP 聚類模型,從而獲得相應(yīng)的聚類結(jié)果。
為了量化聚類結(jié)果的性能,本文使用了輪廓系數(shù)[23]作為評(píng)估指標(biāo)。該系數(shù)取值范圍為[-1,1],取值越接近1 則說明聚類性能越好,相反,取值越接近-1 則說明聚類性能越差。
首先,對(duì)參考文獻(xiàn)的解析結(jié)果進(jìn)行分析,介紹了高被引文獻(xiàn)主要的研究?jī)?nèi)容。其次,使用JS 散度度量了文獻(xiàn)的標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中的特征詞分布差異。最后,對(duì)標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中抽取的特征詞進(jìn)行聚類,識(shí)別新冠的研究主題,并從主題內(nèi)容上對(duì)比分析具體的差異。
按照作者和文獻(xiàn)標(biāo)題,對(duì)期刊、專著和會(huì)議類型的35 773 條引用文獻(xiàn)信息進(jìn)行統(tǒng)計(jì),得到19 912 篇引用文獻(xiàn)在數(shù)據(jù)集中的引用次數(shù)列表。表2 列舉了引用次數(shù)排名前10 的文獻(xiàn),這些文獻(xiàn)的引用次數(shù)占總文獻(xiàn)引用次數(shù)的6.78%,且文獻(xiàn)的發(fā)表時(shí)間較早。其中,排名第一的文獻(xiàn)報(bào)告了41 名新冠感染患者的癥狀、體征、實(shí)驗(yàn)室檢查結(jié)果、影像學(xué)檢查結(jié)果、潛在疾病和并發(fā)癥,并得出結(jié)論,COVID-19 會(huì)引起嚴(yán)重急性呼吸窘迫綜合征,導(dǎo)致ICU 病例和死亡率的增加[24];排名第二的文獻(xiàn)同樣介紹了99 例新冠感染患者的流行病學(xué)和臨床特征[25];排名第三的文獻(xiàn)報(bào)告了一種新的CoV(2019-nCoV),并實(shí)現(xiàn)了對(duì)該病毒的分離以及初步描述了其特定細(xì)胞病變效應(yīng)和形態(tài)[26]。從這些文獻(xiàn)的研究?jī)?nèi)容上看,早期的新冠研究集中于新冠患者的臨床癥狀和治療研究,以及對(duì)新冠病毒的認(rèn)識(shí)和溯源研究上,這些研究對(duì)后期新冠的診斷、治療和防治起著重要作用。
表2 高被引文獻(xiàn)Top10Table 2 Top 10 of highly cited works
為了考察從標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中抽取的特征詞分布是否存在差異,本文分別從這3 個(gè)部分中抽取高頻特征詞,使用JS 散度計(jì)算三者之間的相關(guān)性,結(jié)果如圖3 所示。從圖中可以看到,隨著提取的高頻特征詞增多,三者之間的JS 距離值越小,意味著三者之間的內(nèi)容相似性越強(qiáng)。但是,三者之間還是存在一定差異,即標(biāo)題和摘要與引文內(nèi)容的相似性要比標(biāo)題和摘要與全文內(nèi)容、全文內(nèi)容與引文內(nèi)容的相似性低,而標(biāo)題和摘要與全文內(nèi)容的相似性最高,這也反映出標(biāo)題和摘要是對(duì)全文內(nèi)容的總結(jié)和提煉,具有較高的內(nèi)容相關(guān)性。引文內(nèi)容是作者引用他人成果的總結(jié)和概括,與其施引文獻(xiàn)全文內(nèi)容相關(guān),同時(shí)也要高于引文內(nèi)容與施引文獻(xiàn)標(biāo)題和摘要的相關(guān)性。
圖3 不同文獻(xiàn)部分中的高頻特征詞分布差異Fig.3 Distribution differences of high frequency feature words in different parts of a research paper
在此分析基礎(chǔ)上,本文擴(kuò)展了研究實(shí)驗(yàn),分析了不同引用頻次的引用文獻(xiàn)在引用內(nèi)容的相似性上是否存在差異,即根據(jù)引用文獻(xiàn)被引用的次數(shù)劃分不同層次,使用JS 散度計(jì)算文獻(xiàn)不同層次之間的內(nèi)容相似度。本文將引用次數(shù)達(dá)到10 次及以上的文獻(xiàn)歸類為高頻引用文獻(xiàn),該類文獻(xiàn)占總引用文獻(xiàn)的1.66%,引用次數(shù)介于1~10 之間的文獻(xiàn)歸類為中頻引用文獻(xiàn),占總引用文獻(xiàn)的17.53%,而引用次數(shù)為1 的文獻(xiàn)歸類為低頻引用文獻(xiàn),占總引用文獻(xiàn)80.81%,分別計(jì)算高頻、中頻和低頻引用文獻(xiàn)之間的JS 值,如圖4 所示。由圖4 可知,不同引用頻次的引用文獻(xiàn)在引文內(nèi)容的相似性上存在差異,即中頻和低頻引用文獻(xiàn)在引文內(nèi)容的相似程度上較高,而高頻和低頻引用文獻(xiàn)在引文內(nèi)容的相似程度上較低。
圖4 不同引用頻次文獻(xiàn)的高頻特征詞分布差異Fig.4 Distribution differences of high frequency feature words in works with different citation frequencies
從標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中抽取特征詞直接進(jìn)行聚類分析,會(huì)造成聚類數(shù)過多,如圖5 所示。因此,本文分別從這3 部分內(nèi)容中,將抽取的特征詞進(jìn)行匯總,并按照詞頻大小,選取高頻特征詞進(jìn)行聚類分析。為了盡可能涵蓋較多主題內(nèi)容,并確保聚類數(shù)在合適范圍內(nèi),本文經(jīng)過多次實(shí)驗(yàn),選取前100個(gè)高頻詞進(jìn)行聚類分析最為合適。
圖5 聚類數(shù)與特征詞數(shù)的分布變化趨勢(shì)圖Fig.5 The distribution trend of the number of clusters and the number of feature words
在完成聚類分析后,根據(jù)特征詞的語義,采用人工判讀的方式,對(duì)每一個(gè)聚類簇進(jìn)行主題總結(jié),并使用輪廓系數(shù)來量化聚類效果,以分析在標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中的主題差異。
4.3.1 標(biāo)題和摘要中主題識(shí)別結(jié)果
從2 510 篇文獻(xiàn)的標(biāo)題和摘要中,使用TF-IDF 算法抽取50 個(gè)特征詞,共獲得特征詞8 224 個(gè)。然后根據(jù)詞頻選取前100 個(gè)高頻特征詞進(jìn)行AP 聚類,聚類結(jié)果的輪廓系數(shù)為0.278,聚類效果較好,主題結(jié)果如圖6 所示。
圖6 標(biāo)題&摘要中主題聚類結(jié)果Fig.6 The results of topic clustering in the title&abstract
從特征詞聚類結(jié)果可以看出,標(biāo)題和摘要中的研究主題主要涉及新冠病毒、疫情防控、中醫(yī)治療、病理分析、新冠發(fā)生地、新冠檢測(cè)、藥物分析、病例分析、診療方案、臨床分型、新冠就診、新冠傳播、抗病毒藥物、網(wǎng)絡(luò)藥理學(xué)、防控措施、新冠藥物研究16個(gè)研究主題。
4.3.2 引文內(nèi)容中主題識(shí)別結(jié)果
本文從2 510 篇文獻(xiàn)的全文內(nèi)容中,根據(jù)引用標(biāo)記抽取引文內(nèi)容句,并去除重復(fù)內(nèi)容,共抽取出引文內(nèi)容句39 287 句。然后使用TF-IDF 算法從每篇文獻(xiàn)對(duì)應(yīng)的引文內(nèi)容中抽取50 個(gè)特征詞,共獲得特征詞19 733 個(gè)。最后根據(jù)詞頻選取前100 個(gè)高頻特征詞進(jìn)行AP 聚類,聚類結(jié)果的輪廓系數(shù)為0.321,聚類效果較好,主題結(jié)果如圖7 所示。
圖7 引文內(nèi)容中主題聚類結(jié)果Fig.7 The results of topic clustering in citation content
從特征詞聚類結(jié)果可以看出,引文內(nèi)容中的研究主題主要涉及診療方案、新冠病毒、新冠感染、病毒溯源、新冠傳播、核酸檢測(cè)、新冠發(fā)生地、疫情防控、臨床癥狀、醫(yī)療設(shè)施、中醫(yī)藥、抗病毒藥物、臨床分型、呼吸道癥狀、細(xì)胞因子風(fēng)暴、病理分析、基礎(chǔ)疾病17 個(gè)研究主題。
4.3.3 全文內(nèi)容中主題識(shí)別結(jié)果
從2 510 篇文獻(xiàn)的全文內(nèi)容中,使用TF-IDF 算法抽取50 個(gè)特征詞,共獲得特征詞34 624 個(gè)。然后根據(jù)詞頻選取前100 個(gè)高頻特征詞進(jìn)行AP 聚類,聚類結(jié)果的輪廓系數(shù)為0.33,聚類效果較好,主題結(jié)果如圖8所示。
圖8 全文內(nèi)容中主題聚類結(jié)果Fig.8 The results of topic clustering in the full text content
從特征詞聚類結(jié)果可以看出,全文內(nèi)容中的研究主題主要涉及新冠藥物研究、新冠病毒、新冠就診、核酸檢測(cè)、醫(yī)學(xué)檢查、中醫(yī)治療、新冠感染、臨床分型、網(wǎng)絡(luò)藥理學(xué)、臨床癥狀、疫情防控、新冠防護(hù)、病理分析、抗病毒藥物、新冠傳播、新冠發(fā)生地、中醫(yī)藥17 個(gè)研究主題。
將從標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中識(shí)別出的研究主題進(jìn)行匯總,共得到27 個(gè)主題,如表3 所示。從主題內(nèi)容上看,這些主題涉及新冠的診療方案、病理分析、病毒溯源、傳播與防護(hù)、檢測(cè)與治療、抗病毒藥物研究、基礎(chǔ)疾病各方面,并且重視中醫(yī)藥和中醫(yī)治療方法在新冠防治中的運(yùn)用。此外,基于網(wǎng)絡(luò)藥理學(xué)、分子對(duì)接、富集分析、數(shù)據(jù)挖掘等方法進(jìn)行新冠治療藥物的研究與開發(fā),在新冠的研究中也占有重要地位。
4.4.1 標(biāo)題和摘要與全文的主題對(duì)比分析
將標(biāo)題和摘要中的研究主題與全文中的研究主題進(jìn)行對(duì)比,發(fā)現(xiàn)有11 個(gè)主題相同,即新冠病毒、新冠傳播、新冠發(fā)生地、疫情防控、抗病毒藥物、臨床分型、病理分析、新冠藥物研究、新冠就診、中醫(yī)治療、網(wǎng)絡(luò)藥理學(xué)。從主體內(nèi)容上看,這11 個(gè)主題與新冠的防治聯(lián)系緊密,在一定程度上能夠揭示當(dāng)前新冠研究的主要內(nèi)容。從主題的數(shù)量上看,全文中富含較多的主題信息,與標(biāo)題和摘要中的主題信息相比,研究者關(guān)注的內(nèi)容較多。
4.4.2 標(biāo)題和摘要與引文內(nèi)容的主題對(duì)比分析
標(biāo)題和摘要是作者對(duì)文獻(xiàn)全文內(nèi)容的總結(jié)和概括,引文內(nèi)容是作者對(duì)他人研究成果的總結(jié)和概括。換言之,標(biāo)題和摘要、引文內(nèi)容分別是對(duì)施引文獻(xiàn)集和被引文獻(xiàn)集的總結(jié)和概括,將二者進(jìn)行對(duì)比,可以分析引文內(nèi)容對(duì)施引文獻(xiàn)內(nèi)容的作用。
由表3 可知,標(biāo)題和摘要、引文內(nèi)容之間有8 個(gè)相同主題,比標(biāo)題和摘要與全文的相同主題少3 個(gè),其中新冠藥物研究、新冠就診、中醫(yī)治療、網(wǎng)絡(luò)藥理學(xué)、新冠檢測(cè)、藥物分析、病例分析、防控措施8 個(gè)主題是引文內(nèi)容中沒有的,而病毒溯源、醫(yī)療設(shè)施、呼吸道癥狀、細(xì)胞因子風(fēng)暴、基礎(chǔ)疾病5 個(gè)主題是引文內(nèi)容獨(dú)有的,在標(biāo)題和摘要、全文內(nèi)容中都未出現(xiàn)。因此,引文內(nèi)容與其施引文獻(xiàn)內(nèi)容的主題相關(guān),二者可以進(jìn)行互補(bǔ)。
表3 新冠研究主題Table 3 The research topics of COVID-19
本文使用有關(guān)新冠的中文期刊文獻(xiàn)數(shù)據(jù),從不同內(nèi)容層面:標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容,探究三者之間的主題差異,得到研究主題在文獻(xiàn)的標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中存在差異的結(jié)論,現(xiàn)對(duì)該結(jié)論進(jìn)行討論并分析其產(chǎn)生的原因。
首先,從主題的相似性上看,標(biāo)題和摘要與引文內(nèi)容的主題相似性低于全文內(nèi)容與引文內(nèi)容的主題相似性,而全文內(nèi)容與引文內(nèi)容的主題相似性又低于標(biāo)題和摘要與全文內(nèi)容的主題相似性。究其原因,文獻(xiàn)的標(biāo)題和摘要是對(duì)全文內(nèi)容的總結(jié)和提煉,具有高度的內(nèi)容相關(guān)性,引文內(nèi)容是作者引用他人成果的總結(jié)和概括,與其施引的文獻(xiàn)內(nèi)容相關(guān)。其次,從主題數(shù)量上看,全文內(nèi)容中富含較多的主題信息,與標(biāo)題和摘要相比,新冠感染、核酸檢測(cè)、臨床癥狀、中醫(yī)藥、醫(yī)學(xué)檢查、新冠防護(hù)六個(gè)主題受到研究者的關(guān)注。最后,從引用和被引用內(nèi)容上看,引文內(nèi)容中涵蓋的主題信息較廣,與標(biāo)題和摘要相比,新冠病毒的溯源、醫(yī)療設(shè)施以及基礎(chǔ)疾病等內(nèi)容受到研究者的關(guān)注。
綜上所述,標(biāo)題和摘要中的研究主題與全文內(nèi)容中的研究主題更相似,在對(duì)文獻(xiàn)進(jìn)行主題分析時(shí),可以使用標(biāo)題和摘要中的研究主題來概括全文內(nèi)容的研究主題;引文內(nèi)容與其施引文獻(xiàn)內(nèi)容的主題相關(guān),二者可以進(jìn)行互補(bǔ),能夠凸顯出新冠研究的主要內(nèi)容。
此外,本文還發(fā)現(xiàn)不同引用頻次的文獻(xiàn),在引文內(nèi)容中揭示的研究主題也不同,即中頻和低頻引用文獻(xiàn)在主題的相似程度上更高,而高頻和低頻引用文獻(xiàn)在主題的相似程度上更低。經(jīng)過分析,被高頻引用的文獻(xiàn)側(cè)重新冠的流行病學(xué)和臨床特征研究,這些文獻(xiàn)發(fā)表時(shí)間較早,對(duì)新冠病毒的診斷和治療具有重要的指導(dǎo)作用。然而,被中頻和低頻引用的文獻(xiàn)發(fā)布時(shí)間較晚,研究的內(nèi)容涵蓋新冠的各個(gè)方面,主題內(nèi)容寬而廣,沒有高頻引用文獻(xiàn)中的主題集中,故而兩者之間的主題相似性較低。
自從COVID-19 在全球爆發(fā)以來,許多國(guó)家、機(jī)構(gòu)和科研人員都把研究重點(diǎn)放在該主題上,這導(dǎo)致了新冠領(lǐng)域的學(xué)術(shù)論文迅速增長(zhǎng)。使用文獻(xiàn)計(jì)量方法來分析新冠的研究現(xiàn)狀,可以了解新冠研究的最新動(dòng)態(tài),給相關(guān)研究者提供參考。本文的研究建立在中文期刊文獻(xiàn)資料的分析基礎(chǔ)上,分析了國(guó)內(nèi)學(xué)者在新冠研究中的主要內(nèi)容,得出了研究主題在文獻(xiàn)的標(biāo)題和摘要、引文內(nèi)容、全文內(nèi)容中存在差異,即與標(biāo)題和摘要相比,全文中富含更多的主題內(nèi)容,但二者的主題內(nèi)容差異較小,可以使用標(biāo)題和摘要中的主題內(nèi)容來表征全文的研究?jī)?nèi)容;引文內(nèi)容與其施引文獻(xiàn)內(nèi)容的主題相關(guān),二者可以進(jìn)行內(nèi)容互補(bǔ)。
中國(guó)在疫情的防治工作中,采取了一系列有效措施,使得疫情得到穩(wěn)步控制。此外,國(guó)內(nèi)學(xué)者在新冠研究中也做了大量工作,研究的內(nèi)容涉及新冠的發(fā)病機(jī)理、病毒溯源、傳播與防護(hù)、檢測(cè)與治療、抗病毒藥物研究、基礎(chǔ)疾病等各方面,并且重視中醫(yī)藥和中醫(yī)治療方法在新冠治療中的運(yùn)用,為新冠疫情的防治提供了理論和實(shí)踐保障。
本文使用特征詞聚類來識(shí)別研究主題,也存在一些不足之處。一方面,由于缺乏醫(yī)學(xué)領(lǐng)域的專業(yè)知識(shí),對(duì)主題的總結(jié)欠妥,不能很好地確定每一聚類簇的主題。另一方面,特征詞抽取的準(zhǔn)確率需要進(jìn)一步提高,未來可以考慮使用機(jī)器學(xué)習(xí)的方法來抽取論文中的關(guān)鍵詞,對(duì)關(guān)鍵詞進(jìn)行分析。