鄭德俊,程為
(南京農(nóng)業(yè)大學(xué)信息管理學(xué)院,南京 210095)
新興主題是一個相對概念,隨時間推移而動態(tài)變化,是指在觀測時間點(diǎn)的未來一段時間內(nèi),具有發(fā)展?jié)摿εc應(yīng)用價值并處于萌芽期或上升期階段的研究主題[1-2]。識別領(lǐng)域新興主題有利于及時跟蹤領(lǐng)域發(fā)展的最新動態(tài),厘清領(lǐng)域前沿研究主題的分布概況,輔助認(rèn)知學(xué)科內(nèi)在的發(fā)展機(jī)制與軌跡[3-4],能夠?yàn)轭I(lǐng)域未來發(fā)展與應(yīng)用提供可參考的方向,為科研工作者的選題以及科研管理者的決策提供情報支撐。領(lǐng)域新興主題識別是情報分析領(lǐng)域的一項熱點(diǎn)研究內(nèi)容,相關(guān)研究總結(jié)了其研究路徑,識別方法部分包括主題建模與主題新興程度測度兩個遞進(jìn)階段[5]。目前,一方面,主題建?;陉P(guān)鍵詞、摘要或全文抽取特征詞進(jìn)行主題聚類與表示,但該方法強(qiáng)調(diào)特征詞的共現(xiàn)或語義關(guān)聯(lián),通常忽視單篇文獻(xiàn)更豐富的內(nèi)外部特征信息,使得后續(xù)主題的特征測度與分析維度相對單一[6];另一方面,主題新興程度測度以時間、引文網(wǎng)絡(luò)與相似度作為切入點(diǎn),選用一個或少數(shù)幾個定量指標(biāo)進(jìn)行計算,當(dāng)面臨領(lǐng)域特點(diǎn)不同或主題類型不同時,較少指標(biāo)由于揭示的主題信息不夠系統(tǒng)、全面,難以適應(yīng)具體問題下的合適指標(biāo)選用[7]。
基于此,本文以完整摘要內(nèi)容為基本單位進(jìn)行語義向量表示和主題建模,并以摘要代表單篇文獻(xiàn)作為線索串聯(lián)時間、引用等相關(guān)特征信息,探索構(gòu)建綜合時間、引用與關(guān)聯(lián)的多維度指標(biāo)框架,以更全面、細(xì)致地挖掘與表示主題特征,實(shí)現(xiàn)新興主題的識別。在理論層面,能夠?yàn)樾屡d主題的特征挖掘與測度提供一套可借鑒與擴(kuò)展的特征指標(biāo)框架,以期為新興主題識別的相關(guān)研究提供一種可參考的方法和思路;在實(shí)踐層面,本文提出的新興主題識別方法可作為一種參考工具應(yīng)用于科技情報分析、領(lǐng)域發(fā)展態(tài)勢分析等場景,為新興主題發(fā)現(xiàn)提供數(shù)據(jù)支持。
新興主題識別包括主題識別與新興主題發(fā)現(xiàn)兩個階段的任務(wù)。其中,主題識別方法分為兩類:一是網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)法,構(gòu)建共被引網(wǎng)絡(luò)、直接引文網(wǎng)絡(luò)、文獻(xiàn)耦合網(wǎng)絡(luò)、共詞網(wǎng)絡(luò)、語義網(wǎng)絡(luò)等識別研究主題[8-10];二是基于內(nèi)容挖掘法,實(shí)現(xiàn)主題特征詞抽取與表示[11]。新興主題發(fā)現(xiàn)則通常采用主題新興度、主題新穎性、主題成長度等指標(biāo),識別并衡量新興主題的發(fā)展?jié)摿11-13]。本文以文本內(nèi)容為主題建模的基礎(chǔ),從基于內(nèi)容挖掘的主題建模與主題新興程度測度指標(biāo)兩個方面梳理相關(guān)研究。
主題建模是一種無監(jiān)督的聚類算法,挖掘數(shù)據(jù)集中語義單元的潛在關(guān)聯(lián)性進(jìn)而劃分主題。在建模算法上,LDA(latent Dirichlet allocation)及其改進(jìn)模型應(yīng)用較為廣泛[14],比較有影響力的改進(jìn)算法有LDA2vec[15]、動態(tài)LDA算法[16]、融合高斯函數(shù)加權(quán)的LDA算法[17]等,其面向科技文獻(xiàn)的主要應(yīng)用場景有主題挖掘[18-19]、主題演化分析[20-21]、學(xué)術(shù)評價[22-23]等。近年來,隨著語義向量嵌入模型的廣泛應(yīng)用,topic2vec[24-25]、BERTopic[26-27]等算法在主題建模中取得了較好效果。在特征詞抽取上,相關(guān)研究基于年份-關(guān)鍵詞詞頻矩陣識別研究熱點(diǎn)[10];結(jié)合客戶價值細(xì)分模型,對高價值關(guān)鍵詞進(jìn)行篩選進(jìn)而識別熱點(diǎn)主題[28];融合關(guān)鍵詞順序與詞頻、文獻(xiàn)與關(guān)鍵詞關(guān)聯(lián)關(guān)系等構(gòu)建關(guān)鍵詞綜合影響力模型,進(jìn)而識別領(lǐng)域熱點(diǎn)主題[29]等,使得主題建模的結(jié)果具有更強(qiáng)的可解釋性。上述研究雖然有在關(guān)鍵詞的基礎(chǔ)上深入文獻(xiàn)摘要或全文進(jìn)行主題挖掘,但仍以主題特征詞為基本單位對主題進(jìn)行建模,導(dǎo)致文獻(xiàn)更豐富的內(nèi)外部特征信息無法得到充分利用。
主題新興程度測度指標(biāo)的特征基礎(chǔ)可以分為時間要素、引文網(wǎng)絡(luò)與語義挖掘三大類,主要包括如下代表性研究。在時間要素中,時序關(guān)系下特征詞的首次出現(xiàn)時間、平均時間和拐點(diǎn)時間是衡量主題新穎度的重要指標(biāo)[12,30],另外,按時間切片的形式衡量主題的發(fā)展歷程與成長性也具有有效性[13,31]。引文網(wǎng)絡(luò)是指基于引用關(guān)系(引用、共被引和引用耦合)構(gòu)建復(fù)雜網(wǎng)絡(luò),在主題聚類的基礎(chǔ)上,分析不同階段主題的知識流動路徑與強(qiáng)度[32-33],進(jìn)而明確主題在引用網(wǎng)絡(luò)中的定位與影響力,將其作為新興主題不確定性和模糊性的測度指標(biāo)[34],實(shí)現(xiàn)新興主題的預(yù)測。在語義挖掘中,主要通過相似度計算考量不同主題之間的語義距離[35],從內(nèi)容層面測度主題之間的差異性,并將這種差異性表達(dá)為主題創(chuàng)新度、主題新穎性或主題新興度[36-37]。上述主題測度指標(biāo)都在一定程度上反映了主題新興程度,并得到了實(shí)踐檢驗(yàn),具有深入研究的價值,是本文的借鑒對象。但是,在科學(xué)計量與評價領(lǐng)域強(qiáng)調(diào)具體問題具體分析的要求下[38],需要集成側(cè)重不同主題特征的已有指標(biāo)與新指標(biāo),以強(qiáng)化多指標(biāo)融合視角下識別結(jié)果的可解釋性,提升人工判定的準(zhǔn)確性與客觀性。
目前,一方面,在主題建模上,基于特征詞的主題表示難以充分挖掘與表示主題的多維特征,有必要利用摘要的完整語義信息進(jìn)行主題建模,使無監(jiān)督的主題聚類取得更符合領(lǐng)域知識分布特征的結(jié)果,具有更強(qiáng)的可解釋性,并且能夠充分融合文獻(xiàn)發(fā)表時間等信息豐富主題特征的觀測視角;另一方面,以時間、引用或關(guān)聯(lián)3個維度中的某一指標(biāo)作為新興主題識別的依據(jù),越來越難以適應(yīng)主題多元化發(fā)展的場景,因此,有研究嘗試融合不同指標(biāo)進(jìn)行新興主題識別并比單一指標(biāo)取得了更好的效果[39-40]。然而,這部分研究仍是選用單維度或多維度的少數(shù)幾個指標(biāo),未形成系統(tǒng)的指標(biāo)框架,在主題特征的挖掘深度與廣度上仍具有一定局限性,有必要在篩選現(xiàn)有指標(biāo)的基礎(chǔ)上,提出新的主題特征指標(biāo),構(gòu)建3個維度并列共存、相互補(bǔ)充、相互驗(yàn)證的指標(biāo)框架,以不同主題特征作為切入點(diǎn)識別新興主題。
更全面的主題語義知識表示是優(yōu)化主題建模結(jié)果的重要手段,系統(tǒng)指標(biāo)框架的建立是更客觀評估主題新興程度的工具。因此,以摘要作為主題建模、表示與特征測度的基本單位,符合深度主題知識挖掘的需求;探索基于時間、引用和關(guān)聯(lián)的三維主題特征指標(biāo)框架,對新興主題識別具有更廣泛的應(yīng)用價值。
現(xiàn)有研究中基于特征詞的主題表示,存在難以充分揭示主題特征信息、單個或少數(shù)指標(biāo)難以全面且深入地挖掘主題特征信息的問題。本文嘗試解決這兩個方面的問題,提出新興主題識別方法的實(shí)現(xiàn)框架,如圖1所示。主要操作如下:第一,獲取數(shù)據(jù)包括領(lǐng)域文獻(xiàn)題錄及引用數(shù)據(jù),通過數(shù)據(jù)預(yù)處理構(gòu)建摘要語料;第二,以文獻(xiàn)為基本單位,基于語義詞向量嵌入摘要語料實(shí)現(xiàn)領(lǐng)域主題建模及評估,并通過主題置信概率保證主題建模的效果;第三,構(gòu)建三維主題特征指標(biāo)框架,分別基于3個維度的指標(biāo)計算識別新興主題;第四,融合各個維度下的識別結(jié)果相互補(bǔ)充來輔助人工判定,匯總形成領(lǐng)域新興主題識別結(jié)果;第五,通過基于LDA+word2vec+similarity的方法對比分析、指標(biāo)相關(guān)性計算分析、資料分析法來綜合評估本文方法的有效性。其中,充分挖掘文獻(xiàn)的語義內(nèi)涵并以文獻(xiàn)摘要為基本單位進(jìn)行主題建模、構(gòu)建融合多因素的細(xì)粒度主題特征指標(biāo)框架是本文的創(chuàng)新所在。
圖1 新興主題識別方法的實(shí)現(xiàn)框架
2.2.1 BERTopic主題建模
傳統(tǒng)主題建模算法,如LSA(latent semantic analysis)、PLSA(probabilistic latent semantic analy‐sis)、LDA等,通過詞袋表示進(jìn)行建模,忽略了詞間的語義關(guān)系,不能解釋文檔語料中詞的上下文,難以準(zhǔn)確表示文檔。BERT(bi-directional encoder representations from transformers)及其改進(jìn)模型能夠生成融合文檔語料上下文語義信息詞向量與句子向量,在該方式下,相似文本在向量空間中更接近[41]。BERTopic融合深度語義向量與傳統(tǒng)聚類方法對主題進(jìn)行建模,本文舍棄抽取特征詞進(jìn)行主題表示的過程,核心思路分為兩個階段:①通過詞嵌入的預(yù)訓(xùn)練模型得到文檔語料的深度語義向量;②通過HDBSCAN(hierarchical density-based spatial clus‐tering of applications with noise)、k-means等聚類算法進(jìn)行聚簇處理,以文檔為基本單位實(shí)現(xiàn)領(lǐng)域研究主題建模。以摘要文本為語料,基于BERTopic挖掘更深層次的語義信息進(jìn)行向量表示,進(jìn)而以摘要為基本單位進(jìn)行主題聚類與表示,相較于主題特征詞,能夠融合更豐富的信息如參考文獻(xiàn)與施引文獻(xiàn)的語義信息作為后續(xù)主題特征測度的數(shù)據(jù)基礎(chǔ)。
2.2.2 評估方法
當(dāng)存在N個樣本與K個主題時,BERTopic模型會計算任意一個樣本分別聚類至K個主題的概率,并最終將其聚類至最大概率對應(yīng)的主題;將N個樣本被聚類至最大概率對應(yīng)的主題的平均概率稱為主題置信概率,用于評估主題建模的結(jié)果。主題置信概率最小取值為1/K,此時建模效果最差,N個樣本聚類至各主題完全隨機(jī);理想狀態(tài)下,主題置信概率取值為1,即樣本屬于某一主題的概率為100%且屬于其他主題的概率為0%,此時建模達(dá)到理想的最佳效果,主題內(nèi)部樣本高度集中,且與主題外部的樣本高度分離,聚類結(jié)果不存在任何誤差可能。在區(qū)間[1/K, 1]內(nèi),主題置信概率取值越高,主題建模效果越好。
主題的時間、引用和語義特征是評估主題新興程度的主要參考線索,吸納現(xiàn)有指標(biāo)并補(bǔ)充新指標(biāo),本文構(gòu)建了包含14個指標(biāo)的三維主題特征指標(biāo)框架。
2.3.1 時間維度
時間維度下,主題新興度計算思路有主題中最新樣本的時間屬性、主題中最早樣本與觀測時間的時間間隔、主題內(nèi)樣本的時間屬性的平均值等。雖然以上計算方法可以直觀反映主題的重要時間點(diǎn),但是容易受到極端單樣本的影響。因此,基于上述指標(biāo),著重關(guān)注觀測時間的最近一段時間的主題樣本分布情況,考慮到觀測時間點(diǎn)不一定能夠以完整的年份為間隔劃分樣本,將主題中樣本的局部分布與領(lǐng)域中樣本的整體分布進(jìn)行對比,按不均等劃分時間段的方式衡量主題在觀測時間點(diǎn)的發(fā)展?jié)摿?。時間維度的各主題特征指標(biāo)如表1所示。
表1 時間維度的主題特征測度指標(biāo)
2.3.2 引用維度
文獻(xiàn)間的引用關(guān)系通常用于探測知識的跨主題流動,可以揭示主題間的關(guān)聯(lián)程度、測度主題在領(lǐng)域中所處的位置,相關(guān)測度指標(biāo)主要基于主題的被引頻次、施引頻次等基本計量指標(biāo)衡量主題在領(lǐng)域中的核心度。但是,被引文獻(xiàn)與施引文獻(xiàn)客觀存在的時間先后關(guān)系在一定程度上反映了知識更新的周期,而上述指標(biāo)對引用關(guān)系潛在的時間關(guān)系關(guān)注較少。因此,融合主題內(nèi)部和跨主題引用數(shù)據(jù)的時間屬性,采用表2中的指標(biāo)來綜合測度主題引用維度的特征。
表2 引用維度的主題特征測度指標(biāo)
2.3.3 關(guān)聯(lián)維度
相似度計算是衡量主題新興度的重要手段,當(dāng)前新興主題發(fā)現(xiàn)研究通常以詞共現(xiàn)關(guān)系及其頻次、詞向量等作為相似度計算基礎(chǔ)。但是,詞在主題中不是孤立存在或以簡單的共現(xiàn)關(guān)系存在的。因此,本文以標(biāo)題為基本單位,充分挖掘標(biāo)題的語義信息構(gòu)建向量,進(jìn)而測度主題內(nèi)外部的語義關(guān)聯(lián)程度。同時,僅考慮主題內(nèi)部或主題間的語義關(guān)聯(lián)會忽略非領(lǐng)域內(nèi)的相關(guān)數(shù)據(jù),在當(dāng)前多學(xué)科領(lǐng)域知識交叉融合的背景下,跨領(lǐng)域知識流動程度能夠揭示研究的潛在價值,有必要獲取文獻(xiàn)完整引用數(shù)據(jù)用于主題特征測度。SimCSE(simple contrastive sentence embedding)基于對比學(xué)習(xí)的思想,利用自監(jiān)督學(xué)習(xí)來提升句子的表示能力,能夠充分學(xué)習(xí)文本的語義知識[45]。因此,本文以文獻(xiàn)標(biāo)題作為輸入,選擇sup-simcse-bert-base-uncased預(yù)訓(xùn)練模型,輸出表示文獻(xiàn)的768維語義向量。以主題中各文獻(xiàn)語義向量的平均向量作為主題的語義向量。關(guān)聯(lián)維度的各指標(biāo)詳情如表3所示。
表3 關(guān)聯(lián)維度的主題特征測度指標(biāo)
以“文本分類”領(lǐng)域?yàn)槔M(jìn)行實(shí)證,限定Web of Science核心合集,為提升檢索結(jié)果與領(lǐng)域的相關(guān)性,不額外限制“text classification”這一通用概念,并限制其同義概念必須以詞組形式出現(xiàn)。因此,構(gòu)建檢索式“TS=((text classification) OR ("docu‐ment classification") OR ("document categorization")OR ("text categorization") OR ("text tagging") OR("document tagging"))”進(jìn)行檢索,檢索時間為2022年10月2日,出版日期截至2022年9月30日,得到檢索結(jié)果28095條,經(jīng)過人工判斷初步剔除不相關(guān)或弱相關(guān)記錄,得到25714條記錄。為獲取更規(guī)范、完整的數(shù)據(jù),在2022年10月7日至2022年10月11日,遍歷檢索結(jié)果中每一文獻(xiàn)的DOI(digital object identifier),通過開源學(xué)術(shù)搜索引擎Semantic Scholar提供的API(application programming interface)獲取文獻(xiàn)的題錄信息、參考文獻(xiàn)與施引文獻(xiàn)數(shù)據(jù)。由于檢索結(jié)果中部分文獻(xiàn)沒有DOI或文獻(xiàn)未被Semantic Scholar收錄,最終通過API獲得23096條文獻(xiàn)的JSON(JavaScript object notation)數(shù)據(jù),包括770559條參考文獻(xiàn)記錄和685406條施引文獻(xiàn)記錄。本文實(shí)驗(yàn)所用數(shù)據(jù)雖然無法涵蓋領(lǐng)域所有文獻(xiàn),但數(shù)據(jù)已具有一定規(guī)模,能夠較全面地反映領(lǐng)域的主要研究內(nèi)容。
基于NLTK(natural language toolkit)庫,對23096條文獻(xiàn)的摘要進(jìn)行大寫轉(zhuǎn)小寫、分詞、詞形還原和去停用詞的預(yù)處理,形成摘要語料。由于領(lǐng)域文獻(xiàn)的主題均與“文本分類”相關(guān),為防止詞頻過高的詞集中于某一主題進(jìn)而導(dǎo)致過多文獻(xiàn)被分類至該主題,在基本去停用詞表的基礎(chǔ)上,選取詞頻超過10000的詞并基于人工篩選補(bǔ)充停用詞表,基本統(tǒng)計信息如表4所示。
表4 補(bǔ)充停用詞表的統(tǒng)計信息
基于23096條文獻(xiàn)的摘要語料進(jìn)行主題建模實(shí)驗(yàn),主要分為4個步驟:①選擇BERTopic中處理英文文本的默認(rèn)嵌入模型all-MiniLM-L6-v2,將每一摘要文本的語義信息映射到一個384維的稠密向量空間;②基于默認(rèn)的UMAP(uniform manifold ap‐proximation and projection)降維算法對摘要向量進(jìn)行降維,為平衡計算開銷與信息量大小,以區(qū)間[2,10]內(nèi)的整數(shù)作為候選空間維數(shù);③選擇HDB‐SCAN算法進(jìn)行聚類,以區(qū)間[2,100]內(nèi)的整數(shù)作為候選最小聚類樣本數(shù);④基于sklearn庫的文本特征抽取實(shí)現(xiàn)主題序列化,訓(xùn)練BERTopic模型時,nr_topics設(shè)為“auto”,由模型自動迭代生成最佳主題數(shù)。當(dāng)降維空間維數(shù)為5時,模型聚類結(jié)果相對穩(wěn)定,重復(fù)實(shí)驗(yàn),可以獲得相似的聚類結(jié)果;當(dāng)最小聚類樣本數(shù)分別為65、66、68時,模型取得較好效果,主題置信概率均在90%左右。對實(shí)驗(yàn)結(jié)果進(jìn)行人工審查后,最終確定最小聚類樣本數(shù)為66,此時有4319條樣本屬于離群文檔或無法劃分主題歸屬的文檔,剩余18777條樣本被模型分別聚類至42個主題,主題置信概率為90.12%,從定量評估的角度可以認(rèn)為主題建模結(jié)果較為合理。
分別在42個主題中隨機(jī)選取部分摘要樣本人工研讀,總結(jié)各主題的基本內(nèi)涵,42個主題的基本信息如表5所示。將18777條摘要樣本由高維空間映射至二維語義空間,其在42個主題的分布情況如圖2所示,圖中各主題的示例特征詞由BERTopic模型給出以便區(qū)分與可視化,并非主題的實(shí)際表示方式。
表5 42個主題基本信息
圖2 摘要樣本在二維語義空間的可視化分布
在定性評估方面,圖2中主題內(nèi)部的樣本分布相對集中,不同主題間的界限明顯,達(dá)到了較好的聚類效果。其中,部分主題如“功能性磁共振成像”的樣本相對游離孤立,考慮到該部分主題也具有分析的需要,不對聚類結(jié)果做進(jìn)一步人工處理。綜合來看,主題建模結(jié)果具有較強(qiáng)的可解釋性,未出現(xiàn)違反客觀事實(shí)的重大誤判,建模結(jié)果可信。
3.3.1 指標(biāo)計算
基于三維主題特征指標(biāo)框架,計算各主題特征指標(biāo)值。在時間維度,有4個主題的最早發(fā)文點(diǎn)為1991年,取值最?。?個主題最早發(fā)文點(diǎn)為2012年,取值最大;除極少數(shù)主題外,其他主題的最新發(fā)文點(diǎn)均為2022年。以上兩個指標(biāo)的區(qū)分度較差,難以用于各主題的對比分析。計算各主題平均發(fā)文點(diǎn)與相對增長度,如圖3a所示。在引用維度,基于參考文獻(xiàn)數(shù)據(jù)集,構(gòu)建領(lǐng)域18777篇文獻(xiàn)的引用網(wǎng)絡(luò),共包含45658條引用關(guān)系,計算指標(biāo)值如圖3b和圖3c所示。圖3b和圖3c中的節(jié)點(diǎn)數(shù)字代表主題編號,節(jié)點(diǎn)大小分別代表內(nèi)引時差和主題內(nèi)引度。在關(guān)聯(lián)維度,對于施引豐富度與被引豐富度兩個指標(biāo),構(gòu)建每一文獻(xiàn)的參考文獻(xiàn)標(biāo)題集與施引文獻(xiàn)標(biāo)題集,基于SimCSE,以標(biāo)題文本輸入sup-simcsebert-base-uncased預(yù)訓(xùn)練模型構(gòu)建語義向量,采用余弦相似度分別計算參考文獻(xiàn)標(biāo)題集與施引文獻(xiàn)標(biāo)題集的相似度矩陣,進(jìn)而計算指標(biāo)值,如圖3d所示。
圖3 各主題三維主題特征指標(biāo)值對比圖
3.3.2 識別結(jié)果
由圖3a可以發(fā)現(xiàn),“虛假信息監(jiān)測”的平均發(fā)文點(diǎn)(2020.008)距觀測點(diǎn)最近,表明在2020年前后有關(guān)虛假信息監(jiān)測的研究引起領(lǐng)域?qū)W者的廣泛關(guān)注;另外,“網(wǎng)絡(luò)平臺負(fù)面言論檢測”“圖神經(jīng)網(wǎng)絡(luò)技術(shù)”“對抗式生成網(wǎng)絡(luò)模型”等主題的平均發(fā)文點(diǎn)都在2019年以后,表明它們具有較新的研究場景與內(nèi)容?!耙魳妨髋膳c情感分類”和“創(chuàng)新技術(shù)發(fā)現(xiàn)”兩個主題的平均發(fā)文點(diǎn)都在2016年左右,但二者的相對增長度遙遙領(lǐng)先其他主題,均超過0.58,表明與領(lǐng)域整體發(fā)展相比,這兩個主題的研究在當(dāng)下具有貼合外部需求、融合新興技術(shù)并且更與時俱進(jìn)的研究內(nèi)容,迎來了新的小高峰。
由圖3b可以發(fā)現(xiàn),主題的出度時差與入度時差基本都在兩年以上,而“融合多模態(tài)的情感分類”“網(wǎng)絡(luò)平臺負(fù)面言論檢測”“圖神經(jīng)網(wǎng)絡(luò)技術(shù)”等主題內(nèi)引時差、出度時差與入度時差均較小,知識更新的速度較快,更具有產(chǎn)生新知識的潛力。
由圖3c可以發(fā)現(xiàn),“用戶消費(fèi)滿意度情感分析”“引文分類與推薦”等跨主題入度較高且跨主題出度較小,即它們廣泛吸收了同領(lǐng)域其他主題的知識,但還未在其他主題大范圍知識擴(kuò)散,在將來具有更廣闊的發(fā)展前景?!翱臻g知識標(biāo)注與計算”“自動問答”“自動摘要”等主題內(nèi)引度較小且跨主題出度較小,表明其仍處于發(fā)展上升期,具有發(fā)展?jié)摿Α?/p>
由圖3d可以發(fā)現(xiàn),“醫(yī)學(xué)信息挖掘”由于樣本數(shù)最多,主題內(nèi)聚度最低;而“功能性磁共振成像”是一個比較孤立的主題,主題內(nèi)聚度高而交叉度低,在前面各項指標(biāo)中它也是一個具有明顯特征差異的主題,與文本分類領(lǐng)域本身關(guān)聯(lián)性較弱。“作者風(fēng)格與文本體裁分類”“金融信息分類與挖掘”等主題內(nèi)聚度與主題交叉度均較低,表明主題具有相對新穎、獨(dú)到的研究內(nèi)容,仍處于發(fā)展上升期?!敖鹑谛畔⒎诸惻c挖掘”“法律文本智能挖掘”“用戶消費(fèi)滿意度情感分析”“作者風(fēng)格與文本體裁分類”等被引豐富度與施引豐富度均較高,表明這些主題在未來具有跨領(lǐng)域知識融合與發(fā)現(xiàn)的價值。
在2022年10月這個觀測點(diǎn)上,綜合圖3的各指標(biāo)結(jié)果,判定文本分類領(lǐng)域的新興主題,如表6所示。結(jié)合表6,基于對部分領(lǐng)域文獻(xiàn)的內(nèi)容分析,歸納文本分類領(lǐng)域未來的新興研究主題如下:①文本分類前沿技術(shù)的改進(jìn),如圖神經(jīng)網(wǎng)絡(luò)、對抗式生成網(wǎng)絡(luò)等模型的優(yōu)化;②文本分類方法在通用場景下的下游任務(wù)創(chuàng)新,如網(wǎng)絡(luò)信息的智能挖掘與質(zhì)量評估、情感分析在多模態(tài)數(shù)據(jù)與細(xì)粒度分類標(biāo)準(zhǔn)上的擴(kuò)展等;③文本分類方法結(jié)合領(lǐng)域知識特征在垂直領(lǐng)域的深入應(yīng)用,如金融、法律等領(lǐng)域的知識結(jié)構(gòu)化建模與價值發(fā)現(xiàn);④文本分類與其他相關(guān)技術(shù)的協(xié)同優(yōu)化,如增強(qiáng)自動問答與自動摘要的自然語言可理解性、提升多模態(tài)數(shù)據(jù)細(xì)粒度分類的準(zhǔn)確性等。
表6 三維特征指標(biāo)測度下的文本分類領(lǐng)域新興主題識別結(jié)果
3.3.3 結(jié)果與分析
在實(shí)驗(yàn)中,最早發(fā)文點(diǎn)和最新發(fā)文點(diǎn)由于區(qū)分度較差未作為新興主題識別的依據(jù),因此,對任意一個主題,由3個維度共12個指標(biāo)值定量描述。例如,“虛假信息監(jiān)測”可表示為[({平均發(fā)文點(diǎn):2020.008}, {相對增長度: -0.0259}); ({主題內(nèi)引度:0.9280}, {內(nèi)引時差:2.4138}, {跨主題出度: 0.5120},{出度時差: 2.1875}, {跨主題入度: 1.0720}, {入度時差: 4.1716}); ({被引豐富度: 0.5548}, {施引豐富度:0.6169}, {主題內(nèi)聚度: 0.4882}, {主題交叉度:0.3409})]。對任意一個主題,分別取12個指標(biāo)值在42個主題中的升序排名值,對于平均發(fā)文點(diǎn)等與新興程度正相關(guān)的指標(biāo),單指標(biāo)的新興程度量化結(jié)果為排名值,對于主題內(nèi)聚度等與新興程度負(fù)相關(guān)的指標(biāo),單指標(biāo)的新興程度量化結(jié)果為43減去排名值;3個維度量化結(jié)果取下屬單指標(biāo)量化結(jié)果的平均值;整體量化結(jié)果取3個維度量化結(jié)果的平均值。例如,“虛假信息監(jiān)測”在時間、引用與關(guān)聯(lián)維度的新興程度量化結(jié)果分別為24、28.6667、25.25,整體量化結(jié)果為25.9722。匯總表6中的新興主題,基于上述處理過程繪制圖4,主題標(biāo)簽大小取決于整體新興程度。
圖4 主題新興程度在三維空間的量化分布
在圖4中,“作者風(fēng)格與文本體裁分類”“自動摘要”等主題僅在單一維度新興程度較高,“引文分類與推薦”“融合多模態(tài)的情感分類”等主題同時在2個維度新興程度較高,而僅有“用戶消費(fèi)滿意度情感分析”“法律文本智能挖掘”等少數(shù)主題在3個維度新興程度均較高。各主題在三維空間中分布較為離散,且極少有主題在3個維度的新興程度均較高,這說明從不同維度分類討論新興主題是有價值且符合客觀結(jié)果的,結(jié)合具體主題的實(shí)際特征,綜合考量各維度的指標(biāo)值能夠有效識別不同類型的新興主題。
3.4.1 方法對比分析
遞進(jìn)式組合使用LDA、word2vec與similarity是目前較為常用的新興主題識別方法,為驗(yàn)證本文識別方法(以下簡稱“A方法”)的有效性,增加LDA+word2vec+similarity方法(以下簡稱“B方法”)作為實(shí)驗(yàn)對照組。首先,對于預(yù)處理后的摘要語料,基于LDA識別領(lǐng)域主題及主題特征詞;其次,利用word2vec訓(xùn)練主題特征詞的詞向量;最后,基于特征詞向量,計算主題與其他主題余弦相似度的平均值,用1減去該值來表示主題的新興度?;趃ensim庫訓(xùn)練LDA主題模型,訓(xùn)練時通過語料庫的次數(shù)為10,文檔-主題分布的先驗(yàn)al‐pha與主題-詞分布的先驗(yàn)均設(shè)置為“auto”,以區(qū)間[2,50]內(nèi)的整數(shù)作為候選主題數(shù),主題數(shù)為27時主題困惑度最低,達(dá)到最優(yōu)建模效果;主題由分布概率較高的N個特征詞表示,設(shè)置N為30,設(shè)置詞向量維度為100。經(jīng)計算,得到對照組新興主題識別結(jié)果,如表7所示。
通過表7可以發(fā)現(xiàn),與A方法識別結(jié)果相比,B方法難以有效表示主題的語義信息,導(dǎo)致難以識別更細(xì)致的主題差異,同時,因?yàn)閮H有新興度一個指標(biāo),難以綜合考慮主題的各特征因素,導(dǎo)致結(jié)果具有一定的局限性。例如,排名第1、3、6位的主題在內(nèi)涵上隸屬對照實(shí)驗(yàn)中的“醫(yī)學(xué)信息挖掘”,而實(shí)驗(yàn)數(shù)據(jù)集更多是文本分類技術(shù)與應(yīng)用的相關(guān)文獻(xiàn),大量醫(yī)學(xué)相關(guān)文獻(xiàn)的缺失導(dǎo)致對照實(shí)驗(yàn)高估了其新興度,導(dǎo)致誤判;排名第4位的主題“情感識別”屬于新興主題,但其主題范疇過于寬泛,A方法能識別出更細(xì)分的新興主題“用戶消費(fèi)滿意度情感分析”“融合多模態(tài)的情感分類”“網(wǎng)絡(luò)平臺負(fù)面言論檢測”等;單個指標(biāo)的局限性也導(dǎo)致A方法識別出的新興主題在對照實(shí)驗(yàn)中被大量漏識。
通過與B方法的對比分析,可以認(rèn)為本文方法具有新興主題識別粒度更細(xì)、更準(zhǔn)確、更全面的優(yōu)勢。
3.4.2 指標(biāo)相關(guān)性分析
對42個主題的各指標(biāo)值進(jìn)行相關(guān)性分析,樣本數(shù)小于50條,因此,選擇夏皮洛-威爾克(Shapiro-Wilk,S-W)法進(jìn)行檢驗(yàn),變量檢驗(yàn)結(jié)果均不符合正態(tài)分布;根據(jù)變量的數(shù)據(jù)類型和分布形態(tài),選取斯皮爾曼(Spearman)相關(guān)系數(shù)法對變量進(jìn)行相關(guān)性檢驗(yàn),結(jié)果如表8所示。從表8可以發(fā)現(xiàn),一方面,14個指標(biāo)兩兩之間大部分不存在顯著的相關(guān)關(guān)系,這表明各指標(biāo)具有差異性,形式上相互補(bǔ)充,能夠從不同角度更加全面地揭示主題特征,這在3.3節(jié)中的實(shí)證得以驗(yàn)證。另一方面,部分指標(biāo)之間存在正向或負(fù)向的顯著性相關(guān)關(guān)系,正向相關(guān)性反映了相關(guān)指標(biāo)之間內(nèi)在的協(xié)同性,如內(nèi)引時差、入度時差與出度時差3個指標(biāo)彼此存在正向相關(guān)性,從圖3b中也可發(fā)現(xiàn)這一規(guī)律,“融合多模態(tài)的情感分類”等主題在3個指標(biāo)上的取值均較小,在圖中的分布相對集中且與其他主題存在明顯特征差異,能夠更準(zhǔn)確地發(fā)現(xiàn)新興主題;負(fù)向相關(guān)性反映了指標(biāo)之間在極端值內(nèi)涵上的互斥性,如最早發(fā)文點(diǎn)通常較早,反映了一個主題的發(fā)展時間與成熟度,與新興程度相互對立,因此,它與內(nèi)引時差等多個指標(biāo)存在負(fù)向相關(guān)性,從側(cè)面反映了這些指標(biāo)作為新興主題識別依據(jù)的科學(xué)性與合理性。
表8 各指標(biāo)相關(guān)性分析
3.4.3 識別結(jié)果驗(yàn)證
由于新興主題識別是一種預(yù)測性任務(wù),沒有一種通用的定量標(biāo)準(zhǔn)衡量識別結(jié)果的準(zhǔn)確性[5,30],因此,采用資料分析法驗(yàn)證文本分類領(lǐng)域新興主題識別結(jié)果的科學(xué)性。在2022年1月1日至2023年3月1日,收集Web of Science核心合集、中文社會科學(xué)引文索引(Chinese Social Sciences Citation Index,CSSCI)與中國科學(xué)引文數(shù)據(jù)庫(Chinese Science Citation Database,CSCD)里文本分類相關(guān)的中英文綜述,對其內(nèi)容進(jìn)行深入分析。相關(guān)文獻(xiàn)談到如何優(yōu)化深度學(xué)習(xí)模型、改進(jìn)前沿技術(shù)[48];文本分類將重點(diǎn)關(guān)注算法改進(jìn)、信息拓展以及二者的相互融合,并探索特定領(lǐng)域應(yīng)用[49];應(yīng)當(dāng)加強(qiáng)情感分析與知識問答對自然語言的理解能力[50]等。綜合來看,本文結(jié)合識別結(jié)果總結(jié)的新興研究主題基本貼合了上述相關(guān)表述,證明了本文方法的有效性與準(zhǔn)確性。
(1)以文獻(xiàn)為基本單位表示主題能輔助主題深入挖掘。傳統(tǒng)以特征詞進(jìn)行主題表示的方法通常依靠詞間共現(xiàn)或關(guān)聯(lián)關(guān)系進(jìn)行主題特征測度,在一定程度上限制了對主題的深入挖掘。本文以文獻(xiàn)為基本單位進(jìn)行主題表示。其一,主題表示由一系列詞的集合替換為包含更豐富語義信息的摘要文本集合,使得主題能夠涵蓋更細(xì)致的語義內(nèi)容,為主題內(nèi)涵的凝練與分析提供更易理解的數(shù)據(jù)支撐,更精準(zhǔn)地溯源主題的某一文獻(xiàn)進(jìn)行深入分析;其二,以文獻(xiàn)為基本單位表示主題能夠擴(kuò)展主題的內(nèi)外部關(guān)聯(lián)類型,如特征詞之間難以準(zhǔn)確表示的引用關(guān)系可以通過文獻(xiàn)精準(zhǔn)表示,為主題的關(guān)聯(lián)分析提供不同的切入點(diǎn);其三,以文獻(xiàn)為基本單位能夠融合更多樣的相關(guān)數(shù)據(jù)輔助主題特征的測度,如領(lǐng)域文獻(xiàn)與非領(lǐng)域文獻(xiàn)之間基于引用的相關(guān)關(guān)系,可以探測知識跨領(lǐng)域流向特定主題的方向及強(qiáng)度,豐富主題觀測的思路。
(2)三維主題特征指標(biāo)框架具有較好的適應(yīng)性與擴(kuò)展性。本文從時間、引用與關(guān)聯(lián)3個維度構(gòu)建了包含14個指標(biāo)的主題特征指標(biāo)框架,從更全面的角度深入考察新興主題區(qū)別于一般主題的特征因素,并通過各指標(biāo)的整體協(xié)同分析定量評估主題,以得到更客觀的識別結(jié)果。一方面,3個維度的各指標(biāo)有不同的側(cè)重因素,以定量指標(biāo)形式科學(xué)化、精細(xì)化地展示與描述主題,有利于輔助人工更客觀、有效地判定新興主題。在宏觀上,立足領(lǐng)域考量其知識生產(chǎn)及擴(kuò)散的特殊性選取適用指標(biāo)對具體問題具體分析,如引用數(shù)據(jù)較少的領(lǐng)域應(yīng)適當(dāng)降低相關(guān)指標(biāo)的重要性;在微觀上,針對不同主題類型可以綜合各項指標(biāo)進(jìn)行差異化解讀與評估,如交叉主題、迎來新發(fā)展機(jī)遇的經(jīng)典主題、新誕生的主題等。另一方面,指標(biāo)框架具有較強(qiáng)的擴(kuò)展性,在面向特定領(lǐng)域或特定需求時,可靈活新增具有測度價值的定量或定性指標(biāo),建立更完善適用的指標(biāo)框架,更好地服務(wù)于新興主題發(fā)現(xiàn)。
(3)本文提出的新興主題識別方法存在泛化應(yīng)用的參考價值。首先,實(shí)驗(yàn)所用數(shù)據(jù)的時間跨度為1991—2022年,領(lǐng)域經(jīng)歷了較長的發(fā)展歷程,共有18777篇文獻(xiàn)聚類至42個主題,數(shù)據(jù)具有一定規(guī)模,實(shí)驗(yàn)數(shù)據(jù)選取具有合理性。其次,文本分類本身是一個隨技術(shù)進(jìn)步不斷迭代發(fā)展的領(lǐng)域,同時與醫(yī)學(xué)、金融、法律等領(lǐng)域形成具有交叉領(lǐng)域特色的研究內(nèi)容。除此之外,與圖像分類、語音識別等相關(guān)領(lǐng)域存在諸多共通性與差異性,實(shí)證領(lǐng)域特點(diǎn)鮮明,具有一定代表性。最后,實(shí)驗(yàn)證明了本文方法的可操作性,通過與LDA+word2vec+similarity方法的對比分析、指標(biāo)相關(guān)性分析及資料分析法討論了實(shí)驗(yàn)結(jié)果的科學(xué)性與有效性。因此,在結(jié)合其他泛化領(lǐng)域自身特征的基礎(chǔ)上,參考本文方法,選取適用指標(biāo)組合使用能夠幫助人工動態(tài)識別領(lǐng)域新興主題。
(1)以文獻(xiàn)為線索充分挖掘主題特征。以文獻(xiàn)為線索,可以串聯(lián)文獻(xiàn)題錄各字段信息、全文本內(nèi)容、引文信息等各類型數(shù)據(jù),以更全面的數(shù)據(jù)作為深入觀測主題的切入點(diǎn)。本文初步探討了從不同視角評估主題新興度的可行性,未來可從兩個方面做進(jìn)一步的探索。一是在數(shù)據(jù)范圍廣度上,融合更多元的數(shù)據(jù)拓展可能影響新興主題預(yù)測的因素和維度,完善現(xiàn)有指標(biāo)框架,使得新興主題的識別結(jié)果更加準(zhǔn)確、豐富。例如,參考文獻(xiàn)與施引文獻(xiàn)的發(fā)表時間及其被引量等、評估主題跨領(lǐng)域的知識擴(kuò)散強(qiáng)度及可賦予更高權(quán)重的高影響力知識擴(kuò)散強(qiáng)度等,還可關(guān)聯(lián)專利、政策文件等多源數(shù)據(jù)觀測新興主題的其他相關(guān)特征因素。二是在指標(biāo)內(nèi)涵深度上,基于更深層次的語義知識挖掘,定量描述主題的細(xì)粒度特征以更微觀地觀測主題。例如,針對引用維度的相關(guān)指標(biāo),可以通過更細(xì)致的分類,綜合考量引用位置、引用情感與引用動機(jī)等語義信息,使得指標(biāo)在簡單計數(shù)的基礎(chǔ)上向更復(fù)雜的語義計量進(jìn)行深化。
(2)智能評估的需求下減少人工干預(yù)。當(dāng)前,新興主題的自動識別無法完全消除人工干預(yù),主要體現(xiàn)為兩個方面。一是在主題建模階段,由于不同主題獨(dú)特的內(nèi)涵與語境,算法無法準(zhǔn)確理解并概括主題,仍依賴人工對主題內(nèi)涵進(jìn)行總結(jié);二是在新興主題識別結(jié)果分析階段,指標(biāo)雖然能客觀量化主題,但是無法自動分析新興主題的內(nèi)容,依賴人工進(jìn)一步評估與解讀。針對上述問題,可以明確各指標(biāo)的權(quán)重,提出綜合多因素的唯一指標(biāo),以主題排序的形式自動生成新興主題,但仍無法解決新興主題的智能解讀問題。因此,還可以借助現(xiàn)有生成式人工智能技術(shù),面向特定場景下的需求,基于領(lǐng)域知識輸入對預(yù)訓(xùn)練模型進(jìn)行繼續(xù)訓(xùn)練,在人工提示的基礎(chǔ)上,根據(jù)定量指標(biāo)計算結(jié)果,由機(jī)器智能化概括主題內(nèi)涵并生成新興主題的定性評估報告,在減少人工干預(yù)的同時,通過人機(jī)合作達(dá)到相互參照、相互驗(yàn)證的效果,以實(shí)現(xiàn)更高效的新興主題發(fā)現(xiàn)。
本文提出一種基于三維主題特征測度的領(lǐng)域新興主題識別方法,具體包括兩個方面的優(yōu)勢:①基于BERTopic模型對領(lǐng)域知識進(jìn)行主題建模,相較于特征詞,采用包含更豐富語義信息的摘要文本進(jìn)行主題表示,能夠挖掘到更深層次的主題特征;②構(gòu)建融合時間、引用與關(guān)聯(lián)因素的三維主題特征指標(biāo)框架,對14個指標(biāo)進(jìn)行計算與觀測,能夠基于更廣泛、更深入的主題特征挖掘?qū)崿F(xiàn)更有效的新興主題發(fā)現(xiàn)。
然后,利用文本分類領(lǐng)域相關(guān)數(shù)據(jù)進(jìn)行了實(shí)證研究,驗(yàn)證了本文方法的可行性,識別出虛假信息監(jiān)測、網(wǎng)絡(luò)平臺負(fù)面言論檢測、自動問答、自動摘要、圖神經(jīng)網(wǎng)絡(luò)技術(shù)、作者風(fēng)格與文本體裁分類等新興主題,并將識別結(jié)果歸納為文本分類前沿技術(shù)的改進(jìn)、文本分類方法在通用場景下的下游任務(wù)創(chuàng)新、文本分類方法結(jié)合領(lǐng)域知識特征在垂直領(lǐng)域的深入應(yīng)用、文本分類與其他相關(guān)技術(shù)的協(xié)同優(yōu)化四個方面。通過方法對比分析、指標(biāo)相關(guān)性分析和資料分析法驗(yàn)證了本文方法的有效性,說明該方法具有泛化應(yīng)用至其他領(lǐng)域的價值。
此外,本文存在一定的局限性:①僅獲取領(lǐng)域文獻(xiàn)的參考文獻(xiàn)與施引文獻(xiàn)標(biāo)題,沒有利用相關(guān)的更豐富的信息做進(jìn)一步的挖掘與分析;②僅初步討論了各指標(biāo)的有效性,需要進(jìn)一步明確各指標(biāo)的權(quán)重,進(jìn)而提出綜合性指標(biāo)。未來研究將做進(jìn)一步的改進(jìn)。