黃 月 張 昕
(北京語言大學(xué)信息科學(xué)學(xué)院 北京 100083)
學(xué)科交叉是伴隨社會和學(xué)科自身發(fā)展需求而出現(xiàn)的一種綜合性科學(xué)活動,是形成交叉學(xué)科的途徑和過程[1]。學(xué)科交叉主題識別以發(fā)掘代表不同研究領(lǐng)域交叉與匯聚的具體交叉點為目的,來分析不同領(lǐng)域在什么主題、什么方向產(chǎn)生了交叉,這不僅能為科研人員科技創(chuàng)新提供新思路,還能對前瞻性科技規(guī)劃決策提供參考[2],近年也陸續(xù)有文章對學(xué)科交叉相關(guān)問題進(jìn)行綜述[2-4]。
國家社會科學(xué)基金項目是目前國內(nèi)級別最高、權(quán)威性最強(qiáng)、資助力度最大、影響力最廣的哲學(xué)社會科學(xué)研究項目,集中體現(xiàn)了高校及科研人員的研究水平以及學(xué)科領(lǐng)域內(nèi)研究的發(fā)展前沿[5]。國家社會科學(xué)基金項目數(shù)據(jù)庫[6],每年度完善新獲得立項的項目名稱、項目類別、學(xué)科名稱等,基于這些信息進(jìn)行學(xué)科交叉主題識別對研究人員把握領(lǐng)域的最新發(fā)展動態(tài)具有重要意義。現(xiàn)有方法大多基于共詞分析研究學(xué)科間的交叉性,人工智能新興技術(shù)在學(xué)科交叉主題識別研究中的應(yīng)用較少,針對由基金項目名稱構(gòu)成的短文本集的主題識別效果不佳。
本研究以基金項目名稱短文本作為研究對象,提出融合預(yù)訓(xùn)練模型BERT與句向量模型Sentence-BERT的學(xué)科交叉主題識別方法,獲得項目名稱短文本的句向量表示,并與已有方法進(jìn)行對比實驗,為學(xué)科交叉主題識別貢獻(xiàn)新思路。
學(xué)科交叉主題識別的傳統(tǒng)方法是基于文獻(xiàn)計量進(jìn)行分析,然后基于主題模型等文本挖掘技術(shù)的交叉主題識別方法逐漸得到廣泛應(yīng)用,近年來隨著人工智能前沿技術(shù)的擴(kuò)散,詞向量模型也被應(yīng)用到了學(xué)科交叉主題識別領(lǐng)域。
學(xué)科交叉主題識別的基礎(chǔ)方法是從文獻(xiàn)計量角度進(jìn)行主題挖掘,主要包括以下幾類:
a.基于引文分析的學(xué)科交叉主題識別。例如,張藝蔓等[7]利用引文耦合強(qiáng)度衡量學(xué)科交叉度,對情報學(xué)交叉學(xué)科的學(xué)科結(jié)構(gòu)進(jìn)行分析。杜德慧等[8]通過跨學(xué)科參考文獻(xiàn)關(guān)鍵詞以及該關(guān)鍵詞在目標(biāo)學(xué)科中作為作者標(biāo)引關(guān)鍵詞出現(xiàn)的頻次,識別在目標(biāo)學(xué)科具有較大合作潛力的跨學(xué)科相關(guān)知識。
b.基于合著分析的學(xué)科交叉主題識別。例如,Abramo[9]等人分析了來自不同學(xué)科的科學(xué)家之間的合作程度,以確定研究活動中最常見的“知識組合”,采用基于出版物共同作者的學(xué)科歸屬,確定跨學(xué)科合作潛力最大的領(lǐng)域。孫曉玲[10]基于作者之間合作關(guān)系,通過合作網(wǎng)絡(luò)中作者團(tuán)體之間的融合和分化來體現(xiàn)學(xué)科之間的融合和新學(xué)科的產(chǎn)生。Sun[11]等人提出了一種基于作者跨領(lǐng)域重疊的科學(xué)制圖方法,利用團(tuán)體檢測算法對科學(xué)領(lǐng)域進(jìn)行識別。
c.基于共詞分析的學(xué)科交叉主題識別,這類方法應(yīng)用較為普遍。魏建香等[12]對不同學(xué)科的關(guān)鍵詞降維通過模糊聚類算法得到學(xué)科交叉點。閔超等[13]對高頻交叉關(guān)鍵詞及其共詞矩陣進(jìn)行分析探討學(xué)科交叉研究熱點領(lǐng)域的整體特征。王連喜等[14]使用關(guān)鍵詞交集分析、共詞聚類分析和戰(zhàn)略坐標(biāo)分析與主題模型對網(wǎng)絡(luò)輿情研究主題進(jìn)行了比較分析。溫芳芳等[15]對國家社科基金項目名稱分詞后的詞語進(jìn)行了共現(xiàn)分析,進(jìn)行了人文社科領(lǐng)域全域的學(xué)科交叉性測度及演化規(guī)律分析。
LDA(Latent Dirichlet Allocation)主題模型,在2003年由Blei等[16]提出,可以刻畫一詞多義且適合大規(guī)模且具有不同數(shù)據(jù)特性的語料,在主題挖掘上表現(xiàn)出獨特的優(yōu)勢,被廣泛應(yīng)用。王連喜等[14]使用LDA對網(wǎng)絡(luò)輿情研究主題進(jìn)行分析。熊文靚等[17]使用LDA結(jié)合壓縮算法識別跨學(xué)科性研究的主要主題。Qi等[18]提出了一種基于LDA的矩陣可視化方法,從而提取交叉主題。王明蕊[19]使用基于LDA演化而來的作者主題模型進(jìn)行主題挖掘。但LDA是一種基于詞頻的模型,基金項目名稱為短文本數(shù)據(jù)集,當(dāng)文本長度很短時,可能無法捕捉到足夠的上下文信息來生成有意義的主題。
除LDA模型之外,其他主題模型及文本聚類方法也被用于學(xué)科交叉主題識別。史盛楠[20]利用相關(guān)主題模型(Correlated Topic Model)將引文分析與文本內(nèi)容相結(jié)合來探究學(xué)科交叉發(fā)展趨勢。隗玲等[21]通過弱共現(xiàn)網(wǎng)絡(luò)聚類分析主題間的弱連接特點得到主題間的學(xué)科交叉模式。張琳等[22]采用“引文-文本”混合聚類技術(shù),將其應(yīng)用到學(xué)科結(jié)構(gòu)研究。
基于共詞分析的學(xué)科交叉主題識別方法只考慮詞之間的共現(xiàn)關(guān)系,而基于主題模型的學(xué)科交叉主題識別方法也是基于詞頻的,均不適用于短文本數(shù)據(jù)的稀疏且不規(guī)則性,且得到的學(xué)科交叉詞集在主題解讀上存在一定的困難,而基于詞向量的學(xué)科交叉主題識別方法恰好可以彌補(bǔ)這一缺陷。
詞向量指的是詞語基于神經(jīng)網(wǎng)絡(luò)的分布表示,是2000年由Bengio等人提出神經(jīng)網(wǎng)絡(luò)語言模型[23]時被提出的。傳統(tǒng)語言模型使用詞的獨熱表示,存在嚴(yán)重的數(shù)據(jù)稀疏問題,而詞向量很好地解決了這個問題。2013年,Mikolov等人同時提出了word2vec詞向量模型[24],包括CBOW和skip-gram模型。其中,CBOW根據(jù)上下文預(yù)測目標(biāo)詞,skip-gram根據(jù)目標(biāo)詞預(yù)測上下文,skip-gram模型結(jié)構(gòu)更為簡單、在小規(guī)模語料上的表現(xiàn)也更好。
Tshitoyan等[25]用word2vec訓(xùn)練數(shù)百萬篇材料科學(xué)的文獻(xiàn)摘要來推斷材料性質(zhì)及預(yù)測具有熱電效應(yīng)等特定屬性的新材料,該研究的核心思路是利用word2vec預(yù)測性質(zhì),將模型計算出的高語義相似度關(guān)鍵詞認(rèn)為是在未來的研究中可能出現(xiàn)的具有共現(xiàn)關(guān)系的詞對,預(yù)測未來的研究方向。王衛(wèi)軍等[26]于2021年率先將上述理論應(yīng)用到學(xué)科交叉研究中,提出基于word2vec結(jié)合共詞分析與DBSCAN聚類算法獲取潛在的學(xué)科交叉知識點,對國家自然科學(xué)基金“人工智能”與“信息管理”兩個領(lǐng)域的關(guān)鍵詞進(jìn)行實證分析。但文章中沒有明確詞向量模型優(yōu)化指標(biāo)的效果以及模型預(yù)測共詞關(guān)系詞對相似度閾值的設(shè)置依據(jù),所使用的DBSCAN算法當(dāng)樣本集密度不均勻時容易聚類效果不佳。何濤等[27]基于SCI論文摘要文本生成含有作者關(guān)鍵詞的自然科學(xué)常見詞匯,結(jié)合詞嵌入與局部異常因子算法發(fā)現(xiàn)領(lǐng)域交叉知識。
word2vec是基于上下文無關(guān)的詞向量表示方法,即對于同一個詞,它的向量表示是相同的,它的缺點是無法解決多義詞。2019年提出的預(yù)訓(xùn)練模型BERT[28]使用雙向語言模型,使用預(yù)測目標(biāo)詞和下一句這中多任務(wù)學(xué)習(xí)方式進(jìn)行訓(xùn)練。BERT雖然在很多下游任務(wù)都達(dá)到最優(yōu)效果,但是原生BERT生成的句向量效果并不好。句向量模型Sentence-BERT[29]在原生BERT基礎(chǔ)上做參數(shù)微調(diào),在微調(diào)階段把句向量生成相關(guān)的相似度任務(wù)加進(jìn)去后BERT就可以學(xué)到句向量生成的能力。Sentence-BERT相比BERT可以使用更小的模型進(jìn)行訓(xùn)練,同時還可以使用更小的批處理規(guī)模和更少的訓(xùn)練迭代次數(shù),在文本分類和相似度匹配等任務(wù)上,相比BERT表現(xiàn)更好,可以得到更高的準(zhǔn)確性和更好的結(jié)果。
針對基金項目名稱短文本集,本文提出基于預(yù)訓(xùn)練模型BERT和句向量模型Sentence-BERT的學(xué)科交叉主題識別方法。首先將項目名稱分詞,利用BERT獲取詞向量表示,將傳統(tǒng)基于關(guān)鍵詞共現(xiàn)的學(xué)科交叉知識發(fā)現(xiàn)方法擴(kuò)展到與共現(xiàn)詞語語義相似度高的詞匯均認(rèn)為具有學(xué)科交叉性質(zhì),再依據(jù)數(shù)據(jù)短文本集特點,使用Sentence-BERT和被廣泛應(yīng)用的數(shù)據(jù)挖掘經(jīng)典k-means聚類算法進(jìn)行學(xué)科交叉主題識別,最后與基于word2vec和DBSCAN的學(xué)科交叉主題識別方法進(jìn)行對比,從而判別其有效性。具體包括以下四步:
第一步,獲取兩個學(xué)科的詞集,構(gòu)建詞的共現(xiàn)矩陣。首先,將項目名稱進(jìn)行數(shù)據(jù)預(yù)處理,包括:分詞、刪除標(biāo)點符號、刪除高頻無意義詞。然后,針對清洗后的詞,根據(jù)是否同時出現(xiàn)在一個項目名稱,來構(gòu)建詞的共現(xiàn)矩陣。
第二步,獲取學(xué)科交叉性質(zhì)的詞集。本文認(rèn)為學(xué)科交叉詞集由三部分構(gòu)成:第一部分是同時存在于兩個學(xué)科詞集中的詞,第二部分是共詞矩陣中具有共現(xiàn)關(guān)系且分屬不同學(xué)科的詞對,第三部分是兩個學(xué)科的詞集中大于相似度閾值的詞對。其中,第一部分和第二部分容易計算得到。第三部分詞對的獲得,首先使用BERT對兩個學(xué)科詞集進(jìn)行詞向量表示,基于余弦相似度進(jìn)行詞對的相似度計算,篩選出高于相似度閾值的詞對作為候選學(xué)科交叉性質(zhì)詞對集,相似度閾值設(shè)定依據(jù)是數(shù)據(jù)集中存在實際共詞關(guān)系的詞對的相似度平均值,最后將候選學(xué)科交叉性質(zhì)詞對集中分別屬于不同學(xué)科的詞加入學(xué)科交叉性質(zhì)詞集。
第三步,利用詞集查找具有學(xué)科交叉性質(zhì)的項目名稱。若項目名稱中包含的平均詞數(shù)為n個,將包含不小于n個學(xué)科交叉性質(zhì)詞匯的項目名稱認(rèn)為具有學(xué)科交叉性質(zhì)。
第四步,使用Sentence-BERT和k-means進(jìn)行學(xué)科交叉主題識別。將上述具有學(xué)科交叉性質(zhì)的項目名稱作為Sentence-BERT輸入,獲得每個項目的句向量表示,作為k-means輸入,進(jìn)行聚類,從而獲得學(xué)科交叉主題。
本文選取國家社會科學(xué)基金項目數(shù)據(jù)庫[6],立項時間跨度選取2012-2021年,不限項目類別,學(xué)科分類選擇具有一定交叉性的“新聞學(xué)與傳播學(xué)”“圖書館、情報與文獻(xiàn)學(xué)”,檢索日期為2022年9月2日,得到項目名稱分別為1633條和1341條。去重后,獲得項目名稱分別為1571條和1287條,作為本文實驗數(shù)據(jù)。
根據(jù)本文所提方法的第一步,獲取兩個學(xué)科“新聞學(xué)與傳播學(xué)”和“圖書館、情報與文獻(xiàn)學(xué)”的詞集,構(gòu)建詞的共現(xiàn)矩陣。使用Python下的中文分詞工具jieba[30]對項目名稱進(jìn)行分詞,使用HMM模型[30]自動識別新詞,對無法識別的詞加入自定義詞典作為補(bǔ)充(例如,“中國夢”“一帶一路”“新浪大V”“云計算”“互聯(lián)網(wǎng)+”等,占比約1.4%),刪除標(biāo)點符號、刪去高頻無意義詞,抽取項目名稱中實際存在的詞的共現(xiàn)關(guān)系,構(gòu)建詞的共現(xiàn)矩陣,作為下一步相似度閾值的設(shè)置依據(jù)。
根據(jù)本文所提方法的第二步,訓(xùn)練模型獲取學(xué)科交叉性質(zhì)的詞集。其中,構(gòu)成學(xué)科交叉詞集的第一部分是同時存在于學(xué)科“新聞學(xué)與傳播學(xué)”和“圖書館、情報與文獻(xiàn)學(xué)”詞集中的詞,有686個。第二部分是共詞矩陣中具有共現(xiàn)關(guān)系且分屬不同學(xué)科的詞對,統(tǒng)計得到涉及的詞有2 858個。針對第三部分,本文使用騰訊AI Lab開源的BERT服務(wù)[31]作為接口、哈工大訊飛聯(lián)合發(fā)布全詞覆蓋中文BERT預(yù)訓(xùn)練模型[32]獲取數(shù)據(jù)集詞表的詞向量表示。針對實驗數(shù)據(jù)集,模型計算出的存在實際共詞關(guān)系的詞對的相似度平均值為0.7560,獲得高于0.76且詞對集中分別屬于不同學(xué)科的詞,共涉及的詞有2 787個。最終獲得本實驗的學(xué)科交叉詞集規(guī)模為2 933。
根據(jù)本文所提方法的第三步,利用詞集查找具有學(xué)科交叉性質(zhì)的項目名稱。統(tǒng)計項目名稱分詞后的平均詞數(shù)約為10,獲得具有學(xué)科交叉性質(zhì)的項目名稱94條,將篩選得到的項目名稱作為Sentence-BERT模型的輸入。
根據(jù)本文所提方法的第四步,使用Sentence-BERT模型進(jìn)行訓(xùn)練[29],其中SentenceTransformer選用distiluse-base-multilingual-cased-v1,得到短文本的向量表示,再用k-means算法[33]進(jìn)行聚類。聚類個數(shù)根據(jù)輪廓值(Silhouette Score)和CH值(Calinski Harabasz Score)指標(biāo)確定,得分越高,聚類效果越好。由此,根據(jù)兩個指標(biāo)的計算結(jié)果(見圖1),最優(yōu)聚類個數(shù)為10。
圖1 根據(jù)聚類評價指標(biāo)確定最優(yōu)聚類個數(shù)
根據(jù)聚類結(jié)果總結(jié)學(xué)科交叉主題。
主題1包括的項目名稱有“移動網(wǎng)絡(luò)環(huán)境下高校圖書館用戶情景敏感服務(wù)模式及實證研究”“基于嵌入式服務(wù)視角的高校圖書館特定用戶延伸服務(wù)的理論與實踐探索研究”“基于大規(guī)模網(wǎng)絡(luò)分析方法和內(nèi)存計算技術(shù)的高校圖書館大數(shù)據(jù)應(yīng)用模式與實證研究”“面向數(shù)字人文研究的圖書館開放數(shù)據(jù)體系構(gòu)建與服務(wù)模式設(shè)計研究”,由此可以總結(jié)得到主題1是“高校圖書館服務(wù)研究”。
主題2包括的項目名稱有“面向新型職業(yè)農(nóng)民的農(nóng)村公共圖書館精準(zhǔn)信息服務(wù)機(jī)制研究”“公共文化服務(wù)均等化背景下城鄉(xiāng)流動兒童閱讀環(huán)境和閱讀行為研究”“標(biāo)準(zhǔn)化推動鄉(xiāng)村公共數(shù)字文化服務(wù)可及性的模式及實施路徑研究”等,總結(jié)得到主題2“公共文化服務(wù)研究”。
主題3包括的項目名稱有“突發(fā)事件情境下社交媒體用戶情感表達(dá)行為的特征與驅(qū)動因素研究”“焦慮情緒下在線健康社區(qū)用戶信息精細(xì)加工和健康行為研究”“政務(wù)社交媒體信息效用的影響因素作用機(jī)制與提升路徑研究”“應(yīng)對城市大型集會輿情風(fēng)險的政府危機(jī)傳播困境及對策研究”“基于刻板印象挖掘的突發(fā)公共事件網(wǎng)絡(luò)媒體報道影響力分析及其應(yīng)用研究”“大規(guī)模社交網(wǎng)絡(luò)中正負(fù)影響力競爭傳播的量化計算及引導(dǎo)管控研究”“新冠疫情社交媒體信息傳播對疫區(qū)青年集體性無助的影響研究”“基于區(qū)塊鏈技術(shù)的網(wǎng)絡(luò)涉軍負(fù)面輿情挖掘方法傳播模型及治理機(jī)制研究”“多重社會網(wǎng)絡(luò)視角下的突發(fā)公共事件信息傳播模式與演化規(guī)律研究”“社交媒體時代重大疫情公眾網(wǎng)絡(luò)輿情卷入特征機(jī)制及引導(dǎo)策略研究”等,總結(jié)得到主題3“公共事件輿情傳播與政府應(yīng)對研究”。
主題4包括的項目名稱有“我國與一帶一路沿線國家圖書貿(mào)易關(guān)聯(lián)度測評及精準(zhǔn)化走出去研究”“中國與一帶一路沿線支點國家文化產(chǎn)業(yè)優(yōu)先合作領(lǐng)域的戰(zhàn)略選擇研究”“一帶一路沿線國家漢語教科書中國形象傳播的話語路徑與策略研究”“基于大數(shù)據(jù)的中國大陸英文媒體中國夢對外傳播效果及敘事策略研究”“媒介融合背景下中國廣播電視網(wǎng)絡(luò)產(chǎn)業(yè)發(fā)展機(jī)制創(chuàng)新與實現(xiàn)路徑研究”“文化強(qiáng)國背景下國家形象廣告對中國傳統(tǒng)文化的承載與傳播研究”“新世紀(jì)以來中國題材紀(jì)錄片國際傳播的國家形象構(gòu)建及效果研究”“海外華語電視的本土內(nèi)容生產(chǎn)與中華傳統(tǒng)文化傳播創(chuàng)新研究”“一帶一路背景下中國出版走出去的戰(zhàn)略定位市場布局與推進(jìn)機(jī)制研究”等,總結(jié)得到主題4“中國文化國際傳播與發(fā)展研究”。
主題5包括的項目名稱有“文化數(shù)字化保護(hù)視域下甘青川藏族民間苯教文獻(xiàn)整理研究”“口述史方法下的中國大陸當(dāng)代古籍版本學(xué)家鑒定經(jīng)驗整理集成與研究”“民族記憶傳承視閾下的西部國家綜合檔案館民族檔案文獻(xiàn)遺產(chǎn)資源共建研究”“漢蒙藏滿英梵新蒙文七種文字合璧大藏經(jīng)目錄編制與比較研究”“武陵民族地區(qū)瀕危傳統(tǒng)技藝口述史料采輯與保護(hù)利用研究”,總結(jié)得到主題5“少數(shù)民族文獻(xiàn)遺產(chǎn)建檔研究”。
主題6包括的項目名稱有“西部民族地區(qū)數(shù)字時代閱讀行為與閱讀推廣機(jī)制構(gòu)建研究”“信息承載力視角下西北五省區(qū)區(qū)域信息治理與信息援助的模式與路徑研究”“全域旅游背景下的西部地區(qū)影視傳播與旅游產(chǎn)業(yè)創(chuàng)新發(fā)展研究”“西部農(nóng)村地區(qū)基于移動互聯(lián)網(wǎng)的政治類出版物傳播效果評價體系研究”“認(rèn)知差異機(jī)制下的中國國家形象建構(gòu)研究理論框架與實踐方案”“社會治理視角下西部民族地區(qū)縣級媒體融合的躍遷機(jī)制研究”“河西走廊民族互嵌型社區(qū)鑄牢中華民族共同體意識的傳播符碼體系重構(gòu)研究”等,總結(jié)得到主題6“西部地區(qū)信息傳播與國家形象建設(shè)”。
主題7包括的項目名稱有“基于社會網(wǎng)絡(luò)知識圖譜的高??蒲袆?chuàng)新團(tuán)隊內(nèi)部的知識整合研究”“人文社會科學(xué)網(wǎng)絡(luò)開放學(xué)術(shù)信息質(zhì)量評價體系研究與實證分析”“創(chuàng)新和質(zhì)量導(dǎo)向的中國人文社會科學(xué)學(xué)術(shù)成果評價管理控制機(jī)制研究”“融合多維信息計量指標(biāo)的人文社會科學(xué)代表性學(xué)術(shù)專著評價方法與實現(xiàn)機(jī)制研究”“同質(zhì)化背景下人文社會科學(xué)學(xué)術(shù)期刊品牌建設(shè)水平診斷及提升路徑研究”等,總結(jié)得到主題7“人文社會科學(xué)領(lǐng)域?qū)W術(shù)成果評價研究”。
主題8包括的項目名稱有“移動互聯(lián)環(huán)境下融入實時情境的個性化信息動態(tài)推薦機(jī)制研究”“智能手機(jī)對彝族青年生活方式及其家鄉(xiāng)振興發(fā)展的影響研究基于涼山彝寨的實證考察”“區(qū)塊鏈對數(shù)字出版產(chǎn)業(yè)全球價值鏈重構(gòu)機(jī)理與中國戰(zhàn)略選擇研究”“人工智能時代新聞推薦系統(tǒng)中的信息繭房問題形成機(jī)理及應(yīng)對策略研究”“人工智能時代民族地區(qū)危機(jī)傳播的嬗變及其治理能力數(shù)智化轉(zhuǎn)型研究”等,總結(jié)得到主題8“新型信息技術(shù)的傳播與影響研究”。
主題9包括的項目名稱有“在線健康社區(qū)用戶信息精細(xì)加工與健康行為的聯(lián)動機(jī)制與促進(jìn)策略研究”“民族地區(qū)公眾網(wǎng)絡(luò)參與社會政策與社會認(rèn)同度提升的關(guān)系研究”“我國社會性科學(xué)議題的科學(xué)傳播模式與公眾認(rèn)知模式的偏差研究”“重大突發(fā)公共衛(wèi)生事件社交媒體傳播評價體系構(gòu)建及公眾政治認(rèn)同研究”等,總結(jié)得到主題9“基于網(wǎng)絡(luò)的公共信息傳播研究”。
主題10包括的項目名稱有“情報治理體系和治理能力現(xiàn)代化視域下大規(guī)模情報監(jiān)控監(jiān)督制約問題研究”“媒介融合背景下西部民族地區(qū)重大突發(fā)事件中的輿論引導(dǎo)與博弈策略研究”“藏疆公民政治認(rèn)同視角下現(xiàn)代民族政治傳播體系建構(gòu)基于中美涉藏涉疆報道的比較研究”“全媒體語境下宗教極端思想伊吉拉特在新疆的傳播及其應(yīng)對策略研究”“社會媒體環(huán)境中大眾輿論關(guān)注焦點形成與演變動態(tài)過程研究”等,總結(jié)得到主題10“媒介融合下的國家安全輿情分析”。
通過與研究相同領(lǐng)域之間交叉性的文獻(xiàn)進(jìn)行交叉驗證[13-14],得到了相似的學(xué)科主題,比如輿情分析、政府輿情應(yīng)對、期刊評價與管理、網(wǎng)絡(luò)信息傳播等,從而說明了本文所提方法的有效性。
為進(jìn)一步說明本研究方法的有效性和適用范圍,選取前文提到的基于word2vec和DBSCAN算法的學(xué)科交叉主題識別方法[26]進(jìn)行對比實驗。
首先,使用Gensim庫中的word2vec[24]訓(xùn)練詞向量,選用skip-gram模型,設(shè)置最小詞頻為1,詞向量維度為50,模型的迭代次數(shù)為10。計算得出存在實際共詞關(guān)系的詞對的相似度平均值為0.94608,故將模型優(yōu)化中的詞語相似度閾值設(shè)定為0.95。
然后,使用PageRank算法[35]計算出關(guān)鍵詞的重要性排序,選取前500個關(guān)鍵詞作為DBSCAN[36]的輸入(最小包含點數(shù)參數(shù)設(shè)置為8、掃描半徑參數(shù)設(shè)置為0.101),得到7個聚類簇。只保留聚類中具有兩個學(xué)科關(guān)鍵詞,且每個學(xué)科關(guān)鍵詞數(shù)量均大于等于2的關(guān)鍵詞聚類,得到分類簇6個。①聚類1包括的關(guān)鍵詞有:壟斷、道教、涉農(nóng)、地理、學(xué)術(shù)交流、永樂、聯(lián)網(wǎng)、考據(jù)、群眾、扁平化、計學(xué)、穆青、業(yè)界、構(gòu)成、軍隊、補(bǔ)正、一國兩制、范型、全球性、年譜、編輯部、建國、系統(tǒng)結(jié)構(gòu)、伊犁河、秦簡,其中“壟斷”“計學(xué)”“全球性”涉及研究內(nèi)容“全球經(jīng)濟(jì)形式”,“穆青”“編輯部”涉及研究內(nèi)容“政府新聞機(jī)構(gòu)”,“涉農(nóng)”“地理”“伊犁河”涉及研究內(nèi)容“農(nóng)業(yè)地理”。②聚類2包括的關(guān)鍵詞有:通訊社、錫伯族、傳媒業(yè)、學(xué)習(xí)效果、印刷術(shù)等,可以將主題總結(jié)為“少數(shù)民族文化傳播”。③聚類3包括的關(guān)鍵詞有:美學(xué)、演化過程、倫敦、禮記,主題可以總結(jié)為“美學(xué)思想傳播”。④聚類4包括的關(guān)鍵詞有:疾病、漢至、碎片、信息系統(tǒng)、上中下、知識化、時間,主題可以總結(jié)為“醫(yī)療信息化”。⑤聚類5包括的關(guān)鍵詞有中“宋遼金”“武陵”“吐蕃”“元代”“進(jìn)士”“敘事學(xué)”“敘詞”涉及研究內(nèi)容“中國古典文學(xué)”,而“哈佛大學(xué)”“戰(zhàn)略伙伴”“資源管理”涉及研究內(nèi)容“商業(yè)科學(xué)”。⑥聚類6包括的關(guān)鍵詞中“紙張”“漢字”“公文紙”“印本”“刊行”涉及研究內(nèi)容“古籍印刷”,而“貧困縣”“洮河”“國際輿論”涉及研究內(nèi)容“貧困治理”。
可見,對于國家社科基金項目名稱數(shù)據(jù)集,基于word2vec和DBSCAN方法由于同一聚類簇內(nèi)的詞之間語義關(guān)聯(lián)性很弱、可能涉及多個主題,類內(nèi)研究差異較大,因此聚類1、5、6沒能總結(jié)出明確的類主題。由實驗結(jié)果可知,本文提出的基于BERT和Sentence-BERT的學(xué)科交叉主題識別方法在處理由項目名稱構(gòu)成的短文本數(shù)據(jù)集上效果有改進(jìn)。
結(jié)合人工智能領(lǐng)域的前沿技術(shù),提出了一種針對基金項目名稱短文本集進(jìn)行學(xué)科交叉主題挖掘的方法,擴(kuò)展了交叉學(xué)科知識發(fā)現(xiàn)方法,對發(fā)現(xiàn)新的學(xué)科增長點具有一定的積極作用。本文提出首先基于BERT獲取詞向量識別出學(xué)科交叉詞集,再使用模型Sentence-BERT進(jìn)行學(xué)科交叉主題挖掘。區(qū)別于以往研究,本文通過BERT計算詞之間的語義相似度,而不是簡單的基于詞頻,解決了短文本分詞造成的詞語格式不規(guī)范對詞匯學(xué)科交叉性質(zhì)體現(xiàn)的影響。本文對學(xué)科交叉詞集構(gòu)成進(jìn)行總結(jié),認(rèn)為其包括三部分:同時存在于兩個學(xué)科詞集中的詞、共詞矩陣中具有共現(xiàn)關(guān)系且分屬不同學(xué)科的詞對、模型計算出的兩個學(xué)科的詞集中大于相似度閾值的詞對。同時本文將包含不小于學(xué)科交叉詞個數(shù)平均值的項目名稱作為獲得具有學(xué)科交叉性質(zhì)的短文本集,提高學(xué)科交叉詞集內(nèi)詞匯間的語義相似度,以此避免詞向量模型訓(xùn)練出的學(xué)科交叉詞集規(guī)模過于寬泛,改善了詞集中出現(xiàn)的存在共現(xiàn)關(guān)系但詞語單獨出現(xiàn)無法表達(dá)主題的問題。通過實驗對比發(fā)現(xiàn),相較于已有基于word2vec詞向量和DBSCAN聚類獲得的由詞集構(gòu)成的聚類結(jié)果,本方法對由短文本構(gòu)成的聚類結(jié)果更易解讀,在短文本數(shù)據(jù)集上得到的研究主題更明確。但本文研究也有不足之處,對于學(xué)科交叉詞集中涉及的詞對相似性閾值確定目前采用均值,還可以進(jìn)一步考慮優(yōu)化算法。此外,比如有些項目名稱沒有采用學(xué)科交叉詞匯進(jìn)行描述但卻具有學(xué)科交叉特征,在未來的研究中,考慮新的科學(xué)文獻(xiàn)及基金項目數(shù)據(jù)的嵌入表示方法,為主題識別研究貢獻(xiàn)新思路。