江天明 鄭國杰 王晴等
關(guān)鍵詞: 投稿選刊; 多標(biāo)簽分類; 深度學(xué)習(xí); 自然語言處理
DOI:10.3969 / j.issn.1008-0821.2024.01.005
〔中圖分類號〕G254 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821 (2024) 01-0048-09
在學(xué)術(shù)大數(shù)據(jù)時代, 學(xué)術(shù)論文數(shù)量急劇增長,給學(xué)術(shù)論文的組織和檢索帶來了巨大挑戰(zhàn)[1] 。為有效且高效進(jìn)行學(xué)術(shù)文獻(xiàn)分類管理, 基于機(jī)器學(xué)習(xí)的文本分類方法被廣泛運(yùn)用, 能夠自動地將學(xué)術(shù)論文歸類到預(yù)先定義好的類別中[2-3] 。鑒于機(jī)器學(xué)習(xí)較好的自動分類能力, 有學(xué)者將文本分類方法運(yùn)用于期刊選擇, 根據(jù)論文的題錄信息, 通過機(jī)器學(xué)習(xí)方法對學(xué)術(shù)論文進(jìn)行自動分類, 為學(xué)術(shù)論文投稿給出指導(dǎo)意見[4] 。一方面, 能夠?qū)ν陡逭咛峁┣袑?shí)有效的投稿指導(dǎo), 幫助其快速找到合適的投稿期刊, 節(jié)省論文的投稿時間; 另一方面, 能夠?yàn)槠诳峁┖线m的稿件, 提升期刊的審稿效率和縮短論文發(fā)表周期。
然而, 已有研究大多將論文投稿當(dāng)作單標(biāo)簽分類任務(wù), 一篇論文只會被分配1 個期刊。雖然對于一篇論文, 其發(fā)表期刊只有1 個, 但在發(fā)表之前的投稿過程中, 學(xué)者普遍面臨期刊選擇多樣性和拒稿重投的問題。即一篇論文在內(nèi)容層面上適合多個期刊[5] 。作為對比, 多標(biāo)簽的文本分類方法能夠?yàn)椋眰€文本分配多個合適標(biāo)簽, 近年來逐漸引起學(xué)者們的重視[6] 。譬如, 運(yùn)用多標(biāo)簽分類方法對中文期刊論文[7] 或圖書[8] 進(jìn)行中圖法多標(biāo)簽分類、基于多標(biāo)簽進(jìn)行跨學(xué)科性質(zhì)的測度[9] 、基于多標(biāo)簽進(jìn)行引文功能的多標(biāo)簽分類[10] 等。
綜上, 本文以情報學(xué)領(lǐng)域CSSCI 收錄期刊為例, 獲取該領(lǐng)域期刊近20 年內(nèi)收錄學(xué)術(shù)論文的題錄信息和參考文獻(xiàn)信息, 通過深度學(xué)習(xí)方法構(gòu)建多標(biāo)簽分類模型, 選擇最優(yōu)的特征組合、分類算法和多標(biāo)簽策略, 對學(xué)術(shù)論文進(jìn)行多標(biāo)簽分類, 從而獲取論文投稿選刊建議, 為投稿者的投稿選刊規(guī)劃給予支撐。
1 相關(guān)研究
本文利用深度學(xué)習(xí)構(gòu)建自動文本分類模型, 針對科研人員學(xué)術(shù)論文投稿選刊需求, 基于學(xué)術(shù)論文題錄信息給出多標(biāo)簽的投稿選刊建議。
1.1 投稿選刊
投稿選刊是學(xué)術(shù)論文發(fā)表的重要環(huán)節(jié), 然而面臨著學(xué)術(shù)期刊選擇多樣性的挑戰(zhàn)[5,11] 。目前, 面向投稿選刊的相關(guān)研究主要針對外文期刊, 通過社會網(wǎng)絡(luò)分析、文獻(xiàn)計量分析、機(jī)器學(xué)習(xí)等不同方法,構(gòu)建針對特定學(xué)科領(lǐng)域的學(xué)術(shù)期刊推薦模型。Pradhan T 等[12] 使用社會網(wǎng)絡(luò)分析和文本相似性分析方法, 構(gòu)建了學(xué)術(shù)文獻(xiàn)投稿推薦系統(tǒng), 在準(zhǔn)確性、多樣性、穩(wěn)定性和結(jié)果的平均質(zhì)量等指標(biāo)上獲得了較好的效果。Rajanala S 等[13] 使用神經(jīng)網(wǎng)絡(luò)模型和文本分類器, 通過分析論文標(biāo)題、摘要的語義和句法特征, 構(gòu)建了學(xué)術(shù)文獻(xiàn)投稿推薦系統(tǒng), 提高了論文期刊推薦的準(zhǔn)確性。Liu C 等[14] 提出了一個基于嵌入模型的學(xué)習(xí)框架來推薦投稿期刊, 使用BERT 模型和網(wǎng)絡(luò)分析的方法, 對論文期刊進(jìn)行推薦, 引入了信息熵這一指標(biāo)描述推薦結(jié)果的不確定性。Nguyen D H 等[15] 使用雙向編碼和混合編碼技術(shù), 提出了一種高效的論文期刊推薦算法, 并使用計算機(jī)科學(xué)和應(yīng)用數(shù)學(xué)的論文數(shù)據(jù)進(jìn)行驗(yàn)證, 大大提高了實(shí)驗(yàn)精度。Huang Z W 等[16] 通過構(gòu)建領(lǐng)域詞典, 使用Doc2vec 訓(xùn)練每篇文章的特征向量, 與詞典中的模型進(jìn)行匹配, 完成投稿推薦的任務(wù)。Guan R 等[17] 通過構(gòu)建語義圖, 提出了一種基于抽象層次圖的學(xué)術(shù)期刊預(yù)測模型。
國內(nèi)對于投稿選刊的研究中, 王鑫蕓等[4] 使用機(jī)器學(xué)習(xí)方法構(gòu)建投稿選刊分類模型, 并以Web ofScience 數(shù)據(jù)庫中圖書館學(xué)、情報學(xué)(Library and In?formation Science, LIS)學(xué)科SSCI 收錄的26 種期刊已發(fā)表的文獻(xiàn)進(jìn)行驗(yàn)證, 取得了較好的效果。除此之外, 大多通過分析文獻(xiàn)計量學(xué)特征, 給出較為主觀的投稿建議, 缺乏可執(zhí)行性。楊華[18] 提出投稿中應(yīng)綜合評價期刊的年發(fā)文量、影響因子、所屬學(xué)科等指標(biāo)。趙悅陽等[19] 認(rèn)為應(yīng)額外考慮收錄中國作者發(fā)文量。姚海燕等[20] 、王曉瑜[21] 分別對SCIE收錄的皮膚病學(xué)、風(fēng)濕免疫學(xué)期刊進(jìn)行相關(guān)文獻(xiàn)計量分析, 都認(rèn)為投稿SCI-E 醫(yī)學(xué)期刊時應(yīng)綜合考慮載文方向、影響因子、投稿難易度、審稿時長等因素。鄒聰[22] 分析了SCI 收錄的病理學(xué)期刊的文獻(xiàn)計量學(xué)特征, 提出應(yīng)注重期刊的文獻(xiàn)計量學(xué)指標(biāo)及投稿參數(shù)分析, 并指出閱讀合適的期刊論文有益于選擇合適的期刊。宗張建[11] 對投稿選刊的考慮因素進(jìn)行了優(yōu)先級排序, 認(rèn)為研究主題和學(xué)術(shù)水平是投稿選刊的主要考慮因素, 出版周期和論文類型是次要考慮因素。向晴等[23] 認(rèn)為投稿時應(yīng)先確定方向然后逐步縮小期刊范圍, 必要時可使用相關(guān)在線輔助工具。
除此之外, 為了滿足科研人員的投稿需求, 也有外文學(xué)術(shù)出版服務(wù)商提供投稿選刊功能, 基于用戶輸入的待投稿學(xué)術(shù)論文題目、摘要或關(guān)鍵詞等信息, 給出合適的投稿期刊列表。在國內(nèi)數(shù)據(jù)庫服務(wù)商中, 維普的學(xué)術(shù)期刊投稿分析系統(tǒng)也具有類似功能, 根據(jù)輸入的論文標(biāo)題和摘要自動分析論文核心知識點(diǎn), 然后根據(jù)用戶限定的范圍, 給出推薦期刊的列表。
1.2 自動文本分類
自動文本分類利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法構(gòu)建分類模型, 已被廣泛應(yīng)用到學(xué)術(shù)論文分類中, 從標(biāo)簽個數(shù)上來看主要分為兩種: 一是單標(biāo)簽分類;二是多標(biāo)簽分類。已有的學(xué)術(shù)文獻(xiàn)分類方法多聚焦于單標(biāo)簽分類, 即一篇學(xué)術(shù)文獻(xiàn)只會被分配1 個類別標(biāo)簽。王昊等[24] 針對人工分類和單層分類方法的效果不佳的問題, 基于支持向量機(jī)和BP 神經(jīng)網(wǎng)絡(luò)構(gòu)建自動文本分類器, 利用期刊論文題錄信息進(jìn)行中圖法三層次分類, 獲取接近80%的綜合正確率。劉瀏等[25] 使用KNN 算法對10 個社會科學(xué)學(xué)科的論文進(jìn)行自動分類, 有別于提升分類準(zhǔn)確率的常規(guī)研究思路, 利用分類結(jié)果作為跨學(xué)科性度量的依據(jù), 對學(xué)科的跨學(xué)科性進(jìn)行量化。趙旸等[26] 基于BERT 預(yù)訓(xùn)練語言模型對中文醫(yī)學(xué)文獻(xiàn)進(jìn)行分類, 基于文獻(xiàn)摘要和文獻(xiàn)單一中圖法分類號構(gòu)建單標(biāo)簽多分類語料集, 驗(yàn)證了BERT 預(yù)訓(xùn)練模型對中文醫(yī)學(xué)文獻(xiàn)分類的有效性。雷兵等[27] 利用卷積神經(jīng)網(wǎng)絡(luò), 基于題錄信息進(jìn)行雙標(biāo)簽分類, 同時識別學(xué)術(shù)文獻(xiàn)的研究內(nèi)容和研究方法。值得注意的是,雖然進(jìn)行雙標(biāo)簽分類, 但其將雙標(biāo)簽合并為組合標(biāo)簽, 構(gòu)建的模型仍為單標(biāo)簽分類模型。顯然, 由于一個文本涉及的主題或?qū)W科往往不是單一的, 單標(biāo)簽分類并不能完全反映真實(shí)全面的類別屬性。
近年來, 多標(biāo)簽文本分類方法在學(xué)術(shù)文獻(xiàn)分類中的應(yīng)用得到關(guān)注。馬芳等[7] 將多標(biāo)簽分類運(yùn)用到科技論文分類中, 采用基于算法轉(zhuǎn)化的方法對中文科技期刊論文進(jìn)行中圖法多標(biāo)簽分類。蔣彥廷等[8]基于BERT 模型對圖書進(jìn)行表示學(xué)習(xí)和多標(biāo)簽分類, 首先基于圖書粗粒度分類對BERT 進(jìn)行微調(diào),提取圖書向量表示, 然后利用學(xué)習(xí)到的向量表示和MLKNN 方法構(gòu)建多標(biāo)簽分類模型, 最終實(shí)現(xiàn)對圖書的257 類細(xì)粒度多標(biāo)簽分類。為解決學(xué)術(shù)文獻(xiàn)中研究方法的自動分類, 章成志等[28] 采用問題轉(zhuǎn)化和算法自適應(yīng)法兩種多標(biāo)簽策略構(gòu)建多種多標(biāo)簽分類模型, 基于學(xué)術(shù)文獻(xiàn)全文內(nèi)容對論文中使用的全部研究方法進(jìn)行自動分類。另外, 王衛(wèi)軍等[9] 利用多標(biāo)簽分類方法進(jìn)行科技文獻(xiàn)學(xué)科交叉研究性質(zhì)識別, 基于深度學(xué)習(xí)算法構(gòu)建多分類模型, 對科技文獻(xiàn)進(jìn)行學(xué)科標(biāo)簽預(yù)測, 并結(jié)合分類標(biāo)簽和原始標(biāo)簽, 對學(xué)科交叉研究性質(zhì)進(jìn)行識別。
其中, 針對期刊投稿選刊, 王鑫蕓等[4] 在基于層次聚類方法構(gòu)建期刊層次結(jié)構(gòu)體系的基礎(chǔ)上, 基于層次分類方法對學(xué)術(shù)論文進(jìn)行兩階段單標(biāo)簽多分類。第一層分類器對論文進(jìn)行大類劃分, 縮小期刊選擇范圍, 第二層分類器將論文歸類到期刊粒度。值得注意的是, 在第二層分類中, 為提升分類效果, 作者將內(nèi)容接近的期刊進(jìn)行組合。這一實(shí)驗(yàn)結(jié)果證實(shí)了期刊投稿中一篇論文滿足多個期刊的普遍性和有效性, 啟發(fā)了本文的多標(biāo)簽期刊投稿選刊研究工作。
綜上所述, 目前面向投稿選刊的學(xué)術(shù)論文推薦研究主要基于單標(biāo)簽分類方法, 對于多標(biāo)簽分類方法的研究較少, 且已有研究均針對英文學(xué)術(shù)論文進(jìn)行分析。因此, 本文考慮使用深度學(xué)習(xí)模型對中文學(xué)術(shù)論文進(jìn)行端到端的多標(biāo)簽分類。與以往研究不同的是, 本研究在方法流程上無需進(jìn)行手工特征構(gòu)建和對期刊進(jìn)行類目劃分, 同時使用單一模型直接進(jìn)行多標(biāo)簽分類, 且在一定程度上填補(bǔ)了中文學(xué)術(shù)論文自動投稿選刊研究的空缺。
2 研究方法
2.1 基本思路
一篇學(xué)術(shù)論文的收錄期刊通常只有1 個, 但并不代表一篇論文只適合1 個期刊, 在學(xué)術(shù)大數(shù)據(jù)時代, 學(xué)術(shù)論文投稿普遍面臨期刊選擇多樣性和拒稿重投問題[4] 。本文針對論文投稿中的期刊選擇, 將學(xué)術(shù)論文投稿選刊轉(zhuǎn)化為多標(biāo)簽分類問題, 利用論文參考文獻(xiàn)進(jìn)行多標(biāo)簽獲取, 并以深度學(xué)習(xí)模型為基礎(chǔ)構(gòu)建學(xué)術(shù)論文多標(biāo)簽分類模型。選取情報學(xué)領(lǐng)域中CSSCI 期刊作為研究對象, 從CNKI 和CSSCI官網(wǎng)爬取論文題錄數(shù)據(jù)和參考文獻(xiàn)數(shù)據(jù), 抽取并梳理題名、摘要、關(guān)鍵詞及參考文獻(xiàn)。主要研究過程包括數(shù)據(jù)收集、數(shù)據(jù)集構(gòu)建、多分類模型構(gòu)建及分類效果評估4 個部分, 具體研究框架如圖1 所示。
2.2 多標(biāo)簽設(shè)置
多標(biāo)簽分類方法屬于有監(jiān)督機(jī)器學(xué)習(xí)的范疇,需要構(gòu)建帶標(biāo)簽的數(shù)據(jù)集[29] 。多標(biāo)簽數(shù)據(jù)集構(gòu)建就是將原始語料轉(zhuǎn)化為適合多標(biāo)簽分類問題的格式化的樣本。在本文的期刊論文的多標(biāo)簽分類問題中,樣本包含兩部分: 一是作為模型輸入的特征部分;二是作為模型輸出的標(biāo)簽部分。
標(biāo)簽部分是指為樣本分配類別標(biāo)簽, 針對多標(biāo)簽設(shè)置, 如何為一篇論文分配多個合適的期刊標(biāo)簽是多標(biāo)簽論文分類的基礎(chǔ)。論文的投稿記錄是多標(biāo)簽的可靠來源, 然而其通常是不可獲取的。本研究根據(jù)論文的參考文獻(xiàn), 構(gòu)建合適該論文的期刊標(biāo)簽,對該論文所在期刊進(jìn)行擴(kuò)充, 最終為一篇論文分配多個期刊標(biāo)簽。具體地, 一篇文獻(xiàn)會引用多篇參考文獻(xiàn)來作為支撐, 被引文獻(xiàn)主題和施引文獻(xiàn)主題具有高度相似性, 參考文獻(xiàn)所在期刊也適合施引文獻(xiàn)的投稿。這樣一篇文獻(xiàn)的標(biāo)簽就包括文獻(xiàn)自身所投期刊及其參考文獻(xiàn)所在期刊。依據(jù)不同的參考文獻(xiàn)篩選規(guī)則, 本文構(gòu)建了4 種不同的多標(biāo)簽策略。4種標(biāo)簽策略記為S1、S2、S3 和S4, 分別代表: 選取排名前1 的期刊作為補(bǔ)充標(biāo)簽; 選取排名前2 的期刊作為補(bǔ)充標(biāo)簽; 選取被引次數(shù)大于1 的期刊作為補(bǔ)充標(biāo)簽; 選取被引次數(shù)大于0 的期刊作為補(bǔ)充標(biāo)簽。其中, 在S1 和S2 策略下的標(biāo)簽選取過程中,按參考文獻(xiàn)來源期刊出現(xiàn)頻度對期刊進(jìn)行排序, 選擇對應(yīng)排位的期刊為補(bǔ)充標(biāo)簽。此外, 為獲取最相關(guān)的標(biāo)簽和控制多標(biāo)簽的類別, 本文將標(biāo)簽限定為情報學(xué)領(lǐng)域, 不考慮來自其他領(lǐng)域的參考文獻(xiàn)。
2.3 特征組合及向量表示
針對特征部分, 鑒于本文采用深度學(xué)習(xí)方法構(gòu)建多標(biāo)簽分類模型, 相較于傳統(tǒng)的淺層機(jī)器學(xué)習(xí)模型, 無需繁瑣耗時的手工特征的抽取, 深度學(xué)習(xí)能夠從原始文本中進(jìn)行自動的特征學(xué)習(xí)。特征組合的構(gòu)建較為簡單, 只需對論文的題錄信息進(jìn)行組合拼接, 即對論文標(biāo)題、摘要及關(guān)鍵詞進(jìn)行不同的組合拼接, 具體包含7 種不同的特征組合: 標(biāo)題、摘要、關(guān)鍵詞、標(biāo)題+摘要、標(biāo)題+關(guān)鍵詞、摘要+關(guān)鍵詞、標(biāo)題+摘要+關(guān)鍵詞。
另外, 機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型不能直接對輸入中的字符進(jìn)行處理, 需要對其進(jìn)行向量化表示后作為最終的模型輸入。得益于深度學(xué)習(xí)的表示學(xué)習(xí)優(yōu)勢, 無需進(jìn)行手工的特征工程, 只需利用詞向量字典對輸入文本的詞進(jìn)行向量轉(zhuǎn)化即可, 具體的特征向量的挖掘任務(wù)交給深度學(xué)習(xí)模型完成。根據(jù)使用的深度模型的不同, 采用不同的詞向量字典。對于傳統(tǒng)的深度學(xué)習(xí)模型, 采用Word2vec 訓(xùn)練的詞向量字典進(jìn)行向量表示, 對于預(yù)訓(xùn)練語言模型BERT,采用其配套的bert-base-chinese 詞向量進(jìn)行向量表示。
2.4 多標(biāo)簽分類模型構(gòu)建
在多標(biāo)簽分類任務(wù)中, 主要方法可以分為基于傳統(tǒng)機(jī)器學(xué)習(xí)的淺層模型和基于深度學(xué)習(xí)的深層模型兩種。相較于淺層模型, 深層模型在特征的處理上和多分類模型構(gòu)建上更加簡單, 且表現(xiàn)出更佳的分類效果。具體地, 在特征處理上, 深層模型無需進(jìn)行繁瑣的手工特征構(gòu)建, 而是利用神經(jīng)網(wǎng)絡(luò)從大量文本中挖掘文本語義特征表示。此外, 在多標(biāo)簽分類問題求解中, 淺層模型主要通過改造分類問題或分類方法來進(jìn)行[10] , 改造分類問題是指將多標(biāo)簽問題轉(zhuǎn)換為單標(biāo)簽問題, 改造分類方法是指將傳統(tǒng)的單標(biāo)簽方法改進(jìn)為多標(biāo)簽分類方法。相比而言,深層模型并不對問題進(jìn)行轉(zhuǎn)化, 對模型的改造也不復(fù)雜, 只需將模型輸出層改為多標(biāo)簽輸出即可[30] 。具體地, 不同于單標(biāo)簽分類任務(wù)中使用的Softmax交叉熵?fù)p失函數(shù), 多標(biāo)簽分類任務(wù)中一個樣本會對應(yīng)多個標(biāo)簽, 故選用Logits 二元交叉熵?fù)p失函數(shù)(Binary Cross Entropy with Logits Loss), 其中一個樣本的損失計算公式如式(1) 所示:
鑒于深度學(xué)習(xí)方法在處理多標(biāo)簽分類任務(wù)上的優(yōu)越性, 本文選用常用的6 種文本分類深度學(xué)習(xí)方法進(jìn)行多標(biāo)簽分類, 包括TextCNN[31] 、TextRNN[32] 、TextRNN_Att[33] 、TextRCNN[34] 、TextDPCNN[35] 和預(yù)訓(xùn)練語言模型BERT[36] 。TextCNN 首次將卷積神經(jīng)網(wǎng)絡(luò)用于文本分類, 使用3 種不同規(guī)格的卷積核提取文本的2-gram、3-gram 和4-gram 信息, 取得了較好的效果。TextRNN 將循環(huán)神經(jīng)網(wǎng)絡(luò)用于文本處理, 使用雙向的LSTM 來更好地捕獲文本的長距離語義依賴。TextRNN_Att 在TextRNN 基礎(chǔ)上, 進(jìn)一步引入注意力機(jī)制, 根據(jù)對任務(wù)貢獻(xiàn)程度為單詞賦予不同的權(quán)重, 進(jìn)一步提升模型效果。TextRC?NN 是對RNN 和CNN 進(jìn)行融合, 兼具兩種主流神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)勢, 可以較為均勻地利用單詞的上下信息。TextDPCNN 構(gòu)建金字塔型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 相較于只有單個卷積層的TextCNN, 卷積核的覆蓋范圍更廣, 能夠?qū)ξ谋局械拈L期依賴進(jìn)行有效建模。不同于上述5 種深度學(xué)習(xí)模型, BERT模型是一種預(yù)訓(xùn)練語言表示的新方法, 遵循預(yù)訓(xùn)練—微調(diào)的遷移學(xué)習(xí)模式, 即初始BERT 模型在大規(guī)模語料上進(jìn)行預(yù)訓(xùn)練, 得到參數(shù)訓(xùn)練好的BERT 模型和詞向量表示, 然后再遷移到新任務(wù)中進(jìn)行微調(diào), 在多項(xiàng)文本處理任務(wù)中取得了最優(yōu)效果[36] 。以上6 種模型的關(guān)系如圖2 所示。
2.5 多標(biāo)簽分類效果評估
通過對分類結(jié)果進(jìn)行評估以判斷其分類效果,在多標(biāo)簽分類的評估中, 常用的用于評估分類器效果的指標(biāo)有精確率、召回率、F1 值。有別于單標(biāo)簽任務(wù)中, 1 個樣本只有1 個標(biāo)簽的情形, 多分類任務(wù)的一個樣本會對應(yīng)多個類別標(biāo)簽。常用的指標(biāo)綜合方式有基于樣本的方式和基于標(biāo)簽的方式[10,37] ,其中基于標(biāo)簽的方式先計算每類標(biāo)簽的精確率、召回率和F1 值, 然后進(jìn)行宏平均或微平均; 基于樣本的方式先計算每個樣本的精確率、召回率和F1 值,然后進(jìn)取加權(quán)平均。考慮到標(biāo)簽大部分為單標(biāo)簽且各類別樣本數(shù)量存在不均衡的情形[10] , 本文選取基于樣本的方式對精確率、召回率和F1 值進(jìn)行綜合計算, 其計算公式如式(2)~(4) 所示。
3 實(shí)證分析
3.1 數(shù)據(jù)收集及數(shù)據(jù)集構(gòu)建
本文語料來源于CNKI 和CSSCI 數(shù)據(jù)庫, 選?。茫樱樱茫?收錄的情報學(xué)領(lǐng)域期刊中的8 種期刊作為研究對象, 包括《中國圖書館學(xué)報》《情報學(xué)報》《圖書情報知識》《圖書情報工作》《情報科學(xué)》《情報理論與實(shí)踐》《數(shù)據(jù)分析與知識發(fā)現(xiàn)》《現(xiàn)代情報》。時間跨度定為1998—2021 年, 于2022 年8月6 日開展數(shù)據(jù)采集工作, 從CSSCI 數(shù)據(jù)庫中采集上述8 種目標(biāo)期刊的全部論文信息, 并解析出論文標(biāo)題、來源期刊和參考文獻(xiàn)信息。進(jìn)而在遵守中國知網(wǎng)(China National Knowledge Infrastructure, CNKI)訪問規(guī)則的情況下, 獲取并解析出目標(biāo)期刊收錄論文的標(biāo)題、關(guān)鍵詞和摘要信息。然后, 對兩類數(shù)據(jù)按論文標(biāo)題進(jìn)行歸并處理, 最終得到21 261篇論文的題錄信息和參考文獻(xiàn)信息。最后, 基于本文提出的多標(biāo)簽策略進(jìn)行樣本的多標(biāo)簽設(shè)置, 構(gòu)建用于多標(biāo)簽分類的數(shù)據(jù)集。期刊數(shù)據(jù)和不同多標(biāo)簽策略下的樣本數(shù)匯總?cè)绫恚?所示。
3.2 實(shí)驗(yàn)設(shè)置
本文對構(gòu)建的數(shù)據(jù)集合進(jìn)行隨機(jī)切分, 構(gòu)建訓(xùn)練集、驗(yàn)證集和測試集, 比例為8 ∶1 ∶1。訓(xùn)練集用于訓(xùn)練模型參數(shù), 為防止過擬合, 每100 批(batch)對訓(xùn)練模型在驗(yàn)證集上進(jìn)行驗(yàn)證, 若1 000批訓(xùn)練后模型在驗(yàn)證集上的Logits 二元交叉熵?fù)p失未下降, 則對模型訓(xùn)練進(jìn)行早停處理。選取在驗(yàn)證集上取得最優(yōu)效果的訓(xùn)練模型在測試集上進(jìn)行測試, 所得結(jié)果作為模型的最終預(yù)測結(jié)果。
所使用的6 個深度學(xué)習(xí)模型的主要參數(shù)設(shè)置情況如表2 所示, 其中BERT 模型使用bert-basechinese作為基礎(chǔ)模型, bert-base-chinese-vocab 作為向量表示詞典。在實(shí)驗(yàn)環(huán)境設(shè)置上, 選用Pytorch作為深度學(xué)習(xí)框架, 使用Apple M1 Max 32G 為實(shí)驗(yàn)平臺。
3.3 結(jié)果分析
3.3.1 不同分類方法的結(jié)果對比
本文選取標(biāo)題、摘要、關(guān)鍵詞3 類題錄進(jìn)行組合拼接作為特征組合, 并分別使用TextCNN、Tex?tRNN、TextRNN_Att、TextRCNN、TextDPCNN、BERT構(gòu)建多標(biāo)簽分類模型進(jìn)行實(shí)驗(yàn)。模型的分類效果與特征組合的選取高度相關(guān), 本文對3 類題錄字段進(jìn)行組合操作構(gòu)建7 種不同的特征組合, 并分別對6種深度學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn), 不同分類模型的最優(yōu)實(shí)驗(yàn)結(jié)果如表3 所示。
從表3 結(jié)果可以看出, TextRNN 模型的分類效果在6 種深度模型中處于底位, 可能原因是本文構(gòu)建特征組合后, 模型的輸入文本平均長度在300 個字符左右, TextRNN 模型中使用的LSTM 單元較難捕獲文本中長距離的依賴關(guān)系。對比來看, Tex?tRNN_Att 模型在TextRNN 模型的基礎(chǔ)之上加入了注意力機(jī)制, 能更好地處理文本內(nèi)的依賴關(guān)系, 取得了較好的分類效果。另外, TextCNN、TextRCNN和TextDPCNN 模型分別使用了不同的網(wǎng)絡(luò)結(jié)構(gòu),其中結(jié)構(gòu)最簡單的TextCNN 取得了最優(yōu)的分類結(jié)果, 但3 種模型的差距不大。
在全部6 種模型中, BERT 的分類效果最佳,準(zhǔn)確率、召回率和F1 值均為最高值, 分別為0.7066、0.7452 和0.6899, 表明了預(yù)訓(xùn)練語言模型具有強(qiáng)大的特征表征能力。因此, 在以下實(shí)驗(yàn)和分析中,均采用BERT 模型進(jìn)行實(shí)驗(yàn)并對其結(jié)果進(jìn)行分析。
3.3.2 不同期刊分類結(jié)果對比
為了探索多標(biāo)簽分類在不同期刊類別標(biāo)簽上的效果, 表4 展示了取得最優(yōu)結(jié)果的BERT 模型在不同標(biāo)簽類別下的分類效果。從對比結(jié)果來看, 主要有兩點(diǎn)發(fā)現(xiàn):
一是從樣本規(guī)模上來看, 其中, 期刊《數(shù)據(jù)分析與知識發(fā)現(xiàn)》的樣本數(shù)最少但分類效果最佳,F1 值達(dá)到了0.8750, 期刊《圖書情報工作》的樣本最多但F1 非最低, 說明訓(xùn)練樣本的數(shù)量和模型的分類效果間未見較強(qiáng)的相關(guān)性。期刊《數(shù)據(jù)分析與知識發(fā)現(xiàn)》分類效果最佳的可能原因是該期刊具有較強(qiáng)的技術(shù)屬性, 和其他情報學(xué)領(lǐng)域期刊的區(qū)分度更大。
二是從論文平均標(biāo)簽數(shù), 即標(biāo)簽數(shù)與論文數(shù)比值來看, 期刊《數(shù)據(jù)分析與知識發(fā)現(xiàn)》的論文平均標(biāo)簽數(shù)最小為1.15, 期刊《情報學(xué)報》的論文平均標(biāo)簽數(shù)最大為1.87, 雖然各期刊間具有不同的數(shù)據(jù)分布, 但BERT 模型均取得了較佳的預(yù)測結(jié)果。因此表明BERT 模型對于不同類型的期刊有較好的適用能力。
在采用多標(biāo)簽策略S3 的預(yù)測情形中, 以題目和摘要特征組合作為模型輸入, 部分例子如表5 所示。
3.3.3 不同特征組合的結(jié)果對比
對于多標(biāo)簽分類的特征構(gòu)建部分, 本文選取論文題錄信息中的不同字段組合來表征單篇論文的內(nèi)容。其中論文標(biāo)題是對論文核心內(nèi)容的凝練, 通常被認(rèn)為最能表征論文的字段; 關(guān)鍵詞是論文的重要組成部分, 能夠被用于論文歸類和檢索, 也具有較好的論文內(nèi)容表示能力; 摘要是對論文全文內(nèi)容的概括, 相較于標(biāo)題和關(guān)鍵詞, 摘要篇幅更長, 對論文內(nèi)容的呈現(xiàn)更為全面, 同時也會包含一些非核心詞匯, 一定程度上削弱其表征能力[11] 。參照學(xué)術(shù)論文分類的常用做法, 本文選取以上3 個字段進(jìn)行不同的特征組合作為多標(biāo)簽分類模型的輸出。
由表6 可見, 在全部7 種特征組合中, 包含摘要字段的特征組合相比于未包含摘要字段的特征組合, 在準(zhǔn)確率、召回率和F1 值上均取得了更優(yōu)的結(jié)果, F1 值均在0.68 以上, 且差距較小, 表明摘要字段對文獻(xiàn)的表示能力較佳。在未包含摘要字段的3 種特征組合中, 其整體F1 值均在0.5 以下,表明僅將論文標(biāo)題和關(guān)鍵詞作為模型輸入, 不能較好地對其投稿選刊目標(biāo)期刊進(jìn)行判別。
此外, 由于學(xué)術(shù)文獻(xiàn)開放獲取等眾多的限制[28] , 本文僅以論文題錄信息中的摘要、關(guān)鍵詞、標(biāo)題作為特征組合的數(shù)據(jù)來源。雖取得了較佳的多標(biāo)簽分類效果, 但在文本規(guī)模上仍屬于短文本, 未能充分發(fā)揮深度學(xué)習(xí)模型文本表示的優(yōu)勢。隨著論文全文信息獲取的成熟和便捷, 基于論文全文信息構(gòu)建多標(biāo)簽分類任務(wù), 深度學(xué)習(xí)的分類性能也將得到一定程度的提升。
3.3.4 不同多標(biāo)簽策略的結(jié)果對比
為探索多標(biāo)簽策略設(shè)置的影響, 也對不同的多標(biāo)簽策略下的BERT 模型的分類性能進(jìn)行了對比。由表7 中的結(jié)果可以看出, 本文構(gòu)建的4 種多標(biāo)簽策略均取得了較好的分類效果, 對比來看, S3 的效果要優(yōu)于S1, S4 的效果要優(yōu)于S2, 其可能原因是S3 和S4 是站在全局相關(guān)性的公平, 樣本間選擇標(biāo)簽時的閾值保持一致, 樣本間選擇標(biāo)簽的個數(shù)不一致。而S1 和S2 是站在樣本的角度的公平, 樣本間選擇標(biāo)簽的個數(shù)大致一致, 樣本間選擇標(biāo)簽時的閾值是不一致的, 使得不太相關(guān)的參考文獻(xiàn)期刊被選為了補(bǔ)充期刊。同樣, 對比S3 和S4, S1 和S2,S3 的效果要優(yōu)于S4, S1 的效果要優(yōu)于S2, 其可能原因是前者的補(bǔ)充期刊選擇的閾值更高, 有更大的機(jī)會只將最相關(guān)的期刊作為補(bǔ)充期刊標(biāo)簽。
另外, 當(dāng)閾值為無限大或選排名前0 的參考文獻(xiàn)作為補(bǔ)充期刊時, 多標(biāo)簽分類問題就退化為單標(biāo)簽分類問題了。鑒于此, 本文基于BERT 構(gòu)建了單標(biāo)簽分類模型, 其分類結(jié)果也呈現(xiàn)在表7 中, 整體F1 值為0.7193, 說明本文構(gòu)建BERT 模型同樣也適用于單標(biāo)簽分類, 同時學(xué)術(shù)論文的題錄信息與其錄用期刊高度契合。
雖然單標(biāo)簽分類效果要優(yōu)于多標(biāo)簽分類, 然而學(xué)術(shù)論文投稿中面臨期刊選擇多樣性和拒稿重投問題, 單標(biāo)簽的分類模型僅能給出一個分類結(jié)果, 存在較大的局限性。因此, 本文基于深度學(xué)習(xí)構(gòu)建多標(biāo)簽分類任務(wù)能給出多種分類結(jié)果, 對投稿者的投稿選刊規(guī)劃具有較好的實(shí)踐價值。
4 結(jié)束語
本文以情報學(xué)領(lǐng)域8 種CSSCI 收錄期刊中近20 年發(fā)表學(xué)術(shù)論文為研究對象, 進(jìn)行基于深度學(xué)習(xí)的學(xué)術(shù)論文多標(biāo)簽分類研究, 為學(xué)術(shù)論文投稿選刊給出指導(dǎo)建議。結(jié)果表明, 特征組合的擴(kuò)大可以增加語料的豐富程度, 從而在一定程度上可以提高分類的準(zhǔn)確性; 預(yù)訓(xùn)練語言模型相較于傳統(tǒng)深度學(xué)習(xí)模型呈現(xiàn)更優(yōu)的分類結(jié)果; 在多種多標(biāo)簽分類方法中, 基于BERT 的多標(biāo)簽分類取得了最佳的分類效果, 整體F1 值達(dá)到0 6899。
本研究仍然存在以下不足之處: 僅采用情報學(xué)領(lǐng)域8 種CSSCI 收錄期刊中的數(shù)據(jù)進(jìn)行實(shí)驗(yàn), 數(shù)據(jù)量的局限性可能導(dǎo)致分類結(jié)果出現(xiàn)一定的偏差。在多標(biāo)簽的設(shè)置中, 只考慮了上述8 種期刊, 且僅考慮了引用頻次, 未考慮論文的學(xué)術(shù)水平與期刊的水平一致性等問題。針對上述不足, 后續(xù)可以進(jìn)一步獲取更大范圍的題錄信息進(jìn)行實(shí)驗(yàn), 并基于期刊影響因子、引文功能等因素以對多標(biāo)簽期刊設(shè)置進(jìn)行優(yōu)化。