■汪林梓 章博昕 陳 銘
南京大學(xué)信息管理學(xué)院,江蘇省南京市棲霞區(qū)仙林大道163號(hào) 210046
開放獲取(Open Access,OA)是一種為促進(jìn)學(xué)術(shù)信息資源共享、推動(dòng)學(xué)術(shù)交流而提出的學(xué)術(shù)期刊出版模式[1]。OA期刊作為OA的主要產(chǎn)物,向公眾讀者免費(fèi)開放已發(fā)表的文章,促進(jìn)了學(xué)術(shù)成果更為高效、便捷的傳播。OA期刊出版商需要向作者收取相應(yīng)的文章出版費(fèi)用以保持運(yùn)營與盈利,然而在此過程中有些不良出版商利用了這一模式,大批量地、不加審核地出版付費(fèi)文獻(xiàn),以實(shí)現(xiàn)利潤(rùn)收入最大化。美國科羅拉多大學(xué)的圖書館員Beall[2]將利用OA模式進(jìn)行偽造與虛假承諾,不負(fù)責(zé)任地收取作者的文章出版費(fèi)用以獲利的期刊,稱為掠奪性期刊,掠奪性期刊隨即受到廣泛關(guān)注與討論。
掠奪性期刊利用OA的特征,掩蓋其欺騙偽造的本質(zhì),謀取私利,對(duì)OA運(yùn)動(dòng)產(chǎn)生一定干擾與破壞[3]。近年來,掠奪性期刊數(shù)量呈現(xiàn)快速增長(zhǎng)趨勢(shì),嚴(yán)重危害學(xué)術(shù)生態(tài)。Nature在2022年3月發(fā)表的數(shù)據(jù)表明,掠奪性期刊的數(shù)量已超過15500種并且快速增長(zhǎng)[4]。然而,目前學(xué)術(shù)界對(duì)掠奪性期刊的識(shí)別研究還比較薄弱?,F(xiàn)有識(shí)別掠奪性期刊的方法主要依賴列表式方法,如Beall創(chuàng)建的“Potential,Possible,or Probable Predatory Scholarly Open-Access Publishers”清單及Kscien掠奪性名單委員會(huì)建立的“Kscien′s List”[5]。這類列表存在明顯局限性:一是生成和更新困難,新出現(xiàn)的掠奪性期刊難以被及時(shí)收錄;二是難以覆蓋所有掠奪性期刊,存在一定漏判率。因此隨著掠奪性期刊出版的文章數(shù)量逐年增多,如何識(shí)別、判斷掠奪性期刊成為迫切需要關(guān)注的問題。近年來,Altmetrics指標(biāo)作為衡量學(xué)術(shù)影響力的新型指標(biāo)受到廣泛關(guān)注,也為期刊評(píng)價(jià)提供了新的視角。本研究擬利用Altmetrics指標(biāo)判斷掠奪性期刊,以期建立更為有效的識(shí)別方法。
鑒于掠奪性期刊在全球范圍帶來的巨大影響與危害,學(xué)者們從不同維度研究了掠奪性期刊不同于其他期刊的特征。2022年國際科學(xué)院組織(InterAcademy Partnership,IAP)發(fā)布的《打擊掠奪性期刊和會(huì)議》(Combatting Predatory Academic Journals and Conferences)[6]利用了圖譜方法,對(duì)各類期刊特征進(jìn)行了具體區(qū)分,其中掠奪性期刊的典型特征包括不存在同行評(píng)議或存在不正確的同行評(píng)議、模仿其他期刊或網(wǎng)站、無編委或假編委、替代或虛假影響因子等。Shamseer等[7]曾指出,英文掠奪性科技期刊具有13個(gè)特征,包括網(wǎng)站拼寫和語法錯(cuò)誤、承諾快速發(fā)表、沒有撤回政策等。Frandsen[8]發(fā)現(xiàn)在掠奪性期刊中發(fā)文多的作者在Scopus數(shù)據(jù)庫中的平均發(fā)文量(以及中位數(shù))更高,二者呈現(xiàn)出一定的正相關(guān)關(guān)系。根據(jù)多維度的研究,發(fā)現(xiàn)掠奪性期刊在費(fèi)用、宣傳、審理及政策等方面都存在一定的問題,這也成為了掠奪性期刊較為明顯的特征。
隨著掠奪性期刊特征不斷地被發(fā)現(xiàn)與總結(jié),近年來研究人員對(duì)掠奪性期刊的識(shí)別指標(biāo)與方法也相應(yīng)地提出了許多觀點(diǎn)。針對(duì)掠奪性期刊的高昂出版費(fèi)用,Xia[9]通過研究掠奪性期刊的收費(fèi)情況,發(fā)現(xiàn)文章處理費(fèi)(Article Processing Charges,APC)不能成為區(qū)分期刊是否為掠奪性期刊的唯一標(biāo)準(zhǔn)。而王凌峰等[10]通過提出評(píng)價(jià)學(xué)術(shù)期刊出版費(fèi)用合理水平的JPI 指數(shù),從版面費(fèi)角度為精確界定掠奪性期刊提供了簡(jiǎn)便有效的客觀方法。Ruiter-Lopez等[11]從期刊編委會(huì)角度出發(fā),使用定量的方法檢查了掠奪性期刊的編委會(huì)情況,發(fā)現(xiàn)其中大部分編委為高水平學(xué)者,發(fā)文量中位數(shù)為43篇,被引頻次為664次,H指數(shù)為14,這說明通過檢查編委會(huì)情況難以識(shí)別掠奪性期刊。對(duì)于期刊網(wǎng)站與用詞,Chen等[12]使用機(jī)器學(xué)習(xí)方法從主流掠奪性期刊網(wǎng)站和普通期刊網(wǎng)站中提取出網(wǎng)站文本內(nèi)容、關(guān)鍵詞等特征,提出了一種基于新模型的掠奪性期刊分類系統(tǒng)。其后,Chen等[13]又發(fā)現(xiàn)通過差異評(píng)分衡量期刊之間特定詞頻的差異,提高詞袋模型和TF-IDF算法的分類效率,可以幫助識(shí)別掠奪性期刊特征詞。不過期刊網(wǎng)站和使用詞匯也可以進(jìn)行調(diào)整與修飾,掠奪性期刊與低質(zhì)量期刊之間的界限仍然比較模糊。Yeo-Teh等[14]認(rèn)為區(qū)分掠奪性期刊的最重要標(biāo)準(zhǔn)是同行評(píng)議的嚴(yán)格性,而且作者的動(dòng)機(jī)或意圖也至關(guān)重要??讜详系萚15]從學(xué)術(shù)出版合法性、商業(yè)欺詐行為、學(xué)術(shù)不端行為等6個(gè)維度進(jìn)行對(duì)比分析,設(shè)置了18個(gè)二級(jí)指標(biāo),對(duì)識(shí)別到的“預(yù)警期刊”進(jìn)行等級(jí)劃分。從動(dòng)機(jī)、相關(guān)行為因素角度進(jìn)行分析得出了更深層次的結(jié)論,但考慮到一些主觀因素較難搜集與判斷,識(shí)別結(jié)果的準(zhǔn)確性可能會(huì)受到影響。因此,許多學(xué)者從引文角度對(duì)掠奪性期刊進(jìn)行分析。Frandsen[16]追蹤了2013—2016年Scopus中124種掠奪性期刊的引用情況,發(fā)現(xiàn)這些期刊被引用了1295次,刊均被引約10.5次,并認(rèn)為非掠奪性期刊文獻(xiàn)較少引用掠奪性期刊文獻(xiàn)。Bj?rk等[17]從Google Scholar中隨機(jī)選擇了250篇在掠奪性期刊上發(fā)表的文章,研究了這些文章5年內(nèi)的被引數(shù)據(jù),發(fā)現(xiàn)每篇文章平均被引用2.6次,其中56%的文章根本沒有被引用。
雖然傳統(tǒng)引文指標(biāo)經(jīng)常被用于衡量學(xué)術(shù)成果的影響力,但其存在著時(shí)間滯后、負(fù)面引用及自引等問題,并不能全面反映學(xué)術(shù)成果的影響力[18]。隨著在線社交媒體平臺(tái)的不斷發(fā)展,科研交流日益網(wǎng)絡(luò)化,學(xué)術(shù)活動(dòng)逐漸開放化,越來越多的科研人員開始使用在線學(xué)術(shù)平臺(tái)以及社交媒體平臺(tái)等獲取、傳播學(xué)術(shù)資源,并開展學(xué)術(shù)交流。2010年P(guān)riem[19]在Twitter上首先提出Altmetrics這一概念,用來評(píng)估學(xué)術(shù)論文在社交網(wǎng)絡(luò)上的影響力,通過追蹤學(xué)術(shù)論文等學(xué)術(shù)成果在網(wǎng)絡(luò)中的傳播交流過程來測(cè)度其社會(huì)影響力。
Altmetrics指標(biāo)作為新興的研究影響力指標(biāo),自提出便受到廣大學(xué)者的關(guān)注與研究?,F(xiàn)有文獻(xiàn)顯示,關(guān)于Altmetrics指標(biāo)的應(yīng)用研究多集中在論文或期刊影響力綜合評(píng)價(jià)方面。在論文方面,王艷波等[20]提出將衡量社會(huì)影響力的Altmetrics指標(biāo)和衡量學(xué)術(shù)影響力的傳統(tǒng)引文指標(biāo)相結(jié)合,構(gòu)造出更綜合、全面的評(píng)價(jià)學(xué)術(shù)論文影響力的指標(biāo)體系。在期刊維度,王凱利等[21]融合引文分析和Altmetrics方法,構(gòu)建了期刊影響力評(píng)價(jià)體系,并運(yùn)用于國際圖書情報(bào)領(lǐng)域期刊影響力分析;俞征鹿等[22]基于Altmetrics提及次數(shù)指標(biāo),對(duì)中國英文科技期刊社會(huì)影響力進(jìn)行統(tǒng)計(jì)分析。上述研究表明,Altmetrics指標(biāo)對(duì)論文或者期刊的影響力綜合評(píng)估的有效性已得到初步驗(yàn)證。
盡管使用Altmetrics指標(biāo)來識(shí)別掠奪性期刊的研究較少,但初步研究表明Altmetrics指標(biāo)具有應(yīng)用潛力。筆者曾分析圖書情報(bào)領(lǐng)域掠奪性期刊與非掠奪性期刊在Altmetrics指標(biāo)上的表現(xiàn),發(fā)現(xiàn)在圖書情報(bào)領(lǐng)域,掠奪性期刊的Altmetrics存在率比非掠奪性期刊低很多[23]。但因掠奪性期刊數(shù)據(jù)量的限制,未能明確得出利用Altmetrics指標(biāo)可以有效識(shí)別掠奪性期刊的結(jié)論,其效用還有待大樣本系統(tǒng)研究驗(yàn)證?;谏鲜銮闆r,本文在已有研究的基礎(chǔ)上,選取掠奪性期刊分布廣泛的生物醫(yī)學(xué)領(lǐng)域開展研究,在傳統(tǒng)基于引文指標(biāo)識(shí)別掠奪性期刊的基礎(chǔ)上引入Altmetrics指標(biāo),采用Logit回歸模型構(gòu)建掠奪性期刊的判別模型,為掠奪性期刊識(shí)別提供新的指標(biāo)和方法。
基于前文對(duì)掠奪性期刊和Altmetrics指標(biāo)及被引指標(biāo)的文獻(xiàn)綜述和分析,構(gòu)建以下兩個(gè)假設(shè),并擬利用Logit回歸模型,以期刊的被引指標(biāo)和Altmetrics指標(biāo)值為自變量、期刊掠奪性為因變量,驗(yàn)證兩個(gè)假設(shè)。
假設(shè)1:被引指標(biāo)與期刊掠奪性具有負(fù)相關(guān)關(guān)系,即被引指標(biāo)越高,期刊被判定為掠奪性期刊的概率越小。
假設(shè)2:Altmetrics指標(biāo)與期刊掠奪性具有負(fù)相關(guān)關(guān)系,即Altmetrics指標(biāo)越高,期刊被判定為掠奪性期刊的概率越小。
Logit回歸模型,也被稱為“評(píng)定模型”或“分類評(píng)定模型”,是一種離散選擇法模型,用于預(yù)測(cè)事件發(fā)生的概率,主要分為二元Logit回歸模型和多元Logit回歸模型兩類。二元 Logit 回歸模型的因變量為二分類,常定義事件發(fā)生為“1”,未發(fā)生為“0”。多元Logit回歸模型適用于有多個(gè)因變量的情況。Logit回歸模型廣泛應(yīng)用于社會(huì)學(xué)、生物統(tǒng)計(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)等領(lǐng)域。在圖情領(lǐng)域中,任海芝等[24]使用多元Logit回歸模型對(duì)圖書出版企業(yè)官方微信公眾號(hào)傳播力的影響因素進(jìn)行了實(shí)證分析。研究主要探討掠奪性期刊的識(shí)別問題,而二元Logit回歸模型能夠很好地刻畫“掠奪性期刊”及“非掠奪性期刊”。由于假設(shè)被引指標(biāo)和Altmetrics指標(biāo)與期刊掠奪性存在負(fù)相關(guān)關(guān)系,選擇使用二元Logit回歸模型進(jìn)行期刊類型識(shí)別分析。
Logit回歸模型由傳統(tǒng)線性回歸模型衍生而來,在多元線性回歸模型中因變量的取值范圍是(-∞,+∞),而事件發(fā)生概率范圍為[0,1]。因此,需要對(duì)線性回歸模型進(jìn)行Logit變換。首先,引入發(fā)生比(Odds),Odds表示事件發(fā)生概率和事件不發(fā)生概率的比值,Odds的計(jì)算方法為
(1)
式中:ROdds表示Odds值;P表示事件發(fā)生的概率。此時(shí)Odds的取值范圍是[0,+∞)。
對(duì)Odds取自然對(duì)數(shù),就可以將P從[0,1]映射為(-∞,+∞),從而可以進(jìn)行多元線性回歸建模,這個(gè)過程稱為L(zhǎng)ogit變化,表達(dá)式為
(2)
式中:xj為自變量;αj為自變量的系數(shù);α0為截距項(xiàng);ε為誤差項(xiàng)。
2.3.1 因變量定義及數(shù)據(jù)來源
采用期刊類型二分類離散變量作為因變量,并定義掠奪性期刊=1,非掠奪性期刊=0。Shen等[25]發(fā)現(xiàn),掠奪性期刊的文章數(shù)量逐年迅速增加,從2010年的53000多篇上升至 2014 年的420000多篇,活躍掠奪性期刊約有8000種,這些掠奪性期刊絕大多數(shù)來自生物醫(yī)學(xué)領(lǐng)域。因此,從生物醫(yī)學(xué)領(lǐng)域隨機(jī)抽取掠奪性期刊和非掠奪性期刊各100種作為研究樣本。掠奪性期刊數(shù)據(jù)來源于“Kscien′s List”,非掠奪性期刊數(shù)據(jù)來源于DOAJ(Directory of Open Access Journals)。DOAJ是由瑞典隆德大學(xué)圖書館創(chuàng)建和維護(hù)的收錄經(jīng)同行評(píng)議OA期刊的目錄網(wǎng)站,具有嚴(yán)格的期刊收錄標(biāo)準(zhǔn)和期刊評(píng)估流程[26]。由于“Kscien′s List”與DOAJ均收錄OA期刊,抽取的兩類期刊樣本具有可比性。
2.3.2 自變量定義及數(shù)據(jù)來源
被引頻次在一定程度上反映了文章或者期刊的學(xué)術(shù)影響力,是論文質(zhì)量和價(jià)值的重要評(píng)價(jià)指標(biāo),也是計(jì)算期刊影響因子的核心指標(biāo)。為消除期刊文章數(shù)量差異對(duì)被引頻次的影響,使用期刊平均被引頻次來衡量被引情況,并用變量x1表示。通過爬取期刊網(wǎng)站收集到2012—2022年期刊所發(fā)表的文章數(shù)量,并使用Web of Science查詢期間的期刊被引頻次。具體計(jì)算公式為
x1=C/N
(3)
式中:N為期刊發(fā)表的文章數(shù)量;C為期刊文章的被引頻次。
Altmetrics指標(biāo)作為衡量學(xué)術(shù)成果的社會(huì)影響力的新指標(biāo),拓展了基于引文的傳統(tǒng)影響力評(píng)估,能更加全面地反映學(xué)術(shù)成果在數(shù)字網(wǎng)絡(luò)中的影響。自Altmetrics概念提出后,多種測(cè)量工具涌現(xiàn),如Altmetric.com、PlumX和Crossref Event Data等。其中Altmetric.com信息源廣泛,已涵蓋全球5000多家主流媒體和1.5萬個(gè)學(xué)術(shù)及非學(xué)術(shù)博客[27],且向研究人員提供免費(fèi)使用的機(jī)會(huì),因此近年來大多數(shù)Altmetrics相關(guān)研究采用了Altmetric.com工具[28]。通過Altmetric.com的Altmetric Explorer工具,使用期刊ISSN作為檢索條件,獲取2012—2022年期刊的Altmetrics指標(biāo)數(shù)據(jù)。為消除期刊規(guī)模差異影響,定義Altmetrics存在率指標(biāo),并用變量x2表示,具體計(jì)算公式為
x2=NA/N
(4)
式中:NA為有Altmetrics得分的文章數(shù)量。
從收集的200種掠奪性期刊及非掠奪性期刊的Altmetrics存在率和平均被引頻次的描述性統(tǒng)計(jì)表(表1)可以觀察到,掠奪性期刊的Altmetrics存在率平均值僅為0.0088:在100種掠奪性期刊中,有81種的Altmetrics存在率都為0,即81%的掠奪性期刊的文章沒有Altmetrics得分,這表明了掠奪性期刊文章較少受到社交媒體的關(guān)注與討論。這些掠奪性期刊的平均被引頻次均值為0.7210,即平均每篇文章被引用約0.7210次。
表1 掠奪性期刊及非掠奪性期刊數(shù)據(jù)描述性統(tǒng)計(jì)分析
相比掠奪性期刊,非掠奪性期刊的Altmetrics存在率平均值為0.3357,遠(yuǎn)大于掠奪性期刊的0.0088,這表明了非掠奪性期刊在社交網(wǎng)絡(luò)上的影響力遠(yuǎn)大于掠奪性期刊。對(duì)于非掠奪性期刊,僅有23種期刊的Altmetrics存在率為0,并且最高Altmetrics存在率達(dá)到0.9916,表明與掠奪性期刊相比,非掠奪性期刊在社交網(wǎng)絡(luò)上的受關(guān)注度和影響力更大。在期刊被引方面,非掠奪性期刊平均被引頻次的均值為5.1763,高于掠奪性期刊。這從側(cè)面反映了掠奪性期刊難以保證文章的質(zhì)量,未必能提供建設(shè)性觀點(diǎn),較少被引用,而非掠奪性期刊的文章質(zhì)量可能更高,對(duì)科研人員的研究有實(shí)質(zhì)的幫助,被引頻次更多。
由上述分析可得,掠奪性期刊和非掠奪性期刊的平均被引頻次和Altmetrics存在率存在著較大差異,那么是否可以把它們作為判定期刊掠奪性的指標(biāo)呢?使用Stata 14.0軟件,建立和比較以下3個(gè)Logit回歸模型。首先基于平均被引頻次構(gòu)造掠奪性期刊識(shí)別模型(模型1),然后探討使用Altmetrics存在率構(gòu)建的判別模型(模型2)效果,最后結(jié)合平均被引頻次和Altmetrics存在率構(gòu)建掠奪性期刊識(shí)別模型(模型3),并對(duì)這3個(gè)模型及效果進(jìn)行比較分析。
3.2.1 模型1分析結(jié)果
通過使用Stata 14.0軟件對(duì)期刊的平均被引頻次進(jìn)行Logit回歸分析,得出結(jié)果如表2所示。Logit回歸模型擬合結(jié)果的表達(dá)式為y=0.864-0.438x1??梢钥闯?平均被引頻次變量系數(shù)為-0.438(Sig值<0.05),這表明了平均被引頻次與期刊掠奪性呈顯著負(fù)相關(guān),說明假設(shè)1成立,即當(dāng)平均被引頻次較低時(shí),期刊為掠奪性期刊的概率更大。
表2 模型1回歸結(jié)果
在計(jì)算模型參數(shù)后,需要對(duì)模型計(jì)算出的預(yù)期概率和實(shí)際概率能否有效擬合做出評(píng)價(jià)。如果實(shí)際觀測(cè)值與模型預(yù)測(cè)值有著較高的一致性,則認(rèn)為該模型能夠擬合數(shù)據(jù);反之,則不能接受該模型,需要重新設(shè)置模型的變量。采用Hosmer-Lemeshow檢驗(yàn)對(duì)二元 Logit 回歸模型的擬合優(yōu)度進(jìn)行檢驗(yàn)。
Hosmer-Lemeshow 檢驗(yàn)可體現(xiàn)預(yù)測(cè)值和觀測(cè)值的吻合程度。如Sig值<0.05,表明模型的預(yù)測(cè)值與觀測(cè)值存在顯著差異,模型工作效果欠佳;反之,Sig值>0.05則認(rèn)為在可接受的水平上模型擬合了數(shù)據(jù),模型工作效果良好。對(duì)模型1進(jìn)行Hosmer-Lemeshow檢驗(yàn),得出Sig值<0.001,這一結(jié)果說明了僅依據(jù)平均被引頻次建立的Logit回歸模型的擬合效果欠佳,為此嘗試引入Altmetrics指標(biāo)進(jìn)行判別分析。
3.2.2 模型2分析結(jié)果
模型2擬合表達(dá)式為y=1.036-14.871x2,建模結(jié)果如表3所示。可以看出Altmetrics存在率的系數(shù)為-14.871(Sig值<0.05),表明了期刊的Altmetrics存在率與期刊掠奪性顯著負(fù)相關(guān),假設(shè)2成立,即期刊的Altmetrics存在率越高,期刊為掠奪性期刊的概率越小。Altmetrics存在率能夠反映出期刊學(xué)術(shù)成果的社會(huì)影響力,因此這一結(jié)果也是合理的。繼續(xù)使用Hosmer-Lemeshow 檢驗(yàn)來對(duì)模型擬合效果進(jìn)行檢驗(yàn),得出模型2的Hosmer-Lemeshow 檢驗(yàn)的Sig值為0.997(>0.05),說明該模型的擬合效果較好。
表3 模型2回歸結(jié)果
3.2.3 模型3分析結(jié)果
同時(shí)引入平均被引頻次和Altmetrics存在率變量,得出模型3表達(dá)式為y=1.220-0.204x1-12.015x2,回歸結(jié)果如表4所示。其中,平均被引頻次和Altmetrics存在率指標(biāo)的Sig值分別為0.033和0.002,均<0.05,這表明擬合效果是顯著的,平均被引頻次和Altmetrics存在率對(duì)期刊掠奪性具有負(fù)向影響,假設(shè)1和假設(shè)2成立。即當(dāng)平均被引頻次和Altmetrics存在率較低時(shí),期刊為掠奪性期刊的概率更大,這與模型1和模型2得到的結(jié)果也是一致的。
表4 模型3回歸結(jié)果
利用Hosmer-Lemeshow 檢驗(yàn),得到Sig值為0.357(>0.05)。Hosmer-Lemeshow檢驗(yàn)中,當(dāng)Sig值>0.05的時(shí)候擬合效果較好,當(dāng) Sig值>0.1的時(shí)候擬合效果更佳,因此引入平均被引頻次和Altmetrics存在率后的判別模型擬合效果較好。
3.2.4 3個(gè)模型比較分析結(jié)果
使用受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC)曲線下的面積(Area Under Curve,AUC)來檢驗(yàn)?zāi)P皖A(yù)測(cè)準(zhǔn)確率。當(dāng)AUC>0.75時(shí),模型有足夠的辨別力。AUC值越高,預(yù)測(cè)準(zhǔn)確率越高。曲線越接近左上角(x越小,y越大),預(yù)測(cè)準(zhǔn)確率越高。根據(jù)模型ROC擬合結(jié)果(表5)可以看出,模型3的預(yù)測(cè)效果優(yōu)于模型1和模型2,即模型3的預(yù)測(cè)準(zhǔn)確率更高。也就是說,同時(shí)融合了平均被引頻次和Altmetrics存在率的模型要比單獨(dú)利用平均被引頻次、Altmetrics存在率的模型效果更好,單獨(dú)使用Altmetrics存在率構(gòu)造的模型又比單獨(dú)使用平均被引頻次的模型效果更好,進(jìn)而證明了引入Altmetrics指標(biāo)進(jìn)行掠奪性期刊判別的合理性和正確性。
表5 模型ROC擬合結(jié)果比較
為了對(duì)模型效果進(jìn)行驗(yàn)證,收集了筆者在近1年內(nèi)收到的邀請(qǐng)投稿郵件中的期刊數(shù)據(jù)。Sureda-Negre等[29]對(duì)西班牙一所大學(xué)教育領(lǐng)域的3位教授在3個(gè)月內(nèi)收到的邀請(qǐng)投稿郵件進(jìn)行分析,發(fā)現(xiàn)發(fā)送郵件的大多數(shù)期刊(69.7%)在掠奪性期刊名單中,并認(rèn)為通過郵箱向?qū)W者發(fā)送投稿邀請(qǐng)的大部分期刊質(zhì)量不高。因此,選擇發(fā)送邀請(qǐng)投稿郵件期刊進(jìn)行模型效果驗(yàn)證是合理的。在剔除了在“Kscien′s List”中出現(xiàn)的期刊后,得到期刊如表6所示。
表6 投稿邀請(qǐng)郵件中的期刊信息
使用相同的數(shù)據(jù)收集方法對(duì)這些期刊的引文數(shù)據(jù)和Altmetrics數(shù)據(jù)進(jìn)行收集,并將其代入模型3中進(jìn)行驗(yàn)證,最終得到結(jié)果如表7所示??梢钥吹皆谶@14種驗(yàn)證期刊中僅有1種期刊HealthInformaticsJournal的預(yù)測(cè)概率為0.0003(<0.5)。查閱后發(fā)現(xiàn),HealthInformaticsJournal為SCI期刊,JCR分區(qū)為Q3區(qū)。除此之外,余下13種期刊的預(yù)測(cè)概率>0.5,其中12種期刊的預(yù)測(cè)概率>0.7,這說明了雖然這些期刊還沒有出現(xiàn)在“Kscien′s List”中,但它們?yōu)槁訆Z性期刊的概率較高,這和Sureda-Negre等[29]提出的通過郵箱向?qū)W者發(fā)送投稿邀請(qǐng)的期刊質(zhì)量不高的觀點(diǎn)相符合,也表明了融合平均被引頻次和Altmetrics存在率的掠奪性期刊判別模型是合理的。
表7 模型驗(yàn)證結(jié)果
本研究基于Logit回歸模型,分別構(gòu)建了僅含平均被引頻次、僅含Altmetrics存在率以及同時(shí)包含平均被引頻次和Altmetrics存在率指標(biāo)的掠奪性期刊判別模型。通過模型比較分析后發(fā)現(xiàn),僅含Altmetrics存在率指標(biāo)與同時(shí)引入平均被引頻次和Altmetrics存在率的掠奪性期刊判別模型效果較優(yōu)。雖然學(xué)界普遍認(rèn)為期刊的引文指標(biāo)適用于衡量期刊學(xué)術(shù)影響力,但Oviedo-García[30]對(duì)掠奪性期刊出版商MDPI(Multidisciplinary Digital Publishing Institute)的分析顯示,某些掠奪性期刊有較高的自引率,導(dǎo)致部分掠奪性期刊有著較高的被引頻次。這說明,期刊的被引頻次存在被操縱的可能,純粹以引文指標(biāo)判斷期刊是否為掠奪性期刊并不準(zhǔn)確。在Web 2.0環(huán)境下,Altmetrics指標(biāo)充分利用了學(xué)術(shù)社交網(wǎng)絡(luò)進(jìn)行文獻(xiàn)計(jì)量,數(shù)據(jù)更新更加及時(shí),進(jìn)而能夠避免學(xué)術(shù)成果影響力評(píng)估的滯后性,并可以補(bǔ)充性地反映學(xué)術(shù)成果的社會(huì)影響力。通過共同應(yīng)用Altmetrics指標(biāo)和引文指標(biāo),可以更全面地評(píng)估學(xué)術(shù)成果的影響力。同時(shí)引入平均被引頻次和Altmetrics存在率構(gòu)建的判別模型綜合了兩類指標(biāo)的優(yōu)勢(shì),因此在判斷期刊的掠奪性方面具有更好的效果。
在此基礎(chǔ)上,收集了投稿邀請(qǐng)郵件的期刊數(shù)據(jù),將其代入同時(shí)引入平均被引頻次和Altmetrics存在率的掠奪性期刊判別模型,對(duì)該模型進(jìn)行驗(yàn)證。結(jié)果表明,發(fā)送投稿邀請(qǐng)郵件的期刊大概率為掠奪性期刊。這表明了Altmetrics指標(biāo)在識(shí)別掠奪性期刊方面具有良好的效果,可以較好地判斷期刊的優(yōu)劣,為掠奪性期刊的識(shí)別提供新的指標(biāo)和方法。
不可否認(rèn)的是,本研究仍然存在一些局限性。首先,由于數(shù)據(jù)獲取困難,僅能初步驗(yàn)證使用期刊引文指標(biāo)和Altmetrics指標(biāo)識(shí)別掠奪性期刊的有效性;其次,研究應(yīng)用的方法還有待優(yōu)化。在未來的研究中,將嘗試從以下兩個(gè)方面進(jìn)行改進(jìn):一是增加指標(biāo)類型,加入更多能夠有效識(shí)別掠奪性期刊的指標(biāo),以豐富模型輸出;二是增加樣本量,并嘗試采用更為前沿的方法,如機(jī)器學(xué)習(xí)中的隨機(jī)森林模型,以提升識(shí)別效果和模型精度??傮w而言,本研究對(duì)于掠奪性期刊的識(shí)別具有一定啟發(fā)意義,但仍需在數(shù)據(jù)和方法上作進(jìn)一步拓展。