■黃睿春 張玉平
1)武漢大學《數(shù)學雜志》編輯部,湖北省武漢市武昌區(qū)八一路299號 4300722)《數(shù)學物理學報》編輯部,湖北省武漢市武昌區(qū)小洪山西30號 430071
“日益增長的論文投遞數(shù)量和捉襟見肘的同行評審數(shù)量之間的矛盾”成為當今學術(shù)界的突出問題[1]。期刊出版行業(yè)經(jīng)歷了傳統(tǒng)出版、數(shù)字出版、網(wǎng)絡出版、移動終端的在線瀏覽,以及現(xiàn)在的人工智能融合出版,科技的發(fā)展深刻影響并改變著出版業(yè)的發(fā)展,一些快捷、高效的網(wǎng)絡平臺搭建可為科技期刊傳播過程中的相關(guān)主體提供更多便捷服務。由CrossRef首創(chuàng)并與iParadigms公司共同開發(fā)的CrossCheck論文防剽竊系統(tǒng)為學術(shù)期刊審稿工作帶來了便利,尤其是在稿件處理初期,編輯可借用該工具對稿件進行更為客觀的判斷——是否存在學術(shù)不端現(xiàn)象,能否直接送同行評議等,進而優(yōu)化稿件處理流程,將有限的評審專家資源以及專家的精力用于對稿件所討論核心問題的甄別?;诖?,《數(shù)學物理學報》(英文版)在成為CrossCheck會員后,除了利用該工具檢測學術(shù)不端現(xiàn)象外,還對利用CrossCheck論文防剽竊系統(tǒng)指導編輯部的稿件處理進行了探索,以提高審稿效率和質(zhì)量。
根據(jù)CrossCheck中文網(wǎng)站的介紹,CrossCheck論文防剽竊系統(tǒng)是一款用于幫助學術(shù)出版者驗證出版文檔原創(chuàng)性的學術(shù)工具類系統(tǒng)。它的功能由兩部分組成:由全球?qū)W術(shù)出版物組成的龐大數(shù)據(jù)庫和基于網(wǎng)頁的檢驗比對工具,支撐中文、英文、韓文等語種的論文檢測查重,2008年6月19日正式向全球發(fā)布。2009年,林漢楓等[2]介紹了《浙江大學學報(英文版)》作為中國第一家會員應用CrossCheck系統(tǒng)的實踐與體會;2011年林漢楓等[3]再向期刊界介紹了CrossCheck的工作模式和規(guī)范標準。令人遺憾的是,隨后的研究寥寥無幾,直到2017年和2018年,《哈爾濱工業(yè)大學學報》和《高等學?;瘜W學報》的編輯才分別發(fā)文報道了CrossCheck系統(tǒng)在學術(shù)不端防治中的應用。當前研究主要集中于CrossCheck系統(tǒng)的功能和特點的介紹,以及基于其檢測功能對學術(shù)不端現(xiàn)象及對策分析[3-5],亦或基于CrossCheck的不同學科典型抄襲案例調(diào)查報告以及CrossCheck查比規(guī)范的研究[6-8]。雖然文獻[3]中提到CrossCheck檢測報告結(jié)果中的總相似度和單篇論文相似度兩個重要的參考值,提出利用幾個關(guān)鍵的相似度值指導稿件的送審工作,卻沒有對相似度與審稿結(jié)論的關(guān)系進行詳細對比分析。這些研究雖然能讓人們了解CrossCheck系統(tǒng)的功能、優(yōu)勢及其在學術(shù)不端發(fā)現(xiàn)上的應用,但是對CrossCheck的應用與討論僅停留在重復度檢測以發(fā)現(xiàn)學術(shù)不端行為上。本研究立足于學術(shù)共同體各自的需求,深度利用該軟件的查重功能,充分參考CrossCheck檢測報告的參數(shù)值,以提高編輯部初審稿件的效率和質(zhì)量,進而在減輕審稿專家負擔,規(guī)范作者的投稿,遴選合適審稿人等方面給出合理的建議。
本研究選擇中科院物理與數(shù)學研究所主辦的《數(shù)學物理學報》(英文版)為研究對象。該刊創(chuàng)辦于1981年,雙月刊,SCI收錄期刊,曾獲“中國科技期刊國際影響力提升計劃”B類資助, 其影響因子在國內(nèi)數(shù)學領(lǐng)域長期排名前列。
本研究以2017年6月至2018年6月《數(shù)學物理學報》(英文版)來稿(共計907篇)為研究樣本,剔除有CrossCheck檢測結(jié)果但是沒有專家審稿意見的稿件共205篇,其余702篇稿件皆經(jīng)過CrossCheck檢測,有詳細的檢測報告,并通過編輯初審、同行專家審稿和編委終審,有全程審稿記錄。
利用Excel軟件,分別按照CrossCheck檢測報告的總相似度值的兩種分區(qū)對比分析CrossCheck檢測結(jié)果與稿件的審稿結(jié)果,判斷兩者變化趨勢的關(guān)系,從而給出基于CrossCheck的編輯部稿件處理策略。
CrossCheck檢測報告中有兩類不同概念的數(shù)值:一是單篇論文相似度,它是指單篇論文重復內(nèi)容所占比例;二是總相似度,它是指被檢測論文所引用的單篇論文相似度的總和,包括參考文獻的相似度。本研究所呈現(xiàn)的相似度均為總相似度。
以《數(shù)學物理學報》(英文版)為例,通過分析數(shù)學論文的檢測報告發(fā)現(xiàn),CrossCheck不僅能夠比對純文字,還能夠比對利用相關(guān)函數(shù)書寫的數(shù)學公式、表格、矢量圖(圖1和圖2),但是不能比對圖片格式的內(nèi)容。因此,表1所示的總相似度在數(shù)值上為單篇論文相似度的總和,在比對內(nèi)容上包括文字以及不以圖片格式呈現(xiàn)的數(shù)學公式、表格以及矢量圖。
圖1 CrossCheck的數(shù)學公式比對示例
圖2 CrossCheck的表格比對示例
對稿件審稿結(jié)果與總相似度值常規(guī)分類進行劃區(qū)間統(tǒng)計,結(jié)果見表1。
從表1可以看出:總相似度在10%以下的稿件有3篇,全部被退稿;總相似度在10%~19%區(qū)間的稿件共18篇,僅1篇被錄用。相似度低說明稿件原創(chuàng)程度高,但也說明作者的研究相對孤立,跟前人的研究關(guān)聯(lián)不多,也非自身研究方向的延續(xù),沒有前人的研究成果作為支撐和基礎(chǔ),文章的立意從何而來,其意義何在?這可能是審稿人給予退稿的緣由,可見,并非相似度越低的文章質(zhì)量越好。事實上,一篇優(yōu)質(zhì)的研究成果是建立在自己或者他人研究的基礎(chǔ)上,是他人或者自己研究的延續(xù)性產(chǎn)物,并且具備可持續(xù)性研究的特質(zhì)。
表1 CrossCheck 檢測報告中總相似度與審稿結(jié)果的對比
圖4 總相似度在17%~60%之間的錄用稿件數(shù)量分布
總相似度區(qū)間為20%~29%和30%~39%的稿件數(shù)量共250篇,而總相似度區(qū)間為40%~49%的稿件為229篇,可見原創(chuàng)程度高,其稿件數(shù)量并不多,若相似部分為引用已有的研究成果來佐證所寫論文的結(jié)論,那么只要推導論證的過程和結(jié)論正確,就可以判斷這些稿件為原創(chuàng)程度較高的優(yōu)質(zhì)稿源。事實上,從審稿結(jié)論可以看出,這2個區(qū)間的稿件錄用率最高,也就是說這一批稿件所獲得的認可度最高。客觀檢測結(jié)果和人為判斷結(jié)果基本一致。
總相似度區(qū)間為40%~49%的稿件數(shù)量在所劃分的7檔區(qū)間中最多,這一統(tǒng)計反映了目前科研工作者的常態(tài)——大多數(shù)的研究成果是以已有的研究為基礎(chǔ),是延續(xù)性研究的成果。
CrossCheck的檢測報告對50%及以上的總相似度數(shù)值用亮藍色背景進行突出顯示,提示論文檢測者注意防范初見端倪的學術(shù)不端風險。由表1可知:總相似度為50%~59%的稿件數(shù)量為146篇,錄用11篇;總相似度為60%及以上的稿件數(shù)量為56篇,錄用1篇,總相似度位于此區(qū)間的錄用率也偏低。對高相似度論文進行進一步分析發(fā)現(xiàn),如今數(shù)學研究人員習慣先將其論文上傳至 arXiv.org,再提交給專業(yè)的學術(shù)期刊,由于論文已經(jīng)在arXiv.org上預出版,利用CrossCheck檢測時,所檢測的論文與在arXiv.org上預出版的論文會呈現(xiàn)較高的相似度。
2.3.1 基本結(jié)果分布
統(tǒng)計顯示,702篇文獻中,共有119篇被錄用,占比17%(圖3),退稿率為83%。經(jīng)統(tǒng)計和比對,發(fā)現(xiàn)總相似度小于17%的稿件被全部退稿,總相似度大于60%的稿件僅1篇預出版的稿件被錄用,其余全部被退稿。鑒于此,本研究忽略了總相似度低于17%、高于60%的錄用稿件的趨勢分析??傁嗨贫仍?7%~60%之間的錄用稿件數(shù)量分布如圖4所示。
圖3 審稿結(jié)果分布
2.3.2 不同總相似度的稿件錄用率分析
對總相似度區(qū)間為17%~60%的稿件接收率(即稿件錄用率)的趨勢進行分析,結(jié)果如圖5所示??梢钥吹剑哼@個區(qū)間的稿件錄用率存在波動,且整體呈下降趨勢。表明錄用稿件的總相似度主要分布在17%~60%之間,隨著總相似度的提升,錄用率波動下降,即稿件的錄用在這個區(qū)間內(nèi)是傾向于錄用“總相似度值低的稿件”。
圖5 不同總相似度的稿件錄用率分布
從圖5可以看出,錄用率高于50%稿件的總相似度取值有三種情況,分別為23%(60%)、22%(50%)、32%(50%)。錄用率范圍為40%~49%的稿件總相似度取值分別為37%(47%)、24%(40%)??梢?,總相似度在20%~29%和30%~39%范圍內(nèi)的稿件錄用率相對較高。
由圖5可知,錄用率的3個波峰的總相似度分別為23%、32%和37%。進一步分析可知,總相似度大于37%的稿件,隨著總相似度的上升,被錄用的概率逐漸下降。
CrossCheck對稿件判斷與審稿人的判斷存在差異,但可互補。CrossCheck對優(yōu)質(zhì)稿源的判斷來自具體數(shù)據(jù)的統(tǒng)計分析,更具有客觀性,但是評價指標單一;審稿人對稿件的判斷來自個人的科研經(jīng)驗和積累,存在主觀性,但是其科研經(jīng)驗和積累來自客觀、科學的知識以及對當前學術(shù)前沿的把握,從根本來說審稿人對稿件的判斷也是客觀和科學的。通過以上的分析不難看出,查重軟件與審稿人對稿件的判斷具有一致性和統(tǒng)一性。因此,編輯部可以充分借力審稿人的知識積累和研究儲備,深度利用CrossCheck這一工具來優(yōu)化稿件送審流程、指導作者投稿、遴選審稿人。
CrossCheck若為個人使用,會收取論文檢測費,根據(jù)檢測論文的字數(shù)來確定收費標準,其中2萬字內(nèi)容的論文檢測費為400元。若是知名出版商的合作期刊,則可以免費使用,比如《數(shù)學物理學報》(英文版)為Elsevier合作期刊,所有文獻均可以免費使用CrossCheck進行論文檢測。面對高昂的檢測費,大多數(shù)作者會放棄使用CrossCheck在投稿前進行查重比對。但對于編輯部,尤其是可以免費使用CrossCheck的編輯部,給作者的收稿回執(zhí)中可向作者反饋文章基于CrossCheck檢測的總相似度值,讓作者知曉編輯部利用CrossCheck對文章進行了比對,對于不存在學術(shù)不端行為的作者而言,能夠從編輯部免費獲知個人付費才能知曉的論文比對結(jié)果,有利于樹立期刊的良好服務形象;對于存有學術(shù)不端行為的作者則是一種警示,利用技術(shù)手段來規(guī)范作者的學術(shù)行為也發(fā)揮了CrossCheck的最大價值。
網(wǎng)絡上有很多關(guān)于降低重復率的方法,其中一條就是利用CrossCheck暫時不能比對圖片的漏洞,將數(shù)學公式、圖、表都采用圖片格式插入。對此,編輯部應該在投稿須知中提示作者,除了復雜的圖片外,文章中的數(shù)學公式、表格和矢量圖都需要利用相關(guān)軟件進行編輯,不能直接插入截圖。事實上,現(xiàn)有編輯軟件的技術(shù)均支持對復雜公式、表格以及矢量圖的編輯。比如:Word可以加載MathType軟件來編輯復雜的數(shù)學公式,軟件也具有復雜表格的編輯功能;使用非常廣泛的LaTex軟件同樣可以編輯復雜的數(shù)學公式、表格以及矢量圖。因為CrossCheck能夠直接比對非圖片格式的數(shù)學公式和表格,編輯部只需有針對性地對圖片進行人工比對,就可在無形中減少了大量工作。同樣,這一規(guī)定有利于防范作者的學術(shù)不端行為。
如有文章因引言或者引用前人研究成果后相似度過高需要反饋給作者修改時,編輯部應將詳細的CrossCheck檢測報告一并轉(zhuǎn)給作者,讓作者進行有針對性的修改,以節(jié)省修改時間,加快論文在審稿流程中流轉(zhuǎn)的速度。
期刊編輯的最佳辦刊體驗就是能夠借助相對權(quán)威的工具進行稿件處理。因此不管是中文稿件還是英文稿件,編輯部應該利用相關(guān)的查重軟件對其進行首次篩選:一是防范作者的學術(shù)不端行為;二是根據(jù)檢測報告的內(nèi)容決定稿件的處理流程。
對總相似度高于60%的稿件,編輯部應篩選出在arXiv.org預出版的文章,對此類論文可直接進入同行評議流程,其余則不宜進入同行評議流程,而是應該將比對結(jié)果反饋給作者,特別對有明顯抄襲痕跡的文章,編輯部應對其作者設(shè)置黑名單,并將編輯部的決定告知所有作者,第三方的嚴格監(jiān)管對作者科研習慣的養(yǎng)成是有益的。
對總相似度低于10%的稿件,建議不進入同行評議流程,編輯部應將比對結(jié)果反饋給作者,同時請作者提交論文的研究背景、立論依據(jù)、添加參考文獻,然后對修改后的論文再次進行檢測,并結(jié)合作者的修改說明決定其處理流程。
從表1可以發(fā)現(xiàn),總相似度位于40%~49%和50%~59%這兩個區(qū)間的稿件數(shù)量最多。編輯部應充分利用CrossCheck來提高篩選文章的效率。CrossCheck可比對非圖片格式的數(shù)學公式、表格、矢量圖,因此編輯部可直接查看論文檢測報告,對有明顯抄襲痕跡的論文直接作退稿處理,并將編輯部處理意見告知所有作者。對于在引言、前期研究成果介紹中出現(xiàn)的大段引用,應將文章比對結(jié)果和檢測報告反饋給作者進行修改,并對修改后的論文進行檢測,根據(jù)檢測結(jié)果決定其處理流程。
總相似度位于20%~29%和30%~39%這兩個區(qū)間的稿件應是編輯部重點關(guān)注的對象。通過以上分析可知,這批稿件是期刊的主要稿件來源,其質(zhì)量決定著期刊的質(zhì)量。編輯部應仔細比對CrossCheck的檢測報告,若相似部分主要集中在主要結(jié)論的表述和論證過程中,建議直接退稿;若文章中插入有大量圖片格式的內(nèi)容,CrossCheck不能對圖片內(nèi)容進行比對,則應該將文章反饋給作者修改,要求將圖片中可用編輯軟件直接編輯的部分進行重新編輯,并對修改后的論文再次進行檢測,根據(jù)檢測結(jié)果決定其處理流程。如果相似部分集中在引言和已知結(jié)果的敘述上,可以直接提交同行評議,由審稿專家進一步給出關(guān)于文章原創(chuàng)性、科學性的判斷和說明。
對于總相似度為10%~19%的稿件,參考表1中這一區(qū)間的稿件數(shù)量以及錄用率,編輯部首先要對文章進行比對,然后根據(jù)檢測報告來決定其流程,若相似部分集中在引言和參考文獻部分,可以直接進行同行評議;若相似部分僅僅集中在參考文獻上或者分散在全文非主要結(jié)論的敘述上,編輯部應請作者提交文章的立論依據(jù),然后根據(jù)其說明來決定其處理流程。
編輯部不僅可以利用CrossCheck減輕審稿人負擔,同時還可以對審稿人進行篩選,實現(xiàn)審稿人的精準遴選。首先,CrossCheck雖然能夠減輕審稿人負擔,但不宜讓審稿人知曉論文檢測的具體相似度值,因為審稿人一旦知曉了文章的相似度,在對文章進行客觀、公正的評價之前就有了一個基于數(shù)字的經(jīng)驗,在某種程度上會影響審稿人的評審。但是可以告知審稿人此文章經(jīng)過了CrossCheck檢測,從而讓審稿人集中精力去甄別文章的創(chuàng)造性、科學性以及核心觀點論證的準確性。編輯部前期的工作越細致,審稿人的評審工作就會越高效。
此外,CrossCheck具有強大的文獻追蹤功能,它能自動追蹤相似文獻來源,清晰標注相似段落。作者的引文習慣大致為自己或者團隊前期研究成果,國內(nèi)外同領(lǐng)域內(nèi)的最新或者以往的研究成果。CrossCheck可以追蹤到所有引用文獻的詳細信息,編輯部可利用這一功能去篩選或者定位審稿人。通過比對被檢測論文和相似文獻的作者地址可以獲知是否為同一單位、比對基金項目編號可以獲知是否為同一研究團隊、追蹤多篇相似文獻可以發(fā)現(xiàn)是否有共同的合作作者,在作者簡介中可以發(fā)現(xiàn)潛在審稿人的年齡、職稱、電子郵箱,亦或者可以發(fā)現(xiàn)是否跟作者畢業(yè)于同一所大學等信息,回避同一單位、同一研究團隊、同一師門、同一畢業(yè)單位的審稿人后,則可定位論文最合適的審稿專家。
本研究以《數(shù)學物理學報》(英文版)702篇稿件為樣本,對比稿件的CrossCheck檢測報告和審稿結(jié)論,分析稿件相似度與錄用結(jié)果之間的變化趨勢。研究結(jié)果表明:學術(shù)期刊編輯部基于CrossCheck系統(tǒng)的稿件處理策略可以幫助編輯部規(guī)范作者的學術(shù)行為,高效篩選稿件、遴選審稿人,優(yōu)化稿件處理流程,從而提高編輯部處理稿件的效率。
致謝感謝武漢大學信息管理學院占莉娟、葉冉玲兩位博士在本文數(shù)據(jù)分析中給予的大力幫助。