■孫雄勇 耿 崇 申 艷
同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司,北京市海淀區(qū)西小口路66號中關(guān)村東升科技園 100084
學術(shù)不端行為是全球?qū)W術(shù)界普遍存在的現(xiàn)象,具有非常大的危害,必須采取有效措施來全面抑制學術(shù)不端行為。由于科研從業(yè)人員數(shù)量大、涉及的范圍較廣,因此不能完全依賴于科研人員的道德自覺或?qū)W術(shù)倫理、學風建設,而必須借助于他律性、常規(guī)性的制度來加以約束。建立與完善有助于學術(shù)活動健康發(fā)展的管理體制與運行機制,才是防范與杜絕這些不良現(xiàn)象的最好辦法。
長久以來,主要通過舉報、民間打假等辦法來發(fā)現(xiàn)學術(shù)期刊出版過程中存在的學術(shù)不端行為,不僅效率低、準確率不高,而且容易帶來其他負面影響,如因為個體事件造成公眾對學術(shù)界的懷疑、攻擊。2008年年底,同方知網(wǎng)的“學術(shù)不端文獻檢測系統(tǒng)”問世,實現(xiàn)了對我國學術(shù)期刊出版過程中稿件內(nèi)容的技術(shù)性手段監(jiān)管,大量存在抄襲剽竊行為的學術(shù)論文被發(fā)掘出來,從而有效遏制了學術(shù)不端現(xiàn)象的進一步蔓延。
學術(shù)不端研究也已成為近年的研究熱點,已有的研究主要集中在學術(shù)不端行為的起因、防范措施、技術(shù)檢測等方面[1-7]。雖然學術(shù)不端現(xiàn)象得到一些遏制,但還是沒有完全消失?!暗栏咭怀?,魔高一丈?!彪S著技術(shù)的發(fā)展,許多隱性學術(shù)不端行為悄然出現(xiàn),如抄襲內(nèi)容的部分改寫、圖片改寫、外文翻譯、代寫代發(fā)論文等,許多編輯部也針對這些現(xiàn)象進行了探討,并總結(jié)經(jīng)驗供業(yè)界同行參考[8]。但是學術(shù)不端行為的檢測需要強大的技術(shù)支持,針對隱性學術(shù)不端檢測的難點,同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司對論文檢測技術(shù)進行深入探索,采用神經(jīng)網(wǎng)絡方法對檢測技術(shù)進行升級,并取得了一定的效果。本研究針對學術(shù)不端檢測中出現(xiàn)的難點問題,從技術(shù)、使用規(guī)范以及制度等角度提出解決方案,以期幫助期刊界同仁更好地發(fā)揮學術(shù)不端檢測工具的最大功效,為科技期刊遏制學術(shù)不端提供有力的技術(shù)支持與保障。
利用中國知網(wǎng)學術(shù)期刊數(shù)據(jù)庫,通過對2013年到2017年發(fā)表在學術(shù)期刊上的文獻進行檢測,對各重復比例的論文數(shù)量占當年總文獻量的比例進行統(tǒng)計分析,結(jié)果如圖1所示。可以發(fā)現(xiàn):高重復比例論文占比明顯下降,其中重復比例超過50%的論文占比的下降尤為明顯;2015年之后,高重復比例論文占比一直保持著較低的數(shù)值。
另外,對985院校博士學位論文進行了檢測,結(jié)果如圖2所示??梢园l(fā)現(xiàn),各重復比例的論文占比變化過程中存在兩個較為明顯的“拐點”:2009年,學術(shù)不端文獻檢測系統(tǒng)在高校研究生培養(yǎng)單位大規(guī)模推廣應用;2013年,《學位論文作假行為處理辦法》頒布[9]。
圖1 2013—2017年已發(fā)表文獻的重復比例變化情況
圖2 985院校各重復比區(qū)間的博士學位論文占比的年度變化情況
重復比區(qū)間為[30%,50%)以及[50%,100%)的學位論文占比總體上呈逐年下降趨勢;重復比區(qū)間為[10%,30%)的學位論文占比在“拐點1”前變化相對無規(guī)律,之后呈先升后降趨勢;重復比區(qū)間為(0,5%)和[5%,10%)的學位論文占比在“拐點2”之后呈平緩上升趨勢。
上述統(tǒng)計數(shù)據(jù)表明,論文中的抄襲剽竊等學術(shù)不端行為已經(jīng)得到了明顯遏制,其原因主要包括以下幾個方面。
(1) 政府等主管部門高度重視科研誠信,相關(guān)政策日趨完善。教育部、科技部近年來陸續(xù)出臺了一系列相關(guān)的政策文件,2018年,中共中央辦公廳、國務院辦公廳正式印發(fā)了《關(guān)于進一步加強科研誠信建設的若干意見》,各級單位對學術(shù)不端行為的處理措施越來越完善,處理效率也越來越高。
(2) 社會各界態(tài)度更為理性、客觀,主管部門行動更加積極、自信。以前,許多單位對內(nèi)部發(fā)生的學術(shù)不端問題避而不談,或者內(nèi)部處理,不向社會公布處理結(jié)果。而現(xiàn)在,越來越多的單位將處理結(jié)果主動向社會公開。
(3) 抄襲檢測等信息技術(shù)的普及使用。2008年,同方知網(wǎng)發(fā)布了“學術(shù)不端文獻檢測系統(tǒng)”,目前該系統(tǒng)在各行各業(yè)治理學術(shù)不端行為的活動中發(fā)揮了重要作用,幫助發(fā)現(xiàn)了一大批抄襲剽竊行為,有效遏制了學術(shù)不端行為的發(fā)生。
(4) 作者科研誠信意識增強。隨著越來越多的學術(shù)不端事件曝光,以及各種誠信教育的開展普及,科研人員越來越清楚和明白科研誠信是學術(shù)研究的底線。
但這并不能代表學術(shù)不端得到了根本遏制或杜絕,各類學術(shù)不端事件仍時有發(fā)生。從統(tǒng)計數(shù)據(jù)上也可以發(fā)現(xiàn),仍然有存在抄襲剽竊等學術(shù)不端行為的論文沒有被檢測系統(tǒng)發(fā)現(xiàn)而發(fā)表出來。因此,改進檢測手段,規(guī)范檢測系統(tǒng)的使用,加強科研誠信建設仍有大量的工作要做。
學術(shù)不端文獻檢測系統(tǒng)已經(jīng)廣泛應用于學術(shù)出版、教育、科研等領域,知網(wǎng)對檢測系統(tǒng)的使用情況進行了跟蹤調(diào)查,發(fā)現(xiàn)檢測系統(tǒng)在各個領域和各個單位的使用模式千差萬別,而使用模式對檢測系統(tǒng)所產(chǎn)生的效果影響巨大,在科研誠信建設過程中所發(fā)揮的威力也大不相同。
學術(shù)出版是最早使用學術(shù)不端文獻檢測系統(tǒng)的領域,十年來,各個期刊編輯部已將文獻檢測作為期刊編輯部審稿環(huán)節(jié)之一,所有編輯部收到的稿件都需要經(jīng)過檢測系統(tǒng)的檢測處理。在使用過程中,各個期刊編輯部逐漸形成了各自的系統(tǒng)使用模式。使用模式的不同,在學術(shù)不端處理上產(chǎn)生的效果也大相徑庭。期刊對學術(shù)不端文獻檢測系統(tǒng)的使用模式主要包括:(1)設定閾值,稿件的重復比例超過某個設定數(shù)值時,直接拒稿,或走比正常流程更加嚴格的單獨審核流程,或?qū)z測報告返回給作者修改,等作者將重復比例降低后再接收;(2)不設定閾值,將檢測結(jié)果作為參考依據(jù),由編輯和審稿人審核認定,并給出處理意見。
目前,許多高校都制定了和學術(shù)不端文獻檢測系統(tǒng)相應的管理制度,如規(guī)定學位論文重復比例超過某個“閾值”,后期核實存在抄襲剽竊后,會相應地受到返回修改、延期答辯、延期畢業(yè)、取消學位授予等不同程度的處罰。在使用模式上,學校的做法也存在很大不同,有些高校只給予學生一次學位論文檢測機會,出現(xiàn)抄襲剽竊問題時就會受到相應處罰;而有些高校允許學生進行多次檢測,只要學生在提交論文截止日期之前能提交合格的版本就行。從實際使用情況來看,不同的使用模式在學生中產(chǎn)生的威懾效果存在明顯區(qū)別。允許學生進行多次檢測的高校,在執(zhí)行過程中如果不對多次提交的論文作出明確要求,存在學術(shù)不規(guī)范、抄襲剽竊的學位論文初稿數(shù)量會更多。
目前,學術(shù)不端文獻檢測系統(tǒng)也應用到各行各業(yè)的職稱評審及人才選拔等活動中,對候選人的論文進行審核評估,防止利用存在學術(shù)不端行為的論文作為評審材料。各單位對待評審材料的方式也存在很大區(qū)別。有些單位發(fā)現(xiàn)涉嫌抄襲論文,人工論證后,取消候選人評審資格;但也有部分單位的做法僅是要求候選人更換其他符合要求的論文繼續(xù)參與評審,而不會對候選人有其他相應處理。
各單位采取的模式和措施對檢測系統(tǒng)的使用效果、對學術(shù)不端的處理結(jié)果都有較大影響,甚至有些措施采取的不夠完善,結(jié)果還適得其反。對于采取的不同使用模式,究其原因,主要是因為目前業(yè)界還缺乏相應的學術(shù)不端處理制度和完善的處理流程,處理流程和調(diào)查機構(gòu)大都是單位內(nèi)部規(guī)定,其中的不明確因素較多,一旦涉嫌學術(shù)不端處理,存在很大爭議,結(jié)果也往往難以令人信服。例如廣西某學院的“院長論文抄襲事件”就是如此。
隨著學術(shù)不端文獻檢測系統(tǒng)的普及使用,網(wǎng)絡上也出現(xiàn)了各種規(guī)避檢測技術(shù)的手段,甚至有人還寫成了一本“反抄襲檢測”的攻略;還有專門針對目前的使用模式和管理漏洞而形成的“論文撰寫策略”等,這給學術(shù)不端檢測帶來了新的問題和挑戰(zhàn)。根據(jù)知網(wǎng)從不同渠道獲得的反饋信息,目前主要存在大面積改寫以降低文字重復比例、將文字內(nèi)容轉(zhuǎn)成圖片以規(guī)避檢測、“Google翻譯方法”規(guī)避檢測、論文代寫及買賣等規(guī)避學術(shù)不端檢測的方法[10],知網(wǎng)針對這幾類規(guī)避方法所導致的技術(shù)難點進行了專門的研究,在一定程度上就如何改進學術(shù)不端檢測提出了新的解決辦法,但要想完全解決這些難點,還需要技術(shù)提供商、期刊編輯部以及相關(guān)部門單位加深合作,人機結(jié)合,讓學術(shù)不端檢測工具發(fā)揮出更大的作用。
利用計算機來分析論文是否存在抄襲,主要是根據(jù)文字的相似程度進行判斷。因此,有些作者就會對文章進行大面積改寫,以此來規(guī)避檢測。圖3所示為大面積改寫論文的真實案例。對于以字詞為基礎的比對分析技術(shù)來說,這種改寫就可以規(guī)避檢測,蒙混過關(guān)。
圖3 大面積改寫的真實案例
針對這種情況,同方知網(wǎng)采用神經(jīng)網(wǎng)絡方法對學術(shù)不端文獻檢測系統(tǒng)對比對技術(shù)進行升級,從而實現(xiàn)對這一類改寫行為的有效檢測。同時,知網(wǎng)根據(jù)實際使用情況,對該檢測系統(tǒng)的運行模式進行了改造,對觀點類內(nèi)容進行“意思抄襲檢測”,而對其他內(nèi)容,仍保留原來的檢測方式(圖4)。
圖4 中國知網(wǎng)學術(shù)不端文獻檢測系統(tǒng)的檢測過程
由于一般的檢測系統(tǒng)只是對文字內(nèi)容進行檢測,對圖片等不作處理。因此,有些作者就將涉嫌抄襲的整段文字變換為一張圖片,然后將這張由文字組成的圖片插入到Word文檔的相應位置(圖5),不僅肉眼很難分辨出來,一般的檢測系統(tǒng)在處理的時候也會忽略這張圖,從而檢測不到抄襲行為。針對這一現(xiàn)象,知網(wǎng)的學術(shù)不端文獻檢測系統(tǒng)專門引入了光學字符識別(Optical Character Recognition,OCR)技術(shù),對論文中的圖片進行自動識別,根據(jù)識別結(jié)果,利用數(shù)據(jù)分析手段,自動判斷哪些是刻意由文字轉(zhuǎn)換成的圖片,哪些是正常圖片,從而有效地保證了檢測結(jié)果的準確性。2018年,這一功能被嵌入到學術(shù)不端文獻檢測系統(tǒng),引起各大使用單位的廣泛關(guān)注,并發(fā)現(xiàn)了一批試圖利用圖片規(guī)避檢測的行為。
圖5 將文字內(nèi)容轉(zhuǎn)成圖片的案例
一些作者發(fā)現(xiàn)經(jīng)翻譯軟件翻譯之后,論文的語句發(fā)生了變化,因此他們就找一篇已正式發(fā)表的論文,采用Google在線翻譯服務把論文翻譯成英文;然后再將翻譯好的英文用Google在線翻譯服務全部轉(zhuǎn)回中文;最后,作者把得到的中文文獻中的語病進行修改,一篇新的論文就完成了。針對這一行為,目前,知網(wǎng)的學術(shù)不端文獻檢測系統(tǒng)已經(jīng)支持中英雙語對照檢測和語義檢測,即“翻譯抄襲”也可以被檢測出來,只要比對庫中存在相應的語種文獻,就可以實現(xiàn)檢測。自該功能上線以來,知網(wǎng)的學術(shù)不端文獻檢測系統(tǒng)已經(jīng)發(fā)現(xiàn)了6000多篇涉嫌翻譯抄襲的文章,而對于這種翻譯之后再翻譯的情況,該檢測系統(tǒng)也有了較好的語義檢測技術(shù),基本上可以發(fā)現(xiàn)此類學術(shù)不端論文。
根據(jù)電商平臺方面的檢索信息發(fā)現(xiàn),論文買賣在現(xiàn)實中真實存在,且交易額巨大,涉及的行業(yè)也很廣,這種行為對整個學術(shù)環(huán)境和科研環(huán)境造成的影響十分惡劣,是一種極其嚴重的學術(shù)不端行為,但這種學術(shù)不端行為的發(fā)現(xiàn)難度較大。目前,知網(wǎng)已經(jīng)完成了一些數(shù)據(jù)方面的分析以及文章寫作風格的分析實驗,初步實驗證明,技術(shù)手段可以為論文代寫和買賣提供一些有效的線索。例如,筆者對某論文網(wǎng)站的文獻進行分析時,發(fā)現(xiàn)一系列關(guān)于“茶文化”的文章,涉及的領域千奇百怪,通過大量的數(shù)據(jù)分析,可以獲得一些規(guī)律來判斷一篇論文是否存在代寫的可能性。此外,也可以對大量文獻的數(shù)據(jù)進行挖掘分析,從用詞、句子、段落等維度分析作者的寫作風格,分析同一作者的不同論文,或者同一論文里的不同部分,判斷寫作風格是否相似,如果不相似,則存在代寫和買賣的可能。
構(gòu)建學術(shù)誠信工作體系,遏制學術(shù)不端行為,需要社會各界共同努力,加大科研誠信教育,改進評價考核制度,大力宣傳優(yōu)良學風等。更需要作為政策制定和推行的行業(yè)相關(guān)主管部門從整體著手,采用包括技術(shù)手段、管理手段和教育手段等在內(nèi)的多種手段和方法來推動各個行業(yè)的整體進步。具體而言,筆者認為應該加大以下幾個方面的管理和執(zhí)行力度。
當前學術(shù)不端文獻檢測技術(shù)雖然存在一些不完善的地方,但對于發(fā)現(xiàn)學術(shù)不端行為、遏制學術(shù)不端現(xiàn)象發(fā)揮了不可替代的重要作用。同時也發(fā)現(xiàn),在一個行業(yè),例如期刊界,各個期刊編輯部對學術(shù)不端文獻檢測系統(tǒng)的使用千差萬別,一些期刊編輯部沒有在實際工作中利用好這一技術(shù)工具,也沒有學習其他期刊編輯部的先進管理制度的機會和渠道。因此,加強行業(yè)交流,分享好的經(jīng)驗,形成一個行業(yè)內(nèi)使用學術(shù)不端文獻檢測系統(tǒng)的規(guī)范流程是一件重要的工作。
自學術(shù)不端文獻檢測系統(tǒng)發(fā)布以來,一直有一種聲音認為,由于技術(shù)工具存在不完善的地方,功能還不夠強大,或者是使用模式存在一些問題,因此使用技術(shù)工具來檢測文獻存在的學術(shù)不端,反而會帶來更隱蔽的學術(shù)不端現(xiàn)象。隨著這10年的發(fā)展,學術(shù)不端文獻檢測系統(tǒng)已經(jīng)較為成熟,功能也較為強大,可對文獻中存在的抄襲剽竊等學術(shù)不端行為進行準確判斷,并可以作為各單位治理學術(shù)不端的有效措施之一。因此,各級各類單位應該更加主動積極地擁抱技術(shù)工具,制定相關(guān)的規(guī)章制度,主動采取措施來遏制學術(shù)不端行為的發(fā)生。
無論是在期刊上發(fā)表的學術(shù)論文還是學位論文,在論文完成的過程中,如果實現(xiàn)了對論文全過程的有效監(jiān)控管理,就可以有效遏制論文的代寫買賣:編輯可以通過論文完成的過程管理來了解投稿作者的論文完成過程;高校導師可以通過論文完成的過程管理來了解到學生學位論文的完成情況。只有加強過程的管理,才能從源頭上有效遏制學術(shù)不端行為。
對各類論文如學位論文應采取積極主動公開的措施。學位論文公開化,就是將非涉密的學位論文在網(wǎng)絡等開放環(huán)境中公開,允許公開查閱,接受社會公眾的監(jiān)督,能有效杜絕作者的作假行為,也增加了學術(shù)不端行為被發(fā)現(xiàn)的概率,從而敦促學生認真對待自己的論文,提高學位論文的寫作質(zhì)量,也控制了學術(shù)不端行為的發(fā)生。
目前,我國的論文產(chǎn)出數(shù)量已經(jīng)躍居世界第一。在目前的條件下,結(jié)合技術(shù)工具,我們已經(jīng)完全可以實現(xiàn)對學術(shù)論文的全方位監(jiān)控,再結(jié)合人工,對疑似學術(shù)不端的論文進行定期檢查或抽查不失為一個可行的辦法,可進一步預防學術(shù)不端行為的發(fā)生。定期檢查可避免出現(xiàn)一時蒙混過關(guān)的情況,也給作者帶來更大的威懾力,以敦促作者認真撰寫論文。此外,隨著社會的發(fā)展,知識在不斷發(fā)展,在學術(shù)論文歸檔后一定年限內(nèi)對其進行檢查,也能有效避免作者盜取國內(nèi)外尚未傳播的他人成果等類似行為的發(fā)生。