蔣勇青,劉芳,于洋
(中國科學(xué)技術(shù)信息研究所,北京 100038)
學(xué)術(shù)文獻(xiàn)相似性檢測(cè)比對(duì)資源應(yīng)用分析與建設(shè)策略探究
——基于萬方檢測(cè)系統(tǒng)的實(shí)證分析
蔣勇青,劉芳,于洋
(中國科學(xué)技術(shù)信息研究所,北京 100038)
比對(duì)資源庫建設(shè)是學(xué)術(shù)文獻(xiàn)相似性檢測(cè)系統(tǒng)建設(shè)中的重要環(huán)節(jié)。本文通過重點(diǎn)研究實(shí)際檢測(cè)統(tǒng)計(jì)數(shù)據(jù)并分析引用或非典型性引用甚至可能的抄襲文獻(xiàn)的特征,為檢測(cè)系統(tǒng)比對(duì)資源建設(shè)提供可行策略與發(fā)展思路。從2016年向萬方數(shù)據(jù)論文相似性檢測(cè)系統(tǒng)送檢的學(xué)術(shù)文獻(xiàn)中隨機(jī)抽樣650萬篇,對(duì)抽樣送檢文獻(xiàn)檢測(cè)結(jié)果中共計(jì)845 889篇被引用或非典型性引用甚至可能的抄襲文獻(xiàn)從文獻(xiàn)類型、被相似頻率、發(fā)表時(shí)間等維度進(jìn)行數(shù)據(jù)分析。調(diào)查發(fā)現(xiàn),比對(duì)數(shù)據(jù)中的學(xué)位論文引用或非典型性引用甚至可能的抄襲次數(shù)最多,發(fā)表或公開時(shí)間在2—10年的比對(duì)數(shù)據(jù)引用或非典型性引用甚至可能的抄襲次數(shù)最多。此次研究為將來學(xué)術(shù)文獻(xiàn)相似性檢測(cè)系統(tǒng)的持續(xù)建設(shè)與優(yōu)化提供全新的思路與方法借鑒。
文獻(xiàn)檢測(cè);比對(duì)資源建設(shè);學(xué)術(shù)不端
近年來學(xué)術(shù)不端行為層出不窮,最初的學(xué)術(shù)不端典型個(gè)體事件逐步蔓延為社會(huì)性“群體事件”。學(xué)術(shù)不端的防治已成為國內(nèi)外學(xué)術(shù)界與教育領(lǐng)域共同關(guān)注的焦點(diǎn),大眾呼吁在保障自由學(xué)術(shù)環(huán)境的前提下,全面構(gòu)建學(xué)術(shù)規(guī)范體系以維持良好的學(xué)術(shù)秩序[1]。為有效貫徹落實(shí)在學(xué)術(shù)及科研領(lǐng)域的學(xué)術(shù)不端審查工作,利用數(shù)字化與智能化等全新技術(shù)手段推進(jìn)學(xué)術(shù)文獻(xiàn)相似性檢測(cè)工具的全面建設(shè)與持續(xù)發(fā)展,對(duì)提高我國整體學(xué)術(shù)與科技發(fā)展水平,努力實(shí)現(xiàn)科技強(qiáng)國的宏偉目標(biāo)有重大且深遠(yuǎn)的意義[2]。
近年來,政府相關(guān)管理機(jī)構(gòu)為有效防治學(xué)術(shù)不端行為,陸續(xù)頒布相關(guān)政策及辦法。如科技部頒布的《國家科技計(jì)劃實(shí)施中科研不端行為處理辦法(試行)》[3]與教育部頒布的《教育部關(guān)于嚴(yán)肅處理高等學(xué)校學(xué)術(shù)不端行為的通知》[4],旨在建立常態(tài)化的學(xué)術(shù)監(jiān)督機(jī)制,營造風(fēng)氣清正、求真務(wù)實(shí)的學(xué)術(shù)氛圍。然而,數(shù)字化與智能化等信息技術(shù)的迅猛發(fā)展為學(xué)術(shù)不端行為提供了更多方便,也使得學(xué)術(shù)監(jiān)督機(jī)制中學(xué)術(shù)不端行為的甄別判定環(huán)節(jié)增加難度。在此背景下,學(xué)術(shù)文獻(xiàn)相似性檢測(cè)系統(tǒng)應(yīng)運(yùn)而生,成為遏制學(xué)術(shù)不端行為的實(shí)用和有效工具。
國內(nèi)學(xué)界針對(duì)學(xué)術(shù)文獻(xiàn)相似性檢測(cè)的發(fā)展與應(yīng)用展開了多方面的探索研究,綜合來看,主要包括四個(gè)方向:(1)學(xué)術(shù)文獻(xiàn)相似性檢測(cè)工具的使用意義,如胡政平的《學(xué)術(shù)不端文獻(xiàn)檢測(cè)與期刊質(zhì)量的提升》[5]等;(2)學(xué)術(shù)文獻(xiàn)相似性檢測(cè)的場(chǎng)景性應(yīng)用與對(duì)比分析,如張旻浩等的《國內(nèi)外學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)平臺(tái)的比較研究》[2]、榮曼等的《學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)在醫(yī)學(xué)論文編輯出版過程中的合理應(yīng)用》[6]等;(3)學(xué)術(shù)文獻(xiàn)相似性檢測(cè)結(jié)果的分析與使用,如孔琪穎等的《正確看待“科技期刊學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)”檢測(cè)結(jié)果》[7]等;(4)學(xué)術(shù)文獻(xiàn)相似性檢測(cè)算法與技術(shù)研究,如王曉笛等的《學(xué)術(shù)文獻(xiàn)抄襲檢測(cè)研究進(jìn)展》[8]與《基于語義角色標(biāo)注的文獻(xiàn)相似度檢測(cè)研究》[9]。
綜上所述,目前相關(guān)研究主要集中于如何有效甄別與判定學(xué)術(shù)不端行為以及對(duì)檢測(cè)技術(shù)的深入研究方面。調(diào)研發(fā)現(xiàn),檢測(cè)工具使用者有效嘗試了如何科學(xué)合理地使用檢測(cè)結(jié)果數(shù)據(jù),改變檢測(cè)工具發(fā)展初期僅采用使用者相似比數(shù)值的單一指標(biāo)情況。然而,現(xiàn)有研究少見對(duì)引用或非典型性引用甚至可能的抄襲的來源文獻(xiàn)分布研究,對(duì)于檢測(cè)系統(tǒng)建設(shè)中的重要環(huán)節(jié)——比對(duì)資源建設(shè)更是鮮有陳述。因此,本文通過實(shí)證分析,將會(huì)得到:(1)比對(duì)資源不同會(huì)給檢測(cè)結(jié)果帶來較大變化;(2)引用或非典型性引用甚至可能的抄襲的來源文獻(xiàn)能很大程度反映其需求規(guī)律與資源利用情況。本文將重點(diǎn)對(duì)檢測(cè)工具比對(duì)資源建設(shè)策略與規(guī)劃進(jìn)行拓展與完善,助力學(xué)術(shù)文獻(xiàn)相似性檢測(cè)市場(chǎng)專業(yè)化進(jìn)程的持續(xù)發(fā)展。
萬方數(shù)據(jù)論文相似性檢測(cè)系統(tǒng)是國內(nèi)較早服務(wù)于高校及各類學(xué)術(shù)機(jī)構(gòu)的文獻(xiàn)檢測(cè)工具。2010年將自主開發(fā)的“基于滑動(dòng)窗口的低頻匹配特征算法”應(yīng)用于全新的萬方數(shù)據(jù)論文相似性檢測(cè)系統(tǒng)。該系統(tǒng)歷經(jīng)7年的穩(wěn)健發(fā)展,在算法方面進(jìn)行基于語義實(shí)現(xiàn)的查全查準(zhǔn)的優(yōu)化升級(jí),在數(shù)據(jù)方面持續(xù)匯聚海量學(xué)術(shù)期刊、碩博士學(xué)位論文、國家專利等全文比對(duì)數(shù)據(jù),萬方檢測(cè)服務(wù)始終堅(jiān)持客觀、公正、精準(zhǔn)、全面的原則,秉承關(guān)注學(xué)術(shù)環(huán)境、維護(hù)學(xué)術(shù)誠信、恪守學(xué)術(shù)道德、尊重學(xué)術(shù)成果的理念,提供多版本、多維度的檢測(cè)報(bào)告,檢測(cè)結(jié)果精準(zhǔn)翔實(shí),為科研管理機(jī)構(gòu)、教育領(lǐng)域、出版發(fā)行領(lǐng)域、學(xué)術(shù)個(gè)體等用戶提供各類學(xué)術(shù)科研成果的相似性檢測(cè)服務(wù)。
本次研究的對(duì)象是來源于萬方數(shù)據(jù)論文相似性檢測(cè)工具的2016年部分抽樣檢測(cè)結(jié)果中列出的相似文獻(xiàn)及其相關(guān)元數(shù)據(jù)信息,對(duì)檢測(cè)過程中同一篇文獻(xiàn)的多次檢測(cè)結(jié)果進(jìn)行合并,保障數(shù)據(jù)分析結(jié)果盡可能接近實(shí)際情況,使研究結(jié)果具有更高的可借鑒性。
在萬方論文相似性檢測(cè)系統(tǒng)2016年全部送檢學(xué)術(shù)文獻(xiàn)中隨機(jī)抽樣650萬篇,在檢測(cè)結(jié)果中統(tǒng)計(jì)得出被相似文獻(xiàn)845 889篇,并從文獻(xiàn)類型、被相似頻率、發(fā)表時(shí)間等維度進(jìn)行分析與總結(jié)。
本文圍繞三個(gè)問題展開討論:(1)分析2016年論文相似性檢測(cè)數(shù)據(jù)的文獻(xiàn)相似總體情況;(2)基于相似頻次的文獻(xiàn)分布情況,如相似文獻(xiàn)發(fā)表時(shí)間、類型等;(3)基于論文檢測(cè)統(tǒng)計(jì)結(jié)果對(duì)未來學(xué)術(shù)論文相似性檢測(cè)比對(duì)數(shù)據(jù)選擇的借鑒意義。
針對(duì)萬方數(shù)據(jù)論文相似性檢測(cè)工具2016年送檢論文的部分抽樣檢測(cè)結(jié)果數(shù)據(jù),本文以相似文獻(xiàn)為單元進(jìn)行多維度數(shù)據(jù)分析,包括相似文獻(xiàn)的類型(期刊文獻(xiàn)、學(xué)位論文等)、相似文獻(xiàn)發(fā)表或公開時(shí)間、相似文獻(xiàn)的被相似次數(shù)以及相似文獻(xiàn)是否被送檢文獻(xiàn)列為參考文獻(xiàn)等。以下為本次研究中涉及的研究概念解釋。
(1)相似文獻(xiàn):送檢論文被檢測(cè)出的相似文本內(nèi)容的來源學(xué)術(shù)文獻(xiàn);
(2)被相似次數(shù):全部送檢論文檢測(cè)結(jié)果中某篇相似文獻(xiàn)出現(xiàn)的總次數(shù)(單篇送檢論文中多次檢測(cè)出同一篇相似文獻(xiàn),按出現(xiàn)一次計(jì));
(3)單篇平均被相似次數(shù):按不同維度劃分相似文獻(xiàn)后,某類相似文獻(xiàn)的被相似次數(shù)總數(shù)除以相似文獻(xiàn)數(shù)量所得的平均值。
本文隨機(jī)抽樣選擇的送檢文獻(xiàn)共有845 889篇相似文獻(xiàn)。如表1所示,被相似次數(shù)為0—9次的文獻(xiàn)有806 949篇,占比95.40%。本文將相似文獻(xiàn)被相似次數(shù)在10次以內(nèi)的行為定義為非典型性引用和可能的抄襲,不列入本文研究重點(diǎn)。被相似次數(shù)大于等于10次的相似文獻(xiàn)共38 940篇,按被相似次數(shù)呈線性分布且逐漸遞減的趨勢(shì),經(jīng)初步分析該分布規(guī)律較合理,可針對(duì)此次的研究數(shù)據(jù)作進(jìn)一步分析。
表1 相似次數(shù)統(tǒng)計(jì)表
相似文獻(xiàn)的時(shí)間取值以年份為基本單位,其中期刊文獻(xiàn)的時(shí)間值為其發(fā)表年份,學(xué)位論文的時(shí)間值為學(xué)位授予年份,會(huì)議論文的時(shí)間值為會(huì)議舉辦年份。
相似文獻(xiàn)的時(shí)間分布為1992—2016年,其中無1993年及1994年的文獻(xiàn),同時(shí),2016年比對(duì)數(shù)據(jù)文獻(xiàn)的更新具有明顯的延時(shí)性。據(jù)統(tǒng)計(jì),相似文獻(xiàn)的數(shù)量按發(fā)表年份呈線性分布。即在全部檢測(cè)出的相似文獻(xiàn)中,文獻(xiàn)發(fā)表或公開的年份越接近當(dāng)前日期,相似文獻(xiàn)的數(shù)量越多,表明作者在選擇可能引用或可能抄襲的文獻(xiàn)時(shí)傾向于新發(fā)表或公開的論文成果。
相似文獻(xiàn)數(shù)量按發(fā)表時(shí)間逐年增加,2014年相似文獻(xiàn)的數(shù)量達(dá)到峰值。由于從期刊正式發(fā)表或?qū)W位授予,到其他學(xué)者可從平臺(tái)獲取學(xué)術(shù)文獻(xiàn)并引用存在一定時(shí)間差,2016年在萬方數(shù)據(jù)論文相似性檢測(cè)平臺(tái)中送檢的論文引用或非典型性引用甚至可能抄襲2014年發(fā)表或公開的學(xué)術(shù)文獻(xiàn)最多,共有相似文獻(xiàn)5 272篇。
根據(jù)相似文獻(xiàn)發(fā)表或公開時(shí)間分布情況,對(duì)發(fā)表或公開時(shí)間在2008—2014年的相似文獻(xiàn)作進(jìn)一步的類型分析,如表2所示。2008—2014年相似文獻(xiàn)中學(xué)位論文占比為77%—87%,呈逐年下降趨勢(shì);期刊論文占比為11%—22%,呈逐年上升趨勢(shì);相似文獻(xiàn)中會(huì)議論文數(shù)量較少,并未體現(xiàn)出明顯的分布趨勢(shì)。
論文作者引用或非典型性引用甚至可能的抄襲期刊論文時(shí),對(duì)文獻(xiàn)新穎性要求更高,更易選擇最新發(fā)表的期刊論文。引用或非典型性引用甚至可能的抄襲學(xué)位論文時(shí),對(duì)新穎性要求相對(duì)較低,可能選擇學(xué)位授予時(shí)間為8—10年的學(xué)位論文。原因可能有兩點(diǎn)。(1)學(xué)位論文自學(xué)位授予日起至被收錄到學(xué)術(shù)文獻(xiàn)數(shù)據(jù)平臺(tái)供其他學(xué)者獲取所經(jīng)歷的時(shí)間較期刊文獻(xiàn)更長。相較期刊論文的紙質(zhì)刊發(fā)、收錄及在網(wǎng)絡(luò)平臺(tái)上線的公開流程,學(xué)位論文的網(wǎng)絡(luò)公開過程效率較低,執(zhí)行流程不夠成熟。(2)學(xué)位論文較期刊論文的研究更具系統(tǒng)性。其中,國內(nèi)外研究背景、課題緒論等內(nèi)容更易被引用或非典型性引用甚至可能的抄襲,且網(wǎng)絡(luò)開放的學(xué)位論文主要為國內(nèi)高校優(yōu)秀碩博士畢業(yè)論文,論文學(xué)術(shù)價(jià)值整體較高。
表2 2008—2014年發(fā)表或公開的相似文獻(xiàn)類型分析
在學(xué)術(shù)論文寫作過程中,可引用多種類型的學(xué)術(shù)資源,包括學(xué)術(shù)期刊文獻(xiàn)、碩博士學(xué)位論文、會(huì)議論文、科技報(bào)告文獻(xiàn)、標(biāo)準(zhǔn)文獻(xiàn)、專利文獻(xiàn)、成果文獻(xiàn),以及部分網(wǎng)絡(luò)資源。而學(xué)術(shù)價(jià)值高,且被學(xué)者普遍引用的主要為學(xué)術(shù)期刊文獻(xiàn)、學(xué)位論文及會(huì)議論文三大類。
全部相似文獻(xiàn)中,期刊論文共447 416篇,占比52.89%;學(xué)位論文共382 514篇,占比45.22%;會(huì)議論文共15 959篇,占比1.89%。被相似次數(shù)大于等于10次的相似文獻(xiàn)中,期刊論文共7 307篇,占比18.76%;學(xué)位論文共31 407篇,占比80.66%;會(huì)議論文共226篇,占比0.58%。
基于上述結(jié)論,本文對(duì)相似文獻(xiàn)類型分布進(jìn)行更深入的數(shù)據(jù)統(tǒng)計(jì),統(tǒng)計(jì)顯示全部相似文獻(xiàn)中期刊文獻(xiàn)的數(shù)量為7 307篇,貢獻(xiàn)被相似次數(shù)共139 040次,平均單篇期刊文獻(xiàn)被相似19.02次;學(xué)位論文的數(shù)量為31 407篇,貢獻(xiàn)被相似次數(shù)共730 034次,平均單篇學(xué)位論文被相似23.24次;會(huì)議論文的數(shù)量為226篇,貢獻(xiàn)被相似次數(shù)共4 224次,平均單篇會(huì)議論文被相似18.69次。
期刊文獻(xiàn)與會(huì)議論文的平均單篇被相似次數(shù)較接近,而學(xué)位論文的平均單篇被相似次數(shù)達(dá)23.24次,明顯高于期刊文獻(xiàn)與會(huì)議論文,再次證明學(xué)位論文是文獻(xiàn)檢測(cè)中質(zhì)量高且被引用或非典型性引用甚至可能的抄襲最為頻繁的一種文獻(xiàn)類型,對(duì)學(xué)術(shù)文獻(xiàn)相似性檢測(cè)結(jié)果具有重要影響。
對(duì)三類主要相似文獻(xiàn)的被相似次數(shù)進(jìn)行標(biāo)準(zhǔn)差分析發(fā)現(xiàn),會(huì)議論文被相似次數(shù)波動(dòng)較小,而期刊文獻(xiàn)與學(xué)位論文被相似次數(shù)波動(dòng)較大。相似文獻(xiàn)中期刊文獻(xiàn)與學(xué)位論文的被相似情況可能存在較明顯的最大值與最小值群分布差距,需要通過更多維度對(duì)上述兩種類型的文獻(xiàn)進(jìn)行分析,如學(xué)科領(lǐng)域分布、文獻(xiàn)來源機(jī)構(gòu)分布、核心期刊與非核心期刊分布、碩博士學(xué)位分布等。
因在被相似次數(shù)大于等于10次的相似文獻(xiàn)中,學(xué)位論文占比超過80%,本文重點(diǎn)對(duì)相似文獻(xiàn)中的學(xué)位論文情況作進(jìn)一步深入剖析。相似文獻(xiàn)來源單位總計(jì)547家,相似文獻(xiàn)在10篇以下的共286家,貢獻(xiàn)被相似次數(shù)共853次;相似文獻(xiàn)大于等于10篇的共261家,貢獻(xiàn)被相似次數(shù)709 726次。
按相似文獻(xiàn)單篇被相似次數(shù)降序統(tǒng)計(jì)發(fā)現(xiàn),中南財(cái)經(jīng)政法大學(xué)共計(jì)相似文獻(xiàn)28篇,合計(jì)被相似4 166次,單篇學(xué)位論文被相似頻率約149次;西南財(cái)經(jīng)大學(xué)共計(jì)相似文獻(xiàn)86篇,合計(jì)被相似次數(shù)11 236次,單篇學(xué)位論文平均被相似次數(shù)約131次;哈爾濱理工大學(xué)共計(jì)相似文獻(xiàn)82篇,合計(jì)被相似次數(shù)7 158次,單篇學(xué)位論文平均被相似次數(shù)87次。
對(duì)各學(xué)位授予單位的相似文獻(xiàn)數(shù)量及相似文獻(xiàn)合計(jì)被相似次數(shù)進(jìn)行統(tǒng)計(jì)。如圖1所示,按相似文獻(xiàn)數(shù)量降序排列結(jié)果發(fā)現(xiàn),電子科技大學(xué)、廈門大學(xué)、重慶大學(xué)的學(xué)位論文合計(jì)被相似次數(shù)與相似文獻(xiàn)數(shù)量均分列前三位,分別有1 170篇文獻(xiàn)被相似29 596次、860篇文獻(xiàn)被相似23 435次、921篇文獻(xiàn)被相似22 956次。
圖1 基于引用或非典型性引用甚至可能的抄襲次數(shù)的學(xué)位論文相似文獻(xiàn)來源統(tǒng)計(jì)
選取相似文獻(xiàn)數(shù)量前20位的學(xué)位授予單位進(jìn)行分析(見表3),發(fā)現(xiàn)這20家學(xué)位授予單位中,綜合性大學(xué)占比較高,也不乏一定數(shù)量的理工類專業(yè)院校。同時(shí),前20位的學(xué)位授予單位中,有11家為“雙一流”建設(shè)高校,其中前10位中有9家為“雙一流”建設(shè)高校,可見“雙一流”建設(shè)高校產(chǎn)出的學(xué)術(shù)成果在國內(nèi)學(xué)術(shù)環(huán)境中對(duì)學(xué)術(shù)研究有重要影響。
表3 學(xué)位論文相似文獻(xiàn)來源統(tǒng)計(jì)
本次研究發(fā)現(xiàn),比對(duì)資源類型與發(fā)表時(shí)間是學(xué)術(shù)文獻(xiàn)檢測(cè)的重要影響因素,針對(duì)資源類型及發(fā)表時(shí)間進(jìn)行比對(duì)資源建設(shè)策略的制定對(duì)學(xué)術(shù)文獻(xiàn)相似性檢測(cè)系統(tǒng)的專業(yè)化與精準(zhǔn)化發(fā)展具有積極作用與實(shí)際意義。
(1)重點(diǎn)關(guān)注高新穎性比對(duì)資源建設(shè)。研究發(fā)現(xiàn),新穎性較高的學(xué)術(shù)文獻(xiàn)資源在論文檢測(cè)中具有更高貢獻(xiàn)度,然而最新發(fā)表的學(xué)術(shù)文獻(xiàn)并非貢獻(xiàn)度最高,研究顯示學(xué)術(shù)論文作者雖更易選擇新穎性高的文獻(xiàn),但也體現(xiàn)出較明顯的“延遲引用現(xiàn)象”。
董建軍對(duì)期刊文獻(xiàn)引用分布規(guī)律的研究發(fā)現(xiàn)國內(nèi)期刊文獻(xiàn)的引用次數(shù)達(dá)到高峰所需時(shí)間較長[10],一般在2—6年呈現(xiàn)逐步上升的趨勢(shì),此現(xiàn)象與本研究中通過論文檢測(cè)相似文獻(xiàn)統(tǒng)計(jì)的時(shí)間分布情況十分吻合。同時(shí),此規(guī)律也符合王名揚(yáng)等提出的在部分學(xué)科中明顯存在“延遲引用現(xiàn)象”的論證[11]。因此,可初步認(rèn)為,發(fā)表或公開時(shí)間2—10年的學(xué)術(shù)文獻(xiàn)具有較明顯的被引用或抄襲可能,是學(xué)術(shù)不端行為檢測(cè)工具重點(diǎn)需要關(guān)注的比對(duì)數(shù)據(jù)。
因此,作為學(xué)術(shù)不端行為預(yù)防的有力武器,在選擇論文相似性檢測(cè)工具進(jìn)行檢測(cè)時(shí),不僅要著眼于兩年以內(nèi)的新論文或?qū)W術(shù)成果,還要重點(diǎn)檢查發(fā)表或公開時(shí)間在2—10年的學(xué)術(shù)文獻(xiàn)。研究結(jié)果還反映出論文檢測(cè)工具的數(shù)據(jù)建設(shè)不需要過多投入在舊文獻(xiàn)上,否則既會(huì)給論文檢測(cè)帶來不必要的干擾,也會(huì)因大量數(shù)據(jù)的不斷累積導(dǎo)致論文檢測(cè)工具性能的持續(xù)下降。
(2)全面豐富論文檢測(cè)比對(duì)數(shù)據(jù),確保高質(zhì)量文獻(xiàn)的穩(wěn)定供應(yīng)。研究發(fā)現(xiàn)論文作者在不同類型學(xué)術(shù)文獻(xiàn)中,更傾向于引用或非典型性引用甚至可能的抄襲碩博士學(xué)位論文。同時(shí),論文作者引用或非典型性引用甚至可能的抄襲的相似文獻(xiàn)類型日趨豐富。隨著檢測(cè)比對(duì)數(shù)據(jù)的不斷擴(kuò)容,論文檢測(cè)工具可檢測(cè)出的學(xué)術(shù)不端行為范圍也隨之?dāng)U大。除本文中重點(diǎn)分析的期刊文獻(xiàn)、學(xué)位論文及會(huì)議論文外,論文作者也出現(xiàn)了引用或可能的抄襲網(wǎng)絡(luò)文獻(xiàn)、專利文獻(xiàn)等其他文獻(xiàn)類型的情況。
由此可見,在選擇論文相似性檢測(cè)工具的比對(duì)數(shù)據(jù)類型時(shí),可以遵循“全面建設(shè)、重點(diǎn)保障”的原則。一方面,不斷豐富比對(duì)數(shù)據(jù)類型,全方位預(yù)防學(xué)術(shù)不端行為;另一方面,重點(diǎn)收錄引用或非典型性引用甚至可能的抄襲出現(xiàn)頻率較高的文獻(xiàn)類型,對(duì)其進(jìn)行重災(zāi)區(qū)重點(diǎn)防治。其中,以學(xué)位論文為重點(diǎn)關(guān)注對(duì)象,通過對(duì)不同學(xué)位層次及不同類型學(xué)位授予單位的差異性分析,進(jìn)行合理的學(xué)位論文比對(duì)數(shù)據(jù)建設(shè)。建議加強(qiáng)碩博士學(xué)位論文收集范圍,重點(diǎn)收錄“雙一流”建設(shè)高校及“雙一流”建設(shè)學(xué)科的學(xué)位論文成果。
(3)基于比對(duì)資源特征調(diào)優(yōu)文獻(xiàn)相似性檢測(cè)算法路線。本文的結(jié)果不僅為未來學(xué)術(shù)文獻(xiàn)相似性檢測(cè)系統(tǒng)的比對(duì)數(shù)據(jù)建設(shè)提供重要決策依據(jù),也為相似性檢測(cè)算法的專業(yè)化與精準(zhǔn)化發(fā)展提供參考。數(shù)據(jù)顯示學(xué)位論文具有最多的被引用或非典型性引用甚至可能的抄襲次數(shù),對(duì)學(xué)術(shù)文獻(xiàn)相似性檢測(cè)的結(jié)果有重要影響。相較其他類型文獻(xiàn),學(xué)位論文篇幅較長,結(jié)構(gòu)清晰,通過此次研究可初步推斷,學(xué)位論文的摘要、緒論、研究方法設(shè)計(jì)等部分在實(shí)際檢測(cè)結(jié)果中的貢獻(xiàn)值也存在差異,同質(zhì)化檢測(cè)處理將無法進(jìn)一步提升檢測(cè)結(jié)果精度。針對(duì)學(xué)位論文被引用或非典型性引用甚至可能的抄襲情況相對(duì)較多的問題,后續(xù)將專門針對(duì)學(xué)位論文進(jìn)行結(jié)構(gòu)化分析,采用多層次多策略的方法,建立文本結(jié)構(gòu)化識(shí)別模型與特征向量計(jì)算模型,為不同文本部分選擇不同的相似性計(jì)算算法與條件權(quán)值,以有效提升檢測(cè)結(jié)果精準(zhǔn)度。通過上述檢測(cè)數(shù)據(jù)能進(jìn)一步分析論文作者在引用或非典型性引用甚至可能的抄襲學(xué)位論文時(shí)的內(nèi)容偏好,為學(xué)術(shù)不端行為預(yù)防與處理提供更多決策依據(jù)。另外,相似文獻(xiàn)的時(shí)間屬性也可以考慮被賦予一定權(quán)值納入檢測(cè)結(jié)果,減少誤識(shí)的相似結(jié)果,提高算法的精準(zhǔn)度。
基于2016年在萬方論文相似性檢測(cè)系統(tǒng)中送檢的學(xué)術(shù)文獻(xiàn)檢測(cè)部分抽樣結(jié)果,本次研究主要針對(duì)論文檢測(cè)比對(duì)資源的資源類型及資源發(fā)表時(shí)間兩項(xiàng)影響因素進(jìn)行分析與探究,提出在上述因素影響下論文檢測(cè)比對(duì)資源建設(shè)策略應(yīng)重點(diǎn)關(guān)注的方向。未來研究還將融入對(duì)相似文獻(xiàn)的學(xué)科分布、來源分布的深入分析統(tǒng)計(jì),并進(jìn)一步擴(kuò)大樣本容量。
[1] 萬蘇春.學(xué)術(shù)不端行為及其治理研究——以2010—2016年國內(nèi)學(xué)界文獻(xiàn)研究為綜述對(duì)象[J].宜春學(xué)院學(xué)報(bào),2017,39(4):111-116.
[2] 張旻浩,高國龍,錢俊龍.國內(nèi)外學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)平臺(tái)的比較研究[J].中國科技期刊研究,2011,22(4):514-521.
[3] 國家科技部.第11號(hào)令《國家科技計(jì)劃實(shí)施中科研不端行為處理辦法(試行)》.2007年1月1日實(shí)行[EB/OL].(2007-08-13)[2017-04-26].http://scitech.people.com.cn/GB/25509/39796/41759/6108064.html.
[4] 中央政府門戶網(wǎng)站.教育部關(guān)于嚴(yán)肅處理高等學(xué)校學(xué)術(shù)不端行為的通知[EB/OL].(2009-03-21)[2017-07-01].http://www.gov.cn/gzdt/2009-03/21/content_1264527.htm.
[5] 胡政平.學(xué)術(shù)不端文獻(xiàn)檢測(cè)與期刊質(zhì)量的提升[J].出版發(fā)行研究,2012(11):87-89.
[6] 榮曼,董海原.學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)在醫(yī)學(xué)論文編輯出版過程中的合理應(yīng)用[J].中國科技期刊研究,2017,28(3):215-219.
[7] 孔琪穎,蔡斐,張利平,等.正確看待“科技期刊學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)”檢測(cè)結(jié)果[J].編輯學(xué)報(bào),2009,21(6):544-546.
[8] 王曉笛,王效岳,白如江.學(xué)術(shù)文獻(xiàn)抄襲檢測(cè)研究進(jìn)展[J].圖書情報(bào)工作,2013,57(8):141-148.
[9] 王曉笛,祝娜,白如江,等.基于語義角色標(biāo)注的文獻(xiàn)相似度檢測(cè)研究[J].圖書情報(bào)工作,2014,58(12):130-135.
[10] 董建軍.科技期刊文獻(xiàn)引用分布規(guī)律的探討[J].中國科技期刊研究,2013,24(4):688-693.
[11] 王名揚(yáng),于光,于達(dá)仁.文獻(xiàn)的“延遲引用現(xiàn)象”分析[J].情報(bào)雜志,2011,30(5):60-62,84.
The Exploration of Resource Construction Strategy in Academic Literature Similarity Detection System:Empirical Analysis Based on Wanfang Detection
JIANG YongQing, LIU Fang, YU Yang
(Institute of Science and Technology Information of China, Beijing 100038, China)
The data base construction is an important part of the academic literature similarity detection system development. This paper gathered the information of 845 889 similarity articles, acquired from 6.5 million srandom sampling journal papers, dissertations and other type literatures submitted in the Wanfangdata’s Similarity Detection system in 2016. The paper summarized and evaluated the statistical data in the aspects of literature types, plagiarism numbers and published time. Results showed that, the dissertations had the highest cited or plagiarized number among all the literature types, at the same time, the papers published in 2 to10 years had the most cited or plagiarized times.The research provided new ideas and methods for the further development of the academic literature similarity detection system.
Literature Detection;Comparison Resource Construction; Academic Misconduct
2017-12-13)
G25
10.3772/j.issn.1673-2286.2017.12.006
蔣勇青,男,1963年生,高級(jí)工程師,研究方向:信息資源建設(shè)與服務(wù)、知識(shí)服務(wù)、科研管理、企業(yè)管理,E-mail:jiang@wanfangdata.com.cn。
劉芳,女,1992年生,碩士,研究方向:知識(shí)服務(wù)、項(xiàng)目管理。
于洋,女,1983年生,碩士,工程師,研究方向:數(shù)字編輯。