唐碧群,王凌峰
(桂林電子科技大學(xué),廣西 桂林 541004)
對(duì)于抄襲剽竊行為,進(jìn)行著作權(quán)意識(shí)的教育與普及是必要的,[1]但更需要具體、可操作的一些標(biāo)準(zhǔn),由此論文查重應(yīng)運(yùn)而生。2008年中國(guó)知網(wǎng)推出學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng),2009年《教育部關(guān)于嚴(yán)肅處理高等學(xué)校學(xué)術(shù)不端行為的通知》(教社科[2009]3號(hào))、國(guó)務(wù)院學(xué)位委員會(huì)《關(guān)于在學(xué)位授予工作中加強(qiáng)學(xué)術(shù)道德和學(xué)術(shù)規(guī)范建設(shè)的意見(jiàn)》(學(xué)位[2010]9號(hào))文件出臺(tái)后,高校紛紛采用論文查重檢測(cè)系統(tǒng)。近年來(lái)一些重大剽竊行為都是在論文查重中曝光的,如2010年《中國(guó)青年報(bào)》報(bào)道的《“史上最牛連環(huán)抄襲門(mén)”調(diào)查》曝光一篇20世紀(jì)90年代發(fā)表的論文被全國(guó)16個(gè)不同單位、25人連環(huán)抄襲,此事是中山大學(xué)一名學(xué)生為其畢業(yè)論文進(jìn)行查重時(shí)發(fā)現(xiàn)的。
目前國(guó)內(nèi)論文重復(fù)率檢測(cè)業(yè)已成為常態(tài),典型應(yīng)用場(chǎng)合包括:期刊編輯對(duì)投稿的查重、博碩士學(xué)位論文查重、本科畢業(yè)論文查重、職稱(chēng)評(píng)定與科技成果認(rèn)定時(shí)的查重。實(shí)踐證明,重復(fù)率檢測(cè)工作在一定程度上減少了論文發(fā)表不端行為,但實(shí)踐中存在的一個(gè)突出問(wèn)題是重復(fù)率標(biāo)準(zhǔn)不統(tǒng)一,如:(1)國(guó)內(nèi)學(xué)術(shù)期刊要么不要求重復(fù)率,要么要求的重復(fù)率不一,如都屬于財(cái)會(huì)核心期刊,《會(huì)計(jì)之友》要求重復(fù)率低于10%、《財(cái)會(huì)月刊》要求低于15%、《財(cái)會(huì)通訊》要求低于20%。(2)高校方面,桂林A高校2012年本科畢業(yè)論文要求重復(fù)率低于20%,但同期同城另外一所同類(lèi)、同層次的B高校要求低于40%即可,到2019年A高校要求碩士畢業(yè)論文重復(fù)率低于10%,而B(niǎo)高校要求低于30%即可,導(dǎo)致A高校相當(dāng)部分學(xué)生想方設(shè)法百度各種技巧降低重復(fù)率,對(duì)論文內(nèi)容投入精力反而受影響。
論文重復(fù)率檢測(cè)問(wèn)題是一個(gè)跨學(xué)科研究主題,高等教育、出版與編輯、圖書(shū)情報(bào)、計(jì)算機(jī)等不同學(xué)科背景的研究者都有介入?,F(xiàn)有文獻(xiàn)研究?jī)?nèi)容主要集中在:國(guó)內(nèi)代表性論文重復(fù)率檢測(cè)系統(tǒng)的比較分析、[2]國(guó)內(nèi)代表性重復(fù)率檢測(cè)系統(tǒng)與歐美同類(lèi)系統(tǒng)的對(duì)比分析、[3]職稱(chēng)工作中的論文查重問(wèn)題、[4]論文重復(fù)率檢測(cè)系統(tǒng)局限性的多視角分析,包括宏觀角度對(duì)檢測(cè)系統(tǒng)催生的“查重產(chǎn)業(yè)”批判,微觀角度討論查重系統(tǒng)具體缺陷以及從學(xué)術(shù)生態(tài)健康角度對(duì)論文查重系統(tǒng)負(fù)面后果之分析、[5]從檢測(cè)受眾——學(xué)生的視角研究了論文重復(fù)率檢測(cè)的合理性和有效性。[6]
現(xiàn)有文獻(xiàn)對(duì)實(shí)踐最關(guān)注的一個(gè)問(wèn)題——論文重復(fù)率標(biāo)準(zhǔn)取值問(wèn)題,對(duì)其系統(tǒng)討論卻不多。本文擬較系統(tǒng)地討論國(guó)內(nèi)學(xué)術(shù)論文重復(fù)率取值標(biāo)準(zhǔn)問(wèn)題。需要說(shuō)明的是,本文討論中文論文與中文數(shù)據(jù)庫(kù)范圍內(nèi)的重復(fù)率檢測(cè)。
根據(jù)近年來(lái)國(guó)內(nèi)高校、期刊的論文查重實(shí)踐,確定比較合理的論文重復(fù)率,確定論文重復(fù)率標(biāo)準(zhǔn)時(shí),需要考慮以下因素。
1.論文所屬學(xué)科。一般地,重復(fù)率方面,人文學(xué)科>社會(huì)科學(xué)>自然科學(xué)。當(dāng)然,各學(xué)科領(lǐng)域內(nèi)部、甚至同一個(gè)領(lǐng)域內(nèi)部不同的研究主題重復(fù)率都可能不同。目前看,人文學(xué)科(典型如文學(xué)研究領(lǐng)域)容易出現(xiàn)重復(fù)率較高問(wèn)題。文獻(xiàn)指出,文科類(lèi)學(xué)術(shù)論文絕大多數(shù)都會(huì)引經(jīng)據(jù)典,撰寫(xiě)學(xué)術(shù)論文時(shí),普遍會(huì)遇到引經(jīng)據(jù)典和重復(fù)率的平衡問(wèn)題。特別是不少學(xué)校明確規(guī)定參考文獻(xiàn)的語(yǔ)種、數(shù)量,更容易導(dǎo)致論文重復(fù)率偏高。[7]
2.論文類(lèi)型。在確定論文重復(fù)率標(biāo)準(zhǔn)時(shí),需要區(qū)分原創(chuàng)論文與綜述論文、[8]理論類(lèi)型論文與實(shí)驗(yàn)(臨床)類(lèi)型論文。文獻(xiàn)指出,醫(yī)學(xué)臨床類(lèi)型論文在研究方法、研究?jī)x器、所用材料、統(tǒng)計(jì)分析等論文要素的語(yǔ)句格式化程度很高,而且經(jīng)常會(huì)出現(xiàn)諸如“此藥物治療效果較好,值得臨床推廣”之類(lèi)的高度格式化語(yǔ)句,目前的查重算法檢測(cè)為重復(fù)。[9]
另外,某些學(xué)科的某些類(lèi)型論文也需要區(qū)別性確定論文重復(fù)率,如中國(guó)古代漢語(yǔ)研究中的訓(xùn)詁學(xué)論文、歷史研究中的考證考據(jù)論文,都會(huì)大量引用他人文字,故文字重復(fù)率普遍較高,需要單獨(dú)確定重復(fù)率標(biāo)準(zhǔn)。
3.論文不同內(nèi)容部分。今天,為了提高學(xué)術(shù)交流效率,多數(shù)學(xué)術(shù)論文都采用八股文結(jié)構(gòu),典型的論文內(nèi)容分引言、文獻(xiàn)綜述、研究設(shè)計(jì)與研究方法、結(jié)果與討論、結(jié)論等若干部分。不同部分的重復(fù)率存在顯著差異。一般地,研究設(shè)計(jì)與研究方法部分重復(fù)率略高是可以理解的,因?yàn)檠芯糠椒ó吘箶?shù)量有限,但其余部分文字重復(fù)率不應(yīng)該偏高,因?yàn)閷儆谧髡叩莫?dú)立研究與寫(xiě)作。[10]
當(dāng)然,在重復(fù)率檢測(cè)中,只要總的重復(fù)率沒(méi)有超過(guò)標(biāo)準(zhǔn),則論文不同內(nèi)容部分自然也不會(huì)超出標(biāo)準(zhǔn),故往往不單獨(dú)對(duì)論文不同內(nèi)容部分定義重復(fù)率上限。
1.論文重復(fù)率定義
從邏輯上看,一篇論文的文字可以分為以下5種類(lèi)型:復(fù)制別人、復(fù)制自己以往發(fā)表過(guò)的文字、格式化語(yǔ)句(如實(shí)驗(yàn)論文中幾乎必然都會(huì)出現(xiàn)的“由上述實(shí)驗(yàn)結(jié)果”之類(lèi)的語(yǔ)句、一些常用語(yǔ)句如“綜上所述”等)、非版權(quán)保護(hù)文字(典型如國(guó)家法律法規(guī),屬于產(chǎn)生時(shí)即無(wú)版權(quán)而不是版權(quán)超期的情況。對(duì)于有版權(quán)的文字,即使版權(quán)超期,重復(fù)率檢測(cè)也會(huì)被視為抄襲,因?yàn)椴粚儆谧髡弑救说墓ぷ髋c創(chuàng)造)、作者本次新撰寫(xiě)。
基于上述來(lái)源劃分,定義論文復(fù)制率指標(biāo)如下:(1)文字總重復(fù)率:所有重復(fù)文字與全部文字之比。(2)單篇重復(fù)率:全文重復(fù)某一篇論文文字的比例。(3)不計(jì)重復(fù)文字占比:格式化語(yǔ)句、非版權(quán)保護(hù)文字占全部文字之比。
2.論文重復(fù)率參考取值標(biāo)準(zhǔn)
確定上述重復(fù)率指標(biāo)取值標(biāo)準(zhǔn)的基本原則是不能過(guò)度追求低重復(fù)率。較高的重復(fù)率只能表明學(xué)術(shù)不端行為可能性較大,而不能肯定存在學(xué)術(shù)不端行為。上有政策下有對(duì)策,要求過(guò)低的重復(fù)率,必然會(huì)使得被查重者首先把注意力集中到降低論文重復(fù)率上,對(duì)論文內(nèi)容本身的打磨反而成為退而求其次。
文獻(xiàn)建議對(duì)于2009年及以后發(fā)表的論文,文字總重復(fù)率應(yīng)該控制在20%以下。對(duì)于文獻(xiàn)綜述類(lèi)等需要大量引證的文章類(lèi)型,可以要求在40%左右。[11]
文獻(xiàn)調(diào)查,大部分(61.68%)學(xué)校對(duì)本科生畢業(yè)論文重復(fù)率要求20%以下。[6]
文獻(xiàn)使用中國(guó)知網(wǎng)的AMLC系統(tǒng)與萬(wàn)方數(shù)據(jù)的PSDS系統(tǒng)同時(shí)檢測(cè)兩本醫(yī)學(xué)期刊的投稿重復(fù)率,AMLC檢測(cè)論文重復(fù)率小于20%的稿件占79.7%,PSDS檢測(cè)論文重復(fù)率小于20%的稿件占84.3%,換言之,80%的論文重復(fù)率低于20%。[12]文獻(xiàn)使用中國(guó)知網(wǎng)AMLC系統(tǒng)檢測(cè)某高校附屬醫(yī)院研究生2011、2012年的學(xué)位論文408份,重復(fù)率10%以下占57.4%、10%~25%占37%、25%~40%占4.5%、40%以上占1.2%,換言之,25%以下占92.4%。[13]
歐美期刊普遍使用查重軟件,文獻(xiàn)受COPE(Committee on Publication Ethics,國(guó)際出版道德委員會(huì))委托,調(diào)查了兩百多本國(guó)際期刊,10%以下文字總重復(fù)率被認(rèn)為屬于“輕微”程度、20%左右屬于“可以接受,但可能會(huì)要求作者修改”、40%重復(fù)率被認(rèn)為屬于“嚴(yán)重”、50%重復(fù)率直接拒稿。換言之,20%左右是普遍可接受的文字總重復(fù)率水平。由于查重時(shí)非英語(yǔ)與漢語(yǔ)都存在類(lèi)似的字詞切分操作,因此具有較高可比性。[14]
基于上述信息,本文建議:(1)多數(shù)學(xué)科的期刊論文文字總重復(fù)率標(biāo)準(zhǔn)目前可以確定為20%。人文學(xué)科、社會(huì)科學(xué)或者綜述、考據(jù)類(lèi)的論文可以略高到25%~30%。(2)職稱(chēng)評(píng)定論文要求和期刊一樣。(3)博碩士學(xué)位論文應(yīng)該不低于一般期刊發(fā)表水平,故和期刊論文一樣要求。(4)本科畢業(yè)論文方面,由于我國(guó)高等教育早進(jìn)入大眾化階段,相當(dāng)部分本科畢業(yè)論文屬于論文習(xí)作,重復(fù)率可以確定為30%。(5)單篇重復(fù)率確定為低于5%。理由是:通常有一定質(zhì)量的一篇論文參考文獻(xiàn)數(shù)量不應(yīng)該少于5篇,按照一文總重復(fù)率過(guò)20%到30%考慮,則單篇文字重復(fù)率取均值為5%。(6)不計(jì)重復(fù)文字占比視同單篇重復(fù)率處理。
需要強(qiáng)調(diào)的是,上述建議只是就一般情況而言,比如對(duì)于法學(xué)研究中的一些論文,法律條文可能引用比較多,則不計(jì)重復(fù)文字占比可以降低要求到10%。
1.?dāng)?shù)據(jù)庫(kù)選擇
國(guó)內(nèi)常用的論文重復(fù)率檢測(cè)系統(tǒng)有CNKI學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)(PMLC)、萬(wàn)方論文相似性檢測(cè)系統(tǒng)、維普通達(dá)論文引用檢測(cè)系統(tǒng)、ROST反剽竊系統(tǒng)、Gocheck論文引用檢測(cè)系統(tǒng)等。不同的數(shù)據(jù)庫(kù)文獻(xiàn)存量、查重算法不同,同一篇論文在不同數(shù)據(jù)庫(kù)的重復(fù)率檢測(cè)結(jié)果可能出入較大。
建議如下:(1)醫(yī)學(xué)類(lèi)論文目前應(yīng)優(yōu)先考慮萬(wàn)方數(shù)據(jù)庫(kù),因?yàn)?007年之后中華醫(yī)學(xué)會(huì)主辦的系列期刊絕大部分沒(méi)有與中國(guó)知網(wǎng)合作,而是與萬(wàn)方數(shù)據(jù)庫(kù)簽訂獨(dú)家收錄協(xié)議,使得萬(wàn)方數(shù)據(jù)庫(kù)更適合醫(yī)學(xué)論文重復(fù)率檢測(cè)。[15]文獻(xiàn)報(bào)道,一篇醫(yī)學(xué)類(lèi)論文中國(guó)知網(wǎng)論文重復(fù)率為48.1%,萬(wàn)方數(shù)據(jù)庫(kù)論文重復(fù)率為82.8%。[16](2)多個(gè)代表性數(shù)據(jù)庫(kù)同時(shí)查重,至少應(yīng)該“中國(guó)知網(wǎng)+萬(wàn)方”雙重檢測(cè)后取最大值。
2.數(shù)據(jù)庫(kù)廠商應(yīng)不斷改進(jìn)算法
為應(yīng)對(duì)查重,互聯(lián)網(wǎng)上已經(jīng)出現(xiàn)很多“反查重”技巧,常見(jiàn)做法——將重復(fù)率較高的句子中間加入一些本不必要的助詞虛詞、在字與字中間加入空格,然后將空格最小化、將文字改為圖片、復(fù)制查重?cái)?shù)據(jù)庫(kù)沒(méi)有包含的中英文資料文字、同一個(gè)詞換個(gè)詞表達(dá)、同一段落進(jìn)行分拆等。
對(duì)此,文獻(xiàn)數(shù)據(jù)庫(kù)應(yīng)該不斷改進(jìn)查重算法,具體建議:(1)單獨(dú)標(biāo)識(shí)高度格式化語(yǔ)句。如果一個(gè)領(lǐng)域中相當(dāng)比例(如十分之一以上)的論文都出現(xiàn)過(guò)某一語(yǔ)句,則數(shù)據(jù)庫(kù)應(yīng)該將該語(yǔ)句標(biāo)記為高度格式化語(yǔ)句(如:“具有顯著臨床治療效果”)、專(zhuān)業(yè)術(shù)語(yǔ)、學(xué)位論文中的版權(quán)聲明文字、常用的名言警句(如:“失敗是成功之母”等)、廣為人知的一些經(jīng)典詩(shī)詞等。[6](2)針對(duì)在句子中加入一些助詞、虛詞如“的、地、得”、加入空格以及其他符號(hào)鍵規(guī)避軟件檢測(cè)的做法,建議檢測(cè)時(shí),對(duì)每個(gè)句子去掉助詞虛詞、空格等符號(hào)鍵后,連續(xù)若干字相同即視為重復(fù),比如中國(guó)知網(wǎng)一度確定的標(biāo)準(zhǔn)是連續(xù)15個(gè)字相同即視為重復(fù)。當(dāng)然,該標(biāo)準(zhǔn)必然會(huì)隨著文獻(xiàn)數(shù)量日積月累,越來(lái)越多而動(dòng)態(tài)調(diào)整。[17](3)認(rèn)定抄襲時(shí),要剔除作者誤引抄襲文章導(dǎo)致的情況。[10]該情況指論文2重復(fù)了論文1的一些文字,但是未加引用,也就是說(shuō)論文2抄襲了論文1,現(xiàn)在論文3重復(fù)了論文2,引用了論文2、沒(méi)有引用論文1,結(jié)果系統(tǒng)判定論文3抄襲論文1。此種情況,應(yīng)該通過(guò)算法判定是論文2抄襲,而不是論文3抄襲。
3.相關(guān)部門(mén)與協(xié)會(huì)應(yīng)積極作為
由于論文重復(fù)率檢測(cè)涉及到研究者個(gè)人切身利益、更事關(guān)學(xué)術(shù)風(fēng)氣與知識(shí)版權(quán)問(wèn)題,呼吁教育部、人事部、科技部等出臺(tái)或者委托全國(guó)性學(xué)術(shù)學(xué)會(huì)、研究機(jī)構(gòu),制訂、發(fā)布重復(fù)率檢測(cè)相關(guān)標(biāo)準(zhǔn),消除各地、各單位自行其是的做法,擠壓投機(jī)作弊空間,凈化國(guó)內(nèi)學(xué)術(shù)風(fēng)氣。
由于各學(xué)科、甚至同一學(xué)科的不同類(lèi)型論文的合理重復(fù)率都存在差異,另外,隨著期刊論文、學(xué)位論文數(shù)量每年以幾十萬(wàn)甚至上百萬(wàn)數(shù)量不斷增加,文字重復(fù)的可能性自然在增長(zhǎng),因此,重復(fù)率標(biāo)準(zhǔn)需要?jiǎng)討B(tài)調(diào)整。建議科技部、人事部、教育部、人社部等部門(mén)牽頭或者委托相關(guān)學(xué)會(huì)協(xié)會(huì),以一級(jí)學(xué)科或者二級(jí)學(xué)科為單位,五年一次,根據(jù)代表性的學(xué)科數(shù)據(jù)庫(kù)的不同類(lèi)型論文平均水平調(diào)整。
論文重復(fù)率檢測(cè)牽涉廣泛利益,備受各方關(guān)注,而現(xiàn)行相關(guān)行政法規(guī)如《高等學(xué)校預(yù)防與處理學(xué)術(shù)不端行為辦法》等都沒(méi)有明確、無(wú)歧義的操作性定義,[18]由此出現(xiàn)一些爭(zhēng)議甚至學(xué)術(shù)腐敗事件。實(shí)踐證明,論文查重在相當(dāng)程度上起到了曝光、抑制剽竊行為的作用,提升了我國(guó)學(xué)術(shù)界的版權(quán)意識(shí)與引用標(biāo)注意識(shí)。
當(dāng)前論文查重實(shí)踐存在的突出問(wèn)題是重復(fù)率的操作性定義、統(tǒng)計(jì)口徑、根據(jù)論文類(lèi)型差異性確定重復(fù)率參考取值標(biāo)準(zhǔn),目前尚未有相對(duì)權(quán)威、統(tǒng)一的重復(fù)率定義與實(shí)務(wù)操作標(biāo)準(zhǔn),本文給出了若干具體建議,拋磚引玉,希望有更多更好的討論。
哈爾濱學(xué)院學(xué)報(bào)2020年10期