李志明
(九江學(xué)院,332005)
隨著計(jì)算機(jī)技術(shù)與互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,越來越多的文獻(xiàn)信息被數(shù)字化、電子化,為人們的科研、工作、學(xué)習(xí)、生活帶來巨大方便的同時(shí),也為學(xué)術(shù)成果抄襲、剽竊等行為提供了方便。為了剎住這種歪風(fēng),政府在政策方面出臺(tái)了相關(guān)規(guī)章制度規(guī)范學(xué)術(shù)研究行為,數(shù)據(jù)庫(kù)商等軟件行業(yè)則從技術(shù)上尋求解決,其中論文相似性檢測(cè)系統(tǒng)就是反抄襲、反剽竊的有效技術(shù)之一。目前論文檢測(cè)系統(tǒng)很多,良莠不齊,其中有三個(gè)影響較大,即中國(guó)知網(wǎng)學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)、萬(wàn)方數(shù)據(jù)論文相似性檢測(cè)系統(tǒng)、維普-通達(dá)論文引用檢測(cè)系統(tǒng),為了使用戶能對(duì)論文相似性系統(tǒng)進(jìn)行有效地使用及選擇,也為了更好地完善論文相似性檢測(cè)系統(tǒng),本文對(duì)上述三種系統(tǒng)做了比較研究。
中國(guó)學(xué)術(shù)期刊(光盤版)電子雜志社與同方知網(wǎng)(北京)技術(shù)有限公司在中國(guó)知識(shí)資源總庫(kù)(CNKI)系統(tǒng)整合出版各種學(xué)術(shù)文獻(xiàn)的基礎(chǔ)上,于2008年12月底研制成功學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)(簡(jiǎn)稱AMLC),并正式開放使用。該系統(tǒng)可為全國(guó)各行各業(yè)在學(xué)術(shù)出版、研究生論文答辯、科研項(xiàng)目審批和鑒定驗(yàn)收、學(xué)術(shù)職稱評(píng)定等項(xiàng)工作中防止學(xué)術(shù)不端行為提供專門的信息咨詢服務(wù)[1]。
基于萬(wàn)方數(shù)據(jù)海量學(xué)術(shù)文獻(xiàn)資源,對(duì)學(xué)術(shù)成果進(jìn)行相似性檢測(cè),提供客觀翔實(shí)的檢測(cè)報(bào)告,為學(xué)術(shù)出版、科研管理、學(xué)位論文管理等提供支持[2]。
維普 -通達(dá)論文引用檢測(cè)系統(tǒng)(簡(jiǎn)稱VTTMS),是由維普公司與通達(dá)恒遠(yuǎn)(北京)信息技術(shù)有限公司及北京多所重點(diǎn)高校共同研制而成,結(jié)合了維普資訊的數(shù)據(jù)資源優(yōu)勢(shì)與通達(dá)的數(shù)據(jù)挖掘技術(shù),并成功地應(yīng)用在大規(guī)模文本比對(duì)領(lǐng)域上的創(chuàng)新產(chǎn)品,是論文寫作輔導(dǎo)及管理的一站式平臺(tái)[3]。
知網(wǎng)有學(xué)位論文版、科技期刊版、社科期刊版、人事版、大學(xué)生論文版、中學(xué)生作業(yè)版、vip版、工作總結(jié)版;萬(wàn)方有單篇新論文版、批量新論文版、已發(fā)表論文版、大學(xué)生論文版;維普有大學(xué)生版、研究生版、職稱版、個(gè)人版。知網(wǎng)和維普的劃分方式相近,都是根據(jù)用戶群的特點(diǎn)進(jìn)行劃分,知網(wǎng)劃分得更細(xì)致,對(duì)應(yīng)的用戶群體更多,維普相對(duì)粗略些,而萬(wàn)方的劃分方式完全不一樣,是以是否發(fā)表、是否批量為依據(jù)劃分的。
作為一個(gè)論文相似性檢測(cè)系統(tǒng),其比對(duì)資源庫(kù)收錄資源類型是否齊全、學(xué)科是否齊全、年限是否足夠長(zhǎng)、資源數(shù)量是否足夠大等對(duì)檢測(cè)結(jié)果的影響至關(guān)重要。在資源庫(kù)收錄資源年限方面,知網(wǎng)回溯到1915年,時(shí)間最長(zhǎng);萬(wàn)方回溯到1985年,次之;維普回溯到1989年,時(shí)間最短。在資源庫(kù)收錄資源學(xué)科方面,三者都收錄了全學(xué)科的文獻(xiàn)資源。在資源庫(kù)收錄資源類型方面,三者都有期刊、學(xué)位論文、報(bào)紙、互聯(lián)網(wǎng)資源,知網(wǎng)、萬(wàn)方均有會(huì)議論文,知網(wǎng)、維普都有報(bào)紙。另外,知網(wǎng)還有國(guó)家標(biāo)準(zhǔn)、專利、字典、詞典、百科全書、圖錄、表譜、手冊(cè)、名錄、第三方數(shù)據(jù)庫(kù)資源,維普還有自建論文資源庫(kù),知網(wǎng)資源類型最豐富。在資源庫(kù)收錄資源數(shù)量方面(從各自對(duì)外公布的數(shù)字獲得),知網(wǎng)與維普資源數(shù)量更大些,萬(wàn)方偏少(見表1)。
表1
檢測(cè)指標(biāo)設(shè)置體系是影響檢測(cè)結(jié)果的一個(gè)重要因素,三者都有總復(fù)制比指標(biāo),知網(wǎng)還有復(fù)制比(去除引用文獻(xiàn)檢測(cè)結(jié)果復(fù)制比、去除本人文獻(xiàn)檢測(cè)結(jié)果復(fù)制比)、總檢測(cè)指標(biāo)(重合字?jǐn)?shù)、總字?jǐn)?shù)、總段落數(shù)、疑似段落數(shù)、前部重合字?jǐn)?shù)、后部重合字?jǐn)?shù))、子檢測(cè)指標(biāo)(重合字?jǐn)?shù)、小段落數(shù)、大段落數(shù)、最大段長(zhǎng)、平均段長(zhǎng)、前部重合度、后部重合度),萬(wàn)方有參考文獻(xiàn)相似比、剩余相似比指標(biāo),維普有“引用率”、“復(fù)寫率”和“自寫率”三個(gè)指標(biāo)。知網(wǎng)的指標(biāo)體系最詳細(xì),維度最多(見表2)。
表2
檢測(cè)技術(shù)關(guān)乎檢測(cè)結(jié)果是否準(zhǔn)確可靠。知網(wǎng)采用多階自適應(yīng)指紋分析技術(shù)、語(yǔ)義理解技術(shù),對(duì)任意一篇需要檢測(cè)的文獻(xiàn),系統(tǒng)首先對(duì)其進(jìn)行分層處理,按照篇章、段落、句子等層級(jí)分別創(chuàng)建指紋,而比對(duì)資源庫(kù)中的比對(duì)文獻(xiàn),也采取同樣技術(shù)創(chuàng)建指紋索引,另外構(gòu)建了強(qiáng)大的語(yǔ)義分析框架,實(shí)現(xiàn)了詞語(yǔ)、語(yǔ)句、句群、篇章分層級(jí)的語(yǔ)義分析。萬(wàn)方采用了自主研發(fā)的“基于滑動(dòng)窗口的低頻特征部分匹配算法”,能準(zhǔn)確識(shí)別細(xì)微改動(dòng),兼顧查全、查準(zhǔn)。維普采用自主研發(fā)的業(yè)界領(lǐng)先的“F&V”算法,集合了VSM+、語(yǔ)義指紋、自動(dòng)分類三種方式的計(jì)算模型,語(yǔ)義指紋用于對(duì)整段文本進(jìn)行檢測(cè)、VSM用于對(duì)語(yǔ)義片段進(jìn)行分析、自動(dòng)分類用于將被檢測(cè)文檔自動(dòng)定位到專業(yè)的比對(duì)源中進(jìn)行檢測(cè),檢測(cè)顆粒度最小支持詞組級(jí)語(yǔ)義。三者的核心檢測(cè)技術(shù)各有特點(diǎn)(見表3)。
表3
三者都有單篇檢測(cè)和批量檢測(cè)、多級(jí)賬號(hào)管理功能,都支持的上傳文件格式有.doc/.docx/.txt/.pdf/,都有PDF、網(wǎng)頁(yè)格式的檢測(cè)報(bào)告,檢測(cè)報(bào)告重復(fù)片段都有高亮對(duì)比顯示,知網(wǎng)和萬(wàn)方都有多維度統(tǒng)計(jì)功能,知網(wǎng)和維普都支持.zip/.rar格式文件上傳及檢測(cè)結(jié)果匯總excel輸出。知網(wǎng)還有支持語(yǔ)義檢測(cè)、多語(yǔ)種檢測(cè)、表格檢測(cè)、繁體檢測(cè)及多版本修改對(duì)照、原文檢索下載功能,還支持.caj/.kdh/.nh格式文件,萬(wàn)方支持?jǐn)帱c(diǎn)續(xù)傳及可與既有業(yè)務(wù)系統(tǒng)集成、檢測(cè)任務(wù)管理功能,還支持.rtf格式文件,維普還有自建庫(kù)功能、自定義比對(duì)資源范圍。三者在系統(tǒng)功能上各有優(yōu)點(diǎn),但知網(wǎng)功能更豐富和強(qiáng)大些(見表4)。
表4
筆者將本人2013年撰寫的文章《讀秀學(xué)術(shù)搜索系統(tǒng)與文津搜索系統(tǒng)的比較分析及啟示》分別在三個(gè)系統(tǒng)進(jìn)行檢測(cè):知網(wǎng)總文字復(fù)制比5.5%,萬(wàn)方總相似比0,維普總相似比15.31%。通過分析三個(gè)報(bào)告,作者認(rèn)為知網(wǎng)的結(jié)果相對(duì)準(zhǔn)確,萬(wàn)方?jīng)]有檢測(cè)出來相似之處,維普的語(yǔ)義分析功能欠缺,另外把表格里的內(nèi)容與別的文章里相似的詞語(yǔ)認(rèn)為相似計(jì)算到總相似比中,包括參考文獻(xiàn)跟其它文獻(xiàn)的引用或參考文獻(xiàn)相似也計(jì)算在總相似比中,導(dǎo)致相似比過高,不符合實(shí)際情況。
圖書在文獻(xiàn)資源中占據(jù)著重要位置,但知網(wǎng)、萬(wàn)方、維普論文相似性檢測(cè)系統(tǒng)比對(duì)資源庫(kù)都是以期刊論文、博碩論文、報(bào)紙論文、會(huì)議論文、網(wǎng)絡(luò)資源等為主,而沒有收錄圖書,雖然知網(wǎng)收錄了一些字典、詞典、百科全書、圖錄、表譜、手冊(cè)、名錄等,但還遠(yuǎn)遠(yuǎn)不夠。另外,圖片文獻(xiàn)收錄也很欠缺,三者如收全圖書、圖片等資源類型,將會(huì)對(duì)檢索結(jié)果起到很好的修正作用。在收錄語(yǔ)種方面,三者主要以中文為主,也收錄了外文文獻(xiàn)資源,但與外文資源總量還有距離,為了保證科研創(chuàng)新性及查出相似文獻(xiàn),應(yīng)收錄足夠數(shù)量的外文文獻(xiàn)。
上傳文件的格式關(guān)系到用戶使用系統(tǒng)是否方便。知網(wǎng)、萬(wàn)方、維普論文相似性檢測(cè)系統(tǒng)三者都支持.doc/.docx/.txt/.pdf/,還缺少很多常用文獻(xiàn)格式,如.jpg/.wps/.ppt/.xls/.html/.gif等,三者如果加以改進(jìn),能夠支持更多的常用文件格式,那將給用戶使用帶來更大的方便。
圖片型的文獻(xiàn)由于它直觀、容易說明問題等特點(diǎn)而日益受到重視,并且數(shù)量愈來愈龐大。但知網(wǎng)、萬(wàn)方、維普論文相似性檢測(cè)系統(tǒng)支持得都不夠好,希望開發(fā)者在技術(shù)方面更好地解決此問題。
圖書館作為文獻(xiàn)信息中心,是讀者利用文獻(xiàn)信息資源的主要場(chǎng)所。因此,在讀者利用文獻(xiàn)信息資源時(shí),館員要及時(shí)提醒讀者須合理、合法利用信息資源,對(duì)其進(jìn)行必要的學(xué)術(shù)倫理與學(xué)術(shù)道德教育,使其養(yǎng)成正確使用文獻(xiàn)信息資源的良好習(xí)慣。
[1]同方知網(wǎng)(北京)技術(shù)有限公司.CNKI科研誠(chéng)信管理系統(tǒng)管理研究中心[EB/OL].http://check.cnki.net/,2014-5-6.
[2]北京萬(wàn)方數(shù)據(jù)股份有限公司.萬(wàn)方數(shù)據(jù)論文相似性檢測(cè)[EB/OL].http://check.wanfangdata.com.cn/,2014-5-6.
[3]重慶維普資訊有限公司.維普論文檢測(cè)系統(tǒng)[EB/OL].http://vpcs.cqvip.com/login.aspx?r=%2f.Default.aspx,2014-5-6.
大學(xué)圖書情報(bào)學(xué)刊2015年1期