鄒恩岑 馬壯 申宇 閔晟 顧明敏 黃偉軍
摘 要:隨著教育現(xiàn)代化進程的推進,高校學(xué)生的作業(yè)抄襲問題日益突出,逐步侵蝕并嚴重影響著國家人才質(zhì)量。為解決這一問題,文中基于軟件工程方法提出了一種高校學(xué)生電子作業(yè)抄襲檢測系統(tǒng),經(jīng)需求分析、體系結(jié)構(gòu)設(shè)計與改進、核心算法設(shè)計,實現(xiàn)了系統(tǒng)的業(yè)務(wù)功能和人機界面,服務(wù)于學(xué)生、教師和管理員。系統(tǒng)基于余弦相似原理,實現(xiàn)通過詞向量建模、向量空間轉(zhuǎn)換、相似度計算完成抄襲性質(zhì)作業(yè)數(shù)據(jù)檢測,幫助教師以直觀方式篩選相似度高的作業(yè),人工判定抄襲性質(zhì)。該系統(tǒng)為推動研究科學(xué)的作業(yè)誠信檢測手段和解決大學(xué)生作業(yè)抄襲問題提供了有力工具。
關(guān)鍵詞:抄襲檢測;電子作業(yè);系統(tǒng)設(shè)計;教育現(xiàn)代化;誠信;相似度計算
中圖分類號:TP391文獻標(biāo)識碼:A文章編號:2095-1302(2020)07-00-06
0 引 言
在現(xiàn)代高校的教學(xué)流程中,無紙化辦公的普及使得教師和學(xué)生可以將更多的時間用于思考實際問題,但隨之而來的是,電子文檔具有幾乎無成本的易復(fù)制性和易修改性,抄襲、剽竊屢見不鮮教師很難通過千篇一律的作業(yè)獲取真實的教學(xué)反饋。高校學(xué)生的作業(yè)抄襲問題日益突出,逐步侵蝕并嚴重影響著國家人才質(zhì)量。如何制約這種不良行為,將學(xué)生引導(dǎo)回誠信發(fā)展的軌道上是當(dāng)下丞待解決的問題,研究和采取相應(yīng)有效制約措施和手段則是教育者的責(zé)任。因此,基于計算機技術(shù)的作業(yè)查重系統(tǒng)應(yīng)運而生,幫助教師甄別抄襲、剽竊的文檔,減輕教師的工作壓力,通過作業(yè)查重結(jié)果,針對不同學(xué)生及時制定相應(yīng)的教學(xué)方案,真正實現(xiàn)因材施教。
清華大學(xué)在不久前已在全校實行了與知網(wǎng)同樣具備查重功能的作業(yè)查重系統(tǒng),用以檢測學(xué)生的日常作業(yè),相信不久之后會在高校之中普及。這一項措施能夠在一定程度上解決當(dāng)今高校教育所產(chǎn)生的一些棘手問題,尤其對本科教育質(zhì)量的提高產(chǎn)生了很大的促進作用。
最近,教育部印發(fā)了《關(guān)于狠抓新時代全國高等學(xué)校本科教育工作會議精神落實的通知》。這份通知中明確提出“全面整頓教育教學(xué)秩序,嚴格本科教育教學(xué)過程管理,加快振興本科教育,構(gòu)建高水平人才培養(yǎng)體系,全面提高高校人才培養(yǎng)能力?!盵1]日常作業(yè)的管理成為本科教學(xué)體系中的重要一環(huán),作業(yè)的完成效果和完成質(zhì)量不僅關(guān)系到日常教學(xué)的結(jié)果,更重要的是關(guān)系人才培養(yǎng)體系的構(gòu)建。
1 相關(guān)工作
知網(wǎng)平臺采取的算法:首先根據(jù)論文的章節(jié)信息進行分段檢測,如果無法檢測到章節(jié)信息,系統(tǒng)將自動對文章進行分段。知網(wǎng)還對每段文章設(shè)置平均5%的靈敏度閾值,即低于5%抄襲或引用的段落無法被檢測出來。針對段落中的語句,當(dāng)連續(xù)13個字相似或相同就會判定這一語句為抄襲。作為國內(nèi)最大的知識發(fā)現(xiàn)網(wǎng)絡(luò)平臺,知網(wǎng)的算法確保了對論文檢測的精準度,但隨之而來的是巨額的計算量。知網(wǎng)查重算法需要足夠的計算資源來支撐大數(shù)據(jù)平臺的計算。從另一方面來看,計算資源可以通過疊加來獲取更快的處理速度,但一個完備的文檔對比數(shù)據(jù)庫比計算資源更加重要,需要時間的沉淀。
全球最大的搜索引擎Google,在面對每天新增的無數(shù)網(wǎng)頁時,采取自己創(chuàng)建的SimHash算法進行海量文檔去重。SimHash算法最大的亮點是可以將文檔的相似部分映射到一個64位的字節(jié)文本特征上,這是與傳統(tǒng)Hash算法的不同之處。傳統(tǒng)的Hash算法只能保證兩份文檔存在不同時計算的Hash值不同,無法從結(jié)果中了解到文檔不同的部分。SimHash算法在處理海量網(wǎng)頁去重的場景中優(yōu)勢明顯,但缺點也顯而易見,SimHash在處理短文本去重任務(wù)時效果較差。
余弦相似度算法與SimHash算法相反,該算法在處理短文本對比任務(wù)時擁有超高精準度,通過提取文本的向量集合,進行兩兩對比計算,得出相似度余弦值,余弦值越趨近于1,則二者越相似。余弦相似度算法將切詞后的文章轉(zhuǎn)化為單詞向量列表,對兩篇文章的單詞向量進行計算。其缺點在于余弦相似度算法無法復(fù)用已有計算結(jié)果,每次計算兩篇文檔時都要整體計算一次,效率較低,但其精準度、可用性較高。
目前國內(nèi)外研究很少使用深度學(xué)習(xí)[2-9]作為學(xué)生作業(yè)誠信檢測的核心技術(shù),使用規(guī)則的機器學(xué)習(xí)方法[10-15]查重仍是主流。
2 系統(tǒng)需求分析
抄襲作業(yè)的問題在高校教學(xué)過程中既難以防范又影響重大。首先,學(xué)生依靠計算機技術(shù)抄襲作業(yè),抄襲便利程度和效率都較之前抄襲紙質(zhì)作業(yè)大幅提高;其次,依靠任課教師人工檢查作業(yè)中的抄襲痕跡,要耗費大量時間對比多份作業(yè),存在效率低下、準確度不高和實施困難等問題[16-17];最后,在理工類高校教學(xué)中,學(xué)生很難做到認真聽講和主動學(xué)習(xí),學(xué)習(xí)效果不斷惡化[18],最終致使各教學(xué)環(huán)節(jié)質(zhì)量連鎖降低。學(xué)生抄襲作業(yè)的后果嚴重影響各教學(xué)環(huán)節(jié)的效果[19-20]。
本文主要研究如何設(shè)計與實現(xiàn)電子作業(yè)抄襲檢測軟件系統(tǒng),用于發(fā)現(xiàn)并減少學(xué)生電子作業(yè)抄襲帶來的影響。
在對學(xué)校的作業(yè)查重需求進行深入調(diào)研分析并與相關(guān)教師進行交流溝通后,在使用系統(tǒng)查重前,需要管理員為教師創(chuàng)建賬號,教師通過Excel導(dǎo)入或者手動添加學(xué)生賬號信息(數(shù)據(jù)通過系統(tǒng)Web管理端導(dǎo)入)。教師可以自由創(chuàng)建學(xué)生組別與查重任務(wù),由教師本人提交ZIP壓縮包或?qū)W生各自登錄系統(tǒng)提交作業(yè),之后進行作業(yè)相似度對比,并生成直觀圖表,為教師因材施教提供依據(jù)。根據(jù)對作業(yè)查重系統(tǒng)業(yè)務(wù)需求的分析和研究,本系統(tǒng)的主要功能模塊包括用戶信息模塊、任務(wù)組模塊、查重任務(wù)模塊、文件管理模塊、權(quán)限管理模塊、系統(tǒng)管理模塊等。系統(tǒng)頂層用例圖如圖1所示。
系統(tǒng)可為三個角色分配功能。
(1)學(xué)生
學(xué)生可以查看自己所屬的多個任務(wù)組及組員情況,查看各自任務(wù)組的所有查重任務(wù),對于需要提交的查重任務(wù),可以在查重任務(wù)允許提交時間段提交作業(yè)待查重。對于查重結(jié)束的任務(wù),可以查看任務(wù)的查重結(jié)果。
(2)教師
教師可以創(chuàng)建任務(wù)組,為任務(wù)組創(chuàng)建查重任務(wù),通過上傳Excel模板批量創(chuàng)建學(xué)生賬號,修改查重任務(wù)的起止時間、上傳文檔過濾、題干排除文本等,也可以查看學(xué)生的作業(yè)提交情況。查重任務(wù)結(jié)束后,可以查看任務(wù)的查重結(jié)果,篩選相似度高的作業(yè),人工判定抄襲。教師還可以通過上傳文檔壓縮包進行壓縮包快捷查重操作,省去創(chuàng)建任務(wù)組的步驟。
(3)管理員
管理員擁有學(xué)生和教師的所有權(quán)限,并且可以對查重任務(wù)進一步管理,管理員可以查看文件系統(tǒng)中查重任務(wù)打包上傳的壓縮文件和查重結(jié)果的壓縮文件,維護所有用戶信息,對系統(tǒng)權(quán)限(前端、后端)進行添加、刪除,對Web端的菜單進行維護管理,設(shè)置菜單權(quán)限,為教師、學(xué)生分配角色或收回任意功能權(quán)限,同時管理員亦可查看系統(tǒng)的所有操作日志,監(jiān)控用戶行為。
3 系統(tǒng)體系結(jié)構(gòu)設(shè)計
通過對功能和用戶的分析,采用Web技術(shù)開發(fā)客戶端,嚴格按照MVC思想和面向?qū)ο笏枷朐O(shè)計系統(tǒng),以加強系統(tǒng)的可擴展性。系統(tǒng)采用分層架構(gòu),分別由視圖層、控制層、業(yè)務(wù)層和數(shù)據(jù)持久層組成,如圖2所示。
在分層架構(gòu)的基礎(chǔ)上,采用多模塊拆分開發(fā)方式,基于Maven構(gòu)建多Module的Spring Boot項目,按照功能將系統(tǒng)切分為core基礎(chǔ)功能模塊、rmp權(quán)限校驗?zāi)K、service業(yè)務(wù)邏輯模塊和Web客戶端模塊。視圖層為PC網(wǎng)頁端提供人機交互功能。控制層使用Spring MVC處理客戶端請求并進行業(yè)務(wù)邏輯的分發(fā),使用Spring Security進行合法性、權(quán)限校驗等操作。業(yè)務(wù)層使用基于Interface的開發(fā)方式將較為復(fù)雜的業(yè)務(wù)拆分成單獨的服務(wù),以提升代碼復(fù)用度。數(shù)據(jù)持久層使用MyBatis作為ORM框架進行服務(wù)端與數(shù)據(jù)庫間的通信,并降低服務(wù)端與數(shù)據(jù)庫間的耦合度,提高系統(tǒng)靈活性。系統(tǒng)為控制層、業(yè)務(wù)邏輯層和數(shù)據(jù)持久層都封裝了CRUD的基礎(chǔ)操作類,每層處理類只需繼承基礎(chǔ)CRUD類,即可生成對應(yīng)的增刪改查接口。分層架構(gòu)分模塊開發(fā)思想的引用有利于團隊合作,降低開發(fā)難度,提高系統(tǒng)的開發(fā)效率。
通過對用戶、功能的分析,設(shè)計系統(tǒng)功能E-R圖,如圖3所示。
系統(tǒng)將項目的四層架構(gòu)拆分為多個Module,便于系統(tǒng)水平擴展,并將系統(tǒng)中最耗時的余弦相似度計算部分交由核心算法模塊進行實時計算。為優(yōu)化系統(tǒng)性能,提高響應(yīng)速度和負載能力,本文對體系結(jié)構(gòu)做了如下改進。
(1)基于前后端分離的通用數(shù)據(jù)交互協(xié)議
系統(tǒng)前端采用Layui作為主要開發(fā)框架,與服務(wù)端通過Jquery Ajax進行JSON數(shù)據(jù)交互。為規(guī)范開發(fā),服務(wù)端使用統(tǒng)一的消息響應(yīng)格式。前后端分離雖然可以將部分負載從服務(wù)端轉(zhuǎn)移到瀏覽器客戶端,但也導(dǎo)致前端資源被完全暴露。為了實現(xiàn)對前端資源的細粒度操控,系統(tǒng)采用Thymeleaf框架進行Web頁面映射,僅將公共CSS,JS資源全部開放,Web頁面在訪問時需要先經(jīng)服務(wù)端進行強權(quán)限校驗,確保在權(quán)限校驗不通過的情況下,客戶端獲取的服務(wù)器資源最低,進一步提高系統(tǒng)的安全性。
(2)控制層、業(yè)務(wù)邏輯層和數(shù)據(jù)持久層的基礎(chǔ)CRUD封裝
本系統(tǒng)基于Java泛型建立CommonRestController
(3)基于Redis的方法緩存機制
引入Redis對需要頻繁訪問的接口進行數(shù)據(jù)緩存,減輕數(shù)據(jù)庫負載,提高系統(tǒng)運行效率。本文基于Spring AOP建立了一套基于Redis的方法緩存流程,如圖4所示。
定義@CacheParam和@CacheDeleteParam注解,分別對應(yīng)查詢緩存和刪除緩存操作,創(chuàng)建注解對應(yīng)的切面操作,當(dāng)客戶端請求經(jīng)@CacheParam注解修飾過的Controller前,會進行Aspect Around事件處理:系統(tǒng)首先查詢Redis是否存在當(dāng)前Key(類名+方法名+參數(shù))對應(yīng)的值,如果存在對應(yīng)值,說明已緩存過當(dāng)前方法、當(dāng)前參數(shù)數(shù)據(jù),直接從Redis中取出數(shù)據(jù)響應(yīng)客戶端即可;如果value不存在,則需進行緩存操作,先調(diào)用切面的proceed()方法讓程序正常執(zhí)行,程序執(zhí)行結(jié)束后,proceed()返回當(dāng)前Controller的返回值,系統(tǒng)將返回值存入Redis即可。在數(shù)據(jù)的更新方法上,添加@CacheDeleteParam注解、刪除對應(yīng)緩存即可防止緩存與數(shù)據(jù)庫不一致的情況出現(xiàn)。
4 系統(tǒng)核心算法設(shè)計
4.1 作業(yè)的詞向量建模
為了計算作業(yè)文本之間的相似度,需先將文本轉(zhuǎn)換成詞向量。本文使用步長為1,窗長為2的詞向量切分法來分割文本字符串時,切割出的字符串作為向量基,每切割出一次基字符串,就在向量這一維上增加1,以此構(gòu)成詞向量。本文未使用任何分詞詞庫,使用切割步長為1,窗長為2的分詞方法是為保證詞向量轉(zhuǎn)換后原文本信息可最大程度保留。
例如:作業(yè)文本“Hadoop是處理大量數(shù)據(jù)的平臺”中,分割后的詞向量的基集合為U = {Ha,ad,do,oo,op,p是,是處,處理,理大,大量,量數(shù),數(shù)據(jù),據(jù)的,的平,平臺,臺},用該集合表示的向量共有16個維度。
4.2 共同向量空間的轉(zhuǎn)換
學(xué)生A的作業(yè)文本片段經(jīng)字符串分割后的詞向量記為向量a,學(xué)生B的作業(yè)文本片段經(jīng)分割后的詞向量記為b。a和b由于各自的基不同,所在的向量空間不同,需要換算至相同的向量空間。模塊程序提取a和b兩向量基的并集,構(gòu)成合并基,將a,b兩向量轉(zhuǎn)換到合并基所組成的新的共同向量空間中。
5 系統(tǒng)實現(xiàn)
5.1 核心算法模塊功能實現(xiàn)
核心算法模塊使用我院《軟件工程》和《云計算與大數(shù)據(jù)技術(shù)概論》兩門高校課程2015年至2019年4次授課過程中提交的551份學(xué)生電子作業(yè)作為數(shù)據(jù)集進行開發(fā)與驗證。
系統(tǒng)核心算法模塊的實現(xiàn)包括3個程序包,分別為數(shù)據(jù)清洗工具程序包dataClean、作業(yè)查重計算computeSim和常用封裝庫程序包lib。
數(shù)據(jù)清洗工具程序包dataClean用于提供清洗作業(yè)數(shù)據(jù)的子模塊程序;計算程序包computeSim提供字符串切割、作業(yè)詞向量建模和相似度計算模塊;常用封裝庫程序包lib提供系統(tǒng)I/O和比較器等常用自制程序庫。
算法模塊的輸出結(jié)果見表1所列,敏感信息已用“*”和“★”符號處理。第一列為該教學(xué)班每一位同學(xué)的作業(yè)名稱,第二列為與第一列作業(yè)相似度最高的作業(yè)名稱,第三列為2個作業(yè)的余弦相似度,數(shù)值從高至低排序。表中每一行已根據(jù)余弦相似度從高至低排序,以便教師進行人工判定。
5.2 學(xué)生端功能的實現(xiàn)
學(xué)生登錄后,首先可以查看自己所屬的任務(wù)組和任務(wù)信息,根據(jù)組名和負責(zé)人過濾搜索任務(wù)組信息,點擊詳情查看該任務(wù)組的詳細信息,包括組員和該任務(wù)組下屬的查重任務(wù)。對于查重任務(wù),學(xué)生可以查看任務(wù)的詳細信息,根據(jù)任務(wù)組或任務(wù)名搜索任務(wù)。在查重任務(wù)界面,學(xué)生可根據(jù)任務(wù)組、任務(wù)名、任務(wù)說明來搜索查重任務(wù),查看自己所有查重任務(wù)的詳細信息,也可以查看已提交的查重文件。如果任務(wù)已查重,則可查看該查重任務(wù)的查重結(jié)果,系統(tǒng)界面如圖5所示。
5.3 教師端功能的實現(xiàn)
教師可以創(chuàng)建任務(wù)組,根據(jù)任務(wù)組創(chuàng)建查重任務(wù)或通過ZIP壓縮包進行急速查重,對查重任務(wù)進行增、刪、改、查
操作。在任務(wù)查重結(jié)束后,教師可以查看所有學(xué)生的作業(yè)提交情況和相似度結(jié)果,同時也可以通過圖表方式查看最終結(jié)果。系統(tǒng)提供圖形化展示功能,以便教師以直觀方式篩選相似度高的作業(yè),通過人工判定抄襲。系統(tǒng)界面如圖6所示。
5.4 管理員端功能的實現(xiàn)
在學(xué)生和教師的功能之上,管理員可以對所有教師和學(xué)生的任務(wù)組、查重任務(wù)、提交的查重文件等信息及對學(xué)生和教師的用戶信息進行增刪改查操作,同時還可對系統(tǒng)角色進行增刪改查和權(quán)限分配,對系統(tǒng)所有功能進行權(quán)限控制,包括前端頁面DOM控制和服務(wù)端接口讀寫控制,查看所有用戶的操作日志。系統(tǒng)界面如7所示。
6 系統(tǒng)測試
6.1 測試環(huán)境
硬件環(huán)境:本文使用的服務(wù)器配置為8核Intel Xeon E5-2640 V2,2.00 GHz處理器,128G內(nèi)存。
軟件環(huán)境:系統(tǒng)使用Eclipse作為開發(fā)工具,操作系統(tǒng)為Ubuntu 16.04 LTS,Java平臺為JDK 1.8.0,表現(xiàn)層與Service服務(wù)器為Tomcat8.0,系統(tǒng)數(shù)據(jù)庫為MySQL5.6,用戶桌面端瀏覽器為360瀏覽器,網(wǎng)絡(luò)為校園網(wǎng)。
6.2 測試內(nèi)容
(1)根據(jù)系統(tǒng)的需求確定系統(tǒng)的功能完善性,即需求中的各功能模塊在系統(tǒng)中是否充分體現(xiàn)。
(2)測試系統(tǒng)各模塊功能健壯性,包括系統(tǒng)的數(shù)據(jù)讀取、錄入是否完整,系統(tǒng)的數(shù)據(jù)處理、輸出是否正確;測試各功能模塊的功能是否與需求分析一致; 檢查客戶界面是否達到操作簡便及安全性的要求。
(3)對系統(tǒng)按照業(yè)務(wù)流程進行綜合測試,即模擬使用方的業(yè)務(wù)流程使用本系統(tǒng)進行數(shù)個并且在多時間段內(nèi)完成數(shù)據(jù)錄入、處理及輸出的操作。
6.3 測試結(jié)果
系統(tǒng)主要模塊功能測試結(jié)果見表2所列,系統(tǒng)綜合測試結(jié)果見表3所列。
7 結(jié) 語
本文提出了一種高校作業(yè)抄襲檢測系統(tǒng)的設(shè)計方法,經(jīng)需求分析、體系結(jié)構(gòu)設(shè)計與改進、核心算法設(shè)計,運用軟件工程實踐方法實現(xiàn)了系統(tǒng)的業(yè)務(wù)功能和人機界面,服務(wù)于學(xué)生、教師和管理員。系統(tǒng)算法使用固定步長窗長構(gòu)建詞向量、向量共同空間轉(zhuǎn)換、作業(yè)相似度計算等方法,最后由人工判定,完成以計算機為主,人工審閱為輔的作業(yè)抄襲檢測工作。下一步的工作主要考慮2個方向:第一,結(jié)合教學(xué)實際,將系統(tǒng)運用到教學(xué)過程中,將學(xué)生、教師和管理集中到在線統(tǒng)一平臺,收集數(shù)據(jù)、記錄并分析系統(tǒng)實際效果;第二步,將深度學(xué)習(xí)方法引入抄襲檢測模型中,進一步減少甚至代替人工審閱工作。
參考文獻
[1]劉瀟翰.教育部關(guān)于狠抓新時代全國高等學(xué)校本科教育工作會議精神落實的通知[EB/OL]. [2018-08-27]. http://www.moe.gov.cn/srcsite/A08/s7056/201809/t20180903_347079.html.
[2]李雨亭.基于深度學(xué)習(xí)的垃圾郵件文本分類方法[D].太原:中北大學(xué),2018.
[3]易軍凱,王超,李輝.面向文本分類的深度置信網(wǎng)絡(luò)特征提取方法研究[J].北京化工大學(xué)學(xué)報(自然科學(xué)版),2018,45(3):92-96.
[4] FEI J,LU C. Adaptive sliding mode control of dynamic systems using double loop recurrent neural network structure. [J]. IEEE trans neural netw learn syst,2018,29(4):1275-1286.
[5] FERNANDO T,DENMAN S,MCFADYEN A,et al. Tree memory networks for modelling long-term temporal dependencies [J]. Neurocomputing,2018,304:64-81.
[6] KHRULKOV V,NOVIKOV A,OSELEDETS I. Expressive power of recurrent neural networks [J]. ICLR,2018.
[7] WANG W,GAN Z,WANG W,et al. Topic compositional neural language model [J]. AISTATS,2018.
[8] ENGELS S,LAKSHMANAN V,CRAIG M . Plagiarism detection using feature-based neural networks [J]. Acm sigcse bulletin,2007,39(1):34-38.
[9] CURRAN D. An Evolutionary Neural Network Approach to Intrinsic Plagiarism Detection [C]// Irish Conference on Artificial Intelligence & Cognitive Science. Springer-Verlag,2009.
[10] ALTMAN N S. An introduction to kernel and nearest-neighbor nonparametric regression [J]. The American statistician,1992,46 (3):175-185.
[11] DENOEUX T. A k-nearest neighbor classification rule based on Dempster-Shafer theory[J]. IEEE transactions on systems,man and cybernetics,1995,25(5):804-813.
[12] KELLER J M,GRAY M R,GIVENS J A. A fuzzy K-nearest neighbor algorithm [J]. IEEE transactions on systems man & cybernetics,2012,15(4):580-585.
[13] DING X,ZHANG Y,CHEN L,et al. Distributed k-Nearest Neighbor Queries in Metric Spaces:Second International Joint Conference [Z]. Web and Big Data. Springer,Cham,2018.
[14] PAPERNOT N,MCDANIEL P . Deep k-Nearest Neighbors: Towards Confident,Interpretable and Robust Deep Learning [Z]. arXiv preprint arXiv:1803.04765,2018.
[15] TAHA Z,RAZMAN M A M,ADNAN F A,et al. The Identification of Hunger Behaviour of Lates Calcarifer Using k-Nearest Neighbour [M]//Intelligent Manufacturing & Mechatronics. Springer,Singapore,2018:393-399.
[16]郝煒.具有抄襲檢測功能的在線作業(yè)系統(tǒng)的研究與實現(xiàn)[D].沈陽:東北大學(xué),2006.
[17]廖興偉.文檔復(fù)制檢測方法研究與系統(tǒng)實現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012.
[18]黃志紅.加強反抄襲系統(tǒng)建設(shè)及應(yīng)用監(jiān)管的若干思考[J].東華理工大學(xué)學(xué)報(社會科學(xué)版),2013,32(4):507-509.
[19] CRONAN T P,MULLINS J K,DOUGLAS D E,et al. Further understanding factors that explain freshman business students academic integrity intention and behavior: plagiarism and sharing homework [J]. Journal of business ethics,2017:1-24.
[20] NOVAK M. Review of source-code plagiarism detection in academia.[C]// International Convention on Information & Communication Technology,Electronics & Microelectronics. IEEE,2016.
作者簡介:鄒恩岑(1985—),男,江蘇蘇州人,實驗員,碩士,CCF會員,主要研究方向為大數(shù)據(jù)分析、機器學(xué)習(xí)與嵌入式軟件設(shè)計。