梁斌 陳家湖 馮曉鋒 周富肯
摘 ?要:查重抄襲分析是在計算機系教學領(lǐng)域中尤為重要的一個研究支線,近年來,越來越多計算機門類的教評工作者采取了線上批改方案以此進行教學工作的展開,故代碼的查重抄襲分析工作開始逐步成為了業(yè)內(nèi)焦點,由此引申出的分析模型系統(tǒng)自然備受矚目,目的是為每一名使用者完成其自身獨立的數(shù)據(jù)模型構(gòu)建,產(chǎn)出相對便利教學工作的優(yōu)勢輸出。本文將對目前主要查重以及抄襲分析的研究方向,應(yīng)用等方面進行展開討論,通過比較和分析的手法完成查重分析目前的應(yīng)用趨勢以及未來展望。
關(guān)鍵詞:查重;抄襲分析;數(shù)據(jù)模型;類比分析;綜述;性質(zhì)
1 數(shù)據(jù)模型及公式
抄襲檢測分析系統(tǒng)中,使用者的數(shù)據(jù)內(nèi)容主要有以下幾點,提交人的學號,學生姓名,提交時間,成功提交題目數(shù)量,總得分,代碼內(nèi)容等。由此完成抄襲檢測抄襲分析的首要工作。每一位使用者錄入的數(shù)據(jù)模型不盡相同,故此將會根據(jù)每人相應(yīng)的數(shù)據(jù)內(nèi)容得出不同的分析數(shù)據(jù),但這份分析報告也并非為獨立個體,將會劃分入統(tǒng)計系統(tǒng)中,以直觀圖表形式顯示。上述討論為分析的基本信息,當然對于使用者數(shù)據(jù)部分不僅于此,根據(jù)不同試題提交時間的不同,可以對每一道題目進行時間間隔的分類管理,從而得出這一題的大致耗時為多久,同時計算成功提交題目的數(shù)量,計算在相應(yīng)時間間隔中,一次即提交成功的題目數(shù)量占比為多少,這些使用者的數(shù)據(jù)皆能良好反應(yīng)抄襲率的起伏變化。同時代碼內(nèi)容的錄入也能夠成為抄襲分析的數(shù)據(jù)支撐量,從而在頁面上精準顯示相應(yīng)的計算分析內(nèi)容,使得教評工作人員直觀得出需求數(shù)據(jù)。
對于一個學生來說,該名學生的平均查重率 為
學生的抄襲率 為
在不同的課程中有不同的題型,對于選擇填空這種有固定答案的題目,要將分數(shù)權(quán)重控制在20%以內(nèi),著重分析編程題這種不止一種寫法的題目情況。
一個學生在一次題目集的作業(yè)中的分數(shù)score為
2 抄襲分析的具體實現(xiàn)
抄襲分析是為了找出那些學習編程只是為了應(yīng)付作業(yè),敷衍了事的學生。在進行分析之前,我們要分析下這類的學生學習習慣。一般來說,對于認真學習的學生的定義是在老師布置好作業(yè)后,會第一時間去完成作業(yè),會對學習抱有熱情,這樣的學生在代碼提交平臺上的具體表現(xiàn)就是會大量的做編程題目,對于一些難題會出現(xiàn)多次提交,但是不會是一次就得到正確答案的。而對于敷衍了事的學生,老師布置的作業(yè)從來都是漠不關(guān)心,甚至很多時候都會拖到最后時刻逼不得已才去做的。只要抓住這種學生的做作業(yè)習慣很容易可以推斷出實行抄襲的學生的作業(yè)特點為:
(1)作業(yè)提交的時間接近作業(yè)提交的截止時間。
(2)編程作業(yè)的代碼的查重率會非常高。
(3)在短時間內(nèi)多次提交作業(yè),并且連續(xù)提交的通過率接近甚至等于100%。
抓住以上的三個特點就可以容易的指定出一條篩選抄襲作業(yè)的學生的規(guī)則,對于第一個提交時間接近截至時間,我們選擇忽視掉,因為每個人的學習時間都不是固定的,作業(yè)晚提交也不能說他抄襲作業(yè)。
進行抄襲分析主要通過特點2和特點3來進行篩選:
對于一個學生,首先利用代碼提交表查找這個學生在這次作業(yè)中提交正確的題目,然后根據(jù)查重表找出這些題目查重率是100%的題目(查重率100%不代表這個人是抄襲的,因為對于某些題目的解題方法都存在相同的解法)。找出查重率為100%的題目后,根據(jù)提交時間將這些題目進行排序,如果相鄰的兩個題目在短時間內(nèi)(10分鐘到30分鐘)進行提交并且一次就通過了,那么的話這個學生的做的這個題目就很大概率是抄襲的,這個短時間在不同的難度的作業(yè)應(yīng)該是可以進行適當?shù)倪M行改變,對于大多數(shù)的題目來說,經(jīng)過多次實驗短時間內(nèi)的時間設(shè)置在15分鐘內(nèi)最為合適。
抄襲分析的結(jié)果與實際結(jié)果的誤差與誤差分析:
將實際手動進行篩選抄襲的題目與抄襲分析得出的結(jié)果進行比較后,兩者之間的誤差在10%以內(nèi),說明雖然實現(xiàn)的邏輯簡單但是得到的結(jié)果也是有效的。會得到這種效果的原因在于:
認真編程的學生通常會完成一道題目就會提交一次,出錯就會改進后再提交直到題目通過為止,而敷衍了事去抄襲作業(yè)提交的學生會從別人或者從網(wǎng)上得到答案后直接進行復(fù)制粘貼點擊提交就完成一道題目。這樣做得到的結(jié)果就是短時間內(nèi)產(chǎn)生大量的正確提交。然后這樣就會被我們設(shè)置的規(guī)則捕捉到,進而找出抄襲的題目。
之所以會產(chǎn)生10%以內(nèi)的誤差經(jīng)過分析得出的主要原因有一下幾點:
(1)在某些作業(yè)集中會存在個別題目十分簡單,這類題目的查重率會非常之高,此時設(shè)置的15分鐘的時間限制就會出現(xiàn)差錯。
(2)存在一些學生會將題目全部完成再進行提交。
3 結(jié)束語
隨著互聯(lián)網(wǎng)逐步跨越性發(fā)展,大數(shù)據(jù)時代的不斷深入,越來越多的高校采取了完全網(wǎng)絡(luò)化的課程方式,這種現(xiàn)象在計算機系學科中尤為突出,將網(wǎng)絡(luò)化以及數(shù)據(jù)化應(yīng)用于日常教學中,例如課程上的設(shè)置以及作業(yè)的安排。在這一背景趨勢下,題庫網(wǎng)站的出現(xiàn)成為了熱門焦點,其中抄襲查重分析的出現(xiàn)使得這一門類的學業(yè)輔助網(wǎng)站更添競爭力,擁有著更加廣闊的發(fā)展前景。據(jù)此基于本文的討論內(nèi)容我們可以輕易得出,目前的市場應(yīng)用場景處于一個穩(wěn)步上升期。我們在本文上述討論內(nèi)容中,介紹了查重的基本性質(zhì),分類,作用等,同時完成了代碼分析的數(shù)據(jù)處理工作詳述,構(gòu)建了用戶數(shù)據(jù)模型,完成更有效的精準分析工作,于此這一的工作我們期望更多同行研究人員能夠朝著這一方向開展更為詳盡的探討以及更為深入的研究。
參考文獻
[1] ?方興林.博弈論視野下大學生課程作業(yè)抄襲現(xiàn)象研究[J].《安慶師范學院學報:社會科學版》,2016,35(3期):128-130.
[2] ?何曉柯.大學生畢業(yè)論文抄襲現(xiàn)象透析及遏制對策[J].現(xiàn)代物業(yè)(中旬刊),2011:35-37.
[3] ?王明昊.程序代碼相似性檢測在論文抄襲判定中的應(yīng)用[J].計算機光盤軟件與應(yīng)用,2010:145-146.
[4] ?沈林.大學生作業(yè)抄襲現(xiàn)象的根源分析及解決思路探討[J].中國科技信息,2009(17):247-248.
[5] ?李書偉,王琪.大學生抄襲作業(yè)現(xiàn)象的分析探討[J].中國科技信息,2007:241+243.