• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于系統(tǒng)聚類的電子作業(yè)不誠信行為識(shí)別研究

      2022-05-30 10:48:04余婉風(fēng)許夢吳明濤
      電腦知識(shí)與技術(shù) 2022年21期
      關(guān)鍵詞:R語言

      余婉風(fēng) 許夢 吳明濤

      摘要:針對《應(yīng)用統(tǒng)計(jì)學(xué)與R語言建模》實(shí)驗(yàn)教學(xué)的實(shí)際情況,總結(jié)實(shí)驗(yàn)環(huán)節(jié)中遇到的問題,提出了應(yīng)用統(tǒng)計(jì)分析實(shí)驗(yàn)應(yīng)與教學(xué)和實(shí)際生活相結(jié)合、增加趣味性、降低理解難度的觀點(diǎn)。基于課程改革的要求,重新設(shè)計(jì)和優(yōu)化實(shí)驗(yàn),以系統(tǒng)聚類為例,取得了較好的實(shí)驗(yàn)效果。

      關(guān)鍵詞:博思平臺(tái);電子作業(yè);系統(tǒng)聚類;R語言

      中圖分類號:TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號:1009-3044(2022)21-0023-03

      開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

      1 引言

      《應(yīng)用統(tǒng)計(jì)學(xué)與R語言建?!氛n程采用線上+線下結(jié)合的方式,在博思平臺(tái)發(fā)布作業(yè),學(xué)生提交Word文檔形式的電子作業(yè)。由于部分學(xué)生數(shù)理知識(shí)薄弱,對應(yīng)用統(tǒng)計(jì)學(xué)方法理解困難,不能靈活運(yùn)用,且大二學(xué)生幾乎都缺乏數(shù)據(jù)分析經(jīng)驗(yàn),所以博思平臺(tái)收集的電子作業(yè)經(jīng)常出現(xiàn)集中抄襲等不誠信行為,參考博思平臺(tái)排查不誠信行為的功能和排查結(jié)果,本著讓實(shí)驗(yàn)案例盡量貼近實(shí)際學(xué)習(xí)生活、增加趣味性的原則,將應(yīng)用統(tǒng)計(jì)學(xué)方法應(yīng)用到識(shí)別電子作業(yè)不誠信行為中,重新設(shè)計(jì)實(shí)驗(yàn)。

      2 實(shí)驗(yàn)設(shè)計(jì)

      2.1 實(shí)驗(yàn)課題

      實(shí)驗(yàn)課題為“聚類分析在博思平臺(tái)電子作業(yè)不誠信行為識(shí)別中的應(yīng)用”,以培養(yǎng)學(xué)生提高應(yīng)用統(tǒng)計(jì)學(xué)應(yīng)用水平和編程實(shí)踐能力為實(shí)驗(yàn)?zāi)康?,貼近學(xué)生的學(xué)習(xí)生活,鍛煉學(xué)生數(shù)據(jù)分析能力。

      2.2 實(shí)驗(yàn)工具

      目前常用的統(tǒng)計(jì)分析軟件有Excel、SPSS、MATLAB、Python和R等,本課程實(shí)踐課以R/Rstudio軟件為實(shí)驗(yàn)工具,在實(shí)驗(yàn)過程中利用R語言免費(fèi)、開源包含眾多統(tǒng)計(jì)分析方法內(nèi)置函數(shù)和強(qiáng)大的繪圖功能等特點(diǎn),將抽象的統(tǒng)計(jì)方法可視化,促進(jìn)學(xué)生對統(tǒng)計(jì)方法的理解,提高學(xué)生學(xué)習(xí)效率[1]。

      2.3 數(shù)據(jù)來源

      從博思平臺(tái)教學(xué)班級中導(dǎo)出前面某一次全班電子作業(yè)壓縮包,在教師機(jī)利用紅蜘蛛傳輸給每一臺(tái)學(xué)生機(jī)?;趯W(xué)生缺乏數(shù)據(jù)分析基礎(chǔ),實(shí)驗(yàn)開始之前引導(dǎo)學(xué)生從Word版本的電子作業(yè)中提取有用信息。首先,分析常見的作業(yè)不誠信行為形式,有些同學(xué)直接將其他同學(xué)的文檔拿過來改成自己的文件名提交,另外一些同學(xué)是在其他同學(xué)的文檔上做極小面積改動(dòng)、提交,基于常見的兩種集中作弊形式,建議學(xué)生提取“文件內(nèi)存大小”指標(biāo)。接下來,由學(xué)生自己思考,提取更多有效指標(biāo),如“字符數(shù)”“段落數(shù)”“圖片數(shù)量”和“圖片大小”等,構(gòu)成識(shí)別電子作業(yè)不誠信行為的評價(jià)體系,制成Excel表格。

      針對課程教學(xué)過程中的教學(xué)和實(shí)驗(yàn)案例,授課老師往往會(huì)提煉好數(shù)據(jù)發(fā)給學(xué)生,導(dǎo)致學(xué)生忽略掉收集數(shù)據(jù)的重要性。讓學(xué)生自己學(xué)會(huì)從電子作業(yè)Word文檔提取數(shù)據(jù)形成有效評價(jià)指標(biāo)是這個(gè)實(shí)驗(yàn)的特色和難點(diǎn)。90分鐘的實(shí)驗(yàn)時(shí)間內(nèi)要求學(xué)生在前45分鐘從全班57份電子作業(yè)中提取數(shù)據(jù),這對于缺乏數(shù)據(jù)采集經(jīng)驗(yàn)的學(xué)生來說,是一個(gè)較大的工作量,所以本次實(shí)驗(yàn)采取分組完成的形式,分成28組,表1是其中某一組學(xué)生收集的數(shù)據(jù)。

      2.4 聚類方法之系統(tǒng)聚類

      《應(yīng)用統(tǒng)計(jì)學(xué)與R語言建?!氛n程學(xué)習(xí)兩種聚類方法:快速聚類(Kmeans聚類)和系統(tǒng)聚類,根據(jù)聚類對象又分成Q型聚類和R型聚類[2],R軟件及其相關(guān)軟件包提供了相應(yīng)的聚類函數(shù)[3]??焖倬垲惒恍枰?jì)算類別之間的距離,相對計(jì)算量較小,比系統(tǒng)聚類更適合大樣本數(shù)據(jù)。這里只有57個(gè)樣本,對樣本進(jìn)行分類,這里采用Q型系統(tǒng)聚類,畫出譜系圖。

      (1)將數(shù)據(jù)讀取成數(shù)據(jù)框,綁定數(shù)據(jù)即定義各變量,為了消除各變量數(shù)量級和量綱上的不同進(jìn)行標(biāo)準(zhǔn)化處理,R語言函數(shù)scale();

      (2)針對標(biāo)準(zhǔn)化之后的數(shù)據(jù)框,計(jì)算樣本兩兩之間的距離,R語言函數(shù)dist(數(shù)據(jù)框,method=“...”, ...),常用距離計(jì)算公式有歐式距離、Manhattan距離和Maximun距離等,分別用“euclidean”“maximum”“manhattan”表示;

      (3)每個(gè)樣本當(dāng)作一個(gè)類,即構(gòu)造n個(gè)類,每個(gè)類只包含一個(gè)樣本;

      (4)合并距離最近的兩個(gè)類為一個(gè)新類;

      (5)計(jì)算新類與當(dāng)前各類兩兩之間的距離,類間距常用計(jì)算方法有最短距離法、最長距離法和重心法等[4-5]。將間距最小的兩個(gè)類合并,重復(fù)(4)(5)操作,直到類個(gè)數(shù)為1;

      最短距離法:兩個(gè)簇最近樣本之間的距離。如圖1所示,兩個(gè)簇內(nèi)有多個(gè)樣本,利用樣本間距計(jì)算公式如歐式距離計(jì)算不同簇內(nèi)樣本兩兩之間的距離,選擇最短距離作為簇間距。

      最長距離法:兩個(gè)簇最遠(yuǎn)樣本之間的距離。利用歐式距離計(jì)算不同簇內(nèi)樣本兩兩之間的距離,選擇最長距離作為簇間距。

      重心法:兩個(gè)簇中點(diǎn)之間的距離。如圖2所示計(jì)算兩個(gè)簇的重心(即該簇樣本的均值),利用樣本計(jì)算公式如歐式距離計(jì)算重心之間的距離作為簇間距。

      R語言系統(tǒng)聚類函數(shù)hclust(dist(A),method="...", ...),其中A是標(biāo)準(zhǔn)化之后的數(shù)據(jù)框,method是系統(tǒng)聚類簇間距計(jì)算方法,最短距離法、最長距離法和重心法分別表示為single、complete和centroid。

      (6)畫出聚類譜系圖。

      (7)決定類的個(gè)數(shù),確定每個(gè)類別中的樣本[6]。

      2.5實(shí)驗(yàn)結(jié)果

      系統(tǒng)聚類譜系圖如圖3所示,評價(jià)體系包含六個(gè)指標(biāo),譜系圖可以將多維空間表達(dá)在二維空間中,非常直觀地表達(dá)出分類系統(tǒng)。左邊的“Height”權(quán)值即距離,距離越小,相似度越大,通過對比權(quán)值,定量分析樣本相似度大小,如學(xué)生方*雨和洪*成的權(quán)值很小即這兩個(gè)樣本距離很近,說明相似度很高,可以判定這兩位學(xué)生本次作業(yè)中存在不誠信行為。從譜系圖中明顯能夠看出大部分學(xué)生的電子作業(yè)互相之間的相似度很高,該次電子作業(yè)存在明顯的抄襲情況。

      畫出譜系圖以后,參考博思平臺(tái)“團(tuán)伙作案”判定結(jié)果,分11個(gè)類別,如圖4和表2所示。

      根據(jù)分類結(jié)果,如果類里面只有一個(gè)樣本則該同學(xué)可以排除參與集中作弊的嫌疑,如毛*雨和黃*凡。最后,學(xué)生撰寫數(shù)據(jù)分析文檔作為本次實(shí)驗(yàn)報(bào)告,利用紅蜘蛛提交,教師機(jī)收集到28份實(shí)驗(yàn)報(bào)告。實(shí)驗(yàn)過程中,學(xué)生注意力集中,所有學(xué)生都能參與進(jìn)去,實(shí)驗(yàn)完成以后,各小組之間分享實(shí)驗(yàn)結(jié)果,氣氛歡快。

      3 教學(xué)效果

      從教務(wù)系統(tǒng)導(dǎo)出《應(yīng)用統(tǒng)計(jì)學(xué)與R語言建?!穼?shí)踐課程“平均成績”和“教學(xué)滿意度”兩個(gè)教學(xué)質(zhì)量維度來評價(jià)過去四屆學(xué)生對本課程的滿意程度,如表3所示。

      隨著課程改革實(shí)施過程中教學(xué)材料不斷積累、教學(xué)實(shí)驗(yàn)不斷優(yōu)化,教學(xué)滿意程度明顯上升,證實(shí)了課程改革的必要性??偨Y(jié)本次實(shí)踐課教學(xué)經(jīng)驗(yàn),實(shí)驗(yàn)報(bào)告應(yīng)要求學(xué)生撰寫完整的數(shù)據(jù)分析報(bào)告;實(shí)驗(yàn)案例盡量貼近學(xué)生的學(xué)習(xí)生活,增加趣味性;提高學(xué)生利用R語言實(shí)現(xiàn)應(yīng)用統(tǒng)計(jì)方法的同時(shí)要強(qiáng)調(diào)原始數(shù)據(jù)的重要性,讓學(xué)生自主獲取數(shù)據(jù),培養(yǎng)學(xué)生數(shù)據(jù)采集的能力。

      4 結(jié)束語

      通過上述系統(tǒng)聚類的具體實(shí)驗(yàn)案例,充分將R語言引入到應(yīng)用統(tǒng)計(jì)學(xué)的實(shí)踐教學(xué)中。設(shè)計(jì)貼合生活的案例,有助于學(xué)生對應(yīng)用統(tǒng)計(jì)學(xué)理論知識(shí)的理解,激發(fā)學(xué)習(xí)興趣,教會(huì)學(xué)生如何使用應(yīng)用統(tǒng)計(jì)分析方法,達(dá)到學(xué)以致用的教學(xué)效果。

      參考文獻(xiàn):

      [1] 黎中彥,陳建超.R語言在《應(yīng)用多元統(tǒng)計(jì)分析》教學(xué)中的應(yīng)用[J].大眾科技,2020,22(9):120-123.

      [2] 吳海建.多元統(tǒng)計(jì)的聚類分析方法及應(yīng)用[J].河南省情與統(tǒng)計(jì),2003(3):34-35.

      [3] 賈俊平.統(tǒng)計(jì)學(xué)基于R應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2014.

      [4] 王懷亮.R軟件在系統(tǒng)聚類分析中的應(yīng)用[J].合作經(jīng)濟(jì)與科技,2011(14):126-127.

      [5] 安尼卡爾·艾斯卡爾,祖來克孜·米吉提.系統(tǒng)聚類法及其應(yīng)用研究[J].價(jià)值工程,2019,38(17):254-258.

      [6] 王斌會(huì).多元統(tǒng)計(jì)分析及R語言建模[M].4版.廣州:暨南大學(xué)出版社,2016.

      【通聯(lián)編輯:聞翔軍】

      猜你喜歡
      R語言
      基于Holt—Winters時(shí)間序列的圖書選題預(yù)測模型
      基于R語言的轎車銷量分析基于R語言的轎車銷量分析
      基于R語言時(shí)間序列的轎車銷量分析及預(yù)測
      R語言在統(tǒng)計(jì)分析中的使用技巧
      基于R語言的學(xué)生成績分析
      基于GPS軌跡數(shù)據(jù)進(jìn)行分析改善城市交通擁擠
      基于R語言的Moodle平臺(tái)數(shù)據(jù)挖掘技術(shù)的研究
      基于R語言的湖南產(chǎn)業(yè)結(jié)構(gòu)對其經(jīng)濟(jì)增長貢獻(xiàn)分析
      商(2016年24期)2016-07-20 08:03:39
      注重統(tǒng)計(jì)思維培養(yǎng)與應(yīng)用為主導(dǎo)的生物統(tǒng)計(jì)學(xué)課程建設(shè)
      考試周刊(2016年15期)2016-03-25 04:09:43
      人民幣匯率的均值回復(fù)檢驗(yàn)及Hurst指數(shù)計(jì)算
      盐边县| 静安区| 曲周县| 孝昌县| 无棣县| 电白县| 阜新市| 定南县| 德昌县| 兰州市| 滦南县| 芷江| 嵊泗县| 秭归县| 寿光市| 苍山县| 洛隆县| 昆明市| 赫章县| 镇巴县| 铜川市| 延长县| 德钦县| 渝中区| 定边县| 洛隆县| 大洼县| 阳曲县| 香格里拉县| 麻栗坡县| 新和县| 筠连县| 长丰县| 涿州市| 监利县| 麟游县| 且末县| 阳高县| 揭阳市| 武川县| 龙江县|