褚正清
(安徽新華學(xué)院 通識(shí)教育部,合肥 230088)
充分利用數(shù)字化教學(xué)資源,提升授課過(guò)程中課程直觀性,具有開(kāi)闊視野、增強(qiáng)學(xué)生思維能力的優(yōu)勢(shì)。數(shù)字化數(shù)學(xué)教學(xué)資源指針對(duì)數(shù)學(xué)課程所制定的數(shù)字化資源,學(xué)生學(xué)習(xí)數(shù)學(xué)課程時(shí)需具有較高的學(xué)習(xí)興趣。數(shù)學(xué)課堂教學(xué)的生動(dòng)性極為重要,對(duì)數(shù)學(xué)教學(xué)資源實(shí)施數(shù)字化處理,有助于提升數(shù)學(xué)教學(xué)質(zhì)量。聚類(lèi)算法是依據(jù)不同類(lèi)別事物所存在的相似性實(shí)施分類(lèi)的重要算法。聚類(lèi)算法又稱(chēng)為點(diǎn)群分析,依據(jù)待分類(lèi)事物間所存在的特征精準(zhǔn)分類(lèi)事物,屬于多元統(tǒng)計(jì)的重要方法。事物間存在特征類(lèi)別眾多,依據(jù)事物間所存在的特征,無(wú)須先驗(yàn)知識(shí)即可獲取分類(lèi)結(jié)果[1]。聚類(lèi)方法目前已廣泛應(yīng)用于社會(huì)學(xué)、教育學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等眾多領(lǐng)域中。
巴志超等人提出基于主題語(yǔ)義擴(kuò)展的混合類(lèi)型數(shù)字資源分類(lèi)方法[2],通過(guò)可行性分析對(duì)數(shù)字圖書(shū)館資源進(jìn)行特征提取,構(gòu)建語(yǔ)義主題模型進(jìn)行數(shù)字圖書(shū)館資源語(yǔ)義擴(kuò)展,實(shí)現(xiàn)數(shù)字資源自動(dòng)分類(lèi)。李植等人提出一種適于Docker容器資源控制的分類(lèi)預(yù)測(cè)方法,通過(guò)cgroups技術(shù)進(jìn)行Docker容器資源服務(wù)質(zhì)量分類(lèi),利用譜聚類(lèi)算法進(jìn)行容器資源使用次數(shù)預(yù)測(cè),實(shí)現(xiàn)有效容器資源。以上兩種方法分別針對(duì)數(shù)字資源以及容器資源分類(lèi)問(wèn)題進(jìn)行研究[2-3],并獲取較高的分類(lèi)效果,但以上方法應(yīng)用于數(shù)學(xué)教學(xué)資源中,分類(lèi)效果較差。
為此,提出一種基于兩步聚類(lèi)算法的數(shù)字化數(shù)學(xué)教學(xué)資源歸并分類(lèi)方法。提取數(shù)字化數(shù)學(xué)教學(xué)資源特征,依據(jù)所提取特征利用兩步聚類(lèi)算法對(duì)資源實(shí)施歸并分類(lèi)。特征提取可將具有較高維度的數(shù)字化數(shù)學(xué)教學(xué)資源降低至較低維度中,依據(jù)固定變換規(guī)則,降低原始教學(xué)資源數(shù)據(jù)維數(shù),為后續(xù)數(shù)字化數(shù)學(xué)教學(xué)資源的精準(zhǔn)歸并分類(lèi)提供數(shù)據(jù)技術(shù)。通過(guò)實(shí)驗(yàn)驗(yàn)證采用該方法對(duì)數(shù)字化教學(xué)資源實(shí)施歸并分類(lèi)具有較高有效性,可應(yīng)用于數(shù)字化教學(xué)資源歸并分類(lèi)實(shí)際應(yīng)用中。
數(shù)字化數(shù)學(xué)教學(xué)資源應(yīng)用過(guò)程中,隨著教學(xué)課程課時(shí)增加,資源數(shù)據(jù)呈增量發(fā)展趨勢(shì)。提取數(shù)字化數(shù)學(xué)教學(xué)資源特征過(guò)程中,應(yīng)同時(shí)考慮新增數(shù)據(jù)以及歷史數(shù)據(jù),基于全局角度實(shí)現(xiàn)特征提取,避免忽略資源中所蘊(yùn)含的隱藏信息。采用自適應(yīng)滑動(dòng)窗口互信息方法處理數(shù)字化數(shù)學(xué)教學(xué)資源的歷史數(shù)據(jù)以及增量數(shù)據(jù),實(shí)現(xiàn)數(shù)字化數(shù)學(xué)教學(xué)資源特征提取。
用矩陣X1=[x1,x2,…,xm]表示原始窗口數(shù)據(jù),矩陣X2=[xm+1,xm+2,…,xm+r]表示增量窗口數(shù)據(jù);數(shù)字化數(shù)學(xué)教學(xué)資源中所包含全部數(shù)據(jù)用X=[X1,X2]表示;Z1與Z2分別表示數(shù)字化數(shù)學(xué)教學(xué)資源原始窗口數(shù)據(jù)以及新增窗口數(shù)據(jù)的互信息矩陣;Z表示全部數(shù)字化數(shù)學(xué)教學(xué)資源樣本的互信息矩陣。
依據(jù)互信息定義可得互信息矩陣表達(dá)式如下:
(1)
對(duì)角化處理利用單位陣表示Z1的特征分解公式如下:
(2)
利用G1所張成的空間接收Z(yǔ)2的投影,可得公式如下:
(3)
求公式(1)與公式(2)之和可得:
(4)
(5)
將公式(5)代入公式(4),獲取表達(dá)式如下:
(6)
通過(guò)以上過(guò)程即可獲取全部數(shù)字化數(shù)學(xué)教學(xué)資源特征分解結(jié)果。
通過(guò)公式(2)可知:
(7)
公式(7)中,Λ1∈Rm×k與B1∈Rn×k分別表示數(shù)量為前k個(gè)特征值所組成的矩陣以及原始數(shù)字化數(shù)學(xué)教學(xué)資源主成分決策矩陣。
通過(guò)以上過(guò)程獲取新增窗口數(shù)據(jù)互信息矩陣的特征值Λ2以及特征向量P2,且Λ2=[μ1,μ2,…,μn],P2=[β1,β2,…,βn]。
依據(jù)特征向量以及特征值獲取全部數(shù)字化數(shù)學(xué)教學(xué)資源樣本特征值公式如下:
(8)
公式(8)中,m表示歷史數(shù)字化數(shù)學(xué)教學(xué)資源樣本數(shù)據(jù);r表示新增數(shù)字化數(shù)學(xué)教學(xué)資源樣本數(shù)據(jù)。
可得數(shù)字化數(shù)學(xué)教學(xué)資源特征向量公式如下:
P=G1βi.
(9)
利用所獲取的特征向量建立主成分決策矩陣,將數(shù)字化數(shù)學(xué)教學(xué)資源映射至所建立的主成分決策矩陣即可實(shí)現(xiàn)數(shù)據(jù)降維[4]。后續(xù)窗口重復(fù)迭代以上過(guò)程實(shí)現(xiàn)全部數(shù)字化數(shù)學(xué)教學(xué)資源樣本特征提取。
兩步聚類(lèi)算法主要包括構(gòu)建特征樹(shù)以及層次凝聚算法分組兩部分。
(1)構(gòu)建特征樹(shù)。利用所提取的數(shù)字化數(shù)學(xué)教學(xué)資源樣本特征構(gòu)建特征樹(shù)。依據(jù)所設(shè)定固定順序掃描數(shù)字化數(shù)學(xué)教學(xué)資源全部樣本數(shù)據(jù)特征,完成掃描后確定數(shù)據(jù)類(lèi)別以及不同類(lèi)別中心,將待分類(lèi)數(shù)字化數(shù)學(xué)教學(xué)資源依據(jù)固定標(biāo)準(zhǔn)劃分至不同類(lèi)別中,以上過(guò)程即建立特征樹(shù)的過(guò)程[5]。所構(gòu)建特征樹(shù)利用葉節(jié)點(diǎn)根部存儲(chǔ)數(shù)字化數(shù)學(xué)教學(xué)資源觀測(cè)量,所包含變量信息均通過(guò)葉節(jié)點(diǎn)體現(xiàn)。將已存在節(jié)點(diǎn)以及后續(xù)觀測(cè)量利用相似性測(cè)度對(duì)比,比較結(jié)果為相似時(shí),將相似觀測(cè)樣本加入現(xiàn)有節(jié)點(diǎn)中;比較結(jié)果為不相似時(shí),在特征樹(shù)中建立新節(jié)點(diǎn),直至全部數(shù)字化數(shù)學(xué)教學(xué)資源數(shù)據(jù)比較完成,實(shí)現(xiàn)特征樹(shù)構(gòu)建。
(2)特征樹(shù)葉節(jié)點(diǎn)分組。選取層次凝聚算法分組所構(gòu)建特征樹(shù)葉節(jié)點(diǎn),算法運(yùn)算過(guò)程通過(guò)歐式平方距離的平方根實(shí)現(xiàn)連續(xù)變量測(cè)度,歐式距離度量公式:
(10)
連續(xù)變量以及分類(lèi)變量的處理利用似然對(duì)數(shù)距離實(shí)現(xiàn),似然對(duì)數(shù)距離是基于距離所獲取的概率值。似然對(duì)數(shù)在不同類(lèi)別合并為相同類(lèi)別時(shí)有所降低,不同類(lèi)別間距離有所變化。
連續(xù)變量以及分類(lèi)變量在似然對(duì)數(shù)運(yùn)算過(guò)程中需符合正態(tài)分布以及多項(xiàng)式分布[6],采用似然對(duì)數(shù)距離應(yīng)用于數(shù)字化數(shù)學(xué)教學(xué)資源合并與分類(lèi)時(shí),設(shè)置不同變量均為獨(dú)立狀態(tài)。
定義類(lèi)別j與類(lèi)別s間距離d(j,s)表達(dá)式如下:
d(j,s)=xj+xS-x〈j,.s〉.
(11)
公式(11)中,〈j,s〉表示通過(guò)歸并處理所獲取的類(lèi)別。
利用BIC判據(jù)以上過(guò)程的分類(lèi)運(yùn)算結(jié)果,初始估計(jì)所獲取分類(lèi)數(shù)量。初始分類(lèi)中最為相近的兩種類(lèi)比間,存在最大增長(zhǎng)距離的聚類(lèi)數(shù)即最終聚類(lèi)數(shù)量。
用R表示聚類(lèi)數(shù)量,可得最終歸并分類(lèi)計(jì)算公式如下:
(12)
(13)
以上公式中,HA與N分別表示歸并分類(lèi)過(guò)程中連續(xù)變量總數(shù)量以及觀測(cè)量總數(shù)量,mj表示葉節(jié)點(diǎn)數(shù)量,LH與HB分別表示待分類(lèi)數(shù)字化數(shù)學(xué)教學(xué)資源歸并分類(lèi)第k個(gè)變量編號(hào)以及歸并分類(lèi)過(guò)程中所采用全部分類(lèi)變量總數(shù)量。
選取某高校數(shù)理學(xué)院數(shù)字化數(shù)學(xué)教學(xué)資源作為實(shí)驗(yàn)對(duì)象,所采集數(shù)字化數(shù)學(xué)教學(xué)資源大小為5.98 GB,采用兩步聚類(lèi)算法的數(shù)學(xué)教學(xué)資源歸并分類(lèi)方法對(duì)所采集數(shù)字化數(shù)學(xué)教學(xué)資源實(shí)施歸并分類(lèi),驗(yàn)證此方法歸并分類(lèi)結(jié)果。
設(shè)置數(shù)字化教學(xué)數(shù)學(xué)資源作為測(cè)試變量,采用BIC結(jié)果確定最佳分類(lèi),BIC自動(dòng)聚類(lèi)結(jié)果如表1所示。
表1 自動(dòng)聚類(lèi)結(jié)果
通常情況下,通過(guò)聚類(lèi)算法所獲取的BIC值越小,表示該聚類(lèi)算法聚類(lèi)性能越優(yōu),所生成聚類(lèi)數(shù)據(jù)質(zhì)量最高。通過(guò)表1可以看出,聚類(lèi)數(shù)量提升時(shí),所獲取BIC值有所降低,因此需衡量距離測(cè)量比以及BIC變化率決定最佳聚類(lèi)數(shù)量。聚類(lèi)測(cè)量比結(jié)果較高,且BIC變化率同樣較高時(shí),該聚類(lèi)方案為最佳。表1實(shí)驗(yàn)結(jié)果可以看出,所獲取聚類(lèi)類(lèi)別為4類(lèi)時(shí),通過(guò)聚類(lèi)所獲取聚類(lèi)測(cè)量比最高,同時(shí)BIC變化率最高。因此將數(shù)字化數(shù)學(xué)教學(xué)資源分為4類(lèi)。
選取文獻(xiàn)[5]方法以及文獻(xiàn)[6]方法作為對(duì)比方法,不同方法對(duì)數(shù)字化數(shù)學(xué)教學(xué)資源歸并分類(lèi)結(jié)果如表2所示。
表2 不同方法歸并分類(lèi)結(jié)果
由表2可以看出,采用三種方法均可實(shí)現(xiàn)數(shù)字化數(shù)學(xué)教學(xué)資源的有效分類(lèi)。采用兩步聚類(lèi)算法的數(shù)學(xué)教學(xué)資源歸并分類(lèi)方法依據(jù)BIC變化率以及距離測(cè)量比結(jié)果,將數(shù)字化數(shù)學(xué)教學(xué)資源分為4類(lèi),各類(lèi)分別占總數(shù)的30.6%、35.6%、15.2%以及18.6%。
統(tǒng)計(jì)不同窗口大小時(shí),三種方法對(duì)數(shù)字化數(shù)學(xué)教學(xué)資源的歸并分類(lèi)效率,對(duì)比結(jié)果如圖1所示。
圖1 窗口大小對(duì)歸并分類(lèi)效率的影響
由圖1可以看出,不同方法歸并分類(lèi)數(shù)字化數(shù)學(xué)教學(xué)資源的運(yùn)行時(shí)間隨著窗口大小增加呈下降趨勢(shì);窗口大小高于600時(shí),不同方法歸并分類(lèi)數(shù)字化數(shù)學(xué)教學(xué)資源運(yùn)行時(shí)間有所提升。主要原因是運(yùn)算窗口過(guò)小時(shí),方法需從緩沖區(qū)域提取數(shù)據(jù),占用過(guò)多時(shí)間;運(yùn)行窗口大小過(guò)大時(shí),提升了數(shù)字化數(shù)學(xué)教學(xué)資源特征分解時(shí)間。因此窗口區(qū)間處于300~600時(shí),數(shù)字化數(shù)學(xué)教學(xué)資源歸并分類(lèi)效率最佳。相比于另兩種方法,兩步聚類(lèi)算法的數(shù)學(xué)教學(xué)資源歸并分類(lèi)方法的歸并分類(lèi)效率在不同窗口大小時(shí)均為最高,說(shuō)明該方法歸并分類(lèi)運(yùn)算效率高于另兩種方法。
采用常應(yīng)用于歸并分類(lèi)中的評(píng)價(jià)指標(biāo)查全度、準(zhǔn)確度以及F1估計(jì)值評(píng)價(jià)不同方法歸并數(shù)字化數(shù)學(xué)教學(xué)資源分類(lèi)準(zhǔn)確率。歸并分類(lèi)應(yīng)用中,F(xiàn)1估計(jì)值高于90%時(shí),表示該方法具有較高的歸并分類(lèi)效率。統(tǒng)計(jì)采用兩步聚類(lèi)算法的歸并分類(lèi)數(shù)字化數(shù)學(xué)教學(xué)資源的歸并分類(lèi)性能,統(tǒng)計(jì)結(jié)果如表3所示。
表3 歸并分類(lèi)性能統(tǒng)計(jì)結(jié)果
表3實(shí)驗(yàn)結(jié)果可以看出,采用兩步聚類(lèi)算法的歸并分類(lèi)數(shù)字化數(shù)學(xué)教學(xué)資源的準(zhǔn)確度以及查全度均高于98%; F1估計(jì)值均高于93%。統(tǒng)計(jì)結(jié)果有效驗(yàn)證此方法具有較高的歸并分類(lèi)性能,具有較高準(zhǔn)確率,應(yīng)用性較高。
將兩步聚類(lèi)算法應(yīng)用于數(shù)字化數(shù)學(xué)教學(xué)資源歸并分類(lèi)中,利用兩步聚類(lèi)算法所具有的海量樣本聚類(lèi)性能,提升數(shù)字化數(shù)學(xué)教學(xué)資源歸并分類(lèi)有效性,具有優(yōu)秀的運(yùn)算連續(xù)變量以及離散變量能力,智能性高,具有分類(lèi)嚴(yán)謹(jǐn)、操作簡(jiǎn)便的優(yōu)勢(shì)。①效率最高僅為250 ms。②準(zhǔn)確率均值為98.78%,查全度均值為99.06%,F(xiàn)1估計(jì)均值為95.54%。
這說(shuō)明所提出來(lái)的歸并分類(lèi)有效性較高,處理海量數(shù)字化數(shù)學(xué)教學(xué)資源時(shí),處理可靠性高,可在數(shù)字化數(shù)學(xué)教學(xué)資源歸并分類(lèi)中發(fā)揮重要作用,取代以往人工歸并分類(lèi)的低效率方法。