易燦燦, 庹 帥, 涂 閃, 4, 張文濤
1. 武漢科技大學(xué)冶金裝備與控制技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室, 湖北 武漢 430081 2. 武漢科技大學(xué)湖北省機(jī)械傳動(dòng)與制造工程重點(diǎn)實(shí)驗(yàn)室, 湖北 武漢 430081 3. 武漢科技大學(xué)精密制造研究院, 湖北 武漢 430081 4. 廣西師范大學(xué)物理科學(xué)與技術(shù)學(xué)院, 廣西 桂林 541004 5. 桂林電子科技大學(xué)電子工程與自動(dòng)化學(xué)院, 廣西 桂林 541004
太赫茲THz(Terahertz)是電磁波中一個(gè)特殊的波段, 其頻率為0.1~10 THz, 波長(zhǎng)為0.03~3 mm, 位于毫米波和紅外波之間的特殊位置。 近年來(lái), 人們發(fā)現(xiàn)THz光譜具有反映物質(zhì)結(jié)構(gòu)的“指紋”特征[1], 在物質(zhì)鑒別分類和無(wú)損檢測(cè)領(lǐng)域具有廣泛應(yīng)用。 與X射線相比, 太赫茲輻射的能量很低, 不會(huì)由于電離而損壞被檢測(cè)的物質(zhì)[2], 在無(wú)損檢測(cè)方面具有很大的潛力。 施衛(wèi)[3]等搭建了一套THz時(shí)域光譜測(cè)量系統(tǒng), 用來(lái)對(duì)微量活細(xì)胞進(jìn)行檢測(cè), 為活性生物大分子或組織的檢測(cè)奠定了基礎(chǔ)。 饒近秋[4]等利用太赫茲時(shí)域光譜技術(shù)對(duì)中藥進(jìn)行了無(wú)損檢測(cè), 實(shí)現(xiàn)了炮制品、 偽造品以及正品中藥的定性識(shí)別。 楊帆[5]等將太赫茲時(shí)域光譜技術(shù)與有效介質(zhì)理論結(jié)合起來(lái), 實(shí)現(xiàn)了對(duì)皮膚水分含量的變化的準(zhǔn)確評(píng)估, 為太赫茲皮膚燒傷和皮膚疾病檢測(cè)提供理論支撐。 除此之外, 太赫茲時(shí)域光譜技術(shù)還應(yīng)用于農(nóng)產(chǎn)品中農(nóng)藥的安全檢測(cè)[6]以及人體癌變細(xì)胞或組織的檢測(cè)[7]等。
相對(duì)于傳統(tǒng)的棉花種子, 轉(zhuǎn)基因棉花種子具有抗蟲、 抗旱、 產(chǎn)量高等優(yōu)點(diǎn)。 運(yùn)用太赫茲時(shí)域光譜技術(shù)實(shí)現(xiàn)對(duì)不同類型的轉(zhuǎn)基因棉花種子進(jìn)行識(shí)別, 能夠根據(jù)種植環(huán)境的不同選擇合適的棉花種子, 以此來(lái)提高棉花的產(chǎn)量。 在轉(zhuǎn)基因棉花種子的鑒別方面, Qin[8]等提出一種結(jié)合支持向量機(jī)(support vector machine, SVM)和多種群遺傳算法(multi-population genetic algorithm, MPGA)的轉(zhuǎn)基因棉花種子的鑒定方法。 陳濤[9]等提出一種布谷鳥搜索算法優(yōu)化支持向量機(jī)的轉(zhuǎn)基因產(chǎn)品鑒別方法。 Liu[10]等建立了一種基于太赫茲頻譜的改進(jìn)決策支持向量機(jī)(decision support vector machine, DSVM)模式識(shí)別模型。 首先, 通過(guò)因子分析(factor analysis, FA)對(duì)原始太赫茲光譜數(shù)據(jù)進(jìn)行降維, 提取數(shù)據(jù)特征; 然后, 將選擇的特征光譜數(shù)據(jù)輸入到DSVM模型中, 成功識(shí)別預(yù)測(cè)樣本。 現(xiàn)有的對(duì)轉(zhuǎn)基因棉花種子的太赫茲光譜識(shí)別主要是通過(guò)主成分分析(principal component analysis , PCA)和SVM來(lái)實(shí)現(xiàn)的, 雖然取得了一定的效果, 但是也存在一些不足。 例如, SVM作為一種適合小樣本的學(xué)習(xí)方法, 核參數(shù)的正確選擇對(duì)最終結(jié)果的影響很大。 而PCA作為一種常用的線性降維方法, 用其累計(jì)方差貢獻(xiàn)率最大的幾個(gè)成分去解釋全體樣本, 往往存在一定的偶然性, 而且忽略掉的成分往往包含著反映樣本特征的重要信息。 針對(duì)以上不足, 本文提出均勻流形逼近與投影(uniform manifold approximation and projection, UMAP)輔助的模糊C聚類方法, 實(shí)現(xiàn)對(duì)不同類型的轉(zhuǎn)基因棉花種子的判別。
區(qū)別于常用的降維方法如PCA[11]、 局部線性嵌入(local linear embedding, LLE)[12]、 局部保持投影(local preserving projection, LPP)[13], 均勻流形逼近與投影(uniform manifold approximation and projection , UMAP)是一種新的流形學(xué)習(xí)技術(shù)[14], 其利用局部流形逼近和局部模糊單純形集表示來(lái)構(gòu)造高維數(shù)據(jù)的拓?fù)浔硎尽?在低維空間中, 其優(yōu)化數(shù)據(jù)的低維空間布局, 使高維和低維兩個(gè)拓?fù)浔硎局g的交叉熵最小。 UMAP不僅具有可視化的優(yōu)點(diǎn), 而且同時(shí)耗時(shí)短、 對(duì)嵌入維數(shù)沒(méi)有限制, 可以擴(kuò)展到更大的維度的數(shù)據(jù)集。
傳統(tǒng)的模糊C聚類方法(Fuzzy C-clustering method, FCM)[15]在選擇聚類中心時(shí)沒(méi)有一個(gè)確定的標(biāo)準(zhǔn), 聚類中心往往隨機(jī)選定。 當(dāng)選擇的初始聚類中心不合適時(shí), 其聚類結(jié)果可能出現(xiàn)局部最優(yōu)的現(xiàn)象, 從而使聚類產(chǎn)生錯(cuò)誤。 為此, 本文提出一種基于UMAP輔助的模糊C聚類算法, 首先采用UMAP對(duì)原始光譜數(shù)據(jù)矩陣進(jìn)行降維, 然后根據(jù)降維的結(jié)果進(jìn)行初始聚類中心的選取, 最后利用模糊C方法進(jìn)行聚類分析。 為了驗(yàn)證所提方法的可行性, 首先采用太赫茲時(shí)域光譜技術(shù)探測(cè)了四種類型不同的轉(zhuǎn)基因棉花種子, 獲得了四種轉(zhuǎn)基因棉花種子的太赫茲吸收光譜。 然后采用本文所提方法對(duì)吸光度光譜數(shù)據(jù)進(jìn)行聚類分析, 并與PCA, LLE和LPP等方法進(jìn)行對(duì)比, 研究結(jié)果表明本文提出的基于UMAP輔助的模糊C聚類算法在轉(zhuǎn)基因棉花種子的太赫茲光譜分類識(shí)別上具有很好的實(shí)用性。
太赫茲波是一種波長(zhǎng)在0.03~3 mm范圍內(nèi)的電磁波其對(duì)應(yīng)的頻率為0.1~10 THz。 為了分析太赫茲光譜數(shù)據(jù), 引入式(1)
(1)
式(1)中,G0(ω)是太赫茲參考信號(hào)的幅度,Gtrans(ω)是發(fā)射的太赫茲信號(hào)的幅度,φ(ω)是樣本和參考信號(hào)之間的相差,ω是太赫茲波振動(dòng)的角頻率。
材料的吸收系數(shù)定義為
(2)
式(2)中,b是表示材質(zhì)吸收的消光系數(shù),c是光速。
式(1)可以近似為
(3)
式(3)中,h為試樣厚度, 均為1 mm, 誤差小于0.05 mm。 材料的折射率z和吸收系數(shù)β可通過(guò)式(4)和式(5)獲得
(4)
(5)
UMAP算法分兩步進(jìn)行降維, 首先通過(guò)將相鄰多維值之間的差異轉(zhuǎn)換為權(quán)重, 生成多維結(jié)果的有偏k-近鄰圖; 然后優(yōu)化數(shù)據(jù)集維度的交叉熵。
輸入數(shù)據(jù)集X={x1,x2, …,xN},xi∈RM, 尋找其最優(yōu)低維表示Y={y1, …,yN∣yi∈Rk}。 UMAP降維分兩步進(jìn)行: (1)在高維空間中構(gòu)造一個(gè)特定的加權(quán)k近鄰圖; (2)計(jì)算該圖的低維布局。
高維空間中, 設(shè)X={x1, …,xN}為輸入數(shù)據(jù)集, 帶有一個(gè)度量d:X×X→R≥0。 給定輸入超參數(shù)k, 對(duì)于每個(gè)xi, 計(jì)算集合{xi1, …,xik}, 使用最近鄰下降算法進(jìn)行該計(jì)算。
對(duì)于每個(gè)xi, 定義ρi和σi
ρi=min{d(xi,xij)|1≤j≤k,d(xi,xij)>0}
(6)
并將σi用式(7)定義
(7)
(8)
B=A+A′-A°A
(9)
式(9)中, °表示逐點(diǎn)乘積。
低維空間中, UMAP使用力導(dǎo)向圖布局算法, 利用引力和排斥力演化出一個(gè)等價(jià)的加權(quán)圖H, 它包含一組點(diǎn){yi}i=1, …, N。yi和yj處的引力和斥力由式(10)和式(11)定義
(10)
(1-w((xi,xj)))(yi-yj)
(11)
式(10)和式(11)中,a和b是超參數(shù),ε是一個(gè)小數(shù), 以防止被零除。
設(shè)N個(gè)待分類樣本的集合為X={xi,i=1, 2, …,N), 模糊C均值聚類是以隸屬度函數(shù)u作為樣本xi的類別標(biāo)號(hào), 將N個(gè)樣本劃分到C個(gè)類別中。 其分類準(zhǔn)則是使聚類中心V={vj,j=1, 2, …,N}的模糊誤差平方和最小, 聚類損失函數(shù)定義為
(12)
式(12)中,b用于控制聚類結(jié)果的模糊程度。
在該算法中, 隸屬度函數(shù)u為連續(xù)的,uj(xi)可在區(qū)間[0, 1]任意取值, 并且有
(13)
為求式(12)中J的極小值, 分別令其對(duì)uj(xi)和vj的偏導(dǎo)數(shù)為0, 則
(14)
(15)
盡管模糊C算法得到了較為廣泛的應(yīng)用, 但該方法也存在著不足之處: 由于模糊C聚類方法的初始聚類中心隨機(jī)確定, 當(dāng)初始聚類中心選擇不當(dāng)時(shí)會(huì)影響聚類的效率, 且很可能出現(xiàn)聚類準(zhǔn)則陷入局部最小的情況, 從而導(dǎo)致錯(cuò)誤的聚類結(jié)果。
針對(duì)經(jīng)典模糊C聚類方法易陷入局部最優(yōu)的缺點(diǎn), 本文首先采用均勻流形逼近與投影(UMAP)對(duì)不同樣本的太赫茲光譜數(shù)據(jù)進(jìn)行降維, 再根據(jù)樣本的分布特征來(lái)確定屬于不同類別的樣本點(diǎn), 以此作為初始聚類中心來(lái)進(jìn)行后續(xù)的分析。 具體步驟如下:
(1)獲得參與聚類的原始數(shù)據(jù)X(N×M), 其中N為樣本數(shù),M為高維空間的維數(shù)。
(2)UMAP降維。 利用UMAP方法對(duì)原始數(shù)據(jù)矩陣X(N×M)進(jìn)行降維, 得到反映樣本之間距離的新的特征空間Y(N×L), 其中N是樣本數(shù),L是低維空間的維數(shù)(通常取值為2或者3)。
(3)初始聚類中心的優(yōu)化。 求出樣本在最大主方向上的投影Y1, 并將Y1的值按照由大到小排列得到新的序列Y11。 根據(jù)待處理樣本的類別數(shù)目C, 進(jìn)行初始聚類中心的選取。
(4)隸屬度的迭代計(jì)算。 利用(3)所得初始聚類中心對(duì)(2)所得新的特征空間進(jìn)行聚類。 迭代過(guò)程中, 式‖Va+1-Va‖<ε中的ε代表迭代閾值。
體驗(yàn)式教學(xué)法,是指在教學(xué)過(guò)程中為了達(dá)到既定的教學(xué)目的,從教學(xué)需要出發(fā),引入、創(chuàng)造或創(chuàng)設(shè)與教學(xué)內(nèi)容相適應(yīng)的具體情境或氛圍,以引起學(xué)生的情感體驗(yàn),幫助學(xué)生迅速而正確地理解教學(xué)內(nèi)容,促進(jìn)他們心理機(jī)能全面和諧發(fā)展的一種教學(xué)方法。體驗(yàn)式教學(xué)法使學(xué)生身臨其境或如臨其境,一則帶給學(xué)生從形象的感知到抽象的理性的頓悟,二則激發(fā)學(xué)生的學(xué)習(xí)興趣和學(xué)習(xí)情緒,使學(xué)習(xí)活動(dòng)成為自主自發(fā)的活動(dòng)。同時(shí),在教學(xué)實(shí)踐中,體驗(yàn)式教學(xué)法在英語(yǔ)閱讀課、寫作課研究相對(duì)較多,而將其運(yùn)用到語(yǔ)法課研究的則比較少。[1]
本文提出方法的計(jì)算流程如圖1所示。
圖1 基于UMAP輔助的模糊C聚類方法流程圖
從圖1可以看出: 本文所提方法的核心是利用UMAP進(jìn)行降維, 然后根據(jù)類之間距離最大化的原則來(lái)進(jìn)行聚類中心的選擇, 與傳統(tǒng)方法相比, 本文所提方法可以有效避免局部最優(yōu)問(wèn)題的出現(xiàn), 提高聚類的正確率。
如圖2所示, 采用具有45度入射的透射太赫茲系統(tǒng)進(jìn)行THz數(shù)據(jù)的采集。 Toptica Photonics AG的超快飛秒激光器用于泵浦和檢測(cè)太赫茲波。 激光束用作光源, 激光被λ/2波片分為泵浦光和探測(cè)光。 較強(qiáng)的一束是泵浦光, 泵浦光透過(guò)分束鏡, 經(jīng)平面鏡的反射, 再依次經(jīng)過(guò)斬波器、 延遲器, 經(jīng)平面鏡反射后照射在砷化鎵(GaAs)天線上, 激發(fā)出太赫茲脈沖, 太赫茲脈沖先后經(jīng)準(zhǔn)直和聚焦, 照射待測(cè)樣品, 從而攜帶樣品信息。 較弱的一束光為探測(cè)光, 探測(cè)光經(jīng)準(zhǔn)直、 聚焦后照射在碲化鋅(ZnTe)晶體上, 經(jīng)電光取樣后, 獲得太赫茲電場(chǎng)。 太赫茲波聚焦照射光電二極管調(diào)制探測(cè)光, 從而使探測(cè)光的偏振方向發(fā)生改變, 期間鎖相放大器收到產(chǎn)生的調(diào)制信號(hào)。 實(shí)驗(yàn)中, LabVIEW程序?qū)崿F(xiàn)對(duì)掃描臺(tái)的控制, 鎖相放大器用來(lái)對(duì)太赫茲信號(hào)進(jìn)行采集。
圖2 太赫茲時(shí)域光譜系統(tǒng)原理
本文采用上述實(shí)驗(yàn)裝置對(duì)魯棉研28、 魯棉研29、 魯棉研36、 中棉28四種不同類型的轉(zhuǎn)基因棉花種子進(jìn)行探測(cè), 獲得四種不同類型的轉(zhuǎn)基因棉花種子的吸光度光譜數(shù)據(jù), 運(yùn)用UMAP輔助的模糊C聚類方法對(duì)吸光度光譜數(shù)據(jù)進(jìn)行處理, 并分析不同樣本的聚類情況。
實(shí)驗(yàn)中為了觀察樣品對(duì)太赫茲波的吸收特征, 首先定義一個(gè)參考信號(hào), 參考信號(hào)定義為在不放置樣品時(shí)采集到的太赫茲信號(hào)。 對(duì)采集到的數(shù)據(jù)進(jìn)行光譜分析, 時(shí)域圖如圖3所示。 不難看出, 四種轉(zhuǎn)基因棉花種子相對(duì)于參考信號(hào)都發(fā)生了不同的頻率偏移。 對(duì)時(shí)域數(shù)據(jù)進(jìn)行快速傅里葉變換(FFT)得到四種轉(zhuǎn)基因棉花種子的頻域圖, 如圖4所示, 可以發(fā)現(xiàn)四種轉(zhuǎn)基因棉花種子的太赫茲波的強(qiáng)度相對(duì)于參考信號(hào)都有所降低, 這是由于樣品對(duì)太赫茲波的吸收導(dǎo)致的。 四種轉(zhuǎn)基因棉花種子都在相同的條件下制備且實(shí)驗(yàn)環(huán)境相同, 不同的只是轉(zhuǎn)基因棉花種子的型號(hào), 因此可以說(shuō)明不同型號(hào)的轉(zhuǎn)基因棉花種子對(duì)太赫茲的吸收是不同的。
圖3 四種轉(zhuǎn)基因棉花種子時(shí)域圖
圖4 四種轉(zhuǎn)基因棉花種子頻域圖
實(shí)驗(yàn)中, 選取的樣本的純凈度很高, 但并不是純凈物, 并且經(jīng)過(guò)研磨壓片處理的樣品, 其厚度仍有略微不同。 為了減小厚度對(duì)給后續(xù)分析帶來(lái)的影響, 采用吸光度(Absorbance)處理實(shí)驗(yàn)數(shù)據(jù), 吸光度表示光波被材料吸收的程度。 吸光度公式在第2節(jié)已經(jīng)給出。 四種轉(zhuǎn)基因棉花種子的吸光度曲線如圖5所示。
圖5 四種轉(zhuǎn)基因棉花種子吸光度
從圖5可以看出, 魯棉研28的吸收峰值和其他三類轉(zhuǎn)基因棉花種子有較大差異, 但魯棉研29、 魯棉研36、 中棉28的吸收峰值相近, 不易區(qū)分。 因此, 需要建立數(shù)學(xué)模型對(duì)四種不同類型的轉(zhuǎn)基因棉花種子進(jìn)行區(qū)分。
實(shí)驗(yàn)中, 選取的實(shí)驗(yàn)樣品為轉(zhuǎn)基因棉花種子。 實(shí)驗(yàn)樣品共包含4個(gè)類別, 分別是魯棉研28、 魯棉研29、 魯棉研36、 中棉28, 每個(gè)類別包含30個(gè)樣本, 一共有30×4個(gè)樣本。 參與聚類的數(shù)據(jù)為四種轉(zhuǎn)基因棉花種子的吸光度數(shù)據(jù)。 首先, 對(duì)吸光度數(shù)據(jù)進(jìn)行降維處理, 分別采用PCA, LLE, LPP和UMAP對(duì)吸光度矩陣進(jìn)行降維。 其中算法的參數(shù)設(shè)計(jì)如下: PCA中累計(jì)方差貢獻(xiàn)率為0.85; LLE中的最大近鄰點(diǎn)的個(gè)數(shù)設(shè)置為30, 最大嵌入維數(shù)設(shè)置為3; LPP中的最大近鄰點(diǎn)的個(gè)數(shù)設(shè)置為30, 原始空間中兩點(diǎn)的距離權(quán)重系數(shù)為0(xi和xj不是近鄰點(diǎn)時(shí))或1(xi和xj是近鄰點(diǎn)時(shí)); UMAP中設(shè)置的最大近鄰點(diǎn)的個(gè)數(shù)為30, 目標(biāo)嵌入維度為3, 嵌入空間中閉合兩點(diǎn)的間隔設(shè)為0。 不同方法降維的結(jié)果如圖6所示。
圖6 不同降維方法下的聚類效果(三維)
從圖6(a)—(c)可以看出, PCA, LLE以及LPP雖然實(shí)現(xiàn)了光譜數(shù)據(jù)的降維, 但是不能實(shí)現(xiàn)不同轉(zhuǎn)基因棉花種子光譜數(shù)據(jù)的準(zhǔn)確聚類, 分類的準(zhǔn)確率都為0。 通過(guò)圖6(d)發(fā)現(xiàn), UMAP的聚類效果要明顯優(yōu)于上述3種方法, 其對(duì)魯棉研28、 魯棉研29、 魯棉研36、 中棉28分類的正確率分別為0.6, 0.633 3, 0.7和0.566 7, 分類總正確率為0.625, 但是其聚類識(shí)別的精度仍然需要進(jìn)一步提升。
下面我們采用不同降維模型來(lái)優(yōu)化模糊C聚類方法, 并對(duì)吸光度數(shù)據(jù)進(jìn)行處理。 經(jīng)UMAP降維后, 聚類中心的選擇結(jié)果如圖7所示。
圖7 聚類中心的選擇
根據(jù)樣本經(jīng)過(guò)降維后的分布特征來(lái)確定屬于不同類別的樣本點(diǎn), 以此作為初始聚類中心來(lái)進(jìn)行后續(xù)的模糊C聚類分析, 效果如圖8所示。
圖8 不同降維方法輔助的模糊C聚類效果(三維)
對(duì)比圖6和圖8可以看出, 在結(jié)合了模糊C聚類方法后, 四種方法出現(xiàn)的聚類混疊現(xiàn)象有了改善, 只出現(xiàn)了將少部分樣本聚類錯(cuò)誤的情況, 由此可見(jiàn)PCA(LLE或LPP或UMAP)輔助的模糊C聚類方法的聚類效果要明顯好于單純的降維方法。 為了進(jìn)一步驗(yàn)證本文所提方法的實(shí)用性, 本文通過(guò)計(jì)算基于不同降維方法輔助的模糊C聚類方法聚類的正確率來(lái)進(jìn)行比較, 其結(jié)果如表1所示。 從表1可以發(fā)現(xiàn), 在結(jié)合了模糊C聚類方法后, 不同類別的識(shí)別正確率和總正確率相對(duì)于單純的降維方法都有所提高, 說(shuō)明將降維方法和模糊C聚類方法結(jié)合在太赫茲光譜識(shí)別方面具有較高的可靠性。 同時(shí), UMAP輔助的模糊C聚類方法對(duì)魯棉研28、 魯棉研29、 魯棉研36、 中棉28的分類正確率為1, 1, 0.966 7和0.966 7, 分類總正確率達(dá)到了0.983 3, 要遠(yuǎn)遠(yuǎn)高于前三者, 說(shuō)明本文所提出的方法具有極大的優(yōu)勢(shì), 可靠性更高。
表1 不同降維方法輔助的模糊C聚類的正確率
針對(duì)太赫茲對(duì)轉(zhuǎn)基因作物進(jìn)行鑒別過(guò)程中, 存在過(guò)程復(fù)雜、 準(zhǔn)確率不高的問(wèn)題, 本文提出基于UMAP輔助的模糊C聚類方法用來(lái)進(jìn)行太赫茲光譜識(shí)別。 (1)與傳統(tǒng)方法相比, 本文的創(chuàng)新點(diǎn)是將UMAP與模糊C理論相結(jié)合, 用UMAP對(duì)吸光度數(shù)據(jù)進(jìn)行降維, 然后根據(jù)類與類之間距離最大化的原則, 選擇初始聚類中心從而實(shí)現(xiàn)模糊C聚類。 (2)為了驗(yàn)證本文所提方法的可靠性, 采用太赫茲時(shí)域光譜技術(shù)對(duì)四種轉(zhuǎn)基因棉花種子進(jìn)行測(cè)量, 并對(duì)得到的四種轉(zhuǎn)基因棉花種子的吸光度數(shù)據(jù)進(jìn)行聚類分析。 (3)通過(guò)與PCA, LLE, LPP及傳統(tǒng)模糊C聚類方法處理的結(jié)果進(jìn)行對(duì)比, 發(fā)現(xiàn)本文所提方法的聚類效果明顯要好于其他方法, 說(shuō)明UMAP輔助的模糊C聚類方法與THz光譜相結(jié)合是轉(zhuǎn)基因棉花種子無(wú)損檢測(cè)的潛在識(shí)別工具。