侯少華,張宏帥,姜寶柱,朱賓賓,田增國(guó)
(1.鄭州大學(xué)機(jī)械與動(dòng)力工程學(xué)院,鄭州 450001;2.鄭州大學(xué)物理(微電子)學(xué)院,鄭州 450001; 3.麥斯克電子材料股份有限公司,洛陽(yáng) 471000)
直拉(Czochralski, Cz)法是生產(chǎn)單晶硅的重要方法之一,其生長(zhǎng)過(guò)程可分為五個(gè)階段:引晶、縮頸、放肩、等徑、收尾。其中等徑生長(zhǎng)是單晶硅生長(zhǎng)過(guò)程中最關(guān)鍵的階段,該階段拉制的直徑相等部分是單晶硅的主要價(jià)值部分。然而,在單晶硅的復(fù)雜拉制過(guò)程中存在多物理場(chǎng)耦合現(xiàn)象,這導(dǎo)致整個(gè)單晶硅的生長(zhǎng)過(guò)程具有非線性、大時(shí)滯、時(shí)變等特性,從而使單晶硅出現(xiàn)缺陷的概率增加。位錯(cuò)是晶體拉制過(guò)程中的主要缺陷,在等徑階段主要表現(xiàn)為掉苞,掉苞現(xiàn)象是指晶棒四周扁平棱線發(fā)生斷裂,即硅棒由單晶體變?yōu)槎嗑w的過(guò)程,而位錯(cuò)出現(xiàn)的具體原因[1-3]一直是單晶硅生長(zhǎng)研究的熱點(diǎn)。目前,識(shí)別掉苞的方法仍舊是目測(cè)法,即通過(guò)觀察晶棒上的棱線來(lái)判斷晶體生長(zhǎng)是否正常。但是該法的準(zhǔn)確性嚴(yán)重依賴工人經(jīng)驗(yàn),且時(shí)效性難以保證。為了簡(jiǎn)捷地識(shí)別出單晶硅是否將要掉苞,及時(shí)發(fā)出生產(chǎn)預(yù)警,有必要對(duì)單晶硅等徑階段的掉苞現(xiàn)象進(jìn)行預(yù)測(cè)研究。
目前對(duì)于單晶硅拉制過(guò)程的研究方法大致可分為三種:(1)多物理場(chǎng)耦合的機(jī)理模型[4-7];(2)機(jī)理與數(shù)據(jù)驅(qū)動(dòng)相結(jié)合的混合模型[8-9];(3)數(shù)據(jù)驅(qū)動(dòng)模型。從多物理場(chǎng)耦合的角度出發(fā)來(lái)構(gòu)建機(jī)理模型,雖可以明確參數(shù)的物理意義和解釋變量參數(shù)之間的動(dòng)態(tài)行為關(guān)系,但是由于涉及知識(shí)較多、范圍廣,導(dǎo)致機(jī)理模型過(guò)于復(fù)雜,在實(shí)踐中難以實(shí)現(xiàn);混合模型雖使用數(shù)據(jù)驅(qū)動(dòng)模型來(lái)描述部分復(fù)雜的機(jī)理但本質(zhì)上還是要以機(jī)理模型為主,其模型復(fù)雜度依然很高[10];而把數(shù)據(jù)驅(qū)動(dòng)的方法應(yīng)用在復(fù)雜工業(yè)過(guò)程的建模中,可以簡(jiǎn)捷地檢測(cè)和預(yù)測(cè)出單晶硅拉制的狀態(tài)。采用數(shù)據(jù)驅(qū)動(dòng)的方法來(lái)研究單晶硅的拉制過(guò)程雖剛剛起步, 仍然取得了一些成果。例如:杜佳晨[11]針對(duì)單晶硅等徑生長(zhǎng)過(guò)程“掉苞”的預(yù)測(cè),構(gòu)建的隨機(jī)森林集成模型預(yù)測(cè)準(zhǔn)確率為94%;Zhang等[12]針對(duì)單晶硅等徑生長(zhǎng)過(guò)程中位錯(cuò)模式的復(fù)雜性,提出一種基于深度學(xué)習(xí)的位錯(cuò)檢測(cè)方法及跟蹤策略,檢測(cè)準(zhǔn)確率為97.33%;翟曉彤等[13]基于最大互信息的特征選擇方法建立了一套對(duì)于單晶硅放肩斷棱現(xiàn)象預(yù)測(cè)精度較高的數(shù)據(jù)驅(qū)動(dòng)模型,預(yù)測(cè)準(zhǔn)確率為93.70%;李欣鴿[14]基于NARX神經(jīng)網(wǎng)絡(luò)建立了加熱器溫度-晶體直徑模型,實(shí)現(xiàn)了對(duì)單晶硅晶體直徑的預(yù)測(cè),均方誤差為0.000 047。相比其他的方法,基于數(shù)據(jù)驅(qū)動(dòng)模型的機(jī)器學(xué)習(xí)方法不依賴直拉單晶硅生長(zhǎng)機(jī)理,可以通過(guò)不斷地訓(xùn)練來(lái)提高預(yù)測(cè)精度,這是使用數(shù)據(jù)構(gòu)建模型的主要優(yōu)勢(shì)。另外,對(duì)于單晶硅參數(shù)之間的相關(guān)性和原始數(shù)據(jù)的特點(diǎn),大多數(shù)文獻(xiàn)只是簡(jiǎn)單涉及了相關(guān)性的研究,而對(duì)原始數(shù)據(jù)特點(diǎn)的研究并未明確指出。兩者都是影響機(jī)器學(xué)習(xí)模型的因素,清楚原始數(shù)據(jù)特點(diǎn)和參數(shù)相關(guān)性對(duì)于模型的訓(xùn)練具有指導(dǎo)意義。
目前,有關(guān)分類預(yù)測(cè)的機(jī)器學(xué)習(xí)方法種類很多,其應(yīng)用也十分廣泛。例如:黃亮等[15]針對(duì)燃料電池的故障診斷問(wèn)題,構(gòu)建了基于差分優(yōu)化算法的支持向量機(jī)模型,預(yù)測(cè)準(zhǔn)確率達(dá)到95%;劉鑫等[16]針對(duì)白酒品牌的分類預(yù)測(cè)問(wèn)題,構(gòu)建了基于遺傳算法優(yōu)化的支持向量機(jī)模型,預(yù)測(cè)準(zhǔn)確率可以達(dá)到97.83%;吳貴軍等[17]針對(duì)乳腺癌治療藥物的分類預(yù)測(cè)問(wèn)題,通過(guò)對(duì)比K近鄰算法、決策樹(shù)算法、支持向量機(jī)算法、貝葉斯算法以及人工神經(jīng)網(wǎng)絡(luò)算法得出決策樹(shù)模型為最優(yōu)模型的結(jié)論,預(yù)測(cè)準(zhǔn)確率90%;高旭旭[18]針對(duì)點(diǎn)擊率預(yù)測(cè)中多字段分類數(shù)據(jù)的問(wèn)題,提出了基于注意力機(jī)制的FM&ResNet深度學(xué)習(xí)模型,預(yù)測(cè)準(zhǔn)確率為97.86%。由以上列舉文獻(xiàn)可知,不同的問(wèn)題背景所得到結(jié)論也不同,最優(yōu)模型是相對(duì)而言的。在單晶硅發(fā)生掉苞的問(wèn)題背景下,仍然可以嘗試使用不同的機(jī)器學(xué)習(xí)方法,確保問(wèn)題得到良好的解決。
因此,本文秉著高效率、低成本、模型結(jié)構(gòu)簡(jiǎn)單的原則,針對(duì)利用Cz方法生產(chǎn)的單晶硅在等徑階段的掉苞現(xiàn)象,提出使用基于支持向量機(jī)的方法來(lái)構(gòu)建有關(guān)單晶硅掉苞預(yù)測(cè)的數(shù)據(jù)驅(qū)動(dòng)模型。
斯皮爾曼(Spearman)秩相關(guān)系數(shù)對(duì)原始數(shù)據(jù)的分布類型、數(shù)據(jù)選取等沒(méi)有嚴(yán)格限制,通用性、穩(wěn)健性較好[19]。經(jīng)檢驗(yàn),單晶硅等徑過(guò)程原始數(shù)據(jù)并非連續(xù)等距,且不服從高斯分布,因此采用斯皮爾曼較為合適。
斯皮爾曼相關(guān)系數(shù)是一種等級(jí)變量之間的皮爾遜相關(guān)系數(shù)。假設(shè)有n個(gè)隨機(jī)變量,任意選取其中兩個(gè)隨機(jī)變量X、Y。對(duì)X、Y中的元素進(jìn)行排序,得到排序后的次序R和S。Spearman計(jì)算公式為:
(1)
式中:Ri、Si為變量在順序排列樣本中的次序。在給定顯著性水平α下,相關(guān)性系數(shù)|ρ|越接近1,兩個(gè)變量間的相關(guān)性越大。
最大互信息系數(shù)(maximal information coefficient, MIC)是一種不需要對(duì)數(shù)據(jù)分布有任何假設(shè)的評(píng)估變量間函數(shù)關(guān)系和統(tǒng)計(jì)關(guān)系的相關(guān)性算法[20],可以解決兩變量非線性相關(guān)性分析問(wèn)題。MIC值取值范圍是[0,1],值越接近1相關(guān)性程度就越強(qiáng)。
針對(duì)斯皮爾曼剔除過(guò)的原始數(shù)據(jù),需要進(jìn)一步檢驗(yàn)關(guān)鍵參數(shù)之間是否存在非線性的相關(guān)性以及非線性相關(guān)性強(qiáng)弱問(wèn)題,因此有必要采用MIC做進(jìn)一步的探索。
對(duì)于任意分布的兩個(gè)變量x、y,MIC具體計(jì)算步驟是:
(1)劃分網(wǎng)格G:nx行ny列,計(jì)算出不同網(wǎng)格劃分下的互信息值。
(2)
式中:D是依據(jù)最大信息系數(shù)選出的最佳特征集;X、Y分別是變量x、y的集合;p(x)和p(y)是變量x、y的邊緣密度函數(shù)。
(2)獲得最大互信息值I*(D,nx,ny)。
I*(D,nx,ny)=max{I(D|G)}
(3)
(3)歸一化最大互信息值M(D)。
(4)
(4)劃分不同網(wǎng)格,選擇最大互信息值得最大值為MIC值。
(5)
式中:B(n)=nα,n為樣本數(shù)據(jù)個(gè)數(shù),常數(shù)α(0<α<1)的取值根據(jù)經(jīng)驗(yàn)設(shè)置。
等度量映射(isometric mapping, ISOMAP)是一種基于特征提取的降維處理算法,改造于多維縮放算法(multi dimensional scaling, MDS),其核心思想是使用“測(cè)地線”距離代替MDS中的“歐式距離”計(jì)算樣本點(diǎn)之間的距離。MDS多應(yīng)用于線性樣本數(shù)據(jù),ISOMAP多應(yīng)用于非線性的樣本數(shù)據(jù)[21]。因此,針對(duì)關(guān)鍵參數(shù)可能會(huì)具有非線性的特點(diǎn),采用ISOMAP的特征提取效果會(huì)更好,即以較小數(shù)據(jù)量的輸入,最大化保留原始數(shù)據(jù)的有效信息。對(duì)于樣本集D={x1,x2,…,xm},ISOMAP算法主要流程為:
(1)求解D中樣本點(diǎn)xi的k近鄰;
(2)將xi與k近鄰點(diǎn)之間的距離設(shè)置為歐式距離,與其他點(diǎn)的距離設(shè)置為無(wú)窮大,然后調(diào)用最短路徑算法計(jì)算任意兩樣本點(diǎn)之間的距離dist(xi,xj);
(3)將dist(xi,xj)作為MDS算法的輸入,此時(shí),MDS算法的輸出(MDS算法不再贅述)即是ISOMAP的輸出。
支持向量機(jī)(support vector machine, SVM)是一類按監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類的經(jīng)典分類器,源自統(tǒng)計(jì)理論,廣泛應(yīng)用于數(shù)據(jù)的分類和預(yù)測(cè)。因此針對(duì)單晶硅在等徑階段是否掉苞的預(yù)測(cè)問(wèn)題,采用SVM作為分類器是合適的。
通常情況使用的是“軟間隔支持向量機(jī)”,即對(duì)于線性不可分問(wèn)題,允許支持向量機(jī)在對(duì)少數(shù)樣本劃分時(shí)可以存在不準(zhǔn)確的現(xiàn)象,對(duì)于任意數(shù)據(jù)D={x1,x2,…,xm},其構(gòu)造表達(dá)式為:
ζi≥0,i=1,2,…,m
(6)
式中:ω=(ω1,ω2,…,ωd)為法向量;b為位移項(xiàng);xi為樣本點(diǎn);yi為標(biāo)簽值;C(C>0)為懲罰系數(shù),當(dāng)C趨于無(wú)窮時(shí)迫使所有樣本均滿足約束,C取有限值時(shí)允許所有樣本不滿足約束;ξi為“松弛變量”,表達(dá)樣本不滿足約束的程度。
對(duì)于單晶硅數(shù)據(jù)可能存在非線性的情況,SVM的性能十分依賴核函數(shù)的選擇,采用合適的核函數(shù)對(duì)模型預(yù)測(cè)的結(jié)果有直接影響,當(dāng)情況不明時(shí)優(yōu)先選用高斯核。高斯核函數(shù)具有參數(shù)少、性能穩(wěn)定等優(yōu)點(diǎn),其數(shù)學(xué)表達(dá)式為:
(7)
式中:x表示空間中心點(diǎn);需要注意的是高斯核函數(shù)自帶的一個(gè)參數(shù)γ,通過(guò)改變支持向量的數(shù)量來(lái)影響SVM的泛化性能,有如下關(guān)系:
(8)
式中:σ為高斯核的帶寬,即函數(shù)作用范圍隨σ的增大而減弱。
SVM高斯核函數(shù)的性能主要取決于超參數(shù)C和γ,雖然可以給定經(jīng)驗(yàn)值,但實(shí)際效果往往并不理想。因此需要進(jìn)行參數(shù)尋優(yōu),盡可能提高模型的預(yù)測(cè)準(zhǔn)確度和泛化能力。一般較為常用、效果良好的優(yōu)化算法有差分優(yōu)化算法(difference evolution, DE)和遺傳算法(genetic algorithm, GA)。差分優(yōu)化算法是研究人員在遺傳算法的基礎(chǔ)上提出來(lái)的,本質(zhì)上是一種多目標(biāo)的優(yōu)化算法,常用于求解高維特征空間中整體最優(yōu)解,具有收斂快、不早熟、較強(qiáng)的魯棒性和全局搜索能力等特點(diǎn)[22-24]。
針對(duì)SVM的C和γ超參數(shù),差分優(yōu)化算法以十折交叉驗(yàn)證的精度得分作為待優(yōu)化目標(biāo)的函數(shù)值,采用網(wǎng)格搜索法尋找最優(yōu)超參數(shù)。具體算法流程如圖1所示。
圖1 差分算法流程圖Fig.1 Flow chart of difference algorithm
本文數(shù)據(jù)處理、數(shù)據(jù)建模和數(shù)據(jù)分析均使用PyCharm Community Edition 2021.2.2環(huán)境下的Python 3.8及其自帶API。原始數(shù)據(jù)來(lái)源于EKZ2700單晶爐2021年6英寸硅棒拉制數(shù)據(jù),該爐數(shù)據(jù)覆蓋晶體從引晶到收尾全生命周期,本文只選取等徑階段的原始數(shù)據(jù)進(jìn)行研究。原始數(shù)據(jù)共有68個(gè)特征參數(shù),假設(shè)Xi表示第i個(gè)參數(shù),i=0,…,67,其中晶體拉制前設(shè)置的參數(shù)有17個(gè),拉制時(shí)的監(jiān)測(cè)參數(shù)有51個(gè)。剔除30個(gè)方差很小的參數(shù),剩余38個(gè)參數(shù)即Xi(i=0,…,37)。
將上節(jié)篩選出的參數(shù)Xi(i=0,…,37)的原始數(shù)據(jù)作為Spearman相關(guān)系數(shù)的輸入,得到它們之間的秩相關(guān)系數(shù)值。剔除ρ≥|0.75|的冗余特征參數(shù),最后得到Xi(i=0,…,12),共13個(gè)關(guān)鍵特征參數(shù),如表1所示,它們之間的Spearman秩相關(guān)系數(shù)值如圖2所示。
表1 關(guān)鍵參數(shù)Table 1 Key parameters
圖2 Spearman 熱度圖Fig.2 Spearman heat map
根據(jù)經(jīng)驗(yàn),設(shè)置式(5)中常數(shù)α=0.6。將Xi(i=0, …,12)的原始數(shù)據(jù)作為MIC的輸入得到參數(shù)之間的最大互信息值,如圖3所示。
由圖3可知,參數(shù)之間的MIC值在0.5以內(nèi),即存在較弱的非線性相關(guān)性,但不存在較強(qiáng)的非線性相關(guān)性,因此不需要再對(duì)參數(shù)進(jìn)行剔除。
圖3 MIC熱度圖Fig.3 MIC heat map
使用參數(shù)Xi(i=0,…,12)的原始數(shù)據(jù)構(gòu)造樣本數(shù)據(jù)。為盡可能保持正負(fù)樣本數(shù)據(jù)量的平衡和保留數(shù)據(jù)的信息,樣本抽取方式為:正常拉晶數(shù)據(jù)每百條的均值和標(biāo)準(zhǔn)差,掉苞數(shù)據(jù)每十條的均值和標(biāo)準(zhǔn)差;得到樣本數(shù)據(jù)的正樣本與負(fù)樣本比例為3∶2,共構(gòu)造10 047條、26維的樣本數(shù)據(jù)。記Xij是第i個(gè)參數(shù)的第j組數(shù)據(jù),i=0,…,25,j=0,…,10 046;記Yj表示第j組數(shù)據(jù)的標(biāo)簽,Yj={0,1};標(biāo)簽“0”表示硅棒正常拉制,標(biāo)簽“1”表示硅棒拉制中發(fā)生了掉苞。硅棒拉制中一旦發(fā)生掉苞,則整根棒的數(shù)據(jù)都標(biāo)記為“1”,因?yàn)槟壳叭匀粺o(wú)法判定硅棒掉苞的時(shí)刻。樣本數(shù)據(jù)Xij經(jīng)過(guò)均值標(biāo)準(zhǔn)化方法處理[25]后,輸入給特征提取算法。為了更好地檢驗(yàn)降維算法和模型的性能,設(shè)置ISOMAP和MDS算法輸出分別為3、5、7、9、11維的樣本數(shù)據(jù),即d={3,5,7,9,11}的矩陣,共得到兩份樣本數(shù)據(jù)。
圖4是特征提取算法輸出為3維特征(d=3)時(shí)的2D可視化結(jié)果,由于無(wú)法很好地表達(dá)高維的輸出結(jié)果,便以此為例說(shuō)明ISOMAP和MDS在本文中的性能差異。由圖4可知,ISOMAP的降維結(jié)果明顯優(yōu)于MDS。MDS并未很好地把正常數(shù)據(jù)和掉苞數(shù)據(jù)分開(kāi),而ISOMAP把樣本數(shù)據(jù)大致分為左右兩部分,基本符合分類要求。同時(shí),驗(yàn)證了單晶硅等徑階段數(shù)據(jù)具有非線性的特點(diǎn),使用ISOMAP是合適的。
圖4 不同降維算法的處理結(jié)果Fig.4 Processing results of different dimensionality reduction algorithms
SVM模型算法架構(gòu)來(lái)源于Python3.8的Geaty庫(kù),優(yōu)化算法的定義為:模型參數(shù)為一般經(jīng)驗(yàn)值,設(shè)置種群規(guī)模為20,最大進(jìn)化代數(shù)為30,進(jìn)化停滯判斷閾值為10-6,C和γ變量采用固定步長(zhǎng)的網(wǎng)格搜索策略,其范圍為[2-8,28]。在參數(shù)尋優(yōu)過(guò)程中,將十折交叉實(shí)驗(yàn)精度得分作為模型訓(xùn)練的評(píng)價(jià)標(biāo)準(zhǔn)即目標(biāo)函數(shù)。SVM模型的輸入是矩陣,輸出是標(biāo)簽“0”或“1”,訓(xùn)練集與測(cè)試集比例為4∶1。
首先將上一節(jié)得到的兩份樣本數(shù)據(jù)分別隨機(jī)抽出五分之四作為GA-SVM和DE-SVM模型的輸入,得到如圖5所示4個(gè)訓(xùn)練結(jié)果圖。在訓(xùn)練結(jié)果中,SVM模型輸入為5維樣本數(shù)據(jù)時(shí)各個(gè)模型的表現(xiàn)較為典型,因此根據(jù)圖5進(jìn)行分析與討論。如圖5所示,在模型訓(xùn)練結(jié)束時(shí),基于DE的SVM模型進(jìn)化代數(shù)更少,收斂更為快速,基于GA的SVM收斂速度較慢且有發(fā)散跡象。此外,雖然兩種超參數(shù)優(yōu)化方式的最高精度得分幾乎相同,但是使用DE算法的模型平均準(zhǔn)確率曲線更平滑、更具有可靠性。這是因?yàn)椴罘炙惴ㄏ噍^于遺傳算法具有收斂速度快、不早熟、不易陷入局部最優(yōu)的特點(diǎn)。另一方面,經(jīng)過(guò)差分算法優(yōu)化的模型對(duì)于本文的樣本數(shù)據(jù)具有良好的適應(yīng)性也是重要原因之一。
圖5 不同模型的訓(xùn)練結(jié)果Fig.5 Training results for different models
圖6 測(cè)試集結(jié)果Fig.6 Test set results
然后調(diào)用訓(xùn)練好的模型執(zhí)行對(duì)測(cè)試集數(shù)據(jù)的預(yù)測(cè)。測(cè)試集結(jié)果如圖6所示,隨著輸入維度的增加,使用經(jīng)過(guò)ISOMAP算法降維處理的樣本數(shù)據(jù)模型預(yù)測(cè)準(zhǔn)確率折線圖總體較為穩(wěn)定且平均準(zhǔn)確率可以達(dá)到96%,相較于MDS算法,其平均準(zhǔn)確率高出34%。然而,經(jīng)過(guò)MDS算法降維處理的模型,隨著輸入維度的增加出現(xiàn)了過(guò)擬合現(xiàn)象,這導(dǎo)致模型準(zhǔn)確率出現(xiàn)了下降的趨勢(shì)。其原因是數(shù)據(jù)具有高維、非線性的特點(diǎn),模型對(duì)于樣本數(shù)據(jù)信息的學(xué)習(xí)過(guò)于混亂,無(wú)法分辨出單晶硅掉苞與正常兩個(gè)類別的特征參數(shù)值。由此可見(jiàn),對(duì)于單晶硅的樣本數(shù)據(jù),非線性方法提取出的樣本數(shù)據(jù)信息要優(yōu)于線性方法[26]。換言之,數(shù)據(jù)處理的好壞可以直接影響模型的預(yù)測(cè)結(jié)果,依據(jù)數(shù)據(jù)的非線性特點(diǎn)進(jìn)行數(shù)據(jù)處理和建立模型是研究過(guò)程具有科學(xué)性的重要體現(xiàn)。最后,從模型的計(jì)算效率和準(zhǔn)確度方面分析,ISOMAP輸出的5維樣本數(shù)據(jù)能夠較好地表征單晶硅等徑階段數(shù)據(jù)的信息,在實(shí)際應(yīng)用時(shí)可以選用此時(shí)的超參數(shù)值,且[C,γ]取值為[123.338, 0.004]。
總結(jié)來(lái)說(shuō),本文中降維算法和參數(shù)優(yōu)化方法對(duì)于模型預(yù)測(cè)準(zhǔn)確率都有一定的影響,其中降維算法的選取更為重要;另一方面,對(duì)于數(shù)據(jù)相關(guān)性的研究奠定了數(shù)據(jù)處理的基礎(chǔ),這也是影響最終結(jié)果的因素之一。
本次測(cè)試使用EKZ2700直拉式單晶爐的2022年上半年6英寸硅棒數(shù)據(jù)進(jìn)行驗(yàn)證,與上一節(jié)使用的數(shù)據(jù)來(lái)源于同一臺(tái)單晶爐。在單晶硅棒進(jìn)入等徑階段15 min后,預(yù)測(cè)系統(tǒng)開(kāi)始運(yùn)行。實(shí)驗(yàn)流程如圖7所示,具體說(shuō)明如下:
(1)對(duì)于所選規(guī)格的單晶硅棒等徑拉制過(guò)程,通過(guò)SCADA數(shù)據(jù)采集系統(tǒng)獲取等徑階段的實(shí)時(shí)數(shù)據(jù);
(2)根據(jù)Z-score方法,設(shè)置距離均值3倍標(biāo)準(zhǔn)差的值為異常值閾值,超過(guò)閾值的參數(shù)值則以該類別參數(shù)均值替換;
(3)對(duì)(2)中獲取的原始數(shù)據(jù)進(jìn)行縮放,具體方法為:每1 min內(nèi)數(shù)據(jù)的均值和標(biāo)準(zhǔn)差組成一組數(shù)據(jù);
(4)使用均值化方法對(duì)(3)中數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理即為樣本數(shù)據(jù);
(5)調(diào)用SVM模型對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)測(cè);
(6)對(duì)15組樣本數(shù)據(jù)的15個(gè)預(yù)測(cè)結(jié)果進(jìn)行投票,當(dāng)預(yù)測(cè)值為“1”的頻率大于60%時(shí),可認(rèn)為單晶棒硅即將出現(xiàn)掉苞,系統(tǒng)發(fā)出警告,否則預(yù)測(cè)系統(tǒng)判定該棒正常,重復(fù)以上步驟;
(7)最后與工人師傅記錄的隨工單進(jìn)行對(duì)比。
隨機(jī)挑選23根正常硅棒數(shù)據(jù),6根掉苞硅棒數(shù)據(jù),共29根硅棒數(shù)據(jù)進(jìn)行實(shí)驗(yàn)驗(yàn)證,得到預(yù)測(cè)結(jié)果的混淆矩陣如表2所示。由表2可知,在實(shí)驗(yàn)測(cè)試中有少部分實(shí)際是正常的硅棒被錯(cuò)誤地預(yù)測(cè)為掉苞;經(jīng)過(guò)分析發(fā)現(xiàn),標(biāo)簽方法的缺陷是導(dǎo)致該錯(cuò)誤結(jié)果的主要原因。此外,需要注意的是:該爐性能較為穩(wěn)定,掉苞發(fā)生率低,發(fā)生掉苞的硅棒數(shù)據(jù)較少,預(yù)測(cè)硅棒在實(shí)際情況下發(fā)生掉苞的準(zhǔn)確率可能會(huì)有所浮動(dòng)。另一方面,在實(shí)際應(yīng)用中可以根據(jù)經(jīng)驗(yàn)調(diào)整報(bào)警閾值,以達(dá)到使用要求。總體而言,該方法在工廠生產(chǎn)中可以大幅減輕工人的勞動(dòng)強(qiáng)度,有一定的實(shí)際應(yīng)用價(jià)值。
圖7 模型應(yīng)用流程Fig.7 Process of model application
表2 單晶硅預(yù)測(cè)結(jié)果混淆矩陣Table 2 Confusion matrix of single crystal silicon prediction results
本文通過(guò)線性與非線性的相關(guān)性分析揭示了單晶硅等徑階段數(shù)據(jù)的特點(diǎn);通過(guò)特征選擇和特征提取相結(jié)合的方法實(shí)現(xiàn)了對(duì)樣本數(shù)據(jù)的構(gòu)造;通過(guò)差分算法實(shí)現(xiàn)了對(duì)支持向量機(jī)超參數(shù)C和γ的優(yōu)化;通過(guò)對(duì)比不同模型預(yù)測(cè)準(zhǔn)確度,得出了如下結(jié)論:ISOMAP-DE-SVM是本文最優(yōu)模型以及單晶硅等徑階段數(shù)據(jù)具有非線性的特點(diǎn)。最后,通過(guò)對(duì)最優(yōu)模型的應(yīng)用驗(yàn)證,表明所述方法具有一定工程應(yīng)用價(jià)值。綜上所述,對(duì)于單晶硅等徑階段的掉苞預(yù)測(cè)研究存在以下優(yōu)勢(shì)和不足:
(1)本文采用的特征選擇和特征提取結(jié)合的方法能有效地提取單晶硅等徑階段原始數(shù)據(jù)中的信息;
(2)本文采用的基于差分算法的支持向量機(jī)模型,在準(zhǔn)確度、可靠性和收斂速度方面較于其他模型具有明顯優(yōu)勢(shì);
(3)本文所提出的模型在實(shí)際應(yīng)用中可以大幅減輕工人的勞動(dòng)強(qiáng)度、提高硅棒的拉制成功率;
(4)本文沒(méi)有對(duì)打標(biāo)簽的方法進(jìn)行改善,對(duì)最終預(yù)測(cè)結(jié)果造成了一定程度的影響。