張鵬飛, 董敏周, 端軍紅
(1.西北工業(yè)大學 航天學院, 陜西 西安 710072; 2.空軍工程大學 防空反導學院, 陜西 西安 710043)
自從2012年神經(jīng)網(wǎng)絡之父亨特及其學生使用深度學習技術搭建AlexNet在Image Net比賽中取得比傳統(tǒng)方法高出許多的準確率之后[1],深度學習技術開始得到人們廣泛關注并在圖像分類、語音識別、自然語言處理中取得了很好的效果[2-4]。卷積神經(jīng)網(wǎng)絡訓練出的模型也具有很好的泛化能力。然而,卷積神經(jīng)網(wǎng)絡要想有較高的準確率及較好的泛化能力,往往需要大量的已標記樣本用于訓練,人工標記樣本往往涉及到成本問題,這對于那些已標記樣本數(shù)據(jù)過少的領域就提出了一定的挑戰(zhàn)。隨著互聯(lián)網(wǎng)技術及移動互聯(lián)網(wǎng)技術的不斷發(fā)展,當前我們往往可以通過網(wǎng)絡獲取到大量的數(shù)據(jù),與此同時,在許多的應用場景中,我們還面臨著雖然有著大量的數(shù)據(jù),但其中已標記數(shù)據(jù)占比過少的問題,以遙感目標檢測與識別為例,可以較為輕松地從谷歌地球等網(wǎng)站獲取大量的遙感圖像,但其中有標記的圖像占比較小,這不利于使用深度學習方法去訓練模型。因此,如何充分利用大量的未標記樣本與少量的已標記樣本去共同訓練模型是我們所關心的問題[5]。
有一種利用未標記數(shù)據(jù)去訓練模型的思路是這樣的:利用已標記數(shù)據(jù)與未標記數(shù)據(jù)的相似度,對未標記的數(shù)據(jù)添加標簽,從而獲得大量的有標簽數(shù)據(jù)去訓練模型。聚類算法往往就是根據(jù)數(shù)據(jù)的相似度實現(xiàn)數(shù)據(jù)的聚類,這就使得通過數(shù)據(jù)聚類再加上一定的賦予標簽規(guī)則利用未標記數(shù)據(jù)成為了可能。高斯混合模型(GMM)[6-7]是一種聚類算法,模型假設觀測數(shù)據(jù)來自于K個m維的高斯分布,其中K為數(shù)據(jù)分類的類別數(shù)目,m為數(shù)據(jù)的特征數(shù)目。與常用的K均值算法相比,GMM假設的模型分布一般與數(shù)據(jù)的真實分布更加一致。文獻[8]提出基于集成聚類的分類架構并取得了較好的效果,但是并未給出如何將集成聚類思想應用于解決少標記樣本分類問題的方法。本文將結合集成GMM聚類算法與標簽傳遞思想,提出一種用于解決少標記樣本圖像分類問題的理論框架,更好地利用未標記的數(shù)據(jù)訓練網(wǎng)絡。
在本課時正文的第二段,類比三角形全等的判定,教材以問題“類似地,判定兩個三角形相似時,是不是也存在簡便的判定方法泥”引出探究話題(定理1).在探索定理1時,教材安排了對圖1中l(wèi)1, l2,被三條平行線l3,l4,l5截得的線段長度的度量和長度比值的計算,讓學生通過反復操作與運算,發(fā)現(xiàn)并歸納基本事實(即定理1).為了引出“平行判定法”,教材在得出定理1后,將圖1中的兩根相交直線特殊化,將其交點挪到了這組平行線的一條直線上,形成了圖2、圖3,并據(jù)圖2、圖3歸納出定理2.
本文結合無監(jiān)督聚類算法與標簽傳遞的思想對未標記數(shù)據(jù)添加標簽,然后將這些擁有標簽的數(shù)據(jù)用于訓練分類器,方案的總體框架如下:
1) 采用GMM對少標記樣本的特征數(shù)據(jù)進行聚類,無標簽數(shù)據(jù)與有標簽數(shù)據(jù)都會被用于聚類。
2) 基于標簽傳遞的思想,確定給無標簽數(shù)據(jù)賦予標簽的規(guī)則,采用投票表決的方式對無標簽數(shù)據(jù)賦予標簽。
本組收治的患者共20例,男14例,女6例,年齡在17-62歲之間,平均年齡(42.26±2.15),全部患者均符合肺膿腫的診斷標準。其中吸入性肺膿腫患者13例,血源性肺膿腫患者4例,繼發(fā)性肺膿腫患者3例?;颊叩闹饕R床表現(xiàn)為起病急驟、高熱、寒戰(zhàn)、咳嗽、胸痛、氣急等。
3) 將獲得的大量的有標簽數(shù)據(jù)用于訓練分類器。
分別準確稱取0.0100 g(精確至0.0001 g)螺蟲乙酯和 4種代謝產(chǎn)物標準品,用乙腈溶解并定容至100.00 mL,分別配制成100 mg/L的標準品儲備液,于-20 ℃下避光保存。分別移取各標準儲備液2.5 mL至10 mL容量瓶中,用乙腈定容,配成25.00 mg/L標準工作液,即用即配。
4) 對得到的分類器進行評估。
假設觀測數(shù)據(jù)y1,y2,…,yN由高斯混合模型生成
(1)
2) EM算法的E步:確定Q函數(shù)
1) 明確隱變量,寫出完全數(shù)據(jù)的對數(shù)似然函數(shù)
可以設想觀測數(shù)據(jù)yj,j=1,2,…,N,是這樣產(chǎn)生的:首先依概率αk選擇第k個高斯分布模型;然后依第k個高斯分布模型的概率分布φ(y|θk)生成觀測數(shù)據(jù)yj,這時觀測數(shù)據(jù)yj,j=1,2,…,N,是已知的;反映觀測數(shù)據(jù)yj來自第k個分模型的數(shù)據(jù)是未知的,以隱變量γjk表示,其定義如(2)式所示
j=1,2,…,N;k=1,2,…,K
(2)
有了觀測數(shù)據(jù)yj及未觀測數(shù)據(jù)γjk,那么完全數(shù)據(jù)是
(yj,γj1,γj2,…,γjK),j=1,2,…,N
于是,可以寫出完全數(shù)據(jù)的似然函數(shù)如(3)式所示
(3)
本文以分類器的分類準確率作為評價指標。
式中,θ=(α1,α2,…,αK;θ1,θ2,…,θk),使用EM算法估計高斯混合模型的參數(shù)θ。
2013年,我縣共落實國家級玉米高產(chǎn)示范區(qū)五個,選擇了遼單565、良玉88、聯(lián)達288、鄭單958、農(nóng)華101等耐密玉米新品種為主栽品種。全縣五個示范區(qū)平均851 kg/667 m2,對照田平均732.5 kg/667 m2,增產(chǎn)16.2%。
(4)
j=1,2,…,N;k=1,2,…,K
(5)
(6)
3) 確定EM算法的M步
迭代的M步是求Q函數(shù)對θ的極大值,即求新一輪迭代的模型參數(shù)
(7)
由于CNN模型的訓練需要大量的已標記樣本,因此在少標記樣本分類器的訓練過程中需要想辦法把未標記數(shù)據(jù)利用起來,也就是需要給出未標記樣本賦予標簽的規(guī)則。標簽傳遞思想假設擁有類似特征的數(shù)據(jù)有著相同的標簽,本文基于標簽傳遞的思想,結合GMM聚類結果,采用投票表決的方式賦予未標記樣本標簽。
(8)
重復計算E步及M步,直到對數(shù)似然函數(shù)值不再有明顯變化為止。
謝彥君教授曾提出鄉(xiāng)村旅游可持續(xù)發(fā)展的新理念應像呵護“姆庇之家”一樣,不應隨意“造假”,應打造具備自身特色和認同感的活性鄉(xiāng)村文化體驗[9]。竇志萍等揭示現(xiàn)今旅游消費者的一種新型需求動機——“鄉(xiāng)愁旅游”,尋找鄉(xiāng)愁、發(fā)現(xiàn)鄉(xiāng)愁、留住鄉(xiāng)愁、享受鄉(xiāng)愁成為現(xiàn)階段的一種旅游時尚;留住鄉(xiāng)愁與享受鄉(xiāng)愁是鄉(xiāng)村旅游的一個重要環(huán)節(jié),即“鄉(xiāng)居”[10]。
在高速公路路基的實際施工過程中,通常會出現(xiàn)不同程度的高度差,又由于路基排水系統(tǒng)存在一定的問題,這就會導致出現(xiàn)雨水等外界水在路基內(nèi)積存的問題,并且會隨著時間的推移,慢慢出現(xiàn)滲透至路基內(nèi)部的問題,這就會在內(nèi)部結構中和水產(chǎn)生某些反應,進而使公路出現(xiàn)軟化的現(xiàn)象。
因為GMM聚類的結果是服從同一個高斯分布的數(shù)據(jù)聚為一類,因此可以合理地假設同一類數(shù)據(jù)有著相同的標簽。接下來的問題就是如何給某一類數(shù)據(jù)賦予標簽。本文提出2種投票表決的思路。
思路一經(jīng)過GMM聚類之后,依次在每個類別中查看已標記樣本類別標簽的比例,將這一類的標簽賦為已標記樣本類別標簽比例最大的那個標簽。以有著少量已標記樣本手寫數(shù)字識別為例,將聚類的結果編號為1~10,如果1號類別中的已標記樣本類別標簽比例最大的標簽為5,那么就將1號類別中的未標記數(shù)據(jù)標簽賦為5。思路一的示意圖如圖1所示。
圖1 思路一示意圖
思路二經(jīng)過GMM聚類之后,利用聚好類的模型依次對每一類已標記樣本的類別標簽進行預測,可以得到預測類別占比最大的類別編號,將占比最大的類別編號中的未標記數(shù)據(jù)賦為本次進行預測的類別標簽。以有著少量已標記樣本手寫數(shù)字識別為例,將聚類的結果編號為1~10,對已標記樣本的0~9分別進行預測,如果已標記樣本中有著標簽0的數(shù)據(jù)預測類別占比最大的類別編號是5,那么就將聚類結果編號為5的數(shù)據(jù)標簽賦為0。思路二的示意圖如圖2所示。
圖2 思路二示意圖
思路一與思路二的比較:由于思路一的判斷規(guī)則是依次在每個類別中查看已標記樣本類別標簽的比例,將這一類的標簽賦為已標記樣本類別標簽比例最大的那個標簽,因此如果已標記樣本的標簽分布不均時會造成算法的適應性較差。仍以手寫數(shù)字識別為例,如果已標記樣本中數(shù)字5的數(shù)量過多,有可能會出現(xiàn)數(shù)字5在多個聚類結果上都是已標記樣本中占比最大的從而把多個聚類結果的數(shù)據(jù)都賦為5的情況。為了解決這個問題,應當要求已標記樣本類別標簽分布應是大致均衡的。思路二則不會出現(xiàn)思路一的問題,算法的適應性要好于思路一,此外,思路二也比思路一更加易于實現(xiàn),因此,本文采用思路二確定的投票規(guī)則對未標記數(shù)據(jù)賦予標簽。
本文基于建筑類高校環(huán)境工程專業(yè)的特點,介紹環(huán)境影響評價課程的開設情況,結合筆者多年的教學理論研究和實踐,從課程定位、圍繞建筑類高校環(huán)境類專業(yè)培養(yǎng)目標強化課程教學、強化實際環(huán)境影響評價項目實踐以及加強同建筑類高校環(huán)境工程專業(yè)的交流等方面進行探討。
由于GMM算法易受初始條件的影響,算法的穩(wěn)定性不好。為了解決這一問題,本文采用集成的思想,綜合多個GMM的聚類結果對未標記數(shù)據(jù)賦予標簽,只有多個GMM的聚類結果中賦予標簽的那個眾數(shù)在GMM總數(shù)的占比超過一定閾值時才將對應的數(shù)據(jù)及標簽加入到訓練數(shù)據(jù)集。例如,采用3個GMM集成聚類,依據(jù)投票規(guī)則確定標簽,可以設定只有當2個及以上GMM模型確定的標簽為同一值時才將這個數(shù)據(jù)及對應標簽加入到訓練集。此外,為了使集成的結果有利于分類準確率的提高,應該保證每一個GMM對有標記數(shù)據(jù)的預測標簽準確率大于50%,本文實驗中將這一數(shù)值設為60%。
2) 將數(shù)據(jù)集分為訓練數(shù)據(jù)集與測試數(shù)據(jù)集,本文中選取打亂順序之后的新數(shù)據(jù)集的前1 500個樣本作為訓練數(shù)據(jù)集,后297個樣本作為測試數(shù)據(jù)集。
本文的實驗數(shù)據(jù)集采用python的機器學習工具包sklearn中自帶的手寫數(shù)字集digists,digists數(shù)據(jù)集采集了43人的手寫數(shù)字,共包含1 797個0~9的數(shù)字,每個數(shù)字由8*8的矩陣構成,矩陣中的元素取值范圍是0~16,代表圖像的灰度值。
心血管疾病主要是指由血液粘稠、動脈粥樣化、高脂血癥或者高血壓等疾病所致的心臟及全身組織發(fā)生缺血性或出血性的疾病,具有發(fā)病率高、致殘率和致死率高的特點,臨床主要以心悸、胸痛、頭痛和惡心嘔吐等為特征,嚴重危害著患者的生命健康[1]。本次研究主要分析將社區(qū)公共衛(wèi)生護理干預應用于心血管疾病的護理中,并觀察其應用效果,現(xiàn)報告如下。
1) 將數(shù)據(jù)集打亂順序,形成新的數(shù)據(jù)集,以便多次進行驗證實驗。
②局部性病變。主要包括:復雜的尿道和陰莖病變導致無法置入電切鏡的患者;無法采用截石位的患者;合并巨大膀胱憩室,需開放手術一并處理者。合并體積較大的膀胱腫瘤,不宜與前列腺同時處理,應先切除腫瘤后再考慮TUPKP手術。PSA異常、MRI或肛門指檢異常,懷疑前列腺癌的患者,應首先通過前列腺穿刺活檢排除腫瘤;對于有神經(jīng)系統(tǒng)疾病、脊髓外傷等相關病史的患者應進行尿動力學檢查以排除神經(jīng)源性膀胱。
3) 將訓練數(shù)據(jù)分為有標記數(shù)據(jù)與無標記數(shù)據(jù)。
對于行政事業(yè)單位資產(chǎn)管理和預算管理,國家已經(jīng)多次提出要對預算制度進行深化改革,使資產(chǎn)預算更準確,能夠真正發(fā)揮它的作用。然而要想完善該體制就要將資產(chǎn)管理做到細化,與預算管理有效結合,這一管理方法能夠更好地保護國有資產(chǎn)不流失,對資產(chǎn)預算的準確編制來管理資產(chǎn),是國家財政管理的必然要求。
4) 利用集成GMM聚類并結合投票規(guī)則對無標記數(shù)據(jù)賦予標簽,并將有標記數(shù)據(jù)作為訓練數(shù)據(jù)集1,將有標記數(shù)據(jù)與賦予了標簽的無標記數(shù)據(jù)合并為訓練數(shù)據(jù)集2。
5) 將訓練數(shù)據(jù)集1與訓練數(shù)據(jù)集2分別經(jīng)過具有相同結構的CNN進行分類器的訓練,并對測試集進行分類,對二者的分類準確率進行比較研究。
本文采用的CNN結構示意圖如圖3所示。示意圖中C表示卷積層,S表示池化層,F表示全連接層。卷積層的濾波器尺寸為3*3,在卷積層之后有著激活函數(shù),本文激活函數(shù)均采用ReLU方法,池化層的濾波器尺寸為2*2,采用最大值池化。為了避免訓練過程中模型的過擬合,全連接層與輸出層之間的連接采用一定比例的隨機失活,本文中的實驗隨機失活比例設為0.5。本文的損失函數(shù)為交叉熵。
圖3 本文CNN結構示意圖
實驗一 本次實驗選取3個GMM模型作為基聚類器,當3個基聚類器中有2個及以上依據(jù)投票規(guī)則對未標記數(shù)據(jù)賦予的標簽相同時,將這個未標記數(shù)據(jù)及其被賦予標簽的眾數(shù)作為訓練數(shù)據(jù)添加到訓練集中。將有標記樣本的數(shù)目設置為樣本類別數(shù)目10的3,5,8,10,30倍,分別對只用有標記樣本訓練和結合集成GMM聚類訓練的CNN分類器進行了多次訓練,并對平均準確率進行比較,實驗結果如圖4所示。
圖4 3個GMM集成準確率對比圖
實驗二 本次實驗選取5個GMM模型作為基聚類器,當5個基聚類器中有4個及以上依據(jù)投票規(guī)則對未標記數(shù)據(jù)賦予的標簽相同時,將這個未標記數(shù)據(jù)及其被賦予標簽的眾數(shù)作為訓練數(shù)據(jù)添加到訓練集中。將有標記樣本的數(shù)目設置為樣本類別數(shù)目10的3,5,8,10,30倍,分別對只用有標記樣本訓練和結合集成GMM聚類訓練的CNN分類器進行了多次訓練,并對平均準確率進行比較,實驗結果如圖5所示。
對于代孕,世間有著各種看法:保守主義者認為,這是在玩弄生命的奇跡;而女權主義者則將代孕母親比作妓女,認為她們是在出租自己的身體。
圖5 5個GMM集成準確率對比圖
整體的實驗結果如表1所示。
表1 不同方式訓練的分類器準確率
實驗結果分析:從實驗結果可以看出,在有標記樣本數(shù)目較少時,結合集成GMM聚類訓練得到的分類器要比只用少量有標記數(shù)據(jù)訓練得到的分類器分類準確率有著較大提高,說明本文提出的用于解決少標記樣本圖像分類方案的有效性。隨著有標記樣本數(shù)目的提高,只用有標記樣本訓練的分類器分類準確率不斷提高,而結合集成GMM聚類所訓練的分類器分類準確率則變化不大。當有標記樣本數(shù)目超過一定值之后,只用有標記樣本訓練的分類器分類準確率要高于結合集成GMM聚類所訓練的分類器分類準確率,這是因為GMM算法本身有一定的聚類誤差,當將賦予標簽有誤的樣本作為訓練樣本時,導致分類器學到了噪聲從而使分類準確率降低。對比實驗一與實驗二,通過增加基聚類器數(shù)目確實可以增加分類準確率,但提升效果并不明顯。
本文基于集成GMM聚類及標簽傳遞的思想,提出了用于解決少標記樣本圖像分類的解決框架,經(jīng)過實驗驗證了在有標記樣本數(shù)目較少時,結合集成GMM聚類比只用少量的已標記數(shù)據(jù)訓練分類器得到的分類準確率有了較大的提升。本文一開始想要解決少量標記樣本圖像分類問題時想到了用聚類的方法去輔助分類,但沒有認識到GMM聚類算法雖然相對而言聚類效果不錯,但聚類結果也存在不穩(wěn)定的問題,之后想到可以用集成的思想去減小聚類誤差,經(jīng)過實驗集成聚類的效果確實更加穩(wěn)定與有效。從實驗結果可知,聚類的準確率對分類器的訓練有著較大影響,因此,論文以后的研究重點將放在:(1)探索提高聚類效果的方法,例如將遺傳算法用于GMM參數(shù)的獲取(2)探索如何將已知信息引入到聚類的過程中,實現(xiàn)有監(jiān)督聚類的有效途徑(3)在更加困難的數(shù)據(jù)集上進行算法有效性的測試。