郭昕剛, 沈紫琪
(長春工業(yè)大學 計算機科學與工程學院, 吉林 長春 130102)
面部表情相較于語言、動作等方式在大多數(shù)場景下更能真實有效地判斷人們的心理活動,是人類表達感情中最具判斷力的方式[1]。1971年,美國心理學家Ekman系統(tǒng)性地將面部表情分為:生氣、害怕、厭惡、開心、悲傷、驚訝六類[2]。隨著人工智能、計算機視覺的飛速發(fā)展,人臉表情識別技術(shù)作為圖像識別的分支逐步成為該領(lǐng)域的熱門研究對象,目前將深度學習引入表情識別領(lǐng)域中,此時的研究大多利用卷積神經(jīng)網(wǎng)絡(luò)[3]。謝銀成等[4]在ResNet網(wǎng)絡(luò)中嵌入自注意力機制,并在損失函數(shù)中加入權(quán)重系數(shù),以此針對類別不均衡數(shù)據(jù)集;冉瑞生等[5]以ResNet18為基礎(chǔ),先將特征圖遮掩一部分,再利用注意力機制進行表情判定;張波等[6]提出在普通卷積層中加入可分離卷積的網(wǎng)絡(luò)為基礎(chǔ),并引入殘差機制和通道注意力機制,對面部進行識別;付小龍等[7]以ResNet18網(wǎng)絡(luò)為主體,利用聯(lián)合損失函數(shù)進行表情識別;潘海鵬等[8]將淺層特征分別與多尺度特征和注意力機制融合,從而對人臉表情進行判定;Jiang D H等[9]針對瓶頸問題提出RexNet網(wǎng)絡(luò),進行表情識別。
文中提出一種網(wǎng)絡(luò):首先對圖片裁剪掩碼,進行數(shù)據(jù)增強處理;然后利用Ghost模塊[10]減少網(wǎng)絡(luò)參數(shù)量,并在Ghost模塊后引入壓縮-激勵模塊減少噪聲影響,通過通道注意力機制和多尺度空間注意力機制獲得更精細的特征;最后利用聯(lián)合損失函數(shù)[11]減少類內(nèi)距離,以此提高表情識別率。
改造直接收益方面,以SNCR系統(tǒng)年運行8 000小時計算:稀釋水泵電能消耗8 800kWh,約3 960元;除鹽水消耗量減少1 816噸,約7 264元;氨水消耗量減少110噸,約81 767元。而單臺爐整體改造費用為42 000元,可見從SNCR噴嘴系統(tǒng)改造中產(chǎn)生良好的經(jīng)濟效益的同時也為節(jié)能減排工作發(fā)揮了明顯的作用,在同類型鍋爐中值得推廣應(yīng)用。
治療后,平衡針灸治療組患者的生活質(zhì)量評分為(78.12±8.12)分,常規(guī)針灸治療組患者的生活質(zhì)量評分為(65.12±7.56)分,組間數(shù)據(jù)比較,差異具有統(tǒng)計學意義(P<0.05)。詳見表2。
文中網(wǎng)絡(luò)模型以殘差網(wǎng)絡(luò)為基礎(chǔ),融合裁剪掩碼模塊、Ghost模塊、通道注意力機制、多尺度空間注意力機制和聯(lián)合損失函數(shù),網(wǎng)絡(luò)模型結(jié)構(gòu)流程如圖1所示。
圖1 網(wǎng)絡(luò)模型結(jié)構(gòu)
裁剪掩碼是將圖像隨機遮掩一部分,遮掩區(qū)域和大小都隨機選擇,增加隨機性更好地利用整張圖像的全局信息。利用歸一化層(Batch Normalization, BN)平衡特征數(shù)據(jù),與常規(guī)Ghost模塊[10]不同的是:采用深度可分離卷積進一步減少冗余參數(shù)量,引入壓縮-激勵模塊減少提取特征的噪聲干擾;然后使用通道注意力機制給通道分配不同權(quán)重,增加部分通道的重要性,設(shè)計多尺度空間注意力機制,將多尺度特征與空間注意力融合,用更大的感受野提取紋理特征;最后使用聯(lián)合損失函數(shù)增大類外距離,減少類內(nèi)距離,精準分類表情。
蒸汽發(fā)生器是核電站的關(guān)鍵設(shè)備,其性能好壞直接關(guān)系到電廠的安全運行,而蒸汽發(fā)生器中泥渣沉積會濃縮二次側(cè)水中的離子濃度,有的甚至達到104倍以上,如氯離子,能增加傳熱管和其他管段上發(fā)生晶間應(yīng)力腐蝕、點蝕的概率,從而影響蒸汽發(fā)生器的使用壽命[4-5]。因此,國內(nèi)電廠普遍采取水力沖洗的辦法,在大修期間,對蒸汽發(fā)生器二次側(cè)泥渣進行沖洗,以避免泥渣大量堆積,危及蒸汽發(fā)生器安全運行的情況。
為提升網(wǎng)絡(luò)泛化力,需要對數(shù)據(jù)做增強處理,文中受文獻[12]的啟發(fā),設(shè)計裁剪掩碼模塊(Cutout),但與文獻[12]不同的是,對圖像的隨機區(qū)域遮掩的時候,遮掩形狀也隨機選擇,遮掩區(qū)域使用黑色,但不宜過大,部分經(jīng)過遮掩處理的圖片如圖2所示。
圖2 剪裁掩碼圖像
Cutout模塊的具體思路如下:
1)根據(jù)輸入圖像得到圖像的寬和高,確定掩碼像素起始值位置;
2)隨機選擇掩碼像素邊長,規(guī)定掩碼像素邊長的上下限;
采取FER2013和CK+兩種經(jīng)典的人臉表情數(shù)據(jù)集。FER2013一共有35 886張圖片,其中訓練集占28 708張,驗證集和測試集各占3 589張,共有7種表情。而CK+數(shù)據(jù)集樣本中的7類表情圖像來自不同的國家、民族和性別,且是比較完善的公開數(shù)據(jù)集。
為研究每個模塊對網(wǎng)絡(luò)性能的影響,以殘差網(wǎng)絡(luò)為基線,依次引入Cutout、Ghost模塊、CAM、MSAM和聯(lián)合損失函數(shù)(Joint Loss Function, JLF)進行表情識別。
上述工藝已成功地應(yīng)用于三門1、2號機組和海陽1、2號機組空氣導(dǎo)流板導(dǎo)流裝置的制作,共計240件。該工藝施工簡單,能滿足連續(xù)批量化的工業(yè)生產(chǎn)要求,具有良好的質(zhì)量穩(wěn)定性和經(jīng)濟效益。
xi=Rand(0,H),
yi=Rand(0,W),
mask[xi:xi+h,yi:yi+w]=0,
(1)
式中:H,W----圖片的高和寬;
在登錄界面中醫(yī)院的工作人員需要輸入自己的姓名加密碼進入系統(tǒng),醫(yī)院使用到本模塊的角色有前臺掛號人員,醫(yī)生和收費的工作人員。此界面需要操作員表(TB_DIC_CZYXX),該表數(shù)據(jù)設(shè)計如下(見表2)
h,w----經(jīng)過隨機函數(shù)選擇掩碼像素的寬和高;
圖4的Conv卷積層中,3×3,1×1,5×5,7×7表示卷積核大小;BN表示歸一化操作(Batch normalization, BN);ReLU、Sigmoid表示激活函數(shù)。
超市、農(nóng)貿(mào)市場等主要采樣地點和不同生產(chǎn)季節(jié),餐桌醬油和烹調(diào)醬油中菌落總數(shù)的污染水平無統(tǒng)計學差異,分析原因,應(yīng)該是研究對象為預(yù)包裝且樣品一般為高鹽高滲透壓,流通過程受環(huán)境影響較小,常見細菌在醬油的高鹽環(huán)境下不易增殖且呈下降趨勢[3]。主要產(chǎn)區(qū)和不同采樣地區(qū)菌落總數(shù)的污染存在差異,應(yīng)該與不同企業(yè)加工過程中衛(wèi)生質(zhì)量的控制效果存在差距,預(yù)包裝產(chǎn)品的銷售范圍區(qū)域差別較大有關(guān)。采自農(nóng)村的烹調(diào)醬油中菌落總數(shù)≥10 cfu/mL的樣品比例(57.03%)高于城市(49.68%),可能與城市和農(nóng)村地區(qū)該類產(chǎn)品的品牌分布有關(guān)[4]。
特征圖中每個通道存在不同重要性,給較重要通道增加關(guān)注度,提高網(wǎng)絡(luò)抓取重要信息的能力,故設(shè)計一種通道注意力機制(Channel Attention Mechanism, CAM)。CAM具體流程如圖3所示。
圖3 通道注意力機制
圖3中,將輸入特征K分別通過平均池化和最大池化壓縮特征寬和高維度后逐元素相加,聚合大量空間信息,并將合并的特征圖送入卷積核為1的卷積中,降低r倍的通道維度(C表示原通道維度),在減少冗余參數(shù)量的同時,更好地擬合通道間的相關(guān)性,使用卷積核為3的卷積恢復(fù)原來的通道維度C,利用Sigmoid函數(shù)對特征圖激活,并將每個通道描述符壓縮至0~1范圍內(nèi),最后將得到的通道注意力圖與輸入特征圖相乘,得加權(quán)特征圖Mc(K)。具體公式為
Mc(K)=K×
σ(f3×3(f1×1(add(AP(K),MP(K))))),
(2)
式中:σ----Sigmoid激活函數(shù);
脂褐素形成原因主要是脂質(zhì)過氧化產(chǎn)物作用結(jié)果。脂質(zhì)過氧化終產(chǎn)物丙二醛(MDA)具有強烈的交聯(lián)性質(zhì),能夠與體內(nèi)含游離氨基的磷脂、酰乙醇胺、蛋白質(zhì)或核酸等生物大分子交聯(lián)形成Schiff堿,使膜脂蛋白之間或其本身之間相互交聯(lián),變成比原來大幾倍甚至幾十倍的不溶于水的大分子聚合物,經(jīng)溶酶體吞噬后,逐步沉積形成脂褐素[5]。
式中:cyi----第yi類的特征中心,當yi類訓練更新時,為避免新中心抖動太大,選擇在更新值中加入系數(shù)。
AP----平均池化;
MP----最大池化。
做表情識別時,一般以眼睛、眉毛等特征作為依據(jù)判斷,因為這些特征包含紋理信息較多,表達不同情緒時會出現(xiàn)相應(yīng)變化,不同圖片人臉所占圖片的比例不同,故將多尺度特征與空間注意力機制相結(jié)合[13],利用不同感受野提取圖片信息,并增強關(guān)鍵點權(quán)重,提高網(wǎng)絡(luò)特征提取能力。多尺度空間注意力機制(Multi-scale Spatial Attention Mechanism, MSAM)的具體流程如圖4所示。
圖4 多尺度空間注意力機制
xi,yi----掩碼像素在圖片中的起始位置。
將輸入特征圖F∈RC×H×W分別送入三條分配不同卷積核的支路,實現(xiàn)不同感受野提取圖像特征,得到更多特征信息,三條支路的最后都利用BN層使小批量中的數(shù)據(jù)歸一化和ReLU激活函數(shù)增強網(wǎng)絡(luò)魯棒性,分別得到三個分支特征圖F1,F2,F3∈R1×H×W,將這三條支路輸出特征圖逐元素相加,融合多尺度特征信息。將融合后的結(jié)果引入3×3的卷積中,卷積步長為1,填充為same,最后利用Sigmoid對融合的特征圖激活,將空間特征描述符壓縮到0~1,與F相乘可突出定位目標,得最終的加權(quán)特征圖Ms(F)。具體公式為
F1=δ(BN(f3×3(F))),
F2=δ(BN(f5×5(f1×1(F)))),
F3=δ(BN(f7×7(F))),
Ms(F)=F×σ(f3×3(add(F1,F2,F3))),
(3)
式中:F1,F2,F3----分別表示經(jīng)過三條不同支路后的輸出特征;
BN----歸一化層。
特征圖經(jīng)過網(wǎng)絡(luò)處理后,一般使用交叉熵函數(shù)進行計算,
(4)
式中:xi----第i個樣本在進入全連接層以前的輸出,屬于第yi類別;
wj----第j個全連接層權(quán)重參數(shù);
2017年8月—2018年7月期間,110例急性胰腺炎合并脂肪肝疑似患者于我院接受CT診斷(55例)和超聲檢查的(55例),行分組對照研究(觀察組和對照組)。觀察組患者男23例,女32例,年齡35~72歲,平均年齡(58.12±4.54)歲。對照組患者男21例,女34例,年齡33~75歲,平均年齡(59.29±5.42)歲。兩組患者的基本資料對照相仿(P>0.05),本研究具有可行性。
m----一次訓練中批量大小;
n----類別數(shù)目。
為將同一類的表情更加緊湊,增大不同表情之間的差異,文中在交叉熵的基礎(chǔ)上添入中心損失,中心損失計算過程為
(5)
f----卷積,1×1,3×3表示卷積核大小;
則cyi的更新值公式為
(6)
式中:β----類別中心更新系數(shù)。
總損失函數(shù)公式為
L=λLc+Lloss,
(7)
式中:λ----中心損失系數(shù),用于控制損失函數(shù)所占比重。
CUI Rui, DENG Xiaolong. Experimental study on flotation performance of a novelfatty acid collector[J]. Conservation and utilization of mineral resources, 2018(6):46-50.
3)在輸入圖像寬和高的區(qū)域內(nèi),隨機選擇位置作為掩碼像素邊長起始位置,加入掩碼像素邊長,即可得到一個隨機形狀,將此區(qū)域設(shè)置為黑色,掩碼像素矩陣計算公式為
編程語言為python3.7,操作系統(tǒng)是64位的Ubuntu 18.04.5,深度學習框架則是TensorFlow 2.1.0。
進行盾構(gòu)穿越掘進時,盾構(gòu)姿態(tài)要避免反復(fù)蛇形糾偏;利用盾構(gòu)主推油缸各分區(qū)壓力差及行程差來控制其糾偏量,保持姿態(tài)趨勢穩(wěn)定,每環(huán)推進油缸分區(qū)的行程差控制在30mm以內(nèi),盾構(gòu)水平/垂直姿態(tài)在±30mm以內(nèi),糾偏量控制在5mm以內(nèi)。
本研究還發(fā)現(xiàn)2015年MV野毒株組內(nèi)遺傳變異較小,而與疫苗株(A型)比較遺傳變異較大。同時也發(fā)現(xiàn)有3例麻疹患者之前接種過麻疹疫苗,由于基因測序未發(fā)現(xiàn)滬191麻疹疫苗株,且前2例患者接種疫苗到發(fā)病時間較短,可能在接種前已經(jīng)感染MV野毒株,最后1例考慮為免疫失敗。馮燕等[15]研究顯示,A基因型疫苗免疫后,對國外B、D型MV毒株侵襲的保護效果,要遠遠好于對我國的H1a流行株的保護。因此,MV野毒株核苷酸及氨基酸變異情況,是否會引起抗原性變化影響疫苗株保護效果,還有待進一步研究。
每個模塊在兩個數(shù)據(jù)集上的識別準確率見表1。
顯然,該問題至少存在一個最優(yōu)解。模型(9)—(10)可用于求解它,且數(shù)值模擬均顯示其具有良好的收斂性和穩(wěn)定性。取n=20, m=110, p=50,對20個隨機初始點,圖1顯示了模型的前5個輸出變量隨時間t的變化軌跡。它們可能收斂到不同的值,但均經(jīng)過短暫運行后收斂。圖2顯示了對20個隨機初始點,誤差隨時間t趨于零的狀態(tài)軌跡。
表1 網(wǎng)絡(luò)中不同模塊識別率對比
由表1可知,基線網(wǎng)絡(luò)上每加入一個模塊,識別準確率都會存在一定的增長,說明每個模塊在表情識別領(lǐng)域的可行性。
為驗證文中網(wǎng)絡(luò)在表情識別領(lǐng)域的可行性。分別選用多種性能良好的網(wǎng)絡(luò)相比較。采用FER2013數(shù)據(jù)集進行驗證的結(jié)果見表2。
表2 在FER2013數(shù)據(jù)集上不同方法準確率比較 %
表2結(jié)果表明,文中網(wǎng)絡(luò)模型在FER2013數(shù)據(jù)集上得到的識別率皆高于表2中其他的網(wǎng)絡(luò)模型,表示文中網(wǎng)絡(luò)在人臉表情識別方面的可行性。
文中模型在FER2013數(shù)據(jù)集識別結(jié)果的混淆矩陣見表3。
表3 FER2013識別結(jié)果混淆矩陣
由表3可知,7種表情識別率基本處于80%以上,其中,悲傷可以被正確分類,生氣相對于其他表情來說識別率較低。
使用不同的網(wǎng)絡(luò)在CK+數(shù)據(jù)集上得到的結(jié)果見表4。
表4 CK+數(shù)據(jù)集在不同識別方法準確率比較 %
由表4同樣得出,文中網(wǎng)絡(luò)的識別準確率要高于這些網(wǎng)絡(luò)。由此說明,文中網(wǎng)絡(luò)模型存在可行性。
治山治水治窮 建設(shè)生態(tài)家園——四川省坡耕地水土流失綜合治理試點工程建設(shè)紀實…………………………………………………………………… (20)
文中模型在CK+數(shù)據(jù)集識別結(jié)果的混淆矩陣見表5。
表5 CK+識別結(jié)果混淆矩陣
其中表情識別率都在85%以上,生氣和驚訝可以正確分類,而高興相對于其他表情來說比較低。
針對人臉表情識別提出對傳統(tǒng)卷積網(wǎng)絡(luò)進行改進的方法,在殘差網(wǎng)絡(luò)中使用Cutout模塊進行數(shù)據(jù)增強,并引入利用深度可分離卷積代替深度卷積的Ghost模塊,進一步減少不必要參數(shù),同時加入通道注意力模塊加強對表情區(qū)域的關(guān)注,利用多尺度空間注意力機制將多尺度特征與空間注意力結(jié)合,有助于提高模型對表情的識別能力,使用聯(lián)合損失函數(shù)增加類與類之間的距離,減少類內(nèi)距離,從而減小相近表情分類錯誤率。但文中并沒有對數(shù)據(jù)集中的圖片就一個關(guān)鍵點遮掩,所以,可進一步優(yōu)化網(wǎng)絡(luò)實驗。