摘 要 蛋白質(zhì)亞細(xì)胞定位是分子細(xì)胞生物學(xué)和蛋白質(zhì)組學(xué)的一個(gè)重要課題,有助于了解蛋白質(zhì)的性能和功能。熒光顯微鏡法是亞細(xì)胞定位最常用的方法和手段,常見方法有專家觀測(cè)熒光圖像標(biāo)注蛋白質(zhì)、利用形態(tài)學(xué)特征提取自動(dòng)識(shí)別以及神經(jīng)網(wǎng)絡(luò)提取特征等,但多標(biāo)記熒光蛋白質(zhì)細(xì)胞圖像的多標(biāo)簽分類任務(wù)其準(zhǔn)確度還遠(yuǎn)低于人工觀測(cè)。
關(guān)鍵詞 蛋白質(zhì)亞細(xì)胞定位;神經(jīng)網(wǎng)絡(luò);多標(biāo)簽分類
Abstract subcellular localization of proteins is an important subject in molecular cell biology and proteomics, which is helpful to understand the properties and functions of proteins. Fluorescence microscopy is the most commonly used method and means of subcellular localization. Common methods include expert observation of fluorescent image to label protein, automatic recognition by morphological feature extraction and feature extraction by neural network, etc. However, the accuracy of multi label classification task of multi label fluorescent protein cell image is far lower than that of manual observation.
Key words Protein subcellular localization; Neural network; Multi label classification
引言
隨著技術(shù)的發(fā)展,高通量熒光顯微鏡已經(jīng)可以自動(dòng)快速的產(chǎn)生大量亞細(xì)胞定位圖像,位于不同亞細(xì)胞位置的蛋白質(zhì)會(huì)在顯微圖像中呈現(xiàn)不同的分布形態(tài),也可觀測(cè)到某種蛋白質(zhì)同時(shí)存在于多個(gè)亞細(xì)胞的情況,人工觀測(cè)方法基于分布形態(tài)的特征標(biāo)注蛋白質(zhì)亞細(xì)胞位置。也有學(xué)者利用機(jī)器學(xué)習(xí)的方法自動(dòng)識(shí)別多標(biāo)記的顯微圖像,但由于某些細(xì)胞器太小,如線粒體蛋白質(zhì)分布呈現(xiàn)為小顆粒,相比于大的細(xì)胞器則很容易被忽略,所以現(xiàn)存的多標(biāo)記蛋白質(zhì)亞細(xì)胞分類算法的精度還遠(yuǎn)比不上專家級(jí)的人工標(biāo)注。卷積神經(jīng)網(wǎng)絡(luò)可以自動(dòng)學(xué)習(xí)到分層次的特征表示,其特征具有平移、伸縮、扭曲等不變性,可以準(zhǔn)確獲取到細(xì)微的細(xì)胞器特征,提高多標(biāo)記蛋白質(zhì)研習(xí)班分類算法的精度。
1 數(shù)據(jù)集
人類蛋白質(zhì)圖譜(The Human Protein Atlas,簡(jiǎn)稱HPA)是瑞典的一項(xiàng)旨在繪制細(xì)胞,組織和器官中所有人類蛋白質(zhì)的倡議,其使用共聚焦顯微鏡繪制人類蛋白質(zhì)組的亞細(xì)胞分布圖,數(shù)據(jù)庫的當(dāng)前版本HPAv18包含了12390種蛋白質(zhì)42774張圖像數(shù)據(jù)(www.proteinatlas.org)。圖1為編號(hào)HPA041144: U-2 OS圖片,分辨率為512x512,分為四個(gè)通道,其中a綠色為熒光蛋白質(zhì),b藍(lán)色為細(xì)胞核,c紅色為細(xì)胞微管,d黃色為內(nèi)質(zhì)網(wǎng),e為四通道合成的細(xì)胞顯微圖。
該數(shù)據(jù)集有兩個(gè)主要的難點(diǎn)。第一,不同類別間學(xué)習(xí)的困難程度不同,如細(xì)胞質(zhì)、細(xì)胞核等在細(xì)胞中較大的細(xì)胞器容易被學(xué)習(xí)到,屬于簡(jiǎn)單的學(xué)習(xí)類別。而溶酶體、線粒體等較小的細(xì)胞器,在細(xì)胞圖像中以十幾甚至是幾個(gè)像素呈現(xiàn),這些微小細(xì)胞器屬于困難的學(xué)習(xí)類別。當(dāng)一個(gè)樣本同時(shí)擁有簡(jiǎn)單和困難的類別時(shí),簡(jiǎn)單類別占主導(dǎo)地位而困難類別則被忽略。第二,多標(biāo)簽分類且類別高度不平衡。定位類別一共分為28類亞細(xì)胞結(jié)構(gòu),分別為細(xì)胞核質(zhì)、細(xì)胞質(zhì)、細(xì)胞質(zhì)膜、線粒體、高爾基體等,每張圖像有1~6個(gè)標(biāo)簽,其中有12885張圖像擁有最常見的標(biāo)簽“細(xì)胞核質(zhì)”(nucleoplasm),而只有42張圖像擁有最少見的標(biāo)簽“棒環(huán)結(jié)構(gòu)”(rods and rings),28類間數(shù)據(jù)量高度不平衡。
2 方法
通常情況下,多標(biāo)簽圖像分類問題在用神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)時(shí),首先通過卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡(jiǎn)稱CNN)將圖像信息壓縮提取成一維特征向量,元素個(gè)數(shù)為類別總數(shù),記為預(yù)測(cè)輸出向量。然后使用Sigmoid函數(shù)對(duì)其激活:
由表1可知,在同樣神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)下,改進(jìn)后的Floss比BCEloss效果提升約16%,比Loc-CAT模型提高約25%,有效的解決HPAv18數(shù)據(jù)集中困難類和少量樣本的問題,進(jìn)一步逼近專家級(jí)標(biāo)注的精確度。
4 結(jié)束語
HPAv18數(shù)據(jù)集中的困難類別學(xué)習(xí)和樣本不平衡問題是許多生物圖像上的共同問題,如何利用圖像技術(shù)自動(dòng)識(shí)別分類節(jié)約人力物力是一個(gè)具有實(shí)用價(jià)值的研究方向。本文利用卷積神經(jīng)網(wǎng)絡(luò)加上改進(jìn)Floss的方法,在多標(biāo)簽蛋白質(zhì)亞細(xì)胞定位任務(wù)的HPAv18數(shù)據(jù)集上驗(yàn)證了對(duì)上述兩個(gè)問題的效果,宏F1得分比之前方法提高明顯,進(jìn)一步逼近專家級(jí)標(biāo)注的精確度。
參考文獻(xiàn)
[1] Lin T Y,Goyal P,Girshick R,et al. Focal Loss for Dense Object Detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,(99):2999-3007.
[2] Sullivan D P,Winsnes C F,?kesson Lovisa,et al. Deep learning is combined with massive-scale citizen science to improve large-scale image classification[J]. Nature Biotechnology,2018,36(9):172.
[3] Ioffe S,Szegedy C . Batch normalization: accelerating deep network training by reducing internal covariate shift[C]. International Conference on International Conference on Machine Learning. JMLR.org,2015:16.
作者簡(jiǎn)介
譚博(1995-),男,廣東湛江人;學(xué)歷:研究生,現(xiàn)就職單位:廣東工業(yè)大學(xué),研究方向:圖像處理。