周 淵,郭鵬智
(1.蘭州交通大學(xué) 國(guó)家綠色鍍膜技術(shù)與裝備工程技術(shù)研究中心,蘭州 730070;2.蘭州交通大學(xué) 光電技術(shù)與智能控制教育部重點(diǎn)實(shí)驗(yàn)室,蘭州 730070)
發(fā)現(xiàn)或者設(shè)計(jì)一種新型更高性能的有機(jī)光電材料是一個(gè)非常艱難的過程,通常都在機(jī)緣巧合和數(shù)次失敗后獲得.傳統(tǒng)經(jīng)驗(yàn)豐富的化學(xué)家拿到一個(gè)新的化合物之后從結(jié)構(gòu)大致能夠估測(cè)有無進(jìn)一步進(jìn)行實(shí)驗(yàn)驗(yàn)證的價(jià)值,如果再伴以分析測(cè)試結(jié)果,可以在一定程度上提高估測(cè)準(zhǔn)確度,但是面對(duì)成千上萬(wàn)個(gè)化合物進(jìn)行實(shí)驗(yàn)驗(yàn)證,人力就有局限.為了接近光電材料效率的理論極限,傳統(tǒng)的研究方法主要包括:設(shè)計(jì)和合成新的供體和受體材料,優(yōu)化制造條件和器件結(jié)構(gòu)以及探索器件的運(yùn)行機(jī)制.前兩種方法是一種試錯(cuò)程序,需要較高的材料成本、長(zhǎng)時(shí)間的消耗和大量的人力;最后一種方式更多是從第一性原理出發(fā)[1],研究材料的物理化學(xué)性質(zhì),這類方法需要高性能計(jì)算支持,通用性較差.
近年來,在藥物發(fā)現(xiàn)[2-3]、熱電材料[4]和催化研究[5-6]等領(lǐng)域?qū)C(jī)器學(xué)習(xí)與材料信息學(xué)結(jié)合,通過機(jī)器學(xué)習(xí)方法有效探尋了結(jié)構(gòu)和性能之間的密切關(guān)系,為設(shè)計(jì)材料提供了有益指導(dǎo)[7].
本文結(jié)合監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的優(yōu)勢(shì),以富勒烯為受體材料的聚合物太陽(yáng)能電池(polymer solar cells,PSCs)給體材料[8]為例,對(duì)大約1 000個(gè)材料數(shù)據(jù)組成的數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí).先使用無監(jiān)督學(xué)習(xí)中聚類算法進(jìn)行數(shù)據(jù)集聚類并標(biāo)記,然后使用監(jiān)督學(xué)習(xí)中隨機(jī)森林方法對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練、測(cè)試;探尋和驗(yàn)證PSCs給體材料篩選的機(jī)器學(xué)習(xí)方法,并針對(duì)機(jī)器學(xué)習(xí)方法在其它類型光電材料設(shè)計(jì)的共性問題上進(jìn)行拓展[9],嘗試篩選或?qū)ふ覞撛诰哂懈咝阅艿挠袡C(jī)光電材料的新方法.
數(shù)據(jù)集中的主要特征包括短路電流密度JSC、開路電壓VOC、填充因子FF、能量轉(zhuǎn)換效率(power conversion efficiency,PCE)、最高占據(jù)分子軌道(highest occupied molecular orbital,HOMO)、最低未占分子軌道(lowest unoccupied molecular orbital,LUMO)、分子線性描述符(simplified molecular input line entry system,SMILES)等.其中:能量轉(zhuǎn)換效率是衡量和反映太陽(yáng)能光伏器件質(zhì)量和技術(shù)水平的重要指標(biāo)[10-11],其值為器件最大的輸出功率Pmax與入射光輸入功率Pin之比,表示式為
由式(1)可知,器件的能量轉(zhuǎn)換效率在標(biāo)準(zhǔn)入射光強(qiáng)度下與VOC,JSC和FF正相關(guān).傳統(tǒng)PSCs材料設(shè)計(jì)也緊密圍繞著設(shè)計(jì)合成具有高VOC和JSC的分子展開.通過數(shù)據(jù)集統(tǒng)計(jì)形成四者相互關(guān)系圖,如圖1所示.從圖1可以看出:VOC和JSC、VOC與FF之間雖有一定關(guān)系,但并不線性相關(guān);FF與JSC線性相關(guān),實(shí)際中還受制于器件制備、溶解度等影響[12].因此,將VOC,JSC和FF作為一個(gè)整體去考慮,使用能量轉(zhuǎn)換效率對(duì)PSCs性能進(jìn)行評(píng)價(jià).
圖1 V OC,J SC,F(xiàn)F和PCE分布及相互關(guān)系圖Fig.1 Distribution and interrelationship of V OC,J SC,F(xiàn)F and PCE
原則上,器件的電子特征與材料分子結(jié)構(gòu)有關(guān),器件的最終性能只取決于其材料,而制造技術(shù)和器件結(jié)構(gòu)的功能只是更好地發(fā)揮材料的作用.分子之間特征相似則化學(xué)性質(zhì)相似,反映在分子指紋中則具有相似的指紋,如芳香材料分子具有環(huán)狀大π鍵共軛結(jié)構(gòu),與該結(jié)構(gòu)類似的材料具有較高的電子傳輸能力,從而展現(xiàn)出較好的導(dǎo)電性和豐富的光學(xué)特性,是最有潛力的有機(jī)光電材料之一[13].
為了表示材料分子的化學(xué)結(jié)構(gòu),采用線性的字符串來描述材料分子的三維化學(xué)結(jié)構(gòu).通過開源工具RDKit,分別計(jì)算樣本SMILES生成長(zhǎng)度為167位的分子訪問系統(tǒng)(molecular access system,MACCS)分子指紋和2 048位擴(kuò)展分子指紋(extended connectivity fingerprint,ECFP)序列,完成分子結(jié)構(gòu)特征編碼,如圖2所示.對(duì)于聚合物PBDD4T-2F的重復(fù)單元,首先生成SMILES,然后分別計(jì)算兩種分子指紋并存儲(chǔ),指紋序列中1表示具有某種結(jié)構(gòu)特征.該聚合物重復(fù)單元中存在甲基、芳香、六元環(huán)、氧元素和環(huán),故MACCS分子指紋序列中160,162,163,164和165位值為1.ECFP指紋長(zhǎng)度更大,因此表示的特征細(xì)節(jié)更多.
圖2 分子指紋生成過程Fig.2 Molecular fingerprint generation process
另外,為提高機(jī)器學(xué)習(xí)效率,對(duì)數(shù)據(jù)集進(jìn)行特征選擇以消除相關(guān)特征、無關(guān)特征和冗余特征.為消除特征之間值域差別較大帶來潛在權(quán)重的問題,對(duì)數(shù)據(jù)集除分子指紋外其他特征進(jìn)行了標(biāo)準(zhǔn)化,形成1 056個(gè)給體材料樣本的數(shù)據(jù)集.
在監(jiān)督學(xué)習(xí)中,數(shù)據(jù)集和標(biāo)簽集是缺一不可的,而無監(jiān)督學(xué)習(xí)的結(jié)果為已標(biāo)記分類的數(shù)據(jù)集.無監(jiān)督學(xué)習(xí)中聚類算法采用一種探索性的分析方法,它從樣本屬性出發(fā),對(duì)數(shù)據(jù)集進(jìn)行分簇和標(biāo)記,這樣可以省去面對(duì)大量數(shù)據(jù)時(shí)人工分類和數(shù)據(jù)標(biāo)記工作,同時(shí)聚類結(jié)果也可以為初步研究材料性能提供幫助.
由于k-均值聚類(k-means)具有適合處理稀疏的高維數(shù)據(jù)、適應(yīng)各種數(shù)據(jù)類型等特點(diǎn)[14-15],因此采用此算法聚類.算法使用歐氏距離作為相似性的評(píng)價(jià)指標(biāo).對(duì)于輸入的數(shù)據(jù)集和分簇?cái)?shù)k,首先堆積選取k個(gè)點(diǎn)作為初始聚類中心,迭代求解下面過程:計(jì)算各個(gè)樣本到中心的距離;按距離進(jìn)行歸類;調(diào)整新的聚類中心到此類樣本的均值處.算法滿足下列條件:沒有(或最小數(shù)目)記錄對(duì)象被重新分配給不同的聚類;聚類中心不再發(fā)生變化;誤差平方和局部最小時(shí)結(jié)束,生成劃分為k類的數(shù)據(jù)集.
實(shí)驗(yàn)使用基于Python語(yǔ)言的機(jī)器學(xué)習(xí)開源工具sklearn(scikit-learn)中KMeans模型.模型關(guān)鍵參數(shù)分簇?cái)?shù)k一般根據(jù)數(shù)據(jù)分布和實(shí)際經(jīng)驗(yàn)進(jìn)行假定,本文使用手肘法結(jié)合輪廓系數(shù)法計(jì)算確定.
2.2.1 手肘法
手肘法[16]中,使用誤差平方和(sum of the squared errors,SSE)數(shù)值的變化拐點(diǎn)來找出最佳的聚類簇?cái)?shù).誤差平方和為所有簇中的全部數(shù)據(jù)點(diǎn)與簇中心的誤差距離平方累加和,代表了聚類效果的好壞,其計(jì)算如式(2)所示.
其中:Ci是第i個(gè)簇;p是Ci中的樣本點(diǎn);mi是Ci的質(zhì)心(Ci中所有樣本的均值).
隨著k的增大,樣本劃分會(huì)更加精細(xì),簇的聚合程度會(huì)逐漸提高,誤差平方和逐漸變??;當(dāng)聚類簇?cái)?shù)k不斷趨向于真實(shí)類簇?cái)?shù)時(shí),誤差平方呈現(xiàn)快速下降狀態(tài),當(dāng)超過真實(shí)類簇?cái)?shù)時(shí),誤差平方和也會(huì)繼續(xù)下降并迅速趨于穩(wěn)定.k-SSE曲線呈現(xiàn)手肘的形狀,因此可以通過判定下降的拐點(diǎn)找出較合適的k值.
2.2.2 輪廓系數(shù)法
在聚類發(fā)現(xiàn)的過程中,最佳的分類具有其簇內(nèi)差異小,而簇外差異大的特點(diǎn),輪廓系數(shù)s正是描述簇內(nèi)、外差異的關(guān)鍵指標(biāo).s的計(jì)算如式(3)所示.
其中:a表示樣本點(diǎn)與同一簇中所有其他點(diǎn)的平均距離,即樣本點(diǎn)與同一簇中其他點(diǎn)的相似度;b表示樣本點(diǎn)與下一個(gè)最近簇中所有點(diǎn)的平均距離,即樣本點(diǎn)與下一個(gè)最近簇中其他點(diǎn)的相似度.s取值范圍為(-1,1),其值越接近于1,則聚類效果越好;越接近-1,聚類效果越差.因此可以求得s的最大值而得到最佳分類簇?cái)?shù),計(jì)算過程與肘部法類似.
在數(shù)據(jù)集的聚類中,嘗試探索能量轉(zhuǎn)換效率與分子結(jié)構(gòu)之間的關(guān)系,使用MACCS分子指紋與能量轉(zhuǎn)換效率的特征組合作為樣本劃分時(shí),樣本劃分效果較差.由于數(shù)據(jù)集樣本數(shù)量不足,以及ECFP分子指紋長(zhǎng)度(特征數(shù)量)與樣本數(shù)量相近的問題,在單獨(dú)使用ECFP分子指紋進(jìn)行聚類數(shù)探索時(shí)無法收斂,出現(xiàn)過擬合問題,最終使用能量轉(zhuǎn)換效率作為聚類特征.
如圖3所示,輪廓系數(shù)最大值對(duì)應(yīng)k=2,這表示最佳聚類數(shù)為2,但是從手肘圖3可以看出,當(dāng)k取2時(shí),誤差平方和非常大,所以k=2不合理,考慮輪廓系數(shù)與誤差平方和取值比較合理的次大的k=5為最佳聚類系數(shù).
圖3 肘部法與輪廓系數(shù)法結(jié)果示意Fig.3 Illustration of the results of the elbow method and the silhouette method
使用Silhouette Visualizer可視化工具對(duì)樣本集群的密度和分離進(jìn)行示意,如圖4所示.從圖4可以看出:以能量轉(zhuǎn)換效率為特征,聚類后的樣本劃分較為清晰;圖中類簇1圖形面積最大,說明歸屬類簇1的樣本數(shù)量最多;無輪廓系數(shù)為負(fù)數(shù)的部分,說明樣本歸類效果較好.
圖4 樣本集群的密度和分離示意Fig.4 Density and separation of sample clusters illustration
數(shù)據(jù)集類別標(biāo)簽、各類樣本數(shù)量、能量轉(zhuǎn)換效率平均值等見表1.類別0,1,2,3,4依次對(duì)應(yīng)材料能量轉(zhuǎn)換效率性能由低到高的變化,各類別中能量轉(zhuǎn)換效率均值分布均勻,取值區(qū)間無交叉.由于缺乏高性能的材料數(shù)據(jù)(對(duì)應(yīng)類別4),數(shù)據(jù)集存在樣本不均勻問題.
表1 監(jiān)督學(xué)習(xí)數(shù)據(jù)集樣本劃分概況Tab.1 Overview of supervised learning datasets
隨機(jī)森林是一種基于統(tǒng)計(jì)的監(jiān)督學(xué)習(xí)算法[17].算法的核心思想就是許多棵隨機(jī)參數(shù)生成的決策樹組合成一個(gè)森林,通過統(tǒng)計(jì)每棵樹的結(jié)果進(jìn)行分類和預(yù)測(cè).算法能夠處理具有高維特征的輸入樣本,同時(shí)對(duì)缺省值也能得到較好的結(jié)果.在訓(xùn)練每棵樹的節(jié)點(diǎn)時(shí),使用的特征是從所有特征中按照一定比例隨機(jī)地?zé)o放回地抽取,因此較好地解決了過擬合的問題.
使用隨機(jī)森林算法對(duì)已標(biāo)記數(shù)據(jù)集進(jìn)行訓(xùn)練和學(xué)習(xí)[18].通過在各類中隨機(jī)抽樣70個(gè)樣本,形成類型分布均勻的子集,按照8∶2的比例劃分為訓(xùn)練集和測(cè)試集.以樣本最高占據(jù)分子軌道、數(shù)均分子量(Mw)、光學(xué)帶隙(Eg)和分子指紋序列作為特征,材料性能類別作為標(biāo)簽,對(duì)樣本進(jìn)行訓(xùn)練.實(shí)驗(yàn)使用sklearn中RandomForestClassifier模型,經(jīng)過調(diào)參,在MACCS分子指紋數(shù)據(jù)集使用森林中樹的數(shù)量為110棵,樹的深度為16層,子集特征為13個(gè)的超參數(shù).在ECFP分子指紋數(shù)據(jù)集使用森林中樹的數(shù)量為109棵,最大深度為16層,子集特征為20個(gè)的超參數(shù).
采用類似二分類的方法,依次統(tǒng)計(jì)每個(gè)類別與其他類別之間的二分類學(xué)習(xí)結(jié)果,繪制各類別受試者工作特征曲線(receiver operating characteristic curve,ROC曲線),對(duì)每類ROC曲線取平均值,即可得到最終的模型分類ROC曲線,如圖5所示.在MACCS分子指紋下AUC(area under curve,AUC)值為0.687 6,ECFP分子指紋下AUC為0.746 3,ECFP分子指紋數(shù)據(jù)集下模型展示出較好的性能.通過圖5(a)、(c)發(fā)現(xiàn),在類別0和類別4中分類效果較好.
圖5 隨機(jī)森林學(xué)習(xí)結(jié)果ROC曲線Fig.5 ROC curve of random forest learning results
在對(duì)隨機(jī)森林模型訓(xùn)練后,生成測(cè)試集混淆矩陣,見表2和表3.矩陣中每行表示一個(gè)實(shí)際分類的樣本,每列表示預(yù)測(cè)分類的結(jié)果,主對(duì)角線上的值表示被正確預(yù)測(cè)的樣本數(shù).由表2和表3分別計(jì)算兩種分子指紋數(shù)據(jù)集下準(zhǔn)確率(Precision)、召回率(Recall)和F1-Score作為模型分類結(jié)果的評(píng)價(jià)指標(biāo),如表4~5所列.
表2 MACCS分子指紋數(shù)據(jù)集隨機(jī)森林分類結(jié)果Tab.2 Random forest prediction results of MACCSmolecular fingerprint dataset
表3 ECFP分子指紋數(shù)據(jù)集隨機(jī)森林預(yù)測(cè)結(jié)果Tab.3 Random forest prediction results of ECFP molecular fingerprint dataset
表4 MACCS分子指紋數(shù)據(jù)集隨機(jī)森林分類的性能評(píng)價(jià)Tab.4 Performance evaluation of random forest classification of MACCS molecular fingerprint dataset
由表4和表5可知:在類別0和類別4中的數(shù)據(jù)準(zhǔn)確度、召回率和F1-Score較其他類別高,訓(xùn)練后的機(jī)器學(xué)習(xí)模型較好地區(qū)分了這兩類,同時(shí)表5中數(shù)值優(yōu)于表4,與圖5中ROC圖呈現(xiàn)的結(jié)論一致;由于ECFP擁有比MACCS更多的特征,因此在ECFP分子指紋數(shù)據(jù)集下模型分類結(jié)果更好.
表5 ECFP分子指紋數(shù)據(jù)集隨機(jī)森林分類的性能評(píng)價(jià)Tab.5 Performance evaluation of random forest classification of ECFP molecular fingerprint dataset
模型訓(xùn)練完成后,對(duì)于未知能量轉(zhuǎn)換效率的材料,可以將基本物理性能參數(shù)連同分子指紋作為測(cè)試樣本,使用模型進(jìn)行分類預(yù)測(cè),得到此材料性能類別,即對(duì)應(yīng)類別的能量轉(zhuǎn)換效率數(shù)值區(qū)間,再輔以經(jīng)驗(yàn)判斷有無材料合成和器件制作的必要.
另外,訓(xùn)練后的機(jī)器學(xué)習(xí)模型建立了一種“結(jié)構(gòu)-性能”關(guān)系,可以從公開的有機(jī)材料數(shù)據(jù)庫(kù)中查詢數(shù)據(jù)來進(jìn)行批量預(yù)測(cè),根據(jù)預(yù)測(cè)結(jié)果實(shí)現(xiàn)材料的快速篩選.
本文通過無監(jiān)督學(xué)習(xí)對(duì)數(shù)據(jù)自動(dòng)分類標(biāo)記,提高了數(shù)據(jù)集預(yù)處理的效率,同時(shí)在監(jiān)督學(xué)習(xí)分類中也展示出自動(dòng)標(biāo)記的數(shù)據(jù)集具有良好的質(zhì)量,為PSCs材料篩選設(shè)計(jì)提供了機(jī)器學(xué)習(xí)方法和素材.
從遷移學(xué)習(xí)場(chǎng)景來看,PSCs材料和光電探測(cè)器材料分子結(jié)構(gòu)相近,符合遷移學(xué)習(xí)的要求;從有機(jī)光電功能材料功能原理來看,材料光電特性的本質(zhì)是材料中電子的各種行為帶來的結(jié)果,與其分子結(jié)構(gòu)是密不可分的,高性能PSCs材料意味著高的光電性能,因此從結(jié)構(gòu)出發(fā)的機(jī)器學(xué)習(xí)方法同樣可以用在光電探測(cè)器等其它有機(jī)光電材料的設(shè)計(jì)篩選中.
綜上所述,將機(jī)器學(xué)習(xí)應(yīng)用于有機(jī)光電材料篩選與設(shè)計(jì)中,有助于加快更多潛在新的材料的發(fā)現(xiàn).另外,受制于缺乏大規(guī)模高質(zhì)量的數(shù)據(jù)集,未能取得更加準(zhǔn)確的分類結(jié)果,更多的數(shù)據(jù)集的收集完善和其他機(jī)器學(xué)習(xí)方法的探索在今后的工作中將逐步展開.