范文花
(西安石油大學(xué) 化學(xué)化工學(xué)院,陜西 西安 710065)
近幾年,可再生能源應(yīng)用材料的選擇已成為全球能源戰(zhàn)略中最緊迫的問題之一,與硅光伏電池相比,染料敏化太陽能電池(dye sensitized solar cell,DSSCs)具有易于制造、生產(chǎn)成本低等優(yōu)點(diǎn)。DSSCs 是一種分子光伏(PV)系統(tǒng),模仿自然界的光合作用原理,利用染料吸收太陽輻射能,生成電荷載體,然后將其分離、傳輸和收集為太陽能[1]。染料敏化劑作為DSSCs 的關(guān)鍵組成部分,在決定相應(yīng)電池性能方面發(fā)揮著重要作用[2]。目前,DSSCs的研究主要是找到影響光電轉(zhuǎn)換效率(photoelectric conversion efficiency,PCE)的關(guān)鍵結(jié)構(gòu)并對其進(jìn)行改善,設(shè)計(jì)新型敏化劑,提高PCE。DSSCs 的光電轉(zhuǎn)化效率主要由短路電流密度(Jsc)、開路電壓(Voc)和填充因子(FF)決定,為了獲得高PCE,這三個(gè)參數(shù)應(yīng)盡可能高[3]。
據(jù)估計(jì),目前DSSCs 可實(shí)現(xiàn)的最大理論P(yáng)CE為32%,意味著目前13%的記錄可以改善[2]。實(shí)現(xiàn)改善的常用方法是基于人類關(guān)聯(lián)和概括經(jīng)驗(yàn)的能力,設(shè)計(jì)和合成新型染料,隨后組裝電池并檢查電池性能。但這種“反復(fù)試驗(yàn)”的方法非常耗時(shí)、昂貴,而且在為DSSCs 尋找突破性染料時(shí)效率低下。
定量結(jié)構(gòu)-性質(zhì)關(guān)系(quantitative structureproperty relationships,QSPR)已被廣泛用于預(yù)測各種化合物的物理化學(xué)性質(zhì)、環(huán)境行為參數(shù)以及毒性,是描述化學(xué)結(jié)構(gòu)和活動(dòng)之間潛在關(guān)系的數(shù)學(xué)模型[4]。目前,QSPR 被認(rèn)為是設(shè)計(jì)DSSCs 潛在染料公認(rèn)的工具[2],QSPR 模型不是盲目地花費(fèi)大量時(shí)間和金錢來設(shè)計(jì)有機(jī)染料敏化劑,而是一種富有成效的、合理的敏化劑染料開發(fā)方法[5]。本文簡單介紹了QSPR 建模過程,染料敏化太陽能電池QSPR 建模中常用的分子描述符,建模方法以及QSPR 在DSSCs 性能預(yù)測方面的應(yīng)用。
QSPR 建模過程一般包括4 個(gè)步驟。
(1)數(shù)據(jù)收集和整理??煽康臄?shù)據(jù)對建立良好預(yù)測性能的模型極為重要,這就要求數(shù)據(jù)樣本不能太少,必須具有代表性且化學(xué)結(jié)構(gòu)相似。
(2)計(jì)算并選擇分子描述符。用專業(yè)軟件計(jì)算得到大量分子描述符,但需要用最少的結(jié)構(gòu)參數(shù)來表征盡可能多的化學(xué)信息且要保證變量之間不存在很高的相關(guān)性,因此需要進(jìn)行變量選擇,同時(shí)也要保證特征變量與因變量之間具有相關(guān)性,以確保模型可以擬合。
(3)建立分子描述符與性質(zhì)參數(shù)之間的定量構(gòu)效模型,這是QSPR 研究中的主要步驟。
(4)模型驗(yàn)證與評價(jià)。QSPR 模型建好后,需要評價(jià)指標(biāo)來評價(jià)模型的質(zhì)量,其中包括穩(wěn)定性、可靠性以及預(yù)測能力[4]。
在QSPR 研究中,基于這樣一個(gè)假設(shè),即化合物行為的變化(由任何可測量的物理化學(xué)性質(zhì)表示)可以與化合物結(jié)構(gòu)特征的數(shù)值變化相關(guān),表示化合物分子結(jié)構(gòu)的數(shù)值稱為“分子描述符”[4]。在相關(guān)文獻(xiàn)中,經(jīng)常會用到的分子描述符有拓?fù)渲笖?shù)描述符、組成描述符、電子性質(zhì)描述符、量子化學(xué)描述符、幾何描述符以及常見的分子指紋描述 符(MACCS、Pubchem、FP2、Extend、Daylight、Hybridization 及Morgan)等。
PCE 量化了太陽能電池的整體性能,盡管影響PCE 的因素非常復(fù)雜,但敏化劑的電子特性對DSSCs 的整體性能非常重要。Fan 等[2]通過測定與光學(xué)性能有關(guān)的5 種不同電子性質(zhì)(G,Oav,Dav,A,LHE)來建立QSPR 模型,預(yù)測PCE。結(jié)果顯示,用上述分子描述符建立的模型具有良好的預(yù)測性能。Pourbasheer 等[6]利用6 種描述符建立富勒烯衍生物的GA-MLR 模型以預(yù)測化合物作為聚合物太陽能電池受體的光電轉(zhuǎn)換效率,顯示了適當(dāng)?shù)慕y(tǒng)計(jì)結(jié)果并表明量子化學(xué)描述符對增加PCE 有顯著影響。Padula 等[7]使用電子描述符和結(jié)構(gòu)描述符通過線性和非線性機(jī)器學(xué)習(xí)模型預(yù)測光伏效率,同時(shí)表明這兩個(gè)參數(shù)可以提高模型的預(yù)測能力,使相關(guān)性達(dá)到R≈0.7,這種相關(guān)性允許對有效材料進(jìn)行可靠地預(yù)測。
多元線性回歸(MLR)是經(jīng)典的建模方法之一,它的目標(biāo)是為多個(gè)獨(dú)立變量與因變量之間的線性關(guān)系建模。獨(dú)立變量和因變量之間的關(guān)系見式(1)。
式(1)中:b0是常數(shù)項(xiàng),x 是自變量,yi是因變量,b1到bn是自變量的系數(shù)。
MLR 模型基于以下假設(shè):自變量與因變量之間存在線性關(guān)系,自變量彼此之間的相關(guān)性不是很高,且每個(gè)自變量都對模型有貢獻(xiàn)。為了選擇對因變量貢獻(xiàn)大的自變量,可以通過變量選擇方法來限制自變量數(shù)量。常見的變量篩選方法有遺傳算法、主成分分析法、模擬退火法、多元線性回歸法等,通過這些方法找出自變量與因變量的最佳組合,繼而建立MLR 模型。Kar 等[8]通過基于遺傳算法的多元線性回歸分析(GA-MLR),利用KMedoid 聚類分割技術(shù)對數(shù)據(jù)集進(jìn)行分割,隨后建立芳胺染料PCE 和量子化學(xué)描述符之間的最佳QSPR 模型。此QSPR 模型對于表征和預(yù)測對光轉(zhuǎn)換至關(guān)重要的供體:π 橋:受體(D-π-A)關(guān)系的性質(zhì)具有重要意義。通過MLR 算法可以建立穩(wěn)健且具有預(yù)測能力的QSPR 模型,然而,此算法只能捕獲結(jié)果變量和自變量之間的線性關(guān)聯(lián),可能無法充分檢測數(shù)據(jù)中的非線性關(guān)系[9]。
偏最小二乘法(PLS)是一種關(guān)聯(lián)兩個(gè)數(shù)據(jù)矩陣的建模方法。PLS 具有一個(gè)理想的特性,即模型參數(shù)的精度隨著相關(guān)變量和觀測值的增加而提高[10],由此建立的模型擬合性、穩(wěn)健性與預(yù)測能力均較好。由于PLS 增加了模型驗(yàn)證的部分,其在QSPR 方面的優(yōu)勢明顯大于MLR。
Venkatraman 等[11]報(bào)道了第一個(gè)成功的QSPR模型,使用分子場分析(CoMFA)和基于振動(dòng)頻率的特征(EVA)描述符對40 種香豆素和苯胺衍生物分子結(jié)構(gòu)的光伏性能(PCE,Voc,Jsc,λmax)參數(shù)建立偏最小二乘回歸模型并分析了不同模型的性能。結(jié)果顯示,所建立的模型具有很強(qiáng)的預(yù)測性和魯棒性,QSPR 模型可用于新型光伏材料的合理結(jié)構(gòu)設(shè)計(jì)和評估,香豆素和苯胺衍生物重要結(jié)構(gòu)特征的識別對于設(shè)計(jì)具有改進(jìn)太陽能電池性能的未來有機(jī)染料非常有用。Tortorella 等[12]使用基于半經(jīng)驗(yàn)計(jì)算和3D 分子相互作用場的描述符,應(yīng)用偏最小二乘算法合理化結(jié)構(gòu)-光伏性能關(guān)系,并對系數(shù)進(jìn)行研究,以闡明不同分子性質(zhì)對最終性能的貢獻(xiàn),證明了在計(jì)算材料科學(xué)的背景下,化學(xué)計(jì)量學(xué)和分子建模工具可以有效地促進(jìn)光伏應(yīng)用。Venkatraman 等[13]使用117 種吩噻嗪類染料敏化劑構(gòu)建了QSPR 模型,使用半經(jīng)驗(yàn)AM1 方法對化合物分子進(jìn)行優(yōu)化,將基于振動(dòng)頻率的特征值(EVA)描述符采用偏最小二乘回歸方法建立QSPR 模型,之后采用進(jìn)化從頭設(shè)計(jì)技術(shù)設(shè)計(jì)了5 種新型染料,將PCE 從9.2%提高到9.52%。Krishna 等[14]利用PLS 算法建立了染料敏化太陽能電池PCE 的多個(gè)QSPR 模型,使用了大約1200 種染料,涵蓋7 種化學(xué)類別,7 種化學(xué)類別已開發(fā)的QSPR 模型有助于快速預(yù)測新/未經(jīng)測試染料的PCE 以及設(shè)計(jì)新染料。偏最小二乘回歸在線性算法中應(yīng)用最為廣泛,能夠很好地?cái)M合自變量與因變量之間的線性關(guān)系,其計(jì)算簡單且便于掌握。
支持向量機(jī)(SVM)通過核函數(shù)間接實(shí)現(xiàn)非線性分類或函數(shù)回歸。核函數(shù)表示特征空間中任意兩個(gè)數(shù)據(jù)點(diǎn)(特征向量)之間的內(nèi)積,是支持向量機(jī)的關(guān)鍵,隱含地定義了低維和高維空間之間的映射。核函數(shù)的計(jì)算是基于低維空間中的數(shù)據(jù),但最終結(jié)果在高維空間中顯示。因此,可以避免直接在高維空間中進(jìn)行復(fù)雜的計(jì)算,可以使用基于核函數(shù)的支持向量機(jī)處理函數(shù)的非線性數(shù)據(jù)。SVM 適用于小樣本分析,具有通用性、魯棒性、泛化能力好等優(yōu)點(diǎn),相比線性建模等舊方法具有無法比擬的性能。
仲籽彥[15]利用支持向量機(jī)建立了354 種有機(jī)染料敏化分子的PCE 與分子描述符之間的級聯(lián)QSPR 模型。實(shí)驗(yàn)表明,級聯(lián)模型(第一級以分子描述符為輸入,以Jsc、Voc和FF 為輸出;第二級以第一級的輸出為輸入,以PCE 為最終輸出)無論是預(yù)測能力、擬合優(yōu)度還是模型穩(wěn)定性均明顯優(yōu)于非級聯(lián)模型,能夠有效地預(yù)測有機(jī)染料敏化劑的PCE,成本低并相對穩(wěn)定。崔艷瑩[16]使用全局集成模型SVM-KNN-WMA 構(gòu)建分子描述符與光電轉(zhuǎn)化效率之間的回歸模型,實(shí)證表明其性能優(yōu)于單一支持向量機(jī),基于全局集成模型可以預(yù)測具有較高PCE 的新型有機(jī)太陽能材料。
綜上所述,復(fù)雜結(jié)構(gòu)模型對于改進(jìn)復(fù)雜預(yù)測是可行的,集成模型因能夠通過組合多個(gè)機(jī)器學(xué)習(xí)模型產(chǎn)生一個(gè)優(yōu)化的模型而被逐漸應(yīng)用于QSPR 的研究中。
20 世紀(jì)90 年代,人工神經(jīng)網(wǎng)絡(luò)(ANN)開始被用于QSPR 研究中,目前典型的神經(jīng)網(wǎng)絡(luò)模型主要包括多層感知器、BP 神經(jīng)網(wǎng)絡(luò)、徑向基神經(jīng)網(wǎng)絡(luò)等。ANN 是一種數(shù)據(jù)驅(qū)動(dòng)的建模方法,可以找到輸入和輸出變量之間的關(guān)系,而無需對關(guān)系進(jìn)行明確分類。人工神經(jīng)網(wǎng)絡(luò)模型通常包含3層:1 個(gè)輸入層、1 個(gè)或多個(gè)隱藏層和1 個(gè)輸出層(圖1)。層由幾個(gè)節(jié)點(diǎn)組成,ANN 從輸入層接收數(shù)據(jù),輸入層將信息傳遞到下一層,即隱藏層。隱藏層中的每個(gè)神經(jīng)元接受前一層的加權(quán)線性求和,并將值映射到非線性激活函數(shù)上,從而產(chǎn)生神經(jīng)元輸出。隱藏層中每個(gè)神經(jīng)元的輸出值就是下一層神經(jīng)元的輸入值,輸出層生成用作最終預(yù)測的值。
圖1 BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure diagram of BP neural network
Xu 等[17]利用人工神經(jīng)網(wǎng)絡(luò)建立染料分子結(jié)構(gòu)與染料吸收最大值之間的定量結(jié)構(gòu)-性質(zhì)關(guān)系,得到了決定系數(shù)R2=0.991 的非線性模型,通過測試集驗(yàn)證了模型的可靠性。此模型可以在染料實(shí)際合成之前估算其最大分子量。大量的實(shí)驗(yàn)證明,人工神經(jīng)網(wǎng)絡(luò)可以用來建立預(yù)測性能較好的QSPR 模型,但在網(wǎng)絡(luò)訓(xùn)練時(shí)會存在不穩(wěn)定性,必須結(jié)合合理的描述符篩選方法和模型驗(yàn)證方法。
隨機(jī)森林(RF)是一種非線性基于樹的集成學(xué)習(xí)方法(bagging)。引導(dǎo)聚合是RF 的關(guān)鍵思想,當(dāng)訓(xùn)練一個(gè)模型時(shí),每棵樹從訓(xùn)練集中隨機(jī)選擇多個(gè)樣本以形成一個(gè)新的子集,然后從輸入中隨機(jī)選擇多個(gè)特征來做出決策。通過投票,數(shù)百個(gè)決策樹產(chǎn)生一個(gè)輸出,以提供最佳答案。隨機(jī)森林能處理高維度數(shù)據(jù)且不用做特征選擇,對數(shù)據(jù)集適應(yīng)能力強(qiáng),訓(xùn)練速度快,實(shí)現(xiàn)比較簡單,泛化能力強(qiáng),訓(xùn)練完成后可以給出特征重要性,但相比于單一決策樹,隨機(jī)性讓研究者難以對模型進(jìn)行解釋。
Venkatraman 等[5]建立了簡單而穩(wěn)健的QSPR模型,以預(yù)測73 個(gè)吩噻嗪染料的必要光伏特性,如Jsc、Voc和PCE。使用6 種不同的分子描述符(從基于原子環(huán)境的表示到利用半經(jīng)驗(yàn)分子軌道信息的表示)開發(fā)了RF 回歸模型,在所用描述符中,使用EVA 描述符生成了預(yù)測能力和魯棒性最佳的模型。
在過去幾年中,深度學(xué)習(xí)已在許多領(lǐng)域產(chǎn)生了變革性影響,深度學(xué)習(xí)已被證明是利用大型數(shù)據(jù)集建立QSPR 模型的有用工具。深度神經(jīng)網(wǎng)絡(luò)模型通常包含3 層:1 個(gè)輸入層、多個(gè)隱藏層和1個(gè)輸出層。在深度神經(jīng)網(wǎng)絡(luò)(DNN)的“學(xué)習(xí)”過程中,隱藏層和輸出層中所有神經(jīng)元的值通過前一個(gè)神經(jīng)元的值之和×權(quán)重+偏差計(jì)算,其中權(quán)重和偏差可以根據(jù)預(yù)測和目標(biāo)之間的誤差進(jìn)行更新,直到誤差達(dá)到最小值。需要對模型的超參數(shù)進(jìn)行調(diào)優(yōu),超參數(shù)包含兩部分:一是網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)(包括神經(jīng)網(wǎng)絡(luò)的層數(shù)、激活函數(shù)的類型、每層神經(jīng)元的數(shù)量等),二是訓(xùn)練優(yōu)化器的參數(shù)(包括優(yōu)化器的類型、學(xué)習(xí)率、動(dòng)量參數(shù)、正則化懲罰參數(shù)等)。輸入層、隱藏層通常采用ReLu 激活函數(shù),輸出層神經(jīng)元采用線性激活函數(shù),優(yōu)化器函數(shù)選擇為“Adam”。在調(diào)整超參數(shù)的過程中,層數(shù)和神經(jīng)元數(shù)越多,DNN 越深越寬,往往擬合能力越強(qiáng),預(yù)測精度越高。然而,過多的層和神經(jīng)元往往存在過度擬合問題,即對訓(xùn)練集的預(yù)測準(zhǔn)確,但對測試集的預(yù)測較差。因此,模型要開發(fā)具有適當(dāng)擬合能力的DNN 最佳體系結(jié)構(gòu),以便對輸入和輸出之間的復(fù)雜關(guān)系進(jìn)行建模。
在已有的深度學(xué)習(xí)定量構(gòu)效關(guān)系研究中,其中一類研究是采用大量的分子描述符表征分子結(jié)構(gòu)信息并基于深度學(xué)習(xí)關(guān)聯(lián)目標(biāo)性質(zhì);另一類研究則使用深度學(xué)習(xí)直接對以圖或文字形式表示的分子結(jié)構(gòu)進(jìn)行學(xué)習(xí),并基于矢量化的分子信息關(guān)聯(lián)目標(biāo)性質(zhì)[18]。Wu 等[19]為了預(yù)測有機(jī)太陽能電池的光電轉(zhuǎn)換效率,開發(fā)了新的分子簽名編碼和信息嵌入策略以描述分子的組成結(jié)構(gòu),利用集成雙向長短時(shí)記憶(Bi-LSTM)網(wǎng)絡(luò)對分子信息進(jìn)行處理,注意機(jī)制被用來識別對PCE 性能有重要影響的片段,最后利用反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)建立深度學(xué)習(xí)體系結(jié)構(gòu)。與其他幾種建模方法的結(jié)果相比,該方法在預(yù)測精度上具有競爭力且能夠識別決定性的分子成分。于程遠(yuǎn)等[20]采用一種類語言的分子描述符描述有機(jī)化合物,建立深度學(xué)習(xí)模型,以實(shí)現(xiàn)高精度的PCE 預(yù)測,獲得了R2為0.97、MSE 為0.16 的預(yù)測結(jié)果,與現(xiàn)有方法的比較表明,該方法在精度上具有競爭力。Sun 等[21]開發(fā)了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的ResNet 深度學(xué)習(xí)模型,能夠識別化學(xué)結(jié)構(gòu)和自動(dòng)分類,其在預(yù)測有機(jī)太陽能電池(OPV)供體材料的PCE 方面取得了90%以上的準(zhǔn)確率。這項(xiàng)研究表明,深度學(xué)習(xí)可以用于評估OPV 材料,能有效地建立光伏結(jié)構(gòu)-性能關(guān)系。雖然深度學(xué)習(xí)具有上述優(yōu)點(diǎn),但DNN 模型缺乏透明度和可解釋性,很難知道模型從訓(xùn)練數(shù)據(jù)集中學(xué)到了什么,即DNN 內(nèi)部是一個(gè)“黑箱”,僅展示了可能的結(jié)果,而沒找到真正的因果關(guān)系。
用平均絕對誤差(MAE)、均方根誤差(RMSE)和決定系數(shù)(R2)這3 個(gè)評價(jià)指標(biāo)來評價(jià)模型的預(yù)測能力,其具體數(shù)學(xué)定義分別見式(2)~(4)[22]。
較低的MAE 和RMSE 表示模型的預(yù)測誤差越小,預(yù)測結(jié)果越優(yōu);R2越大,擬合效果越好。當(dāng)R2應(yīng)用于測試集時(shí),其值等于外部解釋的方差(Q2),將評估指標(biāo)應(yīng)用于測試集時(shí),對模型的性能進(jìn)行比較。
QSPR 建??梢酝ㄟ^化學(xué)分子描述符以及太陽能電池化合物的結(jié)構(gòu)特征,探索分子結(jié)構(gòu)與目標(biāo)性質(zhì)之間的關(guān)系,太陽能電池的性能可以通過評估重要的光伏參數(shù)確定,例如PCE、Jsc、Voc、FF。通過DSSCs 數(shù)據(jù)庫得到實(shí)驗(yàn)值,運(yùn)用數(shù)學(xué)建模方式建立QSPR 模型得到預(yù)測值,通過模型的相關(guān)參數(shù)評價(jià)模型的性能,當(dāng)相關(guān)參數(shù)優(yōu)異時(shí),就可以通過QSPR 模型去預(yù)測未知化合物的性質(zhì),設(shè)計(jì)新型化合物。
吸收強(qiáng)度最大時(shí)所對應(yīng)的波長稱為染料的最大吸收波長(λmax)。λmax是染料的一個(gè)重要特性,標(biāo)志著染料最基本的顏色,目前染料的最大吸收波長是通過實(shí)驗(yàn)獲得的,雖然是有效的,但存在一些缺點(diǎn)和局限性,并且該方法不易用于有毒或揮發(fā)性物質(zhì)。對于還沒有合成的材料,也不能使用?;谏鲜鰡栴},QSPR 可能是理想的候選方法。
Xu 等[23]采用線性回歸算法對70 種染料敏化分子進(jìn)行建模,λmax在378 nm 和660 nm 之間。Dragon 軟件用于根據(jù)優(yōu)化的分子幾何結(jié)構(gòu)計(jì)算3D 描述符,使用Kennard-Stones 算法,將整個(gè)染料集分為訓(xùn)練集和測試集,在訓(xùn)練集上,使用逐步MLR 為QSPR 模型選擇描述符,最終選擇了10 個(gè)描述符,得到的模型R2=0.95,并對描述符的顯著性進(jìn)行排序。實(shí)驗(yàn)表明該模型具有預(yù)測性,適用于任何化學(xué)結(jié)構(gòu)的常規(guī)染料。因此,這種QSPR 模型應(yīng)該有助于開發(fā)新的DSSCs 敏化劑,以達(dá)到預(yù)期的最大吸收波長。Asadollahi-Baboli等[24]使用Codessa 和Dragon 軟件計(jì)算三維描述符來表示染料分子,隨后使用多元自適應(yīng)回歸樣條(MARS)和自適應(yīng)神經(jīng)模糊推理系統(tǒng)(ANFIS)等不同的化學(xué)計(jì)量學(xué)工具,結(jié)合蒙特卡羅(MC)采樣技術(shù),選擇最重要的描述符,建立有機(jī)染料最大吸收波長的QSPR 模型,預(yù)測染料的λmax。實(shí)驗(yàn)表明,QSPR 提供了一種替代、快速、準(zhǔn)確的方法來預(yù)測DSSCs 中染料的λmax。Krishna 等[25]開發(fā)了用于染料敏化太陽能電池染料最大吸收波長的預(yù)測模型,包括5 種化學(xué)類別,將通過最佳子集選擇方法得到的2D 描述符建模。該研究從開發(fā)的模型中確定了幾個(gè)對提高最大吸收波長很重要的化學(xué)屬性,可用于預(yù)測新型或未經(jīng)測試的有機(jī)染料的λmax。
PCE 是衡量太陽能電池器件性能優(yōu)劣最直觀的參數(shù),PCE 的大小反映了太陽能電池將光能轉(zhuǎn)換成電能的能力,因此研究者不遺余力地探索提高PCE 的方法。傳統(tǒng)的實(shí)驗(yàn)方法耗時(shí)耗力,雖有效,但存在一些缺點(diǎn)和局限性,而應(yīng)用QSPR 能在一定程度上解決這些問題。
Hernández 等[26]應(yīng)用B3LYP 交換相關(guān)能泛函和6-311G**基組,計(jì)算了70 種染料敏化劑分子的結(jié)構(gòu)和電子性質(zhì)。使用硬度(η)作為與PCE 相關(guān)的電子特性,以及四個(gè)結(jié)構(gòu)描述符Mor25i、Mor28i、E1v 和HATS2p,使用QSAR-INS 軟件通過多元線性回歸、遺傳算法以及組合方法設(shè)計(jì)了QSPR 模型預(yù)測PCE,R2=0.62 表明QSPR 模型可用于預(yù)測未知化合物,并得出硬度是測量PCE 的重要電子描述符這一結(jié)論。Yan 等[27]使用23 個(gè)吩噻嗪衍生物建立3D-QSAR 模型。生成的Topomer CoMFA 模型在統(tǒng)計(jì)學(xué)上具有顯著性,留一交叉驗(yàn)證系數(shù)(q2)為0.698,非交叉驗(yàn)證相關(guān)系數(shù)(r2)為0.966。理論預(yù)測的PCE 與實(shí)驗(yàn)觀測值吻合良好,驗(yàn)證了Topomer CoMFA 模型的高預(yù)測能力,此模型也為染料敏化劑的結(jié)構(gòu)-性能關(guān)系提供新的視角和新的見解,并可能有助于染料敏化太陽能電池中尚未合成的有機(jī)敏化劑的合理設(shè)計(jì)、選擇和預(yù)測。Tortorella 等[28]選擇從3D 分子相互作用場(GRID/MIFs)圖像中提取的適當(dāng)描述符以及半經(jīng)驗(yàn)計(jì)算描述符來描述目標(biāo)結(jié)構(gòu),使用PLS 建立并分析了PCE 模型,以闡明結(jié)構(gòu)-性能關(guān)系,此模型為設(shè)計(jì)潛在的高性能候選者提供指導(dǎo)。
由于許多因素會影響DSSCs 的性能,因此難以優(yōu)化系統(tǒng)。例如,通過增加導(dǎo)帶邊緣(Ec)處的能量以減緩電子注入,可能有利于DSSCs 的性能。一方面,這將導(dǎo)致Voc的增加;另一方面,這將同時(shí)導(dǎo)致電子注入驅(qū)動(dòng)力的降低,可能會導(dǎo)致Jsc的降低。而且FF 可以看作是常量,很難映射到染料的性質(zhì)。因此,DSSCs 的性能可以通過電流和電壓的乘積來量化,代表這兩種效應(yīng)之間的折衷[2]。
Venkatraman[29]等使用QSPR 模型(根據(jù)經(jīng)驗(yàn)數(shù)據(jù)校準(zhǔn))建立香豆素染料敏化劑Jsc和Voc的乘積模型。該方案能夠提出具有不同分子結(jié)構(gòu)(Dπ-a、D-a-π-a、D-D-πa 等)和錨定基團(tuán)的多種染料,證明了使用基于人工進(jìn)化的全自動(dòng)從頭計(jì)算方法來建立Jsc×Voc模型,能夠設(shè)計(jì)新的、有前途的、性能更好的香豆素染料敏化劑。
定量結(jié)構(gòu)-性質(zhì)關(guān)系能夠用于染料敏化太陽能電池的研究中,通過機(jī)器學(xué)習(xí)與量子化學(xué)結(jié)合以及深度學(xué)習(xí)的應(yīng)用,能夠更好地為設(shè)計(jì)新型染料,提高光電轉(zhuǎn)換效率服務(wù)。如果有好的描述符,就可以得到更健壯、更通用的模型。目前,研究人員依靠直覺選擇描述符,而智能分子描述符選擇值得進(jìn)一步探索。更重要的是,應(yīng)該更加注重提高模型的可解釋性。目前,機(jī)器學(xué)習(xí)與QSPR 在DSSCs 方面的結(jié)合已日漸成熟,深度學(xué)習(xí)以其自動(dòng)學(xué)習(xí)特征的優(yōu)勢,使得未來的研究會更多關(guān)注深度學(xué)習(xí)體系,建立深度學(xué)習(xí)的QSPR 模型來預(yù)測光電性能,設(shè)計(jì)新的染料分子,不斷提高光電轉(zhuǎn)換效率。雖然深度學(xué)習(xí)有諸多優(yōu)點(diǎn),但仍然存在一個(gè)問題,即此模型就像一個(gè)黑匣子,只會做出判斷而不提供理由。在目前的研究背景下,不知道哪個(gè)結(jié)構(gòu)對分子的高性能起重要作用。因此,了解深度學(xué)習(xí)模式的思考方式,將豐富深度學(xué)習(xí)領(lǐng)域的研究內(nèi)容,從而為人類社會帶來更大的價(jià)值。