丁 莎,申濤榕,張艷飛,杜歡哲,吳 榆,鄒小勇*
(1.湖南中煙工業(yè)有限責(zé)任公司技術(shù)中心,湖南 長沙 410007;2.中山大學(xué) 化學(xué)學(xué)院,廣東 廣州 510006)
目前煙草行業(yè)使用的同類不同來源的煙草提取物包括不同產(chǎn)地、不同生產(chǎn)工藝的提取物、精油、浸膏、凈油、精制物等,常用的分析檢測手段為氣相色譜-質(zhì)譜聯(lián)用技術(shù),包括氣相色譜-四極桿質(zhì)譜(GC-Q MS)、氣相色譜-四極桿飛行時(shí)間質(zhì)譜(GC-QTOF MS)[1]、氣相色譜-離子阱質(zhì)譜(GC-IT MS)[2-3]和氣相色譜-三重四極桿串聯(lián)質(zhì)譜(GC-QQQ MS)[4-5]等。其中GC-QTOF MS 的優(yōu)勢在于:一方面高分辨飛行時(shí)間質(zhì)譜具有分辨率高、掃描速度快等優(yōu)勢,可通過與其他質(zhì)譜串聯(lián)實(shí)現(xiàn)多級(jí)質(zhì)譜分析的要求;另一方面GC-QTOF MS 結(jié)合了氣相色譜的高分離能力,極大地拓展了高分辨質(zhì)譜在化合物定性分析上的應(yīng)用范圍,非常適用于煙草提取物等復(fù)雜體系中目標(biāo)化合物的提取與鑒定[6-8]。
隨機(jī)森林(Random forest,RF)[9-10]是一種基于多個(gè)決策樹的集成學(xué)習(xí)方法,具有高效、魯棒性好、易于實(shí)現(xiàn)等優(yōu)點(diǎn),已被應(yīng)用于煙草中化學(xué)成分的測量和分析,為煙草的品質(zhì)評(píng)價(jià)、加工工藝優(yōu)化、香氣調(diào)控等提供了新的思路和方法。該方法可利用煙草易獲得的特征數(shù)據(jù),建立煙草化學(xué)成分與特征數(shù)據(jù)之間的非線性關(guān)系模型,實(shí)現(xiàn)對煙草中化學(xué)成分的快速識(shí)別。郭東鋒等[11]使用隨機(jī)森林分類算法分析影響烤煙香型的關(guān)鍵因素,有效地對烤煙香型進(jìn)行分類。賴燕華等[12]利用近紅外光譜技術(shù)和隨機(jī)森林算法,建立了一種煙葉霉變快速識(shí)別模型,對不同霉變程度的復(fù)烤片煙進(jìn)行了有效判別。楊睿等[13]利用隨機(jī)森林方法對不同品種的鮮煙葉成熟度進(jìn)行了判別。陳頤等[14]利用熱裂解/氣相色譜-質(zhì)譜法和隨機(jī)森林方法,對加熱卷煙煙葉原料的化學(xué)成分和感官評(píng)價(jià)進(jìn)行了分析,建立了煙葉原料適用性的預(yù)測模型,并篩選出影響適用性的重要化學(xué)成分。
本文采用GC-QTOF MS 技術(shù)和RF算法,獲取20種煙草提取物相關(guān)信息,對其進(jìn)行了各成分分析,獲得二進(jìn)制表征數(shù)據(jù)集?;赗F 模型,構(gòu)建了提取物、油類物質(zhì)和浸膏物質(zhì)3 類物質(zhì),以及6 個(gè)地域產(chǎn)地?zé)煵萏崛∥锏淖R(shí)別方法,相關(guān)研究未見報(bào)道。
20種煙草提取物,按種類分為8種提取物、10種油類物質(zhì)、2種浸膏物質(zhì);按地域分為7種(只對6地域產(chǎn)地分析),分別為2種A 煙草、3種B 煙草、5種C 煙草、2種D 煙草、3種E 煙草、3種F煙草、1種G煙草提取物和1種未知產(chǎn)地的油類提取物,具體如表1所示。
表1 20種煙草提取物信息Table 1 Informations of the 20 kinds of tobacco extract
用分析天平稱取0.100 0 g 單一煙草提取物樣品,分別加入10 mL 乙酸乙酯-甲醇(體積比1∶1)有機(jī)溶劑,振蕩,超聲提取15 min,用0.22 μm濾膜過濾,進(jìn)樣1 μL上機(jī)分析。
色譜條件:在氣相色譜(Agilent 7890 A)分析儀上進(jìn)行,色譜柱為DB-5MS(30 m × 0.25 mm × 0.25 μm)彈性石英毛細(xì)管柱;進(jìn)樣口溫度為280 ℃;柱初始溫度為50 ℃(保持4 min),以8 ℃/min 升至180 ℃,再以20 ℃/min 升至250 ℃,保持3 min,最后以30 ℃/min 升至280 ℃,保持5 min;進(jìn)樣量為1.0 μL;分流比5∶1;載氣為He;柱前壓力為22.44 kPa,流速為1.5 mL/min。
質(zhì)譜條件:Xevo G2-XS QTOF MS 系統(tǒng),采用大氣壓氣相色譜電離源(APGC+)模式;源溫度:120 ℃;錐孔氣:150 L/h;輔助氣:200 L/h;采集模式:MSE;高碰撞能量:5~30 V;采集質(zhì)量范圍:50~800 Da。
RF 是一種屬于集成學(xué)習(xí)方法的機(jī)器學(xué)習(xí)算法。它通過組合多個(gè)分類樹,最終通過投票或取平均值,使得整體模型結(jié)果具有高的準(zhǔn)確度和泛化性能。該算法不僅支持大數(shù)據(jù)集,而且可應(yīng)對高維特征向量?;贛atlab 軟件中的“TreeBagger”函數(shù)執(zhí)行RF 算法。按照[100∶100∶1 000]和2^[1∶1∶11],以及算法的默認(rèn)參數(shù),優(yōu)化RF參數(shù):森林中包含樹的數(shù)目和每一棵樹的葉節(jié)點(diǎn)選擇參數(shù)的數(shù)目。樣本隨機(jī)平均分成2 份,其中1 份用作測試集,剩余1 份用作訓(xùn)練集。重復(fù)2 次,使2 份中的每一份均被作為測試集。最后,整合2 次重復(fù)的結(jié)果,評(píng)估模型性能。具體步驟如下:①利用Matlab 的xlsread函數(shù)讀取并裝載樣本對應(yīng)的二進(jìn)制特種向量;②將樣本隨機(jī)分為2 等份;③根據(jù)設(shè)置的隨機(jī)森林參數(shù)和Matlab 的“TreeBagger”函數(shù),運(yùn)行RF 算法;④基于2-折交叉驗(yàn)證,采用預(yù)測精度(Accuracy)優(yōu)化模型參數(shù),并評(píng)估模型性能;⑤基于最優(yōu)的參數(shù)組合,構(gòu)建RF 模型;⑥根據(jù)構(gòu)建的RF 模型,輸出識(shí)別結(jié)果。其中Accuracy 定義為:Accuracy=ni/Ni,其中Ni為第i類的樣本數(shù)目,ni為正確識(shí)別第i類的樣本數(shù)目。
利用Xevo G2-XS QTOF MS 系統(tǒng),對20 種煙草提取物樣品進(jìn)行GC-QTOF MS 分析,并獲取各煙草提取物成分,構(gòu)建二進(jìn)制表征數(shù)據(jù)集。由于G產(chǎn)地只有1種,采用RF模型,只對3種類(提取物、油類和浸膏類)和6地域產(chǎn)地(2種A、3種B、5種C、2種D、3種E、3種F)煙草提取物進(jìn)行區(qū)分和識(shí)別。
對3 種類和6 地域產(chǎn)地的20 種煙草提取物進(jìn)行了成分分析,涉及1-羥基-2-丙酮、2-甲基四氫呋喃-3-酮和法尼基丙酮等110個(gè)成分。以B 產(chǎn)地為例(其他類同),共有煙草提取物(B)、B 浸膏和煙草提取物(B精油)3種物質(zhì),煙草提取物(B)和B浸膏含有吡啶,對應(yīng)二進(jìn)制向量中的元素值為1,煙草提取物(B 精油)元素值為0;B 浸膏含有茄酮,元素值為1,其他2 個(gè)元素值為0;煙草提取物(B 精油)含有十八酸,元素值為1,其他2個(gè)元素值為0;煙草提取物(B)、B 浸膏和煙草提取物(B 精油)含有乙酸甲酯,元素值均為1;3種物質(zhì)不含有乙酸異丁酯,元素值均為0。因此,構(gòu)建了110 × 3維二進(jìn)制向量數(shù)據(jù)集表(如表2)。
表2 產(chǎn)地B煙草提取物的二進(jìn)制表征表Table 2 Binary characterization of tobacco extract from origin B
將20種煙草提取物按照8種提取物、10種油類和2種浸膏劃分為3類。8種提取物標(biāo)記為“1”,10種油類和2種浸膏分別標(biāo)記為“2”和“3”,構(gòu)建RF模型對香煙提取物進(jìn)行三類模式識(shí)別研究。
構(gòu)建了8 種提取物、10 種油類和2 種浸膏二進(jìn)制向量數(shù)據(jù)集,維數(shù)分別為:110 × 8、110 ×10、110 ×2。采用構(gòu)建的數(shù)據(jù)集,基于Matlab數(shù)學(xué)建模軟件中的“TreeBagger”命令進(jìn)行判別分析。采用2-折交叉驗(yàn)證方法評(píng)估模型的預(yù)測精度,并優(yōu)化參數(shù)。
RF 參數(shù)(樹的數(shù)目和選擇特征的數(shù)目)優(yōu)化結(jié)果如圖1 所示,混淆矩陣如圖2 所示,結(jié)果列于表3~表5。由圖2 可以看出,建立的RF 模型100%準(zhǔn)確識(shí)別8 種提取物、10 種油類和2 種浸膏。由表3 可以看出,無論森林中樹的數(shù)目和每個(gè)節(jié)點(diǎn)選擇的特征數(shù)目如何改變,構(gòu)建的模型始終能夠正確識(shí)別8 種提取物。對于10 種油類物質(zhì),當(dāng)樹的數(shù)目為100,且選擇的特征數(shù)目為2 時(shí),預(yù)測精度較低,但仍達(dá)到90%的正確識(shí)別率。對于2 種浸膏,由于樣本數(shù)目較少,只有當(dāng)森林中樹的數(shù)目較大,且選擇的特征數(shù)目大于4時(shí),構(gòu)建的模型才能準(zhǔn)確識(shí)別。結(jié)果表明,基于識(shí)別的特征成分,選擇優(yōu)化參數(shù),RF 模型能夠有效識(shí)別20種煙草提取物中8種提取物、10種油類和2種浸膏。
圖1 RF模型參數(shù)優(yōu)化對8種煙草提取物(A)、10種油類提取物(B)和2種浸膏提取物(C)的預(yù)測結(jié)果Fig.1 Optimization of RF model parameters for prediction results of 8 tobacco extracts(A),10 oil extracts(B) and 2 extractums(C)
圖2 RF模型混淆矩陣Fig.2 Confusion matrix of RF model
表3 RF模型參數(shù)對8種煙草提取物的識(shí)別結(jié)果Table 3 Recognition results of 8 tobacco extracts using RF model from different parameter combination
表4 RF模型參數(shù)對10種油類提取物的識(shí)別結(jié)果Table 4 Recognition results of 10 oil extracts using RF model from different parameter combination
表5 RF模型參數(shù)對2種浸膏提取物的識(shí)別結(jié)果Table 5 Recognition results of 2 extractum using RF model from different parameter combination
將20 種煙草提取物按照產(chǎn)地A、B、C、D、E和F 分別標(biāo)記為“1”、“2”、“3”、“4”、“5”和“6”。構(gòu)建RF 模型對煙草提取物進(jìn)行六類模式識(shí)別研究。
構(gòu)建的6 個(gè)地域產(chǎn)地(2 種A、3 種B、5 種C、2種D、3種E、3種F)二進(jìn)制向量數(shù)據(jù)集,維數(shù)分別為:A:110×2、B:110×3、C:110×5、D:110×2、E:110×3、F:110×3。采用構(gòu)建的數(shù)據(jù)集,基于Matlab 數(shù)學(xué)建模軟件中的“TreeBagger”命令進(jìn)行判別分析。采用2-折交叉驗(yàn)證方法評(píng)估模型的預(yù)測精度,并優(yōu)化參數(shù)。
采用RF 算法構(gòu)建模型開展識(shí)別研究,預(yù)測結(jié)果示意圖和混淆矩陣如圖3 所示。在圖3A 中,每個(gè)點(diǎn)表示樣本在三維空間中的分布,點(diǎn)的顏色與三維坐標(biāo)數(shù)值相關(guān),即坐標(biāo)值越大顏色越淺。結(jié)果表明,RF 構(gòu)建的模型能夠準(zhǔn)確識(shí)別6 種煙草在高維空間的分布邊界;圖3B 縱坐標(biāo)A、B、C、D、E 和F分別表示樣本的真實(shí)類別,橫坐標(biāo)表示樣本的預(yù)測類別,方格中的數(shù)字表示樣本數(shù)目,顏色與樣本數(shù)目大小相關(guān),即樣本數(shù)目越多顏色越深。結(jié)果表明,每一類樣本均被構(gòu)建的RF模型準(zhǔn)確識(shí)別,模型能夠100%識(shí)別每一地域產(chǎn)地的煙草。因此,RF 模型準(zhǔn)確識(shí)別了2 種A 煙草、3 種B 煙草、5 種C 煙草、2種D煙草、3種E煙草、3種F煙草。
圖3 隨機(jī)森林最優(yōu)模型對6種煙草提取物的預(yù)測結(jié)果示意圖(A)與混淆矩陣(B)Fig.3 Schematic diagram(A) and confusion matrix(B) of prediction results of six types of tobacco extracts based on RF optimized model
本文以不同產(chǎn)地的20 種煙草提取物為研究對象,采用GC-QTOF MS 作為樣本的高分辨表征手段,對同類不同來源的煙草提取物進(jìn)行深入的成分剖析及其關(guān)鍵成分的定量研究等,有望獲得它們更多的化學(xué)信息。研究結(jié)果可為煙草提取物的質(zhì)量標(biāo)準(zhǔn)制定奠定基礎(chǔ),也為同類不同來源的天然香原料(包括煙草提取物)品控和分析提供科學(xué)依據(jù),并為功能性香基模塊中天然香原料的溯源可行性提供理論依據(jù)。