韓曉龍, 林嘉盛, 李劍鋒*
1. 中國航天員科研訓(xùn)練中心, 北京 100094 2. 廈門大學(xué)固體表面物理化學(xué)國家重點實驗室, 化學(xué)化工學(xué)院, 福建 廈門 361005
隨著生活水平的日益改善, 超重和肥胖的人群在世界范圍內(nèi)已呈現(xiàn)急劇增加的趨勢, 引起了公眾對健康的擔(dān)憂[1]。 超重和肥胖主要由能量攝入與能量消耗不平衡引起的, 合理的能量攝入量對擁有健康的身體有著舉足輕重的作用, 例如對于青少年群體, 一天的能量攝入集中在晚餐, 而晚餐能量攝入后缺乏足夠的能量消耗, 導(dǎo)致能量積累, 進而引起超重和肥胖[2]。 另有研究表明, 能量攝入量與壽命存在關(guān)聯(lián), 過高的能量攝入會在體內(nèi)產(chǎn)生過量的活性氧物種, 引起DNA、 磷脂和蛋白質(zhì)的損傷, 加速了生物體的衰老, 而持續(xù)性的低熱量攝入同時保持必要的營養(yǎng)攝入對機體的健康及抗衰老將會產(chǎn)生有益的影響[3]。 因此, 能量攝入量分析對飲食管理、 抗衰老、 生命健康有重大指導(dǎo)意義。
目前, 能量攝入量的評估主要通過膳食回顧法來實現(xiàn)。 食物中可提供能量的物質(zhì)為碳水化合物、 脂肪和蛋白質(zhì), 每克碳水化合物、 脂肪和蛋白質(zhì)的生理能值分別為3.99, 9.01和3.99 千卡, 通過計算飲食中攝入的碳水化合物、 脂肪和蛋白質(zhì)的質(zhì)量就可以大致評估個體的能量攝入量。 膳食回顧法雖然可以對個體的能量攝入量進行一個大致的評估, 但它操作繁瑣耗時, 容易增加受試者的負擔(dān), 而且有可能出現(xiàn)錯誤回顧的情況, 因而亟需開發(fā)一種可以快速簡便的能量攝入量分析方法。
表面增強拉曼光譜(surface enhanced Raman spectroscopy, SERS)作為一種高靈敏的指紋識別光譜學(xué)技術(shù), 憑借其對樣品無損, 無水干擾等優(yōu)勢已在生命健康[4]、 衛(wèi)生安全[5]、 環(huán)境檢測[6]等諸多領(lǐng)域得到了廣泛的應(yīng)用。 為實現(xiàn)能量攝入量的快速評估, 以不同能量攝入量志愿者的尿液作為研究對象, 通過溶膠團聚法采集待測人員的尿液SERS信號, 并結(jié)合機器學(xué)習(xí)算法建立尿液的增強拉曼信號與能量攝入量之間的聯(lián)系。 選取能量攝入量分別為1 500, 2 030和2 700千卡·日-1的志愿者的尿液作為研究對象, 分別代表低、 中、 高三種能量攝入水平。 測試時選擇銀納米溶膠作為SERS增強納米粒子, 利用尿液中含有的鹽離子, 誘導(dǎo)銀納米粒子的團聚, 進而獲得尿液的SERS信號。 通過對尿液的SERS數(shù)據(jù)進行無監(jiān)督的主成分分析(principal component analysis, PCA)和有監(jiān)督的正交偏最小二乘判別分析(orthogonal partial least-squares discriminant analysis, OPLS-DA), 發(fā)現(xiàn)后者可以對不同能量攝入量的尿液的SERS信號進行良好的聚類。 建立尿液的SERS信號與能量攝入量的關(guān)系, 通過直接分析尿液的SERS信號實現(xiàn)能量攝入量的歸類分析, 可以為合理安排膳食提供指導(dǎo)性意見。
二水合檸檬酸三鈉, 硝酸銀均購自國藥集團化學(xué)試劑有限公司, 試劑均為分析純; 電阻率18.2 MΩ的超純水從Milli-Q Plus水凈化系統(tǒng)(Millipore Corporation)獲得。 紫外可見分光光度計(SHIMADZU UVmini-1280)用于分析銀納米溶膠的消光光譜; 便攜式拉曼光譜儀(廈門賽納斯科技有限公司, SHINS-P785X)用于采集待測尿液的拉曼信號。
銀納米粒子的合成采用檸檬酸鈉還原法, 將100 mL 1.5 mmol·L-1硝酸銀溶液加熱煮沸, 再一次性快速加入5 mL 1 Wt%的檸檬酸鈉溶液, 繼續(xù)煮沸冷凝回流3 h, 待銀溶膠冷卻到室溫后, 置于4 ℃冰箱中保存待用。 銀溶膠的紫外可見吸收光譜通過紫外-可見分光光度計測試。
志愿者狀態(tài): 選擇志愿者7名, 均為中國男性公民, 年齡29~45歲, 身高165~180 cm, 體重指數(shù)(BMI)18.5~24, 高中及以上文化程度, 無政治性問題, 身體健康, 不嗜煙酒, 有一定鍛煉習(xí)慣, 無藥物依賴, 無心理疾病、 精神、 遺傳病和傳染病病史, 無器質(zhì)性疾病(特別關(guān)注骨骼和心血管系統(tǒng)疾病)和地域性疾病, 無嚴重過敏史, 體內(nèi)無金屬植入物, 無營養(yǎng)不良。 受試者事先接受實驗背景和意義的培訓(xùn)和教育, 以提高受試者的依從性。
志愿者分組尿液樣品收集: 為了降低個體代謝差異對實驗結(jié)果的影響, 7名志愿者均參與三組能量攝入量的實驗, 即依次參與1 500組, 2 030組, 2 700組實驗。 具體能量攝入量及營養(yǎng)攝入比例見表1。 每組實驗為期3天, 每天收集受試者晨尿, 每份3 mL。 每組實驗間隔一周洗脫期, 避免組間相互干擾。 洗脫期膳食條件為2 030 千卡·日-1標(biāo)準(zhǔn)攝入量。 整個實驗總共收集63份尿液樣品, 所有樣品收集后立即保存于-20 ℃, 測試前恢復(fù)到室溫, 避免多次凍融。 尿液無需任何前處理, 可直接用于后續(xù)的檢測。
表1 能量攝入量分組情況及營養(yǎng)攝入比例Table 1 Energy intake and nutrient intake rations of three groups
采用便攜式拉曼光譜儀對尿液樣品進行信號采集。 具體步驟如下: 用移液槍吸取80 μL尿液與210 μL銀納米溶膠混勻, 利用尿液中含有的鹽離子誘導(dǎo)銀納米溶膠的團聚。 使用便攜式拉曼光譜儀采集團聚后的銀溶膠拉曼信號, 即可獲得尿液的表面增強拉曼光譜。 測試參數(shù)為: 激發(fā)光波長為785 nm、 激光功率100 mW、 采集的波數(shù)范圍為300~2 000 cm-1、 積分時間3~8 s、 累積次數(shù)2次。 每分樣品平行測試3次, 總共采集189條光譜。
譜峰分析: 求每組光譜特征譜峰波段的峰面積。 將求得的峰面積值數(shù)據(jù)集采用箱線圖分析, 分別計算其數(shù)據(jù)的最小值, 第一四分位數(shù)(25百分位數(shù)), 中位數(shù), 第三四分位數(shù)(75百分位數(shù))和最大值。
主成分分析(PCA): 對收集到的尿液SERS譜圖進行主成分分析, 建立分類模型。 為了避免采集過程的信號波動帶來偏差, 需要對所有光譜數(shù)據(jù)進行歸一化, 即將光譜強度值除以采集時間、 除以采集功率。 計算得到的光譜數(shù)據(jù)集可進行主成分分析。 下面是具體的計算過程:
(1)對所有的光譜計算一階導(dǎo)差分譜, 以消除熒光背景干擾;
(2)利用MATLAB R2017a軟件中的統(tǒng)計和機器學(xué)習(xí)工具包對上述的一階導(dǎo)差分譜(1 500組、 2 030組和2 700組)進行主成分分析;
(3)繪制主成分1(PC1)和主成分3(PC3)的散點圖, 計算兩個主成分的貢獻率;
正交偏最小二乘判別分析(OPLS-DA): 將采集的尿液SERS光譜進行歸一化處理, 然后合并成為一個數(shù)據(jù)集并對每個樣本做好歸類標(biāo)簽。 將得到的樣本數(shù)據(jù)矩陣導(dǎo)入到SIMCA-P(版本14.1)軟件中進行OPLS-DA分析。 在建立模型過程中, 不斷增加引入主成分的個數(shù), 直到模型的解釋方差(R2)或者模型的預(yù)測方差(Q2)增長率不超過2%, 建立模型的有效性通過置換檢驗(200次迭代)來確認, 特異性和敏感性通過ROC分析進行檢驗。
圖1為銀溶膠的紫外可見吸收光譜圖。 從圖中可以看到, 未團聚的銀納米溶膠在402 nm處有吸收峰, 該峰為銀納米粒子的偶極吸收峰。 銀納米粒子團聚后在725 nm處新增一峰, 該峰是銀納米團聚體的共振峰, 峰很寬主要是由非均勻加寬效應(yīng)引起的, 團聚后的銀納米溶膠在402 nm處仍然有微弱的吸收峰, 該峰可能是由于團聚過程仍然有部分銀納米粒子沒有團聚所引起的。 700~800 nm的寬吸收峰可以與785 nm激發(fā)光匹配, 有利于實現(xiàn)最大化的拉曼信號增強。
圖1 銀溶膠的團聚前后的紫外可見吸收光譜圖Fig.1 UV-Vis absorption spectra before and after agglomeration of silver sol
用便攜式拉曼光譜儀采集三個分組的SERS光譜, 原始譜圖中帶有部分熒光背景。 為了觀察組間差異, 對每個分組內(nèi)所有光譜取平均后采用B樣條插值擬合法校正基線, 三組平均譜圖對比展示于圖2。
圖2 三組SERS數(shù)據(jù)的平均光譜(基線校正)Fig.2 Average spectra of three groups of SERS data (baseline-corrected)
尿液中含有大量的鹽離子, 可以破壞銀溶膠的介穩(wěn)性, 使其發(fā)生團聚。 在銀納米粒子團聚的過程中受到激光輻照時, 粒子與粒子間隙處可以形成等離激元熱點。 間隙處的分子的拉曼信號被急劇放大。 因此從光譜圖上, 可以觀察到很多譜峰特征。 如圖2所示,a所指的譜峰, 如375, 485和567 cm-1等峰歸屬于乳糖分子[7]。b所指的譜峰1 003和1 560 cm-1等峰歸屬于尿素[8]。c所指的譜峰718 cm-1歸屬于次黃嘌呤[8];d所指的譜峰855 cm-1歸屬于肌酐[11];e所指的譜峰650和1 350 cm-1歸屬于黃嘌呤[9];f所指的譜峰1 218 cm-1歸屬于黃蝶呤[9]。 據(jù)報道不同膳食條件下, 志愿者群體的尿液表現(xiàn)出不同的代謝物比例[12]。 但是由于SERS 光譜是在復(fù)雜的尿液基質(zhì)中獲得的, 通過候選分子的拉曼光譜與尿液樣本的SERS光譜比對可以進行初步成分分析。 雖然可以分析候選的成分, 但很難清楚地解析出具體的物質(zhì)比例, 因為具有相似化學(xué)結(jié)構(gòu)的分子可以在相似的光譜范圍內(nèi)產(chǎn)生譜峰, 從而掩蓋了精確的成分比例。
在平均光譜圖的比較中, 組別之間差異較大的譜峰波段位于538~588和835~869 cm-1。 我們對這兩個波段展開統(tǒng)計分析(如圖3所示)。 分別計算每組樣本光譜在此兩波段的譜峰面積, 并采用T檢驗計算組間的p值。 從538~588 cm-1波段統(tǒng)計分析中看出, 1 500組與2 030組、 2 030組與2 700組的p值小于0.05, 存在顯著統(tǒng)計學(xué)差異。 1 500組與2 700組的p值過大, 統(tǒng)計學(xué)上無顯著差異。 在835~869 cm-1波段, 僅僅2 030組與2 700組之間存在統(tǒng)計學(xué)上差異。 然而從箱線框分析, 組與組存在許多重疊分布, 很難找到可以清楚區(qū)分三組的閾值。
圖3 不同波段不同分組的峰面積統(tǒng)計分析Fig.3 Statistical analysis of peak areas of different bands and groups
對于SERS光譜的多變量分析, 采用在波長范圍為300~2 000 cm-1的光譜數(shù)據(jù)集進行無監(jiān)督的PCA和有監(jiān)督的OPLS-DA建模。 在進行PCA分析之前, 對所有光譜數(shù)據(jù)求一階差分譜, 以排除背景信號的干擾。 對數(shù)據(jù)集開展主成分分析后, 繪制散點分布圖(如圖4所示)。 圖4(b)展示了基于第一主成分(PC 1)和第三主成分(PC 3)的散點分布圖, 低、 中、 高能量攝入量的三組之間具有一定分類趨勢。 三組的PCA結(jié)果表明, 所有變量的60.3%可以通過PC 1和PC 3解釋, 其中PC 1占總數(shù)的58.1%, PC 3占2.2%。 三個不同能量攝入量的分組主體能進行區(qū)分, 但是存在部分的散點交疊, 比如1 500組與2 700組。 另外2 030組的散點分布范圍較寬, 與1 500組、 2 700組存在較大重疊。 從直觀上看散點分布, 三組的區(qū)分效果一般。 為了獲得>80%的原始數(shù)據(jù)集的主變量, 對于此三組的比較需要使用前33個主成分(數(shù)據(jù)未展示)。 為了比較, 原始SERS光譜也進行了PCA分析[如圖4(a)所示], 三組的PCA散點分布圖彼此存在大量重疊。 因此, 基線校正的SERS光譜比原始SERS光譜進行PCA更有效。
圖4 三組數(shù)據(jù)的主成分分析得分散點圖Fig.4 Score scatter plotsof the three groupsgenerated by PCA
為了進一步有效地區(qū)分, 我們采用了有監(jiān)督的分類算法——正交偏最小二乘判別分析(OPLS-DA)。 PCA僅使用獨立變量(X)計算獲得新的主成分, 而OPLS-DA通過建立新的變量闡釋獨立變量和依賴變量(Y)之間的相關(guān)性, 用于闡釋光譜的之間的關(guān)聯(lián)性。 我們采用原始SERS光譜進行OPLS-DA建模, 三組的散點分布圖如圖5(a)所示, 可視化的分類結(jié)果非常好。 所有的189份SERS光譜均能被正確分類。 為了檢驗分類模型的準(zhǔn)確性, 對模型進行ROC(receiveroperating characteristic)分析, 從圖6(b)中可以看出, 三個分類的AUC(area under curve)均為1, 說明模型具有100%的敏感性, 100%特異性, 100%準(zhǔn)確性。 在OPLS-DA分析模型中,R2=1表示模型的完美擬合,Q2=1表示完美的可預(yù)測性, 通常Q2接近R2Y較佳,Q2值≥0.4的生物模型通常被認為是可靠且可接受。 此三分類的模型中R2Y(擬合性能)和Q2(預(yù)測性能)分別為0.961, 0.691。 兩者差值為0.27, 小于0.3。 說明此模型擬合效果很好, 預(yù)測效果良好并且模型是可靠的。 為了進一步區(qū)分, 對每兩個實驗組都進行OPLS-DA分析, 得到的散點分布圖如圖5(b, c, d)所示, 其R2Y和Q2分別為0.938, 0.792; 0.995, 0.853和0.956, 0.764。 從數(shù)據(jù)中可以看出二分類的擬合效果都非常好, 預(yù)測能力較三分類的有所提升。 說明采用OPLS-DA模型, 二分類的效果較佳。 此外, 為了檢驗三分類模型的有效性, 我們開展了置換檢驗。 置換檢驗圖[圖6(a)]可以檢查OPLS-DA模型的有效性, 評估標(biāo)準(zhǔn)是左側(cè)R2和Q2的值低于右側(cè)原始點的值。 其中,R2表示由Y預(yù)測解釋的訓(xùn)練集中的變化百分比,Q2表示基于交叉驗證模型預(yù)測的訓(xùn)練集中的變化百分比。 經(jīng)過200次置換試驗后, 三組的初始R2和Q2均低于原始R2和Q2值, 表明模型是可靠有效的。 因此, 本研究中的OPLS-DA模型表現(xiàn)出對不同能量攝入量尿液SERS譜圖的高預(yù)測性和高可靠性。
圖5 OPLS-DA分析三組與每對分組的散點分布圖Fig.5 Scatter plots of three groups and each pair of groups generated by OPLS-DA
圖6 (a)三組分類模型的置換檢驗散點圖;(b)三組分類模型的ROC分析曲線Fig.6 (a) Permutation test of three-group classification model; (b) ROC analysis curve of three-group classification model
分析結(jié)果表明, 使用銀溶膠進行非侵入性的能量攝入量尿液SERS分析是可行的。 雖然在本研究中只分析了小規(guī)模的樣本數(shù)據(jù), 但這些結(jié)果很有指導(dǎo)意義, 今后需要拓展更大數(shù)量的樣品研究。 與傳統(tǒng)的膳食回顧法相比, 使用銀溶膠的SERS能量攝入量分析具有成本低, 簡單快速準(zhǔn)確的優(yōu)點。 該方法如果與手持式拉曼光譜儀結(jié)合使用, 可以在家中實現(xiàn)每日能量攝入量的分析, 為合理安排膳食提供指導(dǎo)性意見。
發(fā)展了一種針對不同能量攝入量的人體尿液SERS快速分析方法, 并結(jié)合無監(jiān)督的算法PCA和有監(jiān)督的算法OPLS-DA分別建立尿液數(shù)據(jù)的分類模型。 實現(xiàn)對低能量攝入組、 中能量攝入組、 高能量攝入組的良好分類。 在本研究中, OPLS-DA比PCA更有效, 在OPLS-DA中顯示高中低能量攝入量分組的100%敏感性和100%特異性。 盡管從光譜圖很難清楚地解釋SERS譜峰對應(yīng)尿液中的分子, 但結(jié)合算法分析, 可以完美鑒別不同能量攝入量的人群。 此方法整體分析時間小于2 min, 無需樣品前處理, 具有簡單便捷快速的特點, 可以作為一種能量攝入量的判斷手段, 將有利于人體的飲食管理和健康管理。 OPLS-DA模型對三類營養(yǎng)攝取量能進行有效區(qū)分, 意味著模型的良好性, 并有望實現(xiàn)更小能量差異的區(qū)分。 未來將進一步拓展不同能量攝入量、 不同營養(yǎng)攝入比例的精細區(qū)分, 以實現(xiàn)精準(zhǔn)指導(dǎo)。