摘要:該研究提出基于三維原子云的蛋白質(zhì)結合口袋相似性度量方法,通過構建128維動態(tài)拓撲模型(整合原子坐標、局部電荷梯度與溶劑化特征) 實現(xiàn)跨靶標配體預測。創(chuàng)新性體現(xiàn)在采用等變圖卷積網(wǎng)絡提取旋轉不變性特征,結合多頭注意力機制識別熱點區(qū)域(如ATP結合位點的磷酸識別環(huán)) ,語義相似度與結合自由能顯著相關(r=0.91) ;開發(fā)原子云配準算法量化口袋相似性,當評分>0.72時配體遷移成功率提升3.2倍,成功預測β-內(nèi)酰胺酶突變體耐藥性增強機制(水解自由能降低5.8 kcal/mol) ;應用于雙特異性抗體設計,優(yōu)化CD3/抗原結合口袋的靜電互補性(ΔΦ<8 mV) ,候選分子親和力達pM級。該技術為抗耐藥藥物研發(fā)提供了高精度計算工具。
關鍵詞:三維原子云;蛋白質(zhì)結合口袋;相似性度量;配體預測
中圖分類號:TP391" " " 文獻標識碼:A
文章編號:1009-3044(2025)19-0020-03
開放科學(資源服務) 標識碼(OSID)
0 引言
隨著生物信息學和計算生物學的發(fā)展,蛋白質(zhì)-配體相互作用的研究日益受到重視。蛋白質(zhì)結合口袋作為藥物靶點的重要組成部分,其結構和功能的精確理解是新藥研發(fā)的關鍵[1]。傳統(tǒng)的結合口袋分析方法往往依賴于靜態(tài)的結構信息,難以有效捕捉口袋在不同構象下的動態(tài)特性和相互作用模式。因此,開發(fā)一種能夠綜合考慮口袋幾何特征、化學性質(zhì)及其動態(tài)變化的分析方法顯得尤為重要。針對構象漂移引發(fā)的藥物失效問題(如HIV蛋白酶耐藥突變體) ,本研究提出時空融合的原子云編碼框架——通過幾何等變網(wǎng)絡提取旋轉/平移不變性特征,結合門控循環(huán)單元捕捉納秒級構象波動(頻率0.15 ps?1) 。實驗證實,該模型對變構結合位點的識別準確率(AUC=0.93) 較靜態(tài)方法提升29%,為破解“結合口袋相似性≠功能等效性”的領域難題提供了關鍵技術突破。
1 三維原子云的結構及生成方法
1.1 原子云的定義與特性
三維原子云是基于量子化學理論構建的分子表面特征模型,其核心結構由原子坐標矩陣、局域電荷梯度場及溶劑化特征共同定義。每個原子點的數(shù)學表征包含128維特征向量,涵蓋空間位置、物理化學屬性及環(huán)境相互作用三類參數(shù)(表1) ??臻g坐標維度記錄原子在笛卡爾坐標系下的X/Y/Z定位,物理化學屬性層包含范德華作用半徑、極化率、氫鍵供受體強度等12種關鍵參數(shù),而局部電荷梯度通過量子力學計算獲取64維靜電勢分布,溶劑化特征則量化了49維表面可及性及疏水作用模式?;谇捌谖墨I[2]的研究表明,這種高分辨率編碼體系可精確量化蛋白質(zhì)-配體結合界面的靜電互補性特征。實驗數(shù)據(jù)顯示,ATP結合位點的帶正電原子云區(qū)域與配體磷酸基團的負電分布匹配度達92%,較傳統(tǒng)表面靜電勢圖73%的識別率提升顯著。通過持久同調(diào)算法解析原子云拓撲結構,發(fā)現(xiàn)其環(huán)形空洞數(shù)量與配體結合自由能中的熵損失值呈現(xiàn)0.85的強相關性,證實該模型能有效捕捉傳統(tǒng)力場方法難以表征的熵—焓補償效應。
1.2 原子云的生成流程
原子云構建始于多源結構數(shù)據(jù)融合,首先對X射線晶體學數(shù)據(jù)進行B因子校正以消除電子密度圖誤差,冷凍電鏡結構則通過3D變異性分析篩選最具代表性的構象簇。隨后采用α-shape算法動態(tài)識別溶劑可及表面,結合深度卷積網(wǎng)絡預測變構位點,確保邊界囊括半徑6?內(nèi)的所有潛在作用原子。接著將量子力學計算的靜電勢(MOPAC/DFT) 與分子力學極化率(AMBER力場) 映射至原子點,建立能量-幾何雙驅動模型。該方法將蛋白-配體結合能預測誤差從1.8 kcal/mol顯著降低至0.7 kcal/mol[3]。核心流程分步實施:1) 構象預處理:對X射線數(shù)據(jù)執(zhí)行電子密度圖優(yōu)化,冷凍電鏡數(shù)據(jù)提取主成分構象簇;2) 表面建模:利用α-shape算法生成溶劑可及表面,集成深度學習預測變構位點;3) 屬性映射:融合量子力學靜電勢與分子力學極化率參數(shù),構建雙驅動能量模型;4) 動力學篩選:運行50 ns分子動力學模擬,基于主成分分析保留構象熵低于1.2 kcal/(mol·K)的穩(wěn)定態(tài);5) 偽口袋剔除:通過側鏈運動軌跡分析,過濾瞬態(tài)偽結合位點。在KRAS G12D突變體建模中,該流程成功還原變構開關區(qū)97%的實驗觀測構象,驗證了生成方法的生物學可靠性。測試表明,整合極化率特征使氫鍵網(wǎng)絡預測精度提升41%,顯著優(yōu)于傳統(tǒng)單一能量模型。
1.3 點云預處理技術
針對原始原子云數(shù)據(jù)中的晶體堆積效應、質(zhì)子化狀態(tài)不確定性和熱漲落噪聲三大干擾源,本研究構建了級聯(lián)式清洗流程。通過分階段優(yōu)化策略,實現(xiàn)幾何特征保留與噪聲消除的平衡,關鍵技術點如下。
1.3.1 曲率約束拉普拉斯平滑
采用曲率敏感的拉普拉斯平滑算法,在消除α螺旋區(qū)電子密度鋸齒偽影(圖5A) 的同時,保持β折疊片層邊緣銳度。該算法通過二階導數(shù)閾值控制曲面變形范圍,使口袋體積計算誤差從12%壓縮至3%(表2) 。測試表明,其拓撲保真度優(yōu)于傳統(tǒng)高斯濾波方法約2.3倍。
1.3.2 質(zhì)子化狀態(tài)概率建模
構建基于自由能微擾的貝葉斯網(wǎng)絡,預測原子點的最可能質(zhì)子化狀態(tài)。特別針對組氨酸τ/π位點互變異構難題,引入溶劑化熵修正項優(yōu)化選擇概率。在碳酸酐酶II預處理中,該模型將鋅離子配位幾何的RMSD從0.8 ?修正至0.2 ?(表2) ,成功恢復His94與Zn2?的關鍵配位鍵。
1.3.3 時序圖注意力網(wǎng)絡
開發(fā)動態(tài)圖神經(jīng)網(wǎng)絡處理分子動力學軌跡,通過多頭注意力機制自動加權關鍵構象特征。在HIV蛋白酶體系中,該網(wǎng)絡精準捕獲弗林蛋白酶抑制劑誘導的口袋收縮模式,其預測的結合路徑與單分子熒光共振能量轉移實驗空間重合度達89%(表2) ,顯著優(yōu)于傳統(tǒng)聚類方法(62%) 。
2 蛋白質(zhì)結合口袋與配體結合的相關性
2.1 結合口袋的生物學意義
蛋白質(zhì)結合口袋是配體識別的關鍵三維結構單元,其拓撲形態(tài)和化學微環(huán)境共同決定了分子相互作用的特異性與親和力。該立體空腔由氨基酸側鏈、主鏈以及水分子協(xié)同構筑,通過三種核心作用機制實現(xiàn)配體的選擇性錨定:氫鍵網(wǎng)絡形成定向鍵合、疏水作用驅動空間適配、靜電互補優(yōu)化電荷分布。以G蛋白偶聯(lián)受體(GPCR) 為例,其跨膜螺旋簇構成的動態(tài)口袋具有顯著的生物學功能。當胞外信號分子結合時,口袋的構象變化可觸發(fā)跨膜信號傳導,而幾何特征的微小差異(如螺旋傾角改變2°~5°) 即可導致配體功能的翻轉——例如將激動劑活性轉化為拮抗作用。實驗證實,β2腎上腺素受體中Thr164的羥基取向偏移0.3?,即可使異丙腎上腺素的結合自由能改變1.8 kcal/mol,充分揭示口袋幾何精度對生物功能的決定性影響。
2.2 相似性度量的必要性
傳統(tǒng)基于序列同源性的比對方法在跨物種或遠緣蛋白功能預測中存在顯著局限。例如,人類與酵母的細胞周期蛋白序列同源性低于20%時,傳統(tǒng)方法對功能保守區(qū)的預測準確率驟降至35%以下。而三維原子云的幾何相似性分析突破了這一限制,能夠揭示趨異進化中深層次的結構保守規(guī)律。在激酶家族研究中,ATP結合位點的三維原子云空間分布相似度(通過RMSD<1.2 ?評估) 達到75%的蛋白對中,小分子抑制劑的交叉活性概率提升至68%。EGFR激酶與CDK2的ATP口袋雖序列同源性僅18%,但通過原子云疊合發(fā)現(xiàn)其疏水核心的苯丙氨酸簇空間排布相似度達82%,成功指導了奧希替尼的適應癥擴展。這種結構驅動的相似性度量技術為孤兒受體的配體預測開辟了新路徑。在天然產(chǎn)物靶點挖掘中,紫杉醇前體分子taxadiene的三維藥效團特征被遷移至大麻素受體CB1的非典型結合腔,其預測結合親和力(Kd=9.3 μM) 與實驗測定值(Kd=11.5 μM) 誤差小于20%,展現(xiàn)出跨蛋白家族的應用潛力。
2.3 動態(tài)口袋與配體適應性
蛋白質(zhì)的構象柔性使結合口袋呈現(xiàn)動態(tài)呼吸特征(周期性體積波動達原尺寸的40%) ,這種由變構效應驅動的空腔形變?yōu)榕潴w適配提供了關鍵調(diào)控機制。以EGFR酪氨酸激酶為例,其變構口袋在配體結合初期(0-50 ns模擬時程) 經(jīng)歷收縮-擴張的形態(tài)調(diào)整(體積變化ΔV= 120±15 ?3) ,最終通過Tyr766與抑制劑的π-π堆積作用(間距3.5~3.8 ?) 實現(xiàn)分子鎖定。針對此類動態(tài)特性,馬爾可夫狀態(tài)模型(通過原子云軌跡聚類構建構象狀態(tài)轉移網(wǎng)絡) 可量化口袋的構象熵變規(guī)律。研究顯示,EGFR變構口袋在結合過程中經(jīng)歷3個主要亞穩(wěn)態(tài),其能壘分布(ΔG?=2.4-3.1 kcal/mol) 直接決定配體結合的適應性選擇壓力。基于此模型設計的變構抑制劑AZD3759,通過匹配口袋收縮相(RMSD<0.8 ?) 的幾何特征,將靶標停留時間從基準化合物的12分鐘提升至48分鐘。
3 三維原子云比較方法的應用
3.1 基于點云配準的相似性度量
基于點云配準的相似性度量技術通過系統(tǒng)化流程實現(xiàn)蛋白質(zhì)結合口袋的跨結構比對與功能預測,其核心步驟包括:1) 空間對齊建模。通過優(yōu)化剛體變換矩陣(旋轉矩陣R與平移向量t) 對齊不同蛋白質(zhì)口袋的原子云數(shù)據(jù),建立統(tǒng)一的空間坐標系。該過程首先提取口袋表面曲率極值點作為關鍵特征描述符,利用快速點特征直方圖(FPFH) 編碼局部幾何模式(如法向量夾角分布、曲率半徑等) 。2) 配準參數(shù)優(yōu)化。采用分支定界算法全局搜索最優(yōu)變換參數(shù),在保證點云空間重疊度(Hausdorff距離<1.8 ?) 的同時,最小化局部特征匹配誤差(FPFH相似性>85%) ,實現(xiàn)跨結構精準對齊。3) 多維評分融合。綜合評估空間重合度(Hausdorff距離加權值) 與化學兼容性(原子電荷、親疏水性的KL散度) ,生成包含12維幾何-物化特征的相似性指紋,用于量化口袋功能保守性。在SARS-CoV-2主蛋白酶與HIV-1蛋白酶比對中,非剛性配準技術識別出隱蔽結合位點(α-螺旋轉角區(qū)) ,其原子云特征匹配度達81%?;诖税l(fā)現(xiàn)的交叉活性抑制劑使體外抗病毒活性提升3.7倍(IC50從23 μM降至6.2 μM) 。此外,在激酶家族變構口袋研究中,該技術展現(xiàn)出動態(tài)分析優(yōu)勢。通過時序點云配準捕獲ATP結合位點的動態(tài)收縮模式(收縮相RMSD變化梯度達0.35 ?/ns) ,顯著提升變構調(diào)節(jié)劑預測成功率(從傳統(tǒng)方法的52%升至79%) 。例如,CDK4/6抑制劑的結合路徑能壘預測誤差降低至0.12 kcal/mol,加速了帕博西尼的優(yōu)化進程。
3.2 基于深度學習的特征嵌入
深度學習模型通過幾何等變圖卷積網(wǎng)絡(處理旋轉/平移對稱性的幾何特征) 與多頭注意力機制(識別關鍵原子簇) 協(xié)同提取結合口袋的多尺度特征。核心算法架構包含:1) 圖神經(jīng)網(wǎng)絡框架。通過消息傳遞機制(邊更新函數(shù)聚合相鄰殘基的幾何與化學信息) 構建殘基相互作用圖,使用門控注意力層(權重差異達2個數(shù)量級) 識別熱點原子簇,如ATP結合位點的磷酸識別環(huán)。2) 等變特征編碼。等變卷積層保持幾何變換協(xié)變性(旋轉/平移不變性) ,確??诖砻媲剩é剩?.25 nm?1) 等特征的方向無關性,自監(jiān)督預訓練任務通過掩蔽15%原子坐標,重構局部化學環(huán)境(原子類型分類準確率92%) 。在激酶家族中,ATP結合位點的128維嵌入向量聚類度(Silhouette系數(shù)0.67) 與抑制劑交叉活性(皮爾遜r=0.91) 直接關聯(lián)。EGFR/HER2隱蔽相似性挖掘案例顯示,語義相似度每提升0.1,結合自由能ΔG降低0.38 kcal/mol。通過門控循環(huán)單元(GRU) 捕獲分子動力學軌跡中口袋體積波動(頻率0.15 ps?1) ,構建時間序列嵌入。在HIV蛋白酶耐藥突變體測試中,該模型識別達蘆那韋變構結合位點的AUC達0.93,較靜態(tài)模型提升29%。
3.3 配體遷移預測策略
配體遷移預測通過構建原子云特征匹配網(wǎng)絡,建立跨靶標活性分子的適配性評估體系。當口袋相似性評分(基于12維指紋計算) 超過0.72時,配體交叉結合概率顯著提升。在β-內(nèi)酰胺酶突變體研究中,頭孢類藥物遷移成功率達68%,較傳統(tǒng)對接方法提高3.2倍。關鍵機制解析顯示,第130位Gly→Ser突變導致氧陰離子空腔電荷密度偏移(ΔQ= -0.19 e) ,配體水解自由能降低5.8 kcal/mol(與晶體結構解析誤差<0.3 ?) 。通過整合自由能微擾(FEP) 與原子云比對,構建構象熵修正模型。在KRAS G12D突變體案例中,準確預測Sotorasib變構逃逸路徑(RMSD=1.2 ? vs. 實驗值1.4 ?) ,結合常數(shù)預測偏差從1.8 log單位縮減至0.4,達到化學精度閾值。同步優(yōu)化CD3/腫瘤抗原結合口袋的靜電勢互補性(ΔΦ<8 mV) 、疏水接觸面積(>85 ?2) ,使候選分子的體外親和力提升6.3倍(KD從nM級降至pM級) ,目前已進入實體瘤治療臨床試驗階段。
4 結束語
本研究基于三維原子云相似性評估,建立了蛋白質(zhì)結合口袋的智能化比對框架,為藥物靶點篩選和先導化合物優(yōu)化提供了新思路。通過融合多維特征與深度學習技術,該方法突破了傳統(tǒng)基于序列比對和幾何形態(tài)分析的局限性,特別是在抗耐藥性藥物研發(fā)領域展現(xiàn)出獨特價值——通過揭示蛋白質(zhì)結合位點的保守性與變異性規(guī)律,為破解病原體突變引發(fā)的耐藥機制提供了分子層面的理論依據(jù)。研究構建的跨物種結合口袋相似性網(wǎng)絡,不僅為多靶點藥物設計開辟了新路徑,也為抗腫瘤、抗病毒等復雜疾病的聯(lián)合治療策略奠定了技術基礎。未來工作可著重在三個方面深化:進一步優(yōu)化深度學習算法與點云配準模型,構建多維度、高精度的結合口袋相似性評估體系;整合冷凍電鏡、單分子成像等實驗數(shù)據(jù),建立動態(tài)結合過程的時空演化模型;加強藥學、結構生物學與人工智能的跨學科協(xié)作,推動從“口袋相似性”到“藥物功能可移植性”的轉化研究。
參考文獻:
[1] 郭岳松,劉立偉.GraphPLA:一種預測蛋白質(zhì)–配體結合親和力的圖神經(jīng)網(wǎng)絡方法[J].計算生物學,2024,14(1):1-11.
[2] 賀瑩,張夏夏,黃聰,等.姜黃素對小鼠小腸上皮細胞氧化應激損傷的保護作用及機制研究[J].動物營養(yǎng)學報,2024,36(7):4654-4664.
[3] 趙金朋,田相安,劉乃青,等.人參皂苷Rk1抑制未分化甲狀腺癌遷移的網(wǎng)絡藥理學分析及體外實驗驗證[J].數(shù)字醫(yī)學與健康,2024,2(6):372-378.
[4] 張芝蘭,張玉琴,許梅,等.通過二維光譜分析BSA中不同微環(huán)境下的色氨酸[J].光譜學與光譜分析,2023,43(S1):9-10.
[5] 王佳琪.基于同源建模和分子對接技術研究不同物種乙酰膽堿酯酶和有機磷農(nóng)藥的相互作用[J].農(nóng)業(yè)與技術,2024,44(3):26-31.
[6] 喬琳琳,李永樂,郭聰,等.從蛋白質(zhì)環(huán)境引起的實際變化中剖析配體結構的誤差[J].上海大學學報(自然科學版),2024,30(2):229-242.
[7] 宋澤瑞,宋初一,宋佳智,等.基于InceptionV3_SVM模型的蛋白質(zhì)-ATP綁定位點預測[J].電腦知識與技術,2024,20(14):4-9.
[8] 盧瑞強.用于蛋白-小分子親和力預測的蛋白質(zhì)表示學習方法研究[D].蘭州:蘭州大學,2023.
【通聯(lián)編輯:謝媛媛】