歐陽志友, 陳 晨, 王愉茜, 陳金剛, 殷 昭, 周青松
1.南京郵電大學先進技術(shù)研究院,南京210023
2.南京郵電大學計算機學院,南京210023
3.南京郵電大學經(jīng)濟學院,南京210023
4.中國石油大學(華東)石油工程學院,山東青島266580
5.重慶郵電大學通信與信息工程學院,重慶400065
蛋白質(zhì)與小分子化合物之間的相互作用是進行藥物設(shè)計與研發(fā)的基礎(chǔ).在分子水平上深入研究蛋白質(zhì)與藥物分子的結(jié)合機理,有助于快速篩選出有效的藥物候選分子,大大縮短新藥開發(fā)流程,降低新藥失敗風險.因此,研究利用機器學習技術(shù)對蛋白質(zhì)分子結(jié)構(gòu)的分析非常必要.通過挖掘蛋白質(zhì)分子結(jié)構(gòu)與小分子親和力之間的關(guān)系,對蛋白質(zhì)與小分子的親和力值進行預(yù)測,可以實現(xiàn)快速批量篩選有效的藥物候選分子,從而加快藥物研發(fā)的進程,降低藥物研發(fā)的成本.蛋白質(zhì)與小分子的相互作用如圖1所示.
圖1 蛋白質(zhì)與小分子相互作用Figure1 Protein interactions with small molecules
測定蛋白質(zhì)小分子親和力值的方法有實驗室測定法[1]和回歸預(yù)測方法兩大類.文獻[2]利用實驗室測定法測定出了炭疽芽孢DNA 適配子結(jié)構(gòu)與長度對親和力的影響,該方法實驗成本高昂、難以大面積推廣,不利于快速測定出蛋白質(zhì)親和力值.回歸預(yù)測方法則是在已知蛋白質(zhì)親和力值信息的基礎(chǔ)上,利用統(tǒng)計方法對未知蛋白質(zhì)親和力值進行預(yù)測,文獻[3]利用回歸預(yù)測方法對芳基碳氫化合物親和力受體和甲狀腺轉(zhuǎn)運蛋白的毒性親和力進行了預(yù)測,文獻[4]利用分子描述符采用支持向量機(support vector machine,SVM)等方法進行了親和力預(yù)測.該類方法雖然快捷方便、成本低廉,但存在著預(yù)測精度低的問題.
蛋白質(zhì)小分子親和力值的預(yù)測是一個典型的預(yù)測類問題,目前主流的方法有嶺回歸法、Logistic 回歸法、決策樹方法[5]、隨機森林法[6]、樸素貝葉斯方法[7]、提升法[8]等.其中,嶺回歸方法能夠克服數(shù)據(jù)共線性問題,而決策樹方法適用于數(shù)據(jù)量較少的情況且結(jié)果具有較強的可解釋性,但是決策樹方法的魯棒性較差,數(shù)據(jù)的微小擾動會導致預(yù)測結(jié)果變化較大[9].隨機森林法與提升法均屬于集成算法,泛化能力與魯棒性都較強,對噪聲數(shù)據(jù)不敏感,但是難以避免過擬合的問題.Logistic 回歸法可解釋性強,但是對數(shù)據(jù)規(guī)模與模型訓練時間要求較高.樸素貝葉斯方法是一種基于概率的分類方法,該方法基于條件獨立性假設(shè),但是在實際情況中這一假設(shè)往往難以成立.
值得注意的是,與傳統(tǒng)的預(yù)測類問題不相同,蛋白質(zhì)小分子親和力值預(yù)測過程中會涉及到非數(shù)值型數(shù)據(jù)的處理,即無論是蛋白質(zhì)一級結(jié)構(gòu)序列的矢量化數(shù)據(jù)還是蛋白質(zhì)小分子的指紋數(shù)據(jù),都是非結(jié)構(gòu)化的字符串類型數(shù)據(jù).在傳統(tǒng)的蛋白質(zhì)小分子預(yù)測方法中,對這類數(shù)據(jù)有的不進行處理,有的僅統(tǒng)計數(shù)據(jù)的長度特征或者頻率特征,而對數(shù)據(jù)內(nèi)部的關(guān)聯(lián)關(guān)系與相關(guān)關(guān)系未進行挖掘,從而造成信息浪費,同時也降低了預(yù)測精度.自然語言處理技術(shù)的發(fā)展給這類問題的解決提供了啟示,蛋白質(zhì)結(jié)構(gòu)序列數(shù)據(jù)與分子指紋數(shù)據(jù)等非結(jié)構(gòu)化的字符串類型數(shù)據(jù)可以作為類文本數(shù)據(jù),借助自然語言處理技術(shù)進行處理,從而挖掘出相關(guān)信息以提高模型預(yù)測精度.
詞向量模型[10-11]作為一種常用的自然語言處理方法,能夠充分挖掘出類文本數(shù)據(jù)內(nèi)部的關(guān)聯(lián)關(guān)系和相關(guān)關(guān)系,實現(xiàn)對信息的有效利用.蛋白質(zhì)結(jié)構(gòu)序列矢量化結(jié)果作為一種類文本數(shù)據(jù),可以采用詞向量方法對其進行處理.詞向量模型有兩種常用的算法:Skip-Gram 算法和CBOW 算法.Skip-Gram 算法本質(zhì)上是只含有一層輸入層與一層隱含層的神經(jīng)網(wǎng)絡(luò)模型,其模型結(jié)構(gòu)如圖2所示,當輸入的單詞是“VDS”時,輸出的單詞是“MDN”、“NLP”、“DLS”、“PNI”.值得注意的是,詞向量模型更加關(guān)心模型訓練之后輸入層到隱藏層的權(quán)重,因為它反映了詞與詞之間的關(guān)聯(lián)性.
圖2 Skip-Gram 模型結(jié)構(gòu)示意圖Figure2 Skip-Gram model structure diagram
詞頻-逆文本頻率(term frequency-inverse document frequency,TF-IDF)[12]是一種反映不同字詞在語料庫的重要程度的算法.字詞的重要性與其出現(xiàn)次數(shù)成正比,與其在語料庫中出現(xiàn)的頻率成反比.TF-IDF 的計算公式為
式中,tf(x)為詞語x在文本中出現(xiàn)的頻率,N為文本集合中所有文本的總數(shù),N(x)表示文本集合中有多少篇文本出現(xiàn)了詞語x.
梯度提升決策樹是一種由多棵決策樹構(gòu)成的基于迭代的機器學習算法,其輸出結(jié)果是所有樹結(jié)果的累加值,具有很強的擬合能力和泛化能力,可廣泛用于分類和回歸問題,是目前應(yīng)用最為廣泛的機器學習模型之一.常用的梯度提升決策樹模型包括scikit-learn 中的GBDT、微軟開發(fā)的LightGBM[13]、陳天奇等人開發(fā)的XGBOOST[14]等,其中由微軟研發(fā)和開源的LightGBM 具有更高的執(zhí)行效率與更快的運行速度,使用更廣泛.
蛋白質(zhì)一級結(jié)構(gòu)(protein primary structure)是指肽或蛋白質(zhì)中氨基酸的線性序列,是由一串氨基酸組成的,可以由蛋白質(zhì)序列測序直接獲得或者從DNA 序列中推斷得到.對蛋白質(zhì)一級結(jié)構(gòu)數(shù)據(jù)進行矢量化處理之后得到的矢量化處理結(jié)果的數(shù)據(jù)格式如表1所示.
表1 蛋白質(zhì)一級結(jié)構(gòu)數(shù)據(jù)表Table1 Protein primary structure data sheet
蛋白質(zhì)結(jié)構(gòu)序列的矢量化結(jié)果以字母串的形式表達出了從氨基末端到羧基末端的氨基酸序列,單個字母代碼代表24種氨基酸中的一種.
蛋白質(zhì)小分子親和力值數(shù)據(jù)包括3 列數(shù)據(jù),分別是蛋白質(zhì)id(Protein_ID)、小分子id(Molecule_ID)與蛋白質(zhì)小分子親和力值(Ki),其中蛋白質(zhì)小分子親和力值就是需要預(yù)測的數(shù)據(jù),其格式如表2所示.
表2 蛋白小分子親和力值數(shù)據(jù)表Table2 Protein small molecule affinity value data sheet
小分子信息數(shù)據(jù)主要由小分子指紋信息數(shù)據(jù)與小分子理化試驗數(shù)據(jù)組成,其中分子指紋數(shù)據(jù)為字符串類型數(shù)據(jù),小分子理化試驗數(shù)據(jù)為數(shù)值型數(shù)據(jù),其格式如表3所示.
本文提出的基于NLP 的蛋白質(zhì)親和力值的預(yù)測框架如圖3所示.首先,基于自然語言處理技術(shù)對蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)與小分子指紋數(shù)據(jù)進行處理,構(gòu)造出詞向量特征與TF-IDF 特征,并對其余理化指標數(shù)據(jù)進行處理,構(gòu)造相應(yīng)的統(tǒng)計特征.其次,將構(gòu)建好的特征數(shù)據(jù)輸入到梯度提升決策樹算法中進行模型訓練.最后,利用訓練好的模型對蛋白質(zhì)小分子親和力值數(shù)據(jù)進行預(yù)測.
表3 小分子信息數(shù)據(jù)表Table3 Small molecule information data sheet
圖3 蛋白質(zhì)親和力值預(yù)測流程Figure3 Prediction process of protein affinity value
詞向量特征構(gòu)造是處理文本數(shù)據(jù)的基礎(chǔ),為后續(xù)的文本特征提取提供支撐.以蛋白質(zhì)小分子數(shù)據(jù)為例,選取一個蛋白質(zhì)的部分片段“MDNNLPVDSDLSPNI”,其中每一個字母代表一個氨基酸,常見的氨基酸種類有24 種,如果將3 個連續(xù)的氨基酸視為1 個詞組,則總語料庫中共包含有13 000 多個詞組.這里設(shè)置滑動窗口為2,即選取輸入詞前后各2 個單詞與輸入詞進行組合,具體處理過程如圖4所示,其中藍色方框表示輸入詞,綠色方框表示組合詞.
圖4 蛋白質(zhì)結(jié)構(gòu)處理示意圖Figure4 Protein structure processing diagram
由TF-IDF 思想可知,一種氨基酸組合在特定的蛋白質(zhì)中出現(xiàn)的頻率越高,說明它在區(qū)分該蛋白質(zhì)信息屬性方面的能力越強(TF);一個種氨基酸組合在所有蛋白質(zhì)中出現(xiàn)的范圍越廣,說明它區(qū)分蛋白質(zhì)信息的屬性越低(IDF).因此,提取蛋白質(zhì)的TF-IDF 特征公式為
式中,tf(ωi)為詞語ωi在集合中出現(xiàn)的頻率,N為蛋白質(zhì)集合中所有蛋白質(zhì)的總數(shù),N(ωi)表示蛋白質(zhì)集合中有多少個蛋白質(zhì)出現(xiàn)了詞語ωi.
由n 元模型(n-gram)可知,假設(shè)一個蛋白質(zhì)由L個氨基酸組成,那么這個蛋白質(zhì)包含的n-gram 信息共有L(L+1)/2 個.為了充分挖掘蛋白質(zhì)信息,可利用n 元組模型提取蛋白質(zhì)的n 元組信息.以蛋白質(zhì)“MDNNLP”為例,每個字母代表的氨基酸分別為
由此可將切分好的蛋白質(zhì)信息通過TF-IDF 算法轉(zhuǎn)換為特征.實驗分析結(jié)果表明,綜合取1~4 的所有元組組合構(gòu)造的特征,其效果要高于單獨取元組1 的特征、元組1~2 的組合特征以及元組1~3 的組合特征.
結(jié)構(gòu)化的數(shù)值型數(shù)據(jù)包括處理后的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)、小分子指紋數(shù)據(jù)、小分子理化指標數(shù)據(jù)等,為了更好地挖掘相關(guān)信息,可提取出有效的統(tǒng)計特征作為機器學習模型的輸入數(shù)據(jù).這里提取的統(tǒng)計特征如表4所示.
通過上述步驟提取了蛋白質(zhì)小分子的統(tǒng)計特征和結(jié)構(gòu)特性特征,可以將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為數(shù)值化的特征信息,從而只需借助梯隊提升決策樹等回歸算法,利用標注好的數(shù)據(jù)進行訓練,即可對待標注的數(shù)據(jù)進行預(yù)測.鑒于LightGBM 的性能優(yōu)勢,構(gòu)建完特征工程之后,即可采用LightGBM 算法對蛋白質(zhì)小分子的親和力值進行預(yù)測.通過對標注好的蛋白子小分子的親和力進行訓練,可以獲得上述步驟中提取的特征對預(yù)測親和力值的重要度,即特征的重要度.其中排名前10 的特征如圖5所示.
表4 統(tǒng)計特征表Table4 Statistical feature table
圖5 特征重要度排序圖Figure5 Feature importance ranking chart
從圖5可以看出,在最重要的10 個特征中,從蛋白質(zhì)一級結(jié)構(gòu)數(shù)據(jù)中提取的特征有2 個,從小分子指紋信息中提取的特征有2 個,從統(tǒng)計特征中提取的特征有6 個.也就是說,新方案對蛋白質(zhì)一級結(jié)構(gòu)數(shù)據(jù)與小分子指紋數(shù)據(jù)進行處理,引入的新信息為模型提供了4 個新的重要特征,從而提升了模型的預(yù)測精度.
為驗證基于自然語言處理的蛋白質(zhì)小分子親和力值的預(yù)測算法的性能,本文從BindingDB 數(shù)據(jù)庫與晶泰科技公司在DC 大數(shù)據(jù)競賽平臺上公布的蛋白質(zhì)小分子數(shù)據(jù)集中收集了2 萬組蛋白質(zhì)與小分子的數(shù)據(jù),并借助DC 大數(shù)據(jù)競賽平臺提供的線上評測機制對算法預(yù)測結(jié)果進行了評測.結(jié)果表明,相比于傳統(tǒng)方法,本文提出的基于自然語言處理的方法在預(yù)測精度上有了較大的提升.
本文的評測標準采用均方根誤差函數(shù),它是真實值與預(yù)測值偏差的平方和與觀測次數(shù)n比值的平方根,如式(3)所示:
式中,Xobs為真實值,Xpred為預(yù)測值.均方根誤差得分越小,表明模型預(yù)測精度越高.
為測試本文所提方法的有效性和性能,使用Python 語言對蛋白質(zhì)小分子的數(shù)據(jù)進行了處理,提取了相應(yīng)的TF-IDF 和統(tǒng)計特征之后,分別使用了嶺回歸模型、LightGBM 模型等對處理后的特征數(shù)據(jù)進行了對比訓練和預(yù)測,并提交到DC 大數(shù)據(jù)競賽平臺提供的線上評測平臺,得到評測結(jié)果如表5所示:
表5 評測結(jié)果表Table5 Evaluation result table
從表5可以發(fā)現(xiàn),本文提出的利用自然語言處理技術(shù)和LightGBM模型的方法獲得的預(yù)測效果最好,均方根誤差只有1.348.使用自然語言處理技術(shù)處理后的特征,即便使用嶺回歸方法,其誤差也可以達到1.415.相比而言,不對蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)進行處理的傳統(tǒng)方法,使用LightGBM 與嶺回歸方法時誤差分別達到了1.446 與1.495.對特征數(shù)據(jù)的分析可以發(fā)現(xiàn),由于對蛋白質(zhì)一級結(jié)構(gòu)序列數(shù)據(jù)與小分子指紋信息進行了處理引入了新信息,因此無論使用LightGBM 還是嶺回歸算法,效果都有明顯提升.其中,使用LightGBM 算法時,本文所提出的方法較原有方法在預(yù)測準確率方面提升了7.249%;使用嶺回歸方法時,本文提出的方法較原有方法在預(yù)測準確率方面提升了5.649%;而且本文所提出的利用自然語言處理技術(shù)與LightGBM 相結(jié)合的方法,獲得了比常用的嶺回歸方法更高的預(yù)測精度.由此可見,本文提出的基于自然語言處理與梯度提升算法的蛋白質(zhì)小分子親和力值的預(yù)測方法,較原有的傳統(tǒng)預(yù)測方法有顯著的預(yù)測精度提升,具有實際的應(yīng)用價值.
蛋白質(zhì)與小分子的相互作用研究是進行藥物研發(fā)與藥物設(shè)計的基礎(chǔ),傳統(tǒng)的蛋白質(zhì)親和力值測定方法在預(yù)測準確率和成本方面存在一定的局限性,不利于推廣應(yīng)用,于是本文提出了基于自然語言處理技術(shù)和梯度提升決策樹的蛋白質(zhì)小分子親和力值的預(yù)測方法,利用自然語言處理技術(shù)對蛋白質(zhì)一級結(jié)構(gòu)的序列數(shù)據(jù)與小分子指紋信息進行處理,提取了蛋白子和小分子的非結(jié)構(gòu)化數(shù)據(jù)中隱含的信息,并利用梯度提升決策樹模型進行了預(yù)測,實驗表明本文提出的方法較現(xiàn)有的傳統(tǒng)預(yù)測方法在精度方面得到了較大提升.