• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    RBP結(jié)合位點(diǎn)預(yù)測(cè)的深度學(xué)習(xí)方法進(jìn)展

    2022-05-18 04:27:22董正心潘小勇沈紅斌
    關(guān)鍵詞:特征結(jié)構(gòu)方法

    董正心, 潘小勇, 沈紅斌

    (上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)

    RNA結(jié)合蛋白(RNA binding protein,簡(jiǎn)稱RBP)作為細(xì)胞中重要的蛋白質(zhì)之一,是RNA代謝的關(guān)鍵組成部分。它在基因調(diào)控過程中發(fā)揮著重要作用,包括轉(zhuǎn)錄后的剪接、加工、修飾、轉(zhuǎn)運(yùn)等RNA代謝過程,影響著RNA的結(jié)構(gòu)并相互作用[1]。隨著高通量測(cè)序技術(shù)的發(fā)展,RBP的更多功能逐漸被發(fā)現(xiàn)。大量實(shí)驗(yàn)結(jié)果表明,RNA結(jié)合蛋白在影響染色質(zhì)水平上存在著廣泛的功能和作用,各種不同的RBP可通過調(diào)控RNA來控制轉(zhuǎn)錄,增強(qiáng)RNA與蛋白質(zhì)之間的相互作用,且RBP可作為轉(zhuǎn)錄因子或輔助因子來調(diào)控轉(zhuǎn)錄的[2]。例如,在環(huán)狀RNA的形成過程中,RNA結(jié)合蛋白QKI起到了重要的調(diào)控作用,它通過結(jié)合pre-mRNA(不均一核RNA)上的特定結(jié)合位點(diǎn)來促進(jìn)環(huán)狀RNA的形成[3]。此外,遺傳學(xué)數(shù)據(jù)和大量蛋白質(zhì)組學(xué)數(shù)據(jù)表明,RBP與神經(jīng)系統(tǒng)疾病、癌癥等許多人類疾病有關(guān),由RBP異常引起的RNA代謝缺陷可能是許多人類疾病的基礎(chǔ)[4]。因此,通過研究RNA與RNA結(jié)合蛋白之間的相互作用的信息來揭示RBP的調(diào)控機(jī)制,對(duì)于探索RNA功能、治療疾病等都有著重要意義。

    目前,分析RNA與蛋白質(zhì)相互作用或者定位RBP結(jié)合位點(diǎn)最常用的方法為高通量測(cè)序技術(shù),如交聯(lián)免疫共沉淀結(jié)合高通量測(cè)序(cross linking immunoprecipitation and high-throughput sequencing,簡(jiǎn)稱CLIP-seq)[5]、RNA結(jié)合蛋白免疫沉淀結(jié)合高通量測(cè)序(RNA binding protein immunoprecipitation and high-throughput sequencing, 簡(jiǎn)稱RIP-seq)[6]等。由于細(xì)胞中的RNA與RBP結(jié)合會(huì)形成核糖核蛋白(RNP)復(fù)合物,高通量測(cè)序技術(shù)首先利用特定蛋白的抗體將對(duì)應(yīng)的RNA-蛋白質(zhì)復(fù)合物沉淀下來,再分離復(fù)合物提取其中的RNA,并對(duì)其進(jìn)行測(cè)序。高通量測(cè)序技術(shù)在疾病基因篩查以及人類基因組學(xué)研究等方面做出了突出貢獻(xiàn)[7]。但對(duì)于規(guī)模龐大、類型復(fù)雜的基因組測(cè)序數(shù)據(jù),這種通過人工篩選來確定RBP結(jié)合位點(diǎn)的方法,不僅測(cè)序?qū)嶒?yàn)時(shí)間長(zhǎng),價(jià)格也非常昂貴,其測(cè)序結(jié)果的準(zhǔn)確性也依賴于實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)器材。因此,如何使用基于數(shù)據(jù)驅(qū)動(dòng)的方法來研究RNA和蛋白質(zhì)的相互作用成為一個(gè)有吸引力的研究方向。隨著近年來大數(shù)據(jù)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)方法蓬勃發(fā)展,在生物信息領(lǐng)域得到了廣泛應(yīng)用,使用計(jì)算機(jī)對(duì)海量的測(cè)序數(shù)據(jù)進(jìn)行模式挖掘的方法也快速發(fā)展。

    1 RNA-蛋白質(zhì)結(jié)合位點(diǎn)數(shù)據(jù)庫(kù)

    隨著高通量測(cè)序技術(shù)和生物信息學(xué)的發(fā)展,關(guān)于RNA與蛋白質(zhì)相互作用及RBP結(jié)合位點(diǎn)的大型數(shù)據(jù)庫(kù)層出不窮。其中,大部分?jǐn)?shù)據(jù)庫(kù)不僅整合了大量來自如CLIP-seq等技術(shù)的實(shí)驗(yàn)數(shù)據(jù),而且通過獨(dú)立實(shí)驗(yàn)對(duì)RBP的準(zhǔn)確性進(jìn)行了驗(yàn)證和篩選,具有較高的可信度,為基于數(shù)據(jù)驅(qū)動(dòng)的方法如機(jī)器學(xué)習(xí)方法提供了數(shù)據(jù)基礎(chǔ),用來構(gòu)建可靠的基準(zhǔn)數(shù)據(jù)集并用于機(jī)器學(xué)習(xí)模型的訓(xùn)練、測(cè)試、驗(yàn)證及評(píng)估。表1列舉了近幾年發(fā)表的可用于查詢RBPs結(jié)合位點(diǎn)及其他RNA與蛋白質(zhì)相互作用信息的部分?jǐn)?shù)據(jù)庫(kù)。

    表1中,RBPDB[8]是一個(gè)RNA結(jié)合特異性數(shù)據(jù)庫(kù),它收集了所有的具有已知RNA結(jié)合位點(diǎn)域的RBPs結(jié)合實(shí)驗(yàn)數(shù)據(jù),實(shí)驗(yàn)物種包括人、小鼠、蠅和蠕蟲,數(shù)據(jù)涵蓋272種RBPs、71個(gè)模體的位置權(quán)重矩陣和36套來自免疫沉淀實(shí)驗(yàn)的體內(nèi)結(jié)合轉(zhuǎn)錄序列。

    表1 RNA-蛋白質(zhì)結(jié)合位點(diǎn)數(shù)據(jù)庫(kù)

    通過對(duì)來自37個(gè)獨(dú)立研究的108個(gè)CLIP-Seq數(shù)據(jù)集進(jìn)行解碼,starBase[9]建立了RNA-RNA和蛋白質(zhì)-RNA的相互作用網(wǎng)絡(luò),不僅可以進(jìn)行泛癌分析,還可以執(zhí)行部分RNA的存活和差異表達(dá)分析。CLIPdb[10]構(gòu)建了一個(gè)RBP-RNA相互作用的數(shù)據(jù)庫(kù),包含各種高分辨率的RBPs在RNA上的結(jié)合位點(diǎn)及人工注釋,可以在全基因組尺度上直觀地顯示出RBPs的結(jié)合位點(diǎn)。由于RBPs和miRNA的聯(lián)合作用可認(rèn)為是形成了一種轉(zhuǎn)錄后調(diào)控編碼,DoRiNA[11]數(shù)據(jù)庫(kù)主要用于分析轉(zhuǎn)錄后調(diào)控過程中RNA的相互作用。類似地,RBP-Var[12]數(shù)據(jù)庫(kù)提供了RBP在轉(zhuǎn)錄后調(diào)控及相互作用的功能變體的注釋,可以判斷單核苷酸變異體(SNVs)是否可以影響RNA的二級(jí)結(jié)構(gòu),并識(shí)別可能會(huì)被破壞結(jié)合的RBPs,因此,可用于探索人類疾病背后的SNVs。ATtRACT[13]是RNA結(jié)合蛋白和相關(guān)模體的數(shù)據(jù)庫(kù),可以發(fā)現(xiàn)在一組序列中重復(fù)出現(xiàn)的模式,并與已存在的模體進(jìn)行比較。特別地,RBPTD[14]數(shù)據(jù)庫(kù)涵蓋了與人類癌癥相關(guān)的RBPs數(shù)據(jù),通過整合28種癌癥的基因表達(dá)譜、預(yù)后數(shù)據(jù)和DNA拷貝數(shù)變異(CNV)等數(shù)據(jù)來研究RBPs的變異原因和潛在功能。RBP2GO[15]提供了一個(gè)全面的RNA 結(jié)合蛋白數(shù)據(jù)庫(kù),包括從人類到細(xì)菌等13個(gè)物種的信息,105種RBPs,并且允許對(duì)具有特定分子功能的RNA結(jié)合蛋白進(jìn)行反向搜索。另外,POSTAR[16]系列數(shù)據(jù)庫(kù)基于高通量測(cè)序數(shù)據(jù),主要探索了7個(gè)物種的轉(zhuǎn)錄后調(diào)控機(jī)制,提供了最大的帶功能注釋的RBPs結(jié)合位點(diǎn)的集合。

    2 編碼方法

    對(duì)于機(jī)器學(xué)習(xí)模型來說,需要輸入數(shù)值型的數(shù)據(jù)來保證模型內(nèi)部的計(jì)算。因此,對(duì)于非數(shù)值型數(shù)據(jù)如由堿基組成的RNA序列,在輸入模型前需要進(jìn)行合理的編碼使其轉(zhuǎn)化為數(shù)值數(shù)據(jù)。這個(gè)過程稱為特征編碼,一般在輸入模型前得到的是初級(jí)的稀疏特征,而機(jī)器學(xué)習(xí)模型可以從中提取有用的信息得到高級(jí)的抽象特征,從而完成特定的機(jī)器學(xué)習(xí)任務(wù)。以下介紹3種在RBP結(jié)合位點(diǎn)預(yù)測(cè)領(lǐng)域常用的幾種特征編碼方式。

    2.1 獨(dú)熱(one-hot)編碼

    獨(dú)熱編碼常用于離散型數(shù)據(jù)的編碼,這種數(shù)據(jù)常包含多個(gè)類別,且各個(gè)類別的重要程度沒有明顯差別。經(jīng)過獨(dú)熱編碼后可得到由單個(gè)1和多個(gè)0組成的N維向量,其中N由類別數(shù)決定,1所在的位置由當(dāng)前類別決定。編碼成向量形式同時(shí)也意味著將數(shù)據(jù)映射到了歐式空間,各個(gè)類別初始的獨(dú)熱編碼特征向量之間的距離相同,而經(jīng)過模型學(xué)習(xí)后的高級(jí)特征之間的距離會(huì)發(fā)生變化,即體現(xiàn)了當(dāng)前任務(wù)中各維特征的重要程度。對(duì)于用于RBP結(jié)合位點(diǎn)預(yù)測(cè)的RNA序列,包含A、C、G、U(或T)4種堿基,因此經(jīng)過獨(dú)熱編碼可以得到L×4的獨(dú)熱矩陣,其中L為序列長(zhǎng)度。這也是最常用的RNA序列編碼方法,其編碼過程如圖1所示。

    圖1 獨(dú)熱編碼示例

    2.2 K-mers

    在生物信息學(xué)中,K-mer是指對(duì)于輸入的序列數(shù)據(jù)進(jìn)行切分產(chǎn)生的長(zhǎng)度為K的序列片段。如對(duì)于RNA序列來說,即為包含K個(gè)堿基的RNA子序列。K-mers方法常用于基因組復(fù)雜度分析、基因組組裝等,還可以通過生成K-mers譜結(jié)合一些概率模型來研究基因組的分布,如低階馬爾可夫模型[17]。基于K-mer的編碼方式主要有2種。以k為3為例,共有64種3-mer片段,對(duì)于每條RNA序列生成64維編碼向量。一種方法是對(duì)于輸入的每條序列切分生成3-mer片段集合,統(tǒng)計(jì)集合中每種3-mer出現(xiàn)的次數(shù)即為該條序列的64維編碼向量對(duì)應(yīng)維度上的特征數(shù)值,也稱基于K-mer頻率的編碼方法,其編碼過程如圖2(a)所示。另一種方法借鑒了自然語言處理領(lǐng)域的方法,將K-mers片段集合當(dāng)作單詞詞袋,單個(gè)K-mer視為單詞,RNA序列視為句子,考慮了K-mers之間即RNA前后序列之間的連續(xù)關(guān)系,可用詞嵌入方法生成對(duì)應(yīng)的嵌入編碼進(jìn)行進(jìn)一步的學(xué)習(xí)。另外,基于分子生物學(xué)的特征也有一些編碼方法的拓展。例如,在信使RNA分子中,相鄰的3個(gè)核苷酸可在蛋白質(zhì)翻譯時(shí)對(duì)應(yīng)一種氨基酸,可視為K為3時(shí)的一個(gè)特例。如CRIP[18]方法將所有的64種3-mer片段對(duì)應(yīng)20種氨基酸和1個(gè)終止密碼子進(jìn)行映射,得到3-mer片段的21維獨(dú)熱編碼的特征向量,相較于4維獨(dú)熱編碼得到了更豐富的序列信息,其編碼過程如圖2(b)所示。

    圖2 K-mers編碼方法

    2.3 RNA二級(jí)結(jié)構(gòu)

    除了對(duì)RNA的序列信息進(jìn)行編碼之外,RNA的二級(jí)折疊結(jié)構(gòu)也蘊(yùn)含著大量信息,因此可以將RNA二級(jí)結(jié)構(gòu)轉(zhuǎn)化為拓?fù)鋱D結(jié)構(gòu)。常用的RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)方法有RNAFold[19]、MFold[20]、RnaPredict[21]等,如RNAFold預(yù)測(cè)具有最小自由能的RNA二級(jí)結(jié)構(gòu)。如RPI-Net[22]方法在得到預(yù)測(cè)的RNA二級(jí)結(jié)構(gòu)后,把堿基作為圖上的結(jié)點(diǎn),把序列主鏈及二級(jí)結(jié)構(gòu)中的堿基配對(duì)信息作為圖中連接的邊,得到相應(yīng)的拓?fù)鋱D結(jié)構(gòu),其過程示意圖如圖3所示。

    圖3 RNA二級(jí)結(jié)構(gòu)

    3 機(jī)器學(xué)習(xí)

    在過去的幾十年里,機(jī)器學(xué)習(xí)在多個(gè)領(lǐng)域得到了廣泛的應(yīng)用并取得了優(yōu)越的成果,如計(jì)算機(jī)視覺、自然語言處理、生物信息學(xué)等。機(jī)器學(xué)習(xí)方法可以從訓(xùn)練數(shù)據(jù)的已知樣本中學(xué)習(xí)到隱含的模式,并用于對(duì)未知樣本的預(yù)測(cè)。大部分機(jī)器學(xué)習(xí)方法為有數(shù)據(jù)標(biāo)簽的監(jiān)督學(xué)習(xí)模型,如支持向量機(jī)、隨機(jī)森林等,而非監(jiān)督學(xué)習(xí)沒有數(shù)據(jù)標(biāo)簽信息。這里的傳統(tǒng)機(jī)器學(xué)習(xí)指淺層結(jié)構(gòu)的模型,深度學(xué)習(xí)指具有深層結(jié)構(gòu)、包含多層神經(jīng)網(wǎng)絡(luò)的模型。

    3.1 傳統(tǒng)機(jī)器學(xué)習(xí)

    3.1.1 支持向量機(jī)

    支持向量機(jī)(support vector machine,簡(jiǎn)稱SVM)[23]是經(jīng)典的機(jī)器學(xué)習(xí)技術(shù)之一,常用于解決各種分類與回歸問題。SVM是一種廣義線性分類器。除了線性分類外,SVM還可以通過核函數(shù)將非線性輸入向量映射到線性高維特征空間,并在該特征空間中構(gòu)造一個(gè)最大間隔超平面,該超平面以最大間隔將兩類數(shù)據(jù)分開。在機(jī)器學(xué)習(xí)中,SVM常使用帶正則項(xiàng)的鉸鏈損失函數(shù)(hinge loss function),其學(xué)習(xí)目標(biāo)為類間幾何間隔最大化即損失函數(shù)最小化,因此求解SVM可以看作求解二次凸優(yōu)化問題,常用的方法有梯度下降、坐標(biāo)下降、內(nèi)點(diǎn)法等。

    由于SVM較強(qiáng)的泛化能力,其應(yīng)用也越來越廣泛。不僅可以進(jìn)行光學(xué)字符識(shí)別,還可用于文本及圖像分類,并且越來越廣泛地應(yīng)用于生物學(xué)中,如微陣列基因表達(dá)譜分類、蛋白質(zhì)分類等[24]。

    3.1.2 隨機(jī)森林

    隨機(jī)森林(random forest,簡(jiǎn)稱RF)[25]是決策樹的集合,其中每棵樹都依賴于獨(dú)立采樣的樣本訓(xùn)練數(shù)據(jù),其泛化誤差取決于每棵樹的性能和彼此之間的多樣性,且隨著決策樹數(shù)量的增加收斂到一個(gè)極限值。RF在訓(xùn)練過程中進(jìn)行隨機(jī)特征選擇,通過投票法或平均法聚合多棵決策樹的預(yù)測(cè)結(jié)果來得到最終的預(yù)測(cè)結(jié)果,這種隨機(jī)抽樣和集成策略使得它具有較高的預(yù)測(cè)精度和泛化能力。

    由于RF在處理高維特征空間和復(fù)雜數(shù)據(jù)結(jié)構(gòu)上具有獨(dú)特的優(yōu)勢(shì),其在生物信息學(xué)領(lǐng)域的應(yīng)用也越來越廣泛[26]。如利用腫瘤標(biāo)志物表達(dá)訓(xùn)練RF來檢測(cè)腫瘤樣本簇[27],或利用RF來預(yù)測(cè)蛋白質(zhì)對(duì)之間的相互作用[28]。

    3.2 深度學(xué)習(xí)

    3.2.1 多層感知機(jī)(MLP)

    多層感知機(jī)(multilayer perceptron,簡(jiǎn)稱MLP)[29]是一種前饋人工神經(jīng)網(wǎng)絡(luò),可以通過不同的激活函數(shù)將一組輸入向量映射到一組輸出向量。MLP一般由3層或者更多層網(wǎng)絡(luò)構(gòu)成,其基本結(jié)構(gòu)包括輸入層、隱含層、輸出層,每層都由多個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)即一個(gè)帶有激活函數(shù)的神經(jīng)元。在訓(xùn)練過程中,各神經(jīng)元的權(quán)重參數(shù)可以通過監(jiān)督學(xué)習(xí)的反向傳播算法更新,以減小實(shí)際值與預(yù)測(cè)值之間的誤差。由于激活函數(shù)的可選擇性,MLP可用于解決多種復(fù)雜問題。

    3.2.2 深度置信網(wǎng)絡(luò)(DBN)

    深度置信網(wǎng)絡(luò)(deep belief networks,簡(jiǎn)稱DBN)[30]通常由多層隱含層構(gòu)成,其層內(nèi)單元沒有聯(lián)系,具有逐層學(xué)習(xí)的特點(diǎn)。DBN可以看作多個(gè)子網(wǎng)絡(luò)的組合,如受限玻爾茲曼機(jī)(RBM)或自動(dòng)編碼器,其中每個(gè)子網(wǎng)絡(luò)的隱藏層充當(dāng)下一個(gè)子網(wǎng)絡(luò)的可見層。DBN具有2個(gè)特征:1)自上而下學(xué)習(xí)的生成權(quán),決定某層的變量如何根據(jù)上一層的變量來改變;2)自下而上傳遞的生成權(quán),由底層的數(shù)據(jù)向量推斷每層潛在變量的值。DBN可用于處理高度結(jié)構(gòu)化的數(shù)據(jù)(如圖像),且經(jīng)過訓(xùn)練后可以用來初始化隱含層進(jìn)行數(shù)據(jù)特征降維。由于其處理復(fù)雜數(shù)據(jù)的優(yōu)勢(shì),DBN被應(yīng)用在許多領(lǐng)域,如預(yù)測(cè)單聲道隱馬爾可夫模型狀態(tài)的概率分布[31]。

    3.2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

    循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,簡(jiǎn)稱RNN)[32]是一種帶有循環(huán)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),它通過隱藏狀態(tài)來存儲(chǔ)過去的信息,再與當(dāng)前輸入一起決定當(dāng)前輸出及隱藏狀態(tài)的更新,常用于處理序列數(shù)據(jù),如自然語言等。由于RNN在訓(xùn)練過程中出現(xiàn)參數(shù)爆炸、梯度消失等問題,且無法解決長(zhǎng)期依賴問題,難以學(xué)習(xí)到較長(zhǎng)時(shí)間之前的信息,因此引入了多個(gè)變種,如長(zhǎng)短期記憶單元(long short-term memory,簡(jiǎn)稱LSTM)、門控循環(huán)單元(gated recurrent unit,簡(jiǎn)稱GRU)等。LSTM[33]由輸入門、遺忘門、輸出門及記憶單元等構(gòu)成,這種結(jié)構(gòu)使LSTM在訓(xùn)練過程中可以決定輸入的信息是否應(yīng)該保留或遺忘,解決了長(zhǎng)期依賴問題,適用于長(zhǎng)時(shí)滯后的任務(wù),可用來處理較長(zhǎng)的序列數(shù)據(jù)。GRU[34]是LSTM的一個(gè)改進(jìn)版本,它對(duì)門控機(jī)制進(jìn)行了改進(jìn),其單元內(nèi)部只包括重置門和更新門。

    3.2.4 卷積神經(jīng)網(wǎng)絡(luò)(CNN)

    卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,簡(jiǎn)稱CNN)屬于前饋神經(jīng)網(wǎng)絡(luò),一般由卷積層、池化層、全連接層組成。卷積操作為使用一定大小的卷積核在輸入特征上進(jìn)行滑動(dòng),并將感受野內(nèi)的數(shù)值與卷積核進(jìn)行對(duì)應(yīng)元素的乘法運(yùn)算,然后將乘法結(jié)果進(jìn)行加和得到卷積后特征圖中的對(duì)應(yīng)元素值。其中卷積核對(duì)應(yīng)參數(shù)由訓(xùn)練確定,在訓(xùn)練過程中使用反向傳播算法來優(yōu)化卷積核參數(shù)。池化操作是一種降采樣方法,常采用最大池化、平均池化等方法對(duì)上一層輸出的特征圖進(jìn)行降維操作。經(jīng)過多個(gè)卷積層和池化層,可以提取到高級(jí)抽象特征,再經(jīng)過一層或多層全連接層完成相應(yīng)的分類或回歸任務(wù)。

    CNN目前已在多個(gè)領(lǐng)域廣泛應(yīng)用,如圖像分類、目標(biāo)檢測(cè)、語義分割、自然語言處理等,近年來也常用于藥物發(fā)現(xiàn),如AtomNet[35]將卷積概念應(yīng)用于生物活性和化學(xué)相互作用的建模,使用三維卷積來預(yù)測(cè)小分子生物活性。由于CNN強(qiáng)大的特征學(xué)習(xí)能力,可以挖掘出數(shù)據(jù)中蘊(yùn)含的空間結(jié)構(gòu),CNN也可用于模體的挖掘,對(duì)于研究和理解RNA與蛋白質(zhì)相互作用有重要意義。

    3.2.5 圖神經(jīng)網(wǎng)絡(luò)(GNN)

    圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,簡(jiǎn)稱GNN)[36]是一種處理圖數(shù)據(jù)的網(wǎng)絡(luò),可用于多種圖類型數(shù)據(jù),如無向圖、有向圖、無環(huán)圖、循環(huán)圖等,將圖及其節(jié)點(diǎn)映射到歐幾里得空間進(jìn)行運(yùn)算。類似的領(lǐng)域有圖嵌入,它旨在學(xué)習(xí)節(jié)點(diǎn)或圖的低維、稠密的特征表示,同時(shí)保留圖的拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)內(nèi)容,如Deepwalk[37]使用隨機(jī)游走的方法獲取局部信息來學(xué)習(xí)節(jié)點(diǎn)的潛在嵌入特征表示。使用深度學(xué)習(xí)的方法來進(jìn)行圖嵌入學(xué)習(xí)時(shí)也可歸于圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域。GNN領(lǐng)域中圖卷積網(wǎng)絡(luò)(graph convolutional network,簡(jiǎn)稱GCN)占有重要地位,包括譜方法和空間方法。通常GCN的輸入包括節(jié)點(diǎn)特征矩陣和圖結(jié)構(gòu)描述性矩陣,如鄰接矩陣,GCN可以進(jìn)行端到端的學(xué)習(xí),其示意圖如圖4所示。

    圖4 圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)示意圖

    近年來,隨著圖神經(jīng)網(wǎng)絡(luò)的發(fā)展,提出了各種變體網(wǎng)絡(luò),如GraphSAGE[38]通過對(duì)鄰居節(jié)點(diǎn)采樣、聚合的操作實(shí)現(xiàn)以節(jié)點(diǎn)為中心的小批量訓(xùn)練來代替全圖訓(xùn)練;GAT[39]將注意力機(jī)制引入圖神經(jīng)網(wǎng)絡(luò),通過注意力機(jī)制聚合鄰居節(jié)點(diǎn)并自適應(yīng)地分配權(quán)重,提高了表達(dá)能力。除了應(yīng)用在社交網(wǎng)絡(luò)、知識(shí)圖譜、推薦系統(tǒng)等領(lǐng)域外,圖神經(jīng)網(wǎng)絡(luò)在生物信息學(xué)上的應(yīng)用也越來越廣泛,包括小分子結(jié)構(gòu)、基因/蛋白質(zhì)相互作用網(wǎng)絡(luò)等,如GCNG[40]利用圖神經(jīng)網(wǎng)絡(luò)將高通量空間表達(dá)數(shù)據(jù)中的空間信息編碼為圖,并結(jié)合表達(dá)數(shù)據(jù)來推斷基因相互作用。

    4 RBP結(jié)合位點(diǎn)預(yù)測(cè)

    目前,大部分預(yù)測(cè)RBP結(jié)合位點(diǎn)的方法將預(yù)測(cè)問題轉(zhuǎn)化為分類問題,來判斷蛋白質(zhì)是否能與RNA某些區(qū)域綁定。對(duì)于RNA序列,能與蛋白質(zhì)綁定的區(qū)域稱為結(jié)合位點(diǎn),其他區(qū)域稱為非結(jié)合位點(diǎn)。因此,可以訓(xùn)練一種蛋白質(zhì)特異性的二值分類器來預(yù)測(cè)RNA上的RBP結(jié)合位點(diǎn),該分類模型需要RNA的表征作為輸入,訓(xùn)練數(shù)據(jù)通常使用高通量測(cè)序技術(shù)獲得。對(duì)于特定蛋白質(zhì),需要收集足夠多的訓(xùn)練數(shù)據(jù)來預(yù)測(cè)RBP在RNA上的綁定位點(diǎn)。由于不同的RBP具有不同的綁定模式,對(duì)于每種RBP需要單獨(dú)訓(xùn)練一個(gè)模型。

    4.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)預(yù)測(cè)RBP結(jié)合位點(diǎn)的方法

    傳統(tǒng)的機(jī)器學(xué)習(xí)方法需要通過特征工程清洗數(shù)據(jù)、提取特征,以及使用更淺層的學(xué)習(xí)模型,如SVM、RF等。表2總結(jié)了近年來使用傳統(tǒng)機(jī)器學(xué)習(xí)來預(yù)測(cè)RBP結(jié)合位點(diǎn)的方法。

    表2 基于傳統(tǒng)機(jī)器學(xué)習(xí)預(yù)測(cè)RBP結(jié)合位點(diǎn)的方法

    RNAContext[41]方法提出了基于結(jié)構(gòu)上下文字母表來標(biāo)注RNA序列的單個(gè)堿基,集成了序列和結(jié)構(gòu)信息來推斷RBPs的綁定傾向,可以準(zhǔn)確預(yù)測(cè)短序列上RBP的綁定強(qiáng)度,學(xué)習(xí)到結(jié)合位點(diǎn)的3 D形狀的更精確描述。之后,RCK[42]在RNAContext的基礎(chǔ)上進(jìn)行了改進(jìn),使用了一種新的基于K-mer的模型,同樣用到了結(jié)構(gòu)信息,將RNAplfold預(yù)測(cè)的結(jié)構(gòu)上下文的概率向量與序列一起作為輸入?;贙-mer的方法能更好地引入上下文信息,但同時(shí)也意味著模型參數(shù)增多,提高了模型過擬合的風(fēng)險(xiǎn)。

    GraphProt[43]方法則首次利用完整的二級(jí)結(jié)構(gòu)信息,采用了一種高效的圖-核方法,將預(yù)測(cè)得到的結(jié)構(gòu)編碼成圖,其中包含序列和完整的二級(jí)結(jié)構(gòu)信息,之后再使用圖核的方法從圖中提取特征,最后通過訓(xùn)練SVM模型對(duì)RBP結(jié)合位點(diǎn)進(jìn)行分類。在RBP-24數(shù)據(jù)集的評(píng)估上,GraphProt在24組中有20組的表現(xiàn)都優(yōu)于RNAContext。實(shí)驗(yàn)結(jié)果表明[43],加入結(jié)構(gòu)信息相比不加結(jié)構(gòu)信息使得模型在平均相對(duì)誤差上有大幅度下降,因此,模型的準(zhǔn)確性能得到了提升,但是模型訓(xùn)練速度下降。

    與前幾種方法不同的是,Oli[44]方法僅使用了序列特征作為模型輸入,提取RNA序列的K-mer頻率作為輸入特征,用SVM作為分類器對(duì)RNA-蛋白質(zhì)的相互作用進(jìn)行分類。另外,該方法同時(shí)提出了基于模體評(píng)分的OliMo[44]方法以及基于二級(jí)結(jié)構(gòu)的OliMoSS[44]方法。經(jīng)過實(shí)驗(yàn)證明[44],僅基于序列的Oli方法通過四核苷酸特征表示提取到了足夠的結(jié)合特性,這時(shí)結(jié)構(gòu)信息可能是不必要的。

    iONMF[45]使用了一種正交矩陣分解方法來整合多個(gè)數(shù)據(jù)源,旨在發(fā)現(xiàn)類別特異性的RNA結(jié)合模式,其中,蛋白質(zhì)與RNA相互作用的關(guān)鍵預(yù)測(cè)因子是RNA序列和結(jié)構(gòu)模體的位置、RBP的共結(jié)合及基因區(qū)域類型。該方法驗(yàn)證了融合多個(gè)數(shù)據(jù)源的模型比在單個(gè)數(shù)據(jù)源上取得了更高的準(zhǔn)確性,而且這種正交正則化非負(fù)矩陣因子分解的方法給數(shù)據(jù)集成技術(shù)提供了新的方案。

    RNAcommender[46]考慮到蛋白質(zhì)結(jié)構(gòu)域的組成和RNA預(yù)測(cè)的二級(jí)結(jié)構(gòu),利用了相互作用信息,針對(duì)RBPs的RNA靶標(biāo)訓(xùn)練了一個(gè)推薦系統(tǒng),為未知的RBPs預(yù)測(cè)RNA靶標(biāo)。

    綜上所述,可以看出基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法注重于數(shù)據(jù)特征的處理、選擇和集成,而加入額外信息的作用與模型本身有關(guān)。例如,在Oli方法中,二級(jí)結(jié)構(gòu)特征未起到提升預(yù)測(cè)性能的效果,但在iONMF方法使用的多源數(shù)據(jù)特征中,又驗(yàn)證了信息量最大的數(shù)據(jù)源是RNA結(jié)構(gòu)。因此,當(dāng)前模型是否能有效利用到結(jié)構(gòu)信息也是需要考慮的因素。對(duì)于基于K-mer頻率的方法,在Oli方法中證實(shí)了4-mer核苷酸的方法能有效提取到結(jié)合特征,雖然RCK方法中指出這種方法會(huì)導(dǎo)致參數(shù)的增加,需要交叉驗(yàn)證來避免過擬合,但是在模型訓(xùn)練速度上并未下降,因此,基于K-mer的方法是一種值得考慮的有效的特征提取方法。

    4.2 基于深度學(xué)習(xí)預(yù)測(cè)RBP結(jié)合位點(diǎn)的方法

    隨著實(shí)驗(yàn)驗(yàn)證的RBP結(jié)合位點(diǎn)數(shù)據(jù)的迅速積累,可以使用深度學(xué)習(xí)挖掘出越來越多隱含在數(shù)據(jù)里的綁定模式。深度學(xué)習(xí)被廣泛地應(yīng)用在計(jì)算機(jī)生物學(xué),如用來預(yù)測(cè)RBP結(jié)合位點(diǎn)的深度學(xué)習(xí)模型針對(duì)每種蛋白質(zhì)訓(xùn)練一個(gè)蛋白質(zhì)特異性模型。表3對(duì)于近年來在RBP結(jié)合位點(diǎn)預(yù)測(cè)領(lǐng)域上提出的基于深度學(xué)習(xí)的方法進(jìn)行了總結(jié)。

    4.2.1 基于RNA序列預(yù)測(cè)RBP結(jié)合位點(diǎn)

    經(jīng)過多種方法證明,僅使用RNA序列作為模型輸入也可以提取到足夠信息,取得較好的預(yù)測(cè)效果,下面介紹幾種基于RNA序列預(yù)測(cè)RBP結(jié)合位點(diǎn)的深度學(xué)習(xí)方法。

    DeepBind[47]是第一個(gè)使用卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)RBP結(jié)合位點(diǎn)的方法,并且可以利用卷積層學(xué)習(xí)到的參數(shù)來挖掘序列綁定模體,獲得的準(zhǔn)確性優(yōu)于基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法。DeeperBind[48]則在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上添加了一個(gè)LSTM層來學(xué)習(xí)序列內(nèi)的長(zhǎng)期依賴信息,結(jié)合深度學(xué)習(xí)特征表征的能力,使用高通量技術(shù)產(chǎn)生的數(shù)據(jù)訓(xùn)練模型學(xué)習(xí)序列的結(jié)合特性,進(jìn)一步提升了預(yù)測(cè)性能。DanQ[49]使用了類似的CNN和雙向LSTM的網(wǎng)絡(luò)架構(gòu)來學(xué)習(xí)調(diào)控機(jī)制,預(yù)估突變的影響,其預(yù)測(cè)染色質(zhì)水平的能力意味著它可以更好地預(yù)測(cè)遺傳變異引起的表觀遺傳變化。由于RNA序列的轉(zhuǎn)錄機(jī)制、序列長(zhǎng)度等特點(diǎn),CNN通過訓(xùn)練卷積核在局部感受野內(nèi)提取高級(jí)抽象特征,而LSTM則憑借其學(xué)習(xí)長(zhǎng)依賴信息的能力很好地處理了較長(zhǎng)的RNA序列,使得CNN與LSTM組合的網(wǎng)絡(luò)取得了優(yōu)越的性能。

    類似于CNN與LSTM的組合網(wǎng)絡(luò)結(jié)構(gòu),MSCGRU[50]是一種結(jié)合多尺度卷積層和雙向門控遞歸單元(GRU)層的預(yù)測(cè)模型。多尺度卷積層能夠捕獲不同長(zhǎng)度的模體特征及RNA-蛋白質(zhì)之間局部的結(jié)合模式,雙向GRU層能捕獲子序列之間的依賴關(guān)系,從而預(yù)測(cè)RBP的綁定基序。

    一般來說,由局部和全局序列決定RBP是否能與某序列片段進(jìn)行綁定。因此,iDeepE[51]結(jié)合了一個(gè)局部多通道CNN和一個(gè)全局CNN來預(yù)測(cè)RBP結(jié)合位點(diǎn),其中局部CNN處理多個(gè)重疊的固定長(zhǎng)度子序列,而全局CNN處理整條序列,且局部CNN在保持和全局CNN相似性能的情況下處理速度更快。由iDeepE的結(jié)果可知,更深的模型不意味著更好的預(yù)測(cè)性能,因?yàn)楦畹哪P屯馕吨枰嗟挠?xùn)練樣本來保證模型的泛化性能。經(jīng)實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),只有2層CNN的模型比有20層CNN的ResNet表現(xiàn)得更好,特別是對(duì)于那些已知RNA靶點(diǎn)較少的蛋白質(zhì)。在RNA長(zhǎng)序列上iDeepE比DeepBind表現(xiàn)得更好,但在短的RNA序列片段上兩者表現(xiàn)相似。

    隨著注意力機(jī)制在計(jì)算機(jī)視覺領(lǐng)域取得了可觀的進(jìn)展,它在其他領(lǐng)域上的應(yīng)用也越來越廣泛。iDeepA[52]引入基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)來自動(dòng)搜索重要位置如綁定基序,并用來預(yù)測(cè)RBP結(jié)合位點(diǎn)。iDeepA中集成了CNN和2層注意力層,并提取了來自CNN和注意力層的3個(gè)輸出特征圖。對(duì)于具有少量已知RNA靶點(diǎn)的蛋白質(zhì),引入注意力機(jī)制提升了預(yù)測(cè)能力。但是對(duì)于具有大量已知RNA靶點(diǎn)的蛋白質(zhì),引入注意力機(jī)制不能提升預(yù)測(cè)能力。一個(gè)可能的原因是注意力機(jī)制可以快速定位到重要的基序,因此不需要更多的訓(xùn)練樣本來學(xué)習(xí)高級(jí)特征。

    另外,K-mer方法也可以編碼RNA序列,但是K-mer頻率不能對(duì)不同的K-mer之間的距離建模。考慮到核酸的多態(tài)性,一些K-mer在語義上是相關(guān)的。因此,一些方法首先將K-mer當(dāng)作單詞,將序列當(dāng)作句子,使用詞嵌入方法學(xué)習(xí)分布式特征,然后使用學(xué)習(xí)到的特征來分析K-mer之間的相似性。如iDeepV[53]引入了word2vec詞嵌入方法,首先,從全基因組序列中學(xué)習(xí)K-mers的低維、稠密的分布式向量,然后將這些學(xué)習(xí)到的向量進(jìn)一步輸入CNN以區(qū)分結(jié)合位點(diǎn)與非結(jié)合位點(diǎn)。對(duì)于某些只有少量訓(xùn)練樣本的RBP,iDeepV的表現(xiàn)優(yōu)于DeepBind。另外,學(xué)習(xí)到的分布式特征可以用于其他的下游分類任務(wù)。與傳統(tǒng)的K-mers方法相比,分布式表示特征對(duì)于檢測(cè)K-mers之間潛在的相互關(guān)系和相似性更有效。類似地,RBPSpot[54]方法也使用了K-mer方法來搜索具有統(tǒng)計(jì)學(xué)意義的基序,結(jié)合其上下文信息來評(píng)估序列的綁定潛力。除了分布式特征外,一些傳統(tǒng)的語言模型也可以用于特征提取。如kDeepBind[55]中使用k-Gram統(tǒng)計(jì)語言模型提取了序列的k-Gram頻次,與CNN提取的特征拼接后輸入全連接層完成分類任務(wù)。

    綜上所述,與基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法相比,得益于神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力及處理大型數(shù)據(jù)集的強(qiáng)大的計(jì)算能力,基于深度學(xué)習(xí)的方法在僅有序列信息的情況下可以取得更好的預(yù)測(cè)性能。如DeepBind方法僅使用CNN模型,但在RBP-24數(shù)據(jù)集上的評(píng)估AUC達(dá)到了0.92,高于RNAContext和GraphPort,在RBP-31數(shù)據(jù)集上的評(píng)估AUC達(dá)到了0.85,與iONMF持平,但也高于Oli和GraphProt。

    4.2.2 引入結(jié)構(gòu)信息預(yù)測(cè)RBP結(jié)合位點(diǎn)

    RBP也通過識(shí)別結(jié)構(gòu)上下文與RNA靶點(diǎn)結(jié)合,因此,結(jié)構(gòu)信息也被用來預(yù)測(cè)RBP結(jié)合位點(diǎn)和結(jié)合偏好。多種方法證明,添加多源特征能提升性能,特別是一些互補(bǔ)的特征。考慮到RBP結(jié)合位點(diǎn)的異構(gòu)表示及除序列外其他影響RNA-蛋白質(zhì)相互作用的因素,iDeep[56]方法通過集成包括區(qū)域類型、共綁定、結(jié)構(gòu)概率、模體得分和RNA序列共5種多源數(shù)據(jù)特征來學(xué)習(xí)其之間的共享特征。其中使用CNN捕捉序列中的調(diào)控模體,使用DBN學(xué)習(xí)其他4種數(shù)據(jù)輸入的隱藏狀態(tài)的高級(jí)特征,2個(gè)模型獨(dú)立預(yù)訓(xùn)練后,再結(jié)合在一起進(jìn)行最后的聯(lián)合訓(xùn)練。iDeep在性能上超過了其他先進(jìn)的方法,并且可用于推斷綁定序列模體。從iDeep的結(jié)果可看出,區(qū)域類型和共綁定信息對(duì)于預(yù)測(cè)RNA上的RBP結(jié)合位點(diǎn)起到了較大作用,而且使用多模態(tài)的方法也能從各模態(tài)中學(xué)習(xí)到更有效的特征。

    類似地,考慮到調(diào)控序列不僅取決于核酸序列,還取決于其與基因組標(biāo)志物,如轉(zhuǎn)錄起始位點(diǎn)、外顯子邊界或聚腺苷酸化位點(diǎn)的相對(duì)距離,CONCISE[57]引入樣條變換,構(gòu)建了一種基于樣條函數(shù)的神經(jīng)網(wǎng)絡(luò)模型,針對(duì)各基因組標(biāo)志物之間的相對(duì)距離建模。由CONCISE的結(jié)果可知,其性能超過了其他基于距離的機(jī)器學(xué)習(xí)模型。但局限性在于,輸入的標(biāo)量特征的尺度需要提前確定,以保證樣條節(jié)點(diǎn)均勻地分布在整個(gè)特征值范圍內(nèi)。

    在進(jìn)行RBP結(jié)合位點(diǎn)預(yù)測(cè)時(shí),常伴隨著挖掘模體的任務(wù)。如iDeepS[58]使用2個(gè)CNN和一個(gè)雙向LSTM來同時(shí)學(xué)習(xí)結(jié)合序列模體和結(jié)構(gòu)模體,還可以學(xué)習(xí)到序列和結(jié)構(gòu)間的長(zhǎng)期依賴信息。iDeepS僅使用了序列及根據(jù)序列預(yù)測(cè)的結(jié)構(gòu),由于iDeep使用了其他多源的特征,例如基因組背景信息,在一些RBP上iDeepS表現(xiàn)得比iDeep差,但與其他基于序列和結(jié)構(gòu)的方法如GraphProt相比,iDeepS表現(xiàn)更好。Pysster[59]能通過CNN同時(shí)檢測(cè)序列和結(jié)構(gòu)中的模體,其中,序列和結(jié)構(gòu)通過組合序列和結(jié)構(gòu)的字母表得到的擴(kuò)展字母表來進(jìn)行編碼,并對(duì)輸入序列分類。

    隨著預(yù)測(cè)RNA二級(jí)折疊結(jié)構(gòu)方法的進(jìn)步和準(zhǔn)確性的提升,一些二級(jí)結(jié)構(gòu)預(yù)測(cè)結(jié)果可作為可靠數(shù)據(jù)加入輸入特征。如DLPRB[60]根據(jù)RNAplfold預(yù)測(cè)得到RNA結(jié)構(gòu)上下文的概率向量,對(duì)結(jié)構(gòu)信息進(jìn)行特征編碼,再使用CNN和RNN從高通量體外數(shù)據(jù)中聯(lián)合分析RNA序列和結(jié)構(gòu),其網(wǎng)絡(luò)結(jié)構(gòu)新穎性在于,RNN在RNA結(jié)合位點(diǎn)預(yù)測(cè)中的應(yīng)用及CNN中數(shù)百個(gè)可變長(zhǎng)度卷積核的組合。cDeepBind[61]通過輕量級(jí)CNN用于轉(zhuǎn)錄組范圍推理和適用于小批量數(shù)據(jù)的LSTM,將計(jì)算預(yù)測(cè)的二級(jí)結(jié)構(gòu)特征作為模型輸入,并證實(shí)了其在提高預(yù)測(cè)性能方面的有效性。

    除了學(xué)習(xí)RNA序列的分布式表示外,DeepRKE[62]利用RNA一級(jí)序列和二級(jí)結(jié)構(gòu)的分布式表示來推斷RNA結(jié)合蛋白結(jié)合位點(diǎn),使用了非監(jiān)督的淺層神經(jīng)網(wǎng)絡(luò),使用嵌入詞算法提取RNA序列和二級(jí)結(jié)構(gòu)的特征,即分布式表示的K-mers序列,然后將學(xué)習(xí)到的序列分布式特征輸入CNN和雙向LSTM來預(yù)測(cè)RBP結(jié)合位點(diǎn)。Deepnet-rbp[63]則首次考慮了RNA三級(jí)結(jié)構(gòu)信息,將序列、二級(jí)結(jié)構(gòu)、三級(jí)結(jié)構(gòu)信息編碼為統(tǒng)一的特征表示,描述了RBP在所有3個(gè)維度上的結(jié)構(gòu)特異性,然后輸入多DBN模型來預(yù)測(cè)RBP結(jié)合位點(diǎn)和模體。其中,使用了RNAshapes工具預(yù)測(cè)可能的二級(jí)結(jié)構(gòu),利用一種復(fù)制式softmax模型對(duì)原始序列和二級(jí)結(jié)構(gòu)進(jìn)行編碼,并通過JAR3D工具預(yù)測(cè)序列的三級(jí)結(jié)構(gòu)模體。實(shí)驗(yàn)結(jié)果表明,整合額外的RNA三級(jí)結(jié)構(gòu)特征可以提高模型在預(yù)測(cè)RBP結(jié)合位點(diǎn)方面的性能。

    除了將RNA序列表示成獨(dú)熱編碼,RNA二級(jí)結(jié)構(gòu)也可以表征成圖。GraphProt2[64]首先通過RNAfold預(yù)測(cè)序列的二級(jí)折疊結(jié)構(gòu),然后以此為基礎(chǔ)將預(yù)測(cè)的二級(jí)結(jié)構(gòu)編碼為圖。使用堿基作為圖中的節(jié)點(diǎn),將其one-hot編碼及保守性分?jǐn)?shù)、區(qū)域類型等特征作為節(jié)點(diǎn)特征,使用堿基配對(duì)信息建立圖中的邊,得到了完整的無向拓?fù)鋱D網(wǎng)絡(luò),然后利用圖神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)RBP結(jié)合位點(diǎn)。與GraphProt不同的是,GraphProt2對(duì)整條RNA序列計(jì)算了位置預(yù)測(cè)得分,預(yù)測(cè)性能優(yōu)于iDeepS。

    與僅使用序列的方法相比,將預(yù)測(cè)的結(jié)構(gòu)引入模型訓(xùn)練可以在一定程度上提高預(yù)測(cè)性能,但也大大增加了計(jì)算量,對(duì)于長(zhǎng)RNA序列來說非常耗時(shí)。結(jié)構(gòu)信息包含二級(jí)折疊結(jié)構(gòu)、結(jié)構(gòu)概率、區(qū)域類型等多種信息,如何結(jié)合模型結(jié)構(gòu)有效利用多種結(jié)構(gòu)信息,如GraphProt2中結(jié)合圖神經(jīng)網(wǎng)絡(luò)模型提取RNA二級(jí)折疊結(jié)構(gòu)的特征,是進(jìn)一步提升的關(guān)鍵點(diǎn)。

    4.2.3 多標(biāo)簽、多任務(wù)、多模態(tài)

    與上述針對(duì)每種RBP訓(xùn)練一個(gè)模型的RBP特異性模型不同,iDeepM[65]提出了一種多標(biāo)簽深度學(xué)習(xí)方法。iDeepM將預(yù)測(cè)RBP的問題建模成多標(biāo)簽的分類問題,通過一個(gè)CNN和一個(gè)LSTM來預(yù)測(cè)綁定的蛋白質(zhì),其中CNN用來提取高級(jí)基序特征,而LSTM用來學(xué)習(xí)RBP之間的長(zhǎng)期依賴關(guān)系。iDeepM的一個(gè)優(yōu)勢(shì)在于不需要為模型訓(xùn)練構(gòu)建負(fù)樣本集,而是利用了RBP之間的依賴關(guān)系。多模態(tài)深度學(xué)習(xí)可以學(xué)習(xí)到多源數(shù)據(jù)的共享高級(jí)特征,而對(duì)于RBP綁定的RNA,每個(gè)模態(tài)都有其自身的表征。對(duì)于RBP結(jié)合位點(diǎn)預(yù)測(cè),這些共享的高級(jí)特征具有強(qiáng)大的辨別能力。類似地,DeepRiPe[66]構(gòu)建了多任務(wù)、多模態(tài)的DNN模型,使用模塊化結(jié)構(gòu)從DNA/RNA序列和轉(zhuǎn)錄本區(qū)域類型中學(xué)習(xí)信息特征,然后將這些模塊的特征合并輸入多任務(wù)模塊,同時(shí)預(yù)測(cè)多個(gè)RBP的結(jié)合位點(diǎn)。因此,DeepRiPe模型既能夠使用任務(wù)之間的共享信息,又能專注于每個(gè)RBP的獨(dú)特特征。

    這種多標(biāo)簽、多任務(wù)、多模態(tài)的結(jié)構(gòu)相較于單任務(wù)學(xué)習(xí)關(guān)注到了更多的關(guān)聯(lián)信息,考慮到了不同的RBP之間的相似性及相互作用,在多個(gè)任務(wù)之間共享學(xué)習(xí)到的信息,為單個(gè)RBP的預(yù)測(cè)提供了補(bǔ)充。

    4.2.4 非編碼RNA

    近年來,除了信使RNA(mRNA)以外,對(duì)其他非編碼類RNA分子的探索也成為熱門的研究方向,如環(huán)狀RNA(circRNAs)、長(zhǎng)鏈非編碼RNA(lncRNA)等。非編碼RNA通常指不翻譯蛋白質(zhì)的RNA,但這并不意味著這些RNA不包含信息或不發(fā)揮功能[67]。實(shí)際上,這些非編碼RNA也通過某種模式來控制基因表達(dá)的水平,參與了與其他核酸和蛋白質(zhì)相互作用的復(fù)雜網(wǎng)絡(luò),對(duì)細(xì)胞生物學(xué)具有廣泛的影響,并在疾病中扮演重要角色。在癌癥研究中,非編碼RNA已被確定為多種癌癥的致癌驅(qū)動(dòng)和腫瘤抑制因子,其相互作用的失調(diào)導(dǎo)致了腫瘤的發(fā)生,并揭示了重要的新靶點(diǎn)[68]。

    環(huán)狀RNA(circRNAs)是一種具有共價(jià)閉合結(jié)構(gòu)、高穩(wěn)定性的RNA,參與基因調(diào)控,由線性RNA的5’端和3’端經(jīng)共價(jià)結(jié)合形成[69]。在CRIP[18]方法中,使用了基于密碼子編碼的方法,通過結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)來研究環(huán)狀RNA與RBP的相互作用,從而預(yù)測(cè)RBP在circRNA上的結(jié)合位點(diǎn)。iCircRBP-DHN[70]方法利用深層次網(wǎng)絡(luò)識(shí)別circRNA與RBP的結(jié)合位點(diǎn),首先提出了一種新的編碼方法CircRNA2Vec,旨在通過一種無監(jiān)督文檔嵌入方法從circRNA序列中捕獲長(zhǎng)距離依賴關(guān)系,然后和k元組核苷酸頻率模式結(jié)合起來表示不同程度的核苷酸依賴性。該網(wǎng)絡(luò)結(jié)構(gòu)可看作一個(gè)具有自注意機(jī)制的雙向門控遞歸單元(BiGRUs)的深層多尺度殘差網(wǎng)絡(luò),它能同時(shí)提取局部和全局上下文信息。該模型不僅表現(xiàn)出在識(shí)別環(huán)狀RNA-RBP相互作用位點(diǎn)方面的潛力,而且在線性RNA數(shù)據(jù)集RBP-31上也表現(xiàn)出了優(yōu)于CRIP、iDeepS的性能。iDeepC[71]是一種RBP特異性方法。它采用了一個(gè)由輕量級(jí)注意力模塊和度量模塊組成的孿生神經(jīng)網(wǎng)絡(luò)。其中,孿生神經(jīng)網(wǎng)絡(luò)通過成對(duì)度量學(xué)習(xí)有效地提高了網(wǎng)絡(luò)捕獲環(huán)狀RNA之間互信息的能力,在一定程度上解決了部分RBPs的已知綁定circRNA數(shù)量有限的小樣本問題。類似地,長(zhǎng)鏈非編碼RNA(lncRNA)一般指長(zhǎng)度超過200 bp的一類RNA[72]。HOCNNLB[73]方法通過一種基于高階核苷酸編碼的卷積神經(jīng)網(wǎng)絡(luò)模型來預(yù)測(cè)RBP在lncRNA上的結(jié)合位點(diǎn),在長(zhǎng)鏈非編碼RNA上表現(xiàn)出了優(yōu)秀的預(yù)測(cè)性能。

    4.3 性能比較

    為了比較各方法的性能,對(duì)比了不同模型在RBP-24[43]和RBP-31[45]兩個(gè)數(shù)據(jù)集上的公開實(shí)驗(yàn)結(jié)果。

    RBP-24數(shù)據(jù)集來自GraphProt (http://www.bioinf.uni-freiburg.de/Software/GraphProt/),由21個(gè)蛋白質(zhì)的24個(gè)實(shí)驗(yàn)組成,其中23組來自doRiNA[74],另外一組是PTB的HITS-CLIP結(jié)合位點(diǎn)數(shù)據(jù)[75]。其訓(xùn)練和測(cè)試序列具有可變長(zhǎng)度,且不同RBP的訓(xùn)練樣本數(shù)量不同。

    RBP-31數(shù)據(jù)集來自iONMF (https://github.com/mstrazar/ionmf),是一個(gè)序列具有固定長(zhǎng)度的基準(zhǔn)數(shù)據(jù)集。其中,每條序列的長(zhǎng)度為101 nt,每個(gè)RBP有24 000個(gè)訓(xùn)練樣本、6 000個(gè)驗(yàn)證樣本和10 000個(gè)測(cè)試樣本。它由24個(gè)蛋白質(zhì)的31個(gè)實(shí)驗(yàn)組成,在每個(gè)實(shí)驗(yàn)中,首先確定cDNA計(jì)數(shù)最高的核苷酸位置作為正樣本備選池,然后在距離小于15個(gè)核苷酸的位置中,只考慮具有最高cDNA計(jì)數(shù)的位置當(dāng)作正樣本以避免冗余,負(fù)樣本取自在任何實(shí)驗(yàn)中都未檢測(cè)到相互作用的基因中的序列區(qū)域。

    此處只比較實(shí)驗(yàn)中報(bào)告的平均接收者操作特征曲線(receiver operating characteristic curve,簡(jiǎn)稱ROC)下的面積(AUC)。ROC曲線由預(yù)測(cè)結(jié)果和真實(shí)標(biāo)簽共同決定,其縱坐標(biāo)為真陽率(TPR),橫坐標(biāo)為假陽率(FPR),計(jì)算方法為:

    (1)

    (2)

    其中:TP指預(yù)測(cè)為正類的正樣本;FP指預(yù)測(cè)為正類的負(fù)樣本;TN指預(yù)測(cè)為負(fù)類的負(fù)樣本;FN指預(yù)測(cè)為負(fù)類的正樣本。因此,TPR可以理解為模型正確預(yù)測(cè)的能力,而FPR為模型錯(cuò)誤預(yù)測(cè)的程度,當(dāng)TPR越高時(shí),曲線下面積越大,即AUC越高,模型性能越好。

    由各方法公開的數(shù)據(jù)可知,基于深度學(xué)習(xí)的方法通常比傳統(tǒng)的基于機(jī)器學(xué)習(xí)的方法表現(xiàn)更好。深度學(xué)習(xí)廣泛用于預(yù)測(cè)RBP結(jié)合位點(diǎn)的蛋白質(zhì)特異性方法,基于深度學(xué)習(xí)的方法比基于淺層學(xué)習(xí)的方法具有更好的性能??赡艿脑蚴?,蛋白質(zhì)的樣本數(shù)非常大,這對(duì)訓(xùn)練深度學(xué)習(xí)模型非常有利。

    對(duì)于在RBP-24上的實(shí)驗(yàn)數(shù)據(jù),DeepBind方法憑借卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,表現(xiàn)出了優(yōu)于RNAContext與GraphProt的預(yù)測(cè)能力。與DeepBind具有相當(dāng)性能的iDeepA、iDeepV方法的平均AUC同樣達(dá)到了0.92,證實(shí)了注意力機(jī)制與詞嵌入方法應(yīng)用在RBP結(jié)合位點(diǎn)預(yù)測(cè)領(lǐng)域上的有效性。同時(shí),融合局部CNN與全局CNN的iDeepE方法的AUC達(dá)到了0.93,也展現(xiàn)了CNN在關(guān)注不同范圍內(nèi)重要信息的能力。帶預(yù)訓(xùn)練的孿生網(wǎng)絡(luò)iDeepC的平均AUC達(dá)到了0.94,表現(xiàn)出了最高的準(zhǔn)確性,同時(shí)適用于小樣本的蛋白質(zhì)預(yù)測(cè)任務(wù),在一定程度上緩解了由于部分RBP的已知RNA靶點(diǎn)不足帶來的問題。

    對(duì)于在RBP-31上的實(shí)驗(yàn)數(shù)據(jù),DeepBind方法同樣表現(xiàn)出了優(yōu)于Oli、GraphProt及iONMF方法的預(yù)測(cè)能力,基于深度學(xué)習(xí)的方法顯示出了更多的優(yōu)勢(shì)。特別是,與使用多個(gè)特征源的基于矩陣分解的iONMF方法相比,僅使用序列的深度學(xué)習(xí)模型產(chǎn)生更好或相當(dāng)?shù)男阅埽⑶襥ONMF的平均AUC達(dá)到了0.85,而同樣具有多源特征的基于多模態(tài)深度學(xué)習(xí)的CONCISE方法和基于多尺度卷積網(wǎng)絡(luò)的MSCGRU方法的平均AUC達(dá)到了0.92,展現(xiàn)了深度學(xué)習(xí)網(wǎng)絡(luò)在融合多源數(shù)據(jù)、多尺度特征上的強(qiáng)大能力。

    4.4 模體(motif)挖掘

    模體是普遍存在于核酸或蛋白質(zhì)等生物大分子中的保守序列,可看作序列集合中的一種公共序列模式,或具有特定功能的序列片段。在蛋白質(zhì)中表現(xiàn)為一種具有特定功能的超二級(jí)結(jié)構(gòu),包括線性短模體、結(jié)構(gòu)模體等。模體挖掘?qū)Χㄎ簧镄蛄兄杏幸饬x的序列片斷起著重要作用。RNA結(jié)合蛋白的序列特異性表現(xiàn)出深度的進(jìn)化保守性,可以從RBP的RNA結(jié)合域序列推斷其綁定偏好,因此,模體挖掘?qū)τ诜治鋈祟愞D(zhuǎn)錄后調(diào)控機(jī)制,探索RBP與RNA靶標(biāo)之間的序列特異性關(guān)聯(lián)具有重要意義。深度學(xué)習(xí)方法已經(jīng)被廣泛應(yīng)用在RBP綁定模體挖掘上,特別是卷積神經(jīng)網(wǎng)絡(luò),檢測(cè)模體一般是基于卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)RBP結(jié)合位點(diǎn)方法的副產(chǎn)物,可理解為通過CNN學(xué)習(xí)到RBP結(jié)合序列的高級(jí)特征。表4、表5分別對(duì)近幾年挖掘序列模體和序列-結(jié)構(gòu)模體的方法進(jìn)行了總結(jié)。由iDeep可知,可以把學(xué)習(xí)到的卷積核參數(shù)轉(zhuǎn)化為位置權(quán)重矩陣,以匹配輸入序列來挖掘RBP的綁定模體。另外,iDeepC方法基于可解釋性方法來挖掘綁定模體,通過使用集成梯度來計(jì)算每個(gè)堿基對(duì)蛋白和RNA綁定的重要性貢獻(xiàn),得到序列上每個(gè)堿基的重要性分?jǐn)?shù),進(jìn)而找到那些連續(xù)分?jǐn)?shù)較高的序列片段,作為潛在的RBP綁定模體。

    表4 序列模體挖掘方法

    表5 序列-結(jié)構(gòu)模體挖掘方法

    5 討論

    由以上可以看出,深度學(xué)習(xí)技術(shù)已經(jīng)在RBP結(jié)合位點(diǎn)預(yù)測(cè)領(lǐng)域得到了廣泛應(yīng)用,顯著地提高了RBP結(jié)合位點(diǎn)與非結(jié)合位點(diǎn)的分類性能,且通過挖掘模體提高了模型方法的可解釋性。但是,深度學(xué)習(xí)技術(shù)的應(yīng)用還具有一些限制,其在生物信息領(lǐng)域上的應(yīng)用有待進(jìn)一步改進(jìn)與提升,據(jù)此提出了以下可行的改進(jìn)方向。

    5.1 數(shù)據(jù)集質(zhì)量的提升

    隨著高通量測(cè)序技術(shù)的發(fā)展,大量序列數(shù)據(jù)得到積累,使得深度學(xué)習(xí)技術(shù)的應(yīng)用成為可能,但也決定了模型能達(dá)到的預(yù)測(cè)精度的上限。目前,由于測(cè)序技術(shù)上的局限性及實(shí)驗(yàn)的不確定性,數(shù)據(jù)仍存在假陽性和假陰性的問題。而且,大多數(shù)模型在處理序列時(shí)需要進(jìn)行切割,將其中的包含結(jié)合位點(diǎn)的片段分離出來用作正樣本。這個(gè)過程也會(huì)因?yàn)檫x取的分割方法不合適而破壞結(jié)構(gòu)完整性、序列連續(xù)性,因此引入噪聲或丟失信息。同樣地,在構(gòu)造負(fù)樣本集時(shí)也會(huì)受到影響,并且負(fù)樣本數(shù)遠(yuǎn)大于正樣本數(shù)。另外,RBP數(shù)據(jù)集在不同的RBP之間也存在不平衡的問題,而部分RBP的數(shù)據(jù)集由于樣本數(shù)較少,導(dǎo)致模型訓(xùn)練不充分而達(dá)不到更高的預(yù)測(cè)精度。因此,更高質(zhì)量的數(shù)據(jù)集可能會(huì)更大地提升預(yù)測(cè)性能。

    5.2 探索更多的深度學(xué)習(xí)模型

    由各方法在RBP-24與RBP-31數(shù)據(jù)集上的公開實(shí)驗(yàn)數(shù)據(jù)可以看出,基于多通道CNN的iDeepE方法在RBP-24上的平均AUC達(dá)到了0.93,而在RBP-31上基于多尺度CNN的MSCGRU方法的平均AUC達(dá)到了0.92,都表現(xiàn)出了最好的預(yù)測(cè)能力。由此可見,這種融合多維度特征的深度學(xué)習(xí)方法能有效提取RNA序列上隱含的有用信息,從多個(gè)尺度學(xué)習(xí)到重要特征。同時(shí),在MSCGRU方法中BiGRU網(wǎng)絡(luò)也起到了學(xué)習(xí)長(zhǎng)期依賴信息的重要作用,能夠在全局的維度上學(xué)習(xí)不同尺度特征之間的相關(guān)性,這也使得網(wǎng)絡(luò)更適用于RNA序列上的學(xué)習(xí)任務(wù)。因此,如何針對(duì)RNA序列及RBP結(jié)合位點(diǎn)的特點(diǎn)量身定制合適的深度學(xué)習(xí)網(wǎng)絡(luò),或者按照其特殊的結(jié)合模式提出獨(dú)特的學(xué)習(xí)方法,是在RBP結(jié)合位點(diǎn)預(yù)測(cè)領(lǐng)域上進(jìn)一步突破的關(guān)鍵。

    近年來,除了介紹的幾種深度學(xué)習(xí)模型外,更多改進(jìn)的深度學(xué)習(xí)模型也層出不窮。遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、對(duì)比學(xué)習(xí)、多任務(wù)學(xué)習(xí)等也逐漸被應(yīng)用到生物信息領(lǐng)域,如MTTFsite[81]是一個(gè)多任務(wù)學(xué)習(xí)框架,通過利用跨細(xì)胞系的數(shù)據(jù)來解決數(shù)據(jù)缺乏的問題,其中包含一個(gè)共享的CNN來學(xué)習(xí)所有細(xì)胞系中轉(zhuǎn)錄因子的共同特征以及一個(gè)私有的CNN來學(xué)習(xí)每個(gè)細(xì)胞系中轉(zhuǎn)錄因子的私有特征,特別是在那些標(biāo)記數(shù)據(jù)不足的細(xì)胞類型上提升了預(yù)測(cè)性能,在一定程度上緩解了數(shù)據(jù)不均衡的問題。另外,深度學(xué)習(xí)模型相當(dāng)于一個(gè)“黑匣子”,對(duì)于其在RBP結(jié)合位點(diǎn)預(yù)測(cè)上應(yīng)用的可解釋性,模體挖掘作為探索的第一步已經(jīng)取得了較好的效果。未來,對(duì)RNA-蛋白質(zhì)結(jié)合機(jī)制上更多的可解釋性研究,需要進(jìn)一步探索。

    6 結(jié)束語

    本文主要回顧了近年來深度學(xué)習(xí)在RBP結(jié)合位點(diǎn)預(yù)測(cè)領(lǐng)域上的預(yù)測(cè)方法進(jìn)展。首先,總結(jié)了常用的RNA-蛋白質(zhì)結(jié)合位點(diǎn)數(shù)據(jù)庫(kù)。然后對(duì)應(yīng)用于傳統(tǒng)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型的編碼技術(shù)進(jìn)行了介紹,主要是RNA序列的編碼方法。接下來介紹了傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的發(fā)展。進(jìn)一步對(duì)近年來應(yīng)用傳統(tǒng)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)技術(shù)來預(yù)測(cè)RBP結(jié)合位點(diǎn)、挖掘模體的方法進(jìn)行了詳細(xì)介紹,并對(duì)其在RBP結(jié)合位點(diǎn)數(shù)據(jù)集上的性能進(jìn)行了比較。最后,討論了目前深度學(xué)習(xí)方法應(yīng)用上的局限性及其可能的改進(jìn)方向。

    猜你喜歡
    特征結(jié)構(gòu)方法
    《形而上學(xué)》△卷的結(jié)構(gòu)和位置
    如何表達(dá)“特征”
    論結(jié)構(gòu)
    中華詩詞(2019年7期)2019-11-25 01:43:04
    不忠誠(chéng)的四個(gè)特征
    抓住特征巧觀察
    可能是方法不對(duì)
    論《日出》的結(jié)構(gòu)
    用對(duì)方法才能瘦
    Coco薇(2016年2期)2016-03-22 02:42:52
    四大方法 教你不再“坐以待病”!
    Coco薇(2015年1期)2015-08-13 02:47:34
    捕魚
    男人和女人高潮做爰伦理| 免费人成在线观看视频色| 搞女人的毛片| 婷婷亚洲欧美| 女同久久另类99精品国产91| 老熟妇乱子伦视频在线观看| 看片在线看免费视频| 免费观看精品视频网站| 赤兔流量卡办理| 亚洲,欧美,日韩| 欧美绝顶高潮抽搐喷水| 婷婷精品国产亚洲av| 免费在线观看影片大全网站| 又黄又爽又刺激的免费视频.| 亚洲av成人精品一区久久| 国产aⅴ精品一区二区三区波| 免费观看精品视频网站| 日本成人三级电影网站| 男女下面进入的视频免费午夜| 观看美女的网站| 51国产日韩欧美| 欧美一级a爱片免费观看看| 三级男女做爰猛烈吃奶摸视频| 五月伊人婷婷丁香| 日韩av在线大香蕉| 亚洲美女搞黄在线观看 | av在线亚洲专区| 久久精品人妻少妇| 极品教师在线免费播放| 97超级碰碰碰精品色视频在线观看| 看片在线看免费视频| 12—13女人毛片做爰片一| 日韩欧美三级三区| 麻豆成人午夜福利视频| 少妇的逼水好多| 午夜福利高清视频| 日韩强制内射视频| 成年免费大片在线观看| 国产精品乱码一区二三区的特点| 日韩精品有码人妻一区| 中国美女看黄片| 色尼玛亚洲综合影院| 国产乱人伦免费视频| 97人妻精品一区二区三区麻豆| 欧美性猛交╳xxx乱大交人| 一级黄片播放器| 中文字幕高清在线视频| 22中文网久久字幕| 欧美性感艳星| 女的被弄到高潮叫床怎么办 | 性色avwww在线观看| 国产精品永久免费网站| 成人特级黄色片久久久久久久| 一进一出好大好爽视频| 一本一本综合久久| 美女被艹到高潮喷水动态| 欧美日韩黄片免| 深夜精品福利| 在现免费观看毛片| 成人精品一区二区免费| 亚洲欧美日韩无卡精品| 嫩草影院入口| 黄色欧美视频在线观看| 亚洲精品在线观看二区| 亚洲国产精品成人综合色| 亚洲av不卡在线观看| 欧美精品啪啪一区二区三区| 精品一区二区免费观看| 在线观看午夜福利视频| 精品国内亚洲2022精品成人| 婷婷精品国产亚洲av在线| 嫩草影院精品99| 久久精品国产亚洲网站| 老熟妇乱子伦视频在线观看| 日本精品一区二区三区蜜桃| 狂野欧美白嫩少妇大欣赏| 真人做人爱边吃奶动态| 国产av在哪里看| 美女xxoo啪啪120秒动态图| 成人鲁丝片一二三区免费| 搞女人的毛片| 日日撸夜夜添| 18禁黄网站禁片午夜丰满| 午夜视频国产福利| 精华霜和精华液先用哪个| 国产高清有码在线观看视频| 国产aⅴ精品一区二区三区波| av.在线天堂| 日本精品一区二区三区蜜桃| xxxwww97欧美| .国产精品久久| 亚洲综合色惰| 给我免费播放毛片高清在线观看| 国产精品电影一区二区三区| 国产午夜精品久久久久久一区二区三区 | 久久久色成人| 中文字幕高清在线视频| 久久亚洲精品不卡| 日韩欧美精品免费久久| 亚洲成a人片在线一区二区| 麻豆国产av国片精品| 欧美zozozo另类| 性插视频无遮挡在线免费观看| 久久久国产成人免费| 国产精品久久电影中文字幕| 看免费成人av毛片| 国产亚洲精品久久久久久毛片| 精品久久久久久,| 国产国拍精品亚洲av在线观看| 久久久久九九精品影院| 国产成人av教育| 男女那种视频在线观看| 尾随美女入室| 国产精品亚洲美女久久久| 日韩,欧美,国产一区二区三区 | ponron亚洲| 日韩欧美一区二区三区在线观看| 18禁在线播放成人免费| 亚洲欧美日韩高清专用| 亚洲美女搞黄在线观看 | 免费av不卡在线播放| av中文乱码字幕在线| 天堂动漫精品| 成年免费大片在线观看| 日韩中文字幕欧美一区二区| 欧美性感艳星| 又黄又爽又刺激的免费视频.| 一进一出抽搐gif免费好疼| 淫秽高清视频在线观看| 亚洲图色成人| 国内精品美女久久久久久| 成人特级av手机在线观看| 干丝袜人妻中文字幕| 欧美日韩瑟瑟在线播放| 国产国拍精品亚洲av在线观看| 很黄的视频免费| 天天一区二区日本电影三级| 国产精品一区二区三区四区久久| 禁无遮挡网站| 国产色婷婷99| 99国产极品粉嫩在线观看| 69人妻影院| 国产av一区在线观看免费| 精品一区二区三区人妻视频| 两个人视频免费观看高清| 又爽又黄a免费视频| 欧美日韩黄片免| 嫩草影院精品99| 亚洲男人的天堂狠狠| 日本黄色视频三级网站网址| 深爱激情五月婷婷| 亚洲在线观看片| 亚洲精品亚洲一区二区| 免费人成视频x8x8入口观看| 啦啦啦韩国在线观看视频| 国产精品福利在线免费观看| 亚洲av免费高清在线观看| 欧美高清成人免费视频www| 国产不卡一卡二| 国内精品宾馆在线| 国产亚洲精品av在线| 日韩精品有码人妻一区| 精品无人区乱码1区二区| 又黄又爽又免费观看的视频| 久久精品综合一区二区三区| 国内久久婷婷六月综合欲色啪| 免费在线观看影片大全网站| 日韩欧美免费精品| 免费观看精品视频网站| 搡老岳熟女国产| 国产精华一区二区三区| 免费看光身美女| 久久中文看片网| 欧美xxxx性猛交bbbb| 日本熟妇午夜| 亚洲熟妇熟女久久| 国产精品伦人一区二区| 日韩人妻高清精品专区| 最后的刺客免费高清国语| 中文字幕高清在线视频| 91麻豆精品激情在线观看国产| 午夜爱爱视频在线播放| 一级黄色大片毛片| 欧美性感艳星| 国产精品一区二区免费欧美| 亚洲真实伦在线观看| 国产精品久久视频播放| 小蜜桃在线观看免费完整版高清| 久久中文看片网| 久久久久性生活片| 女同久久另类99精品国产91| 国产黄色小视频在线观看| 一本精品99久久精品77| 国产 一区精品| 午夜免费激情av| 在线观看舔阴道视频| 一进一出好大好爽视频| 91精品国产九色| 亚洲国产高清在线一区二区三| 淫秽高清视频在线观看| 精品久久久噜噜| 亚洲欧美日韩无卡精品| 亚洲成人久久爱视频| 看免费成人av毛片| 亚洲内射少妇av| 一卡2卡三卡四卡精品乱码亚洲| 1000部很黄的大片| 午夜老司机福利剧场| 国产亚洲精品综合一区在线观看| 美女高潮喷水抽搐中文字幕| 桃色一区二区三区在线观看| 国产亚洲精品久久久久久毛片| 亚洲性夜色夜夜综合| 国产av一区在线观看免费| 欧美又色又爽又黄视频| 国产淫片久久久久久久久| 亚洲最大成人中文| 亚洲狠狠婷婷综合久久图片| 久久久精品大字幕| 精品国产三级普通话版| 男人狂女人下面高潮的视频| 91午夜精品亚洲一区二区三区 | 日韩欧美 国产精品| 丝袜美腿在线中文| 韩国av一区二区三区四区| 99久久中文字幕三级久久日本| xxxwww97欧美| 免费观看在线日韩| 日本 欧美在线| 日韩欧美在线乱码| 欧美精品国产亚洲| 欧美另类亚洲清纯唯美| 国产三级在线视频| 午夜爱爱视频在线播放| 成年女人看的毛片在线观看| 嫩草影院入口| 伊人久久精品亚洲午夜| 国产一区二区在线av高清观看| 国产精品伦人一区二区| ponron亚洲| 中亚洲国语对白在线视频| 淫妇啪啪啪对白视频| 一区二区三区激情视频| 亚洲真实伦在线观看| 亚洲色图av天堂| 国产精品久久久久久亚洲av鲁大| 最近视频中文字幕2019在线8| 桃色一区二区三区在线观看| 国产白丝娇喘喷水9色精品| 国产高清视频在线观看网站| 99在线视频只有这里精品首页| 在线观看舔阴道视频| av国产免费在线观看| 一区二区三区免费毛片| 国产久久久一区二区三区| 精品不卡国产一区二区三区| 国产精品一区二区三区四区久久| 春色校园在线视频观看| 亚洲精品456在线播放app | 欧美3d第一页| 九色国产91popny在线| 成年版毛片免费区| 精品久久久久久久久亚洲 | 亚洲在线自拍视频| 国产视频一区二区在线看| 亚洲美女视频黄频| 欧美成人性av电影在线观看| 久久99热6这里只有精品| 91在线观看av| 国产男靠女视频免费网站| 波多野结衣高清作品| 免费搜索国产男女视频| 日本在线视频免费播放| 免费观看在线日韩| 久久精品国产清高在天天线| 噜噜噜噜噜久久久久久91| 桃红色精品国产亚洲av| 精品人妻一区二区三区麻豆 | 久久精品国产鲁丝片午夜精品 | 国内精品宾馆在线| 欧美高清成人免费视频www| 成人三级黄色视频| 国产精品久久久久久av不卡| 国产精品一区二区免费欧美| 高清在线国产一区| 日本黄大片高清| 国产精品日韩av在线免费观看| 在线播放国产精品三级| 久久精品夜夜夜夜夜久久蜜豆| 久久精品国产亚洲网站| 波多野结衣高清无吗| 亚洲最大成人手机在线| 久久香蕉精品热| 亚洲aⅴ乱码一区二区在线播放| 色综合婷婷激情| 国产av不卡久久| 老师上课跳d突然被开到最大视频| 国产 一区精品| 非洲黑人性xxxx精品又粗又长| 国产一级毛片七仙女欲春2| 性插视频无遮挡在线免费观看| 欧美绝顶高潮抽搐喷水| 免费观看人在逋| 午夜免费男女啪啪视频观看 | 国产真实乱freesex| 国产熟女欧美一区二区| 久久久久国内视频| 在线观看免费视频日本深夜| 久久久久国内视频| 99视频精品全部免费 在线| 两个人视频免费观看高清| 亚洲无线观看免费| 91久久精品国产一区二区三区| 国内精品久久久久精免费| 日韩欧美一区二区三区在线观看| 国内久久婷婷六月综合欲色啪| 日韩中字成人| 老司机福利观看| 午夜影院日韩av| 熟女人妻精品中文字幕| 亚洲专区中文字幕在线| 三级毛片av免费| 老熟妇仑乱视频hdxx| 日本一二三区视频观看| 日韩中文字幕欧美一区二区| 禁无遮挡网站| 日本黄大片高清| 桃红色精品国产亚洲av| 亚洲第一区二区三区不卡| 久久久久国内视频| 成人特级黄色片久久久久久久| 欧美成人一区二区免费高清观看| 在线观看免费视频日本深夜| 精品久久久久久久末码| 精品不卡国产一区二区三区| videossex国产| 伦理电影大哥的女人| 嫩草影院新地址| 伦精品一区二区三区| 亚洲无线在线观看| 在线播放无遮挡| 91久久精品国产一区二区三区| 欧美潮喷喷水| 欧美性猛交黑人性爽| 国产激情偷乱视频一区二区| 成年女人永久免费观看视频| 免费人成在线观看视频色| 亚洲国产欧洲综合997久久,| 可以在线观看毛片的网站| 精品午夜福利在线看| 国产aⅴ精品一区二区三区波| 久久久久久伊人网av| 欧美国产日韩亚洲一区| 日日撸夜夜添| 淫妇啪啪啪对白视频| 国产成年人精品一区二区| 国产精品一区二区免费欧美| 长腿黑丝高跟| 精品国内亚洲2022精品成人| 99在线人妻在线中文字幕| 淫妇啪啪啪对白视频| 亚洲av免费在线观看| 国产 一区 欧美 日韩| 精品一区二区免费观看| av在线老鸭窝| 国产男人的电影天堂91| 国产精品电影一区二区三区| 淫秽高清视频在线观看| 亚洲,欧美,日韩| 亚洲av一区综合| 特级一级黄色大片| 日韩av在线大香蕉| 欧美日韩综合久久久久久 | 国产毛片a区久久久久| av视频在线观看入口| 又黄又爽又免费观看的视频| 国产精品久久视频播放| 午夜福利在线观看免费完整高清在 | 成人毛片a级毛片在线播放| 精品欧美国产一区二区三| 亚洲电影在线观看av| 午夜精品在线福利| 国产爱豆传媒在线观看| 久久精品国产亚洲网站| 日本色播在线视频| 亚洲不卡免费看| www.色视频.com| 亚洲第一电影网av| 日本精品一区二区三区蜜桃| 免费一级毛片在线播放高清视频| 九九热线精品视视频播放| 在线国产一区二区在线| 国产黄色小视频在线观看| 欧美日韩瑟瑟在线播放| 一边摸一边抽搐一进一小说| 国产极品精品免费视频能看的| 亚洲欧美日韩高清专用| 成人国产一区最新在线观看| 少妇人妻精品综合一区二区 | 国产探花极品一区二区| 久久久久久久精品吃奶| 在线观看66精品国产| 国模一区二区三区四区视频| 国产一级毛片七仙女欲春2| 麻豆成人午夜福利视频| 日本五十路高清| 欧美3d第一页| 男人舔女人下体高潮全视频| 国产在视频线在精品| 国产91精品成人一区二区三区| 国产色爽女视频免费观看| 亚洲熟妇中文字幕五十中出| 午夜日韩欧美国产| 亚洲av第一区精品v没综合| 国产精品一区二区三区四区免费观看 | 色精品久久人妻99蜜桃| 国产极品精品免费视频能看的| 国产人妻一区二区三区在| 男女啪啪激烈高潮av片| 91精品国产九色| 国产主播在线观看一区二区| 国产 一区 欧美 日韩| 天堂√8在线中文| 看黄色毛片网站| 国产精品精品国产色婷婷| 久久久久免费精品人妻一区二区| 69av精品久久久久久| 波野结衣二区三区在线| 给我免费播放毛片高清在线观看| 国产三级中文精品| 91麻豆av在线| 丰满人妻一区二区三区视频av| 大又大粗又爽又黄少妇毛片口| 久久久久久国产a免费观看| 亚洲精华国产精华液的使用体验 | 亚洲av日韩精品久久久久久密| 尾随美女入室| 久久亚洲真实| 人妻夜夜爽99麻豆av| bbb黄色大片| 国产精品无大码| 九九爱精品视频在线观看| 国产精品国产三级国产av玫瑰| 免费观看精品视频网站| 亚洲美女黄片视频| 欧美xxxx黑人xx丫x性爽| 日韩,欧美,国产一区二区三区 | 国产综合懂色| 欧美三级亚洲精品| 欧美国产日韩亚洲一区| 午夜福利高清视频| 性插视频无遮挡在线免费观看| a级一级毛片免费在线观看| 亚洲av美国av| 国产av一区在线观看免费| 18禁黄网站禁片免费观看直播| 很黄的视频免费| 三级国产精品欧美在线观看| 亚洲精华国产精华精| 成人高潮视频无遮挡免费网站| 俄罗斯特黄特色一大片| 看黄色毛片网站| 国产精品日韩av在线免费观看| 精品久久久噜噜| 国产私拍福利视频在线观看| 蜜桃久久精品国产亚洲av| 精华霜和精华液先用哪个| 啦啦啦啦在线视频资源| 神马国产精品三级电影在线观看| 在线免费十八禁| 国产一区二区三区视频了| 99riav亚洲国产免费| 波野结衣二区三区在线| 亚洲aⅴ乱码一区二区在线播放| 欧美绝顶高潮抽搐喷水| av在线天堂中文字幕| 国产亚洲精品综合一区在线观看| 琪琪午夜伦伦电影理论片6080| 国产亚洲精品av在线| а√天堂www在线а√下载| 欧美绝顶高潮抽搐喷水| 精品免费久久久久久久清纯| 不卡视频在线观看欧美| 亚洲欧美日韩卡通动漫| 黄色配什么色好看| 亚洲av第一区精品v没综合| 中文字幕av在线有码专区| 变态另类丝袜制服| 国内精品久久久久精免费| 美女高潮喷水抽搐中文字幕| 国产aⅴ精品一区二区三区波| 久久精品国产清高在天天线| 亚洲第一电影网av| 九九久久精品国产亚洲av麻豆| 亚洲不卡免费看| 草草在线视频免费看| 亚洲不卡免费看| 久久99热这里只有精品18| 亚洲精品乱码久久久v下载方式| 国产一区二区在线观看日韩| 亚洲av不卡在线观看| 男人舔女人下体高潮全视频| 欧美日韩亚洲国产一区二区在线观看| 欧美日韩精品成人综合77777| 99久国产av精品| 亚洲精品日韩av片在线观看| 欧美中文日本在线观看视频| 91av网一区二区| 亚洲精品456在线播放app | 别揉我奶头~嗯~啊~动态视频| 身体一侧抽搐| 成人av在线播放网站| 日本-黄色视频高清免费观看| 91久久精品国产一区二区成人| 亚洲av熟女| 欧美丝袜亚洲另类 | 两个人视频免费观看高清| 国内精品一区二区在线观看| 天美传媒精品一区二区| 精品久久久久久久人妻蜜臀av| 变态另类丝袜制服| 国产伦精品一区二区三区四那| 偷拍熟女少妇极品色| 色综合色国产| 男人的好看免费观看在线视频| 999久久久精品免费观看国产| 99在线视频只有这里精品首页| 久久精品人妻少妇| 久久99热6这里只有精品| www日本黄色视频网| 日本三级黄在线观看| 美女黄网站色视频| 黄色欧美视频在线观看| 亚洲熟妇熟女久久| 国产在线男女| 精品久久久久久久久av| 日韩欧美国产在线观看| 美女高潮喷水抽搐中文字幕| 免费在线观看日本一区| 嫩草影院精品99| 国产精品不卡视频一区二区| 舔av片在线| 波多野结衣巨乳人妻| 女生性感内裤真人,穿戴方法视频| 啦啦啦观看免费观看视频高清| 国产91精品成人一区二区三区| 久久国产精品人妻蜜桃| 99久久精品热视频| 国产综合懂色| 亚洲熟妇熟女久久| 中文字幕av在线有码专区| 偷拍熟女少妇极品色| 国产毛片a区久久久久| 精品久久久久久久末码| 久久香蕉精品热| 真人一进一出gif抽搐免费| 亚洲 国产 在线| 啦啦啦啦在线视频资源| 欧美bdsm另类| 日韩欧美国产在线观看| 哪里可以看免费的av片| 亚洲午夜理论影院| 国产黄色小视频在线观看| 成年版毛片免费区| 禁无遮挡网站| av国产免费在线观看| 日日摸夜夜添夜夜添小说| 国产精品久久视频播放| 日本与韩国留学比较| 男女那种视频在线观看| 日日干狠狠操夜夜爽| 国产乱人视频| 精品人妻一区二区三区麻豆 | 最近最新免费中文字幕在线| 人人妻人人澡欧美一区二区| 久久国产精品人妻蜜桃| 国产高清有码在线观看视频| 亚洲专区中文字幕在线| 一本精品99久久精品77| 国产伦人伦偷精品视频| 一区二区三区高清视频在线| 免费黄网站久久成人精品| 久久久精品欧美日韩精品| 免费观看在线日韩| 欧美另类亚洲清纯唯美| 国产一区二区三区在线臀色熟女| 99视频精品全部免费 在线| 成人二区视频| 成年女人永久免费观看视频| 国产视频一区二区在线看| 老司机午夜福利在线观看视频| 男女边吃奶边做爰视频| 久久香蕉精品热| 婷婷丁香在线五月| 亚洲精品国产成人久久av| 亚洲中文字幕日韩| 午夜福利成人在线免费观看| 亚洲最大成人av| 日本黄大片高清| 日本三级黄在线观看| 欧美一区二区亚洲| 一进一出抽搐gif免费好疼| 精品久久久久久久久久久久久| 校园人妻丝袜中文字幕| 大型黄色视频在线免费观看| 国产 一区 欧美 日韩| 欧美zozozo另类| 男人舔奶头视频| 天堂网av新在线| 久久天躁狠狠躁夜夜2o2o| 亚洲美女黄片视频| 日日摸夜夜添夜夜添小说| 男插女下体视频免费在线播放| 国产不卡一卡二| 亚洲无线观看免费|