編譯 陸默
機(jī)器學(xué)習(xí)可以對(duì)癌癥照片、腫瘤病理切片和基因組進(jìn)行分析。如今,科學(xué)家正準(zhǔn)備將這些信息整合到癌癥超級(jí)模型中。
每個(gè)癌癥患者都在思考的一個(gè)問題是:我還能活多久?基因組學(xué)家邁克爾·斯奈德(Michael Snyder)希望他能找到答案。
目前,所有醫(yī)生能做的就是將患有類似癌癥的患者分組,然后對(duì)他們和其他組患者的相同藥物反應(yīng)或預(yù)后進(jìn)行評(píng)估,但目前的分組方法粗略而不完善,而且往往都只是基于人工收集的數(shù)據(jù)。
斯坦福大學(xué)基因組學(xué)和個(gè)體化醫(yī)學(xué)中心主任斯奈德指出:“病理學(xué)家根據(jù)解讀圖像的結(jié)果來診斷病情的準(zhǔn)確率通常只有60%?!?013年,他和當(dāng)時(shí)的研究生余坤興(Kun-Hsing Yu,音譯)開始琢磨,人工智能是否能夠?yàn)獒t(yī)生提供更準(zhǔn)確的預(yù)測(cè)。
余將組織學(xué)圖像連同病理學(xué)家確定的診斷一起輸入機(jī)器學(xué)習(xí)算法,訓(xùn)練它區(qū)分肺癌和正常組織,以及兩種不同類型肺癌之間的區(qū)別。然后輸入相關(guān)患者的生存數(shù)據(jù),讓系統(tǒng)了解這些信息與圖像之間的關(guān)系。最后,他在模型中補(bǔ)充了一些新的病理切片資料,并向AI提出了一個(gè)至關(guān)重要的問題:患者的存活時(shí)間。
計(jì)算機(jī)可以預(yù)測(cè)患者的生存期高于或低于某些特定癌癥的平均存活時(shí)間,這是病理學(xué)家很難做到的。計(jì)算機(jī)預(yù)測(cè)“效果出奇的好?!比缃袢喂疳t(yī)學(xué)院講師的余說道。
但是斯奈德和余認(rèn)為他們還可以做更多的事。斯奈德的實(shí)驗(yàn)室也在研究生物組學(xué),所以他們決定向計(jì)算機(jī)提供的學(xué)習(xí)資料不僅只有組織病理切片資料,還提供了腫瘤轉(zhuǎn)錄組資料。結(jié)合這些數(shù)據(jù),該計(jì)算機(jī)模型對(duì)患者生存做出的預(yù)測(cè)甚至比單獨(dú)使用圖像或轉(zhuǎn)錄組資料更好,準(zhǔn)確率超過了80%。如今的病理學(xué)家通常根據(jù)組織顯微照片的視覺評(píng)估來進(jìn)行生存情況預(yù)測(cè),通過顯微照片對(duì)腫瘤進(jìn)行評(píng)估分級(jí),包括腫瘤的大小和嚴(yán)重程度,以及腫瘤進(jìn)一步生長(zhǎng)和擴(kuò)散的可能性。但這種腫瘤分級(jí)方法并不總能準(zhǔn)確預(yù)測(cè)生存情況。
斯奈德和余并不是唯一認(rèn)識(shí)到人工智能在分析癌癥相關(guān)數(shù)據(jù)集(包括圖像、生物組學(xué)以及兩者結(jié)合的數(shù)據(jù)集)方面威力的研究人員。盡管這些方法進(jìn)入臨床前還有很長(zhǎng)的路要走,但快速做出準(zhǔn)確診斷,預(yù)測(cè)哪些治療方法對(duì)哪些患者最有效,甚至更準(zhǔn)確地預(yù)測(cè)生存情況,人工智能顯然在這些方面做得更好。
倫敦癌癥研究所的計(jì)算生物學(xué)家安德里亞·索托里瓦(Andrea Sottoriva)表示,目前其中一些應(yīng)用仍然還處于“科幻小說”的階段,索托里瓦正在用人工智能預(yù)測(cè)癌癥的演變以及選擇合適藥物治療特定腫瘤方面的研究。
在癌癥發(fā)展到一定程度之前,發(fā)現(xiàn)和治療癌癥是提高患者生存的關(guān)鍵。例如,早期發(fā)現(xiàn)宮頸癌可使患者生存5年的情況超過90%,醫(yī)生可以采取冷凍或切除位子宮頸轉(zhuǎn)化區(qū)頂端4毫米處癌前細(xì)胞等治療手段。然而一旦癌癥轉(zhuǎn)移,5年存活率就會(huì)下降到56%甚至更低。
癌癥早期治療在發(fā)達(dá)國家是很常見的做法,那里的婦女定期接受巴氏涂片檢查宮頸細(xì)胞異常,并檢測(cè)導(dǎo)致癌癥的人類乳頭瘤病毒。但發(fā)展中國家卻很少見這樣的癌癥篩選法。美國國家癌癥研究所流行病學(xué)家馬克·希夫曼(Mark Schiffman)指出一種更便宜的測(cè)試方法,即醫(yī)護(hù)人員在女性子宮頸上涂上醋酸,以尋找可能表明癌癥的白色區(qū)域,但“這種方法非常不準(zhǔn)確”,結(jié)果導(dǎo)致一些健康女性被誤診為癌癥而接受治療,而另一些人的癌前細(xì)胞卻可能漏檢,導(dǎo)致癌癥發(fā)展后需要采取更激進(jìn)的治療方法,如化療、放療或子宮切除術(shù)。
希夫曼和其他研究小組一直在嘗試尋找某種途徑,以讓醋酸篩選的結(jié)果更加準(zhǔn)確,例如,利用白光以外的其他光譜成像,希夫曼的團(tuán)隊(duì)從美國和哥斯達(dá)黎加的不同來源收集了數(shù)千張宮頸照片,其中包括醫(yī)療專業(yè)人員用陰道鏡或手機(jī)拍攝的照片。但是他已經(jīng)準(zhǔn)備放棄這種嘗試了?!拔覀儫o法讓它像其他測(cè)試方法那樣靈敏、準(zhǔn)確或重現(xiàn)真實(shí)情況。”
2017年底,比爾和梅林達(dá)·蓋茨基金會(huì)旗下的非營利組織全球友好(Global Good)組織也開始用希夫曼收集的圖像嘗試機(jī)器學(xué)習(xí),他們想知道,在醫(yī)生無法提供確切診斷的情況下,計(jì)算機(jī)是否能夠進(jìn)行準(zhǔn)確預(yù)測(cè)。
希夫曼與Global Good和其他合作者一起,利用一種叫作卷積神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法來分析宮頸圖像。算法目標(biāo)是識(shí)別圖像中的一些特征,例如,并排像素的相似度或差異度,以得出準(zhǔn)確診斷。一開始,機(jī)器的準(zhǔn)確性并不比巧合好多少。在分析了越來越多的圖像后,機(jī)器會(huì)對(duì)這些圖像的相似或差異特征進(jìn)行權(quán)衡,以幫助尋找最佳答案?!斑@是一個(gè)反復(fù)權(quán)衡的過程,直到它盡可能地接近答案。”希夫曼解釋說道。
研究小組從哥斯達(dá)黎加9 000多名婦女的宮頸圖像開始的這項(xiàng)研究歷時(shí)7年多時(shí)間。希夫曼還從這些婦女更準(zhǔn)確的篩查測(cè)試結(jié)果中,以及18年來有關(guān)癌癥前期或癌癥診斷的跟蹤隨訪的信息中收集了大量數(shù)據(jù)。研究人員使用了其中70%的完整數(shù)據(jù)集來訓(xùn)練模型,然后用剩下30%的圖像數(shù)據(jù)測(cè)試機(jī)器性能。機(jī)器學(xué)習(xí)預(yù)測(cè)在區(qū)分健康組織、癌癥前期和癌癥之間區(qū)別的出色表現(xiàn)令希夫曼難以置信,機(jī)器學(xué)習(xí)預(yù)測(cè)的準(zhǔn)確率達(dá)到了91%,相比之下,人類視覺檢查的準(zhǔn)確率僅為69%。希夫曼說:“我所知道的任何方法都做不到這樣的精確度?!敝八J(rèn)為機(jī)器也難免會(huì)出差錯(cuò)。
有了擅長(zhǎng)識(shí)別癌癥前期和癌癥的人工智能新工具,希夫曼希望開發(fā)低成本的宮頸癌篩查測(cè)試技術(shù),將手機(jī)式相機(jī)與基于機(jī)器的圖像分析結(jié)合起來。首先,他要利用世界各地?cái)?shù)以萬計(jì)的手機(jī)子宮頸圖像來訓(xùn)練其算法。
希夫曼并不是唯一關(guān)注智能手機(jī)進(jìn)行癌癥診斷的人。皮膚損傷可能會(huì)癌變,也可能是良性的,因?yàn)樗驮诒砻妫魏稳硕伎梢越o它拍照。斯坦福大學(xué)的研究人員建立了一個(gè)包含近13萬張皮膚病變照片的數(shù)據(jù)庫,并利用它來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),區(qū)分良性腫塊和三種不同惡性病變之間的區(qū)別。機(jī)器學(xué)習(xí)的診斷準(zhǔn)確率通常至少可達(dá)到91%,機(jī)器算法的表現(xiàn)明顯優(yōu)于對(duì)同批照片進(jìn)行評(píng)估的21名皮膚科醫(yī)生的診斷結(jié)果。
建立癌癥預(yù)測(cè)模型的主要挑戰(zhàn)是要獲取足夠多高質(zhì)量的數(shù)據(jù)。斯坦福大學(xué)的研究小組在整理從斯坦福醫(yī)學(xué)院獲得和從網(wǎng)上收集到的皮膚癌圖片時(shí)發(fā)現(xiàn),這些圖片的拍攝角度、縮放比例和光線明暗參差不齊,研究人員還必須將圖片標(biāo)簽翻譯成各種語言,然后與皮膚科醫(yī)生合作,將這些皮膚病變分為2 000多個(gè)不同種類。
當(dāng)然,大多數(shù)癌癥診斷需要的不僅僅是智能手機(jī)攝像頭,觀察腫瘤中單個(gè)細(xì)胞還需要用到顯微鏡。余說,科學(xué)家希望盡可能多地收集到有關(guān)某個(gè)患者的臨床治療和治療效果的相關(guān)信息,以及基因組等分子數(shù)據(jù),但這很難獲得?!拔覀兒苌倌苷业竭@樣的一個(gè)病人,他擁有我們所想要的所有數(shù)據(jù)。”
正如斯奈德和余所發(fā)現(xiàn)的那樣,結(jié)合組學(xué)數(shù)據(jù)可提供關(guān)于某種特定癌癥所涉及的分子通路的信息,有助于識(shí)別癌癥類型、生存率或治療效果的可能反應(yīng)。在最初基于圖像的研究中,研究人員手中有2 186張肺組織切片圖片,來自人類病理學(xué)家對(duì)疾病的分類,以及患者存活時(shí)間數(shù)據(jù)。研究人員使用計(jì)算機(jī)算法從這些圖像中提取了近10 000個(gè)特征,比如細(xì)胞形狀或大小,他們用這些特征訓(xùn)練了幾種機(jī)器學(xué)習(xí)算法。
一種很有效的方法叫做“隨機(jī)森林”,它可以生成數(shù)百種決策樹,然后這些“決策樹”對(duì)答案進(jìn)行投票,根據(jù)票數(shù)多少做出決策,多者勝出。該算法在區(qū)分健康組織和兩種癌癥類型方面的準(zhǔn)確率超過75%,而且在預(yù)測(cè)存活率方面比單純基于癌癥分期的模型更準(zhǔn)確?!斑@已經(jīng)超出了目前病理學(xué)診斷的水平,”余說。
在后續(xù)研究中,研究人員運(yùn)行經(jīng)過訓(xùn)練的圖像分析算法系統(tǒng),對(duì)538名肺癌患者的組織病理學(xué)切片資料進(jìn)行分析,然后又輸入了這些患者的轉(zhuǎn)錄組和蛋白質(zhì)組數(shù)據(jù),要求“隨機(jī)森林”對(duì)患者進(jìn)行癌癥分級(jí)。15個(gè)基因的表達(dá)水平預(yù)測(cè)癌癥分級(jí)的準(zhǔn)確率為80%,這些基因參與了DNA復(fù)制、細(xì)胞周期性調(diào)控和p53信號(hào)傳遞等過程,眾所周知,這些過程在癌癥生物學(xué)中扮演了重要角色。研究小組還確定了15種與細(xì)胞發(fā)育和癌癥信號(hào)有關(guān)的蛋白質(zhì)(并非由15個(gè)基因編碼的蛋白質(zhì)),其預(yù)測(cè)癌癥分級(jí)的準(zhǔn)確率為81%。雖然研究人員沒有將這一結(jié)果與人類醫(yī)生的診斷進(jìn)行比較,但一項(xiàng)病理學(xué)研究發(fā)現(xiàn),79%的肺腺癌診斷結(jié)果與人類醫(yī)生的診斷結(jié)果是一致的,表明機(jī)器和人類的診斷結(jié)果一樣準(zhǔn)確,但機(jī)器更強(qiáng)大,它們將目標(biāo)瞄準(zhǔn)了促進(jìn)癌癥發(fā)展的特定基因表達(dá)因子。
最后,研究人員要求計(jì)算機(jī)根據(jù)基因表達(dá)、癌癥分級(jí)和患者年齡來預(yù)測(cè)生存率。有了所有這些數(shù)據(jù),該模型的
鏈 接
人工智能診斷癌癥
科學(xué)家一直在使用圖像(圖像包括照片或病理切片)和生物組學(xué)這兩種主要形式的臨床數(shù)據(jù)來預(yù)測(cè)癌癥的結(jié)果。將越來越復(fù)雜的機(jī)器學(xué)習(xí)方法應(yīng)用于這些數(shù)據(jù)集,可以得到準(zhǔn)確的診斷和預(yù)后,甚至可以推斷腫瘤的進(jìn)化,如今科學(xué)家發(fā)現(xiàn)可以通過圖像預(yù)測(cè)組學(xué)數(shù)據(jù)。通過這兩個(gè)數(shù)據(jù)源的結(jié)合,研究人員可以更好地預(yù)測(cè)癌癥患者的生存期?;A(chǔ)生物學(xué)實(shí)驗(yàn)室里目前正在開發(fā)的算法,最終能夠幫助醫(yī)生更好地選擇治療方案和預(yù)測(cè)患者生存期。準(zhǔn)確率達(dá)80%以上,能夠?qū)⒒颊哒_分為長(zhǎng)期生存者和短期生存者,勝過人類病理學(xué)家、單獨(dú)使用轉(zhuǎn)錄物組或圖像技術(shù)。
受斯奈德和余的研究成果啟發(fā),紐約大學(xué)醫(yī)學(xué)院的亞里士多德·齊里戈斯(Aristotelis Tsirigos)和他的同事將1 634張健康或癌變肺組織的病理切片圖像資料與遺傳學(xué)聯(lián)系起來。僅憑這些圖像資料,他們?cè)O(shè)計(jì)開發(fā)的卷積神經(jīng)網(wǎng)絡(luò)就能將腺癌與鱗狀細(xì)胞癌區(qū)分,準(zhǔn)確率約為97%。然后,研究小組將10個(gè)最常見肺腺癌突變基因的算法數(shù)據(jù)輸入計(jì)算機(jī),計(jì)算機(jī)學(xué)會(huì)了從病理切片中預(yù)測(cè)其中6個(gè)突變的存在,準(zhǔn)確率從73%到86%不等?!皽y(cè)試效果非常好,作為最初成果,這還是非常令人興奮的?!彼魍欣锿哒f道,雖然他沒有參加這項(xiàng)研究。
當(dāng)然,醫(yī)生和科學(xué)家不需要通過成像來識(shí)別突變,其他一些測(cè)試方法更直接、更準(zhǔn)確,基因測(cè)序可提供近乎完美的癌癥基因組讀數(shù)。齊里戈斯解釋說,這項(xiàng)研究旨在證明基因和圖像特征之間的關(guān)系是可以預(yù)測(cè)的?,F(xiàn)在,他正在努力結(jié)合組織病理學(xué)和分子信息來預(yù)測(cè)患者的預(yù)后,正如余和斯奈德的團(tuán)隊(duì)所做的那樣。齊里戈斯說,只要輸入正確的數(shù)據(jù),這些方法應(yīng)該適用于任何癌癥類型。
即使沒有圖像資料,組學(xué)數(shù)據(jù)本身也很有用。例如,索托里瓦和他的同事正在利用基因組學(xué)來了解腫瘤的進(jìn)化。一個(gè)腫瘤通常由多個(gè)細(xì)胞系組成,這些細(xì)胞系都來自于同一個(gè)原始癌細(xì)胞。為有效治療癌癥,理解這種異質(zhì)性和腫瘤進(jìn)化的方式是很重要的。如果只對(duì)腫瘤的一部分進(jìn)行局部治療,癌癥還會(huì)復(fù)發(fā)。“這是一個(gè)生死攸關(guān)的問題。”愛丁堡大學(xué)計(jì)算機(jī)科學(xué)家、腫瘤進(jìn)化研究合作者吉多·桑吉內(nèi)蒂(Guido Sanguinetti)說道。
通過對(duì)單個(gè)腫瘤的多個(gè)部分進(jìn)行采樣,研究人員可以推斷出癌癥的進(jìn)化路徑,這類似于對(duì)現(xiàn)代人類基因組進(jìn)行采樣以追溯種群起源的做法。來自不同患者的腫瘤,即使是同一種癌癥,其進(jìn)化樹也往往大相徑庭。桑吉內(nèi)蒂、索托里瓦和他的同事認(rèn)為,如果能夠找到癌癥傾向于遵循的共同途徑,腫瘤學(xué)家就可以利用這些信息對(duì)可能有類似疾病發(fā)展過程或?qū)λ幬镉蓄愃品磻?yīng)的患者進(jìn)行分類。
為找到共同的進(jìn)化樹,研究人員使用了一種叫作轉(zhuǎn)移學(xué)習(xí)的機(jī)器學(xué)習(xí)形式。桑吉內(nèi)蒂解釋說,該算法同時(shí)觀察患者基因組中的所有進(jìn)化樹,尋找它們之間的共享信息,以找到適合整個(gè)患者群體的解決方案。他們將這一機(jī)器學(xué)習(xí)工具稱為REVOLVER,意思是“癌癥的反復(fù)進(jìn)化”。在最初測(cè)試中,他們發(fā)明虛構(gòu)腫瘤進(jìn)化樹,將基于虛構(gòu)腫瘤進(jìn)化樹的REVOLVER基因組數(shù)據(jù)輸入到機(jī)器,然后它真的“吐出”了與虛構(gòu)腫瘤進(jìn)化相匹配的種系進(jìn)化樹。
為了驗(yàn)證該工具對(duì)常見癌癥進(jìn)化的預(yù)測(cè),研究人員將目標(biāo)轉(zhuǎn)向結(jié)直腸癌的惡性轉(zhuǎn)化,當(dāng)已知驅(qū)動(dòng)基因的良性腺瘤積累突變時(shí)就會(huì)發(fā)生這種惡性轉(zhuǎn)化。研究人員輸入了9個(gè)良性腺瘤和10個(gè)惡性腫瘤的基因組REVOLVER,結(jié)果是:該模型繪制了匹配良性腺瘤向惡性腫瘤轉(zhuǎn)化的進(jìn)化樹。
然后,研究小組對(duì)腫瘤樣本進(jìn)行了分析,這些樣本的進(jìn)化過程尚不明確。在99名非小細(xì)胞肺癌患者的基因組中,REVOLVER根據(jù)腫瘤累積的突變序列確定了10名患者的潛在癌細(xì)胞集群。其中一些癌細(xì)胞集群的生存時(shí)間不足150天,而另一些則生存了更長(zhǎng)時(shí)間。同樣,REVOLVER在50個(gè)乳腺癌腫瘤中發(fā)現(xiàn)了6個(gè)癌細(xì)胞集群,每個(gè)集群之間的生存時(shí)間有長(zhǎng)有短,索托里瓦說:“之前我們都沒想到能發(fā)現(xiàn)這樣的癌細(xì)胞集群,這些結(jié)果告訴我們,癌癥的進(jìn)化是可以預(yù)測(cè)的。”
索托里瓦說,藥物治療可建立在這些可預(yù)測(cè)模式上。人工智能是強(qiáng)大的工具,可以幫助識(shí)別與臨床有關(guān)的模式。此外,通過從模型的輸入中選擇剔除特定數(shù)據(jù)片段,并觀察其準(zhǔn)確性是否會(huì)有所下降,生物信息學(xué)家可以弄清楚計(jì)算機(jī)是根據(jù)哪些特征來區(qū)分癌癥類型的,索托里瓦說道。
就目前來說,人工智能在癌癥研究中的應(yīng)用僅僅是開始。未來的算法可能不僅包括組學(xué)和圖像,還包括治療結(jié)果、治療進(jìn)展以及科學(xué)家可以得到的任何其他數(shù)據(jù)。
“歸根結(jié)底,處理像癌癥這樣的復(fù)雜疾病時(shí),我們需要完整的信息?!彼鼓蔚抡f。