徐亮,阮曉雯,李弦,洪博然,肖京
平安科技(深圳)有限公司,廣東 深圳 518057
疾病預防從宏觀和微觀層面可以分為公共衛(wèi)生防控和個人疾病篩查及健康管理。以重大傳染病疫情為主的突發(fā)公共衛(wèi)生事件不僅危害人民的生命財產(chǎn)安全,還極易造成社會影響,影響群眾日常生活的方方面面,甚至阻滯經(jīng)濟的發(fā)展。以流感為例,根據(jù)世界衛(wèi)生組織最新估計[1],全球每年5%~10%的成人和20%~30%的兒童會罹患流感,流感的季節(jié)性流行會導致全球300萬~500萬重癥病例和25萬~50萬死亡病例。建立和發(fā)展傳染病預測預警技術,提高預測預警的及時性和準確性,對于傳染病控制工作意義重大。目前各國政府實際采用的傳染病疫情預警系統(tǒng)主要依賴傳統(tǒng)監(jiān)測手段,包括各級醫(yī)療機構、疾病預防控制中心和流感樣病例監(jiān)測哨點醫(yī)院協(xié)作,由醫(yī)療機構診斷并報告流感臨床診斷病例和確診病例?,F(xiàn)有的流感監(jiān)測體系存在諸多弊病:定時抽樣、每周匯總的數(shù)據(jù)獲取方式,數(shù)據(jù)結果相對滯后;監(jiān)測手段耗費大量人力物力,遍及全國的監(jiān)測網(wǎng)絡中任一節(jié)點產(chǎn)生的差錯都將影響數(shù)據(jù)的準確性,且各實驗室檢測和逐級上報的過程繁瑣;該監(jiān)測手段獲取的數(shù)據(jù)來源單一,無其他來源數(shù)據(jù)的比對修正。
在個人疾病篩查和健康管理方面,隨著城市化和人口老齡化進程加快,諸如心腦血管疾病、慢性阻塞性肺疾病、惡性腫瘤、中風、糖尿病等原先被視為發(fā)達國家獨有現(xiàn)象的慢性非傳染性疾病已急劇改變中國人口的疾病譜。我國每年死于慢性非傳染性疾病和傷損的人數(shù)近年來迅速上升。慢性病導致的醫(yī)療負擔給個人、家庭以及整個國家的醫(yī)療保障體系帶來了沉重的經(jīng)濟和社會負擔。數(shù)據(jù)顯示[2],目前我國的慢性病患者已超過3億人,慢性病致死人數(shù)已占到我國因病死亡人數(shù)的80 %,導致的醫(yī)療負擔已占到總醫(yī)療負擔的70 %。同時,糖尿病等慢性病已呈現(xiàn)年輕化發(fā)展趨勢,嚴重影響到居民的生活質量和身體健康。由于慢性病的癥狀一般不明顯,患者大多無法在患病初期及時發(fā)現(xiàn)并進行醫(yī)療干預,往往發(fā)現(xiàn)時已是中晚期,不僅治療難度增加,患者的疾病經(jīng)濟負擔也隨之升高。有效的慢性病管理,對慢性病相關的危險因素進行篩查,可以及早發(fā)現(xiàn)疾病的發(fā)展趨勢,一方面幫助患病高危人群提高疾病意識,從而做到早發(fā)現(xiàn)、早診斷、早治療,另一方面幫助政府干預、控制危險因素,降低民眾的患病風險。傳統(tǒng)的慢性病人群篩查主要依據(jù)歷史統(tǒng)計結果,其篩查因素范圍及力度有限,因此亟需高質量的慢性病管理體系。
目前,人工智能的浪潮洶涌澎湃,在視覺圖像識別、語音識別、文本處理等諸多方面人工智能已經(jīng)達到或超越人類水平。大數(shù)據(jù)和人工智能技術的發(fā)展也為疾病預測帶來了新突破。
隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術的發(fā)展和普及,人們生活中的行為和狀態(tài)很可能轉化成數(shù)據(jù)記錄,而這些電子數(shù)據(jù),尤其是互聯(lián)網(wǎng)數(shù)據(jù)都具有覆蓋群體大、實時性高的特點,對于疾病防控具有較大的利用價值。通過監(jiān)測網(wǎng)絡數(shù)據(jù)源發(fā)現(xiàn)公共健康事件的相關研究數(shù)量增多,尤其是搜索服務提供商等持有大量用戶行為數(shù)據(jù)的公司在這一方向上做出了許多卓有成效的嘗試。
2008年,Google公司開發(fā)了“谷歌流感趨勢”(Google Flu Trends,GFT)軟件,利用Google巨大的用戶搜索數(shù)據(jù)(認為網(wǎng)絡用戶及其家人出現(xiàn)流感相關癥狀時可能采取搜索相關的關鍵詞的行為),提前1~2周準確預測了美國流感樣病例百分比的變化趨勢,由此在學術界掀起了利用互聯(lián)網(wǎng)數(shù)據(jù)預測流感的研究浪潮[3]。盡管GFT在后期預測中出現(xiàn)較大偏差[4],但越來越多的研究表明搜索數(shù)據(jù)可以作為流感預測的有效因子之一[5-7]。在傳染病流行季節(jié),人們除了通過搜索引擎關注傳染病的暴發(fā)情況以及應對措施外,還有可能會在社交網(wǎng)絡平臺上發(fā)表有關自己或家人朋友患病情況的言論。2011年,Signorini等[8]以美國境內發(fā)表的含有流感相關關鍵詞的每周Twitter量的占比作為預測因子,采用支持向量機回歸(support vector regression,SVR)模型算法建立了美國全國及某一地區(qū)的流感樣病例百分比的實時跟蹤預測模型,交叉驗證的32周預測結果平均誤差不超過0.4 %。2013年, Li等[9]利用Twitter數(shù)據(jù)建立了流感暴發(fā)的早期預警模型。他們采用分類算法對Twitter數(shù)據(jù)進行自動過濾,留取與流感相關的記錄,再通過無監(jiān)督算法結合流感的空間時間信息進行預測,發(fā)現(xiàn)預測結果與真實數(shù)據(jù)的相關系數(shù)達到0.97。在我國,研究人員嘗試使用中文搜索引擎百度的搜索數(shù)據(jù)[5]以及新浪微博等社交媒體的數(shù)據(jù)[10]構建流感預測模型,驗證利用互聯(lián)網(wǎng)輿情數(shù)據(jù)預測我國流感的可行性。
不斷興起的互聯(lián)網(wǎng)應用也持續(xù)為疾病防控,特別是傳染病的監(jiān)控和預測提供了新思路。比如自發(fā)性報告流感的網(wǎng)絡監(jiān)測系統(tǒng)(如美國的Flu Near You 、澳大利亞的Flutracking)[11]以及近年來用戶量激增的在線健康咨詢及管理的移動互聯(lián)網(wǎng)應用平臺,其與疾病相關的導醫(yī)初診及預約掛號數(shù)可以直接反映用戶的患病情況,且超前于醫(yī)院就診記錄。此外,各互聯(lián)網(wǎng)醫(yī)療平臺的藥物出售統(tǒng)計量也可反映疾病的流行形勢。這些數(shù)據(jù)結合人工智能算法都被嘗試用于傳染病等公共衛(wèi)生事件的預測預警建模[12],且具有較好的預測效果。
除了新興的互聯(lián)網(wǎng)數(shù)據(jù)源,醫(yī)療相關的傳統(tǒng)數(shù)據(jù)轉換成結構化或非結構化的電子數(shù)據(jù)后,隨著人工智能技術的突破在疾病預測中同樣發(fā)揮著重要作用。借助于先進的人工智能算法,研究者使用可穿戴設備或遠程醫(yī)療設備實時記錄的患者生命體征數(shù)據(jù)[13]、患者的電子病歷[14]、體檢數(shù)據(jù)[15]、醫(yī)學影像(超聲/CT/核磁)[16],乃至患者的語音數(shù)據(jù)[17],建立了個人患病風險評估模型,自動篩查疾病相關的危險因素。從2011年起,大量的研究者開始利用可穿戴設備或遠程醫(yī)療設備記錄的用戶生命體征數(shù)據(jù)進行慢阻肺和哮喘患病風險的預測,并不斷對預測模型進行優(yōu)化改進,目前預測準確率為94 %[13]。華中科技大學的Chen等[15]利用結構化的醫(yī)院數(shù)據(jù)包括個人屬性(性別、年齡、身高體重等)、生活習慣(吸煙與否)、檢查結果(血常規(guī)等)和非結構化的個人患病史及歷史醫(yī)囑等文本數(shù)據(jù),基于改進的卷積神經(jīng)網(wǎng)絡對個體腦?;疾★L險進行預測,預測準確率達到94.8%。波士頓大學的Theodora等[14]采用改進的人工智能算法,基于電子病歷預測了心臟病以及糖尿病兩種慢性病的患病風險。
隨著人工智能算法的改進及GPU對計算能力的提升,從大數(shù)據(jù)層面,充分利用多源、復雜、更全面的疾病相關數(shù)據(jù)已然成為了疾病預測的趨勢。豐富的特征數(shù)據(jù)源增加了疾病監(jiān)控和篩查的維度,對傳統(tǒng)數(shù)據(jù)源提供了有力的補充,也為人工智能技術在疾病預測中的應用提供了充足的“燃料”。
(3)統(tǒng)計落入到子單元 usi|i=1,2,…,2d中的數(shù)據(jù)點的數(shù)量,判斷條件 density(usi|i=1,2,…,2d)是否成立,若條件成立則進行步驟(4),否則不作處理;
近年來,人工智能技術的突破一方面離不開算法性能更優(yōu)、靈活度高的機器學習算法的開發(fā),更主要的是歸功于深度學習技術的成熟。2006年,Geoffrey Hinton提出深層神經(jīng)網(wǎng)絡逐層訓練的高效算法,讓當時計算條件下的神經(jīng)網(wǎng)絡模型訓練成為了可能,同時通過深度神經(jīng)網(wǎng)絡模型得到的優(yōu)異的實驗結果讓人們開始重新關注人工智能。之后,深度神經(jīng)網(wǎng)絡模型成為了人工智能領域的重要前沿陣地,深度學習算法模型也經(jīng)歷了一個快速迭代的周期,深度信念網(wǎng)絡(deep belief network)、稀疏編碼(sparse coding)、循環(huán)神經(jīng)網(wǎng)絡(recursive neural network,RNN)、卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)等各種新的算法模型被不斷提出。利用深度學習模型,人工智能在圖像識別、語音識別及自然語言處理等領域都達到了令人滿意的識別精度,有些領域甚至趕超人類。
公共衛(wèi)生事件的預測預警主要是預測未來時間點某一個城市或地區(qū)居民傳染病如流感的患病率,而針對個體的疾病風險預測是預測個體在未來設定的時間窗口內是否會患某種疾病或者患病的概率。在人工智能領域,這些預測場景則會轉換成回歸預測或分類建模問題,利用人工智能技術進行疾病預測建模的主要技術點如下:
(1) 數(shù)據(jù)預處理。用于疾病預測的輸入數(shù)據(jù),比如電子病歷經(jīng)常存在字段缺失或者數(shù)據(jù)異常的情況,導致特征無法提取或者給建模造成噪聲,因此需要對輸入數(shù)據(jù)進行去噪、缺失值填充等預處理。缺失值填充方法除了常用的均值填充、中位數(shù)填充等,有研究針對該問題提出的隱藏因子模型進行缺失值自動填充,有助于疾病預測精度的提升[15]。
(2)特征選擇。在疾病預測應用中,用于傳染病預測的特征因子可能涵蓋天氣、輿情、人口等多源數(shù)據(jù)。在疾病風險預測中,每位患者的數(shù)據(jù)涉及病情主訴、診斷、生活習慣等,往往有上百維,而真實電子病歷的數(shù)據(jù)甚至有上千維。因此在使用機器學習算法進行建模時,為了避免冗余的無意義的特征給模型引入噪聲,降低模型擬合的精度,需要選擇有意義的、相關的特征作為模型的輸入。疾病預測中使用的特征選擇算法類別包括過濾法(方差及相關系數(shù)檢驗)、封裝法(前向特征選擇等)以及嵌入式法(樹模型等)。在使用深度學習算法進行建模時,深度學習網(wǎng)絡將原始特征進行多層變換,把原始特征映射到新的空間中,因此不需要另外加入特征選擇模塊。
(3)模型選擇。用于挖掘序列本身相關性規(guī)律的時間序列模型自回歸積分滑動平均模型(autoregressive integrated moving average model,ARIMA)是經(jīng)典的傳染病患病率預測模型,用數(shù)學模型近似描述序列的變化,對于短期趨勢的預測準確率較高[18]。邏輯回歸模型(logistic regression, LR)由于可解釋性強被廣泛應用在疾病預測中。2001年新興的集成學習算法——隨機森林(random forest)及其后續(xù)的改進算法,由于兼具可解釋性且能夠進一步提高預測精度,被應用在越來越多的疾病預測研究中[19]。此外,SVR回歸[8]、Lasso回歸以及組合模型[11]等預測算法也被嘗試用于傳染病患病率及個人疾病風險預測模型中。近年來,由于深度學習算法在處理高維復雜的結構化數(shù)據(jù)以及非結構數(shù)據(jù)時表現(xiàn)出優(yōu)秀的算法性能,已有一些研究利用深度學習算法建立疾病預測模型,采用卷積神經(jīng)網(wǎng)絡(CNN)[15]、循環(huán)神經(jīng)網(wǎng)絡(RNN)[20]對電子病歷數(shù)據(jù)、醫(yī)學圖像以及語音數(shù)據(jù)進行分析,預測個人患病風險。
先進的人工智能算法也給疾病預測帶來了新的發(fā)現(xiàn)和突破。2017年4月,英國諾丁漢大學流行病學家Stephen Weng博士團隊將機器學習算法應用于電子病歷的常規(guī)數(shù)據(jù)分析,發(fā)現(xiàn)與當前的心臟病預測方法相比,機器學習算法不僅可以更準確地預測心臟病發(fā)病的風險,還可以降低假陽性患者的數(shù)量。該團隊利用隨機森林、邏輯回歸、梯度提升(gradient boosting)和神經(jīng)網(wǎng)絡4種人工智能算法預測人類患心血管疾病的風險,“摸索”出傳統(tǒng)模型結果中未出現(xiàn)的如房顫、種族差異等重要風險因子[21]。
根據(jù)科學期刊《自然》的報道[22],2017年2月北卡羅來納大學的精神病學家Heather Hazlett帶領團隊利用深度學習算法,開發(fā)了可預測12個月大的兒童在2歲時是否會患上自閉癥的人工智能系統(tǒng)。采用的人工智能算法通過不斷“學習”腦部數(shù)據(jù)自動判斷嬰兒的大腦生長速度是否異常,以此來獲得自閉癥的早期線索。這種預測方法具有 81%的準確率與88%的靈敏度。這意味著醫(yī)生可以借助這套算法在疾病發(fā)生的早期,篩選出會患病的兒童,提前進行介入治療以達到更好的治療效果。
2018年,IBM 研究團隊利用機器學習預測人類罹患精神疾病的風險。IBM團隊用人工智能算法分別對59名受試者的語言模式進行了追蹤和分析。受試者參加了一項訪談測試,訪談的記錄依據(jù)詞性不同被逐個拆解,然后對句子的連貫性進行評分。機器算法則根據(jù)他們的語言模式判斷哪些人有罹患精神疾病的風險。受試者中有19人在兩年內患上了精神疾病,其余40人則一切正常,算法預測的準確率高達83%。這套算法還能夠區(qū)分近期罹患精神疾病的人群與正常人群的語言模式,而且準確率達到72%。研究發(fā)現(xiàn),具有高患病風險的人說話時較少使用物主代詞,說出的句子也不那么連貫[17]。
經(jīng)典的機器學習和統(tǒng)計方法普遍采用基于向量的表示方法,通過特征選擇提取最有預測能力的特征。最新的深度學習方法從輸入數(shù)據(jù)中自動學習特征,對原始數(shù)據(jù)進行多層變換,把原始特征映射到新的空間,雖提高了預測精度,但同時也降低了模型的可解釋性。
2017年,平安集團與重慶市疾病預防控制中心的聯(lián)合研發(fā)課題組,利用“互聯(lián)網(wǎng)+醫(yī)療健康”大數(shù)據(jù)前沿技術,首次提出“宏觀+微觀”的深度智能疾病預測方法,實現(xiàn)了提前一周預測某一地區(qū)流感和手足口病的患病率。該模型整合了上萬維度數(shù)據(jù)因子,同時結合本地疾病防控實際業(yè)務經(jīng)驗和專家知識,采用多種人工智能算法的組合,使疾病預測能夠達到時效性更強、精度更高、范圍更廣、輸出更穩(wěn)定、可擴展性更強的要求,充分體現(xiàn)了多維數(shù)據(jù)來源的業(yè)務應用優(yōu)勢和實踐價值。
該流感預測模型在宏觀或地區(qū)層面,通過整合全國上百個城市的環(huán)境氣象因子(環(huán)境/天氣/季節(jié))、人口信息(人口/流動/結構)、地區(qū)生活行為、醫(yī)療習慣、就診行為等一系列宏觀因子,對歷史數(shù)據(jù)進行嘗試挖掘,分析時間序列。在微觀層面,通過整合全方位、多維度的預測因子和信息來預測疾病發(fā)生風險。這些信息包括信息高度相關,但頻度較低、分布較稀疏的醫(yī)療健康因子(體檢/就診/告知等),也包括信息間接相關,但信息頻度和深度較高的個人行為因子(財務/職業(yè)/生活等)、互聯(lián)網(wǎng)數(shù)據(jù)因子(輿情/行為/LBS等)等。通過精準評估個人層面風險并匯總到宏觀層面,該方法能夠深入挖掘宏觀層面無法統(tǒng)計的細顆粒度的信息,從而提升預測精度。最終采用模型融合的方法,將深度學習和人工智能方法,如時間序列模型、樹模型等進行組合,提高預測準確度。該流感預測模型目前已在重慶市上線應用,在重慶長達3年的歷史靜態(tài)數(shù)據(jù)及上線后動態(tài)數(shù)據(jù)的驗證中,預測平均誤差率都不超過10 %。
基于人工智能技術的傳染病預測,將幫助政府部門及時監(jiān)控疫情和合理分配醫(yī)學資源,并指導民眾進行疾病預防,提升疾病事前預防的成功率,有效降低國家疾病預測與防控工作的成本。
2017年,平安集團與重慶市衛(wèi)生計生委聯(lián)合開展大數(shù)據(jù)在慢阻肺篩查與防控方面的應用研究,研發(fā)的慢阻肺危險因素篩查模型準確率達到92 %。應用慢阻肺危險因素篩查模型,可大幅減少城市醫(yī)療管理部門的篩查成本,提高篩查效率;同時利用早期篩查和早期干預,可顯著減少患者疾病的經(jīng)濟負擔。
2018年8月,平安集團在上海黃浦區(qū)某藥店正式上線個人智能疾病預測系統(tǒng),完成了人工智能在個人疾病風險預測中應用的落地實施。顧客在完成血壓、心率等物理設備檢測時,就可以同步進行12類常見的糖尿病及其并發(fā)癥、心腦血管疾病、高血壓、慢性腎病、慢性阻塞性肺疾病等慢性病的智能風險精準預測。該系統(tǒng)基于大數(shù)據(jù)并采用人工智能和機器學習技術建立而成,從大量特征中挖掘疾病風險因子,進行風險因素分析,并融合專家知識,針對精準人群提供個性化的預防干預建議。糖尿病篩查等模型的準確率在90%以上,靈敏度較通用模型提高了50%以上。
2018年2月美國食品藥品監(jiān)督管理局(FDA)批準了一項人工智能成果——Cognoa公司用于檢測兒童自閉癥的人工智能平臺,這也是FDA監(jiān)管許可的首個用于自閉癥篩查的II類診斷醫(yī)療設備。通過分析家長提供的兒童自然行為信息和視頻,Cognoa的應用程序使用機器學習算法來評估該兒童是否正在以正確的速度發(fā)展,并評估他們的行為健康狀況。該應用已經(jīng)通過臨床驗證,可以在早期識別兒童的自閉癥,其準確率超過80%。
人工智能技術在個人疾病篩查和健康管理中的應用能夠幫助患病高危人群的高效篩選,及早發(fā)現(xiàn)疾病的發(fā)展趨勢,提高疾病防控意識。通過患病因素分析獲得定制化的健康信息服務,比如個人健康顧問、預防治療措施以及求醫(yī)用藥指導等等,也是未來人工智能在疾病預測領域應用落地的重要方向。
人工智能技術的發(fā)展使得疾病預測智能化和精確化成為可能,人工智能在疾病預測中的應用近年來也取得了較大的突破。然而,人工智能技術在疾病預測中的預測精度還有待進一步提高。一方面,如何處理多模態(tài)的醫(yī)療數(shù)據(jù),充分利用結構化數(shù)據(jù)、文本、影像和流數(shù)據(jù)(心率、血氧、呼吸等)等綜合信息進行疾病預測建模,提高預測模型的精度和泛化能力是接下來很重要的技術挑戰(zhàn)。另一方面,由于醫(yī)學領域的特殊性,對預測模型的可解釋性具有較高要求。然而,目前由數(shù)據(jù)驅動的人工智能疾病預測模型,其預測原理較難回溯到醫(yī)療領域知識。如何有效地融合醫(yī)學領域知識和機器學習方法,構建可解釋性強的預測模型還有待深入研究。
(2018年9月17日收稿)