袁斯來
1775年,英國外科醫(yī)師Percivall Pott發(fā)現(xiàn),長期暴露于煙囪煤煙中,會(huì)引發(fā)煙囪清潔工陰囊上的鱗狀細(xì)胞癌。他的報(bào)告第一次把腫瘤的發(fā)展與環(huán)境的作用聯(lián)系起來,這也是人類抗擊腫瘤歷史的開始。而在2014年創(chuàng)立的腫瘤大數(shù)據(jù)公司零氪科技要做的是另一件事:收集分析腫瘤臨床數(shù)據(jù),為這個(gè)充滿未知的疾病提供治療和研究的幫助。
零氪科技的創(chuàng)始人張?zhí)鞚墒轻t(yī)生世家出身,多年的耳濡目染讓他很早就知道臨床數(shù)據(jù)的價(jià)值。無論臨床科研、疾病治療,還是藥企開發(fā)新藥,這些數(shù)據(jù)都至關(guān)重要。然而,不管國內(nèi)還是國外,高質(zhì)量醫(yī)療臨床數(shù)據(jù)的采集和分析都停留在很低效的階段。即使在醫(yī)療信息化已經(jīng)較為完善的美國,據(jù)美國臨床腫瘤學(xué)會(huì)統(tǒng)計(jì),也只有不到3%的腫瘤患者的數(shù)據(jù)被結(jié)構(gòu)化可以用于研究,剩下的數(shù)據(jù)都閑置在醫(yī)院信息系統(tǒng)(HIS)或者病歷病案室中。
事實(shí)上目前在中國三甲醫(yī)院,HIS系統(tǒng)已經(jīng)普及,醫(yī)療行業(yè)的“無紙化”程度已經(jīng)很高,一個(gè)重癥病人從入院起,病歷、拍片、處方、手術(shù)都有電子記錄。但關(guān)鍵的是,“無紙化”的信息機(jī)器無法識(shí)別和理解,即沒有結(jié)構(gòu)化處理,與真正有價(jià)值的“數(shù)字化”并不是一回事?!艾F(xiàn)在只是做到無紙化,而不是數(shù)字化。數(shù)字化需要結(jié)構(gòu)化和標(biāo)準(zhǔn)。最終數(shù)據(jù)輔助治病,讓臨床決策更加智能高效,才是數(shù)據(jù)結(jié)構(gòu)化的最終目的?!焙幽夏[瘤醫(yī)院的副院長李印告訴《第一財(cái)經(jīng)周刊》。
但要把病歷加工成臨床可用的結(jié)構(gòu)化數(shù)據(jù)遠(yuǎn)非簡單的“錄入”過程。一本100多頁的完整病歷中,會(huì)涵蓋患者的檢查報(bào)告、醫(yī)療影像圖、處方、診斷書和出院報(bào)告等。醫(yī)生需要把這些內(nèi)容分解成單個(gè)的標(biāo)準(zhǔn)化“信息點(diǎn)”,比如一個(gè)肺癌患者的出院報(bào)告,醫(yī)生“閱讀理解”后,把描述性的語句標(biāo)準(zhǔn)化拆解,包括既往病史、暴露史、腫瘤的分期等。
這樣的工作繁瑣耗神,臨床醫(yī)生很難保證時(shí)間做這樣的事?!坝行┽t(yī)院會(huì)使用Excel表格,讓醫(yī)生或者實(shí)習(xí)生往里填數(shù)據(jù)。你會(huì)看到前面幾百行還填得很滿,到后面慢慢稀疏,最后就沒了。”零氪科技創(chuàng)始人之一、CTO羅立剛告訴《第一財(cái)經(jīng)周刊》。
當(dāng)然,科室也可以雇傭?qū)I(yè)的外包合同研究組織(CRO)團(tuán)隊(duì)。他們會(huì)派工作人員到現(xiàn)場(chǎng)采集數(shù)據(jù)。不過這樣就得做好下血本的準(zhǔn)備,通常在這樣的項(xiàng)目中,一個(gè)腫瘤患者的病歷結(jié)構(gòu)化費(fèi)用高達(dá)5000元。一般來說,只有醫(yī)生拿到大型研究項(xiàng)目,才會(huì)有預(yù)算支付這筆費(fèi)用。
而評(píng)價(jià)治療效果的隨訪數(shù)據(jù),對(duì)重大疾病的治療意義同樣巨大,卻一直處于缺失狀態(tài)。對(duì)于腫瘤這樣治療周期長、過程復(fù)雜的疾病,必須在患者出院后持續(xù)跟蹤,才能真正了解到臨床治療效果。但醫(yī)院根本調(diào)撥不出多余的人手,也沒有專門的科室負(fù)責(zé)。即使申請(qǐng)到科研課題,有了人力和物力,再想重新回溯,很多患者可能早已去世。
無論是HIS系統(tǒng)的既有數(shù)據(jù)還是沒能錄入的隨訪數(shù)據(jù),可以說都是沉默的金礦,讓有大數(shù)據(jù)背景的第三方團(tuán)隊(duì)來完成數(shù)據(jù)結(jié)構(gòu)化處理和分析,對(duì)醫(yī)院來說是更明智的選擇?!坝袛?shù)據(jù)才能發(fā)高質(zhì)量的論文,中國醫(yī)生不缺病人和病例,缺少數(shù)據(jù)。這就是腫瘤臨床專家們的剛需?!绷汶纯萍糃EO張?zhí)鞚筛嬖V《第一財(cái)經(jīng)周刊》。
2014年年底,一直在醫(yī)療領(lǐng)域打磨的張?zhí)鞚蓜?chuàng)立了零氪科技,那會(huì)兒,他還“有些懵懵懂懂,有些賭性”。零氪科技把方向確定在主攻腫瘤大數(shù)據(jù)的結(jié)構(gòu)化和離院隨訪。“我們提供的就是一個(gè)完整的解決方案。醫(yī)生要做的是把病歷規(guī)整好,讓它們盡可能規(guī)范,剩下的活兒我們就幫著干了?!绷_立剛說。
作為胸部腫瘤專家的兒子,他觀察到腫瘤患者的樣本量少,數(shù)據(jù)密集,但市場(chǎng)容量巨大,對(duì)于初創(chuàng)公司來說,是個(gè)起步的好選擇。相比于幾億的心血管病患者,中國的腫瘤患者只有500萬左右,然而根據(jù)國家藥監(jiān)總局南方醫(yī)藥經(jīng)濟(jì)研究所發(fā)布的《抗腫瘤藥物市場(chǎng)研究分析報(bào)告》,中國在2015年消耗了1000億元的抗腫瘤藥物。這無疑是個(gè)巨大的市場(chǎng)。
張?zhí)鞚稍?jīng)有過醫(yī)療行業(yè)創(chuàng)業(yè)經(jīng)歷,合伙人李麗平也是知名科研機(jī)構(gòu)的高管。現(xiàn)在看來,他們的人脈在零氪科技初創(chuàng)階段起到了很重要的助推作用,因?yàn)獒t(yī)療行業(yè)門檻高,非常需要天使用戶,如果沒有案例,“連說話的機(jī)會(huì)都沒有”。
零氪科技幸運(yùn)地積累了第一批“天使用戶”和案例。但在操作中,張?zhí)鞚砂l(fā)現(xiàn)自己還是輕視了數(shù)據(jù)處理的難度。“沒想到坑這么深,當(dāng)時(shí)的確低估了醫(yī)療大數(shù)據(jù)處理的復(fù)雜性?!彼f。
從專業(yè)的角度看,做結(jié)構(gòu)化的前提是,首先需要對(duì)疾病有很深的了解,形成一個(gè)合適的“骨架”,才談得上填充“血肉”?!胺伟┚陀懈鞣N不同類型,所以結(jié)構(gòu)化之前,必須清楚地知道各類疾病模型應(yīng)該采集哪些數(shù)據(jù),不同醫(yī)院標(biāo)準(zhǔn)術(shù)語是什么樣的?!睂拵зY本合伙人、晨山資本創(chuàng)始合伙人蔣健告訴《第一財(cái)經(jīng)周刊》。
張?zhí)鞚梢珍浀牟±椴既珖?jīng)常會(huì)出現(xiàn)非標(biāo)的描述。兩家醫(yī)院面對(duì)患者的同一個(gè)病情時(shí),會(huì)使用完全不同的話語體系記錄,僅僅是肺癌中對(duì)于吸煙的表述,就有200多種方式。甚至有時(shí)同一個(gè)化驗(yàn),兩家醫(yī)院都會(huì)用不同的單位衡量?!跋嫜裴t(yī)院和協(xié)和醫(yī)院可能用的是不一樣的儀器檢驗(yàn),它們的結(jié)果都是正確的,但在做結(jié)構(gòu)化時(shí),你應(yīng)該怎么填寫?”蔣健說。
這些“拆解”動(dòng)作對(duì)一個(gè)訓(xùn)練有素的醫(yī)生來說自然不是難事,但對(duì)于零氪科技這樣的創(chuàng)業(yè)公司,卻是一道難以逾越的門檻。他們唯一的辦法是向醫(yī)生取經(jīng),跟著醫(yī)院的要求走。包括數(shù)據(jù)歸一和疾病模型如何建立,他們都從頭學(xué)起。實(shí)際上,零氪科技的數(shù)據(jù)庫可以說是和醫(yī)生合作建立的,比如李印所在的河南省腫瘤醫(yī)院,會(huì)定期和零氪科技碰頭,更新學(xué)界研究動(dòng)態(tài)。
醫(yī)院提出自己的需求和考慮,實(shí)際上倒逼零氪科技更快地完善自己的系統(tǒng)。比如為了檢索和管理方便,他們會(huì)讓零氪科技單獨(dú)添加一個(gè)主刀醫(yī)生和第一助手的信息點(diǎn),作為檢索手術(shù)的關(guān)鍵詞?!安皇撬麄兌ê脴?biāo)準(zhǔn),是我們定標(biāo)準(zhǔn)。他們要和臨床一線醫(yī)生的需求交流,調(diào)整數(shù)據(jù)模型。完善并優(yōu)化數(shù)據(jù)模型。這些模型是永久的,可以復(fù)用?!崩钣≌f。在醫(yī)生的指導(dǎo)下搭建框架是最關(guān)鍵的一步,剩下的就是清洗和錄入數(shù)據(jù)。
和CRO機(jī)構(gòu)類似,零氪科技團(tuán)隊(duì)招聘了一些有醫(yī)學(xué)背景的??苹虮究粕结t(yī)院一本本拍攝紙本病歷,再填入到結(jié)構(gòu)化數(shù)據(jù)庫中。如果涉及到病人的隱私,它們會(huì)蒙上紙條做脫敏處理。謹(jǐn)慎地考察了一段時(shí)間后,院方終于松口,開放了自己的HIS系統(tǒng),讓零氪科技可以直接接入讀取。
但這沒有解決效率低下的問題,零氪科技的醫(yī)學(xué)標(biāo)注員拿著專業(yè)性極強(qiáng)的腫瘤病例還是會(huì)頭疼,只能結(jié)合臨床專家的意見閱讀和標(biāo)記。一本60多頁的病歷包含上千個(gè)信息點(diǎn),傳統(tǒng)方案下一個(gè)人要標(biāo)注5個(gè)多小時(shí)才能完成?!皹?biāo)注是一件強(qiáng)業(yè)務(wù)導(dǎo)向的工作,病歷書寫太不規(guī)范,不能遍歷所有醫(yī)生的表達(dá)方式和習(xí)慣。只有把這件事做扎實(shí),才有人工智能所需的數(shù)據(jù)基礎(chǔ)?!睆?zhí)鞚烧f。
為了保證數(shù)據(jù)的準(zhǔn)確性,零氪科技使用雙人錄入的方式,兩個(gè)人同時(shí)處理一本電子病歷,如果雙方處理的結(jié)果一致,再經(jīng)過層層篩選比對(duì),數(shù)據(jù)才能夠入庫。這讓錄入的耗時(shí)更長。
一天個(gè)位數(shù)的處理速度,顯然沒法滿足醫(yī)院的需求。病歷堆積如山,標(biāo)注的工作人員每天早上6點(diǎn)就到醫(yī)院,工作十幾個(gè)小時(shí)仍然沒能解決問題。臨床醫(yī)生也開始質(zhì)疑起他們的處理能力。既然這是一個(gè)勞動(dòng)密集型的工作,應(yīng)急的辦法是規(guī)?;a(chǎn):招聘更多的人,建立起一套標(biāo)準(zhǔn)作業(yè)程序(SOP)。這一做法類似于當(dāng)年福特引入流水線—將生產(chǎn)拆分后,福特T型車的組裝生產(chǎn)時(shí)間從原來的12小時(shí)縮短為90分鐘。
2015年年初,零氪科技完成NEA恩頤投資的數(shù)千萬美元A輪融資,當(dāng)年就招聘了100多個(gè)標(biāo)記員。零氪科技將病歷拆分成了十幾個(gè)部分,每個(gè)人負(fù)責(zé)大約50個(gè)信息點(diǎn)的處理,分工合作。這樣一來,人均每天能夠處理差不多30本病歷,熟手有時(shí)能處理100多本,效率差不多提升了10倍。
純粹依靠人力的工作方式很快達(dá)到了極限。到了2015年年初,羅立剛帶著團(tuán)隊(duì)開始開發(fā)結(jié)構(gòu)化智能引擎Dress,年中Dress的1.0版本上線。它把整個(gè)人工流水線融合到計(jì)算機(jī)系統(tǒng)集中管理,并設(shè)計(jì)了一套能提高效率的輔助工具。包括錄入規(guī)范智能提示,讓計(jì)算機(jī)自動(dòng)提示每一部分應(yīng)該有哪些規(guī)范,標(biāo)注員遵循指南,很快就能找到對(duì)應(yīng)的內(nèi)容。
但即使這樣,錄入的效率仍然跟不上醫(yī)院送病歷來的速度。羅立剛又帶著團(tuán)隊(duì)開發(fā)了人工智能系統(tǒng)Fellow-X,讓計(jì)算機(jī)自己把其中的關(guān)鍵詞提取出來。這其實(shí)是一個(gè)教機(jī)器學(xué)習(xí)的過程。在早期的人力錄入中,他們已經(jīng)很清楚醫(yī)生的表達(dá)方式,形成了一套標(biāo)準(zhǔn)化的術(shù)語集。加上此前人工作業(yè)的經(jīng)驗(yàn)和醫(yī)學(xué)材料,機(jī)器跟著這些“教材”自己做結(jié)構(gòu)化處理。如果計(jì)算機(jī)沒法識(shí)別,再轉(zhuǎn)交人工處理。
為了提高準(zhǔn)確性,羅立剛團(tuán)隊(duì)給計(jì)算機(jī)植入了藥物詞典做檢查。如果文字有錯(cuò)誤,系統(tǒng)能比照著詞典糾正?!氨热缜嗝顾氐拿棺?,下面的偏旁可能識(shí)別錯(cuò)了,這個(gè)時(shí)候就靠計(jì)算機(jī)改正?!绷_立剛介紹。
靠著Dress輔助下的人工識(shí)別和Fellow-X智能識(shí)別,零氪科技能夠用5分鐘完成一本病歷的錄入。這也成為了零氪科技目前最核心的競爭力之一。
作為第三方服務(wù)商,補(bǔ)齊病員隨訪數(shù)據(jù)采集這塊短板大有可為,張?zhí)鞚稍陔S訪團(tuán)隊(duì)上也花了大力氣,在他看來,隨訪數(shù)據(jù)和臨床數(shù)據(jù)本就是“自洽”的,如果結(jié)合,能打通整個(gè)治療的鏈條,讓醫(yī)生更準(zhǔn)確地了解到治療的后續(xù)發(fā)展。
但這一塊張?zhí)鞚蓻]有任何經(jīng)驗(yàn)可以復(fù)制。即使是腫瘤及癌癥治療大數(shù)據(jù)公司Flatiron,也沒辦法從醫(yī)療機(jī)構(gòu)拿到隨訪數(shù)據(jù)。剛開始建立這個(gè)數(shù)據(jù)庫時(shí),他們完全不知道如何以專業(yè)的方式和病人打交道,甚至不知道應(yīng)該詢問哪些問題,以什么樣的口氣和病人交談。也是靠著醫(yī)院的指導(dǎo),他們最終才建立起了一套相對(duì)成熟的隨訪制度。目前,零氪科技的隨訪團(tuán)隊(duì)占到了整體員工的1/3。
這正好填補(bǔ)了醫(yī)院數(shù)據(jù)的空白,越來越多的醫(yī)院愿意向零氪科技打開大門??恐鴮<液歪t(yī)院之間的口碑積累和在學(xué)術(shù)交流會(huì)議上的展示,零氪科技已經(jīng)與包括北京協(xié)和醫(yī)院、四川大學(xué)華西醫(yī)院、中南大學(xué)湘雅醫(yī)院等400家醫(yī)院展開合作。目前,零氪科技日處理病案數(shù)據(jù)45萬頁,其腫瘤數(shù)據(jù)庫涵蓋50余種腫瘤病種。2015年年底獲得了寬帶資本領(lǐng)投的數(shù)億元B輪投資,2016年年底完成C輪融資,不過未透露金額和投資方。
結(jié)構(gòu)化數(shù)據(jù)庫的建立只是零氪科技介入醫(yī)療行業(yè)的第一步,為了真正盤活數(shù)據(jù)庫里的數(shù)據(jù),零氪科技推出Hubble系統(tǒng)。醫(yī)生在做某項(xiàng)研究時(shí),能夠在數(shù)據(jù)庫中點(diǎn)選變量,Hubble能找出它們之間的關(guān)聯(lián)。例如醫(yī)生想要比較腔鏡和開放術(shù)式究竟哪種方式讓病人的生存時(shí)間更長,Hubble能提供直觀的生存曲線圖。“同樣都是早期病人,可是生存的時(shí)間長度卻完全不同,這其中原因很難說清。但如果有了數(shù)據(jù),可以提供一些參考,醫(yī)生可能會(huì)嘗試使用新的治療方法?!绷_立剛介紹。
目前,零氪科技開始嘗試使用人工智能輔助醫(yī)生做臨床診斷。他們最新發(fā)布的“AI-肺結(jié)節(jié)智能診斷系統(tǒng)”使用了影像科醫(yī)生標(biāo)注的胸部CT數(shù)據(jù),加上深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí),能自動(dòng)識(shí)別出CT影像中的結(jié)節(jié),據(jù)稱識(shí)別率超過了90%。而且,這個(gè)系統(tǒng)還能計(jì)算出結(jié)節(jié)的特征,幫助醫(yī)生撰寫診療報(bào)告和診斷。
零氪科技主要依靠與醫(yī)院科研項(xiàng)目合作收費(fèi),今年的收入可能達(dá)到千萬元量級(jí),目前還未盈利。不過,“對(duì)于專業(yè)性極強(qiáng)的醫(yī)療行業(yè)來說,做一天就是積累了一天的門檻?!?/p>
而投資人似乎更為理性一些,“要看他們是不是有能力處理好現(xiàn)在遇到的問題、他們的技術(shù)能解決多大的事情、未來的想象空間如何。指望在這個(gè)行業(yè)像滴滴一樣增長上百倍不太現(xiàn)實(shí)。”蔣健說。