鄒昊翰
(天津市眼科醫(yī)院/天津醫(yī)科大學(xué)眼科臨床學(xué)院 天津300020)
季書帆 朱天晨
(北京航空航天大學(xué)計(jì)算機(jī)科學(xué)和工程學(xué)院 北京100191)
王 雁
(天津市眼科醫(yī)院/天津醫(yī)科大學(xué)眼科臨床學(xué)院 天津300020)
近視問題是我國乃至全球公共健康問題[1-2]。角膜屈光手術(shù)作為矯正近視的重要方式之一被廣泛接受。據(jù)不完全統(tǒng)計(jì),我國每年完成近視角膜屈光手術(shù)約100萬例以上,其產(chǎn)生的豐富臨床數(shù)據(jù)如能有效利用將為該領(lǐng)域人工智能發(fā)展提供重要支撐和保證。但臨床數(shù)據(jù)來源多樣、格式不一,尚未建立統(tǒng)一管理標(biāo)準(zhǔn),極大限制了應(yīng)用。規(guī)范、高效、安全、合理和有效利用屈光手術(shù)數(shù)據(jù)具有重要意義。為此本文對(duì)屈光手術(shù)數(shù)據(jù)平臺(tái)構(gòu)建及數(shù)據(jù)應(yīng)用相關(guān)問題進(jìn)行闡述。
主要包括關(guān)系型數(shù)據(jù)庫、圖數(shù)據(jù)庫、鍵值數(shù)據(jù)庫、分布式數(shù)據(jù)庫等。關(guān)系型數(shù)據(jù)庫采用關(guān)系模型組織數(shù)據(jù),用于存儲(chǔ)二維表格數(shù)據(jù)及其之間的聯(lián)系,貼近現(xiàn)實(shí)場景,便于理解且易于維護(hù),較適用于臨床病歷、醫(yī)學(xué)檢查報(bào)告等數(shù)據(jù);圖數(shù)據(jù)庫主要用于存儲(chǔ)實(shí)體以及實(shí)體之間關(guān)系,常應(yīng)用于知識(shí)圖譜、檢索等領(lǐng)域,如患者用藥指導(dǎo)等;鍵值數(shù)據(jù)庫用于存儲(chǔ)Key-Value型數(shù)據(jù),其本質(zhì)是一張哈希表,具有較高檢索和處理性能;分布式數(shù)據(jù)庫突破單機(jī)數(shù)據(jù)存儲(chǔ)性能瓶頸,實(shí)現(xiàn)數(shù)據(jù)跨空間領(lǐng)域一致性存儲(chǔ)。醫(yī)療大數(shù)據(jù)組織模型大多接近于關(guān)系模型,即以二維表模式進(jìn)行采集和存儲(chǔ),少量醫(yī)療數(shù)據(jù)依托于實(shí)體和關(guān)系抽取與呈現(xiàn),因此本研究首先構(gòu)建屈光手術(shù)關(guān)系型數(shù)據(jù)庫。
2.2.1 數(shù)據(jù)特性 醫(yī)療大數(shù)據(jù)特點(diǎn)之一是具有較強(qiáng)時(shí)序性。屈光手術(shù)臨床數(shù)據(jù)除包括結(jié)構(gòu)化的病人基本信息、屈光度外,還包括非結(jié)構(gòu)化的用藥信息、檢查信息、臨床記錄隨訪信息等,且個(gè)人病歷具有時(shí)序性,人工或傳統(tǒng)方法難以高效地對(duì)其檢索、處理、分析并利用,現(xiàn)代數(shù)據(jù)庫應(yīng)用將解決這一難題。
2.2.2 數(shù)據(jù)庫基本結(jié)構(gòu) 本研究使用MySQL數(shù)據(jù)庫,搭建包括人眼基本信息、手術(shù)信息、術(shù)后信息等數(shù)據(jù)在內(nèi)的關(guān)系型數(shù)據(jù)庫,見圖1。此外將根據(jù)第3范式設(shè)計(jì)表結(jié)構(gòu),避免數(shù)據(jù)冗余、更新異常、插入異常和刪除異常并優(yōu)化查詢效率;采用用戶分級(jí)權(quán)限、共享權(quán)限、數(shù)據(jù)加密技術(shù)等安全機(jī)制,保障數(shù)據(jù)合法使用權(quán)限及安全性,實(shí)現(xiàn)對(duì)多源人眼視覺特征大數(shù)據(jù)的存儲(chǔ)與管理,見圖1。
圖1 屈光手術(shù)數(shù)據(jù)平臺(tái)結(jié)構(gòu)
2.2.3 分布式數(shù)據(jù)庫應(yīng)用 關(guān)系型數(shù)據(jù)庫在數(shù)據(jù)量大于一定程度情況下單機(jī)存儲(chǔ)和檢索性能會(huì)急劇下降[3]。當(dāng)大量眼科數(shù)據(jù)產(chǎn)生并存于一張表時(shí)將可能超過單機(jī)數(shù)據(jù)庫表可承受的數(shù)據(jù)量閥值。采用分布式數(shù)據(jù)存儲(chǔ)系統(tǒng),將不同種屬的分散數(shù)據(jù)分別儲(chǔ)存,既保證各屬性下參數(shù)獨(dú)立處理分析,又能滿足不同屬性間數(shù)據(jù)的交換和集中處理。人眼相關(guān)參數(shù)包含形態(tài)學(xué)和生物學(xué)等特性,各屬性間既內(nèi)在聯(lián)系又相互影響,如角膜地形圖所獲得的角膜厚度、曲率等數(shù)據(jù)與角膜硬度、反應(yīng)速度等力學(xué)特性成正相關(guān)[4]。以眼睛整體分析和應(yīng)用角度出發(fā),從基礎(chǔ)參數(shù)到各屬參數(shù)構(gòu)成分布式數(shù)據(jù)庫,保證數(shù)據(jù)的完整性和一致性,以此提高整個(gè)數(shù)據(jù)庫可用性和工作效率。
2.3.1 概述 標(biāo)準(zhǔn)化是醫(yī)學(xué)數(shù)據(jù)庫高效管理與應(yīng)用的重要基礎(chǔ),屈光矯正數(shù)據(jù)標(biāo)準(zhǔn)化是數(shù)據(jù)整合與關(guān)聯(lián)的基礎(chǔ)。構(gòu)建屈光手術(shù)標(biāo)準(zhǔn)體系是推動(dòng)該學(xué)科數(shù)據(jù)共享發(fā)展的保障。通過建立映射關(guān)系尋求多元數(shù)據(jù)間聯(lián)系,從而聯(lián)結(jié)孤立數(shù)據(jù)形成交互關(guān)聯(lián)網(wǎng),有助于進(jìn)一步挖掘和發(fā)現(xiàn)人眼視覺或生物學(xué)規(guī)律。
2.3.2 數(shù)據(jù)庫標(biāo)準(zhǔn) 美國《屈光手術(shù)雜志》(JournalofRefractiveSurgery,JRS)及《白內(nèi)障和屈光手術(shù)雜志》(JournalofCataractandRefractiveSurgery,JCRS)倡導(dǎo)建立在報(bào)道屈光手術(shù)結(jié)果時(shí)的標(biāo)準(zhǔn),其中包括作者必須在文章中呈現(xiàn)的基本要素等,方便同行評(píng)審以及眼科學(xué)領(lǐng)域交流[5]。不同手術(shù)方式、眾多參數(shù)造成讀者在評(píng)估和對(duì)比不同術(shù)式及患者群體時(shí)出現(xiàn)困難,標(biāo)準(zhǔn)化數(shù)據(jù)庫應(yīng)用為提高數(shù)據(jù)管理和分析效率,實(shí)現(xiàn)屈光手術(shù)智能化、個(gè)性化發(fā)展奠定基礎(chǔ)。屈光數(shù)據(jù)庫應(yīng)包括4項(xiàng)標(biāo)準(zhǔn):(1)基礎(chǔ)標(biāo)準(zhǔn)。主要包括基本概念和術(shù)語,例如手術(shù)前后的視力不僅包括日常裸眼視力,統(tǒng)一為未矯正視力(Uncorrected Visual Acuity, UCVA),還應(yīng)包括最佳矯正視力(Best Corrected Visual Acuity, BCVA)等。(2)數(shù)據(jù)標(biāo)準(zhǔn)。即數(shù)據(jù)表述規(guī)范、記錄無誤、明確要保留小數(shù)位數(shù)、完整性等,如明確視力表示方法統(tǒng)一為對(duì)數(shù)形式還是分?jǐn)?shù)形式。(3)技術(shù)標(biāo)準(zhǔn)。對(duì)應(yīng)數(shù)據(jù)庫建立的軟硬件技術(shù)規(guī)范,包括軟件版本、數(shù)據(jù)采集、字段定義、約束定義、數(shù)據(jù)傳輸、儲(chǔ)存、交換、整合等。(4)管理標(biāo)準(zhǔn)。包括數(shù)據(jù)隱私、數(shù)據(jù)加密、數(shù)據(jù)安全、用戶權(quán)限使用等問題。
2.3.3 數(shù)據(jù)庫設(shè)計(jì) (1)邀請碼表。記錄新用戶注冊時(shí)必填的邀請碼信息。(2)用戶表。記錄用戶注冊信息及該用戶邀請人信息。(3)授權(quán)表。主要存儲(chǔ)用戶間授權(quán)信息。(4)基礎(chǔ)信息表。記錄患者基本信息。(5)術(shù)前信息表。記錄患者術(shù)前檢查的體征參數(shù)。(6)手術(shù)參數(shù)表。主要記錄術(shù)中由醫(yī)生和手術(shù)平臺(tái)產(chǎn)生的參數(shù)。(7)術(shù)后信息表。記錄患者術(shù)后各隨訪時(shí)間點(diǎn)的眼部檢查指標(biāo)。(8)其他信息表。記錄病例額外信息,主要存儲(chǔ)該條數(shù)據(jù)錄入時(shí)間等。上述設(shè)計(jì)可對(duì)用戶和數(shù)據(jù)本身加以限制,為數(shù)據(jù)標(biāo)準(zhǔn)化提供保障。
在該數(shù)據(jù)庫建立前期盡可能規(guī)范基本概念和專業(yè)術(shù)語。例如目前屈光手術(shù)最新技術(shù)為SMILE(Small Incision Lenticule Extraction),已在我國普遍開展[6]。但早期該手術(shù)名稱混亂不清,本研究團(tuán)隊(duì)將其統(tǒng)一命名為“飛秒激光小切口透鏡取出術(shù)”并在全國權(quán)威學(xué)術(shù)會(huì)議上匯報(bào),后又制定規(guī)范和共識(shí)[7];此外還將波前像差等眼科學(xué)常用基本概念逐步進(jìn)行統(tǒng)一。
借助屈光手術(shù)標(biāo)準(zhǔn)化數(shù)據(jù)平臺(tái),根據(jù)學(xué)科發(fā)展特點(diǎn)設(shè)計(jì)數(shù)據(jù)庫構(gòu)架,獲取并不斷更新人口學(xué)基本信息內(nèi)容,如姓名、性別、年齡等;人眼生物學(xué)信息,如屈光度、角膜形態(tài)等系列相關(guān)參數(shù);角膜生物力學(xué)信息,如角膜硬度、力反應(yīng)速度等;光學(xué)基本參數(shù),如像差分布;眼球解剖相關(guān)參數(shù)以及視覺質(zhì)量評(píng)估和視覺矯治參數(shù);佩戴眼鏡種類等結(jié)構(gòu)化或角膜形態(tài)圖像、病歷文本等非結(jié)構(gòu)化數(shù)據(jù)清洗脫敏收錄;根據(jù)各種研究及應(yīng)用需求擴(kuò)充完善數(shù)據(jù)總量和類型。具有高穩(wěn)定性、高擴(kuò)展性、高兼容性、易維護(hù)性等特點(diǎn)。
為實(shí)現(xiàn)臨床高效應(yīng)用,還需建立有效算法以支撐不同屬性參數(shù)間的綜合分析。本研究借助信息增益算法尋找影響手術(shù)效果的可能因素并根據(jù)權(quán)重篩選納入,利用強(qiáng)化決策樹算法和多層感知神經(jīng)網(wǎng)絡(luò)算法構(gòu)建手術(shù)參數(shù)預(yù)測模型,見圖2。滿足屈光手術(shù)臨床病歷數(shù)據(jù)儲(chǔ)存管理、相似病例查詢、數(shù)據(jù)分析等基本功能以及手術(shù)參數(shù)個(gè)性化設(shè)計(jì)、手術(shù)結(jié)果預(yù)測、患者術(shù)后管理等高級(jí)功能。在術(shù)前基于此平臺(tái)輸入患者所需信息,可自動(dòng)設(shè)計(jì)生成手術(shù)參數(shù)供醫(yī)生參考使用,同時(shí)滿足屈光手術(shù)領(lǐng)域臨床和科學(xué)研究需求。隨著人工智能在醫(yī)學(xué)領(lǐng)域的應(yīng)用和普及,電子病歷建立尤為重要,該數(shù)據(jù)庫平臺(tái)將為屈光手術(shù)標(biāo)準(zhǔn)化電子病歷構(gòu)建提供思路和基礎(chǔ)。該思路已嘗試應(yīng)用于多中心研究和數(shù)據(jù)庫構(gòu)建。在屈光手術(shù)方案設(shè)計(jì)方面,經(jīng)倫理委員會(huì)批準(zhǔn),該標(biāo)準(zhǔn)化數(shù)據(jù)庫形式與內(nèi)容應(yīng)用于其他中心,獲得較好效果和收益。
圖2 基于決策樹算法挖掘的影響手術(shù)設(shè)計(jì)參數(shù)的部分屬性
醫(yī)學(xué)數(shù)據(jù)只有應(yīng)用才能產(chǎn)生價(jià)值,共享可打破數(shù)據(jù)孤島、擴(kuò)大應(yīng)用范圍。通過標(biāo)準(zhǔn)化數(shù)據(jù)庫可獲取更多數(shù)據(jù),進(jìn)行集中化分析、個(gè)性化應(yīng)用,以提高屈光手術(shù)精準(zhǔn)度。如有更多屈光手術(shù)相關(guān)機(jī)構(gòu)加入,將對(duì)全國甚至全球范圍內(nèi)數(shù)據(jù)的更大規(guī)模分析提供可能性,結(jié)果將應(yīng)用于該領(lǐng)域政策制定和臨床工作指導(dǎo),進(jìn)一步推動(dòng)屈光手術(shù)行業(yè)高質(zhì)量發(fā)展。
流動(dòng)性是數(shù)據(jù)共享的基礎(chǔ),將帶來安全和倫理問題。醫(yī)療數(shù)據(jù)極具有敏感性,倫理問題是醫(yī)學(xué)健康發(fā)展不可回避的問題,在患者隱私、數(shù)據(jù)權(quán)屬、知情同意、個(gè)體公平等方面面臨挑戰(zhàn)。對(duì)數(shù)據(jù)庫所存儲(chǔ)數(shù)據(jù)應(yīng)進(jìn)行嚴(yán)格權(quán)限設(shè)置,用戶申請使用后所上傳數(shù)據(jù)可自定義不同權(quán)限:公開、部分公開、保密,且不同用戶間可相互授權(quán)共享數(shù)據(jù)。同時(shí)數(shù)據(jù)庫使用白名單策略,限定特定用戶訪問服務(wù)器。對(duì)數(shù)據(jù)關(guān)鍵字段脫敏并加密傳輸,既保護(hù)數(shù)據(jù)信息敏感性又保證其安全。建立防御網(wǎng)絡(luò)攻擊系統(tǒng),尤其針對(duì)分布式拒絕服務(wù)(Distributed Denial of Service, DDOS)攻擊等。
隨著醫(yī)療信息化和智能化發(fā)展日漸成熟,醫(yī)療數(shù)據(jù)產(chǎn)生和利用較為活躍。歐美等發(fā)達(dá)國家已建立一批高水平健康醫(yī)療科學(xué)數(shù)據(jù)平臺(tái),如基因序列登記數(shù)據(jù)庫[8]、世界衛(wèi)生組織(World Health Organization, WHO)死亡數(shù)據(jù)庫[9]、美國國家癌癥數(shù)據(jù)庫(The National Cancer Data Base,NCDB)[10]等,但眼科學(xué)數(shù)據(jù)庫建設(shè)尚處于起步階段。國內(nèi)曾報(bào)道[11]有關(guān)眼健康大數(shù)據(jù)平臺(tái)的構(gòu)建,主要涉及臨床眼病診療和應(yīng)用,而視光和屈光方向尚未涵蓋。隨著電子病歷普及與高分辨率影像學(xué)檢查結(jié)果增多,該領(lǐng)域數(shù)據(jù)量劇增,有報(bào)告顯示預(yù)計(jì)2020年將達(dá)到2 314 EB[12]。我國近視患病人口基數(shù)大,總?cè)藬?shù)超過6億,接受屈光手術(shù)患者數(shù)量較多,而視覺矯正病癥相對(duì)單一、數(shù)據(jù)相對(duì)統(tǒng)一,具備充分條件構(gòu)建標(biāo)準(zhǔn)的屈光手術(shù)臨床數(shù)據(jù)庫。屈光手術(shù)數(shù)據(jù)庫的構(gòu)建和應(yīng)用能夠改變臨床和科研工作耗時(shí)費(fèi)力狀態(tài),已初顯成果和效益。未來該數(shù)據(jù)庫將不僅局限于視覺矯正,還可拓展到整個(gè)眼科學(xué)領(lǐng)域乃至大眾視覺健康監(jiān)護(hù)和管理。由于已涵蓋較多眼部基本參數(shù)和個(gè)體指標(biāo),可輔助眼部疾病的診斷、臨床決策和支持,同時(shí)滿足科研需求,為解決數(shù)據(jù)分散、不完整、不標(biāo)準(zhǔn)等問題提供新思路。