孫衛(wèi)佳 劉瑩 李雪 王奕穎 李福秋 姚春麗 陳彥東
(1長春工業(yè)大學(xué)計算機科學(xué)與工程學(xué)院,吉林 長春 130012;2吉林大學(xué)第二醫(yī)院皮膚科)
皮膚惡性腫瘤發(fā)病率逐年上升,老年人多發(fā),其中基底細(xì)胞癌最常見。隨著醫(yī)療信息科學(xué)(MI)的深入發(fā)展,大數(shù)據(jù)、人工智能和知識工程等先進(jìn)信息技術(shù)開始在醫(yī)學(xué)領(lǐng)域的教學(xué)、科研和臨床逐漸應(yīng)用,有關(guān)醫(yī)療數(shù)字資源(DR)的建設(shè)也隨之發(fā)展起來。截至目前,還沒有針對基底細(xì)胞癌的數(shù)字資源公開發(fā)布。多年來,皮膚科學(xué)領(lǐng)域就基底細(xì)胞癌的發(fā)病機制、診斷、治療及預(yù)防已形成了完整的教學(xué)、科研和臨床知識體系,由于缺乏標(biāo)準(zhǔn)規(guī)范和形式化表示方法,該知識體系不能被機器解釋和利用,限制了知識的共享,這對大數(shù)據(jù)、人工智能和知識工程在基底細(xì)胞癌的教學(xué)、科研和臨床的應(yīng)用是一個巨大的障礙。如何突破束縛,建立基底細(xì)胞癌數(shù)據(jù)資源體系結(jié)構(gòu),形成大數(shù)據(jù)的優(yōu)勢,為研究基底細(xì)胞癌提供量化的依據(jù),為基底細(xì)胞癌教學(xué)及臨床研究的人員提供數(shù)據(jù)資源是必須面對的問題。為此,本文擬提出基底細(xì)胞癌數(shù)字資源建設(shè)的體系結(jié)構(gòu)和建設(shè)路線,建立一個關(guān)于基底細(xì)胞癌圖片、文獻(xiàn)、數(shù)據(jù)案例的大數(shù)據(jù)采集、存儲、處理和應(yīng)用體系,形成基底細(xì)胞癌權(quán)威數(shù)字資產(chǎn),支持臨床應(yīng)用模型、標(biāo)準(zhǔn)和規(guī)范的建立,為臨床提供診斷參考,為教學(xué)提供素材。
1.1基底細(xì)胞癌的相關(guān)資源包括兩部分,一是公開發(fā)表的論文、報告和數(shù)據(jù)集,統(tǒng)稱為文獻(xiàn);二是教學(xué)、科研和臨床實踐所產(chǎn)生的教材、講稿、病例、方案及術(shù)式等,統(tǒng)稱為資料。應(yīng)用中國知網(wǎng)為文獻(xiàn)來源,以“主題=基底細(xì)胞癌 或者 題名=基底細(xì)胞癌 或者 v_subject=中英文擴展 或者 title=中英文擴展”為檢索條件共檢索相關(guān)文獻(xiàn)16 320篇。1980~2006年,關(guān)于基底細(xì)胞癌相關(guān)研究成果數(shù)量快速增長(分別為100、85、105、110、110、110、140、172、133、154、195、165、197、170、200、250、285、313、322、344、336、347、350、425、485、554、571篇),2007~2018年每年相關(guān)研究成果的產(chǎn)出數(shù)量基本穩(wěn)定(分別為544、645、580、631、642、827、841、876、1 060、1 062、881、1 003篇),且保持高位發(fā)展態(tài)勢。
數(shù)據(jù)分析表明,在業(yè)內(nèi),對基底細(xì)胞癌教學(xué)、科研和臨床實踐感興趣的學(xué)者眾多,相關(guān)的文獻(xiàn)來源分布相當(dāng)廣泛。同時,這也反映業(yè)內(nèi)針對該主題的關(guān)注度、發(fā)展趨勢及資源形式多樣的潛在普遍性,這將增加針對該主題資源收集、整合和共享的復(fù)雜性。對具有代表性的9篇文獻(xiàn)進(jìn)行分析。文獻(xiàn)〔1~7〕從不同角度對基底細(xì)胞癌的發(fā)病機制、診斷方法、治療手段和預(yù)防機制進(jìn)行了綜述。從診斷方法來看,文獻(xiàn)〔1〕將診斷方法分為組織活檢和無創(chuàng)性檢查兩種;文獻(xiàn)〔2〕從臨床分析的角度,依據(jù)該病癥統(tǒng)計分布經(jīng)驗進(jìn)行了探討;文獻(xiàn)〔6〕從發(fā)病情況與臨床特征、電子皮膚鏡、共聚焦顯微鏡、組織病理學(xué)及診斷等方面進(jìn)行了分析;文獻(xiàn)〔7〕從聯(lián)合使用反射共聚焦顯微鏡-光學(xué)相干斷層掃描設(shè)備(RCM-OCT)指導(dǎo)治療選擇和確定手術(shù)范圍方面進(jìn)行了分析。從治療手段來看,文獻(xiàn)〔1〕總結(jié)三類方法,分別是手術(shù)治療、非手術(shù)治療、移植與皮瓣重建術(shù);文獻(xiàn)〔3〕從手術(shù)、一氨基酮戊酸光動力療法(ALA-PDT)治療、藥物和聯(lián)合治療角度進(jìn)行了探討;文獻(xiàn)〔4〕從藥物治療的角度詳細(xì)闡述了治療方法;文獻(xiàn)〔5〕將治療方法分為了手術(shù)治療及非手術(shù)治療兩種方法,但其具體內(nèi)容與文獻(xiàn)〔1,6〕存在明顯的差異;文獻(xiàn)〔6〕將治療方法分為了手術(shù)治療、非手術(shù)治療和聯(lián)合治療三種方法,具體內(nèi)容與文獻(xiàn)〔1,5〕也存在明顯差異。此外,上述文獻(xiàn)還具有一個共同的特點,既在描述發(fā)病機制以及診斷、治療和預(yù)防方法時,針對同一內(nèi)容采用的表述形式多樣化,如:語言描述、表格、量化指標(biāo)或相互混合等形式。
上述分析表明,有關(guān)基底細(xì)胞癌的相關(guān)資源時間跨度大,參與人員多,來源廣泛,形式多樣,角度差異大,數(shù)量穩(wěn)步增長,專業(yè)表述不一致等現(xiàn)象普遍。
首先,應(yīng)選擇一家教學(xué)醫(yī)院為數(shù)據(jù)采集對象,將采集到的數(shù)據(jù)作為初始數(shù)字資源。由于采集過程是在具有自主權(quán)利的一家醫(yī)院內(nèi)進(jìn)行,數(shù)據(jù)采集的非技術(shù)難題通過協(xié)作、協(xié)商和行政手段容易解決。而在數(shù)據(jù)采集的技術(shù)難題方面,則選擇一家專業(yè)的大數(shù)據(jù)公司作為合作對象,按以下步驟建設(shè)基底細(xì)胞癌數(shù)據(jù)資源管理平臺(以下簡稱平臺)。
(1)開發(fā)多種類,基于適配器模式的數(shù)據(jù)采集工具,如:①網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)抓取數(shù)據(jù)導(dǎo)入列數(shù)據(jù)庫;②電子文檔批量導(dǎo)入數(shù)據(jù)工具將教學(xué)、科研和臨床實踐積累的教案、實驗、報告、病例和術(shù)式等以電子形式存在的資料導(dǎo)入列數(shù)據(jù)庫;③針對醫(yī)院管理信息系統(tǒng)(HIS)、影像歸檔和通信系統(tǒng)(PACS)、 實驗室系統(tǒng)管理系統(tǒng)(LIS)及放射信息管理系統(tǒng)(RIS)等應(yīng)用的數(shù)據(jù)同步引擎,將相關(guān)數(shù)據(jù)導(dǎo)入列數(shù)據(jù)庫;④基于WEB2.0的數(shù)據(jù)采集工具,收集日常數(shù)據(jù)導(dǎo)入列數(shù)據(jù)庫;⑤Flume+Kafka集成將各種日志導(dǎo)入列數(shù)據(jù)庫等。
(2)建設(shè)保存原始數(shù)據(jù)的列數(shù)據(jù)庫集群,開發(fā)用于透明訪問列數(shù)據(jù)庫集群的數(shù)據(jù)訪問服務(wù),支持?jǐn)?shù)據(jù)采集和主題數(shù)據(jù)抽取等應(yīng)用采用統(tǒng)一、透明的數(shù)據(jù)訪問方法訪問列數(shù)據(jù)庫集群。
(3)針對保存原始數(shù)據(jù)的列數(shù)據(jù)庫開發(fā)數(shù)據(jù)治理工具,包括:去殘、格式轉(zhuǎn)換、同近義詞合并、去重等。
(4)開發(fā)動態(tài)主題定義工具,管理主題數(shù)據(jù)庫,按照動態(tài)定義的主題,通過ETL從列數(shù)據(jù)庫抽取主題數(shù)據(jù),形成主題數(shù)據(jù)庫。
(5)開發(fā)用于探索性研究的開放數(shù)據(jù)分析工具集,包括:統(tǒng)計描述、統(tǒng)計推理和機器學(xué)習(xí)等,該工具集動態(tài)增加、刪除和更新。
(6)開發(fā)用于管理分析模型的管理工具,用于管理數(shù)據(jù)分析模型的增加、刪除和更新。
(7)以探索性科研、分析報告、數(shù)據(jù)服務(wù)以及數(shù)據(jù)可視化為具體應(yīng)用,開發(fā)用戶使用環(huán)境,定制應(yīng)用數(shù)據(jù)。
(8)根據(jù)具體應(yīng)用(如:探索性科研、分析報告、數(shù)據(jù)服務(wù)或數(shù)據(jù)可視化等)的需求從主題數(shù)據(jù)庫定制數(shù)據(jù),提供基于數(shù)據(jù)盒子技術(shù)的數(shù)據(jù)分享及在用戶應(yīng)用環(huán)境中完成數(shù)據(jù)處理。
其次,將開發(fā)完成的基底細(xì)胞癌數(shù)據(jù)資源管理平臺云平臺部署,將該平臺體提供的服務(wù)和收集到的初始數(shù)字資源作為免費資源向業(yè)內(nèi)開放。同時,要求從業(yè)人員踴躍提供非免費資源,并按預(yù)設(shè)的激勵機制計算貢獻(xiàn)積分。接下來,平臺用戶可利用積分購買平臺上的非免費資源,非免費資源在共享時采用數(shù)據(jù)自治模式,杜絕數(shù)據(jù)價值的流失。按照此方法,逐漸將該平臺建成業(yè)內(nèi)權(quán)威數(shù)字資源平臺,為廣大從業(yè)人員的教學(xué)、科研和臨床實踐提供服務(wù)。
最后,依據(jù)該平臺,在整合全社會基底細(xì)胞癌數(shù)據(jù)資源的同時,向全社會提供數(shù)據(jù)共享、數(shù)據(jù)分析和數(shù)據(jù)應(yīng)用等服務(wù),使基底細(xì)胞癌數(shù)據(jù)資源建設(shè)步入良性循環(huán)。
平臺已收集基底細(xì)胞癌相關(guān)文獻(xiàn)近5 000篇,相關(guān)臨床影像近100幅,開發(fā)了調(diào)查問卷、網(wǎng)絡(luò)爬蟲、電子文檔批量導(dǎo)入和WEB2.0數(shù)據(jù)采集系統(tǒng)。同時正在進(jìn)行約束機制和激勵機制的開發(fā)及基于深度學(xué)習(xí)的基底細(xì)胞癌診斷方法及數(shù)據(jù)盒子相關(guān)技術(shù)的研究。
平臺基于多種數(shù)據(jù)采集方式,建立基底細(xì)胞癌數(shù)字資源主題數(shù)據(jù)庫,通過精確檢索、高級檢索、跨庫檢索、主題篩選、統(tǒng)計分析等手段提供靈活的資源檢索、數(shù)據(jù)關(guān)聯(lián)性分析、動態(tài)主題定義以及內(nèi)容推送等服務(wù),為基底細(xì)胞癌教學(xué)、科研和臨床提供專業(yè)、全面、精準(zhǔn)的數(shù)字資源服務(wù)。精確檢索可以通過設(shè)定關(guān)鍵詞對所有數(shù)據(jù)庫統(tǒng)一檢索,保證資源檢索服務(wù)更全面、更準(zhǔn)確、更及時、更便捷。檢索結(jié)果可按關(guān)注度進(jìn)行升序和降序的排序處理。同時,還可以提供檢索結(jié)果的關(guān)聯(lián)性展示。高級檢索提供組合條件的檢索方式,使檢索可根據(jù)需求定制條件,保證檢索更精準(zhǔn)、更快速、更有效。檢索結(jié)果可按關(guān)注度進(jìn)行升序和降序的排序處理。同時,還可以提供檢索結(jié)果的關(guān)聯(lián)性展示??鐜鞕z索可實現(xiàn)多個主題數(shù)據(jù)庫檢索,使檢索結(jié)果更完整,檢索速度更快。檢索結(jié)果可按關(guān)注度進(jìn)行升序和降序的排序處理。同時,還可以提供檢索結(jié)果的關(guān)聯(lián)性展示。
主題篩選提供對不同資源信息進(jìn)行不同的篩選和歸類,比如按照作者、作者機構(gòu)、年份等進(jìn)行數(shù)據(jù)歸類,篩選方式及規(guī)則在后臺可靈活設(shè)置,方便以后數(shù)據(jù)的調(diào)整。篩選項可以單獨點擊查看,也可多項選擇一起查看,方便了用戶的使用。
統(tǒng)計分析提供按照資源類別、年份等進(jìn)行統(tǒng)計分析,使用曲線圖、柱狀圖展示,直觀反映研究趨勢及熱點,為探索性科研提供數(shù)據(jù)可視化服務(wù)。網(wǎng)絡(luò)爬蟲提供多來源、多角度、異構(gòu)和動態(tài)增長的關(guān)于基底細(xì)胞癌的數(shù)據(jù)采集。
問卷調(diào)查提供通過制定詳細(xì)周密的問卷,被調(diào)查者據(jù)此進(jìn)行回答以收集資料??山柚斯ぞ邔准?xì)胞癌形成過程進(jìn)行準(zhǔn)確、具體的測定,并應(yīng)用統(tǒng)計方法進(jìn)行量的描述和分析,獲取所需要的調(diào)查資料。基于深度學(xué)習(xí)的基底細(xì)胞癌診斷方法正處于研究階段,通過對圖像進(jìn)行病灶處理形成訓(xùn)練集和測試集數(shù)據(jù),并將訓(xùn)練集和測試集數(shù)據(jù)打上標(biāo)簽,通過卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行模型訓(xùn)練,得出識別模型進(jìn)行驗證,當(dāng)模型準(zhǔn)確率達(dá)到90%以上時方可用于輔助診斷模型,目前正在調(diào)整模型算法,提高模型準(zhǔn)確率。見圖1。
圖1 基于深度學(xué)習(xí)的基底細(xì)胞癌診斷方法生成
建設(shè)平臺除上述系技術(shù)問題外,還存在一些非技術(shù)問題:由于數(shù)據(jù)價值的稀缺性和復(fù)制零成本的特性相互矛盾,致使資源共享成為制約基底細(xì)胞癌數(shù)字資源建設(shè)一個難題。研究人員不愿共享其數(shù)據(jù),尤其是在發(fā)布之前〔8〕。要解決上述問題,需要建立一個約束與激勵有機結(jié)合的機制,利用激勵機制鼓勵基底細(xì)胞癌教學(xué)、科研和臨床從業(yè)人員踴躍提供相關(guān)資料,同時,利用約束機制保護(hù)數(shù)據(jù)價值的稀缺性,避免數(shù)據(jù)零成本復(fù)制的現(xiàn)象出現(xiàn)。就激勵機制而言,可參考國內(nèi)的百度文庫和知網(wǎng)的模式,將從業(yè)人員對基底細(xì)胞癌數(shù)字資源的貢獻(xiàn)多樣化,并制定相應(yīng)的量化方法,將貢獻(xiàn)轉(zhuǎn)化為內(nèi)部價值,用于購買相關(guān)數(shù)字資源服務(wù);也可參考國外由歐洲資助委員會推動的一項共享倡議:搜索(SEEK),作為一個幫助系統(tǒng)模型本體(SysMO)協(xié)會成員的平臺,為來自一個基金的所有數(shù)據(jù)和模型提供了一個存儲庫,但也要確保公共資助產(chǎn)生的越來越多的科學(xué)數(shù)據(jù)可供公眾進(jìn)一步分析和重用〔9〕。要將此方案落實,需先行建設(shè)足以引起從業(yè)人員興趣的部分?jǐn)?shù)字資源,同時,提供上述激勵機制,保證基底細(xì)胞癌數(shù)字資源的數(shù)據(jù)來源,使其進(jìn)入良性發(fā)展的軌跡。
綜上,利用基底細(xì)胞數(shù)字資源建設(shè)的方法把分散在全國各地各個領(lǐng)域、不同地域的相關(guān)資源進(jìn)行整合,建立一個關(guān)于基底細(xì)胞癌圖片、文獻(xiàn)、數(shù)據(jù)案例的大數(shù)據(jù)采集、存儲、處理和應(yīng)用體系,實現(xiàn)廣泛的基底細(xì)胞癌數(shù)據(jù)采集,形成基底細(xì)胞癌權(quán)威數(shù)字資產(chǎn)。相關(guān)研究成果可為科研探索提供數(shù)據(jù)集,支持臨床應(yīng)用模型、標(biāo)準(zhǔn)和規(guī)范的建立,為臨床提供診斷參考,為教學(xué)提供素材。
隨著大數(shù)據(jù)、人工智能和知識工程在基底細(xì)胞癌診斷、治療和預(yù)防等方面應(yīng)用研究的深入,對其數(shù)字資源的需求和供給的矛盾會越來越尖銳,建立一個全面、準(zhǔn)確、及時和規(guī)范的基底細(xì)胞癌數(shù)字資源將逐漸成為業(yè)內(nèi)的共識,相關(guān)的數(shù)據(jù)采集、應(yīng)用模式、隱私保護(hù)和共享機制等問題將成為其研究熱點。