車賀賓,薛萬國(guó),徐洪麗,董 敬,汪安安,劉廣東
(1.解放軍總醫(yī)院醫(yī)學(xué)大數(shù)據(jù)研究中心,北京100853;2.解放軍總醫(yī)院第六醫(yī)學(xué)中心衛(wèi)勤部,北京100037)
人工智能(artificial intelligence,AI)在社會(huì)生活中發(fā)揮著重要的作用。我國(guó)高度重視AI 的發(fā)展,要求抓住機(jī)遇,積極推進(jìn)政策落實(shí),加快AI 技術(shù)發(fā)展和產(chǎn)品部署實(shí)施[1]。自國(guó)家《新一代人工智能發(fā)展規(guī)劃》重點(diǎn)提出要發(fā)展智能醫(yī)療以來,我國(guó)醫(yī)學(xué)AI 產(chǎn)業(yè)進(jìn)入了全新的高速發(fā)展軌道,且呈現(xiàn)三大特征:(1)數(shù)據(jù)模態(tài)多樣化:數(shù)據(jù)類型由單一影像擴(kuò)展到影像、文本、信號(hào)、視頻等模態(tài)及模態(tài)組合;(2)技術(shù)架構(gòu)多樣化:包含基于特征的模式識(shí)別、基于深度學(xué)習(xí)的數(shù)據(jù)挖掘、基于知識(shí)圖譜推理的臨床輔助決策等;(3)產(chǎn)品迭代常態(tài)化:隨著技術(shù)、數(shù)據(jù)和需求的變化,產(chǎn)品迭代和更新后再評(píng)價(jià)的內(nèi)容也變得愈加常態(tài)化[2]。當(dāng)前醫(yī)學(xué)AI 產(chǎn)品檢測(cè)服務(wù)還普遍存在局限性,比如以單一病種為維度的標(biāo)準(zhǔn)數(shù)據(jù)集建設(shè)無法覆蓋多目標(biāo)、多用途產(chǎn)品的檢測(cè)需求;業(yè)內(nèi)很多公司自行嘗試建立測(cè)試集來滿足中試加速和針對(duì)性調(diào)優(yōu)的需求,導(dǎo)致重復(fù)投入、方法不一、數(shù)據(jù)集質(zhì)量和產(chǎn)品指標(biāo)缺乏可比性,大大影響了我國(guó)新興醫(yī)學(xué)AI 產(chǎn)業(yè)的創(chuàng)新發(fā)展[3-4]。
為實(shí)現(xiàn)測(cè)試數(shù)據(jù)集快速建設(shè)、打破數(shù)據(jù)模態(tài)與病種單一導(dǎo)致難以適應(yīng)繁雜多變的產(chǎn)品檢測(cè)需求的困境,亟須建立統(tǒng)一管理不同主題的基礎(chǔ)測(cè)試數(shù)據(jù)集體系,以便針對(duì)不同的產(chǎn)品生成具體的測(cè)試數(shù)據(jù)。基于此,本文提出醫(yī)學(xué)人工智能產(chǎn)品測(cè)試數(shù)據(jù)集通用化描述方法,為有效檢測(cè)產(chǎn)品的準(zhǔn)確性、實(shí)用性等性能提供數(shù)據(jù)支撐。
本文通過調(diào)研7 家國(guó)內(nèi)AI 醫(yī)學(xué)影像典型公司、7家國(guó)內(nèi)AI 輔助診斷典型公司、7 家國(guó)內(nèi)外AI 藥物研發(fā)典型公司、5 家AI 健康管理典型公司、2 家AI 疾病預(yù)測(cè)典型公司,梳理各企業(yè)旗下標(biāo)志性產(chǎn)品,以及其需要的數(shù)據(jù)和產(chǎn)品功能,總結(jié)出當(dāng)前市場(chǎng)醫(yī)學(xué)AI 產(chǎn)品的檢測(cè)需求及熱門的醫(yī)學(xué)AI 產(chǎn)品研發(fā)方向。結(jié)合專家經(jīng)驗(yàn),抽象融合真實(shí)世界中醫(yī)院數(shù)據(jù)結(jié)構(gòu)和門診、體檢、急診、住院等診療流程,提煉出醫(yī)學(xué)AI 產(chǎn)品相關(guān)數(shù)據(jù)項(xiàng),并歸納組合為不同的醫(yī)學(xué)數(shù)據(jù)模塊。
為實(shí)現(xiàn)醫(yī)學(xué)AI 產(chǎn)品測(cè)試數(shù)據(jù)集統(tǒng)一管理,本文提出通過構(gòu)建底層通用醫(yī)學(xué)數(shù)據(jù)模塊、高層配置基礎(chǔ)測(cè)試數(shù)據(jù)集的2 層架構(gòu)解決醫(yī)學(xué)數(shù)據(jù)模塊通用化和測(cè)試數(shù)據(jù)集專用化的矛盾,制訂具有一定靈活性的測(cè)試數(shù)據(jù)集通用化描述方法,將多元化的測(cè)試需求統(tǒng)一到一個(gè)規(guī)則體系下,實(shí)現(xiàn)底層通用可組配、約束不同主題的產(chǎn)品測(cè)試數(shù)據(jù)集構(gòu)建,如圖1 所示。不同醫(yī)學(xué)AI 產(chǎn)品根據(jù)不同需求對(duì)不同主題的基礎(chǔ)測(cè)試數(shù)據(jù)集進(jìn)行文本分詞、圖像標(biāo)注、特征篩選等加工處理,從而生成具體的測(cè)試數(shù)據(jù),滿足不同的醫(yī)學(xué)AI產(chǎn)品檢測(cè)數(shù)據(jù)需求。
圖1 不同主題的基礎(chǔ)測(cè)試數(shù)據(jù)集通用化描述思路
測(cè)試數(shù)據(jù)集所包含的測(cè)試用例定義為樣本,1 個(gè)樣本為1 個(gè)測(cè)試用例。樣本數(shù)據(jù)中某一類型醫(yī)療觀察的數(shù)據(jù)定義為醫(yī)學(xué)數(shù)據(jù)模塊。在原有醫(yī)學(xué)多源數(shù)據(jù)結(jié)構(gòu)化的基礎(chǔ)上,調(diào)研多家醫(yī)學(xué)AI 企業(yè)旗下標(biāo)志性產(chǎn)品的功能和所需測(cè)試數(shù)據(jù)。在此基礎(chǔ)上,以醫(yī)療多源異構(gòu)性的全域思想為指導(dǎo),統(tǒng)籌多系統(tǒng)[電子病歷系統(tǒng)、實(shí)驗(yàn)室(檢驗(yàn)科)信息系統(tǒng)、醫(yī)學(xué)影像信息系統(tǒng)等]、多模態(tài)(文本、影像、視頻、信號(hào)等)數(shù)據(jù),對(duì)有研究?jī)r(jià)值的構(gòu)成醫(yī)學(xué)AI 產(chǎn)品測(cè)試數(shù)據(jù)集的13 類醫(yī)學(xué)數(shù)據(jù)模塊及其內(nèi)容結(jié)構(gòu)進(jìn)行了規(guī)范化約定,形成《醫(yī)學(xué)人工智能產(chǎn)品測(cè)試數(shù)據(jù)集醫(yī)學(xué)數(shù)據(jù)模塊描述規(guī)范》。
13 類醫(yī)學(xué)數(shù)據(jù)模塊包括樣本基本信息、生命體征、疾病診斷、手術(shù)記錄、用藥記錄、檢驗(yàn)結(jié)果、檢查報(bào)告、病歷記錄、醫(yī)學(xué)波形、醫(yī)學(xué)數(shù)字影像、醫(yī)學(xué)圖片、門診病歷知識(shí)圖譜問答集和標(biāo)注記錄,覆蓋了市面典型AI 醫(yī)學(xué)產(chǎn)品研發(fā)所需(除組學(xué)數(shù)據(jù)外)測(cè)試數(shù)據(jù)和標(biāo)注數(shù)據(jù)類型。每個(gè)數(shù)據(jù)模塊包含模塊名稱和數(shù)據(jù)元,數(shù)據(jù)元包含中文名稱、字段名、數(shù)據(jù)類型、長(zhǎng)度、必填項(xiàng)、說明和值域等屬性,值域取值范圍參考WS 364.9—2011《衛(wèi)生信息數(shù)據(jù)元值域代碼 第9部分:實(shí)驗(yàn)室檢查》、WS 445.10—2014《電子病歷基本數(shù)據(jù)集 第10 部分:住院病案首頁》、WS 538—2017《醫(yī)學(xué)數(shù)字影像通信基本數(shù)據(jù)集》等衛(wèi)生行業(yè)數(shù)據(jù)標(biāo)準(zhǔn)[5-7]。其中值域是數(shù)據(jù)元的允許值,包含可枚舉值域、不可枚舉值域2 種類型。醫(yī)學(xué)數(shù)字影像數(shù)據(jù)模塊的數(shù)據(jù)元構(gòu)成及屬性見表1。
表1 醫(yī)學(xué)數(shù)字影像數(shù)據(jù)模塊的數(shù)據(jù)元構(gòu)成及屬性
13 類醫(yī)學(xué)數(shù)據(jù)模塊按照數(shù)據(jù)結(jié)構(gòu)化的形式要求、語義理解的簡(jiǎn)易化要求制訂,并考慮以下幾點(diǎn):
(1)去隱私化。與醫(yī)院信息系統(tǒng)數(shù)據(jù)結(jié)構(gòu)相比,不納入可能泄露個(gè)人隱私且與醫(yī)學(xué)AI 產(chǎn)品檢測(cè)不相關(guān)的數(shù)據(jù)元。如樣本基本信息不涉及姓名、手機(jī)號(hào)、身份證號(hào)碼、地址、婚姻狀態(tài)、醫(yī)保類型等;對(duì)于醫(yī)學(xué)數(shù)字影像,同樣將DICOM 文件的患者姓名、機(jī)構(gòu)名稱進(jìn)行刪除,將患者ID 修改為新生成的虛擬ID。
(2)去過程化。AI 產(chǎn)品訓(xùn)練數(shù)據(jù)主要是結(jié)果數(shù)據(jù),一般不含有業(yè)務(wù)過程數(shù)據(jù),如醫(yī)生、技師、中間結(jié)果、臨時(shí)狀態(tài)等。如疾病診斷不區(qū)分門診初診和住院診斷;病歷記錄不區(qū)分門診、急診和住院,只包含樣本標(biāo)識(shí)、病歷記錄代碼、病歷文本內(nèi)容和病歷內(nèi)容記錄日期時(shí)間。
(3)數(shù)據(jù)元質(zhì)控。質(zhì)控依賴規(guī)范中的數(shù)據(jù)類型、長(zhǎng)度、是否必填項(xiàng)、值域范圍等屬性。除此之外,醫(yī)學(xué)數(shù)字影像頭文件包含的影像序列可補(bǔ)充校驗(yàn)。
(4)兼顧具體數(shù)據(jù)元和不確定數(shù)據(jù)元。具體數(shù)據(jù)元指市面已有醫(yī)學(xué)AI 產(chǎn)品的測(cè)試數(shù)據(jù)常用字段,值域明確;不確定數(shù)據(jù)元指未來醫(yī)學(xué)AI 產(chǎn)品可能需要的測(cè)試數(shù)據(jù)字段,值域未做限制。如醫(yī)學(xué)數(shù)字影像模塊包含檢查類型、檢查部位等值域受限的數(shù)據(jù)元,也包含檢查參數(shù)等未做值域限制的數(shù)據(jù)元,滿足在13類醫(yī)學(xué)數(shù)據(jù)模塊外的不確定數(shù)據(jù)元存儲(chǔ)要求。
(5)數(shù)據(jù)來源為醫(yī)療器械。在檢驗(yàn)結(jié)果、檢查報(bào)告、醫(yī)學(xué)波形、醫(yī)學(xué)數(shù)字影像、醫(yī)學(xué)圖片等模塊加入醫(yī)療器械唯一標(biāo)識(shí)編碼體系名稱、設(shè)備標(biāo)識(shí)、設(shè)備名稱等數(shù)據(jù)元。
通過調(diào)研醫(yī)學(xué)AI 產(chǎn)品檢測(cè)需求與臨床對(duì)于測(cè)試數(shù)據(jù)集構(gòu)建的專業(yè)意見,測(cè)試數(shù)據(jù)集具有短期的相對(duì)穩(wěn)定與長(zhǎng)期的動(dòng)態(tài)更新的特征。為了實(shí)現(xiàn)測(cè)試數(shù)據(jù)集開放共享,必須保證數(shù)據(jù)集構(gòu)建的通用性和可靈活配置。本文在規(guī)范化的數(shù)據(jù)模塊基礎(chǔ)上,通過數(shù)據(jù)模塊組合和約束限制實(shí)現(xiàn)特定主題測(cè)試數(shù)據(jù)集的構(gòu)建,規(guī)定了測(cè)試數(shù)據(jù)集的結(jié)構(gòu)構(gòu)成,包括數(shù)據(jù)內(nèi)容的結(jié)構(gòu)和樣本數(shù)據(jù)的條件,說明具體的測(cè)試數(shù)據(jù)集配置涉及哪幾類醫(yī)學(xué)數(shù)據(jù)模塊(支持模塊復(fù)用)、模塊中哪些數(shù)據(jù)元以及具體數(shù)據(jù)元質(zhì)控要求,形成《醫(yī)學(xué)人工智能產(chǎn)品測(cè)試數(shù)據(jù)集構(gòu)造描述規(guī)范》。
每個(gè)數(shù)據(jù)集通用化描述由一個(gè)XML 格式的數(shù)據(jù)集構(gòu)建結(jié)構(gòu)文件進(jìn)行描述定義,其根元素為<dataset>,包含數(shù)據(jù)集的基本信息、數(shù)據(jù)構(gòu)成與數(shù)據(jù)條件[8]。數(shù)據(jù)集基本信息包含數(shù)據(jù)集的標(biāo)識(shí)、名稱、版本、描述文本、用途等內(nèi)容[9],由<dataset>下的一組XML 元素表達(dá)。數(shù)據(jù)構(gòu)成與數(shù)據(jù)條件描述了數(shù)據(jù)集所包含的數(shù)據(jù)模塊以及對(duì)數(shù)據(jù)元的要求,由<dataset>下的<modules>元素表達(dá)。<modules>元素又由一系列的<module>元素構(gòu)成,每個(gè)<module>元素描述了一個(gè)單一數(shù)據(jù)模塊以及施加其上的數(shù)據(jù)條件要求。測(cè)試數(shù)據(jù)集通用化描述文件的整體結(jié)構(gòu)如圖2 所示。
圖2 測(cè)試數(shù)據(jù)集通用化描述文件整體結(jié)構(gòu)圖
測(cè)試數(shù)據(jù)集通用化描述文件整體結(jié)構(gòu)XML示例如下:
不同主題的測(cè)試數(shù)據(jù)集可由不同的醫(yī)學(xué)數(shù)據(jù)模塊組合構(gòu)成,醫(yī)學(xué)數(shù)據(jù)模塊按需配置(支持模塊復(fù)用),包括模塊中包含哪些數(shù)據(jù)元以及每個(gè)數(shù)據(jù)元質(zhì)控要求等。例如,肺部影像數(shù)據(jù)集由樣本基本信息、醫(yī)學(xué)數(shù)字影像數(shù)據(jù)模塊構(gòu)成,宮頸癌病理數(shù)據(jù)集由疾病診斷和醫(yī)學(xué)圖片數(shù)據(jù)模塊構(gòu)成。測(cè)試數(shù)據(jù)集數(shù)據(jù)模塊的定義決定了樣本數(shù)據(jù)的結(jié)構(gòu)。
對(duì)單一數(shù)據(jù)模塊的要求由<module>元素表達(dá)。<module>元素具有name 屬性,表示該數(shù)據(jù)模塊的名稱。該屬性所指定的數(shù)據(jù)模塊將構(gòu)成測(cè)試數(shù)據(jù)集的一部分,且<module>元素下的數(shù)據(jù)條件為對(duì)該模塊數(shù)據(jù)施加的條件。<module>元素的另一個(gè)屬性為occurs,其取值可以為“R”或“O”,分別代表該數(shù)據(jù)模塊在樣本數(shù)據(jù)中是“必須數(shù)據(jù)”或“可選數(shù)據(jù)”。
測(cè)試數(shù)據(jù)集數(shù)據(jù)構(gòu)成的XML 示例如下:
為保證數(shù)據(jù)集構(gòu)建模板描述方法具有一定的通用性、靈活性,對(duì)于構(gòu)成數(shù)據(jù)集的每個(gè)數(shù)據(jù)模塊可以根據(jù)需要進(jìn)一步限定數(shù)據(jù)的條件,用于數(shù)據(jù)集收集時(shí)的質(zhì)控。數(shù)據(jù)條件通過數(shù)據(jù)模塊內(nèi)數(shù)據(jù)元的取值進(jìn)行表達(dá),可限制的條件包括數(shù)據(jù)元不可為空、取值范圍約束等,可以同時(shí)對(duì)一個(gè)數(shù)據(jù)模塊的多個(gè)數(shù)據(jù)元施加條件限制,其最終條件為各數(shù)據(jù)元條件的“與”運(yùn)算結(jié)果。
數(shù)據(jù)元的條件要求由元素<dataElement>表示。<dataElement>元素的必需屬性name 表示對(duì)應(yīng)數(shù)據(jù)元的中文名稱。如果一個(gè)數(shù)據(jù)模塊的數(shù)據(jù)元沒有在<dataElement>中定義,則該數(shù)據(jù)元的值是否允許為空以及取值范圍取決于在數(shù)據(jù)模塊規(guī)范中的定義;如果上述規(guī)范定義的數(shù)據(jù)模塊的數(shù)據(jù)元在<dataElement>中出現(xiàn),則以<dataElement>定義的取值約束條件為準(zhǔn)。
對(duì)數(shù)據(jù)元的約束條件描述由<dataElement>下的一組元素構(gòu)成,條件描述項(xiàng)以及對(duì)應(yīng)的XML 元素包括數(shù)據(jù)元最小值限定、最大值限定和值域限定。如數(shù)據(jù)元的值域限定由元素<enumeration>表示,取值類型與《醫(yī)學(xué)人工智能產(chǎn)品測(cè)試數(shù)據(jù)集醫(yī)學(xué)數(shù)據(jù)模塊描述規(guī)范》中定義的要求一致,<enumeration>為可枚舉元素。如果數(shù)據(jù)元的值域有特殊的限定,則需要定義該元素,否則無需定義該元素。
測(cè)試數(shù)據(jù)集數(shù)據(jù)元值域限定的XML 示例如下:
基于上文中醫(yī)學(xué)AI 產(chǎn)品測(cè)試數(shù)據(jù)集醫(yī)學(xué)數(shù)據(jù)模塊描述和測(cè)試數(shù)據(jù)集構(gòu)建描述文件定義具體測(cè)試數(shù)據(jù)集,包含Excel 格式文件和相關(guān)醫(yī)學(xué)波形、數(shù)字影像、圖片和標(biāo)注文件等附件文件。測(cè)試數(shù)據(jù)集文件名為測(cè)試數(shù)據(jù)集名稱,每個(gè)醫(yī)學(xué)數(shù)據(jù)模塊表示為.xlsx文件的一個(gè)sheet 工作表,sheet 工作表表名對(duì)應(yīng)醫(yī)學(xué)數(shù)據(jù)模塊中文名稱。一個(gè)樣本數(shù)據(jù)在不同醫(yī)學(xué)數(shù)據(jù)模塊之間通過唯一樣本標(biāo)識(shí)關(guān)聯(lián),sheet 工作表中的列名對(duì)應(yīng)醫(yī)學(xué)數(shù)據(jù)模塊的中文字段名,每列存儲(chǔ)對(duì)應(yīng)數(shù)據(jù)元的值。如果涉及到包含附件的醫(yī)學(xué)數(shù)據(jù)模塊,如醫(yī)學(xué)波形、醫(yī)學(xué)數(shù)字影像、醫(yī)學(xué)圖片和標(biāo)注記錄等,則在其sheet 工作表的文件字段中記錄相關(guān)醫(yī)學(xué)波形、影像、圖片和標(biāo)注結(jié)果等文件資料的文件名,不包含文件后綴名。測(cè)試數(shù)據(jù)集通用化實(shí)體結(jié)構(gòu)組成如圖3 所示。
圖3 測(cè)試數(shù)據(jù)集通用化實(shí)體結(jié)構(gòu)示意圖
除測(cè)試數(shù)據(jù)集實(shí)體文件外,每個(gè)基礎(chǔ)測(cè)試數(shù)據(jù)集配備一個(gè)數(shù)據(jù)集說明文檔和XML 配置文件。其中,數(shù)據(jù)集說明文檔包含數(shù)據(jù)集整體描述、數(shù)據(jù)采集信息和數(shù)據(jù)集標(biāo)注說明,具體包括數(shù)據(jù)集樣本來源、統(tǒng)計(jì)結(jié)果、數(shù)據(jù)類型、存儲(chǔ)形態(tài)、應(yīng)用場(chǎng)景,采集過程中的技術(shù)標(biāo)準(zhǔn)、篩選條件、清洗規(guī)則、多樣性描述,以及數(shù)據(jù)集標(biāo)注內(nèi)容、標(biāo)注工具和標(biāo)注分歧解決方案等。XML 配置文件可用于測(cè)試數(shù)據(jù)集的提交說明,也可用于測(cè)試數(shù)據(jù)集收集時(shí)的質(zhì)量控制。
為了在平臺(tái)層面實(shí)現(xiàn)對(duì)不同主題的基礎(chǔ)測(cè)試數(shù)據(jù)集進(jìn)行統(tǒng)一管理,研制了醫(yī)學(xué)開放式數(shù)據(jù)入庫(kù)及管理平臺(tái),該平臺(tái)集成了醫(yī)學(xué)數(shù)據(jù)模塊和測(cè)試數(shù)據(jù)集構(gòu)建描述的規(guī)范,允許根據(jù)測(cè)試需求自定義不同主題的測(cè)試數(shù)據(jù)集需要組配的內(nèi)容,然后測(cè)試數(shù)據(jù)集嚴(yán)格按照組配的目標(biāo)規(guī)則上傳入庫(kù)[10]。測(cè)試數(shù)據(jù)集定義規(guī)則并上傳數(shù)據(jù)樣本的頁面如圖4 所示。
圖4 測(cè)試數(shù)據(jù)集定義規(guī)則并上傳數(shù)據(jù)樣本的頁面
醫(yī)學(xué)開放式數(shù)據(jù)入庫(kù)及管理平臺(tái)已入庫(kù)管理肝臟CT 影像數(shù)據(jù)集、肺結(jié)節(jié)CT 影像數(shù)據(jù)集、乳腺M(fèi)RI影像數(shù)據(jù)集、前列腺M(fèi)RI 影像數(shù)據(jù)集、冠狀動(dòng)脈CT血管造影(CT angiography,CTA)影像數(shù)據(jù)集等18 個(gè)基礎(chǔ)測(cè)試數(shù)據(jù)集?;A(chǔ)測(cè)試數(shù)據(jù)集不針對(duì)具體病種,而是以某個(gè)部位的某項(xiàng)檢查或病歷文本為研究對(duì)象,預(yù)期用途比較廣泛。數(shù)據(jù)采集階段從患者維度、場(chǎng)所與設(shè)備及數(shù)據(jù)采集技術(shù)標(biāo)準(zhǔn)、病種維度3 個(gè)方面盡可能地覆蓋到不同情況,降低數(shù)據(jù)集的覆蓋偏倚[11]。如肝臟CT 影像數(shù)據(jù)集包含不同性別、年齡段的樣本,考慮了體檢、篩查、門診、住院等不同場(chǎng)景以及肝臟常見良性病變、不同類型惡性病變等,適用于基于CT 影像進(jìn)行肝臟局域性與彌漫性病灶檢出與分類的醫(yī)學(xué)AI 產(chǎn)品的訓(xùn)練和驗(yàn)證。
肝臟CT 影像數(shù)據(jù)集、肺結(jié)節(jié)CT 影像數(shù)據(jù)集、乳腺M(fèi)RI 影像數(shù)據(jù)集、心臟超聲圖像數(shù)據(jù)集、眼底圖像數(shù)據(jù)集、前列腺M(fèi)RI 影像數(shù)據(jù)集、冠狀動(dòng)脈CTA影像數(shù)據(jù)集7 個(gè)數(shù)據(jù)集被AI 公司產(chǎn)品實(shí)際應(yīng)用,按照規(guī)定格式整理后成功入庫(kù)。另外11 個(gè)數(shù)據(jù)集根據(jù)市場(chǎng)應(yīng)用場(chǎng)景建立,尚未被AI 公司產(chǎn)品實(shí)際應(yīng)用。
本文結(jié)合臨床專家的知識(shí)貢獻(xiàn),按照數(shù)據(jù)結(jié)構(gòu)化、語義理解簡(jiǎn)易化等符合數(shù)據(jù)抽取及臨床認(rèn)知的要求,在醫(yī)學(xué)數(shù)據(jù)模塊基礎(chǔ)上制訂測(cè)試數(shù)據(jù)集構(gòu)建基本情況描述和不同測(cè)試需求限定的規(guī)范表述方法,將多元化的測(cè)試需求統(tǒng)一到一個(gè)規(guī)則體系下,從而實(shí)現(xiàn)底層通用、高層配置的測(cè)試數(shù)據(jù)集構(gòu)建過程,縮短測(cè)試數(shù)據(jù)集的構(gòu)建時(shí)間、提高測(cè)試效率,更好地滿足真實(shí)世界中多應(yīng)用場(chǎng)景和功能不斷擴(kuò)展的醫(yī)學(xué)AI 產(chǎn)品檢測(cè)需求。