孫衛(wèi)星
湖州市中心醫(yī)院設(shè)備科,湖州市,313000
隨著計算機(jī)技術(shù)在醫(yī)學(xué)領(lǐng)域廣泛應(yīng)用,醫(yī)學(xué)裝備管理信息化日益引起人們的關(guān)注,面對海量的信息,怎樣及時、有效、準(zhǔn)確、可靠收集到有用信息,利用信息抽取技術(shù)將半結(jié)構(gòu)化、非結(jié)構(gòu)化的文本、電子和網(wǎng)頁信息轉(zhuǎn)化和提取為結(jié)構(gòu)化的行業(yè)基礎(chǔ)數(shù)據(jù),形成共享平臺并加以有效利用,已成為醫(yī)學(xué)裝備信息化建設(shè)的關(guān)鍵。自2006年起,在完成衛(wèi)生部委托的“全國大型醫(yī)用設(shè)備管理信息系統(tǒng)”和浙江省衛(wèi)生廳委托的“浙江省醫(yī)學(xué)裝備管理平臺(www.zjyxzb.org.cn)”等信息化項(xiàng)目的同時,我們對醫(yī)學(xué)裝備基礎(chǔ)信息進(jìn)行收集和數(shù)據(jù)挖掘。不僅建立了滿足醫(yī)學(xué)裝備信息化管理項(xiàng)目所需要的基礎(chǔ)信息數(shù)據(jù)庫,更有價值的是探索了其獲取的方法和策略。
醫(yī)學(xué)裝備基礎(chǔ)信息,其涉及內(nèi)容廣泛、數(shù)據(jù)龐雜、邊緣模糊、標(biāo)準(zhǔn)化程度低。在收集時,確定信息對象是非常重要的基礎(chǔ)工作。為保證信息收集的質(zhì)量和利用價值,必須做到所收集信息的準(zhǔn)確性,全面性和時效性。包括收集時間、地域、國別和語言等。該項(xiàng)目確定的基礎(chǔ)信息有:
(1) 醫(yī)療器械命名、分類與代碼 國家衛(wèi)生部頒布《全國衛(wèi)生行業(yè)醫(yī)療器械、儀器設(shè)備(商品、物資)分類與代碼》 (WS/T118-1999);國家食品藥品監(jiān)督管理局頒布《醫(yī)療器械分類目錄》(國藥監(jiān)械[2002]302號);《醫(yī)療器械分類目錄》2005版(征求意見稿,食藥監(jiān)械函[2004]96號);國際標(biāo)準(zhǔn)化組織公布《ISO/FDIS5225命名-用于管理資料交流的醫(yī)療器械命名系統(tǒng)規(guī)范》;
(2) 生產(chǎn)企業(yè)信息 包括境內(nèi)、外的生產(chǎn)企業(yè)信息,獲得國家食品藥品監(jiān)督管理局醫(yī)療器械生產(chǎn)許可證企業(yè)的官方網(wǎng)站等;
(3) 經(jīng)營企業(yè)信息 取得屬地食品藥品監(jiān)督管理局醫(yī)療器械經(jīng)營許可證的經(jīng)營公司的信息;
(4) 醫(yī)療器械產(chǎn)品信息 獲準(zhǔn)在我國上市的醫(yī)療器械產(chǎn)品信息,包括產(chǎn)品注冊證、產(chǎn)品標(biāo)準(zhǔn)(國際標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)和企業(yè)標(biāo)準(zhǔn))、醫(yī)療設(shè)備技術(shù)參數(shù)(Datasheet)等;
(5) 市場銷售信息 包括醫(yī)療器械產(chǎn)品的價格(對應(yīng)醫(yī)療器械具體型號及配置)、市場分布、代理公司及銷售人員;
(6) 醫(yī)療設(shè)備應(yīng)用信息 醫(yī)療設(shè)備操作規(guī)程,預(yù)防性維護(hù)模板,各種應(yīng)用分類:高風(fēng)險醫(yī)療器械、醫(yī)用計量器具和管理ABC等;
(7) 維修和售后服務(wù)信息 境內(nèi)、外醫(yī)療器械產(chǎn)品的售后服務(wù)機(jī)構(gòu)信息(含原廠、授權(quán)機(jī)構(gòu)和第三方)及維修工程師信息。配件信息:包括生產(chǎn)商、供應(yīng)商、配件的代碼等。維修資料:包括維修手冊、故障代碼和故障排除案例;
(8) 報廢和淘汰設(shè)備信息 已報廢和淘汰醫(yī)療設(shè)備信息,特別是大型醫(yī)用設(shè)備,包括設(shè)備類別、規(guī)格型號、制造商、使用單位等;
(9) 常用表格模板 提供大型醫(yī)用設(shè)備配置和使用管理所需常用表格,包括采購選型、裝機(jī)驗(yàn)收、效益分析、故障排除和安全質(zhì)控等工作流程的模板;
(10) 人員和機(jī)構(gòu)信息 省內(nèi)醫(yī)學(xué)工程、設(shè)備使用部門(影像醫(yī)學(xué)技術(shù)等)人員信息。機(jī)構(gòu)信息:包括招標(biāo)、資產(chǎn)評估和計量檢測機(jī)構(gòu)等;
(11) 相關(guān)政策法規(guī) 省級及以上行政主管部門頒布的,與醫(yī)學(xué)裝備管理有關(guān)的政策法規(guī)(包括等級醫(yī)院標(biāo)準(zhǔn));
(12) 其它 包括與醫(yī)學(xué)裝備有關(guān)的主要網(wǎng)站、行業(yè)協(xié)會、研究機(jī)構(gòu)、學(xué)術(shù)團(tuán)體和報刊雜志等。
醫(yī)學(xué)裝備信息收集,包括搜索、整合、保存和利用,是數(shù)據(jù)挖掘的基礎(chǔ)工作,直接關(guān)系信息應(yīng)用的質(zhì)量。信息從來源可以分為:實(shí)物型、文獻(xiàn)型、電子型和網(wǎng)絡(luò)型。根據(jù)不同信息類型,采取不同的收集策略。
搜索是網(wǎng)絡(luò)信息收集重要的一步,搜索引擎是當(dāng)今主要的網(wǎng)絡(luò)信息檢索工具。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,搜索引擎數(shù)量越來越多,功能越來越強(qiáng),包括通用和專業(yè)的。收集醫(yī)學(xué)裝備信息,需要選擇合適的搜索引擎。對于比較專業(yè)的信息,用通用搜索引擎,會存在搜索結(jié)果數(shù)量過大、相關(guān)性不強(qiáng)、利用率底的局限性,所以要找到和選用專業(yè)的搜索引擎,特別是與醫(yī)療器械有關(guān)的專業(yè)搜索引擎,即“垂直搜索引擎”的概念。由于醫(yī)學(xué)裝備是一個交叉的學(xué)科,我們所要的信息,可能是通過醫(yī)學(xué)或者藥品專業(yè),甚至是與商業(yè)有關(guān)的搜索引擎中得到。目前,我們能使用到的搜索引擎已有100余個,大部分是商業(yè)化的,相對管理方面的信息要少。
醫(yī)學(xué)裝備信息具有全球性,大部分高精尖設(shè)備產(chǎn)自發(fā)達(dá)國家,對于收集的信息,有語言翻譯處理要求。現(xiàn)在很多知名的搜索引擎都帶有在線網(wǎng)頁翻譯的功能,且提供的語種較多,如谷歌有50多種。這些工具雖然為解決語言問題提供了途徑,但性能不夠穩(wěn)定,對網(wǎng)站整體翻譯時有阻塞現(xiàn)象,更困難能是專業(yè)化程度不高,特別是專業(yè)和縮寫詞匯誤譯嚴(yán)重,因此需要人工處理。
另外,醫(yī)學(xué)裝備信息還可以通過一些國外與醫(yī)學(xué)裝備有關(guān)的網(wǎng)站取得:包括專業(yè)數(shù)據(jù)庫(產(chǎn)品、標(biāo)準(zhǔn)、專利和企業(yè)),以及各個國家政府的醫(yī)療器械監(jiān)管(FDA、SFDA),學(xué)術(shù)團(tuán)體、協(xié)會和研究機(jī)構(gòu)等非盈利機(jī)構(gòu)。因?yàn)樵谶@些系統(tǒng)中,也有類似的搜索引擎功能存在。當(dāng)然,這些網(wǎng)站的發(fā)現(xiàn)也與搜索引擎有關(guān)。目前,我們已收集到了與醫(yī)學(xué)裝備相關(guān)專業(yè)網(wǎng)站7000余個,涉及120余個國家,30多種語言。通過對這些網(wǎng)站的在線翻譯,為我們收集信息提供豐富的基礎(chǔ)素材。
我們所收集的信息,特別是依靠軟件自動獲取的,必須經(jīng)人工處理,包括甄別、剔除、補(bǔ)充和組合等。這項(xiàng)工作也貫徹于數(shù)據(jù)挖掘的整個過程,也是信息的價值所在。通過用人工智能的方法,獲取有價值的信息,一直是人們追求的目標(biāo)。但就目前而言,醫(yī)學(xué)裝備基礎(chǔ)數(shù)據(jù)的挖掘必須用計算機(jī)和人工相結(jié)合的方法,采取更合理的解決方案,更多利用現(xiàn)有的技術(shù)。
搜索引擎的工作過程為我們提供一個信息處理的思路。首先,搜索引擎派出一個稱之為“蜘蛛”的程序,在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并“抓取”,存入數(shù)據(jù)庫中。在這個過程中還會跟蹤網(wǎng)頁中的鏈接,訪問更多的網(wǎng)頁,我們稱為“爬行”。這些新的網(wǎng)址又會被存入數(shù)據(jù)庫,等待抓取。其后,蜘蛛抓取的頁面文件,經(jīng)分解、整理,并以表格形式存入數(shù)據(jù)庫,這個過程稱為“索引”,在索引數(shù)據(jù)庫中,網(wǎng)頁文字內(nèi)容及關(guān)鍵詞信息都有相應(yīng)記錄。然后,用戶在搜索引擎界面輸入關(guān)鍵詞,單擊“搜索”按鈕后,搜索引擎程序即對搜索詞進(jìn)行處理。最后,對搜索詞處理后,搜索引擎程序便開始工作,從索引數(shù)據(jù)庫中找出所有包含搜索詞的網(wǎng)頁,并根據(jù)排名算法進(jìn)行排序。我們從搜索引擎的工作過程可以看出,搜索引擎技術(shù)策略是建立在手工收集信息方法的基礎(chǔ)上,所以再好的搜索引擎也無法與人的智慧相比,為了要取得最相關(guān)、最權(quán)威、最有用的信息,就要不斷根據(jù)應(yīng)用的實(shí)際需求,對搜索引擎進(jìn)行優(yōu)化。同樣道理,搜索引擎及其優(yōu)化方法的反向應(yīng)用,成為取得醫(yī)學(xué)裝備管理基礎(chǔ)信息的策略之一。
在有合適的搜索引擎后,關(guān)鍵詞又是一個我們關(guān)注的問題,如稱謂不同但內(nèi)容相近:醫(yī)療器械、醫(yī)療設(shè)備、醫(yī)療儀器、醫(yī)學(xué)裝備;稱謂不同但內(nèi)容相同:CT、X射線計算機(jī)斷層掃描儀;西門子、德國西門子、西門子醫(yī)療等。對此,我們收集和建立了相關(guān)的關(guān)鍵字庫。另外,有些詞需要專業(yè)人員來分析之間的關(guān)系,如一些醫(yī)療設(shè)備的品牌與制造商,對于飛利浦品牌,其制造商除了荷蘭飛利浦醫(yī)療系統(tǒng)公司,還有在美國、芬蘭、英國、以色列及中國的醫(yī)療設(shè)備制造企業(yè)。這些詞建立關(guān)系后,我們在系統(tǒng)中稱之為“基礎(chǔ)字典”。數(shù)據(jù)挖掘結(jié)構(gòu)示意圖如圖1所示。
圖1 數(shù)據(jù)挖掘結(jié)構(gòu)示意Fig.1 Data mining structure schematic diagram
醫(yī)學(xué)裝備基礎(chǔ)信息,具體到實(shí)物型、文獻(xiàn)型、電子型,其來源:(1) 醫(yī)學(xué)工程相關(guān)文獻(xiàn)、出版物等。對于文本信息的處理,首先要將其電子化,目前主要使用光學(xué)字符識別技術(shù)(OCR軟件),對文本資料進(jìn)行掃描,用電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機(jī)文字。(2) 醫(yī)學(xué)工程相關(guān)的管理系統(tǒng),如醫(yī)療設(shè)備管理信息系統(tǒng)。使用導(dǎo)出方法,或經(jīng)整理生成一定格式的數(shù)據(jù)。(3)網(wǎng)絡(luò)資源。
收集信息時,會涉及到數(shù)據(jù)的存儲,保存在某個指定的關(guān)系數(shù)據(jù)庫中。如果醫(yī)療器械產(chǎn)品基本信息是電子文檔,則產(chǎn)品名稱(英文名稱)、規(guī)格型號、制造商、產(chǎn)地、性能與組成、適用范圍、注冊證號及有效期等,建立一個對應(yīng)的product表,然后,將對應(yīng)的信息保存到表中。我們稱其為結(jié)構(gòu)性數(shù)據(jù)。
所謂非結(jié)構(gòu)性數(shù)據(jù),是不能用一個表中的字段就能對應(yīng)的:包括辦公文檔、文本文獻(xiàn)、圖片、XML、HTML、各類報表、圖像和音/視頻信息等。一般是建立一個包含三個字段的表,通過編號引用,通過內(nèi)容描述檢索。這種對非結(jié)構(gòu)性數(shù)據(jù)的處理,突破了關(guān)系數(shù)據(jù)庫結(jié)構(gòu)定義不易改變和數(shù)據(jù)定長的限制,支持重復(fù)字段、子字段以及變長字段,并實(shí)現(xiàn)了對變長數(shù)據(jù)和重復(fù)字段進(jìn)行存儲和管理,在處理包括連續(xù)信息在內(nèi)的非結(jié)構(gòu)化信息時,有著傳統(tǒng)關(guān)系型數(shù)據(jù)庫所無法比擬的優(yōu)勢。
除了結(jié)構(gòu)和非結(jié)構(gòu)性數(shù)據(jù)外,還有其它數(shù)據(jù),如在用醫(yī)療器械不良事件管理中,其進(jìn)行持續(xù)改進(jìn)(PDCA)的情況大不相同。有的處理過程很簡單,有的很復(fù)雜,還有可能有一些預(yù)料外的信息。雖然其數(shù)據(jù)具有結(jié)構(gòu)化的特點(diǎn),但變化很大,無法簡單建立一個表與其對應(yīng)。而這些數(shù)據(jù),互相有關(guān)系,要查看細(xì)節(jié),無法按照非結(jié)構(gòu)性數(shù)據(jù)處理。解決方式如下:
(1) 化解為結(jié)構(gòu)化數(shù)據(jù),對現(xiàn)有的對象中的信息進(jìn)行整理分析,總結(jié)出不良事件中信息所有的類別,同時提取關(guān)鍵的信息。對每一類別建立一個子表,比如上例中我們可以建立計劃子表P、實(shí)施子表D、檢查子表C和改進(jìn)子表A,并在主表中加入一個備注字段,將不關(guān)聯(lián)和未考慮到的信息保存在備注中。這樣處理,優(yōu)點(diǎn)是查詢統(tǒng)計比較方便,但不能適應(yīng)數(shù)據(jù)的擴(kuò)展及其檢索,特別是不能對信息管理系統(tǒng)設(shè)計階段沒有考慮到的,同時又是要關(guān)心的信息的利用。
(2) 借助XML來存儲數(shù)據(jù),在考慮一定的數(shù)據(jù)檢索效率情況下,同時為了能夠靈活進(jìn)行數(shù)據(jù)擴(kuò)展,采用更改XML中對應(yīng)的DTD或者XSD,將不同類別的信息保存在相應(yīng)的節(jié)點(diǎn)中。目前雖然要借助XPATH來完成查詢統(tǒng)計,但隨著數(shù)據(jù)庫對XML的支持提升,性能有望很好地解決。同時,將XML數(shù)據(jù)保存到數(shù)據(jù)庫的相應(yīng)字段,完成信息的存儲,達(dá)到非結(jié)構(gòu)性數(shù)據(jù)的利用。
目前,我們將挖掘到的醫(yī)學(xué)裝備基礎(chǔ)數(shù)據(jù),不斷應(yīng)用到與醫(yī)學(xué)裝備有關(guān)的信息管理系統(tǒng)中,包括,醫(yī)療機(jī)構(gòu)的設(shè)備科信息管理系統(tǒng)、醫(yī)療器械物資管理系統(tǒng),衛(wèi)生行政部門的醫(yī)療器械集中招標(biāo)采購管理系統(tǒng)、大型醫(yī)用設(shè)備管理系統(tǒng),食品藥品監(jiān)督局醫(yī)療器械監(jiān)督管理系統(tǒng)、醫(yī)療器械不良事件管理系統(tǒng)等。為醫(yī)療機(jī)構(gòu)和行政管理部門提供信息化管理和決策支持,也推動管理的規(guī)范化進(jìn)程和信息共享。但從目前應(yīng)用的廣度設(shè)深度來看,醫(yī)學(xué)裝備基礎(chǔ)數(shù)據(jù)的挖掘與應(yīng)用工作尚處于起步階段,需要進(jìn)一步完善和擴(kuò)展,使其更具實(shí)用價值,以滿足信息化管理的更高需求,服務(wù)于人民群眾健康。隨著計算機(jī)技術(shù)的發(fā)展和實(shí)踐探索深入,我們相信醫(yī)學(xué)裝備基礎(chǔ)數(shù)據(jù),在醫(yī)療器械的生產(chǎn),流通、使用及監(jiān)管等方面將會發(fā)揮出積極作用。
[1] 謝松城,徐偉偉,孫衛(wèi)星.醫(yī)療設(shè)備管理與技術(shù)規(guī)范[M].杭州:浙江大學(xué)出版社,2004.
[2] 沈光寶,張映芳.醫(yī)藥信息檢索與利用 [M].北京:中國醫(yī)藥科技出版社,2007.
[3] 倪穎杰,王律科,張軍.基于高性能數(shù)據(jù)挖掘的網(wǎng)絡(luò)海量信息處理平臺[J].計算機(jī)工程與科學(xué),2009,(S1):129-132.
[4]呼萬秀,陸濤,焦強(qiáng).數(shù)據(jù)挖掘技術(shù)在制藥行業(yè)中的應(yīng)用[J].信息技術(shù),2012,10:63-66.
[5] 俞凱君.淺談醫(yī)療器械標(biāo)準(zhǔn)信息的檢索[J].科技情報開發(fā)與經(jīng)濟(jì),2010,20(21):109-110,119.