黃佳 劉翔宇
摘? 要:針對當前醫(yī)療器械分類仍然采用人工分類方式,費時費力的問題,提出一種基于機器學習的醫(yī)療器械分類與預測方法,通過引入機器學習和自然語言處理領(lǐng)域的經(jīng)典算法,以新版《醫(yī)療器械分類目錄》為標準,提取醫(yī)療器械產(chǎn)品注冊證的關(guān)鍵信息作為語料庫,實現(xiàn)對醫(yī)療器械的產(chǎn)品類別劃分,達到真正意義上的醫(yī)療器械自動分類,為各級醫(yī)療機構(gòu)的醫(yī)療器械分類管理信息化奠定基礎,提供借鑒和啟示。
關(guān)鍵詞:醫(yī)療器械;機器學習;自動分類;分類管理;信息化
中圖分類號:R197.39? ? ? 文獻標志碼:A? ? ? ? ? 文章編號:2095-2945(2024)05-0028-04
Abstract: The current manual classification method for medical devices is still time-consuming and labor-intensive. In order to address this issue, a medical device classification and prediction method based on machine learning is proposed. By introducing classic algorithms in the fields of machine learning and natural language processing, and using the new version of the "Medical Device Classification Catalog" as the standard, the key information from the medical device product registration certificate is extract as the corpus to classify medical devices into product categories, so the true automatic classification of medical devices is achieved, which lays the foundation and provides reference and inspiration for the informatization of medical device classification management in medical institutions at all levels.
Keywords: medical device; machine learning; automatic classification; classified management; informatization
醫(yī)療器械具有產(chǎn)品多樣化、學科跨度大、復雜程度高等特點,涉及機械、電子、臨床醫(yī)學、生命科學和材料等諸多學科門類,既具有很強的專業(yè)性,又具有跨專業(yè)、跨學科的綜合性,故對其進行科學高效的分類是有效實施監(jiān)管、合理配置資源的關(guān)鍵所在[1]。但隨著各類數(shù)字化、智能化的醫(yī)療器械涌入醫(yī)院,傳統(tǒng)采用人工分類的管理運行方式已經(jīng)變得捉襟見肘,如何利用信息技術(shù)手段對其進行分門別類的管理,為領(lǐng)導者、決策者掌握醫(yī)院醫(yī)療器械總體情況、編制發(fā)展規(guī)劃與配置方案,管理部門制定年度采購計劃提供快捷而準確的信息數(shù)據(jù)成為當務之急[2]。
自2018年8月1日開始實施的新版《醫(yī)療器械分類目錄》[3]以工程技術(shù)與應用領(lǐng)域為主線,側(cè)重于從醫(yī)療器械的產(chǎn)品功能和臨床使用的角度劃分產(chǎn)品品類歸屬,形成了包括《01有源手術(shù)器械》《02無源手術(shù)器械》《03神經(jīng)和血管手術(shù)器械》《05放射治療器械》《06醫(yī)用成像器械》在內(nèi)的22個產(chǎn)品管理類別,框架設置更合理、層級結(jié)構(gòu)更清晰,在實際管理工作中更加具有指導性和可操作性,也為自動分類提供了科學指導和實踐依據(jù)[4]。
醫(yī)療器械注冊證是指醫(yī)療器械產(chǎn)品的合法身份證[5],包括產(chǎn)品名稱、注冊證編號等重要信息。醫(yī)療器械注冊證編號由6個部分組成,基本編排方式為:×1械注×2××××3×4××5××××6,其中×1為注冊審批部門所在地的簡稱;×2為注冊形式;××××3為首次注冊年份;×4為產(chǎn)品管理類別;××5為產(chǎn)品分類編碼;××××6為首次注冊流水號[6]。由此可見,通過注冊證信息可以建立起產(chǎn)品名稱與產(chǎn)品管理類別的對應關(guān)系,并由此為自動分類提供必備材料。
近年來,研究人員利用大量數(shù)據(jù)“訓練”機器,讓機器自己去學習,然后對世界上的某件事情做出決定或預測,這一類方法被稱為機器學習[7]。在機器學習中,文本分類是最常見的問題,也是應用最為廣泛的領(lǐng)域之一,在新聞分類、輿情監(jiān)測、智能分診、商業(yè)決策和垃圾郵件過濾等眾多領(lǐng)域都有著重要應用[8]。因此,拋棄以往手工分類的管理方式,引入機器學習和自然語言處理領(lǐng)域的經(jīng)典算法,以新版《醫(yī)療器械分類目錄》為標準,依據(jù)醫(yī)療器械注冊證的關(guān)鍵信息對醫(yī)療器械進行產(chǎn)品類別劃分,從而實現(xiàn)醫(yī)療器械自動分類與預測,是本文研究的主要課題。
1? 材料與研究方法
1.1? 數(shù)據(jù)收集
本文以境內(nèi)醫(yī)療器械為主要研究對象,為了獲得足夠大的研究樣本量,從國家藥品監(jiān)督管理局網(wǎng)站公開的醫(yī)療器械數(shù)據(jù)查詢欄目中,下載境內(nèi)二類以上醫(yī)療器械注冊條目信息90 249條作為原始數(shù)據(jù)集,各個數(shù)據(jù)條目包括了產(chǎn)品名稱、產(chǎn)品分類編碼、產(chǎn)品管理類別等有助于自動分類的關(guān)鍵信息,文本數(shù)據(jù)示例見表1。
新版《醫(yī)療器械分類目錄》以“總局關(guān)于發(fā)布醫(yī)療器械分類目錄的公告(2017年第104號)”中的附件為準,從國家藥品監(jiān)督管理局網(wǎng)站下載可得,新版《醫(yī)療器械分類目錄》提供了22個完整的產(chǎn)品分類編碼,以及與之對應的6 609個典型產(chǎn)品名稱舉例。
1.2? 數(shù)據(jù)處理及算法研究
本文的原始數(shù)據(jù)集采用新版《醫(yī)療器械分類目錄》與國家藥品監(jiān)督管理局網(wǎng)站公開的醫(yī)療器械注冊條目信息共計9萬余條。如圖1所示,原始數(shù)據(jù)集在經(jīng)過數(shù)據(jù)預處理、分詞和去停用詞、文本向量化、文本特征提取后,將按照4∶1的比例劃分為訓練數(shù)據(jù)集與測試數(shù)據(jù)集,并提供給Scikit-learn(簡稱sklearn)機器學習庫中的svm模塊、naive_bayes模塊,以及neighbors模塊構(gòu)建的支持向量機(SVM)、樸素貝葉斯、K近鄰(KNN)3種分類器進行模型訓練及類別預測,同時返回評估算法與分類模型的關(guān)鍵性能指標進行模型效果對比驗證。
2? 實驗結(jié)果與分析
2.1? 數(shù)據(jù)預處理
在使用數(shù)據(jù)之前,有必要對原始數(shù)據(jù)進行預處理。本文使用Python語言進行編程實現(xiàn)境內(nèi)醫(yī)療器械注冊條目數(shù)據(jù)的預處理工作,包括拆分原始數(shù)據(jù),提取有用信息,處理缺失值、異常值并制作訓練數(shù)據(jù)集與測試數(shù)據(jù)集。如注冊條目數(shù)據(jù)“數(shù)字乳腺X射線攝影系統(tǒng) (上海聯(lián)影醫(yī)療科技股份有限公司 滬械注準20192060485)”,將該條目進行拆分,可獲得產(chǎn)品名稱為“數(shù)字乳腺X射線攝影系統(tǒng)”,首次注冊年份為“2019”,產(chǎn)品管理類別為“2”類,產(chǎn)品分類編碼為“06”,對應新版《醫(yī)療器械分類目錄》中22個產(chǎn)品分類編碼下的“06 醫(yī)用成像器械”,與品名舉例中的“乳腺X射線機、數(shù)字化乳腺X射線機”高度相似。
2.2? 分詞和過濾
中文不同于英文,英文是以詞為單位的,詞與詞之間以空格分隔,而中文則是以字為單位,須要使用專門的分詞工具將中文字符序列通過分詞劃分為逐個的詞語,以作為文本向量化和計算機算術(shù)運算的基礎[9]。jieba庫是一款優(yōu)秀的Python第三方中文分詞庫,通過jieba庫可完成中文分詞這一過程。與此同時,將產(chǎn)品名稱中一些非語義特征的字母和數(shù)字符號過濾可提高中文匹配的準確度,而且可以節(jié)省計算機的內(nèi)存空間和計算時間?!皵?shù)字乳腺X射線攝影系統(tǒng)”和“醫(yī)用血管造影X射線系統(tǒng)”在經(jīng)過jieba精確分詞模式處理后,可分為[‘數(shù)字,‘乳腺,‘X射線,‘攝影,‘系統(tǒng)]、[‘醫(yī)用,‘血管,‘造影,‘X射線,‘系統(tǒng)]。
2.3? 文本向量化
經(jīng)過數(shù)據(jù)清洗、中文分詞、去除停用詞之后得到的文本數(shù)據(jù)是中文詞語的集合,對于這種詞語數(shù)據(jù)集,計算機不能直接識別和處理,因此需要使用向量空間模型將詞匯映射到向量空間中進行數(shù)值化表示,同時數(shù)值型數(shù)據(jù)也可以提升計算機分析處理的運算速度。如果整個醫(yī)療器械詞語字典由{‘X射線,‘乳腺,‘醫(yī)用,‘攝影,‘數(shù)字,‘系統(tǒng),‘血管,‘造影}組成,若想要向量化文本“數(shù)字乳腺X射線攝影系統(tǒng)”,其在分詞后可以轉(zhuǎn)換為以下向量:(1,1,0,1,1,1,0,0)。
2.4? 文本特征提取
在向量空間模型中,為了區(qū)別文本的特征,需要對文本中的核心字詞進行特征提取,并將其作為文本分類的主要依據(jù)。因此,本文引入了TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文件頻率)算法進行文本特征提取。TF-IDF是一種用于信息檢索與數(shù)據(jù)挖掘的加權(quán)技術(shù),其本質(zhì)是一種統(tǒng)計方法,可以用來衡量字詞對于文本的重要程度。該方法的基本原理是:根據(jù)某個詞語在某篇文章中出現(xiàn)的頻率以及該詞在語料庫中出現(xiàn)的頻率來綜合評估該詞對分類的影響,詞的重要性僅與上述的2個頻率值有關(guān)。通過引入TF、IDF 2個指標,能使特征詞權(quán)重計算結(jié)果更加精確,文本分類準確性更高。經(jīng)過TF-IDF特征提取后,文本“數(shù)字乳腺X射線攝影系統(tǒng)”的向量化表示(1,1,0,1,1,1,0,0),可以進一步轉(zhuǎn)化為(0.355 200 09,0.499 221 33,0,0.499 221 33,0.499 221 33, 0.355 200 09,0,0)。
2.5? 分類器構(gòu)建及模型驗證
由上文所述,選擇使用向量空間模型和TF-IDF算法的目的,就是為了使醫(yī)療器械文本特征向量可以使用分類算法進行類別劃分,因此選擇何種分類算法將會直接決定分類與預測結(jié)果的優(yōu)劣。
在中文短文本分類領(lǐng)域,常用的分類方法有K近鄰算法(KNN)、樸素貝葉斯算法、支持向量機算法(SVM)和決策樹算法等[10]。其中,KNN算法是一種應用于數(shù)據(jù)分類和預測的分類算法,它的基本原理是對于一個指定的預測樣本,KNN分類模型會從訓練數(shù)據(jù)集中找到與其距離最近的k個樣本,如果k個最近鄰樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。KNN算法既可以處理二分類任務,又可以處理多分類任務[11]。樸素貝葉斯是建立在概率統(tǒng)計基礎上的一種分類模型,該模型主要基于貝葉斯定理和特征條件獨立性假設來實現(xiàn)分類。算法的第一步是得到文本中每個詞屬于某一類別的概率,然后根據(jù)條件獨立性假設,可計算出文本屬于某一類別的概率,或者某一類概率最高。樸素貝葉斯算法具備非??斓挠柧毢皖A測速度,適用于實時分類任務[12]。SVM算法是一種基于統(tǒng)計學習理論的分類算法,它可以根據(jù)有限的樣本數(shù)據(jù),結(jié)合結(jié)構(gòu)風險最小原理,將原低維空間中的非線性問題變換為高維空間中的線性問題來進行計算,并最終得出分類結(jié)果。SVM算法在小樣本、非線性及高維分類問題中具有獨特優(yōu)勢[13]。
本文主要選取了機器學習的3種經(jīng)典算法(KNN算法、樸素貝葉斯算法、SVM算法)進行文本分類測試,并通過實驗比較這3種算法的分類效果。本實驗采用基于Python語言的sklearn機器學習算法庫,使用sklearn庫中naive_bayes模塊、neighbors模塊以及svm模塊構(gòu)建的3種分類器進行模型訓練及類別預測,同時返回評估算法與分類模型的關(guān)鍵性能指標——準確率(Accuracy)、精確率(Precision)、召回率(Recall)和綜合評價指標(F1-Measure)。其中,準確率是對模型預測的正確數(shù)量所占總預測數(shù)量的比例進行評估的一項指標;精確率表示分類后的某個類別中正確分類的樣本占該類樣本的比例;召回率表示分類模型正確分類的樣本數(shù)占該類別總樣本數(shù)的比例;綜合評價指標是精確率和召回率的加權(quán)調(diào)和平均,常用于評價不同分類模型的優(yōu)劣。樸素貝葉斯、SVM和KNN 3種算法的對比實驗結(jié)果見表2,其中最優(yōu)指標加粗表示。
從整體的實驗結(jié)果來看,SVM算法的整體分類準確率達到86.2%,綜合評價指標也達到最高的84.1%,其中精確率高達90.2%,在本數(shù)據(jù)集上表現(xiàn)出較好的分類效果。樸素貝葉斯算法的分類表現(xiàn)整體優(yōu)于KNN算法,召回率達到最高的82.6%,但是分類效果與SVM算法仍然存在差距。
3? 結(jié)束語
醫(yī)療器械具有多學科交叉、知識密集型等特點,產(chǎn)品繁多,組成迥異,風險跨度大,從最簡單的檢查手套、紗布、繃帶,到高技術(shù)含量的直線加速器、磁共振、CT等,都屬于醫(yī)療器械的范疇??茖W合理地對其進行分類編碼是醫(yī)療器械精細化管理的基石,發(fā)揮著舉足輕重的作用。針對產(chǎn)生的大量醫(yī)療器械名目數(shù)據(jù),人工分類存在效率低、成本高、專業(yè)難度大等問題,所以需要機器替代人工來進行分類。
本文為解決傳統(tǒng)的醫(yī)療器械人工分類費時又費力的問題,以新版《醫(yī)療器械分類目錄》為標準,提取醫(yī)療器械注冊證的關(guān)鍵信息作為語料庫,分別采用樸素貝葉斯算法、SVM算法、KNN算法進行了醫(yī)療器械自動分類實驗。從實驗結(jié)果的對比分析來看,SVM算法的總體表現(xiàn)更為優(yōu)秀,在精確率方面有著最高的數(shù)值,能夠有效地處理產(chǎn)品名稱描述的文本分類問題,可達到較好的醫(yī)療器械分類效果。KNN算法在整體分類上的表現(xiàn)欠佳。樸素貝葉斯算法的表現(xiàn)相對好于KNN算法,但是仍與SVM算法有一定的差距。
參考文獻:
[1] 華長江,許鳴,張亮.醫(yī)療設備的分類管理研究[J].醫(yī)療衛(wèi)生裝備,2014,35(10):133-135.
[2] 李文兵,王學軍.醫(yī)療器械分類編碼在醫(yī)院固定資產(chǎn)管理中的應用[J].醫(yī)療衛(wèi)生裝備,2015,36(7):130-133.
[3] 母瑞紅,余新華.新版《醫(yī)療器械分類目錄》使用時應注意的問題和建議[J].中國醫(yī)療器械信息,2019,25(19):23-24,129.
[4] 侯羿,李子木,房琦,等.新版《醫(yī)療器械分類目錄》在醫(yī)療器械招標采購工作中的應用[J].醫(yī)療衛(wèi)生裝備,2021,42(4):85-88.
[5] 李非.我國醫(yī)療器械注冊管理體系研究[D].沈陽:沈陽藥科大學,2019.
[6] 王蘭明.中國醫(yī)療器械注冊管理工作的現(xiàn)狀與思考[J].中國醫(yī)療器械信息,2012,18(11):28-34,39.
[7] MARC G, GENTON. Classes of kernels for machine learning: a statistics perspective[J].Journal of Machine Learning Research, 2002,2(2):299-312.
[8] WANG B K, HUANG Y F, YANG W X, et al. Short text classification based on strong feature thesaurus[J].Journal of Zhejiang University-Science C(Computers & Electronics),2012,13(9):649-659.
[9] 何莘,王琬蕪.自然語言檢索中的中文分詞技術(shù)研究進展及應用[J].情報科學,2008(5):787-791.
[10] 劉碩,王庚潤,李英樂,等.中文短文本分類技術(shù)研究綜述[J].信息工程大學學報,2021,22(3):304-312.
[11] 耿麗娟,李星毅.用于大數(shù)據(jù)分類的KNN算法研究[J].計算機應用研究,2014,31(5):1342-1344,1373.
[12] 賀鳴,孫建軍,成穎.基于樸素貝葉斯的文本分類研究綜述[J].情報科學,2016,34(7):147-154.
[13] 丁世飛,齊丙娟,譚紅艷.支持向量機理論與算法研究綜述[J].電子科技大學學報,2011,40(1):2-10.