林 妍
(梧州市紅十字會(huì)醫(yī)院信息科 廣西 梧州 543002)
數(shù)據(jù)挖掘指的是數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),主要挖掘?qū)τ跋裨\斷有效信息,該項(xiàng)技術(shù)在20世紀(jì)80年代中后期開(kāi)始得到廣泛應(yīng)用。數(shù)據(jù)挖掘涉及較多學(xué)科,包括數(shù)據(jù)庫(kù)、模式識(shí)別、人工智能、統(tǒng)計(jì)學(xué)等,因此數(shù)據(jù)挖掘是一門(mén)交叉學(xué)科[1]。隨著醫(yī)學(xué)研究的深入,漸漸的將之用于醫(yī)學(xué)界中,本次研究針對(duì)數(shù)據(jù)挖掘技術(shù)相關(guān)理論知識(shí)及挖掘方法進(jìn)行探究,分析該項(xiàng)技術(shù)在影像學(xué)存儲(chǔ)系統(tǒng)報(bào)告的基礎(chǔ)上提取有效信息的效果。旨在完善數(shù)據(jù)庫(kù)內(nèi)容,快速得到有效的影像學(xué)資料。
本次研究選擇兼容機(jī)、80G硬盤(pán)等硬件軟件開(kāi)展探究;軟件方面選擇操作平臺(tái)為簡(jiǎn)體中文,選擇雙軸分類(lèi)的美國(guó)放射學(xué)院編碼數(shù)據(jù)庫(kù)。
選擇已有的結(jié)構(gòu)化報(bào)告系統(tǒng)作為研究基礎(chǔ),涉及影像學(xué)診斷、歸檔等數(shù)據(jù)庫(kù),需要生成相關(guān)結(jié)構(gòu)化報(bào)告,從而實(shí)施存儲(chǔ)、傳送等操作,對(duì)一經(jīng)生成的圖像、波形等各種醫(yī)學(xué)數(shù)字影響和通訊標(biāo)準(zhǔn)信息進(jìn)行整理,根據(jù)不同類(lèi)型的醫(yī)學(xué)數(shù)字影響和通訊標(biāo)準(zhǔn),建立結(jié)構(gòu)化報(bào)告樹(shù)形文檔,入嵌套參考文獻(xiàn)引用,輸入關(guān)鍵詞引用相關(guān)圖像[2]。結(jié)構(gòu)化報(bào)告中的儲(chǔ)存和傳送采取醫(yī)學(xué)數(shù)字影響和通訊標(biāo)準(zhǔn)中的遞歸嵌套項(xiàng)目序列數(shù)據(jù)集,使用樹(shù)形結(jié)構(gòu)將之串聯(lián),并予以驗(yàn)證和審核,與醫(yī)學(xué)數(shù)字影響和通訊標(biāo)準(zhǔn)服務(wù)器保持通信,將該操作歸納為層級(jí)目錄當(dāng)中,采取Microsoft Access 2000數(shù)據(jù)庫(kù)將影像診斷數(shù)據(jù)庫(kù)進(jìn)行管理和整合,知識(shí)庫(kù)中的內(nèi)容包括影像庫(kù)、診斷建議模板數(shù)據(jù)可庫(kù)等,同時(shí)診斷建議模板庫(kù)等幾項(xiàng)數(shù)據(jù)庫(kù)。歸檔數(shù)據(jù)庫(kù)這一方面,主要針對(duì)報(bào)告文本庫(kù)和報(bào)告圖像庫(kù),前者采取SQL Server2000展開(kāi)存儲(chǔ)管理,后者則經(jīng)文件方式儲(chǔ)存即可。
(1)在對(duì)醫(yī)學(xué)影像結(jié)構(gòu)化報(bào)告進(jìn)行操作期間,最大限度了解歸檔文本數(shù)據(jù)庫(kù),通過(guò)錄入疾病征象擴(kuò)展數(shù)據(jù)庫(kù)相關(guān)內(nèi)容,數(shù)據(jù)庫(kù)知識(shí)數(shù)據(jù)達(dá)到一定量,有利于發(fā)現(xiàn)診斷規(guī)律。本次涉及的研究方法有粗糙集理論,在MDRBR算法基礎(chǔ)上尋找規(guī)律,使得知識(shí)自動(dòng)獲取識(shí)別,從而實(shí)現(xiàn)能在較短時(shí)間內(nèi)獲得病例中的有效信息,從而不斷完善數(shù)據(jù)庫(kù)內(nèi)容。該理論是由波蘭學(xué)者提出的一種挖掘方法,通過(guò)對(duì)“概念”一詞展開(kāi)剖析,認(rèn)為是對(duì)象的集合,根據(jù)知識(shí)類(lèi)型進(jìn)行分類(lèi)的能力。圍繞一個(gè)固定的問(wèn)題知識(shí)點(diǎn)將之分為不同類(lèi)型,在根據(jù)劃分的每一小部分組成形成一個(gè)概念。其特點(diǎn)在于可有效分析、處理不完全、不一致的各類(lèi)信息,挖掘其中潛在的知識(shí)點(diǎn)或信息。(2)步驟,數(shù)據(jù)挖掘分步驟完成,共涉及8個(gè)步驟,首先了解醫(yī)學(xué)影像學(xué)基礎(chǔ)理論知識(shí),確定系統(tǒng)目標(biāo);其次根據(jù)目標(biāo)尋找數(shù)據(jù),數(shù)據(jù)集合或者是發(fā)現(xiàn)變量;再次,數(shù)據(jù)預(yù)處理無(wú)關(guān)數(shù)據(jù),將噪聲信息保留后期再處理;數(shù)據(jù)約減和投影,挖掘到相關(guān)數(shù)據(jù)表達(dá)特征后,數(shù)據(jù)這一模塊需要減少規(guī)模,并將目標(biāo)與數(shù)據(jù)進(jìn)行匹配,在數(shù)據(jù)變化中發(fā)現(xiàn)規(guī)律,開(kāi)展數(shù)據(jù)挖掘,總結(jié)關(guān)聯(lián)規(guī)則等模式;對(duì)挖掘到的模式做分析和評(píng)估;最后應(yīng)用挖掘到的信息。(3)結(jié)構(gòu),挖掘原始數(shù)據(jù)可通過(guò)德文本、圖像及數(shù)據(jù)實(shí)現(xiàn),特別是異構(gòu)型數(shù)據(jù),有效挖掘原始數(shù)據(jù),結(jié)構(gòu)化報(bào)告則可以歸檔數(shù)據(jù)中獲取,將噪聲去除,從而建立結(jié)構(gòu)化報(bào)告數(shù)據(jù)庫(kù);并對(duì)數(shù)據(jù)庫(kù)中提出出來(lái)的數(shù)據(jù)進(jìn)行分析,從變換后樣本中提出數(shù)據(jù)模式,數(shù)據(jù)挖掘結(jié)果一般包括概念、規(guī)則、模式等內(nèi)容。經(jīng)過(guò)數(shù)據(jù)挖掘獲取相關(guān)知識(shí),并將之用于新得儲(chǔ)備系統(tǒng)中。
結(jié)構(gòu)化報(bào)告將之納入數(shù)據(jù)庫(kù)報(bào)告中,并對(duì)之進(jìn)行整理,影像學(xué)疾病類(lèi)型、圖像等做好分類(lèi),對(duì)疾病“部位、大小、數(shù)量、密度”等內(nèi)容的CT征象做好分類(lèi),形成帶有節(jié)點(diǎn)的疾病知識(shí)庫(kù)樹(shù)形圖,并將之存于數(shù)據(jù)庫(kù)中。生產(chǎn)診斷報(bào)告,將對(duì)應(yīng)疾病的屬性進(jìn)行判斷,最終形成結(jié)構(gòu)化報(bào)告,并將之錄入診斷報(bào)告庫(kù)內(nèi),經(jīng)特征值對(duì)結(jié)構(gòu)化報(bào)告進(jìn)行檢索。
將結(jié)構(gòu)化報(bào)告歸檔數(shù)據(jù)庫(kù)中,形成數(shù)據(jù)庫(kù)挖掘模式后,利用SQL Server2000相關(guān)操作,錄入患者一般資料、臨床疾病信息,形成基本數(shù)據(jù)表格。經(jīng)檢查,大部分患者診斷出已確診疾病,其診斷率高達(dá)90.00%。
數(shù)據(jù)挖掘技術(shù)隨著時(shí)代技術(shù)的進(jìn)步得到廣泛應(yīng)用,在醫(yī)學(xué)影像學(xué)科也逐漸得到重視,利用該項(xiàng)技術(shù)整合患者一般資料,對(duì)其歸檔資料進(jìn)行整理,尋找影像診斷規(guī)律,最后得出診斷結(jié)論,加之得到大量數(shù)據(jù)作為支撐,因而診斷規(guī)則及模式具備一定的有效性。查閱相關(guān)文獻(xiàn)[3],表示國(guó)內(nèi)外具有該技術(shù)的研究成果,經(jīng)粗糙集理論分析醫(yī)學(xué)影像學(xué)數(shù)據(jù)庫(kù)中的有效性信息,為急診科醫(yī)生以及各科護(hù)理提供正確決斷提供參考。這次的研究中,通過(guò)粗糙理論對(duì)挖掘技術(shù)病例展開(kāi)分析,經(jīng)建立影像診斷知識(shí)庫(kù)后顯示確診率達(dá)95.00%以上,說(shuō)明挖掘技術(shù)在影像學(xué)診斷中發(fā)揮良好的作用。查閱相關(guān)文獻(xiàn)顯示[4],應(yīng)用貝葉斯學(xué)習(xí)分類(lèi)法對(duì)男、女患者CT圖像繼續(xù)自動(dòng)診斷,通過(guò)關(guān)聯(lián)規(guī)則對(duì)頭部創(chuàng)傷患者CT檢查圖像做分析,通過(guò)CT、HRCT影像和超聲影像紋理展開(kāi)評(píng)估。CT圖像做鈣化、數(shù)量等方面的特征參考相關(guān)數(shù)據(jù)分析腫瘤性質(zhì)。但需要注意的是,數(shù)據(jù)研究只能在結(jié)構(gòu)化報(bào)告文本中操作,鑒于目前還有較多技術(shù)問(wèn)題需要解決,仍需不斷優(yōu)化操作步驟,數(shù)據(jù)分析準(zhǔn)確性還有待提升[5]。
數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)影像查詢(xún)及檢索中的應(yīng)用,數(shù)據(jù)庫(kù)數(shù)據(jù)的引用促進(jìn)PACS的發(fā)展,對(duì)不同設(shè)備醫(yī)學(xué)影像數(shù)據(jù)進(jìn)行處理,PACS的應(yīng)用會(huì)使得影像學(xué)數(shù)據(jù)發(fā)生較大的變化,以增長(zhǎng)為主要趨勢(shì)。針對(duì)該情況,在文本檢索系統(tǒng)基礎(chǔ)上,影像存儲(chǔ)的同時(shí)建立有關(guān)患者的基本信息,對(duì)設(shè)備信息進(jìn)行檢索時(shí)使用數(shù)據(jù)庫(kù)進(jìn)行管理。在檢索系統(tǒng)中對(duì)圖像進(jìn)行搜索,獲取有效信息,利用投影、數(shù)據(jù)分析等方式對(duì)其做深度處理,得到相關(guān)特征向量,所得信息與已知對(duì)象做對(duì)比處理,本次研究利用模糊神經(jīng)網(wǎng)絡(luò)算法進(jìn)行深度處理[6]。而關(guān)于復(fù)雜圖像方面的分析,需通過(guò)復(fù)雜的計(jì)算,計(jì)算量極大,且得到的結(jié)結(jié)果并不能確保其準(zhǔn)確性,當(dāng)前該算法在影像學(xué)圖像中的應(yīng)用該處在摸索階段[7]。通過(guò)結(jié)構(gòu)化報(bào)告的研究,應(yīng)用挖掘技術(shù)將疾病CT診斷知識(shí)庫(kù)進(jìn)行擴(kuò)大,每一個(gè)模板需要在特定條件下進(jìn)行可能性診斷。影像學(xué)診斷醫(yī)生的報(bào)告可從系統(tǒng)中查閱,選取與結(jié)果相符或相貼合的選項(xiàng),對(duì)影像學(xué)圖像進(jìn)行處理期間整理數(shù)據(jù),將數(shù)據(jù)錄入后選擇對(duì)應(yīng)菜單即可將報(bào)告調(diào)出[8]。極大提升了醫(yī)務(wù)人員的工作效率,還能使得醫(yī)學(xué)影像學(xué)結(jié)構(gòu)化報(bào)告更為完善。
總之,數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)影像學(xué)中還處在完善階段,未來(lái)需要更深入開(kāi)發(fā)相關(guān)工具,全面提升查閱結(jié)構(gòu)化報(bào)告圖像的效率,同時(shí)保證得到有效的數(shù)據(jù)信息,為患者臨床治療提供有效信息,保證廣大患者的身心健康。