朱垚,袁睿,陸明,郭立中.南京中醫(yī)藥大學中醫(yī)內科急難癥研究所,江蘇 南京 009;.南京醫(yī)中下天科技有限責任公司中醫(yī)數(shù)據(jù)挖掘中心,江蘇 南京 009
?
基于CNKI的2002-2013年中醫(yī)數(shù)據(jù)挖掘類學位論文計量分析
朱垚1,袁睿2,陸明2,郭立中1
1.南京中醫(yī)藥大學中醫(yī)內科急難癥研究所,江蘇 南京 210029;
2.南京醫(yī)中下天科技有限責任公司中醫(yī)數(shù)據(jù)挖掘中心,江蘇 南京 210029
摘要:目的基于文獻分析2002-2013年中醫(yī)數(shù)據(jù)挖掘類學位論文情況。方法計算機檢索中國知識資源總庫(CNKI)博碩士文獻庫,檢索時間2013年11月。篩選中醫(yī)數(shù)據(jù)挖掘類文獻,從發(fā)文年份、發(fā)文院校、數(shù)據(jù)挖掘方法、研究類型等方面進行計量學分析。結果共204篇文獻符合納入標準。2002-2013年中醫(yī)數(shù)據(jù)挖掘類文獻數(shù)量呈逐年上升趨勢,其中北京中醫(yī)藥大學、中國中醫(yī)科學院、廣州中醫(yī)藥發(fā)文量居前3位,分別為57、30、24篇。204篇數(shù)據(jù)挖掘類文獻共使用12種不同挖掘方法,其中關聯(lián)規(guī)則為使用頻數(shù)最高方法,達111篇,占54.41%。共涉及7種研究類型,其中病種研究類文獻最多,達102篇,占50.00%。結論數(shù)據(jù)挖掘技術逐漸成為中醫(yī)類院校學位論文的研究熱點,但數(shù)據(jù)挖掘技術與中醫(yī)學交叉的研究設計需進一步加強,且需廣泛引入適合中醫(yī)學的新型數(shù)據(jù)挖掘方法。
關鍵詞:中醫(yī)藥;數(shù)據(jù)挖掘;文獻計量學
Bibliometrics Analysis of TCM Graduation Thesis Using Data Mining Methods During 2002-2013 Based on CNKI
ZHU Yao1, YUAN Rui2, LU Ming2, GUO Li-zhong1(1. Institute of TCM Internal
Medicine for Emergency and Serious Diseases, Nanjing University of Chinese Medicine, Nanjing 210029, China; 2. TCM Data Mining Center of Nanjing Medchitec Technology Limited Company, Nanjing 210029, China)
Abstract:Objective To analyze the situation of using data mining technology in TCM graduation thesis during 2002-2013 based on literature analysis. Methods Computers were used to retrieve the database of graduation thesis in CNKI. The retrieval time was from November in 2013. The thesis according with requirements were screened. Metrology analysis was conducted from the aspects of the literature issue year, literature issue colleges and universities, data mining methods and research types. Results Totally 204 papers were included. The number of papers using data mining methods in TCM graduation thesis was increasing year by year, with Beijing University of Chinese Medicine, China Academy of Chinese Medical Sciences and Guangzhou University of Chinese Medicine ranking the top three, which published 57, 30, 24 pieces of papers respectively. In this research, 12 data mining methods were found adopted in the 204 papers, of which association rule and cluster analysis (111 papers, 54.41%) were the most frequently used data mining methods, and they were mostly applied in the research of disease category. 7 types of research were involved, among which papers studying disease entities rank the most, 102 papers, occupying 50.00%. Conclusion Data mining technology has gradually become one of main research directions in TCM graduation thesis. However, the overlapping study and project between data mining technology and TCM has room for further improvement and new data mining methods that fit TCM are expected to be introduced extensively.
Key words:traditional Chinese medicine; data mining; bibliometrics
數(shù)據(jù)挖掘是指從數(shù)據(jù)中提取出隱含的過去未知的有價值的潛在信息,也是一門從大量數(shù)據(jù)或者數(shù)據(jù)庫中提取有用信息的科學。提取出的信息具備有效、新穎、易理解等特征。中醫(yī)藥專業(yè)研究生學位研究課題中引入數(shù)據(jù)挖掘技術最早可追溯到2002年《“方證相應”的數(shù)據(jù)挖掘方法研究》[1]。隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘技術將越來越多地運用到中醫(yī)學領域的研究中,也將逐漸成為各中醫(yī)院校、科研院所的研究熱點之一。
1.1數(shù)據(jù)來源
計算機檢索中國知識資源總庫(CNKI)博碩士文獻庫,以“數(shù)據(jù)挖掘”“中醫(yī)”為主題詞進行檢索。檢索式:主題為“數(shù)據(jù)挖掘”and“中醫(yī)”(精確匹配)。檢索時間范圍:2002年1月-2013年11月。檢索時間:2013年11月。
1.2篩選標準
納入標準:文獻中涉及中醫(yī)數(shù)據(jù)挖掘內容。排除標準:只討論數(shù)據(jù)挖掘算法,無挖掘數(shù)據(jù)舉例分析。
1.3研究方法
采用Medcase V3.2數(shù)據(jù)記錄挖掘系統(tǒng)(數(shù)理版),對文獻的發(fā)文年份、發(fā)文院校、數(shù)據(jù)挖掘方法、研究類型等方面進行計量學分析。
2.1文獻檢出情況
共檢出文獻247篇,經篩選后,最終入選204篇。
2.2發(fā)文年份分布
204篇數(shù)據(jù)挖掘類文獻中,2012年發(fā)文量最多,達51篇,占25.00%。2002年發(fā)文量最少,僅占0.49%。2002-2013年,年發(fā)文量大致呈逐年上升趨勢,見表1。
表1 204篇中醫(yī)數(shù)據(jù)挖掘類學位論文年份分布
2.3發(fā)文單位分布
204篇中醫(yī)數(shù)據(jù)挖掘類文獻分布于37所院校及科研院所,其中北京中醫(yī)藥大學發(fā)文量最多,達57篇,占27.94%。發(fā)文單位以中醫(yī)藥院校為主,非中醫(yī)類院校發(fā)文量均不足0.5%,見表2。
表2 204篇中醫(yī)數(shù)據(jù)挖掘類學位論文發(fā)文單位分布
2.4數(shù)據(jù)挖掘方法分布
204篇中醫(yī)數(shù)據(jù)挖掘類文獻共使用12種數(shù)據(jù)挖掘方法,其中關聯(lián)規(guī)則為使用頻數(shù)最高方法,達111篇,占54.41%,隨機行走分析為使用率最低的挖掘方法,僅占0.49%,見表3。
2.5研究類型分布
204篇中醫(yī)數(shù)據(jù)挖掘類文獻共涉及7種研究類型,其中病種研究類文獻最多,達102篇,占50.00%。中醫(yī)數(shù)據(jù)庫搭建、計算機原理與中醫(yī)結合類文獻最少,僅占2.45%。見表4。102篇病種研究類文獻涉及病種情況見表5。
表3 204篇中醫(yī)數(shù)據(jù)挖掘類文獻挖掘方法使用情況
表4 204篇中醫(yī)數(shù)據(jù)挖掘類文獻研究類型分布
表5 102篇病種研究類文獻涉及病種分布
基于學位論文的整體性、連貫性、創(chuàng)新性,本次研究對象為2002年1月-2013年11月CNKI博碩士文獻庫中中醫(yī)數(shù)據(jù)挖掘類學位論文。通過年份分布統(tǒng)計,發(fā)現(xiàn)國內最早涉及中醫(yī)學與數(shù)據(jù)挖掘的學位論文出現(xiàn)于2002年,且前4年發(fā)展進度比較緩慢。從2006年開始,伴隨著中醫(yī)信息化工作的開展,數(shù)據(jù)挖掘技術與中醫(yī)學相結合的學位論文開始大幅度提升,并于2012年達到51篇。因檢索時間為2013年11月,許多2013年6月畢業(yè)論文未上傳,導致所統(tǒng)計2013年發(fā)文量減少。隨著數(shù)據(jù)挖掘分析技術與中醫(yī)學越來越緊密的結合,未來此類學位論文將呈增長趨勢。
發(fā)文單位以北京中醫(yī)藥大學最多(57篇),廣州中醫(yī)藥大學和中國中醫(yī)科學院分列2、3位,分別有30、24篇學位論文。其次為成都中醫(yī)藥大學、黑龍江中醫(yī)藥大學、南京中醫(yī)藥大學、山東中醫(yī)藥大學等國內知名大學的數(shù)據(jù)挖掘類學位論文篇數(shù)呈增長趨勢。另外,從表2中發(fā)現(xiàn)包括南京大學、清華大學、浙江大學等一批非中醫(yī)藥類大學也都有數(shù)據(jù)挖掘與中醫(yī)學相結合的學位論文,從中反映出各大院校都加強了交叉學科的相互運用與配合。
204篇中醫(yī)數(shù)據(jù)挖掘類文獻中,使用關聯(lián)規(guī)則的論文達111篇(54.41%),聚類分析達69篇(33.82%)。使用典型相關分析、ROC曲線、薈萃、隨機行走分析等較為特殊的數(shù)據(jù)挖掘方法的論文較少。中醫(yī)院校的學生應加強對數(shù)據(jù)挖掘方法的學習,了解如何使用多種挖掘方法進行數(shù)據(jù)的分析[2]。
文獻、配方、實驗、病機方面研究論文每類型25篇左右,而病種研究類論文達102篇,表明目前數(shù)據(jù)挖掘分析主要運用在各疾病的研究[3]。表5顯示,在102篇病種研究的論文中,討論內分泌代謝疾病的論文為最多,而討論免疫系統(tǒng)疾病的論文僅2篇,表明目前數(shù)據(jù)挖掘方法對于不同病種的支持度參差不齊。
此次通過中醫(yī)數(shù)據(jù)挖掘學位論文的梳理,發(fā)現(xiàn)從2002年出現(xiàn)第一篇中醫(yī)學與數(shù)據(jù)挖掘結合的學位論文,到2012年達到51篇學位論文,短短11年間此類論文增長達50倍。越來越多的院校關注到中醫(yī)學與數(shù)據(jù)挖掘的重要性及實用性。但從中也不難看出,此類數(shù)據(jù)挖掘學位論文面臨挖掘方法單一的困境,其中高達88.23%的論文使用關聯(lián)規(guī)則或聚類分析為主要挖掘方法,較為特殊和復雜的數(shù)據(jù)挖掘方法在中醫(yī)院校的學位論文中使用率極低,加強中醫(yī)院校學生的數(shù)據(jù)挖掘知識培訓成為當務之急,如何正確選擇挖掘方法,了解研究類型與目的,成為今后各中醫(yī)院校開展交叉學科設計的教學重點。此外,國內目前進行數(shù)據(jù)挖掘工具主要使用IBM SPSS與Microsoft SQL Server等國外主流非中醫(yī)類數(shù)據(jù)挖掘軟件,專業(yè)適合于中醫(yī)學領域的數(shù)據(jù)挖掘軟件缺乏,且多數(shù)研究使用國外數(shù)據(jù)挖掘軟件存在正版授權問題[4]。開發(fā)出多款自主研發(fā)、擁有完全版權且專門用于中醫(yī)學的專業(yè)數(shù)據(jù)挖掘軟件勢在必行。
總之,隨著大數(shù)據(jù)時代的到來,中醫(yī)學與數(shù)據(jù)挖掘交叉學科技術不斷發(fā)展,數(shù)據(jù)挖掘分析技術被越來越廣泛地運用在中醫(yī)基礎、臨床、藥理等各領域上。通過對中醫(yī)藥數(shù)據(jù)不同層次的挖掘,提煉出完善的中醫(yī)特色療效方法,提升中醫(yī)的傳承效率。
參考文獻:
[1] 李認書,蔣永光.“方證相應”的數(shù)據(jù)挖掘方法研究[D].成都:成都中醫(yī)藥大學,2002.
[2] 杜建強,聶斌.數(shù)據(jù)挖掘在中醫(yī)藥領域應用研究進展[J].中國中醫(yī)藥信息雜志,2013,20(6):109-112.
[3] 周雯靜,金周慧,劉靈力.數(shù)據(jù)挖掘在中醫(yī)藥研究中的應用述評[J].中國中醫(yī)藥信息雜志,2014,21(10):131-133
[4] 鄧宏勇,許吉,張洋,等.中醫(yī)藥數(shù)據(jù)挖掘研究現(xiàn)狀分析[J].中國中醫(yī)藥信息雜志,2012,19(10):21-23.
(修回日期:2015-05-25;編輯:向宇雁)
收稿日期:(2015-04-27)
通訊作者:郭立中,E-mail:lzg1073@sina.com
基金項目:國家中醫(yī)藥管理局中醫(yī)瘀熱病機重點研究室開放課題(YUBJ2011KF-10);江蘇省普通高校研究生科研創(chuàng)新計劃項目(CXZZ13_0610)
中圖分類號:R2-05
文獻標識碼:A
文章編號:1005-5304(2016)02-0034-03
DOI:10.3969/j.issn.1005-5304.2016.02.010