范 婷 徐 鵬 婁 巖
基于雙聚類法的醫(yī)學(xué)大數(shù)據(jù)研究熱點(diǎn)分析*
范 婷1徐 鵬2婁 巖1
大數(shù)據(jù)技術(shù)越來越多地應(yīng)用于生物和醫(yī)療方向的研究,可為健康醫(yī)療領(lǐng)域提供技術(shù)支持,促進(jìn)醫(yī)療信息化建設(shè),有利于提高醫(yī)療質(zhì)量[1]。并且大數(shù)據(jù)時(shí)代的到來,開辟了全新的健康及醫(yī)療模式,其中個(gè)性化就醫(yī)、預(yù)防保健、慢性病護(hù)理和智能穿戴設(shè)備等等的行之有效地健康管理新模式深入人們的日常生活。而豐富的數(shù)據(jù)積累能夠更有效的提供科學(xué)數(shù)據(jù)支持,從而進(jìn)一步研究人類全新健康醫(yī)療模式[2]。
1.資料來源
本研究采用的樣本來自國際權(quán)威的醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)Pubmed,檢索策略為:“Big data”[Tiab]AND MEDLINE AND(“2011/01/01”[PDat]:“2015/12/31”[PDat])。共檢索到867條文獻(xiàn)記錄,將這些文獻(xiàn)用XML格式下載。
2.研究方法
運(yùn)用書目共現(xiàn)分析系統(tǒng)(bibliographic item co-occurrence matrix builder, BICOMB)[3],獲得該主題的發(fā)文量、發(fā)表年份、期刊分布以及高頻主題詞,進(jìn)一步統(tǒng)計(jì)每個(gè)主要主題詞和副主題詞出現(xiàn)的頻次。考慮到本文收集的文獻(xiàn)均與大數(shù)據(jù)相關(guān),去除“Big Data as Topic”“Male”等沒有特殊意義的主題詞。統(tǒng)計(jì)累計(jì)頻次的變化,截取出現(xiàn)頻次大于10次,累積頻次達(dá)到22%的主題詞。由于這些主題詞是出現(xiàn)頻率最高的詞,可以認(rèn)為代表了當(dāng)前該領(lǐng)域研究的熱點(diǎn)。
雙聚類這一概念是由Hartigan于1972年提出的直接聚類算法(simultaneous clustering,同時(shí)聚類),對(duì)矩陣中的實(shí)例和變量同時(shí)進(jìn)行聚類,聚類的結(jié)果與數(shù)據(jù)矩陣直接相關(guān)。有效地改善了傳統(tǒng)聚類算法在單一維度上的聚類,實(shí)現(xiàn)了主題詞-文獻(xiàn)標(biāo)題兩個(gè)方向的同時(shí)聚類,通過文獻(xiàn)題目聚類,更容易突出具有代表性的文獻(xiàn)標(biāo)題,從而獲得該領(lǐng)域前沿文獻(xiàn)。為進(jìn)一步反映這些主題詞之間的關(guān)系,統(tǒng)計(jì)其出現(xiàn)的頻次,形成主題詞-來源文獻(xiàn)矩陣并導(dǎo)入G-CLUTO1.0軟件進(jìn)行雙向聚類,通過對(duì)構(gòu)建的高頻主題詞-來源文獻(xiàn)矩陣進(jìn)行分析,生成高頻主題詞的共詞聚類山峰圖和可視化雙聚類詞篇矩陣熱圖,該聚類圖可以反映高頻主題詞以及來源文獻(xiàn)之間的親疏關(guān)系,進(jìn)而獲得該領(lǐng)域研究的熱點(diǎn)[4-5]。
1.發(fā)文量分布
檢索得出2011-2015年醫(yī)學(xué)大數(shù)據(jù)相關(guān)文獻(xiàn)867篇,其變化趨勢(shì)見圖1 ,從發(fā)表文章數(shù)量上看,2011年開始發(fā)文量在逐漸增加,2014年開始迎來大數(shù)據(jù)研究的高峰期,發(fā)文量逐年增加,每年達(dá)到300篇以上。
圖1 2011-2015年醫(yī)學(xué)大數(shù)據(jù)相關(guān)論文發(fā)文量變化趨勢(shì)圖
2.期刊分布
對(duì)2011-2015年刊載醫(yī)學(xué)大數(shù)據(jù)這一主題文獻(xiàn)的期刊分布情況進(jìn)行統(tǒng)計(jì)分析,排名前10種期刊的載文量累計(jì)超過了178篇,占總文獻(xiàn)量的19.84%,見表1。
表1 文獻(xiàn)期刊分布
對(duì)2011-2015年刊載醫(yī)學(xué)大數(shù)據(jù)這一主題文獻(xiàn)的發(fā)表國家進(jìn)行統(tǒng)計(jì)分析,相關(guān)文獻(xiàn)發(fā)文量超過10篇的國家有6個(gè),其載文量達(dá)到852篇,占總文獻(xiàn)量的95.40%,見表2。
表2 發(fā)文量世界分布情況
3.高頻主題詞及共詞聚類結(jié)果
本研究截取出現(xiàn)頻次高于10次的32個(gè)高頻主題詞的中文譯名按照中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所出版的《醫(yī)學(xué)主題詞表( MeSH)》中譯本進(jìn)行翻譯,如表3 所示。
4.聚類結(jié)果分析
經(jīng)多次雙聚類實(shí)驗(yàn),發(fā)現(xiàn)將數(shù)量設(shè)定為10時(shí)的聚類結(jié)果,簇內(nèi)平均相似度較高,簇間平均相似度較小。從聚類山峰圖的整體布局來看,聚類的效果較為理想。
表3 高頻詞匯表
圖2是醫(yī)學(xué)大數(shù)據(jù)領(lǐng)域發(fā)表文獻(xiàn)的雙向聚類結(jié)果,左側(cè)聚類樹代表高頻詞匯聚類結(jié)果,32個(gè)高頻主要主題詞/副主題詞列在圖的右側(cè)顯示。頂端聚類樹代表包含高頻詞匯的文章標(biāo)題聚類,每一個(gè)方格的顏色深度表示所在列對(duì)應(yīng)的論文中,該行所對(duì)應(yīng)的高頻主題次出現(xiàn)頻次。顏色越深,出現(xiàn)的頻次越高。空白區(qū)域代表該主題詞的出現(xiàn)頻次為0。
通過對(duì)高頻主題詞匯以及各類中具有代表性文獻(xiàn)的解讀,得出該領(lǐng)域現(xiàn)階段3大熱點(diǎn)研究方向。
醫(yī)學(xué)大數(shù)據(jù)在社會(huì)行為學(xué)方面展開的研究,包括18,29,22,13號(hào)主題詞。例如,MoatHS等在線收集海量真實(shí)數(shù)據(jù),通過賓利模型研究,提出大數(shù)據(jù)可為預(yù)測(cè)風(fēng)險(xiǎn)評(píng)估、集體決策支持提供意見[6]。Grossglauser M等通過三個(gè)沒有人工干預(yù)的實(shí)驗(yàn),提出了大數(shù)據(jù)驅(qū)動(dòng)的醫(yī)療保健的重要特定的方面:自主決策,并設(shè)計(jì)模型來解決預(yù)測(cè)過程中自主決策帶來的不確定性[7]。Palomino M等人收集社交媒體Twitter上超過175000信息發(fā)布,將情緒分析應(yīng)用于測(cè)量積極、中性或負(fù)面情緒,從而映射廣泛傳播對(duì)用戶心理健康的巨大影響[8]。
信息化環(huán)境下醫(yī)學(xué)大數(shù)據(jù)在生物醫(yī)學(xué)及基因組學(xué)方面的探索,包括20,17,16,7,32,16號(hào)主題詞。Decock A等將大數(shù)據(jù)應(yīng)用于NB的比較基因組學(xué)研究,通過CpG島的甲基化測(cè)序得出找到全基因組中就發(fā)生甲基化的區(qū)域,并證實(shí)NB相關(guān)基因存在甲基化水平的改變[9]。Canela XO等針對(duì)470000個(gè)個(gè)體的590004個(gè)SNPs(單核苷酸的多態(tài)性)位點(diǎn),通過混合線性模型預(yù)測(cè)相關(guān)表型,實(shí)驗(yàn)表明DISSECT軟件在大樣本量的條件下,用于基因型分析,預(yù)測(cè)精準(zhǔn)率可高出理論最大值的80%[10]。Paten B等認(rèn)為基因組測(cè)序成本的逐漸下降使得基因大數(shù)據(jù)的快速累積,同時(shí)基因測(cè)序技術(shù)與大數(shù)據(jù)分析技術(shù)的快速發(fā)展使得精準(zhǔn)醫(yī)療概念下的精準(zhǔn)預(yù)防、精準(zhǔn)診斷以及真正的個(gè)體化治療模式逐漸成為當(dāng)前研究焦點(diǎn)[11]。
圖2 醫(yī)學(xué)大數(shù)據(jù)相關(guān)論文樹狀雙聚類圖
針對(duì)醫(yī)學(xué)大數(shù)據(jù)統(tǒng)計(jì)分析、挖掘與應(yīng)用,包括9,2,8,15,12,26,23,21,25號(hào)主題詞。例如,Margolies LR等通過對(duì)乳腺癌影像大數(shù)據(jù)的采集和分析,得出醫(yī)學(xué)大數(shù)據(jù)有助于乳腺癌遺傳學(xué)篩查和優(yōu)化篩選算法[12]。在英國血液醫(yī)學(xué)領(lǐng)域,Pendry K等通過電子健康記錄和臨床新病例的大數(shù)據(jù)集,設(shè)計(jì)了一套醫(yī)學(xué)大數(shù)據(jù)管理信息系統(tǒng),結(jié)合患者的血液管理關(guān)鍵指標(biāo)和庫存,擬定用血量和手術(shù)順序,提高效率和減少資源浪費(fèi)[13]。Ramos MA等將數(shù)據(jù)挖掘算法引入患者聽力診斷,設(shè)計(jì)預(yù)測(cè)模型并結(jié)合聽力測(cè)試,對(duì)植入雙側(cè)人工耳蝸的患者聽力進(jìn)行評(píng)估[14]。
根據(jù)2011-2015年國際醫(yī)學(xué)大數(shù)據(jù)相關(guān)文獻(xiàn)的發(fā)文量隨時(shí)間的變化趨勢(shì)看,大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的相關(guān)研究熱度在逐步上升。該領(lǐng)域的發(fā)文量在2010-2012年處于較低的水平,但經(jīng)過了2013年的發(fā)展后,于2014達(dá)到每年300篇以上。該主題研究熱度在近年的迅速增強(qiáng),可能與大數(shù)據(jù)與醫(yī)學(xué)結(jié)合的廣泛應(yīng)用有關(guān)。因此應(yīng)該重視這方面的研究,才能讓大數(shù)據(jù)在衛(wèi)生領(lǐng)域得到長足的發(fā)展。
2011-2015年期間多種期刊發(fā)表了867篇醫(yī)學(xué)大數(shù)據(jù)相關(guān)領(lǐng)域的文章,排名前10 種期刊的載文量占總文獻(xiàn)量的19.84%,說明該主題文獻(xiàn)主要發(fā)表在本領(lǐng)域核心期刊上,呈現(xiàn)一定的聚集性,而統(tǒng)計(jì)學(xué)和醫(yī)學(xué)信息學(xué)專業(yè)期刊,以及社會(huì)行為學(xué)期刊刊載數(shù)量最多。
本研究基于雙聚類法討論了國際上2011-2015年大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的研究熱點(diǎn)和趨勢(shì)。得到當(dāng)前醫(yī)學(xué)大數(shù)據(jù)研究的熱點(diǎn)主要集中在:醫(yī)學(xué)大數(shù)據(jù)在社會(huì)行為方面展開的研究,信息化環(huán)境下將醫(yī)學(xué)大數(shù)據(jù)應(yīng)用于生物醫(yī)學(xué)領(lǐng)域和基因組學(xué)的探索,醫(yī)學(xué)大數(shù)據(jù)統(tǒng)計(jì)分析、挖掘與應(yīng)用。
[1]高漢松,肖凌,許德瑋,等.基于云計(jì)算的醫(yī)療大數(shù)據(jù)挖掘平臺(tái).中國數(shù)字醫(yī)學(xué),2013,5:7-12.
[2]Peters SG,Buntrock JD.Big data and the electronic health record.The Journal of ambulatory care management,2014,37(3):206-210.
[3]崔雷,劉偉,閆雷,等.文獻(xiàn)數(shù)據(jù)庫中書目信息共現(xiàn)挖掘系統(tǒng)的開發(fā).現(xiàn)代圖書情報(bào)技術(shù),2008,(8):70-75.
[4]方麗.利用雙聚類算法探測(cè)綜合醫(yī)學(xué)與內(nèi)科學(xué)知識(shí)基礎(chǔ)及研究前沿.中華醫(yī)學(xué)圖書情報(bào)雜志,2016,(9):28-33.
[5]崔雷,方麗,王林.國內(nèi)醫(yī)學(xué)信息學(xué)院系科研熱點(diǎn)分析及其與國際研究熱點(diǎn)的比較.醫(yī)學(xué)信息學(xué)雜志,2013,(3):2-10.
[6]Moat HS,Preis T,Olivola CY,et al.Using big data to predict collective behavior in the real world.Behavioral & Brain Sciences,2014,37(1):92-93.
[7]Grossglauser M,Saner H.Data-driven healthcare:from patterns to actions..European journal of preventive cardiology,2014,21(2):14-17.
[8]Palomino M,Taylor T,G?ker A,et al.The Online Dissemination of Nature-Health Concepts:Lessons from Sentiment Analysis of Social Media Relating to “Nature-Deficit Disorder”.International Journal of Environmental Research & Public Health,2012,13(1):142.
[9]Decock A,Ongenaert M,Van CW,et al.DNA methylation profiling of primary neuroblastoma tumors using methyl-CpG-binding domain sequencing.SCIENTIFIC DATA ,2012,2(3):4.
[10]Canela XO,Law A,Gray A,et al.A new tool called DISSECT for analysing large genomic data sets using a Big Data approach.Nature communications,2015,(6):10162.
[11]Paten B,Diekhans M,Druker BJ,et al.The NIH BD2K center for big data in translational genomics.Journal of the American Medical Informatics Association,2015,22(6):1143-1147.
[12]Margolies LR,Pandey G,Horowitz ER,Mendelson DS.Breast Imaging in the Era of Big Data:Structured Reporting and Data Mining.American journal of roentgenology,2015, 206(2):259-264.
[13]Pendry K.The use ofbig data in transfusion medicine.Transfusion medicine(Oxford,England),2015,25(3):129-137.
[14]Ramos MA,Perez ZT, Perez Dl,et al.Use of data mining to predict significant factors and benefits of bilateral cochlear implantation.European archives of oto-rhino-laryngology,2015,272(11):3157-3162.
(責(zé)任編輯:郭海強(qiáng))
2014年遼寧省教育廳科學(xué)研究一般項(xiàng)目 (項(xiàng)目編號(hào):L2014291)
1.中國醫(yī)科大學(xué)公共基礎(chǔ)學(xué)院(110122)
2.解放軍463醫(yī)院呼吸內(nèi)科