楊 穎 楊立菁 徐 爽 許 丹 韓 爽 陳斯斯
(中國醫(yī)科大學圖書館 沈陽 110122)
1引言
學科發(fā)展情況是高校整體實力評價的重要因素,也是體現(xiàn)高校執(zhí)教能力、辦學水平的重要標志,加強學科建設是高校可持續(xù)發(fā)展的必由之路,同時也是提高教育質量的重要途徑?!半p一流”建設視域下,高校相繼出臺“雙一流”學科建設方案。醫(yī)學高校圖書館承擔著學科服務重任,應把握“雙一流”建設契機,拓展醫(yī)學情報服務領域,其中為學校領導和發(fā)展規(guī)劃部門提供醫(yī)學戰(zhàn)略情報服務是創(chuàng)新發(fā)展的重要舉措[1]。醫(yī)學戰(zhàn)略情報研究有利于醫(yī)學科研人員把握“雙一流”學科重點領域發(fā)展方向,結合自身優(yōu)勢, 開拓創(chuàng)新, 迅速獲取前沿熱點。圖書館學界針對“雙一流”學科建設戰(zhàn)略服務情報從理論研究到實證案例均有報道[2-3]。
學科發(fā)展戰(zhàn)略情報分析常應用信息計量學方法,包括共詞分析、共被引分析、引文分析等,以挖掘學科熱點前沿結構并通過可視化方式進行直觀展現(xiàn)[4-5]??梢暬芯坎痪窒抻趩我豢梢暬瘓D譜,而是從多角度探索學科分布及發(fā)展。最常用到的共詞可視化——戰(zhàn)略坐標,用于揭示某學科領域內部聯(lián)系及領域間的相互影響情況;此外網(wǎng)絡分析方法展現(xiàn)出網(wǎng)絡在頂點相互作用下的分布狀況,以及網(wǎng)絡在時間序列下的動態(tài)演變。社會網(wǎng)絡分析可以通過UciNet、Pajek、NetDraw等軟件進行可視化,常用于探索科學研究中的合作關系網(wǎng)絡[6]、引用被引關系網(wǎng)絡[7]以及共詞關系網(wǎng)絡[8]。
不同的共詞分析圖譜從不同角度揭示學科發(fā)展情況:戰(zhàn)略坐標從宏觀角度闡釋學科核心熱點結構,而社會網(wǎng)絡圖譜是從微觀角度揭示核心主題。目前關于共詞分析圖譜的研究大多關注構建獨立圖譜、揭示不同問題,而忽略了圖譜之間相互關聯(lián)問題,如對戰(zhàn)略坐標宏觀結構的內部微觀狀況,即每個核心主題在熱點結構中的貢獻度、在熱點結構之間的互通關系均未能體現(xiàn)。本研究擬將社會網(wǎng)絡分析嵌入戰(zhàn)略坐標分析,揭示學科領域宏觀結構及微觀分布。
將免疫學科的ESI高被引論文作為數(shù)據(jù)源進行共詞分析、可視化分析。從方法上,一方面,突破傳統(tǒng)的以高頻詞對為研究對象的共詞聚類分析,擬對高頻詞-來源文獻的詞篇矩陣進行雙向聚類;另一方面,突破社會網(wǎng)絡分析和戰(zhàn)略坐標的單一圖譜分析,擬將社會網(wǎng)絡分析嵌入戰(zhàn)略坐標分析,捕捉內部潛在知識內容,分析免疫學科的宏觀結構及其內部主要貢獻的核心主題構成。
在探索學科結構及趨勢演變計量分析中,數(shù)據(jù)選擇對分析結果至關重要。通常情況下原始數(shù)據(jù)選擇有以下幾種情況:全面選擇數(shù)據(jù)[9]、核心數(shù)據(jù)[10]、熱點數(shù)據(jù)[11]等。目前對熱點數(shù)據(jù)隱藏知識的挖掘受到廣泛關注。ESI高被引論文是被引用量排在前1%的研究論文,反映近年來某學科高質量、高水平的重要科研成果。針對高被引論文的統(tǒng)計分析,相關文獻[12-15]分別對高被引論文進行學術特征、國際合作情況、文獻計量及知識圖譜研究。未見對ESI高被引論文高頻詞對和來源文獻同時進行聚類分析熱點結構和前沿內容的文獻。本文選擇Web of Science核心合集數(shù)據(jù)庫,檢索式為WC=immunology,再通過“ESI精煉”,發(fā)表年份限定為2015-2018年,文獻類型限定為article和review,即該領域4年來的ESI高被引論文824篇,在PubMed下載xml格式文件作為數(shù)據(jù)源。
利用書目共現(xiàn)分析系統(tǒng)(Bibliographic Item Co-Occurrence, BICOMB)分析PubMed數(shù)據(jù)庫下載的免疫學文獻,統(tǒng)計其主要主題詞出現(xiàn)頻次,抽取頻次≥8的48個高頻主題詞并生成這些高頻詞與來源文獻的詞篇矩陣。利用gCLUTO軟件完成對詞篇矩陣的雙向聚類,生成聚類圖譜和山丘圖譜。通過聚類結果和共詞矩陣在Excel中繪制共詞戰(zhàn)略坐標。利用Ucinet和Netdraw繪制社會網(wǎng)絡分析圖譜,最終將社會網(wǎng)絡分析結果嵌入戰(zhàn)略坐標圖中,實現(xiàn)共詞可視化圖譜整合。
3.1.1 可視化山丘 根據(jù)每個類內數(shù)據(jù)分布得到山峰圖,見圖1。其高度與類內相似度成正比,類內相似度大則山丘陡峭。其體積與類內對象數(shù)量成正比。紅色代表低類內相似度標準差,藍色代表高類內相似度標準差。圖1中cluster 0類內高頻詞相似度最高,表明類內高頻詞具有高度一致性。圖中7個山峰各自獨立,高度與體積適中,聚類效果較理想。
圖1 可視化山丘
3.1.2 雙聚類可視化矩陣 可視化矩陣分別從行和列兩個維度展示高頻詞和來源文獻的聚類結果,見圖2。聚類圖形的行聚類(圖的左側)表示高頻詞分類,圖的右側列出相對應的高頻詞,橫線將每個類隔開,一共分為7類;聚類樹圖的列聚類(圖的上方)表示來源文獻的聚類,圖的下方對應列出所代表的來源文獻??梢暬仃囍蓄伾砭仃囋紨?shù)據(jù)值,白色表示近零值,紅色表示較大的值,圖2中顏色的深淺表示高頻詞出現(xiàn)的頻次。矩陣的行重新排序使得同一組的行聚在一起。
圖2 ESI高被引論文可視化矩陣
3.1.3 熱點結構分析 通過對ESI免疫學領域高被引論文的二分法聚類得到聚類樹圖。圖1顯示該學科領域的熱點結構分為7類。根據(jù)主題詞構成,見表1,結合7類代表性文章總結出7個熱點結構。(1)腫瘤免疫治療。免疫學的一個重要分支,免疫療法已成為腫瘤治療的重要手段。PD-1是免疫檢查點研究熱點。該類主要涵蓋探索新的腫瘤免疫檢查點、T細胞耗竭、新的腫瘤免疫抑制細胞亞群以及腫瘤免疫治療新策略等方面內容[16-17]。(2)艾滋病疫苗的免疫學。艾滋病疫苗開發(fā)從體液免疫到細胞免疫再到兩者結合不斷推進。Abbott R K、Lee J H和 Menis S等[18]將具有種系VRC01 B細胞受體的B細胞轉移到同類受體中,闡明前體頻率、抗原親和力和親合力對免疫后B細胞應答的作用。Vinuesa C G、Linterman M A和Yu D等[19]介紹濾泡輔助T細胞引發(fā)B細胞啟動卵泡外和生發(fā)中心抗體反應,對親和力成熟和體液記憶的維持至關重要。(3)B7-H1/程序性細胞死亡1受體抑制途徑與效應T細胞功能關系,治療人類免疫缺陷病毒(Human Immunodeficiency Virus,HIV)感染的機制。B7-H1與其受體PD-1結合降低腫瘤細胞免疫原性,誘導細胞毒性T淋巴細胞(Cytotoxic T Lymphocyte,CTL)凋亡,促使免疫細胞發(fā)生逃逸。PD-1是腫瘤免疫抑制的明星分子,也有其與HIV感染的免疫機制研究。Philips G K和Atkins M[20]介紹兩者抗腫瘤的治療用途。未來研究將傾向于此方法的生物標志物,以及如何單獨或與其他免疫療法、放射療法、化學療法和小分子抑制劑聯(lián)合使用。(4)脫敏方法及免疫學機理。脫敏療法能通過改變過度活躍的固有免疫應答產(chǎn)生免疫特異性的記憶性Th2細胞,使外周血中高表達的細胞因子水平恢復至正常,降低高敏反應和炎性反應,達到緩解和治療的目的[21]。(5)寨卡病毒感染致中樞神經(jīng)系統(tǒng)損傷的免疫機制。寨卡病毒感染相關神經(jīng)系統(tǒng)損傷主要有吉蘭-巴雷綜合征和小頭畸形。通過逆轉錄-聚合酶鏈反應可診斷寨卡病毒感染,影像學檢查可提高合并中樞神經(jīng)系統(tǒng)(Central Nervous System,CNS)并發(fā)癥診斷的準確率。然而目前尚無針對寨卡病毒感染的特效藥物及疫苗。(6)自身免疫性疾病、腫瘤的免疫學機理以及炎癥和感染的免疫學。炎性小體和細胞因子參與炎癥和自身免疫相關的許多先天免疫過程。從研究自然殺傷細胞(Natural Killer Cell,NK)記憶中獲得基本概念,提供關于先天免疫的新見解,可能為傳染病和癌癥治療提供新策略[22]。(7)免疫調控中的細胞分化與信號轉導過程。免疫細胞的發(fā)育涉及轉錄因子、細胞信號傳導蛋白和生長因子的復雜相互作用。研究發(fā)現(xiàn)microRNA是先天免疫細胞發(fā)育、功能以及免疫穩(wěn)態(tài)維持的關鍵調節(jié)因子[23]。
表1 免疫學熱點結構及其主題詞構成
續(xù)表1
本研究得到共詞戰(zhàn)略坐標:位于第1象限的有詞團5和詞團0,位于第2象限為詞團3,位于第3象限的是詞團4、6與2,位于第4象限的是詞團1,見圖3。
圖3 共詞網(wǎng)絡的戰(zhàn)略坐標
3.3.1 原始共詞矩陣圖譜 原始共詞矩陣圖譜展現(xiàn)了高頻主題詞的共現(xiàn)關系:每個節(jié)點代表高頻主題詞,大小與其在共詞網(wǎng)絡中出現(xiàn)的頻次成正比;主題詞之間連線表示有共現(xiàn)關系,粗細表示聯(lián)系的緊密程度,直觀體現(xiàn)出詞對之間的關系,見圖4。節(jié)點1最大,說明腫瘤免疫出現(xiàn)的次數(shù)最多,節(jié)點5、節(jié)點7、節(jié)點16之間連線粗,說明其共同出現(xiàn)的頻率大。
圖4 原始共現(xiàn)網(wǎng)絡
3.3.2 K-core分析 圖5中展現(xiàn)了免疫學高被引論文共詞網(wǎng)絡的核心邊緣主題。得到8個K核等級,K的最高級數(shù)為8,即在K=8的核中每個詞都最少和同一個核中其他詞共同出現(xiàn)的次數(shù)≥8,是整個共詞網(wǎng)絡中連接最強、關系最緊密的部分,包括位于中間的紅色節(jié)點,代表最核心的主題。K<8時,按降序依次代表次核心、中間主題和邊緣主題,用藍色、灰色、黑色、湖藍、粉色、草綠色和翠綠色表示。
3.4.1 原始共詞網(wǎng)絡與戰(zhàn)略坐標相互嵌入 將每個節(jié)點賦值(標上類號),按照戰(zhàn)略坐標分布,在社會網(wǎng)絡圖中加入坐標軸,將相同類別的詞放置到一起,得到高頻主題詞原始共詞矩陣。戰(zhàn)略坐標排列的網(wǎng)絡圖可以清晰地顯示出戰(zhàn)略坐標中類間與類內各主題之間的關系,見圖6。
圖6 原始共詞網(wǎng)絡與戰(zhàn)略坐標相互嵌入
3.4.2 K-core共詞網(wǎng)絡與戰(zhàn)略坐標相互嵌入 用不同顏色標識核心邊緣程度,在戰(zhàn)略坐標中的位置標識核心成熟程度,將戰(zhàn)略坐標結果(成熟度-核心度)與社會網(wǎng)絡分析中的K核分析結果(核心-邊緣)相結合,見圖7。結合后的K核分析可以看到核心邊緣主題詞在每個聚類的類別中,而每個類別的成熟程度在戰(zhàn)略坐標中已經(jīng)體現(xiàn)出來。
圖7 K-core共詞網(wǎng)絡與戰(zhàn)略坐標相互嵌入
圖3顯示第1象限中的詞團5密度高,表明炎癥和感染免疫機理內部聯(lián)系最緊密;詞團0向心度最高,表明腫瘤免疫治療與其他詞團聯(lián)系較廣,處于研究主題核心。第2象限中的詞團3處于近原點位置,表明致敏與脫敏雖位于邊緣位置但已經(jīng)受到關注,有望進入第1象限。第3象限的詞團密度和向心度都較低,處于研究領域邊緣,研究尚不成熟。第4象限的詞團1中心度高但密度低,說明腫瘤免疫治療構成的主題領域也是核心,但不成熟。
原始矩陣的共詞網(wǎng)絡圖與聚類及戰(zhàn)略坐標相結合后,清晰展現(xiàn)出免疫學領域學科結構類間與類內各主題之間的關系。第1象限中類團5和類團0內的各類內、類間的連線明顯比第3象限中類內、類間的連線多且粗,說明炎癥與感染免疫機理及腫瘤免疫治療內部鏈接和外部鏈接均多于其他類團。戰(zhàn)略坐標中的向心度越高的類別,在社會網(wǎng)絡圖譜中與其他類別連線越多、越粗;戰(zhàn)略坐標中密度越高的類別,類內各個主題間的連線越多、越粗。例如圖6中的第5類,主要由1號主題詞貢獻了向心度,同時1號主題詞與本類中其他主題詞連線最粗,貢獻了密度,腫瘤免疫是整個領域中最為關鍵的方向;第0類,主要由5號主題詞貢獻了向心度,其與7號、16號主題詞最密切、連線最粗,貢獻了此類的密度。整合結果更有利于解讀,能夠直觀地看出類內、類間每個詞的關系及其對向心度、密度所起的作用。
戰(zhàn)略坐標結果(成熟度-核心度)與社會網(wǎng)絡分析中的K核分析結果(核心-邊緣)相結合后,可以明顯展示出核心領域宏觀結構中微觀主題的分布情況,挖掘出每個核心-非核心結構中的關鍵因素,清晰展現(xiàn)出該學科研究熱點的層次及熱點詞的關系,見圖7,聚類第5類的1、2、14、39主題詞,聚類第0類的5、6號主題詞為核心研究熱點,顯示出每個詞的地位及與其他詞的關系。
雙聚類分析可以反映出高頻詞與來源文獻的對應關系,用于某學科領域的學科熱點結構和近期前沿研究?;谝悦庖邔W為樣本的共詞分析,繪制聚類樹圖展現(xiàn)某學科領域的主題結構、戰(zhàn)略坐標,描繪各個研究主題在整個學科結構上的重要性或特性、社會網(wǎng)絡圖譜以進一步展現(xiàn)出主題內部關系。不同可視化結果的相互嵌入可多方位展現(xiàn)學科結構的發(fā)展過程,宏觀結構與微觀分布一目了然,增強可視化圖譜的易讀性,各種方法相互補充可以指導專業(yè)人員了解學科結構及前沿分布,幫助決策層規(guī)劃學科布局,調整學科方向,促進學科發(fā)展。