雷珍珍 ,陳 鵬,江思源,于世博,朱麗喆,閆 宇,任 予
(1.西安交通大學(xué)第一附屬醫(yī)院乳腺外科,陜西 西安 710061;2.商洛市中心醫(yī)院乳甲外科,陜西 商洛 726000;3.三原縣人民醫(yī)院普外科,陜西 三原 713800)
乳腺癌(breast cancer)是女性最常見的惡性腫瘤之一,也是癌癥死亡的主要原因之一。2018 年全球癌癥統(tǒng)計顯示,2018 年全球有超過200 萬例乳腺癌新發(fā)病例,居女性惡性腫瘤發(fā)病率首位,約占全年腫瘤新發(fā)病例的11.6%,死亡病例高達62 萬[1]。我國2015 年女性乳腺癌新發(fā)病例達26.8 萬,死亡病例約6.9 萬[2]。研究報道,乳腺癌已成為危害女性健康的發(fā)病率最高的惡性腫瘤[3]。為減少人群癌癥負擔(dān),美國國立衛(wèi)生研究院下屬的美國癌癥研究所于1973年針對本國腫瘤患者建立了監(jiān)測、流行病學(xué)和最終結(jié)果數(shù)據(jù)庫(SEER),這是北美最具代表性的大型腫瘤數(shù)據(jù)庫之一[4]。SEER 數(shù)據(jù)庫共有18 個數(shù)據(jù)登記站,覆蓋了大約28%[5]的美國人口,記錄了美國50余年的已確診腫瘤患者的人口統(tǒng)計數(shù)據(jù)和臨床特征,并且不斷更新隨訪結(jié)果,完善相關(guān)數(shù)據(jù)[6]。因其納入人群數(shù)量大、資料較為齊全、平臺開放、操作便捷等優(yōu)點,目前為止已為臨床醫(yī)師的循證實踐及臨床醫(yī)學(xué)研究提供了系統(tǒng)的證據(jù)支持和寶貴的腫瘤疾病的相關(guān)資料,尤其是為惡性腫瘤和罕見腫瘤的研究提供了寬廣的路徑[6]。近年來,國內(nèi)外越來越多的研究者嘗試?yán)媒y(tǒng)計學(xué)方法或機器學(xué)習(xí)方法對SEER 數(shù)據(jù)庫開展腫瘤的預(yù)后研究[7]。在此背景下,本文以PubMed 數(shù)據(jù)庫刊載的文獻為統(tǒng)計源,對2010~2019 年基于SEER 數(shù)據(jù)庫的乳腺癌研究態(tài)勢進行分析,為今后的相關(guān)研究提供參考依據(jù)。
1.1 數(shù)據(jù)來源 在PubMed 數(shù)據(jù)庫中檢索2010~2019年基于SEER 數(shù)據(jù)庫的乳腺癌相關(guān)研究的文獻。登錄PubMed 數(shù)據(jù)庫 (https://www.ncbi.nlm.nih.gov/PubMed),進入高級檢索,以文獻標(biāo)題、摘要中含“乳腺癌”及“SEER”相關(guān)詞匯的文獻作為研究對象,數(shù)據(jù)獲取采用盡可能提高查全率的檢索思路。檢索式:(((((Breast Cancer[Title/Abstract]) OR Breast Neoplasm[Title/Abstract]) OR Breast carcinoma[Title/Abstract])OR Mammary Neoplasm [Title/Abstract]) AND SEER[Title/Abstract]) AND (“2010/01/01”[Date -Publication]:“2019/12/31”[Date -Publication])。檢索時間為2020 年3 月10 日,共檢索出812 篇文獻。
1.2 納入與排除標(biāo)準(zhǔn) 納入標(biāo)準(zhǔn):①基于SEER 數(shù)據(jù)庫的乳腺癌相關(guān)的臨床研究;②能提供足夠信息的摘要或可以獲取全文資料的文獻。排除標(biāo)準(zhǔn):①不在研究時間內(nèi)的文獻;②無法獲取作者的文獻;③無法獲取摘要的文獻;④其他與研究目的不相符的文獻。數(shù)據(jù)篩選是由2 位作者獨立從所有符合條件的文獻中仔細提取的。
1.3 方法 通過Excel 2016 對文獻內(nèi)容進行分類整理,對納入文獻各年度的發(fā)文量、國家、期刊、作者、高被引文獻和研究熱點等進行統(tǒng)計分析。使用VOSviewer 生成基于SEER 數(shù)據(jù)庫的乳腺癌的相關(guān)研究的文本主題關(guān)鍵詞的知識地圖。
2.1 文獻發(fā)表年限分析 最終納入664 篇文獻,其年度發(fā)文量及變化趨勢見圖1。從各年度的文獻量分布上可以看出,近10 年來基于SEER 數(shù)據(jù)庫的乳腺癌研究總體趨勢呈波動性增長。
圖1 2010~2019 年P(guān)ubMed 中基于SEER 數(shù)據(jù)庫乳腺癌研究相關(guān)文獻的發(fā)文量
2.2 發(fā)文作者國家分析 對明確注明作者國家的文獻進行分析,結(jié)果顯示664 篇文獻主要分布于26 個國家和地區(qū),其中美國的發(fā)文量最多,其次為中國和加拿大,見表1。
表1 2010~2019 年基于SEER 數(shù)據(jù)庫乳腺癌研究相關(guān)文獻發(fā)文量排名前10 的國家
2.3 文獻期刊分析 664 篇文獻來源于187 種期刊雜志,文獻數(shù)排名前10 的期刊見表2。近一半的文獻發(fā)表于排名前10 的期刊上(288 篇,占比43.39%)。除了英國的Breast 期刊,其余9 種期刊均為美國出版的;排名前3 的期刊分別是:Breast Cancer Research And Treatment(IF 2018=3.471),發(fā)表文獻96篇,占總發(fā)文量的14.46%,Journal of Clinical Oncology(IF 2018=28.245),發(fā)表文獻28 篇,占總發(fā)文量的4.22%以及Oncotarget(IF 2018=0),發(fā)表文獻27篇,占總發(fā)文量的4.07%。
2.4 文獻作者分析 664 篇文獻的作者共有2842 位,以第一作者和并列一作發(fā)文量為研究對象,依據(jù)總被引頻次進行數(shù)據(jù)整理統(tǒng)計分析,結(jié)果得出發(fā)文量3 篇以上的8 位作者共發(fā)表文獻29 篇,占該領(lǐng)域所有已發(fā)表文獻的9.42%,見表3。8 位作者中美國作者最多,共有6 位,中國和埃及各1 位。排名第1 的作者為美國的Jagsi R,共發(fā)表了6 篇文獻,總被引次數(shù)為190 次;排名第2 和第3 的作者為分別為埃及的Abdel-Rahman(4 篇)和美國的Agarwal S(4 篇)。
2.5 高被引文獻分析 近10 年被引量最高的10 篇文獻見表4。在排序前10 的文獻中,《US incidence of breast cancer subtypes defined by joint hormone receptor and HER2 status》以共計被引204 次和年均被引60.90 次位居第1 位,《Differences in breast cancer stage at diagnosis and cancer-specific survival by race and ethnicity in the United States》共計被引124 次居第3 位,《Disparities in breast cancer characteristics and outcomes by race/ethnicity》以共計被引113 次位居第3。
2.6 關(guān)鍵詞研究熱點分析 通過VOSviewer 1.6.14 軟件對檢索到的664 篇文獻的文本主題中關(guān)鍵詞的研究熱點進行分析,在所有文章的標(biāo)題和摘要中使用超過20 次的關(guān)鍵“危險因素”,見圖2。在“生存分析”數(shù)據(jù)集中包含了49 個關(guān)鍵詞,排序前3 的關(guān)鍵詞分別為overall survival(153 次)、grade(110 次)和prognosis(104 次);在“臨床研究”數(shù)據(jù)集中包含了41 個關(guān)鍵詞,排序前3 的關(guān)鍵詞分別為woman(350次)、use(145 次)和association(122 次);在“危險因素”數(shù)據(jù)集中包含了35 個關(guān)鍵詞,排序前3 的關(guān)鍵詞分別為incidence(106 次)、period(83 次)和invasive breast cancer(74 次)。另外,“overall survival”和“prognosis”作為關(guān)鍵詞分別出現(xiàn)了153 次和104次,這兩個詞都屬于數(shù)據(jù)集“生存分析”,表明近年來研究者們越來越關(guān)注乳腺癌患者的生存狀況。同時,關(guān)鍵字“woman”位于圖3 的中心,與其他詞共出現(xiàn)2988 次。密度圖顯示了關(guān)鍵字的引文集中區(qū)見圖4。
表2 發(fā)文量排名前10 的期刊
表3 2010~2019 年發(fā)文量3 篇以上8 位作者
表4 2010~2019 年被引次數(shù)排序前10 位文獻
表4(續(xù))
圖2 基于SEER 數(shù)據(jù)庫的乳腺癌研究領(lǐng)域論文中關(guān)鍵詞的知識地圖
圖3 基于SEER 數(shù)據(jù)庫的乳腺癌研究領(lǐng)域論文中關(guān)鍵字的年份地圖
圖4 基于SEER 數(shù)據(jù)庫的乳腺癌研究領(lǐng)域論文中關(guān)鍵字的密度地圖
文獻計量學(xué)是一門運用數(shù)學(xué)和統(tǒng)計學(xué)方法對知識載體進行定量分析的交叉學(xué)科,利用文獻計量學(xué)技術(shù)可以為醫(yī)學(xué)研究人員提供一個快速、高效的獲取醫(yī)學(xué)文獻信息的途徑[8]。PubMed 數(shù)據(jù)庫由美國國家圖書館開發(fā),自1950 年以來已收集超過2200 萬份文獻記錄,涉及40 多種語言,每年新增文獻記錄60 多萬條,被公認(rèn)為世界上最權(quán)威的免費大型醫(yī)學(xué)文獻數(shù)據(jù)庫[9]。利用文獻計量方法分析PubMed 數(shù)據(jù)庫所收錄的基于SEER 數(shù)據(jù)庫的乳腺癌相關(guān)文獻,可以較為全面準(zhǔn)確的反映這一研究領(lǐng)域的現(xiàn)狀和發(fā)展趨勢。
從近10 年P(guān)ubMed 數(shù)據(jù)庫所收錄的基于SEER數(shù)據(jù)庫的乳腺癌相關(guān)文獻的發(fā)文量看,總體呈波動性上升趨勢,且近3 年增長速度加快。這表明近年來科研人員對該領(lǐng)域的關(guān)注和研究越來越多,目前研究正處于穩(wěn)定發(fā)展的階段。由此推測,今后該研究方向文獻仍將會保持一定的增長速度,進一步達到研究的成熟階段。
從各國相關(guān)文獻的發(fā)文量看,美國以發(fā)文量444 篇,占比66.87%位居榜首,中國則以發(fā)文量150篇,占比22.59%位居第2,雖然我國發(fā)文量已位居第2,但與美國相比仍存在一定差距。分析其原因可能由于SEER 數(shù)據(jù)庫僅部分?jǐn)?shù)據(jù)免費對外開放,這在一定程度上限制了國人對SEER 數(shù)據(jù)庫資源的使用;其次,PubMed 數(shù)據(jù)庫僅收錄我國乳腺癌研究領(lǐng)域影響力較高的期刊,其余發(fā)表在未被PubMed 數(shù)據(jù)庫收錄的中文雜志中的文獻無法統(tǒng)計在內(nèi),這也是本研究中我國學(xué)者發(fā)表相關(guān)文獻所占比例低于美國的一個重要原因。但由于我國人口基數(shù)大,人均發(fā)文量與美國相距甚遠,因此我國的研究者應(yīng)加大對該領(lǐng)域研究投入,吸取國外優(yōu)秀科研經(jīng)驗,加強與國外權(quán)威科研機構(gòu)合作,從而提高我國的學(xué)術(shù)生產(chǎn)力,增強我國的學(xué)術(shù)影響力。
該領(lǐng)域發(fā)文量排名前10 的期刊相關(guān)發(fā)文量為288 篇,占總發(fā)文量的43.39%,可見發(fā)文期刊呈中心性聚集分布。該領(lǐng)域發(fā)文量最多的期刊為Breast Cancer Research And Treatment,有96 篇,占總發(fā)文量的14.46%,除了英國的Breast 期刊,其余9 種期刊均為美國出版的,說明美國在該領(lǐng)域的研究具有相當(dāng)?shù)牡匚缓陀绊懥?。發(fā)文量3 篇以上的8 位作者共發(fā)表文獻29 篇,占該領(lǐng)域所有已發(fā)表文獻的9.42%,發(fā)文量3 篇以上的8 位作者中美國作者最多,共有6 位,中國和埃及各1 位,說明中國學(xué)者在此領(lǐng)域仍需努力。
學(xué)術(shù)論文是學(xué)術(shù)成果的主要呈現(xiàn)方式,其被引用次數(shù)是衡量學(xué)術(shù)價值的一種尺度。通常情況下,一篇文章被引用次數(shù)越多,說明這篇文章的可參考度越高,其在領(lǐng)域內(nèi)所具有的影響力往往也越大,受關(guān)注度越高[10]。在高被引排序前10 的文獻中,我國未上榜,這再次表明,要提高我國研究的質(zhì)量,需要給予更多的關(guān)注。
在科學(xué)評價計量研究方面,使用可視化知識圖譜是眾多學(xué)者的選擇。Citespace 和VOSviewer 是當(dāng)前兩款熱門的知識圖譜軟件,研究發(fā)現(xiàn)Citespace 軟件在揭示學(xué)科的動態(tài)發(fā)展規(guī)律,發(fā)現(xiàn)學(xué)科的研究前沿上有一定的優(yōu)勢[11],而對學(xué)科主題之間的關(guān)系進行清晰的呈現(xiàn)、或者數(shù)據(jù)量非常大的時候,可以選取由荷蘭萊頓大學(xué)Nees Jan van Eck 教授開發(fā)的VOSviewer 軟件繪制知識圖譜[12]。對文本主題中的主題詞及副主題詞進行可視化分析,從可視化圖中可以看出2010~2019 年主要側(cè)重于以下3 個研究方向,“生存分析”“臨床研究”及“危險因素”,表明近年來乳腺癌領(lǐng)域的研究熱點集中于此。生存分析:乳腺癌是女性常見惡性腫瘤之一,其發(fā)病率呈逐年上升趨勢,但乳腺癌總體預(yù)后較好,尤其是早期病例[13]。本研究可以看出近年來越來越多的研究都在關(guān)注乳腺癌預(yù)后生存狀況。臨床研究:本研究顯示,基于SEER 數(shù)據(jù)庫的乳腺癌早期研究中主要熱點為乳腺癌患者的臨床研究,關(guān)鍵詞包括“woman”“retrospective cohort study”和“seer medicare data”等,這表明SEER 數(shù)據(jù)庫作為北美最大最具代表性的數(shù)據(jù)庫之一,越來越多的受到醫(yī)務(wù)工作者的重視,提示我們可以建立屬于自己的數(shù)據(jù)庫,為廣大醫(yī)務(wù)工作人員提供強有力的數(shù)據(jù)支持。危險因素:乳腺癌患者的危險因素關(guān)鍵詞包括“incidence”“ethnicity”和“higher risk”等,以往的研究表明乳腺癌的危險因素與年齡[14]、種族[15]、婚姻[16]、飲食習(xí)慣、肥胖[17]、生育狀況[18]、精神壓力[19]等密切相關(guān)。
盡管SEER 數(shù)據(jù)庫為我們提供了大量寶貴的臨床資料,但不可否認(rèn)的是,由于SEER 數(shù)據(jù)庫及PubMed 數(shù)據(jù)庫自身的局限性,目前的研究尚存在著一些不足之處。一方面SEER 數(shù)據(jù)庫未能提供患者接受內(nèi)分泌治療以及詳盡的化療方案信息,有關(guān)HER-2 表達情況于2010 年開始加入,對于患者復(fù)發(fā)轉(zhuǎn)移的情況沒有公開等,這給研究者帶來了一定的局限性,但也提示我們可以建立屬于自己的數(shù)據(jù)庫,為廣大醫(yī)務(wù)工作人員提供強有力的數(shù)據(jù)支持。另一方面PubMed 是使用最廣泛的文獻計量分析數(shù)據(jù)源,但它并不包含所有生物醫(yī)學(xué)期刊,偏向于英文期刊;此外,通訊作者的地址不一定與進行研究的國家有關(guān),如許多來自美國以外的學(xué)者在美國發(fā)表論文。
綜上所述,本研究發(fā)現(xiàn),美國是基于SEER 數(shù)據(jù)庫的乳腺癌相關(guān)研究領(lǐng)域的主導(dǎo)力量,我國與美國相比還存在一定的差距,我國的研究者應(yīng)充分利用資源,吸取國外優(yōu)秀科研經(jīng)驗,提高學(xué)術(shù)生產(chǎn)力,增強我國的學(xué)術(shù)影響力。