徐 爽,許 丹,韓 爽,楊 穎
(中國醫(yī)科大學(xué)圖書館,沈陽 110122)
2002年,Kleinberg[1]提出了突發(fā)監(jiān)測(burst de‐tection)算法,該算法是統(tǒng)計出低頻但卻比高頻詞更具有情報意義的突發(fā)詞,來探測學(xué)科前沿的方法[2]。突發(fā)是指一個變量的值在短時間內(nèi)發(fā)生了一次或數(shù)次顯著的變化[3]。如果一個詞在特定時間內(nèi)詞頻發(fā)生突變,即相對增長率突然上升,那么這個詞稱為突發(fā)詞[4]。突發(fā)詞按詞頻高低分為兩類:一類是相對詞頻較高,但尚未達(dá)到高頻詞閾值的焦點詞,這類詞被科研人員關(guān)注已久,影響力基本趨于穩(wěn)定,并逐步向高頻詞靠近;另一類是低頻新生詞,這類詞是該學(xué)科的新興研究熱點,尚未引起該領(lǐng)域的普遍關(guān)注,正處于發(fā)展階段[5]。Kleinberg[6]認(rèn)為,一個詞出現(xiàn)時的密度決定該詞的重要性。突發(fā)詞強(qiáng)度不單單受時間或詞頻的制約,在密度上對揭示學(xué)科前沿動態(tài)更具有及時性和情報價值[7]。突發(fā)監(jiān)測算法不是單純地統(tǒng)計某一領(lǐng)域特定時間內(nèi)的詞頻變化,而是對詞頻增長率進(jìn)行比較,及時發(fā)現(xiàn)未達(dá)到高頻詞閾值的突發(fā)詞,其更注重學(xué)科內(nèi)新的發(fā)展方向或熱點轉(zhuǎn)移,有助于發(fā)現(xiàn)和推動學(xué)科領(lǐng)域中的潛在微觀因素[8]。突發(fā)監(jiān)測算法在挖掘某個學(xué)科領(lǐng)域未來的研究熱點方面,與其他同類詞頻分析方法相比,更能及時地揭示學(xué)科前沿動態(tài)[2]。
Kleinberg的突發(fā)監(jiān)測算法是新興趨勢探測(emerging trend detection,ETD)[9]的重要方法之一,此方法一經(jīng)提出便備受學(xué)術(shù)界的關(guān)注。Mane等[10]選取了美國科學(xué)院院刊(Proceedings of the National Academy of Sciences of the United States of America,PNAS)中1982—2001年所有高頻詞中突發(fā)權(quán)重指數(shù)較大的前50個詞進(jìn)行共詞分析;Ke等[11]用突發(fā)監(jiān)測的方法揭示了美國計算機(jī)學(xué)會數(shù)據(jù)庫(ACM Digital Library)中信息可視化研究熱點的發(fā)展趨勢。國內(nèi)基于突發(fā)監(jiān)測算法的研究多集中于應(yīng)用陳超美教授開發(fā)的CiteSpace的突發(fā)監(jiān)測功能。Chen[12]認(rèn)為,突發(fā)詞的探測有助于發(fā)現(xiàn)學(xué)科發(fā)展中處于上升階段的熱點動態(tài),更能夠推斷學(xué)科的前沿方向。這類研究基于詞頻分析角度,從文獻(xiàn)的標(biāo)題、摘要、主題詞等信息中提取出詞頻突發(fā)的專業(yè)術(shù)語概念,并用知識圖譜的方式展示出突發(fā)詞網(wǎng)絡(luò)[13]。楊選輝 等[14-15]以CNKI(China National Knowledge Infra‐structure)中“深閱讀”和“關(guān)聯(lián)數(shù)據(jù)”研究文獻(xiàn)為基礎(chǔ)數(shù)據(jù),利用CiteSpaceⅢ的突發(fā)監(jiān)測功能分析兩個領(lǐng)域的研究熱點和新興趨勢;尚曉倩[16]以Web of Science核心合集中“Altmetrics”研究主題為數(shù)據(jù)來源,借助CiteSpaceⅢ繪制突發(fā)詞共現(xiàn)時區(qū)視圖,探究國際Altmetrics領(lǐng)域的熱點主題及未來發(fā)文趨勢;鄭樂丹[17]利用CiteSpaceⅡ中的突發(fā)監(jiān)測功能對CSSCI(Chinese Social Sciences Citation Index)中“數(shù)字圖書館”研究文獻(xiàn)進(jìn)行可視化分析,挖掘數(shù)字圖書館領(lǐng)域的新興研究趨勢。此外,也有一些學(xué)者對突發(fā)監(jiān)測算法進(jìn)行擴(kuò)展研究,以期提高突發(fā)主題的識別率。Zhou等[18]對突發(fā)定義進(jìn)行創(chuàng)新提出了上升突發(fā)(increasing burst)和下降突發(fā)(de‐creasing burst);Chen等[19]引入持續(xù)因子(lasting factor)和突變因子(abrupt factor)進(jìn)而提出持續(xù)性突發(fā)與突變性突發(fā);李勇等[20]認(rèn)為,固定的時間窗口有可能會割裂某些主題隨著時間的變化曲線而出現(xiàn)虛假突發(fā)主題,因此,其設(shè)計了在動態(tài)時間窗口內(nèi)計算突發(fā)詞的基礎(chǔ)概率,并對比了基于全局概率和環(huán)境概率計算得出的突發(fā)權(quán)重對于較小突發(fā)的識別效率;李秀霞等[21]認(rèn)為,Kleinberg算法對于近期的突發(fā)詞敏感性較弱,其提出了一種基于加權(quán)中值相關(guān)系數(shù)和半閾值策略的突發(fā)詞監(jiān)測方法,并應(yīng)用于“教育虛擬社區(qū)”研究領(lǐng)域的熱點話題分析。突發(fā)監(jiān)測的方法也是大數(shù)據(jù)時代話題監(jiān)測與追蹤方面的關(guān)鍵技術(shù)之一[22-24]。
然而,多數(shù)學(xué)者應(yīng)用突發(fā)監(jiān)測算法對某一學(xué)科領(lǐng)域主題演進(jìn)趨勢的分析往往是覆蓋全領(lǐng)域的探測。全局突發(fā)監(jiān)測對于一個相對比較大的學(xué)科來說,獲得的突發(fā)詞可能分散在不同的子領(lǐng)域中,突發(fā)詞與突發(fā)詞之間的聯(lián)系并不緊密,甚至毫無關(guān)聯(lián)。而對于某學(xué)科的專家來說,想要了解自己研究領(lǐng)域的前沿,用全局探測的方法則難以實現(xiàn)。尤其是在醫(yī)學(xué)領(lǐng)域中,研究方向紛繁復(fù)雜、異質(zhì)性強(qiáng),單純疾病研究就分為臨床研究和基礎(chǔ)研究,而臨床研究又包括病因、癥狀、診斷、治療等研究方向,基礎(chǔ)研究又劃分為病理、生理、藥理,等等[25]。如果臨床醫(yī)生想要了解疾病某一方面的發(fā)展趨勢,即使在數(shù)據(jù)采集階段加以限制,也難以避免噪聲詞對研究過程的干擾。因此,本文從分析流上進(jìn)行了突破,提出了一種突發(fā)監(jiān)測與語義分析相結(jié)合的方法,放大特定研究方向上的局部熱點變化趨勢,力求最大化除噪率[26],并兼顧漏爆率[27],以期得到某一研究領(lǐng)域指定研究方向的主題發(fā)展脈絡(luò)藍(lán)圖及前沿走勢。
語義分析是對各級語言單元的意義分析,即對字、詞、短語、句子、段落、篇章的語義內(nèi)容及組合規(guī)律的分析[28]。語義分析通過對文本信息的歸納、總結(jié)和推理,辨識出事物或事件之間的關(guān)系,并及時有效地反饋知識[29],是自然語言處理和人工智能的關(guān)鍵技術(shù)之一。通過語義分析識別具有特定語義關(guān)系的術(shù)語單元,結(jié)合突發(fā)監(jiān)測算法計算術(shù)語單元的突發(fā)權(quán)重指數(shù),從而洞悉特定領(lǐng)域發(fā)展脈絡(luò)及主題演進(jìn)的一組術(shù)語概念集合。目前,基于突發(fā)監(jiān)測算法的研究主要是方法學(xué)介紹或應(yīng)用于圖書情報學(xué)領(lǐng)域,尚無此方法在醫(yī)學(xué)或公共衛(wèi)生領(lǐng)域中的研究報道。應(yīng)用SemRep(semantic representation)根據(jù)一體化醫(yī)學(xué)語言系統(tǒng)(unified medical language system,UMLS)對SARS藥物治療文獻(xiàn)進(jìn)行語義分析,提取治療SARS的藥物術(shù)語概念集,排序后得到治療SARS的常規(guī)藥物。根據(jù)Kleinberg突發(fā)監(jiān)測算法公式計算術(shù)語概念集中突發(fā)概念的突發(fā)權(quán)重指數(shù),形成治療SARS的藥物突發(fā)詞頻表,根據(jù)局部熱點的突發(fā)方向得出治療SARS的潛力藥物。本文在新型冠狀病毒(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)肺炎疫情全球暴發(fā)流行的背景下,試圖提出一種快速構(gòu)建某種疾病治療藥物歷史與前沿的方法,為新型冠狀病毒藥物治療提供線索。
突發(fā)監(jiān)測算法與語義分析相結(jié)合,超越了單純突發(fā)監(jiān)測方法簡單直接的數(shù)據(jù)挖掘呈現(xiàn),借助語義關(guān)系洞悉知識本質(zhì)。從知識集合中,尋找有意義的關(guān)聯(lián),挖掘事物變化的規(guī)律,預(yù)測熱點主題的演進(jìn)趨勢,則需要將兩股力量進(jìn)行整合,從而實現(xiàn)某學(xué)科領(lǐng)域中特定研究方向上術(shù)語概念集的模型構(gòu)建[30],如圖1所示。
圖1 突發(fā)監(jiān)測算法與語義分析相結(jié)合的數(shù)據(jù)模型分析框架
以“Severe Acute Respiratory Syndrome”為主題詞、“drug therapy”為副主題詞,"Severe Acute Re‐spiratory Syndrome/drug therapy"[Mesh]為檢索策略在PubMed中檢索2003—2019年間的數(shù)據(jù),獲得SARS藥物治療相關(guān)文獻(xiàn)382篇。其中,文獻(xiàn)類型限定為Journal Article、Clinical Trial、Clinical Trial,Phase I、Clinical Trial,Phase II、Clinical Trial,Phase III、Clini‐cal Trial,Phase IV、Controlled Clinical Trial、Ran‐domized Controlled Trial、Comparative Study、Multi‐center Study、Technical Report等。這些文獻(xiàn)類型能夠體現(xiàn)原始實驗數(shù)據(jù)的表象,直接反映學(xué)科前沿動態(tài),剔除綜述等回顧性研究的文獻(xiàn)類型,存儲為MEDLINE格式。
2.3.1 Semantic Representation(SemRep)
SemRep是美國國立醫(yī)學(xué)圖書館開發(fā)的一種基于UMLS用于提取自然語言語義關(guān)系的程序[31]。UMLS是美國國立醫(yī)學(xué)圖書館(National Library of Medicine,NLM)自1986年起研究和開發(fā)的通過提取自然語言語義關(guān)系的方式進(jìn)行數(shù)據(jù)挖掘的軟件,主要用于解決不同人群或不同數(shù)據(jù)庫對于同一概念表述不同,以及數(shù)據(jù)庫檢索分散所造成的檢索不完整的問題,是實現(xiàn)跨數(shù)據(jù)庫一體化檢索的詞匯轉(zhuǎn)換系統(tǒng)[32]。SemRep借助UMLS的專家辭典和MedPost詞性標(biāo)注器實現(xiàn)語義分析[33],從MEDLINE格式的生物醫(yī)學(xué)文本句子中,提取形如“主|謂|賓”的三元組,稱為語義述謂項(semantic predication)[34]。語義述謂項包括一個主語、一個賓語,以及連接主語與賓語之間的語義關(guān)系謂詞。每個語義關(guān)系謂詞的主語和賓語均源自UMLS超級敘詞表,它們之間存在的關(guān)系是UMLS語義網(wǎng)絡(luò)通過135種語義類型為其提供的相互關(guān)系結(jié)構(gòu)[35]。主語和賓語形成存在語義關(guān)系的概念對,由于概念對是在一個句子中提取的,因此,實現(xiàn)了概念間細(xì)粒度語義關(guān)系的表達(dá)[33]。SemRep處理結(jié)果逐條顯示從文獻(xiàn)中提取的概念以及概念之間的關(guān)系。
2.3.2 SemRep語義結(jié)果處理系統(tǒng)
利用閆雷、劉春鶴等開發(fā)的SemRep語義結(jié)果處理系統(tǒng)清洗SemRep輸出數(shù)據(jù)[31]。該系統(tǒng)可根據(jù)SemRep語義結(jié)果中指定的語義關(guān)系提取出相關(guān)概念,并統(tǒng)計出存在指定關(guān)系的有效概念的頻次,也可以將SemRep提取出來的所有關(guān)系按PMID(PubMed Unique Identifier)號或按概念進(jìn)行排序。
Kleinberg突發(fā)監(jiān)測算法,是指通過對突發(fā)詞進(jìn)行動態(tài)監(jiān)測的方法對詞語進(jìn)行突發(fā)分析[1],從兩個詞到達(dá)的時間間隔的角度來衡量時間序列的密度,從而監(jiān)測突發(fā)現(xiàn)象[36]。假定有n批數(shù)據(jù),第t批數(shù)據(jù)有d t篇文獻(xiàn),其中有γt篇文獻(xiàn)含有突發(fā)詞。令,其中,R表示n批數(shù)據(jù)中含有突發(fā)詞的文獻(xiàn)總數(shù);令,其中,D表示n批數(shù)據(jù)中的文獻(xiàn)總數(shù)。設(shè)有限狀態(tài)概率機(jī)為,其中k是突發(fā)狀態(tài)的個數(shù);s是控制概率機(jī)狀態(tài)差異顯著程度的規(guī)模參數(shù),s越大,兩個狀態(tài)的差異就越顯著,突發(fā)就越激烈;γ是控制概率機(jī)狀態(tài)改變的成本參數(shù),缺省值為1。假定在狀態(tài)qi(i≥0)下,含有突發(fā)詞的文獻(xiàn)在文獻(xiàn)集合中所占的比例為pi。p0=R/D為基狀態(tài);p i=p0si(s>1,i=0,1,…,k),p i為第i個狀態(tài)下,含有突發(fā)詞的文獻(xiàn)在文獻(xiàn)集合中所占的比例,pi≤1。假定概率機(jī)狀態(tài)出現(xiàn)的序列為qi=(qi1,…,qit,…,qin),其中,qit表示突發(fā)詞在第t批數(shù)據(jù)中的狀態(tài)為qi。在狀態(tài)qi下,突發(fā)詞出現(xiàn)的概率為pi服從二次多項式。根據(jù)q的貝葉斯條件式,概率機(jī)在第t批數(shù)據(jù)時仍然處于qi的成 本 是。從qi躍遷到qj的成本是τ(it,it+1)=(j-i)γlnn。突發(fā)權(quán)重指數(shù),代表從非突發(fā)狀態(tài)到突發(fā)狀態(tài)的躍遷成本,即突發(fā)權(quán)重越大,突發(fā)的可信度越高[38-39]。
突發(fā)權(quán)重指數(shù)公式化簡:
其中,r為該詞當(dāng)年的頻次;d為當(dāng)年文獻(xiàn)量;p0為10年內(nèi)該詞出現(xiàn)的(總頻次/總文獻(xiàn)量);pi=p0×si,s為突發(fā)閾值,取8~16為宜[1]。s越大,則兩個突發(fā)狀態(tài)之間的距離越大;s越小,則突發(fā)狀態(tài)越明顯??紤]到突發(fā)狀態(tài)敏感度,s取8最佳,故本文中s參照此方法取值[1]。
因此,weight=rln(8)+(d-r)ln[(1-p1)/(1-p0)]
PubMed數(shù)據(jù)庫SARS藥物治療研究文獻(xiàn)最早出現(xiàn)于2003年,這與當(dāng)年SARS疫情暴發(fā)流行的時間相符。2002年12月廣東省最早出現(xiàn)SARS疫情至2003年8月16日北京最后兩名SARS患者出院后[40],SARS病毒(SARS-CoV)僅存于實驗室中。SARS疫情結(jié)束后,相關(guān)藥物治療研究文獻(xiàn)呈逐年遞減趨勢,如圖2所示。2007年后,每年發(fā)表的研究文獻(xiàn)少于20篇,2014年后每年研究文獻(xiàn)少于10篇。本文截取文獻(xiàn)量大于20篇的前5年研究文獻(xiàn)作為數(shù)據(jù)源開展文獻(xiàn)計量學(xué)分析。
圖2 SARS藥物治療研究文獻(xiàn)發(fā)表數(shù)量
SemRep按照UMLS的規(guī)則將概念和關(guān)系輸出,其格式為15018130.ab.4|relation|C0035525|Ribavirin|nnon,phsu|phsu|||TREATS|C1175175|Severe Acute Respiratory Syn‐drome|dsyn|dsyn||其中,“15018130.ab.4”表示SemRep提取的概念和關(guān)系的位置,即在PMID為15018130的文獻(xiàn)摘要中第四句話;“Ribavirin”(利巴韋林)和“Severe Acute Respiratory Syndrome”(嚴(yán)重急性呼吸綜合征)是SemRep從這句話中提取出來的兩個有意義的共現(xiàn)概念;“C0035525”和“C1175175”是UMLS給這兩個概念分配的CUI號;“phsu”“dsyn”是UMLS賦予這兩個概念的語義類型,“phsu”代表“pharmacologic substance”表示“藥物”,“dsyn”代表“disease or syndrome”表示“疾病或綜合征”[41],即說明“Ribavirin”是一種“藥物”,“Severe Acute Respiratory Syndrome”是一種“疾病或綜合征”;“relation”表示“Ribavirin”和“Severe Acute Respiratory Syndrome”存在關(guān)系[42],兩個概念之間的語義關(guān)系是“TREATS”(治療),即“Ribavirin”可以治療“Severe Acute Respiratory Syndrome”。
利用SemRep語義結(jié)果處理系統(tǒng),查詢出語義關(guān)系為“TREATS”(包括“TREATS(INFER)”和“TREATS(SPEC)”)的目標(biāo)概念,每個語義關(guān)系系統(tǒng)提取2個概念。假設(shè)提取出的一組概念為:概念A(yù)“TREATS”概念B。在本文中,概念B按出現(xiàn)頻次高低依次為Severe Acute Respiratory Syndrome 48%、Patients 19%、Child 2.5%、Symptoms 2.5%、Respiratory Distress Syndrome Adult 1.8%、Virus Dis‐eases 1.8%等。由于在數(shù)據(jù)收集時已將文章主題限定為“Severe Acute Respiratory Syndrome/drug thera‐py”,因此,假定提取的概念B主要為SARS、SARS患者、SARS相關(guān)癥狀及并發(fā)癥等。本文只統(tǒng)計概念A(yù)的頻次,認(rèn)為概念A(yù)是可以“TREATS”SARS、SARS患者、SARS相關(guān)癥狀或并發(fā)癥的概念。另外,一種藥物可以在一篇文章中多次出現(xiàn),而重復(fù)統(tǒng)計沒有意義,故在同一年中PMID相同的概念A(yù)只統(tǒng)計一次,這樣可以減少概念重復(fù)出現(xiàn)造成的結(jié)果偏差。
SemRep語義結(jié)果處理系統(tǒng)的處理結(jié)果顯示,存 在“TREATS”(包 括“TREATS(INFER)”和“TREATS(SPEC)”)關(guān)系的概念共計75個。Thera‐peutic procedure、Pharmaceutical Preparations、Treat‐ment Protocols、Therapeutic agent(substance)、Diag‐nosis、Screening procedure、Assessment procedure、Advice、Meetings、Pharmacotherapy、Therapeutic Ef‐fect、Detection、Reporting、Application procedure等難以確定具體藥物的概念不在討論范圍內(nèi)。將表示同一種藥物或同一種治療方法的概念進(jìn)行合并,合并的概念包括Steroid therapy/Steroids、Immunoglobu‐lin G/Immunoglobulins,Intravenous/Immunomodulators/Immunotherapy、Antiviral Agents/Antiviral Therapy、Glucocorticoids/GLUCOCORTICOID THERAPY、Glu‐cocorticoids/GLUCOCORTICOID THERAPY、Lopina‐vir+ritonavir/Kaletra、Interferons/interferon alfacon-1/Interferon-beta、Chinese herbs/Chinese herbal medi‐cine。最終得到有效概念51個,統(tǒng)計這些概念每年出現(xiàn)的頻次,并計算5年的累計頻次。圖3為51種有效概念,即SARS常規(guī)治療藥物的頻次走勢。
圖3 SARS常規(guī)治療藥物研究的頻次趨勢(彩圖請見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)
將概念按詞頻高低進(jìn)行排序,表1列出了排在前10位的概念,從表1可知,排在前10位的常規(guī)藥物依次為Ribavirin(利巴韋林)、Adrenal Cortex Hormones(腎上腺皮質(zhì)激素)、Steroids/Steroid ther‐apy(類固醇)、Antiviral Agent/Antiviral Therapy(抗病毒藥/抗病毒治療)、Methylprednisolone(甲強(qiáng)龍)、Interferons/interferon alfacon-1/Interferon-beta(干擾素/干擾素α1/干擾素β)、Immunoglobulin G/Immunoglobulins, Intravenous/Immunomodulators/Im‐munotherapy(免疫球蛋白G/免疫球蛋白靜注/免疫調(diào)節(jié)劑/免疫療法)、Glucocorticoids/GLUCOCORTI‐COID THERAPY(糖皮質(zhì)激素/糖皮質(zhì)激素治療)、Chinese herbs/Chinese herbal medicine(中草藥)、Lopinavir+ritonavir/Kaletra(洛匹那韋+利托那韋/克力芝)。
表1 概念頻次排序一覽表(前10位)
根據(jù)突發(fā)權(quán)重指數(shù)公式,計算概念的突發(fā)權(quán)重指數(shù)。表2按突發(fā)權(quán)重指數(shù)的高低列出了存在突發(fā)現(xiàn)象的概念。從表2可見,排在前10位的潛力藥物依次為Dexamethasone(地塞米松)、Cathepsin L(組織蛋白酶L)、Protease Inhibitor(蛋白酶抑制劑)、Vaccines(疫苗)、adjuvant therapy(輔助治療)、Supportive care(支持性治療)、Inosine Mono‐phosphate Dehydrogenase Inhibitor(肌苷磷酸脫氫酶抑制劑)、Endopeptidases(內(nèi)肽酶)、Markers,Bone(標(biāo)記,骨)、Combined Modality Therapy(聯(lián)合治療)、Stimulation procedure(刺激治療)。
表2 概念突發(fā)排序一覽表(前20位)
SemRep篩選出的SARS常規(guī)藥物中,排在前10位的藥物大致分可以為四類:抗病毒藥、激素類藥物、免疫調(diào)節(jié)劑和中草藥,具體見表1。在SARS大流行的早期,利巴韋林和皮質(zhì)類固醇的聯(lián)合治療被中國香港、加拿大等地列入標(biāo)準(zhǔn)治療方案[43-44]。隨后的研究顯示,利巴韋林具有較高的毒性,在體外缺乏對SARS-CoV的抗病毒作用[43]。皮質(zhì)類固醇的大劑量應(yīng)用與SARS患者髖部骨密度降低有關(guān)[45]。SARS患者應(yīng)用類固醇或糖皮質(zhì)激素治療后,股骨頭壞死進(jìn)展的研究顯示:影響股骨頭壞死的因素有愈合活度、皮質(zhì)類固醇的劑量總和以及治療時間;影響骨密度的因素包括年齡、激素劑量總和以及治療時間;影響骨纖維和彈性的因素是使用激素治療的時間長短[46-47]。而SARS-CoV并不是直接影響股骨頭缺血性壞死和骨質(zhì)疏松的致病因素[47]。干擾素和免疫調(diào)節(jié)劑能夠抑制SARS-CoV復(fù)制[48]。洛匹那韋+利托那韋在SARS臨床治療效果上呈現(xiàn)出與療效的正相關(guān)關(guān)系[49]。與單用西藥相比,中草藥聯(lián)合西藥治療SARS在降低死亡率方面無顯著差異。中草藥聯(lián)合西藥可以改善SARS患者的癥狀、生活質(zhì)量和肺浸潤吸收程度,降低皮質(zhì)類固醇的用量[50]。這些SARS常規(guī)藥物在疫情發(fā)生時,主要應(yīng)用于臨床急救,甚至用于搶救危重患者的生命,其中還包括使用過量造成嚴(yán)重SARS后遺癥的激素類藥物。
根據(jù)突發(fā)監(jiān)測算法得到的SARS治療潛力藥物,大多數(shù)是在SARS疫情結(jié)束后進(jìn)行的實驗室研究,也包括動物實驗等形式。為了明確糖皮質(zhì)激素對SARS患者肺部的作用和潛在的免疫抑制機(jī)制,地塞米松作為一種長效類糖皮質(zhì)激素,用于感染豬呼吸冠狀病毒(PRCV)和SARS-CoV n蛋白誘導(dǎo)的大鼠肺炎的研究中[51-52]。SARS-CoV感染是由一個獨特的三步過程而引起的:病毒與受體結(jié)合、病毒誘導(dǎo)受體依賴性S蛋白構(gòu)象變化、組織蛋白酶L在核內(nèi)蛋白水解。組織蛋白酶L蛋白水解的需求確定了一種前所未有的用于SARS-CoV感染的抑制劑類別[53]。為了尋找有效的抗SARS-CoV肽抑制劑,11個可被SARS-CoV主要蛋白酶或3CL蛋白酶裂解的寡肽用于SARS-CoV蛋白酶抑制劑的設(shè)計[54]。通過利巴韋林等肌苷-磷酸脫氫酶抑制劑在BALB/c小鼠肺部抑制SARS-CoV復(fù)制的研究發(fā)現(xiàn),利巴韋林可能延長或增強(qiáng)病毒在肺部的復(fù)制,促進(jìn)SARS的發(fā)病[55]。這一研究解釋了常規(guī)藥物利巴韋林在疫情早期廣泛使用,而經(jīng)過后期的實驗證實其有毒性的原因,同時,也映射出高頻概念和突發(fā)概念在時間軸發(fā)展上的階段性特征。這類SARS潛力藥物不是臨床應(yīng)急性藥物,更多的是通過實驗從細(xì)胞水平分子層面上阻斷SARS病毒復(fù)制,試圖找到從根本上對抗SARS病毒的方法,以開發(fā)對SARS病毒起到直接作用的藥物或疫苗。
圖4列出了頻次大于2的突發(fā)權(quán)重指數(shù)排在前5位的概念,同時,也是突發(fā)權(quán)重指數(shù)大于0.8頻次排在前5位的概念,這些類概念同時具有突發(fā)性和高頻性,既是SARS藥物治療領(lǐng)域中的研究重點,又是潛在的研究趨勢。
圖4 高頻突發(fā)概念(前5位)
突發(fā)高頻概念和高頻突發(fā)概念并不完全重合,見表1和表2,由此可知,高頻詞和突發(fā)詞在判斷一個學(xué)科領(lǐng)域發(fā)展趨勢上的側(cè)重點不一致。高頻詞側(cè)重于該學(xué)科領(lǐng)域當(dāng)前的研究重點,本文中Sem‐Rep提取出的藥物是應(yīng)對SARS疫情的緊急治療方案;突發(fā)詞側(cè)重于該學(xué)科領(lǐng)域潛在的研究趨勢,利用突發(fā)監(jiān)測算法得到的藥物是SARS疫情結(jié)束后,對SARS病毒后續(xù)的研究方向。高頻詞主要記錄了學(xué)科的靜態(tài)表象,對于時間和頻次的動態(tài)變化并不敏感[56]。在探測學(xué)科新興趨勢方面,突發(fā)監(jiān)測算法要比高頻詞方法更能發(fā)現(xiàn)學(xué)科的動態(tài)發(fā)展變化。
本文得出的SARS治療藥物與《新型冠狀病毒感染的肺炎診療方案》的多個版本中[57-61]列入的部分藥物高度吻合,這可能與新型冠狀病毒的基因組分析表明該病毒與SARS-CoV有79.5%的相似性,均屬于SARS相關(guān)冠狀病毒(SARSr-CoV)[61]有關(guān),兩者均是通過血管緊張素轉(zhuǎn)化酶2(ACE2)受體入侵人體細(xì)胞[62]。潛力藥物能否在未來對抗SARSCoV-2中發(fā)揮作用,還有待醫(yī)學(xué)家進(jìn)一步驗證。本文為突發(fā)公共衛(wèi)生事件應(yīng)急措施提供了一個思路:突發(fā)疫情時,在沒有特效藥,沒有疫苗的情況下,可否借鑒既往相似疾病的研究,快速搜集相似疾病的治療藥物,在短時期內(nèi)“老藥新用”“拖住”病毒,延緩其擴(kuò)散能力,為抗病毒藥物和疫苗的研發(fā)搶出時間。
突發(fā)監(jiān)測算法中部分參數(shù)的設(shè)定存在一定的主觀性,特別是突發(fā)閾值s取值范圍較大,只能根據(jù)以往的研究估定一個值。參數(shù)k、γ的確定也具有主觀性,這些參數(shù)最終可能會影響最優(yōu)序列的選擇。突發(fā)監(jiān)測算法在詞的篩選、干擾詞的剔除以及參數(shù)的選擇時,對操作人員的專業(yè)素質(zhì)要求較高。雖然本文使用了全球公認(rèn)最大、最權(quán)威的生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫PubMed收集原始文獻(xiàn),但忽略了專利、會議論文、學(xué)位論文等文獻(xiàn)形式的收集,并且不能代替實驗室研究、臨床Ⅰ期、Ⅱ期、Ⅲ期、Ⅴ期等藥物研發(fā)必不可少的基本流程。
突發(fā)監(jiān)測方法是指通過觀察增長率驟然上升的詞的發(fā)展變化,來探測學(xué)科前沿的方法。這種方法可以觀察到低頻詞的變化趨勢,為學(xué)科前沿的探測提供了有益參考[63]。一個領(lǐng)域的研究方向眾多,對于全領(lǐng)域的詞頻統(tǒng)計在局部熱點的微觀變化上敏感性較差,很難追蹤特定研究方向的前沿動態(tài)。本文基于突發(fā)監(jiān)測算法的定義,設(shè)計了SemRep結(jié)合突發(fā)監(jiān)測的分析方法,在放大某一個領(lǐng)域特定研究方向的微觀變化上,體現(xiàn)出了一定的可行性。
本文利用SemRep結(jié)合突發(fā)監(jiān)測的方法,不僅可用于疾病藥物治療領(lǐng)域研究現(xiàn)狀以及發(fā)展趨勢的分析,也適用于各個學(xué)科研究熱點的挖掘。利用突發(fā)監(jiān)測的方法探測某學(xué)科領(lǐng)域潛在的熱點趨勢,為文本知識發(fā)現(xiàn)提供了一種新的嘗試。