靳 楊 徐路路
(首都醫(yī)科大學(xué)附屬北京安貞醫(yī)院 北京100029) (南開(kāi)大學(xué)信息資源管理系 天津 300071)
分析醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)研究前沿主題信息可有效揭示出該領(lǐng)域新材料、新技術(shù)和新方法,從而優(yōu)化布局發(fā)展[1]。如何從海量醫(yī)學(xué)科技文獻(xiàn)中識(shí)別研究前沿并對(duì)未來(lái)發(fā)展方向進(jìn)行預(yù)測(cè)分析成為亟需解決的問(wèn)題。但目前科學(xué)研究前沿存在諸多問(wèn)題,如數(shù)據(jù)源單一(論文為主)、語(yǔ)義理解不足、多數(shù)據(jù)源無(wú)法交叉融合等,制約文本內(nèi)容主題探測(cè)的有效性和準(zhǔn)確度[2],論文數(shù)據(jù)主題豐富但其研究前沿探測(cè)的前瞻性受到廣泛質(zhì)疑,規(guī)劃文本等蘊(yùn)含更多前瞻價(jià)值信息但主題粒度較大[3]。本文分析醫(yī)學(xué)科學(xué)研究前沿中存在的主要問(wèn)題和不足,提出WordNet本體語(yǔ)義增強(qiáng)和多源數(shù)據(jù)主題貢獻(xiàn)度分析,識(shí)別論文、基金項(xiàng)目數(shù)據(jù)以及專利文獻(xiàn)中的石墨烯材料在醫(yī)學(xué)領(lǐng)域的前沿主題。利用本體庫(kù)WordNet豐富和拓展主題詞語(yǔ)義信息,基于不同文本特征要素分析進(jìn)行主題貢獻(xiàn)度融合,構(gòu)造多源數(shù)據(jù)融合的科學(xué)研究前沿探測(cè)公式,從而揭示石墨烯新材料領(lǐng)域競(jìng)爭(zhēng)發(fā)展態(tài)勢(shì),為優(yōu)化戰(zhàn)略部署和重點(diǎn)領(lǐng)域大勢(shì)研判提供情報(bào)支撐[4]。
WordNet是普林斯頓大學(xué)Miller于1985年組織語(yǔ)言及心理學(xué)相關(guān)領(lǐng)域?qū)<议_(kāi)發(fā)的大型英文詞匯數(shù)據(jù)庫(kù)[5],采用語(yǔ)義網(wǎng)絡(luò)作為其詞匯概念本體的基本組成形式,將不同詞匯以不同分類組織形式關(guān)聯(lián)融合,形成語(yǔ)義本體。多年來(lái)眾多學(xué)者基于WordNet豐富的語(yǔ)義描述能力及詞匯覆蓋度展開(kāi)相關(guān)研究。1998年Fellbaum C等基于基準(zhǔn)語(yǔ)義消歧方法與融合WordNet相關(guān)詞語(yǔ)進(jìn)行語(yǔ)義相似度計(jì)算,實(shí)驗(yàn)證明該方法使排歧準(zhǔn)確度有所提高[6]。2011年王瑞琴等將WordNet本體和WordNet Domains擴(kuò)展庫(kù)作為消歧數(shù)據(jù)源,利用查詢擴(kuò)展技術(shù)建立查詢關(guān)鍵詞和本體概念的映射,提高信息檢索準(zhǔn)確度,滿足多樣化檢索需求[7]。2013年張澤宇等針對(duì)語(yǔ)義標(biāo)注效率低下的問(wèn)題提出基于WordNet語(yǔ)義知識(shí)的文檔標(biāo)注方法,實(shí)現(xiàn)對(duì)科技文獻(xiàn)的有效標(biāo)注與識(shí)別[8]。2015年X Zhu利用WordNet在線語(yǔ)義詞典提出基于語(yǔ)義和邊權(quán)重的相似度計(jì)算方法,MC30和RG65測(cè)試集實(shí)驗(yàn)分析表明該方法在計(jì)算性能和效率的優(yōu)越性[9]。針對(duì)主題粒度較大的文本,如規(guī)劃文本、基金項(xiàng)目數(shù)據(jù)等,利用WordNet拓展其語(yǔ)義信息作為主題內(nèi)容的補(bǔ)充,進(jìn)而利用主題概率識(shí)別模型識(shí)別其蘊(yùn)含的前沿主題是未來(lái)前沿探測(cè)的有效方法之一。
1965年P(guān)rice從引用次數(shù)維度首次定義科學(xué)研究前沿[10]。1973年H.Small將同被引文獻(xiàn)的聚類分布結(jié)果定義為科學(xué)研究前沿[11],圍繞研究前沿內(nèi)涵展開(kāi)研究的還有O.Persson提出的高同被引文獻(xiàn)關(guān)聯(lián)的施引文獻(xiàn)群以及E.Garfield提出的被引聚類的核心文獻(xiàn)和引用該論文的最新文獻(xiàn)研究前沿的概念[12-13]。2011年張士靖等利用共被引分析和共詞聚類分析方法對(duì)醫(yī)學(xué)健康領(lǐng)域研究熱點(diǎn)和前沿主題進(jìn)行追蹤并利用Ucinet進(jìn)行可視化分析[14]。2012年冷伏海等提出基于案例分析的科學(xué)前沿探測(cè)新方法,利用因子分析、戰(zhàn)略坐標(biāo)等多種方法綜合分析學(xué)科領(lǐng)域研究前沿[15],相關(guān)研究者還有白如江[16]、牟冬梅[17]等。研究前沿的有效探測(cè)對(duì)于學(xué)科未來(lái)發(fā)展規(guī)劃具有重要指導(dǎo)意義。
為更加準(zhǔn)確前瞻地識(shí)別出多種科技文本中蘊(yùn)含的科學(xué)研究主題,本文提出基于WordNet語(yǔ)義增強(qiáng)和多源信息主題貢獻(xiàn)度分析的科學(xué)研究前沿探測(cè)方法,對(duì)基金項(xiàng)目、論文、專利等數(shù)據(jù)進(jìn)行主題貢獻(xiàn)度分析并利用本體語(yǔ)義研究技術(shù)對(duì)探測(cè)得到的主題信息進(jìn)行語(yǔ)義增強(qiáng)以提高主題探測(cè)的科學(xué)性和準(zhǔn)確度。
主題概率識(shí)別模型可模擬科技文獻(xiàn)生成過(guò)程,通過(guò)參數(shù)估計(jì)和先驗(yàn)概率抽取其主題信息,實(shí)現(xiàn)文本內(nèi)容深度挖掘,是目前前沿識(shí)別中重要方法。然而該方法也存在不足,側(cè)重于量化統(tǒng)計(jì)和概率分布研究,忽略科技文本語(yǔ)義理解和詞匯語(yǔ)義關(guān)聯(lián),如對(duì)energies和energy、application和using等詞形不同但詞義相同的主題詞無(wú)法有效識(shí)別并權(quán)重疊加,另外也產(chǎn)生較多的噪音數(shù)據(jù),降低前沿準(zhǔn)確性和科學(xué)性。語(yǔ)義角色標(biāo)注可對(duì)科技文獻(xiàn)內(nèi)容信息進(jìn)行分析及解讀,增強(qiáng)語(yǔ)義信息理解,目前主要方法有語(yǔ)義角色標(biāo)注(句子粒度淺層語(yǔ)義分析)和基于本體語(yǔ)義增強(qiáng)研究(詞語(yǔ)粒度概念映射)兩種?;诒倔w語(yǔ)義分析方法可將表征研究前沿信息的主題詞語(yǔ)義映射,進(jìn)而識(shí)別其上位詞(hypernym)、近義詞(homoionym)等語(yǔ)義信息,歸類同語(yǔ)義信息關(guān)鍵詞并調(diào)整權(quán)重分配,深入挖掘概念語(yǔ)義類型,其中WordNet是較為成熟的英文語(yǔ)義本體庫(kù)。本文提出基于主題概率識(shí)別模型的語(yǔ)義增強(qiáng)方法,將主題詞袋概念映射為概念詞袋以增強(qiáng)其語(yǔ)義信息,調(diào)整主題詞分布及權(quán)重,以提高科學(xué)研究探測(cè)的準(zhǔn)確度?;谥黝}概率模型語(yǔ)義增強(qiáng)處理,見(jiàn)圖1。
圖1 基于主題概率模型語(yǔ)義增強(qiáng)處理
科學(xué)研究前沿蘊(yùn)含在不同的科技文本數(shù)據(jù)源中,如基金項(xiàng)目、專利文本、論文數(shù)據(jù)等,且不同數(shù)據(jù)源具有不同文本特征和要素,因此不應(yīng)以單一論文數(shù)據(jù)為分析數(shù)據(jù)源,擴(kuò)展數(shù)據(jù)源類型進(jìn)行多源數(shù)據(jù)主題交叉融合識(shí)別是重要發(fā)展趨勢(shì)?;痦?xiàng)目是由國(guó)家組織部署相關(guān)研究機(jī)構(gòu)實(shí)施的科技創(chuàng)新任務(wù),其經(jīng)過(guò)專家論壇探討往往代表相關(guān)學(xué)科優(yōu)先領(lǐng)域,研究主題具有“將來(lái)時(shí)”屬性,利用基金項(xiàng)目進(jìn)行科學(xué)研究前沿分析在主題新穎度和前瞻性方面貢獻(xiàn)權(quán)重大,但同時(shí)基金項(xiàng)目數(shù)據(jù)文本量較小,主題較為宏觀,粒度較大而主題豐富度不足。專利文獻(xiàn)數(shù)據(jù)龐大且蘊(yùn)含著豐富的技術(shù)信息,是進(jìn)行情報(bào)分析和前沿識(shí)別的重要數(shù)據(jù)源,反映某學(xué)科領(lǐng)域的關(guān)鍵技術(shù)和方法流程,專利可視為基金項(xiàng)目當(dāng)前階段的具體部署和解決方案,具有“現(xiàn)在時(shí)”屬性,其前瞻信息價(jià)值較高,主題較為豐富。而論文數(shù)據(jù)從產(chǎn)生到發(fā)表再到引用需要一定時(shí)間,存在一定的滯后性,其“過(guò)去時(shí)”特征使其在前沿識(shí)別中前瞻性較低,但論文數(shù)量較多,主題豐富度較高。因此有效融合多源數(shù)據(jù)提高研究前沿水平十分必要。
本文分析研究前沿相關(guān)研究,利用不同階段的主題發(fā)展特性可以對(duì)科學(xué)研究前沿多主題類型進(jìn)行區(qū)分,即分為新興研究、熱點(diǎn)研究和未來(lái)研究前沿主題3種多源數(shù)據(jù)分析主題類型。主題強(qiáng)度是指學(xué)科主題的主題研究熱度及發(fā)展程度,可通過(guò)主題內(nèi)部關(guān)鍵詞頻次及權(quán)重表征學(xué)科主題強(qiáng)度。融合多源數(shù)據(jù)特征首先識(shí)別其主題強(qiáng)度并根據(jù)上述分析進(jìn)行貢獻(xiàn)度分析融合。主題強(qiáng)度指標(biāo)如下:
(1)
考慮多源數(shù)據(jù)主題豐富度和新穎度兩個(gè)參量,在主題粒度可利用主題概率模型予以表征,粒度大的主題其識(shí)別出的數(shù)值較大;主題前瞻價(jià)值則是根據(jù)上述分析設(shè)定相應(yīng)的主題前瞻價(jià)值系數(shù)。因此本文提出針對(duì)多源數(shù)據(jù)類型的科學(xué)研究前沿探測(cè)公式:
(2)
公式中α,β,λ為不同數(shù)據(jù)源的主題貢獻(xiàn)度系數(shù)以表征基金數(shù)據(jù)及專利論文在前沿探測(cè)中的主題貢獻(xiàn)度大小,3個(gè)子項(xiàng)分別為基金項(xiàng)目、專利及論文主題強(qiáng)度指標(biāo),利用貢獻(xiàn)度系數(shù)調(diào)諧統(tǒng)一,最終得到科學(xué)研究前沿探測(cè)公式(Research Front Detection Formula,RFDFz)。
石墨烯具有獨(dú)特的蜂窩納米結(jié)構(gòu),目前在分子化學(xué)、航空航天等領(lǐng)域取得廣泛應(yīng)用,分散性、生物相容性、親水性等特質(zhì)使其在生物醫(yī)學(xué)領(lǐng)域具有廣闊的應(yīng)用前景和價(jià)值。因此本文利用科學(xué)研究前沿探測(cè)方法識(shí)別石墨烯在生物醫(yī)學(xué)領(lǐng)域研究動(dòng)向。石墨烯生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)檢索,見(jiàn)表1。
表1 石墨烯生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)檢索
新興主題探測(cè)在于第一時(shí)間發(fā)現(xiàn)具有較大潛力而未引起廣泛關(guān)注的主題,因此將子時(shí)期單位設(shè)置為1年可較早識(shí)別短時(shí)間內(nèi)突發(fā)主題詞。為保證足夠數(shù)據(jù)進(jìn)行主題分析,本文以2008年為時(shí)間起始,以每年為時(shí)間單位進(jìn)行細(xì)粒度時(shí)間切片處理,得到10個(gè)子時(shí)期。實(shí)驗(yàn)發(fā)現(xiàn)權(quán)重系數(shù)α取0.4,β取0.35,λ取0.25效果最好。
4.3.1 參數(shù)設(shè)置與主題表征 選用Kmine實(shí)驗(yàn)平臺(tái)的LDA模型進(jìn)行主題識(shí)別。相關(guān)參數(shù)設(shè)置:No of topic主題數(shù)40;No of words per topic每個(gè)主題的詞數(shù)10;Alpha 0.5;Beta 0.1;No of iteration迭代次數(shù)2 000;No of thread線程數(shù)8;復(fù)雜度為100。對(duì)10個(gè)子時(shí)期(2008-2017年)的基金項(xiàng)目數(shù)據(jù)集進(jìn)行主題建模,得到主題-主題詞-項(xiàng)目序號(hào)的多維映射關(guān)系。對(duì)利用LDA模型得到的文檔-主題及主題-主題詞映射進(jìn)行語(yǔ)義處理,將主題詞袋概念映射為概念詞袋以增強(qiáng)其語(yǔ)義信息,合并同語(yǔ)義信息主題詞并調(diào)整主題詞分布及權(quán)重,使主題識(shí)別實(shí)驗(yàn)更為準(zhǔn)確和科學(xué)。WerdNet語(yǔ)義增強(qiáng)處理,見(jiàn)表2。選取2011年度主題識(shí)別對(duì)基于傳統(tǒng)主題概率模型方法和語(yǔ)義增強(qiáng)處理主題識(shí)別方法進(jìn)行對(duì)比,由表2中Topic0相關(guān)主題詞可知該主題主要描述石墨烯生物化學(xué)相關(guān)特性與納米級(jí)衍生物材料研究,其中材料(material)和材質(zhì)(materials)以及電子(electronic)和電流(electro)存在語(yǔ)義相關(guān),將同語(yǔ)義主題詞權(quán)重疊加使主題表達(dá)更為準(zhǔn)確,同時(shí)一定程度上增加低權(quán)重主題詞的識(shí)別效果,語(yǔ)義處理可細(xì)化主題識(shí)別效果。
表2 WordNet語(yǔ)義增強(qiáng)處理
續(xù)表2
4.3.2 石墨烯生物醫(yī)學(xué)前沿分析 其識(shí)別出3個(gè)熱門研究前沿主題,即兩個(gè)新興科學(xué)研究前沿主題及1個(gè)未來(lái)科學(xué)研究前沿主題。本部分結(jié)合探測(cè)主題詞及強(qiáng)度值進(jìn)行生物醫(yī)學(xué)領(lǐng)域應(yīng)用分析。(1)熱門研究前沿主題topic 0、topic 4和topic 8。該主題目前階段的重要研發(fā)熱點(diǎn)和科技競(jìng)爭(zhēng)區(qū)域主要圍繞氧化石墨烯生物探測(cè)器設(shè)備研發(fā)用于多肽蛋白質(zhì)等生物分子檢測(cè);分析羧基、羥基等諸多功能基團(tuán)對(duì)于熒光淬滅效率以及信號(hào)自動(dòng)放大等石墨烯生物應(yīng)用方面的探索。該領(lǐng)域目前研究成果較多、主題強(qiáng)度較多,是目前及未來(lái)一段時(shí)間內(nèi)的科技競(jìng)爭(zhēng)領(lǐng)域。(2)新興科學(xué)研究主題topic 2、topic 9。該主題屬于新興、具有較大未來(lái)發(fā)展?jié)摿Φ那罢翱茖W(xué)研究前沿主題,主要圍繞氧化石墨烯光學(xué)特性、生物光熱治療以及光儲(chǔ)存和數(shù)據(jù)保存等方面展開(kāi):光敏劑的載體對(duì)于腫瘤等細(xì)胞的周期作用機(jī)制探索以及石墨烯與亞甲藍(lán)等多種復(fù)合物光數(shù)據(jù)的保存等相關(guān)研究。該研究主題未來(lái)發(fā)展?jié)摿薮螅芯恐鸩介_(kāi)展在未來(lái)有望成為熱門主題。(3)未來(lái)科學(xué)研究主題topic 5。目前該主題的主題探測(cè)值低于平均水平,相關(guān)研究有待于進(jìn)一步開(kāi)展,但在未來(lái)有較大的研究潛在價(jià)值和應(yīng)用場(chǎng)景。主要圍繞石墨烯氧化抗菌性能、細(xì)胞膜結(jié)構(gòu)破壞以及石墨烯生物安全性和毒性作用機(jī)理研究,探究石墨烯顆粒大小、狀態(tài)以及其氧含量在生物毒性響應(yīng)研究;石墨烯材料對(duì)于紅細(xì)胞的脂質(zhì)雙分子層破壞作用研究。
本文針對(duì)目前研究中主要利用論文數(shù)據(jù)進(jìn)行科學(xué)研究前沿識(shí)別中存在的時(shí)滯性問(wèn)題以及在主題識(shí)別中欠缺語(yǔ)義理解而導(dǎo)致探測(cè)準(zhǔn)確度不足的問(wèn)題,提出基于本體WordNet語(yǔ)義增強(qiáng)和多源數(shù)據(jù)主題貢獻(xiàn)度分析的科學(xué)研究前沿探測(cè)方法,利用石墨烯生物醫(yī)學(xué)領(lǐng)域的實(shí)證研究,采用文獻(xiàn)調(diào)研方法,驗(yàn)證本文提出多源數(shù)據(jù)分析的科學(xué)研究前沿識(shí)別方法的可行性和有效性。未來(lái)將圍繞石墨烯生物醫(yī)學(xué)應(yīng)用研究展開(kāi)進(jìn)一步研究,拓展分析數(shù)據(jù)源并構(gòu)建針對(duì)多源數(shù)據(jù)的綜合研究前沿識(shí)別框架,為我國(guó)科學(xué)研究提供決策支撐和部署建議。