,, ,
新異檢測的主要目的在于建立二分類器,已在眾多領(lǐng)域?qū)崿F(xiàn)應(yīng)用,如電子安全監(jiān)測系統(tǒng)、健康信息及醫(yī)學(xué)診斷檢測、復(fù)雜商業(yè)系統(tǒng)監(jiān)測及系統(tǒng)錯(cuò)誤檢測、圖像處理及視頻監(jiān)測、無線傳感器網(wǎng)絡(luò)監(jiān)測,以及文本挖掘領(lǐng)域。由于新異檢測的應(yīng)用領(lǐng)域廣泛,不同領(lǐng)域的數(shù)據(jù)特點(diǎn)不同(包括維度、格式、連續(xù)性),因此新異檢測缺少統(tǒng)一的方法。在各個(gè)領(lǐng)域中開展的新異檢測中,產(chǎn)生的各種計(jì)算方法按照假設(shè)理論的不同,可以劃分為5類:概率分析方法。通常對正常數(shù)據(jù)進(jìn)行密度值估算,假設(shè)訓(xùn)練數(shù)據(jù)中低密度值區(qū)域包含正常數(shù)據(jù)概率低。基于模型的方法(如神經(jīng)網(wǎng)絡(luò)算法)。利用訓(xùn)練數(shù)據(jù)構(gòu)建回歸模型,當(dāng)異常數(shù)據(jù)映射到回歸模型中,得到的回歸值與真實(shí)值差距是一個(gè)較高的探測值?;陬I(lǐng)域的方法。試圖通過訓(xùn)練數(shù)據(jù)劃定正常數(shù)據(jù)的邊界,建立一個(gè)包含的正常數(shù)據(jù)的領(lǐng)域?;诰嚯x的計(jì)算方法。假設(shè)異常數(shù)據(jù)距離正常數(shù)據(jù)較遠(yuǎn),有最近鄰計(jì)算方法以及聚類分析方法。信息計(jì)算技術(shù)(譬如墑?dòng)?jì)算,Kolmogorov計(jì)算方法)。計(jì)算訓(xùn)練數(shù)據(jù)中的信息含量,假設(shè)異常數(shù)據(jù)顯著的改變信息含量。其中,前3種方法需要充足的訓(xùn)練數(shù)據(jù),但實(shí)際檢驗(yàn)階段較為迅速。
文本挖掘領(lǐng)域的新異檢測是從給定的文獻(xiàn)集或新聞文獻(xiàn)中探測新主題或新事件[1]。2002-2004年連續(xù)舉辦的文本檢索領(lǐng)域權(quán)威的國際性評測會(huì)議TREC會(huì)議(Text Retrieval Conference,TREC)[2-4]進(jìn)行了語句級別的文本內(nèi)容新穎性探測賽事(Novelty Track),其中清華大學(xué)、中國科學(xué)院均使用了詞重疊法,表現(xiàn)優(yōu)異。國內(nèi)文獻(xiàn)關(guān)于主題新穎性探測較為經(jīng)典的是楊建林[5]的關(guān)于文獻(xiàn)主題新穎度計(jì)算。本文通過實(shí)證研究,證實(shí)其算法的計(jì)算結(jié)果與同行評價(jià)相一致。
本文涉及3個(gè)文本挖掘領(lǐng)域新異探測概念。
一是新穎性文獻(xiàn)。一定主題下,一篇文獻(xiàn)的主題內(nèi)容,對比其時(shí)間序列中排名在其之前的文獻(xiàn),對于讀者而言未曾見過,則這篇文獻(xiàn)為新穎性文獻(xiàn),否則認(rèn)為其不具備新穎性,其概念內(nèi)涵不包括文獻(xiàn)創(chuàng)造力評估。
二是新穎度。新穎度用來衡量當(dāng)前待探測文獻(xiàn)與之前出現(xiàn)的文獻(xiàn)相比,包含了多少新穎性的具體量化指標(biāo)。本文給定一個(gè)新穎度閾值,如果待探測文獻(xiàn)的新穎度大于該閾值,則認(rèn)為該文獻(xiàn)為新穎性文獻(xiàn)。新穎度實(shí)質(zhì)是相對值,如文獻(xiàn)A比文獻(xiàn)B新穎度大,表示文獻(xiàn)A比文獻(xiàn)B與之前文獻(xiàn)內(nèi)容重復(fù)的地方少。
三是文獻(xiàn)主題新穎性探測。文獻(xiàn)主題新穎性探測用于自動(dòng)識別主題新穎的文獻(xiàn)。在生物醫(yī)學(xué)科技文獻(xiàn)中,按時(shí)間排序,以文獻(xiàn)為單位進(jìn)行新穎性探測,找出帶有新穎性的文獻(xiàn)集合的探測過程。
在基礎(chǔ)醫(yī)學(xué)與臨床醫(yī)學(xué)的分類基礎(chǔ)上,選取近2年的查新課題,通過檢索獲得較為精確的、相關(guān)的檢索結(jié)果,交予專家組,保證評估時(shí)專家對文獻(xiàn)的掌握能力、評估結(jié)果的可信程度、分析過程的效率。選取生物醫(yī)學(xué)領(lǐng)域的8個(gè)研究主題(表1),利用PubMed數(shù)據(jù)庫,檢索出相關(guān)文獻(xiàn)。文獻(xiàn)標(biāo)題能夠反映該文獻(xiàn)的主要研究內(nèi)容及結(jié)論,故選擇保留檢索得到的相關(guān)文獻(xiàn)標(biāo)題作為實(shí)驗(yàn)文獻(xiàn)集合,詳見表1。
表1 實(shí)驗(yàn)主題及文獻(xiàn)數(shù)量列表
*學(xué)科領(lǐng)域按照中國國務(wù)院學(xué)位委員會(huì)和教育部《學(xué)位授予和人才培養(yǎng)學(xué)科目錄(2011)》(SCADC)[6]的醫(yī)學(xué)學(xué)科進(jìn)行分類
數(shù)據(jù)預(yù)處理的主要任務(wù)是將自然語言轉(zhuǎn)換為規(guī)范統(tǒng)一的生物醫(yī)學(xué)詞匯。因?yàn)閿⒃~能夠有效規(guī)范統(tǒng)一同一醫(yī)學(xué)概念的不同自然語言表達(dá),避免新穎度計(jì)算誤差。本文使用美國國立醫(yī)學(xué)圖書館開發(fā)的一體化醫(yī)學(xué)語言系統(tǒng)[7](Unified Medical Language System,UMLS)的超級敘詞表,運(yùn)用MetaMap[8]在線概念抽取軟件,選擇知識來源2017版本。將各個(gè)主題下的自然語言映射到超級敘詞表中的概念詞,運(yùn)用MetaMap概念抽取軟件[9]統(tǒng)計(jì)概念詞,并導(dǎo)入MySQL數(shù)據(jù)庫。在MySQL數(shù)據(jù)庫中提取標(biāo)題部分的語句數(shù)據(jù),刪除停用詞[10]。
詞重疊法(簡稱重疊法)一直用于語句級別的新穎性探測?;诠苍~的逆文檔頻率量化法(簡稱量化法)用于文獻(xiàn)主題新穎性探測,首次出現(xiàn)用于雜志評估。本文擬以文獻(xiàn)自然語言構(gòu)建數(shù)據(jù)集,從同一主題按時(shí)間排序的文獻(xiàn)中,運(yùn)用重疊法和量化法探測出新穎文獻(xiàn)。對比專家調(diào)查得出的新異結(jié)果,對新異探測方法進(jìn)行可行性評估及算法對比分析。
2.3.1 詞重疊法
設(shè)文獻(xiàn)j先于文獻(xiàn)i出現(xiàn),兩篇文獻(xiàn)的向量表示為:
Si=(W1(Si),W2(Si),…,WN(Si))
Sj=(W1(Sj),W2(Sj),…,WN(Sj))
其中,N為所有待探測語句經(jīng)自然語言處理得到的不同概念詞的總數(shù)。
語句新穎度[11]計(jì)算公式為:
OverlapNov(Si)=1-max(0 公式(1) 計(jì)算過程是先計(jì)算當(dāng)前語句與之前所有語句的詞重疊度,選擇重疊度最大的結(jié)果作為當(dāng)前語句與之前所有語句的重疊度,通過減法運(yùn)算計(jì)算出當(dāng)前語句的新穎度。 2.3.2 基于共詞的逆文檔頻率量化法 國內(nèi)學(xué)者楊建林基于文檔發(fā)表先后、關(guān)鍵詞對共現(xiàn)等原則提出了詞對逆文檔頻率(Inverse Document Frequercy of keyword Pair,KPIDF)的主題新穎度度量方法[5]。 文檔D中所有以其自身為參照的概念詞對逆語句頻率的平均值,稱為該文檔的新穎度,記為NOV(D),計(jì)算公式為: 公式(2) 其中ti、tj為文檔D的第i和第j個(gè)概念詞。若ti、tj為文檔D中共同出現(xiàn)的2個(gè)概念詞,在文檔D之前的所有文檔中同時(shí)包含概念詞ti、tj的文檔數(shù)記為N,則稱N+1為以文檔D為參照的概念詞對ti、tj的文檔頻率,稱N+1的倒數(shù)為以文檔D為參照的概念詞對ti、tj的時(shí)間逆文檔頻率,記為WPIDF(D,ti,tj),n為文檔D包含的概念詞的總個(gè)數(shù)。 2.4.1 參考答案 參考答案用于新異探測結(jié)果評價(jià)。通過調(diào)查問卷的形式,將每個(gè)主題的文獻(xiàn)發(fā)送至4組共計(jì)36位相關(guān)專家(表2),按照給定的順序閱讀文獻(xiàn),找出新穎性文獻(xiàn),標(biāo)識為1。其判斷標(biāo)準(zhǔn)同新穎性文獻(xiàn)標(biāo)準(zhǔn),即一定主題下,一篇文獻(xiàn)的主題內(nèi)容,對比其時(shí)間序列中排名在其之前的文獻(xiàn),對于評論專家而言具有未曾見過的信息。若每篇文獻(xiàn)有5位及以上專家標(biāo)識為新穎的文獻(xiàn),則記為新穎文獻(xiàn),標(biāo)記為1,否則為0。將本實(shí)驗(yàn)算法得出的新穎度列為一列,專家評分列為一列,利用Ruby語言進(jìn)行結(jié)果分析。 2.4.2 評估方法 ROC曲線[12](Receiver Operating Characteristics curve)于20世紀(jì)50年代在統(tǒng)計(jì)決策理論中被提出,用來說明分類器命中率和誤報(bào)警率的關(guān)系。Spackman[13]將ROC算法引入到機(jī)器學(xué)習(xí)研究領(lǐng)域中,并說明了ROC曲線評估算法細(xì)則,ROC被廣泛用來評估分類模型性能[14]。 通過使用AUC(area under the curve)來量化ROC曲線,并通過比較AUC值大小來評判分類模型性能。AUC的值越大,說明分類模型的性能越好。最理想的分類模型AUC值等于1,random分類模型AUC值為0.5。AUC在 0.5-0.7時(shí)的準(zhǔn)確性較低,在0.7-0.9時(shí)的準(zhǔn)確性一般,在0.9以上時(shí)的準(zhǔn)確性較高。 本文利用ROC曲線及AUC值評估2種新穎性探測方法,調(diào)用R語言library(pROC)[15]程序?qū)崿F(xiàn)證實(shí)新穎性探測方法對文獻(xiàn)主題新穎性判定的能力。選擇最佳閾值,即ROC曲線上假陽性和假陰性的總數(shù)最少的點(diǎn),對2種方法的性能進(jìn)行綜合對比分析。 表2 不同主題評估專家情況列表 主題1文獻(xiàn)的新穎度計(jì)算結(jié)果見表3(部分?jǐn)?shù)據(jù))。表3為主題1,即細(xì)胞自噬相關(guān)基因的調(diào)控作用,以新穎度計(jì)算結(jié)果。首先,我們對主題1超級敘詞的映射情況進(jìn)行分析,400篇文章映射出超級敘詞的數(shù)量從1到15不等,主要取決于標(biāo)題包含的信息。Metamap提取較為完全,如序號25的文獻(xiàn)提取出anabolism,autophagosome,autophagy,autophagy-related,rotein 8 family,function,mechanism,molecular,plants,social role等超級敘詞。如果提出序號348的文獻(xiàn)標(biāo)題為“TRPML3.”,其映射的超級敘詞為“mcoln3 gene”。2種算法的新穎度值均為1,說明之前347篇文章中均未出現(xiàn)該詞。 8個(gè)主題文獻(xiàn)新穎度均不服從正態(tài)分布。用中位數(shù)、四分位間距描述計(jì)算結(jié)果分布狀態(tài)見表4。 *No為metmap從文獻(xiàn)中抽取的詞數(shù)量,#參考答案判定為新穎性文獻(xiàn)標(biāo)識為1,否則為0 表4 8個(gè)主題語句計(jì)算結(jié)果統(tǒng)計(jì)學(xué)描述列表 觀察8個(gè)主題下新穎度計(jì)算結(jié)果的數(shù)據(jù)描述,中位數(shù)均值較小的是重疊法為0.8077,量化法為0.9358。兩種算法的均值較高,探測的新穎值均值大有以下原因:第一,因?yàn)楸疚臑楸WC參考答案獲取的正確性選取數(shù)據(jù)量偏少(132-571條之間),數(shù)據(jù)量少重復(fù)性可能降低,勢必造成新穎值大;第二,期刊刊發(fā)前會(huì)進(jìn)行查重、同行評議等,一定程度降低了文獻(xiàn)的重復(fù)程度;第三,量化法的均值較高,該方法將1篇文獻(xiàn)中的超級敘詞兩兩組配后,與前文對比取逆文檔頻率后求和,逆文檔頻率增加了新穎度值,即使與之前重復(fù)3次,亦有1/4的新穎度增值,而詞重疊法直接重疊便不計(jì)值。 四分位間距數(shù)均值較大的是詞重疊法為0.1890,逆文檔頻率量化法為0.1488。四分位間距越大,樣本數(shù)據(jù)分布越離散。結(jié)合中位數(shù)和四分位間距,認(rèn)為詞重疊法的新穎度計(jì)算結(jié)果波動(dòng)幅度較大,即詞重疊度算法的公式更加敏感,能夠?qū)⒏玫貙⒄Z句內(nèi)容間差異表現(xiàn)在數(shù)據(jù)上。 本文將8個(gè)主題文獻(xiàn)的新穎度計(jì)算結(jié)果集合入1個(gè)文檔(共計(jì)2 153篇),對2種算法進(jìn)行相關(guān)性分析,得出相關(guān)系數(shù)為0.7144,表示2種算法中度相關(guān)。 本文利用R語言對8個(gè)主題的兩種算法繪制ROC曲線(圖1),其中橫坐標(biāo)為假正率(特異度specificity),縱坐標(biāo)為真正率(敏感度sensitivity)。 圖1 主題1的2種算法的ROC曲線 圖1為主題1文獻(xiàn)集2種方法的ROC曲線,其最佳界閾值方法2為0.712(0.521,0.854),方法3為0.862(0.397,0.882)。R語言計(jì)算得出5個(gè)主題2種方法的AUC值見表5。 表5 8個(gè)主題2種方法的AUC值列表 若以學(xué)科領(lǐng)域區(qū)分,4個(gè)臨床醫(yī)學(xué)的重疊法AUC值均值為0.727,量化法AUC值均值為0.678;4個(gè)基礎(chǔ)醫(yī)學(xué)的重疊法值均值為0.753,量化法的均值為0.675,說明重疊法在基礎(chǔ)醫(yī)學(xué)數(shù)據(jù)的表現(xiàn)優(yōu)于臨床學(xué)科,量化法在2個(gè)學(xué)科的數(shù)據(jù)表現(xiàn)相差不大(僅0.03)。2種方法8個(gè)主題的AUC值數(shù)據(jù)均符合正態(tài)分布。采用最大值、最小值、均值和標(biāo)準(zhǔn)差描述評估結(jié)果數(shù)值分布狀態(tài)見表6。 表6 三種方法AUC指標(biāo)統(tǒng)計(jì)描述 表6顯示,詞重疊法的AUC值均值較高,為0.7401,逆文檔頻率量化法AUC值均值為0.6766。 使用R語言對2種算法的AUC值進(jìn)行樣本均值t-檢驗(yàn),P=0.2158(<0.05),表示2種算法AUC值均值差異具有統(tǒng)計(jì)學(xué)意義。綜合表5的統(tǒng)計(jì)結(jié)果,詞重疊法AUC值除主題2以外均在0.7-0.9之間,說明該方法對于判斷新穎文獻(xiàn)具有一定的準(zhǔn)確性;逆文檔頻率量化法只有主題4和主題8處于0.7-0.9之間,其余均在0.5-0.7之間,說明該方法對于判斷新穎文獻(xiàn)準(zhǔn)確性較低。因此,詞重疊法的評估結(jié)果優(yōu)于逆文檔頻率量化法。 本文證實(shí)了生物醫(yī)學(xué)領(lǐng)域文獻(xiàn)主題新穎性探測的可行性,可為文獻(xiàn)推薦、文獻(xiàn)評價(jià)、專題前沿分析、期刊評價(jià)和作者評價(jià)提供一定的參考。本文證實(shí)詞重疊法能夠更好地將語句內(nèi)容間差異表現(xiàn)在數(shù)據(jù)上,詞重疊法對判斷新穎文獻(xiàn)具有一定準(zhǔn)確性,評估結(jié)果優(yōu)于逆文檔頻率量化法,差異具有統(tǒng)計(jì)學(xué)意義。本研究還有以下不足。 第一,文獻(xiàn)主題新穎性探測的特點(diǎn)之一在于其時(shí)間原則,即早出現(xiàn)的新穎性好,數(shù)據(jù)結(jié)果與實(shí)際經(jīng)驗(yàn)相符;之二在于實(shí)驗(yàn)數(shù)據(jù)和測試數(shù)據(jù)的劃分,測試數(shù)據(jù)的新穎性之間是相互影響的。本文使用的2種方法均未區(qū)分實(shí)驗(yàn)數(shù)據(jù)和測試數(shù)據(jù),在后續(xù)研究中嘗試使用背景數(shù)據(jù)等評估當(dāng)前文獻(xiàn)的新穎性。 第二,自然語言的使用降低了對關(guān)鍵詞或者主題詞的依賴。關(guān)鍵詞和主題詞的信息存在無法獲取、標(biāo)引滯后的問題。本文數(shù)據(jù)存在標(biāo)題長短提取詞數(shù)量差異較大的情況,對數(shù)據(jù)計(jì)算結(jié)果有一定的影響。本文向?qū)<野l(fā)放的評估資料均要求以標(biāo)題的新穎程度為主要評估對象,符合本文的實(shí)驗(yàn)數(shù)據(jù)。在后續(xù)研究中,會(huì)權(quán)衡受控詞和自然語詞之間的權(quán)重,提供更加穩(wěn)定的抽取詞數(shù)量。 第三,本文的8個(gè)主題按照《學(xué)位授予和人才培養(yǎng)學(xué)科目錄(2011)》(SCADC)的醫(yī)學(xué)學(xué)科進(jìn)行分類,有臨床醫(yī)學(xué)4個(gè)、基礎(chǔ)醫(yī)學(xué)4個(gè)。實(shí)驗(yàn)結(jié)果顯示,重疊法在基礎(chǔ)醫(yī)學(xué)AUC值的表現(xiàn)優(yōu)于臨床學(xué)科,該研究結(jié)果值得進(jìn)一步探討。2.4 算法評價(jià)方法
3 結(jié)果與結(jié)論
3.1 主題新穎度計(jì)算結(jié)果
3.2 兩種算法的評價(jià)結(jié)果
4 討論