石 磊,李 君,吳 婷
(哈爾濱工業(yè)大學(xué) 圖書館,黑龍江 哈爾濱 150000)
研究前沿識別方法通常包括主觀法、客觀法和主客觀結(jié)合法??陀^識別方法又可分為引文分析法(共被引分析、耦合分析、直接引用分析),文本內(nèi)容分析法(詞頻分析、共詞分析、爆發(fā)詞檢測、概率主題模型、SAO結(jié)構(gòu))兩大類[1]。引文分析法由于時滯性的缺陷逐漸被文本內(nèi)容分析法所取代,文本內(nèi)容分析法中的詞頻和共詞分析不能很好地反映詞語間的語義關(guān)聯(lián),爆發(fā)詞檢測有一定局限性,而原始的概率主題模型也未考慮主題詞在上下文中的含義,SAO結(jié)構(gòu)不夠靈活、計算效率有待提高。隨著計算機硬件計算能力的提升,深度學(xué)習(xí)技術(shù)在文本分析、自然語言處理領(lǐng)域得到了廣泛應(yīng)用。本文提出一種基于深度學(xué)習(xí)ELMo和LDA概率主題模型的學(xué)科研究前沿識別方法。
納米技術(shù)近年來一直備受關(guān)注,2016年諾貝爾化學(xué)獎授予了3位設(shè)計合成出分子納米機器的科學(xué)家。微納馬達作為納米技術(shù)的重要研究分支,是一種能夠?qū)⑼獠枯斎肽芰哭D(zhuǎn)化為動能的微納米裝置。因為微納馬達的尺寸很小,能夠完成一些微觀尺度的復(fù)雜功能,例如納米組裝、納米制造、靶向治療,所以微納馬達在微機電系統(tǒng)、生物、醫(yī)療等領(lǐng)域具有廣闊的應(yīng)用前景。因此,如何準確地把握微納馬達領(lǐng)域的研究熱點,識別研究前沿顯得至關(guān)重要。
傳統(tǒng)的自然語言文本語義識別,主要有兩種方法:一種是預(yù)測局部上下文信息的Word2vec詞向量模型;另一種是全局主題LDA模型,從整體把握文本主題,兩者各有優(yōu)缺點。2016年Moody首先提出將LDA與Word2vec相結(jié)合,以提高自然語言處理算法對文本整體和局部語義內(nèi)容理解的準確度[2]。本文用ELMo模型代替Word2vec模型,以更好地解決詞向量在不同語境語義不相同的問題。
ELMo模型于2018年被首次提出,它主要是基于深度學(xué)習(xí)領(lǐng)域的循環(huán)卷積網(wǎng)絡(luò)原理,建立一個與上下文信息相關(guān)的詞向量,為多義詞提供更好的向量表示,克服了Word2vec詞向量只能表示詞語單一語義的問題[3]。原始詞向量經(jīng)過前向與后向結(jié)構(gòu)的多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練后,得到與上下文信息有關(guān)的動態(tài)詞向量。圖1為ELMo模型框圖,輸出詞向量為輸入詞向量和各隱含層向量的加權(quán)和,這其中包含了大量上下文相關(guān)信息。
圖1中第k個單詞的ELMo輸出向量可以表示為:
(1)
圖1 ELMo模型
LDA是Blei于2003年提出的一種文檔主題生成模型,是以文檔-主題-詞語的3層貝葉斯結(jié)構(gòu)來實現(xiàn)文檔中主題及詞匯生成的,能夠識別大規(guī)模文檔中潛藏的主題信息[4]。在模型的3層結(jié)構(gòu)中,首先假設(shè)詞由主題的概率分布產(chǎn)生,其次假設(shè)文檔是由潛在主題的概率分布產(chǎn)生,再次針對每個文檔從Dirichlet分布中抽樣產(chǎn)生該文檔包含的主題,最后結(jié)合主題和詞的概率分布生成該文檔的每一個詞。
2.1.1 數(shù)據(jù)獲取
因為SCIE收錄的文章專業(yè)性較好、質(zhì)量較高、影響力較大,本文選取該數(shù)據(jù)集,文章類型選擇Article,Review,Proceeding,Letter 4種,檢索主題詞要考慮各種英文同義詞和變形表達式。檢索時間范圍設(shè)為2006—2020年,共檢索到文章4 763篇,經(jīng)過去重和數(shù)據(jù)清洗,剩余4 711篇。
2.1.2 數(shù)據(jù)預(yù)處理
檢索主題詞限定于文章的題目、摘要所包含的內(nèi)容。利用英文自然語言預(yù)處理工具NLTK,對檢索后的文本內(nèi)容分別進行分詞、詞干提取、詞性歸并、詞性標(biāo)注、去停用詞等步驟,最后得到具有實際語義的詞匯組成的文本集合。
2.2.1 基于ELMo和LDA模型的研究熱點主題識別
圖2 學(xué)科研究前沿主題識別流程
2.2.2 前沿主題的測度指標(biāo)及權(quán)重系數(shù)
目前學(xué)術(shù)界已有關(guān)于評價研究前沿的特征測度指標(biāo),本文選取主題強度、主題新穎性、主題創(chuàng)造性、主題交叉度作為研究前沿的測度指標(biāo)。主題強度用同一主題內(nèi)的篇均被引頻次表示;主題新穎性用同一主題篇均發(fā)表時間表示;主題創(chuàng)造性用不同主題的主題詞向量間語義相似度表示;學(xué)科交叉度用同一主題學(xué)科分布和學(xué)科距離表示[5]。再通過熵權(quán)法計算不同時間段學(xué)科研究前沿測度指標(biāo)的權(quán)重系數(shù),最終確定研究熱點主題的前沿性先后排序。另外,為了比較微納馬達領(lǐng)域研究前沿長期和近期變化差異,本文選取2006—2020年、2016—2020年兩個時間段進行對比分析。表1為兩個時間段研究前沿主題測度指標(biāo)的權(quán)重系數(shù)。
表1 研究前沿特征測度指標(biāo)權(quán)重系數(shù)
2.2.3 前沿主題的識別結(jié)果
表2和表3分別為2006—2020年和2016—2020年兩個時間段微納馬達研究熱點主題前沿性綜合測度結(jié)果。兩個表中,對4個研究前沿特征測度指標(biāo)都進行了歸一化處理。從表2和表3可以得出以下結(jié)論:第一,與主題概率分布相關(guān)性最大的主題強度對前沿主題綜合測度排序并不起決定作用;第二,近5年的細胞馬達、集群微納馬達、生物相容性微納馬達這些新的具有挑戰(zhàn)性的研究主題替代生物應(yīng)用、水環(huán)境應(yīng)用、磁驅(qū)動微納馬達進入研究熱點行列;第三,作為微納馬達重要應(yīng)用領(lǐng)域的醫(yī)學(xué)應(yīng)用由于較好的經(jīng)濟前景,一直位列研究最前沿。
表2 2006—2020年研究熱點主題前沿性綜合測度
表3 2016—2020年研究熱點主題前沿性綜合測度
3.1.1 醫(yī)學(xué)應(yīng)用
微納馬達可以深入人體血液系統(tǒng)等狹小復(fù)雜的空間,能夠精確靈活地識別捕捉操控細胞或分子,在醫(yī)療領(lǐng)域有著非常廣闊的應(yīng)用前景,靶向給藥是微納馬達最主要的醫(yī)療應(yīng)用的研究方向[6]。
3.1.2 自驅(qū)微納馬達
自驅(qū)微納馬達利用自身非對稱的物理結(jié)構(gòu)或化學(xué)反應(yīng)進行自主運動。常見的自驅(qū)動機理有基于濃度梯度的自擴散泳、基于溫度梯度的自熱泳、基于電場梯度的自電泳、基于壓力梯度的自聲泳以及氣泡驅(qū)動。
3.1.3 Janus微納馬達
Janus微納馬達是一種重要的自驅(qū)動馬達,它利用了Janus粒子各向異性結(jié)構(gòu)的特性,實現(xiàn)Janus粒子的自驅(qū)動行為。目前,Janus微納馬達的驅(qū)動方式包括自擴散電泳、氣泡驅(qū)動、感應(yīng)電荷電泳、自熱電泳等[7]。
3.1.4 DNA納米機器
DNA 納米機器主要有 DNA walker,DNA tweezer,DNA motor 等。DNA walker可以實現(xiàn)信號的富集放大作用,用于構(gòu)建各種生物傳感器;DNA tweezer將分子之間的相互作用轉(zhuǎn)為信號的輸出,可用于各種生物分子的檢測和邏輯的運算;DNA motor能實現(xiàn)對光能、機械能、化學(xué)能等的轉(zhuǎn)化和輸出,可應(yīng)用于新能源的開發(fā)[8]。
3.1.5 生物應(yīng)用
通過在微納馬達的表面修飾不同的生物識別分子制備馬達式生物傳感器。利用生物分子間的特異性反應(yīng),馬達式生物傳感器可進行目標(biāo)分子的特異性識別、運輸、分離和富集。
3.1.6 水環(huán)境應(yīng)用
由于工業(yè)化生產(chǎn)快速發(fā)展,水中的有害化學(xué)物質(zhì)如重金屬、化合物以及有機污染物污染環(huán)境,影響水質(zhì),危害水中微生物。微納馬達具有制備簡便、成本低、靈敏度高、響應(yīng)時間短等優(yōu)點,在環(huán)境檢測、污染物吸附和降解等方面有著廣闊的應(yīng)用前景。
3.1.7 磁驅(qū)動微納馬達
磁場驅(qū)動是目前控制微納馬達運動的常用有效手段之一。在微納馬達制備過程中,加入鎳、四氧化三鐵等磁性物質(zhì),通過外部磁場實現(xiàn)對微納馬達的驅(qū)動。
3.1.8 分子通信
由于單個微納馬達僅能在有限的空間范圍內(nèi)執(zhí)行簡單的任務(wù),為了能夠在更大的范圍完成更復(fù)雜的任務(wù),需要微納馬達之間通過信息共享,以合作的方式組成納米網(wǎng)絡(luò)。基于生物啟發(fā)的分子通信被認為是實現(xiàn)納米網(wǎng)絡(luò)最可行的通信技術(shù)之一。
3.1.9 細胞馬達
這類微納馬達可將細胞的生物運動作為動力源,還可將細胞用作貨物運輸載體。細胞獨特的性質(zhì)賦予了細胞馬達良好的生物相容性及生物響應(yīng)性。具有運動能力的細菌是設(shè)計細胞馬達的良好選擇。
3.1.10 集群微納馬達
為了使微納馬達承擔(dān)更多復(fù)雜的工作,使單個馬達具備群體協(xié)作能力,對微納馬達集群化的研究逐漸成為該領(lǐng)域的重要方向。有學(xué)者報道了AgCl微納馬達在紫外光的照射下產(chǎn)生聚集現(xiàn)象,并且能與SiO2微球組成仿生系統(tǒng)以模仿自然界中的捕獵集群行為。
3.1.11 生物相容性微納馬達
自驅(qū)動微納馬達早期主要靠過氧化氫等有毒化合物進行驅(qū)動,這將嚴重阻礙自驅(qū)動微納馬達在生物體內(nèi)的應(yīng)用程度。鎂基雙面微納馬達是目前生物相容性最好的自驅(qū)微納馬達。鎂基微納馬達通過化學(xué)反應(yīng)產(chǎn)生氫氣作為推動力,其他元素也可以很容易被去除。
微納馬達在醫(yī)學(xué)中的應(yīng)用一直是該領(lǐng)域關(guān)注的核心焦點。自驅(qū)動由于不需要外加控制場是微納馬達最受歡迎的驅(qū)動方式,Janus由于其結(jié)構(gòu)各向異性是自驅(qū)動微納馬達的一種優(yōu)選方式。但自驅(qū)馬達能量源和自身材料對生物體的毒性一直未解決,因此,近年來很多學(xué)者把更多精力投入具有良好生物相容性的微納馬達研究中,以細菌為載體的細胞馬達成為生物相容性自驅(qū)馬達的備選方式。集群微納馬達可利用協(xié)同工作克服單個微納馬達功效受限的缺點,近年來備受學(xué)者追捧,其中一項關(guān)鍵技術(shù)分子通信亟需取得實質(zhì)性的突破。
本文提出一種基于深度學(xué)習(xí)ELMo模型和LDA概率主題模型的學(xué)科研究前沿主題識別方法,可以應(yīng)用到包括微納馬達等其他各學(xué)科研究前沿識別中。微納馬達領(lǐng)域的研究經(jīng)過十多年的蓬勃發(fā)展,在許多方向取得了巨大的成果,未來還應(yīng)該開展以下方面工作。第一,對現(xiàn)有微納馬達運動的控制不夠精準,需進一步探索新型可控納米驅(qū)動原理;第二,由于生物介質(zhì)的黏度相對較大且含有較多的電解質(zhì),微納馬達在其中運動的速度會減慢,需要新型高效的馬達來實現(xiàn)更快速地運動;最后,實際應(yīng)用中微納馬達所處環(huán)境總是復(fù)雜多變的,發(fā)展能隨機應(yīng)變的智能微納馬達,也是今后值得深入探索的重要方向。