• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    學(xué)術(shù)資源挖掘方法研究綜述

    2021-12-21 11:01:19王穎
    現(xiàn)代情報(bào) 2021年12期
    關(guān)鍵詞:關(guān)聯(lián)語(yǔ)義專利

    王穎

    DOI.10.3969/j.issn.1008-0821.2021.12.016

    [中圖分類號(hào)]G250.76 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821(2021)12-0164-14

    科學(xué)技術(shù)突飛猛進(jìn)促進(jìn)了學(xué)術(shù)交流與合作,也產(chǎn)生了海量的學(xué)術(shù)資源,如期刊論文、學(xué)位論文、會(huì)議論文、科技報(bào)告、圖書(shū)專著、專利、標(biāo)準(zhǔn)等正式出版物,以及學(xué)術(shù)網(wǎng)站、學(xué)術(shù)社交媒體、科教文化信息、科學(xué)數(shù)據(jù)等網(wǎng)絡(luò)資源。面向海量學(xué)術(shù)資源,科研人員一直致力于對(duì)不同的學(xué)術(shù)資源進(jìn)行挖掘、集成和利用,結(jié)合數(shù)據(jù)挖掘、文本挖掘、機(jī)器學(xué)習(xí)等技術(shù)提出了眾多挖掘方法與算法模型,并開(kāi)發(fā)了一系列實(shí)用工具,不斷優(yōu)化學(xué)術(shù)資源利用環(huán)境,滿足用戶日益增長(zhǎng)的知識(shí)服務(wù)需求。在此背景下,本文擬對(duì)國(guó)內(nèi)外學(xué)術(shù)資源挖掘方法研究現(xiàn)狀進(jìn)行總結(jié)和分析,以期為學(xué)術(shù)資源挖掘方法的進(jìn)一步優(yōu)化提供相應(yīng)的支撐和參考。

    本文的研究對(duì)象主體為學(xué)術(shù)資源,往往容易與科技文獻(xiàn)、學(xué)術(shù)論文等概念混淆。國(guó)家標(biāo)準(zhǔn)GB7713-87中定義學(xué)術(shù)論文是某一學(xué)術(shù)課題在實(shí)驗(yàn)性、理論性或觀測(cè)性上具有新的科學(xué)研究成果或創(chuàng)新見(jiàn)解和知識(shí)的科學(xué)記錄:或是某種已知原理應(yīng)用于實(shí)際中取得新進(jìn)展的科學(xué)總結(jié)。邱均平教授認(rèn)為,“凡是將人類的知識(shí)用文字、圖形、符號(hào)、聲頻、視頻的手段記錄于一定載體之上所形成的東西統(tǒng)稱為文獻(xiàn),科技文獻(xiàn)是一類含有科學(xué)技術(shù)知識(shí)內(nèi)容的文獻(xiàn),按出版形式分為圖書(shū)、期刊、會(huì)議錄、科技報(bào)告、學(xué)位論文、專利文獻(xiàn)、技術(shù)標(biāo)準(zhǔn)、產(chǎn)品樣本等”。蘇新寧教授認(rèn)為,“學(xué)術(shù)資源是指能夠幫助支持開(kāi)展學(xué)術(shù)研究活動(dòng)的所有資料,除正式出版物,還應(yīng)包括對(duì)科學(xué)研究有幫助的政府信息、社會(huì)信息、科教文化信息、科學(xué)數(shù)據(jù)等”。從覆蓋范圍對(duì)比,科技文獻(xiàn)包括學(xué)術(shù)論文,而學(xué)術(shù)資源包括科技文獻(xiàn)。從作用上對(duì)比,學(xué)術(shù)論文既是一種探討學(xué)術(shù)問(wèn)題的手段,又是一種學(xué)術(shù)交流工具,科學(xué)文獻(xiàn)主要用來(lái)記錄、積累、傳播和繼承知識(shí),而學(xué)術(shù)資源的來(lái)源更加廣泛、信息量更強(qiáng)、傳播范圍也更廣,是學(xué)術(shù)研究長(zhǎng)期開(kāi)發(fā)、共享和利用的基礎(chǔ)資源。從形式上對(duì)比,學(xué)術(shù)論文和科技文獻(xiàn)多為正式出版物,而學(xué)術(shù)資源涉及非正式出版的內(nèi)部出版物、實(shí)驗(yàn)報(bào)告、教案、學(xué)術(shù)動(dòng)態(tài)以及學(xué)術(shù)網(wǎng)站、學(xué)科專業(yè)論壇、學(xué)者博客等網(wǎng)絡(luò)信息資源。

    學(xué)術(shù)資源挖掘涉及圖書(shū)情報(bào)學(xué)、計(jì)算機(jī)科學(xué)、生物醫(yī)學(xué)等不同領(lǐng)域的研究,如文獻(xiàn)挖掘、文獻(xiàn)計(jì)量、非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)(LBD)、數(shù)據(jù)挖掘、文本挖掘、機(jī)器學(xué)習(xí)等,這些研究之間存在交叉和融合,并且相互促進(jìn)共同發(fā)展。文獻(xiàn)挖掘、文獻(xiàn)計(jì)量、LBD都是以科學(xué)文獻(xiàn)為數(shù)據(jù)集的研究。文獻(xiàn)挖掘旨在從科技文獻(xiàn)中挖掘有價(jià)值的知識(shí):文獻(xiàn)計(jì)量利用數(shù)學(xué)和統(tǒng)計(jì)學(xué)的方法對(duì)文獻(xiàn)進(jìn)行定量分析:LBD從非相關(guān)文獻(xiàn)中識(shí)別出潛在關(guān)聯(lián)促進(jìn)新知識(shí)的產(chǎn)生。而學(xué)術(shù)資源挖掘以科技文獻(xiàn)和其他非正式學(xué)術(shù)資源為研究對(duì)象,研究范圍更廣。數(shù)據(jù)挖掘、文本挖掘、機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)領(lǐng)域的重要分支,數(shù)據(jù)挖掘的研究對(duì)象可以是各種類型的數(shù)據(jù)源,文本挖掘的主要對(duì)象是文本數(shù)據(jù),也包括學(xué)術(shù)資源的文本。學(xué)術(shù)資源挖掘通常采用數(shù)據(jù)挖掘技術(shù)進(jìn)行關(guān)鍵詞統(tǒng)計(jì)、主題分析、引用分析、關(guān)聯(lián)挖掘等,利用文本挖掘技術(shù)對(duì)學(xué)術(shù)文本進(jìn)行知識(shí)抽取、文本聚類和分類,并借助機(jī)器學(xué)習(xí)技術(shù)優(yōu)化研究方法提升性能。

    1學(xué)術(shù)資源挖掘研究主題分析

    由于學(xué)術(shù)資源涉及類型較多、研究方法較廣,分別以“學(xué)術(shù)資源”“文獻(xiàn)”“論文”“圖書(shū)”“專利”“報(bào)告”“工具書(shū)”“標(biāo)準(zhǔn)”“學(xué)術(shù)社交媒體”“教育資源”等為研究對(duì)象主題,“挖掘”“抽取”“識(shí)別”“分類”“聚類”等為研究方法主體構(gòu)建檢索式,從中國(guó)知網(wǎng)、萬(wàn)方、ScienceDirect、ACMDigital Library、IEEE Xplorer Digital IJibrary、Springer Link等數(shù)據(jù)庫(kù)中檢索相關(guān)中英文論文,通過(guò)泛讀,從中篩選獲得與本研究主題相關(guān)的論文,并在此基礎(chǔ)上對(duì)相關(guān)引文、相關(guān)主題進(jìn)行擴(kuò)展檢索,最終獲得研究問(wèn)題相關(guān)論文集合,以此為基礎(chǔ)對(duì)學(xué)術(shù)資源挖掘方法進(jìn)行總結(jié)和歸納。

    通過(guò)去重和去除不相關(guān)論文,共獲得137篇英文論文和256篇中文論文。對(duì)沒(méi)有關(guān)鍵詞的英文或中文論文,利用TextRank算法從標(biāo)題和摘要中抽取關(guān)鍵詞,并采用百度翻譯工具對(duì)沒(méi)有對(duì)照英文關(guān)鍵詞的中文論文進(jìn)行翻譯,最后借助VOSviewer工具對(duì)論文關(guān)鍵詞進(jìn)行分析,構(gòu)建了如圖1所示的文獻(xiàn)共詞網(wǎng)絡(luò)。從圖中可知,學(xué)術(shù)資源挖掘涉及科技文獻(xiàn)(scientific literature)、文本挖掘(text mining)、信息抽?。╥nforrnalion extraction)、術(shù)語(yǔ)抽取(term extraetion)、深度學(xué)習(xí)(deep leaming)、專利挖掘(patent mining)、數(shù)據(jù)挖掘(data mining)、知識(shí)抽?。╧nowledge extmction)等熱點(diǎn)研究主題。

    2學(xué)術(shù)資源挖掘方法分類分析

    在對(duì)學(xué)術(shù)資源挖掘研究主題分析的基礎(chǔ)上,本文從研究對(duì)象、研究維度、采用技術(shù)等角度進(jìn)一步分類分析。

    2.1按研究對(duì)象分析

    學(xué)術(shù)資源包括學(xué)術(shù)論文、圖書(shū)、報(bào)刊、專利文獻(xiàn)、科技報(bào)告、標(biāo)準(zhǔn)、工具書(shū)等正式出版物,也涉及學(xué)術(shù)網(wǎng)站、學(xué)術(shù)社交媒體、開(kāi)放學(xué)術(shù)知識(shí)庫(kù)、教學(xué)課件等非正式出版物或網(wǎng)絡(luò)資源,針對(duì)不同研究對(duì)象的挖掘方法有所不同。

    2.1.1學(xué)術(shù)論文挖掘

    學(xué)術(shù)論文挖掘研究工作開(kāi)展已久,特別是在生物醫(yī)學(xué)領(lǐng)域,一些挖掘方法和實(shí)用工具已用于挖掘?qū)W術(shù)論文的內(nèi)在知識(shí),如PubTator工具識(shí)別PubMed文獻(xiàn)中生物醫(yī)學(xué)實(shí)體,如基因、化學(xué)物質(zhì)、疾病、變異、物種等。SemRep工具使用UMLS語(yǔ)義網(wǎng)絡(luò)判斷論文中兩個(gè)生物醫(yī)學(xué)概念之間的關(guān)系。CoPub5.0系統(tǒng)從文獻(xiàn)中挖掘研究疾病背后的機(jī)理、連接基因和Pathway,發(fā)現(xiàn)現(xiàn)有藥物的新型應(yīng)用等。此外,還有一些研究利用文本挖掘技術(shù)從學(xué)術(shù)論文中識(shí)別生物分子事件、藥物之間的相互作用(DDI)、蛋白質(zhì)的相互作用(PPI)、Protein-residue關(guān)聯(lián)、基因關(guān)系、基因功能或GeneRIFs、基因事件提取等。通過(guò)從生物醫(yī)學(xué)文獻(xiàn)和臨床記錄中挖掘信息來(lái)輔助數(shù)據(jù)庫(kù)管理、構(gòu)建本體、促進(jìn)語(yǔ)義Web搜索和幫助開(kāi)發(fā)交互式系統(tǒng)(例如計(jì)算機(jī)輔助管理工具)。

    2.1.2專利文獻(xiàn)挖掘

    專利文獻(xiàn)是一種非常重要的學(xué)術(shù)資源,是技術(shù)信息最有效的載體。專利挖掘通過(guò)分析專利文獻(xiàn),尋找技術(shù)創(chuàng)新的特征,識(shí)別核心技術(shù)并對(duì)現(xiàn)有技術(shù)進(jìn)行改進(jìn),研究方法涉及專利術(shù)語(yǔ)抽取、專利聚類、專利分類、專利統(tǒng)計(jì)分析、技術(shù)預(yù)測(cè)等。如Fenn J等對(duì)專利信息進(jìn)行多維度挖掘,搭建專利知識(shí)空間。孫寧寧使用LDA主題模型對(duì)專利非結(jié)構(gòu)化的文本信息進(jìn)行分析,發(fā)現(xiàn)潛藏的技術(shù)主題。洪勇等基于專利引用關(guān)系研究不同企業(yè)之間的技術(shù)相關(guān)性。劉小玲等基于引文分析方法和文本挖掘,創(chuàng)建用于聚類分析的C-T專利網(wǎng)絡(luò),研究技術(shù)演化過(guò)程。謝凱基于IPC分類號(hào)形成技術(shù)關(guān)聯(lián)網(wǎng)絡(luò),分析不同技術(shù)之間的關(guān)聯(lián)范圍和關(guān)聯(lián)程度。林弘杰設(shè)計(jì)了一種基于深度學(xué)習(xí)的專利價(jià)值評(píng)估模型DLPQV,充分利用專利信息來(lái)預(yù)測(cè)評(píng)估專利的價(jià)值。此外,一些學(xué)者提出基于SAO(Subiect-Action-Object)結(jié)構(gòu)的專利挖掘方法用于技術(shù)路線分析、R&D合作伙伴識(shí)別、技術(shù)機(jī)會(huì)分析、技術(shù)形態(tài)識(shí)別、技術(shù)演化等。

    2.1.3工具書(shū)挖掘

    工具書(shū)包括辭書(shū)、類書(shū)、政書(shū)、百科全書(shū)、年鑒、手冊(cè)、書(shū)目、索引、文摘、表譜、圖錄、地圖、名錄等,由數(shù)位領(lǐng)域?qū)<医?jīng)過(guò)多年集體創(chuàng)造,具有權(quán)威性、完整性、規(guī)范性和一致性。一些學(xué)者通過(guò)挖掘工具書(shū)構(gòu)建知識(shí)庫(kù),提高工具書(shū)內(nèi)部知識(shí)的可用性,如二十四史語(yǔ)義知識(shí)庫(kù)、國(guó)史知識(shí)庫(kù),通過(guò)應(yīng)用自然語(yǔ)言處理、語(yǔ)義推理技術(shù),發(fā)掘工具書(shū)中的潛在知識(shí),構(gòu)建語(yǔ)義分析平臺(tái),為用戶提供了具有語(yǔ)義的知識(shí)服務(wù)。除傳統(tǒng)工具書(shū)外,在線開(kāi)放百科也成為重要的知識(shí)資源,如林澤斐等從百度百科中抽取人物社會(huì)關(guān)系網(wǎng)絡(luò)。開(kāi)放關(guān)聯(lián)數(shù)據(jù)云(LOD)的核心DBpedia即是從維基百科中抽取的實(shí)體、屬性和關(guān)系,Google推出的Knowdedge Graph也從維基百科中抽取數(shù)據(jù)并進(jìn)行人工協(xié)同編輯,此外還有YAGO、百度知識(shí)圖譜、搜狗知立方、CN-DBpedia等以通用百科為基礎(chǔ)利用知識(shí)提取技術(shù)構(gòu)建的大規(guī)模知識(shí)庫(kù),已被廣泛應(yīng)用于智能搜索、智能問(wèn)答、個(gè)性化推薦、內(nèi)容分發(fā)等領(lǐng)域。

    2.1.4學(xué)術(shù)社交媒體挖掘

    學(xué)術(shù)社交媒體如學(xué)術(shù)博客、學(xué)術(shù)論壇等也作為學(xué)術(shù)資源的一部分受到學(xué)者的關(guān)注,例如張洋等在檢索傳統(tǒng)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的基礎(chǔ)上,采集新浪圖林和CNKI學(xué)術(shù)論文等學(xué)術(shù)社交媒體,繪制圖書(shū)情報(bào)領(lǐng)域多源學(xué)術(shù)信息聚合的科學(xué)知識(shí)圖譜。王磊對(duì)學(xué)術(shù)型社交媒體中關(guān)于期刊評(píng)價(jià)的非結(jié)構(gòu)化文本信息進(jìn)行挖掘,通過(guò)統(tǒng)計(jì)與計(jì)量學(xué)分析進(jìn)行期刊影響力評(píng)價(jià)模型的研究。譚曼等以網(wǎng)絡(luò)分析為定量方法,以科學(xué)網(wǎng)博客作為實(shí)證樣本,探索共推薦關(guān)系在學(xué)術(shù)博客中具有的實(shí)證特性。湯剛強(qiáng)以網(wǎng)絡(luò)學(xué)術(shù)社區(qū)“科學(xué)網(wǎng)”為研究對(duì)象,利用社會(huì)網(wǎng)絡(luò)分析工具從整體網(wǎng)絡(luò)、內(nèi)部子結(jié)構(gòu)和個(gè)體中心度3個(gè)角度分析科學(xué)網(wǎng)博客頻道的規(guī)律。黃麗麗從虛擬健康社區(qū)的自由文本數(shù)據(jù)中抽取醫(yī)學(xué)術(shù)語(yǔ)和健康詞匯,進(jìn)行藥物不良反應(yīng)事件探測(cè)。

    2.1.5教育資源挖掘

    近年來(lái),一些研究人員開(kāi)始對(duì)教學(xué)課件、教學(xué)文件等教育文本進(jìn)行挖掘,發(fā)現(xiàn)教學(xué)知識(shí)點(diǎn),構(gòu)建知識(shí)體系,輔助學(xué)習(xí)與教育。例如,清華大學(xué)與學(xué)堂在線研發(fā)的“小木”機(jī)器人從課程體系結(jié)構(gòu)里面抽取知識(shí)概念及相互關(guān)系,構(gòu)建了龐大的知識(shí)圖譜體系,提供答疑、導(dǎo)航、推薦、提問(wèn)、社交等服務(wù)。Lee H等使用狄利克雷多項(xiàng)式回歸主題模型,分析多個(gè)高校機(jī)器學(xué)習(xí)相關(guān)課程的教學(xué)材料,用以發(fā)現(xiàn)其主要教學(xué)主題的變化趨勢(shì),總結(jié)教學(xué)內(nèi)容的熱點(diǎn)和重點(diǎn)。Langan G等通過(guò)N-Gram關(guān)鍵詞抽取的方式分析了多所大學(xué)的計(jì)算機(jī)科學(xué)學(xué)位課程大綱,為學(xué)習(xí)者的課程選擇以及教育部門(mén)對(duì)課程學(xué)分的認(rèn)證提供了參考。盛嘉祺以書(shū)本教材抽取實(shí)體為主干,慕課和博客數(shù)據(jù)為補(bǔ)充,構(gòu)建課程知識(shí)圖譜,在課程設(shè)置優(yōu)化、教育資源智能搜索和個(gè)性化推薦等方面進(jìn)行應(yīng)用。

    2.1.6綜合挖掘

    目前,學(xué)術(shù)資源在廣度和深度上都呈現(xiàn)快速增長(zhǎng)趨勢(shì),對(duì)海量多源異構(gòu)學(xué)術(shù)資源進(jìn)行綜合挖掘有著重要的學(xué)術(shù)價(jià)值。王效岳等從高校網(wǎng)站、學(xué)科門(mén)戶、OA倉(cāng)儲(chǔ)中抓取公開(kāi)發(fā)布的網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn),利用本體集成發(fā)現(xiàn)進(jìn)行異構(gòu)數(shù)據(jù)處理,并實(shí)現(xiàn)了基于語(yǔ)義驅(qū)動(dòng)的自動(dòng)分類,解決海量網(wǎng)絡(luò)信息資源語(yǔ)義分類、語(yǔ)義導(dǎo)航與語(yǔ)義檢索等問(wèn)題。謝前前以論文、專利、新聞、社交媒體數(shù)據(jù)為來(lái)源,構(gòu)建知識(shí)一技術(shù)一環(huán)境的三維分析模型,研究新興技術(shù)的演化軌跡及趨勢(shì)預(yù)測(cè)。Shi Y等以計(jì)算機(jī)期刊和會(huì)議書(shū)目數(shù)據(jù)庫(kù)DBLP、職業(yè)社交網(wǎng)絡(luò)Linke-dIn為實(shí)驗(yàn)數(shù)據(jù),聯(lián)合維基百科發(fā)現(xiàn)富文本異構(gòu)信息網(wǎng)絡(luò)中上下位關(guān)系。曹樹(shù)金等以圖書(shū)情報(bào)領(lǐng)域開(kāi)放獲取期刊論文、在線百科、博客等網(wǎng)絡(luò)信息資源為數(shù)據(jù)源,構(gòu)建描述聚合單元訪問(wèn)信息、物理信息和語(yǔ)義信息的元數(shù)據(jù)框架,支持多類型網(wǎng)絡(luò)信息資源、各層級(jí)細(xì)粒度聚合單元的檢索。

    從面向不同研究對(duì)象的學(xué)術(shù)資源挖掘研究可以發(fā)現(xiàn),針對(duì)學(xué)術(shù)論文和專利文獻(xiàn)的挖掘技術(shù)和方法相對(duì)成熟,其他類型的研究相對(duì)較少,而開(kāi)展綜合挖掘的研究也多以學(xué)術(shù)資源的關(guān)聯(lián)和聚合為主。此外,由于各類學(xué)術(shù)資源作為知識(shí)載體的作用不同,開(kāi)展挖掘的目的也有所不同,如學(xué)術(shù)論文挖掘主要識(shí)別科學(xué)知識(shí),專利文獻(xiàn)挖掘主要探測(cè)技術(shù)創(chuàng)新,工具書(shū)挖掘偏重于專業(yè)知識(shí)或常識(shí)知識(shí)的結(jié)構(gòu)化,學(xué)術(shù)社交媒體挖掘往往用于社會(huì)網(wǎng)絡(luò)評(píng)價(jià),而教育資源挖掘主要用于資源推薦。

    2.2按研究維度分析

    在系統(tǒng)調(diào)研學(xué)術(shù)資源挖掘方法的基礎(chǔ)上,本文將這些研究方法劃分為縱向挖掘和橫向挖掘兩個(gè)維度,如圖2所示??v向挖掘指對(duì)單個(gè)學(xué)術(shù)資源進(jìn)行縱深方向的挖掘,將學(xué)術(shù)資源內(nèi)部各粒度(例如詞、短語(yǔ)、句子、段落、章節(jié))的元素進(jìn)行揭示和語(yǔ)義豐富化,涉及術(shù)語(yǔ)/實(shí)體抽取、專業(yè)領(lǐng)域元素抽取、關(guān)系抽取、結(jié)構(gòu)功能識(shí)別、語(yǔ)義建模等研究:而橫向挖掘是指對(duì)學(xué)術(shù)資源集(例如資源集合、數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、學(xué)術(shù)大數(shù)據(jù)等)進(jìn)行橫向挖掘與分析,涉及分類、聚類、關(guān)聯(lián)分析、知識(shí)網(wǎng)絡(luò)構(gòu)建、網(wǎng)絡(luò)分析等研究。

    縱向挖掘

    2.2.1縱向挖掘

    縱向挖掘針對(duì)單個(gè)學(xué)術(shù)資源全文數(shù)據(jù),利用自然語(yǔ)言處理、文本挖掘、語(yǔ)義網(wǎng)等技術(shù),從詞、短語(yǔ)、句子、段落、章節(jié)不同粒度進(jìn)行知識(shí)抽取和語(yǔ)義表示,使得隱藏在學(xué)術(shù)資源文本內(nèi)部的知識(shí)被清晰地表示,將其轉(zhuǎn)換為結(jié)構(gòu)化知識(shí),供人類理解和機(jī)器處理。

    1)術(shù)語(yǔ)/實(shí)體抽取

    術(shù)語(yǔ)抽取和實(shí)體抽取是學(xué)術(shù)資源挖掘的基礎(chǔ)任務(wù),常用的抽取方法包括基于規(guī)則的方法、基于統(tǒng)計(jì)的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法以及基于深度學(xué)習(xí)的方法等。如溫雯等基于啟發(fā)式規(guī)則與標(biāo)簽傳播算法提出了一種面向?qū)I(yè)文獻(xiàn)知識(shí)實(shí)體的類型抽取和標(biāo)注方法,相比傳統(tǒng)基于特征的CRF方法效果要好。沈思等利用標(biāo)簽主題模型labeled-LDA對(duì)文獻(xiàn)中隱含的時(shí)間信息進(jìn)行分析和挖掘。方俊偉等提出一種基于先驗(yàn)知識(shí)TextRank的學(xué)術(shù)文本關(guān)鍵詞抽取方法。趙東玥等采用了雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型(BLSTM)進(jìn)行術(shù)語(yǔ)抽取。Kaewphan S等構(gòu)建CNN-BiLSTM-CRF模型從文獻(xiàn)中識(shí)別分子、細(xì)胞和組織等生物醫(yī)學(xué)實(shí)體。Zhao Z H等提出了一種多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)模型用于文獻(xiàn)的疾病實(shí)體識(shí)別,在NCBI和CDR數(shù)據(jù)集上都取得了很好的效果。

    2)專業(yè)領(lǐng)域元素識(shí)別

    隨著縱向挖掘的不斷深入,從學(xué)術(shù)文本中抽取常用的領(lǐng)域術(shù)語(yǔ)或通用實(shí)體已經(jīng)不能滿足專業(yè)用戶信息獲取的需求,一些學(xué)者利用機(jī)器學(xué)習(xí)技術(shù)開(kāi)始識(shí)別具體專業(yè)領(lǐng)域的特定元素。例如趙丹寧等從內(nèi)容、語(yǔ)法、語(yǔ)義分析等方面,利用規(guī)則從藥物代謝動(dòng)力學(xué)文獻(xiàn)摘要中抽取實(shí)驗(yàn)數(shù)據(jù)如實(shí)驗(yàn)、藥物、給藥方式、藥物代謝力學(xué)參數(shù)等。Pang N等提出一種基于BERT-CRF模型的化學(xué)實(shí)體和關(guān)系抽取方法,從科技文獻(xiàn)中抽取化合物、溶液、方法、反應(yīng)、化學(xué)鍵、PKA、PKA-VALUE 7種類型實(shí)體以及化學(xué)鍵能數(shù)據(jù)鏈。馬建霞等基于Bi-LSTM+CRF神經(jīng)網(wǎng)絡(luò)模型抽取中文文獻(xiàn)中時(shí)間、地名和生態(tài)治理技術(shù)。Gupta S等構(gòu)建信息抽取規(guī)則識(shí)別論文中的方法或工具,化柏林研究了學(xué)術(shù)論文中方法知識(shí)元的類型和描述規(guī)則,錢力等基于多規(guī)則模式混合機(jī)器學(xué)習(xí)方法抽取學(xué)術(shù)論文的研究方法、工具等。余麗等基于LSTM-CRF模型從計(jì)算機(jī)領(lǐng)域會(huì)議論文摘要中抽取研究范疇、研究方法、實(shí)驗(yàn)數(shù)據(jù)、評(píng)價(jià)指標(biāo)及取值等知識(shí)元。

    3)關(guān)系抽取

    面向?qū)W術(shù)資源的關(guān)系抽取隨著信息抽取技術(shù)的發(fā)展不斷進(jìn)步,從早期基于規(guī)則、詞典、本體的抽取方法,到基于傳統(tǒng)機(jī)器學(xué)習(xí)、基于深度學(xué)習(xí)的方法以及面向開(kāi)放領(lǐng)域的關(guān)系抽取方法,從學(xué)術(shù)文本中挖掘用戶所需的語(yǔ)義關(guān)系信息,并構(gòu)建知識(shí)圖譜或知識(shí)庫(kù)以及潛在關(guān)聯(lián)發(fā)現(xiàn)。例如,李智恒等提出了一個(gè)化學(xué)物質(zhì)致病關(guān)系抽取系統(tǒng),利用半監(jiān)督的Co-Training算法將特征核和圖結(jié)構(gòu)特征集合進(jìn)行句子分類器續(xù)聯(lián),并利用文檔級(jí)別分類器抽取化學(xué)物質(zhì)致病關(guān)系。蔣婷等利用基于互信息的概念對(duì)抽取、基于C-value的關(guān)系動(dòng)詞抽取和關(guān)系確定3個(gè)階段從學(xué)術(shù)文獻(xiàn)中抽取概念之間的非等級(jí)關(guān)系。李鯤等將文獻(xiàn)資源抽象為一系列獨(dú)立成果而又互相關(guān)聯(lián)的科研事件,并提出基于觸發(fā)詞的事件抽取方法。Peng Y等提出了將句子向量、位置向量、詞干特征、句子的依存特征作為支持向量機(jī)(SVM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)以及循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型的輸入,將3種模型結(jié)果進(jìn)行投票,獲得生物醫(yī)學(xué)文獻(xiàn)中化學(xué)品和蛋白質(zhì)之間關(guān)系的最終預(yù)測(cè)。

    4)結(jié)構(gòu)功能識(shí)別

    結(jié)構(gòu)功能識(shí)別是指識(shí)別學(xué)術(shù)文本中一個(gè)從句、句子、段落、片段的功能性作用如“背景”“方法”“結(jié)果”等,也有學(xué)者從語(yǔ)言學(xué)角度將其稱為科技文獻(xiàn)的語(yǔ)步結(jié)構(gòu)(Move Structure或Argumentative Zone)或者語(yǔ)篇元素。學(xué)術(shù)文本結(jié)構(gòu)功能識(shí)別的研究主要從句子、段落和章節(jié)3個(gè)層次展開(kāi)。早期的句子級(jí)功能識(shí)別模型有AZ/AZ-Ⅱ模型、CoreSC模型、Dr.Inventor框架等,主要采用樸素貝葉斯分類器、支持向量機(jī)、隨機(jī)向量場(chǎng)、線性核分類器等進(jìn)行自動(dòng)標(biāo)注。近期研究人員開(kāi)始利用BERT模型訓(xùn)練分類模型。在段落級(jí)功能識(shí)別上,Ribaupierre H等提出了SciAnnoDoc標(biāo)注模型,通過(guò)人工制定正則表達(dá)特征的方法對(duì)人文性別研究領(lǐng)域文獻(xiàn)進(jìn)行自動(dòng)分類識(shí)別。Varga A等基于論證區(qū)域的思想提出了zoneLDA模型用于篇章結(jié)構(gòu)識(shí)別。王倩等引入神經(jīng)網(wǎng)絡(luò)模型進(jìn)行段落功能識(shí)別。在章節(jié)功能識(shí)別上,陸偉等、黃永等分別從章節(jié)標(biāo)題、基于章節(jié)內(nèi)容、基于段落3個(gè)不同層次開(kāi)展學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別。在后續(xù)研究中引入深度學(xué)習(xí)技術(shù),并采用投票方法進(jìn)行多層次融合。

    5)語(yǔ)義建模

    為使人和機(jī)器都可以訪問(wèn)學(xué)術(shù)資源內(nèi)部知識(shí),研究人員應(yīng)用本體和關(guān)聯(lián)數(shù)據(jù)對(duì)學(xué)術(shù)資源進(jìn)行語(yǔ)義表示和描述。例如,很多圖書(shū)館和研究機(jī)構(gòu)以關(guān)聯(lián)數(shù)據(jù)形式發(fā)布書(shū)目數(shù)據(jù)和規(guī)范數(shù)據(jù),如瑞典聯(lián)合目錄(LIBRIS)、OCLC發(fā)布的VIAF(虛擬國(guó)際規(guī)范文檔)、WorldCat書(shū)目數(shù)據(jù)、英國(guó)國(guó)家書(shū)目4等,即將數(shù)據(jù)開(kāi)放,便于共享和重用,又可以揭示數(shù)據(jù)之間的關(guān)聯(lián),通過(guò)資源的關(guān)聯(lián)整合促進(jìn)語(yǔ)義檢索和智能檢索的實(shí)現(xiàn)。新興的語(yǔ)義出版旨在發(fā)掘并豐富文章知識(shí)內(nèi)涵,使其更容易被自動(dòng)發(fā)現(xiàn)并與之關(guān)聯(lián)。眾多知名出版機(jī)構(gòu)如PLos One、ACS、Nature、Elsevier等紛紛提出語(yǔ)義出版功能模塊。概念網(wǎng)絡(luò)聯(lián)盟提出納米出版(Nanopublication)作為科學(xué)文獻(xiàn)語(yǔ)義出版的新模式,從文獻(xiàn)中抽取科學(xué)結(jié)論、科學(xué)事實(shí),建立語(yǔ)義表示模式,幫助人們進(jìn)行科學(xué)情報(bào)和知識(shí)的發(fā)現(xiàn)、理解、交流、集成及共享。W3C發(fā)布了ORB科學(xué)篇章修辭塊本體,用于捕捉科學(xué)出版物的粗粒度修辭結(jié)構(gòu)。SPAR語(yǔ)義出版和引用本體[跎]提出了一套OWL DL本體模塊用于創(chuàng)建語(yǔ)義出版和引用各方面機(jī)器可讀的RDF元數(shù)據(jù)。

    從縱向挖掘角度可以發(fā)現(xiàn)挖掘的粒度逐漸細(xì)化,一個(gè)學(xué)術(shù)資源可被分解為粗細(xì)粒度不同的功能結(jié)構(gòu)并進(jìn)行語(yǔ)義化轉(zhuǎn)換,這為進(jìn)一步的知識(shí)計(jì)算和分析奠定了基礎(chǔ)。此外,隨著深度學(xué)習(xí)技術(shù)的不斷突破,知識(shí)抽取的對(duì)象也從通用實(shí)體、生物醫(yī)學(xué)領(lǐng)域擴(kuò)展到其他復(fù)雜的專業(yè)領(lǐng)域元素,有效地推動(dòng)了學(xué)術(shù)資源的開(kāi)發(fā)與利用。

    2.2.2橫向挖掘

    橫向挖掘從宏觀層面對(duì)學(xué)術(shù)資源集合進(jìn)行整體分析和計(jì)算,包括學(xué)術(shù)資源分類、聚類、關(guān)聯(lián)挖掘、統(tǒng)計(jì)分析、知識(shí)網(wǎng)絡(luò)構(gòu)建、網(wǎng)絡(luò)分析等研究。

    1)分類

    學(xué)術(shù)資源的分類標(biāo)引對(duì)于資源的檢索、過(guò)濾、推薦等都具有重要的意義,也是數(shù)字圖書(shū)館建設(shè)中的關(guān)鍵問(wèn)題之一,通常根據(jù)學(xué)術(shù)資源的文本主題、內(nèi)容或?qū)傩赃M(jìn)行預(yù)處理、特征表示、特征選擇并利用機(jī)器學(xué)習(xí)算法構(gòu)建分類器進(jìn)行自動(dòng)分類。例如史盛楠提出了相關(guān)主題模型(CTM)與KNN分類算法結(jié)合的C-KNN分類方法,實(shí)現(xiàn)多學(xué)科文獻(xiàn)分類。郭利敏構(gòu)建了基于題名、關(guān)鍵詞的多層次卷積神經(jīng)網(wǎng)絡(luò)模型,自動(dòng)給出文獻(xiàn)的中圖分類號(hào),用以解決編目人員緊缺、加工質(zhì)量和效率下降等問(wèn)題。宮小翠等提出了基于Labeled LDA主題模型的醫(yī)學(xué)文獻(xiàn)自動(dòng)分類法。謝劍芳等提出了基于FastText的專利文本自動(dòng)分類方法,溫超東等提出了結(jié)合ALBERT和雙向門(mén)控循環(huán)單元的專利文本分類,李湘東等將已知類別的期刊論文題錄信息和新聞網(wǎng)頁(yè)混合起來(lái)構(gòu)建共通語(yǔ)義空間,通過(guò)共現(xiàn)關(guān)系繪制雙向圖并實(shí)施譜聚類進(jìn)行跨文獻(xiàn)類型文本自動(dòng)分類。

    2)聚類

    聚類分析是對(duì)學(xué)術(shù)資源集合進(jìn)行整體分析的主要手段之一,將學(xué)術(shù)資源集合分為相對(duì)同質(zhì)的簇進(jìn)行統(tǒng)計(jì)分析,聚類方法常使用內(nèi)容分析方法,如利用詞頻、共現(xiàn)、共詞、共引、同被引等關(guān)系進(jìn)行發(fā)現(xiàn)相似關(guān)系,并利用聚類算法和工具進(jìn)行聚類。例如Sun Y等、劉勘等分別提出基于排名的聚類算法RankClus、改進(jìn)TF IDF特征詞加權(quán)算法用以實(shí)現(xiàn)科技文獻(xiàn)聚類,從中發(fā)現(xiàn)熱點(diǎn)研究領(lǐng)域,識(shí)別學(xué)科融合方向。趙楠等針對(duì)學(xué)術(shù)會(huì)議信息資源,提出了一種基于密度的聚類算法,利用資源關(guān)鍵字實(shí)現(xiàn)了資源熱點(diǎn)的自動(dòng)發(fā)現(xiàn)。Yun J等利用共引和同被引關(guān)系構(gòu)建文獻(xiàn)二分網(wǎng)絡(luò),依賴網(wǎng)絡(luò)結(jié)構(gòu)信息進(jìn)行文獻(xiàn)聚類。馬力等對(duì)失效專利、失效/有效專利、有效專利進(jìn)行聚類分析,根據(jù)專利流走向來(lái)判斷技術(shù)主題的新生、消亡及發(fā)展?fàn)顩r。趙夷平等采用潛在語(yǔ)義分析方法計(jì)算如科學(xué)網(wǎng)、統(tǒng)計(jì)之都、小木蟲(chóng)等學(xué)術(shù)資源網(wǎng)發(fā)布文獻(xiàn)的總體相似度,通過(guò)層級(jí)聚類方法生成文檔關(guān)系矩陣,以此發(fā)現(xiàn)相似文獻(xiàn)。

    3)關(guān)聯(lián)分析

    關(guān)聯(lián)分析是一種簡(jiǎn)單實(shí)用的分析技術(shù),主要從數(shù)據(jù)集中發(fā)現(xiàn)不同項(xiàng)之間潛在的關(guān)聯(lián)性或相關(guān)性。學(xué)術(shù)資源之間的關(guān)聯(lián)分析通常采取數(shù)據(jù)挖掘或文本挖掘技術(shù)發(fā)現(xiàn)資源內(nèi)部知識(shí)或資源之間的關(guān)聯(lián)或模式。例如,資源內(nèi)部實(shí)體關(guān)聯(lián)分析的研究有:范馨月等利用文本挖掘方法從PubMed文獻(xiàn)集構(gòu)建藥物一副作用共現(xiàn)矩陣,采用重復(fù)二分法進(jìn)行聚類分析,發(fā)現(xiàn)潛在的藥物副作用關(guān)系。魏星等提出一種基于數(shù)據(jù)立方的方法,挖掘疾病—基因—藥物之間的關(guān)聯(lián),使用關(guān)聯(lián)規(guī)則量化實(shí)體關(guān)聯(lián)程度。賈麗燕等利用關(guān)聯(lián)規(guī)則分析中文醫(yī)學(xué)文獻(xiàn),發(fā)現(xiàn)藥治療糖尿病視網(wǎng)膜病變常用藥物的用藥特點(diǎn)和組方規(guī)律。李嬌以圖書(shū)為研究對(duì)象,通過(guò)共現(xiàn)分析提取人名節(jié)點(diǎn),并利用Apriori算法發(fā)現(xiàn)人物之間的關(guān)聯(lián)規(guī)則。資源之間的關(guān)聯(lián)分析研究如:李海林等199]運(yùn)用關(guān)聯(lián)規(guī)則方法,從參考文獻(xiàn)作者相關(guān)性分析、主題分析和來(lái)源期刊相關(guān)性分析3個(gè)方面,總結(jié)和提煉規(guī)則及知識(shí)反映的決策和建議。寧子晨等從專利主體—關(guān)鍵詞耦合、IPC耦合以及IPC-關(guān)鍵詞共現(xiàn)3個(gè)角度,提出關(guān)聯(lián)方法探究數(shù)據(jù)挖掘領(lǐng)域內(nèi)專利文獻(xiàn)與學(xué)術(shù)論文的主體、主題關(guān)聯(lián)關(guān)系。

    4)知識(shí)網(wǎng)絡(luò)構(gòu)建

    針對(duì)海量學(xué)術(shù)資源,一些大型出版商和研究機(jī)構(gòu)已開(kāi)始構(gòu)建用于支持語(yǔ)義搜索、智能問(wèn)答、數(shù)據(jù)挖掘、推薦系統(tǒng)等應(yīng)用的大規(guī)模知識(shí)網(wǎng)絡(luò)或知識(shí)圖譜,如Springer Nature的SciGraph不斷地從期刊/文章、書(shū)籍/章節(jié)、組織、機(jī)構(gòu)、資助者、研究資助、專利、臨床試驗(yàn)、會(huì)議系列、事件、引用網(wǎng)絡(luò)、Altmetrics、研究數(shù)據(jù)集等方面擴(kuò)展數(shù)據(jù),其目標(biāo)是創(chuàng)建學(xué)術(shù)領(lǐng)域最先進(jìn)的關(guān)聯(lián)數(shù)據(jù)聚合平臺(tái),為整個(gè)企業(yè)和研究領(lǐng)域提供可重用的知識(shí)。Elsevier基于其豐富的數(shù)據(jù)和內(nèi)容資源如論文、圖書(shū)、引文、作者、機(jī)構(gòu)、基金、化學(xué)物質(zhì)、藥物、EHRs等構(gòu)建了面向研究、生命科學(xué)和醫(yī)療健康的知識(shí)圖譜。Taylor & Francis開(kāi)發(fā)了知識(shí)圖譜工具Wizdom.ai,其知識(shí)圖譜涵蓋出版物、專利、作者、機(jī)構(gòu)、概念、事實(shí)等。國(guó)內(nèi)方面,清華大學(xué)AMiner學(xué)術(shù)知識(shí)圖譜、上海交通大學(xué)Acemap知識(shí)圖譜,利用信息抽取方法從海量文獻(xiàn)及互聯(lián)網(wǎng)中獲取研究信息,提供搜索、學(xué)術(shù)評(píng)估、合作者推薦、審稿人推薦、話題趨勢(shì)分析等多樣化服務(wù)。

    5)網(wǎng)絡(luò)分析

    學(xué)術(shù)資源之間可根據(jù)實(shí)體之間的關(guān)聯(lián)如關(guān)鍵詞共現(xiàn)、主題關(guān)聯(lián)、引文關(guān)聯(lián)、機(jī)構(gòu)關(guān)聯(lián)、作者關(guān)聯(lián)等構(gòu)建網(wǎng)絡(luò),并基于網(wǎng)絡(luò)進(jìn)行學(xué)術(shù)資源整體分析。引文分析是學(xué)術(shù)資源網(wǎng)絡(luò)分析的典型分析方法之一,例如王燦友等對(duì)文獻(xiàn)引文網(wǎng)絡(luò)采用主路徑分析方法揭示3D打印技術(shù)的演化路徑。Choi J等采用關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析其演化軌跡,揭示韓國(guó)教育技術(shù)的未來(lái)發(fā)展趨勢(shì)及模式。此外,有學(xué)者利用知識(shí)圖譜進(jìn)行專利情報(bào)分析,如張兆鋒構(gòu)建專利知識(shí)圖譜,利用知識(shí)圖譜擴(kuò)展了技術(shù)功效圖矩陣結(jié)構(gòu)生成的模式類型,提升了專利情報(bào)分析效率。也有從學(xué)術(shù)資源縱向挖掘角度建立網(wǎng)絡(luò)并進(jìn)一步發(fā)現(xiàn)核心知識(shí)點(diǎn)或隱含知識(shí)的研究,例如王凱等將學(xué)術(shù)文獻(xiàn)正文表示成一個(gè)以句子為節(jié)點(diǎn)、句子間關(guān)聯(lián)為邊的文本關(guān)系網(wǎng)絡(luò),利用社會(huì)網(wǎng)絡(luò)分析方法挖掘文本中核心句子。曲佳彬等利用文本挖掘技術(shù)從論文元數(shù)據(jù)和摘要揭示作者機(jī)構(gòu)地理位置、論文研究地域、作者研究主題和學(xué)科研究主題等,并構(gòu)建關(guān)聯(lián)數(shù)據(jù),從多維度對(duì)學(xué)術(shù)論文關(guān)聯(lián)數(shù)據(jù)中隱含的宏觀和微觀知識(shí)進(jìn)行可視化展示。

    從橫向挖掘角度可以發(fā)現(xiàn),對(duì)于學(xué)術(shù)資源集合的挖掘分析從分類、聚類、關(guān)聯(lián)分析逐漸聚焦到網(wǎng)絡(luò)的構(gòu)建與分析上,利用網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行整體或局部的挖掘與計(jì)算,而挖掘方法從傳統(tǒng)的統(tǒng)計(jì)分析逐步引入圖計(jì)算、社會(huì)網(wǎng)絡(luò)分析、知識(shí)圖譜、深度學(xué)習(xí)等熱門(mén)技術(shù)。從數(shù)據(jù)處理規(guī)模上看,橫向挖掘研究逐漸從較小規(guī)模數(shù)據(jù)向大數(shù)據(jù)方向演化,這也成為目前重要的研究方向之一。

    2.3按采用技術(shù)分析

    針對(duì)不用應(yīng)用需求和研究對(duì)象,學(xué)術(shù)資源挖掘采用的技術(shù)也有所不同,本文將其總結(jié)歸納為五大類:基于規(guī)則/外部知識(shí)的方法、基于文本表示/詞嵌入的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法、基于深度學(xué)習(xí)的方法以及基于網(wǎng)絡(luò)結(jié)構(gòu)的方法,具體如表1所示。

    基于規(guī)則/外部知識(shí)的方法是早期學(xué)術(shù)資源挖掘任務(wù)的普遍方法?;谝?guī)則的方法一般通過(guò)人工構(gòu)造規(guī)則或模式,將待處理數(shù)據(jù)與規(guī)則進(jìn)行匹配判斷,符合即完成實(shí)體或關(guān)系抽取任務(wù),如文獻(xiàn)等?;谠~典的方法利用字符串匹配識(shí)別術(shù)語(yǔ)或?qū)嶓w,基于本體的方法通過(guò)本體層級(jí)結(jié)構(gòu)或描述概念之間語(yǔ)義關(guān)系來(lái)輔助術(shù)語(yǔ)/實(shí)體抽取、關(guān)系抽取、關(guān)聯(lián)分析和網(wǎng)絡(luò)分析,而語(yǔ)義建模和知識(shí)網(wǎng)絡(luò)構(gòu)建通常采用本體描述和定義Schema?;谝?guī)則/外部知識(shí)的方法簡(jiǎn)單易用、可行性強(qiáng),但往往耗費(fèi)人力,并且受限于知識(shí)的描述范圍。

    文本是學(xué)術(shù)資源基本的表現(xiàn)形式,利用基于文本表示/詞嵌入的方法對(duì)學(xué)術(shù)文本進(jìn)行數(shù)學(xué)建模和向量表示,進(jìn)而執(zhí)行挖掘任務(wù),是一種常用的研究方法。例如TF-IDF、N-gram模型、LDA等文本表示和計(jì)算模型可用于關(guān)鍵詞抽取、主題識(shí)別和分析。而詞嵌入模型將每個(gè)詞映射為低維空間向量,傳統(tǒng)模型如布爾模型、向量空間模型(VSM)往往欠缺語(yǔ)義表征能力,因而研究人員提出了Word2Vec、Glove等分布式表示技術(shù),特別是Google發(fā)布的BERT預(yù)訓(xùn)練語(yǔ)言表示模型取得了突破性進(jìn)展,在實(shí)體抽取、關(guān)系抽取、結(jié)構(gòu)功能識(shí)別、分類、聚類等任務(wù)中均得以應(yīng)用。

    基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法以機(jī)器學(xué)習(xí)模型為基礎(chǔ),采用相對(duì)簡(jiǎn)單的方法就可以獲得較好的研究效果,在各項(xiàng)挖掘任務(wù)中均有所應(yīng)用。其中,支持向量機(jī)(SVM)是一種常用的監(jiān)督學(xué)習(xí)算法,因其良好的分類性能得到了廣泛使用。K近鄰算法(KNN)簡(jiǎn)單有效,常用于學(xué)術(shù)資源分類任務(wù)。貝葉斯網(wǎng)絡(luò)是目前不確定知識(shí)表達(dá)和推理領(lǐng)域最有效的理論模型之一,適用于表達(dá)和分析不確定性和概率性的事件,在結(jié)構(gòu)功能識(shí)別、分類、聚類等任務(wù)中均有應(yīng)用。條件隨機(jī)場(chǎng)(CRF)結(jié)合了最大熵模型和隱馬爾可夫模型的特點(diǎn),在分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)中取得了很好的效果。

    基于深度學(xué)習(xí)的方法相比傳統(tǒng)機(jī)器學(xué)習(xí)方法通過(guò)訓(xùn)練大量數(shù)據(jù)自動(dòng)獲得模型,不需要人工提取特征,近年來(lái)在各項(xiàng)任務(wù)上均有所突破,受到了研究人員的廣泛關(guān)注。例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)利用多樣性卷積核識(shí)別目標(biāo)的結(jié)構(gòu)特征,常用于提取詞和句子層次特征,而循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)適用于序列數(shù)據(jù)的處理,能充分考慮長(zhǎng)距離詞之間的依賴性,可用于句法解析獲得句法結(jié)構(gòu)。長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)處理時(shí)間序列中當(dāng)間隔和延遲較長(zhǎng)時(shí)比RNN效果更好,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)可以同時(shí)獲取上下文信息并存儲(chǔ)記憶,這兩種模型可用于優(yōu)化術(shù)語(yǔ)/實(shí)體抽取、關(guān)系抽取、結(jié)構(gòu)功能識(shí)別、分類、聚類等多項(xiàng)任務(wù)。

    基于圖/網(wǎng)絡(luò)結(jié)構(gòu)的方法利用圖的拓?fù)浣Y(jié)構(gòu)或者聚合來(lái)自鄰居節(jié)點(diǎn)的信息,表征學(xué)術(shù)資源節(jié)點(diǎn)或?qū)W術(shù)文本知識(shí)之間的相關(guān)關(guān)系或關(guān)聯(lián),再利用基于圖/網(wǎng)絡(luò)的分析和計(jì)算方法進(jìn)行圖內(nèi)部特征的深入挖掘。社會(huì)網(wǎng)絡(luò)分析是一套規(guī)范的,對(duì)社會(huì)關(guān)系與結(jié)構(gòu)進(jìn)行分析的方法,用于解決人際傳播網(wǎng)絡(luò)、學(xué)術(shù)網(wǎng)絡(luò)分析、關(guān)聯(lián)分析、引文分析、知識(shí)管理等問(wèn)題,涉及網(wǎng)絡(luò)密度、中心性、凝聚子群等量化分析方法。主路徑分析是一種數(shù)學(xué)工具,最早由Hummon和Doreian在1989年提出,用于識(shí)別引文網(wǎng)絡(luò)中的主要路徑,該方法通常用于通過(guò)書(shū)目引文或?qū)@膩?lái)跟蹤科學(xué)或技術(shù)領(lǐng)域的知識(shí)流動(dòng)路徑或發(fā)展軌跡,如文獻(xiàn)等。

    從采用技術(shù)角度可以發(fā)現(xiàn),數(shù)據(jù)挖掘、文本挖掘、機(jī)器學(xué)習(xí)、網(wǎng)絡(luò)科學(xué)等為學(xué)術(shù)資源挖掘研究提供了技術(shù)與方法基礎(chǔ),其中詞嵌入、深度學(xué)習(xí)等新技術(shù)有效提升了學(xué)術(shù)資源挖掘的性能,并且大大降低了人力成本,也為相關(guān)研究提供了進(jìn)一步優(yōu)化和完善的方向,而聯(lián)合應(yīng)用多種模型或算法也成為一個(gè)可待深入探索的研究思路。

    3學(xué)術(shù)資源挖掘方法應(yīng)用分析

    對(duì)學(xué)術(shù)資源進(jìn)行深層次的揭示、聚合和挖掘,有效推動(dòng)學(xué)術(shù)資源的快速獲取和知識(shí)共享,學(xué)術(shù)資源挖掘方法或結(jié)果已經(jīng)為學(xué)術(shù)檢索系統(tǒng)、學(xué)術(shù)推薦、技術(shù)預(yù)測(cè)和趨勢(shì)分析等方面提供了有力支撐。

    3.1學(xué)術(shù)檢索系統(tǒng)

    從海量學(xué)術(shù)資源中全面、準(zhǔn)確地找到需要的信息一直是圖書(shū)情報(bào)領(lǐng)域的重點(diǎn)研究任務(wù)。近年來(lái),智能檢索和語(yǔ)義檢索技術(shù)大大提升了學(xué)術(shù)信息檢索的效果,而對(duì)學(xué)術(shù)資源的挖掘使得學(xué)術(shù)資源更容易被發(fā)現(xiàn),有效推動(dòng)了學(xué)術(shù)檢索系統(tǒng)的性能提升,一些學(xué)術(shù)引擎系統(tǒng)已經(jīng)被廣泛使用。如Semantic Scholar致力于理解學(xué)術(shù)文獻(xiàn)的內(nèi)容,利用AI技術(shù)幫助用戶從海量的學(xué)術(shù)文獻(xiàn)中篩選有用信息,解決信息超載的問(wèn)題。AMiner系統(tǒng)構(gòu)建了大型學(xué)術(shù)知識(shí)圖譜,利用一個(gè)生成概率模型,在提供主題級(jí)專業(yè)知識(shí)搜索的同時(shí)對(duì)不同的實(shí)體進(jìn)行建模。此外,劉夢(mèng)蘭等以Word2vec為詞向量訓(xùn)練工具,結(jié)合專利文獻(xiàn)自身的特點(diǎn),提出了一種基于詞向量的查詢擴(kuò)展方法,有效提升專利文獻(xiàn)的檢索效果。陳國(guó)華等基于Glove訓(xùn)練詞向量,利用隨機(jī)映射的方法,在大規(guī)模的向量空間中快速定位向量,并提出了一種學(xué)術(shù)文檔向量化的方案,在學(xué)者網(wǎng)學(xué)術(shù)檢索中取得良好的檢索效果。

    3.2學(xué)術(shù)推薦系統(tǒng)

    對(duì)學(xué)術(shù)資源進(jìn)行深度挖掘有助于向用戶推薦相關(guān)的學(xué)術(shù)資源、投稿期刊、合作者、專家等,提高科研用戶的工作效率,促進(jìn)學(xué)術(shù)交流與合作。例如Guan P等借助標(biāo)題、關(guān)鍵詞、摘要和引文對(duì)文獻(xiàn)進(jìn)行語(yǔ)義豐富化,并利用TF-IDF算法構(gòu)建主題詞權(quán)重向量,構(gòu)建用戶興趣模型進(jìn)行文獻(xiàn)推薦。熊峰通過(guò)資源—標(biāo)簽矩陣對(duì)出版資源標(biāo)簽進(jìn)行關(guān)聯(lián)分析,提供較優(yōu)的標(biāo)簽屬性供用戶選擇,使資源備選集的劃分得到優(yōu)化。劉康在論文語(yǔ)料庫(kù)的“文檔一主題”矩陣上加入概率模型形成不確定知識(shí)圖譜,以此針對(duì)用戶背景知識(shí)和目標(biāo)知識(shí)之間存在的差異進(jìn)行學(xué)術(shù)論文的個(gè)性化推薦。Ayala-G6mez F等提出了一種使用知識(shí)圖譜來(lái)建立全球引文推薦的方法,通過(guò)使用知識(shí)圖譜擴(kuò)展來(lái)挖掘給定摘要中的語(yǔ)義特征,并將它們與其他特征組合以適應(yīng)學(xué)習(xí)排名模型,最后通過(guò)這一模型來(lái)生成引文推薦。段旭磊等采用數(shù)據(jù)挖掘、中文信息處理等技術(shù),對(duì)科技文獻(xiàn)庫(kù)中專家數(shù)據(jù)挖掘、分析、建模,用于發(fā)現(xiàn)和推薦領(lǐng)域?qū)<胰?、專家?/p>

    3.3科技前沿識(shí)別與預(yù)測(cè)

    準(zhǔn)確把握科學(xué)研究和技術(shù)前沿,識(shí)別新興科技并盡早捕獲未來(lái)的發(fā)展契機(jī)和變化趨勢(shì),對(duì)于科技決策機(jī)構(gòu)、科研機(jī)構(gòu)、科技企業(yè)、科研人員等都具有重要的作用。學(xué)術(shù)資源的挖掘同樣有效支撐了研究科技前沿的識(shí)別與預(yù)測(cè)。通常情報(bào)研究人員以學(xué)術(shù)資源如論文、專利等為核心,運(yùn)用情報(bào)學(xué)、計(jì)量學(xué)、數(shù)據(jù)挖掘等方法探測(cè)研究前沿。例如馮佳提出了基于LDA的研究前沿識(shí)別方法,通過(guò)科技文獻(xiàn)主題強(qiáng)度和主題新穎度識(shí)別研究前沿。黃魯成等利用技術(shù)屬性挖掘?qū)@谋拘畔ⅲ⑦\(yùn)用物種入侵算法和集對(duì)分析方法對(duì)顛覆性強(qiáng)度值進(jìn)行測(cè)度。張金柱等利用專利科學(xué)論文的關(guān)鍵詞和學(xué)科分類表示被引科學(xué)知識(shí),以不同時(shí)間段被引科學(xué)知識(shí)的差異程度表示技術(shù)創(chuàng)新的突變程度,進(jìn)而識(shí)別出突破性創(chuàng)新。白光祖等提出了基于文獻(xiàn)知識(shí)關(guān)聯(lián)的顛覆性技術(shù)預(yù)見(jiàn)方法,利用文獻(xiàn)知識(shí)中的突變、交叉特征識(shí)別具有顛覆性潛力的領(lǐng)域內(nèi)外部技術(shù)主題。石慧等提出一種基于文獻(xiàn)挖掘的顛覆性技術(shù)早期識(shí)別方法,從文獻(xiàn)中抽取主題詞,分析主題詞的頻數(shù)變化以及論文主題詞和專利手工代碼的突變情況。

    4結(jié)論與展望

    本文系統(tǒng)地梳理了近年來(lái)國(guó)內(nèi)外學(xué)術(shù)資源挖掘方法的發(fā)展現(xiàn)狀,詳細(xì)分析和對(duì)比了挖掘方法的研究對(duì)象、挖掘維度、使用技術(shù)等,為相關(guān)研究方法的提出和優(yōu)化提供了參考??v觀學(xué)術(shù)資源挖掘的研究,可以發(fā)現(xiàn)經(jīng)過(guò)不斷地研究與探索,學(xué)術(shù)資源挖掘已取得了長(zhǎng)足進(jìn)步,特別是在文獻(xiàn)挖掘、專利挖掘等領(lǐng)域已經(jīng)形成了一些成熟的技術(shù)和應(yīng)用產(chǎn)品,但仍存在可進(jìn)一步探索和提升的方向。

    1)本體、關(guān)聯(lián)數(shù)據(jù)、知識(shí)圖譜等技術(shù)推動(dòng)了學(xué)術(shù)資源的語(yǔ)義化發(fā)展,將學(xué)術(shù)資源內(nèi)部知識(shí)進(jìn)行語(yǔ)義建模并通過(guò)實(shí)體/概念語(yǔ)義化地組織和關(guān)聯(lián)起來(lái)并顯式地表示,能夠促進(jìn)內(nèi)容重用和知識(shí)集成,但如何對(duì)海量學(xué)術(shù)資源進(jìn)行語(yǔ)義表示和知識(shí)組織體系構(gòu)建仍有待于進(jìn)一步研究和探索。

    2)深度學(xué)習(xí)技術(shù)在學(xué)術(shù)資源挖掘的研究正逐步深入,盡管在智能信息抽取、文本分類、文本聚類等方面取得了一定的進(jìn)展,但是整體來(lái)說(shuō),深度學(xué)習(xí)在學(xué)術(shù)資源挖掘的應(yīng)用研究還處于初級(jí)階段,在未來(lái)必定會(huì)有更多的嘗試和突破。

    3)目前學(xué)術(shù)資源挖掘的主要研究對(duì)象仍為學(xué)術(shù)論文和專利,盡管其他類型的學(xué)術(shù)資源逐漸受到重視,但當(dāng)前研究主要聚焦在學(xué)術(shù)資源建設(shè)和整合方面,如何將學(xué)術(shù)資源有效地組織、整合起來(lái),為科研用戶提供一站式服務(wù),滿足其個(gè)性化需求,對(duì)不同類型學(xué)術(shù)資源進(jìn)行聯(lián)合挖掘的相關(guān)研究仍有待于推進(jìn)。

    4)目前,學(xué)術(shù)資源縱向挖掘研究大多面向領(lǐng)域或指定知識(shí)類型,并且往往使用特定的語(yǔ)料庫(kù)或訓(xùn)練集,很難實(shí)現(xiàn)到其他領(lǐng)域的自動(dòng)遷移。因此,如何實(shí)現(xiàn)其他領(lǐng)域或跨領(lǐng)域的深層知識(shí)挖掘,如何不斷提高方法或工具的準(zhǔn)確率、可移植性以及可擴(kuò)展性,激勵(lì)著研究人員投入更多的精力和時(shí)間。

    5)隨著學(xué)術(shù)資源爆炸式增長(zhǎng),基于大數(shù)據(jù)和人工智能技術(shù)擴(kuò)展及優(yōu)化現(xiàn)有挖掘方法,實(shí)現(xiàn)海量學(xué)術(shù)資源的高效計(jì)算,仍然是亟待解決的難題。

    (責(zé)任編輯:陳媛)

    猜你喜歡
    關(guān)聯(lián)語(yǔ)義專利
    專利
    “苦”的關(guān)聯(lián)
    語(yǔ)言與語(yǔ)義
    發(fā)明與專利
    傳感器世界(2019年4期)2019-06-26 09:58:44
    奇趣搭配
    智趣
    讀者(2017年5期)2017-02-15 18:04:18
    “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
    認(rèn)知范疇模糊與語(yǔ)義模糊
    專利
    語(yǔ)言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
    祁东县| 安溪县| 车险| 贡嘎县| 浦北县| 从化市| 合水县| 义马市| 南华县| 壶关县| 武城县| 缙云县| 金华市| 乌兰察布市| 吴桥县| 桂林市| 长阳| 庆安县| 区。| 娱乐| 龙山县| 牙克石市| 勃利县| 岳阳市| 和静县| 孟连| 黄平县| 枝江市| 库车县| 沙坪坝区| 裕民县| 丹凤县| 喀喇| 榆林市| 建水县| 东宁县| 乃东县| 徐州市| 清新县| 广丰县| 广安市|