• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    情報認(rèn)知模型庫構(gòu)建研究

    2021-03-22 02:52:58劉細(xì)文郭世杰
    關(guān)鍵詞:對模型模型庫情報

    劉細(xì)文,郭世杰

    (1.中國科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院圖書情報與檔案管理系,北京 100049;2.中國科學(xué)院文獻(xiàn)情報中心,北京 100190)

    1 引言

    現(xiàn)代科學(xué)研究在微觀、宏觀、復(fù)雜性等方面不斷深入,“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)”正日益發(fā)揮不可替代的作用,多學(xué)科交叉前沿和一系列顛覆性技術(shù)正在不斷塑造新的科學(xué)研究競爭格局;面對不斷涌現(xiàn)的新技術(shù)、新知識、新概念,如何與前沿科學(xué)家和工程師同步認(rèn)知最新科技發(fā)展態(tài)勢,高效和準(zhǔn)確地還原不同研究主題和領(lǐng)域知識本體全貌,進(jìn)而從紛繁復(fù)雜的技術(shù)領(lǐng)域動態(tài)中敏捷地監(jiān)測、抓取、挖掘出有效信息,為決策者和科研人員搭建好“從數(shù)據(jù)到信息,從知識到智慧”的橋梁,是情報工作者面臨的重要問題。

    科研數(shù)據(jù)的爆炸式增長對大規(guī)模知識管理和基于機(jī)器理解的知識挖掘帶來了新的挑戰(zhàn),同時也提供了對跨學(xué)科知識進(jìn)行集成和解析挖掘的可行條件。2012年,TONY 等在 《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》[1]中指出,未來的計算機(jī)系統(tǒng)應(yīng)當(dāng)能夠自動發(fā)現(xiàn)、獲取、組織、分析、關(guān)聯(lián)、解釋、推斷信息,在全球范圍內(nèi)管理和處理知識的基礎(chǔ)架構(gòu)可作為下一代知識驅(qū)動型服務(wù)和應(yīng)用程序的基礎(chǔ),研究人員可以利用這樣的基礎(chǔ)設(shè)施,提出與他們專業(yè)領(lǐng)域相關(guān)的問題,并在這樣的“知識海洋”中找到答案。2020 年,張霖[2]提出,通過利用物理模型、傳感器更新、運行歷史數(shù)據(jù)等資源,可以集成多學(xué)科、多物理量、多尺度、多概率的仿真,可以在虛擬空間中完成對現(xiàn)實物理對象的映射,從而進(jìn)行分析、預(yù)測、診斷、訓(xùn)練等,開展學(xué)科領(lǐng)域的知識發(fā)現(xiàn)研究。

    在人工智能技術(shù)快速發(fā)展的背景下,構(gòu)建不同科技領(lǐng)域的“認(rèn)知模型”,利用算法和計算框架對物理世界的各種研究對象進(jìn)行抽象和描述,是進(jìn)一步利用各種計算工具、服務(wù)和應(yīng)用程序,實現(xiàn)機(jī)器輔助知識推理、演繹、跨領(lǐng)域相關(guān)分析的基礎(chǔ)。近年來,國內(nèi)外已有大量機(jī)器學(xué)習(xí)算法將科學(xué)研究的問題抽象為包含該領(lǐng)域核心知識的若干關(guān)鍵特征,這些特征包括技術(shù)性能參數(shù)、結(jié)構(gòu)成分、材料、制備方法、生產(chǎn)工藝、應(yīng)用方向等,為快速構(gòu)建對該學(xué)科領(lǐng)域的情報認(rèn)知、幫助一線科研人員積累科學(xué)研究方法和思路、指導(dǎo)情報研究人員理解特定學(xué)科領(lǐng)域的知識背景等提供了便利條件。

    2 學(xué)科領(lǐng)域的知識挖掘探索與實踐

    隨著科研數(shù)據(jù)的不斷豐富和信息技術(shù)的高速發(fā)展,國內(nèi)外許多研究人員構(gòu)建了專業(yè)學(xué)科領(lǐng)域的分析模型,在此基礎(chǔ)上利用公開發(fā)表的文獻(xiàn)資料,對該領(lǐng)域的關(guān)鍵知識與信息(如新材料、新工藝、新研究方向等)進(jìn)行挖掘和分析。2019 年7 月,TSHITOYAN等在Nature上報道了利用無監(jiān)督詞嵌入模型從材料科學(xué)文獻(xiàn)中發(fā)現(xiàn)潛在新材料組份的方法[3],利用近330 萬份論文摘要數(shù)據(jù)訓(xùn)練詞嵌入模型,對文獻(xiàn)中材料的“結(jié)構(gòu)-屬性”關(guān)系進(jìn)行了挖掘,預(yù)測了可能具有較高熱電品質(zhì)因數(shù)的新材料,并基于歷史數(shù)據(jù)成功開展回溯測試驗證,表明詞向量空間模型的位置編碼可能包含材料科學(xué)知識。2015 年,ROSS 利用“機(jī)器人科學(xué)家”開展化學(xué)和生物研究的方法,構(gòu)建了包含1 萬多個知識點的11 層深的嵌套樹狀結(jié)構(gòu)模型,將實驗假設(shè)、測量結(jié)果、目標(biāo)等知識以具有相關(guān)概率的邏輯進(jìn)行表示并通過語義網(wǎng)進(jìn)行發(fā)布,發(fā)現(xiàn)了對抗熱帶病的新鉛化合物[4]。2019 年7 月,F(xiàn)ATHALLA 等報道了“科學(xué)事件數(shù)據(jù)模型”(OR-SEO)構(gòu)建和應(yīng)用方法,對人員、組織、位置、時間等科學(xué)事件“要素”及它們之間的關(guān)系進(jìn)行建模,并通過組合規(guī)則發(fā)現(xiàn)要素間新的關(guān)系、推斷知識圖譜中未明確的新知識[5]。與此類似的還包括許多用于分析和發(fā)現(xiàn)新基因、新藥物的生物信息學(xué)(Bio-Informatics)、醫(yī)學(xué)信息學(xué)(Medical Informatics)挖掘模型等。

    在更廣泛的科學(xué)技術(shù)領(lǐng)域,應(yīng)用各種機(jī)器學(xué)習(xí)方法直接從各種實驗、觀測、分析、測量數(shù)據(jù)中發(fā)掘新知識的研究大放異彩,取得了令人矚目的豐富成果,近年來在人工智能的熱潮中已經(jīng)廣為人知。例如,在生物學(xué)中,KOOHI-MOGHADAM 等利用多通道卷積神經(jīng)網(wǎng)絡(luò)(MCCNN)模型,對醫(yī)學(xué)數(shù)據(jù)庫中11 萬余條致病蛋白質(zhì)突變數(shù)據(jù)、16 萬余條金屬結(jié)合位點的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)進(jìn)行了分析,揭示了十幾種疾病和不同金屬、不同蛋白質(zhì)突變之間的相關(guān)關(guān)系[6];在天文學(xué)中,DATTILO 等利用多個卷積神經(jīng)網(wǎng)絡(luò)對“開普勒”(Kepler)空間望遠(yuǎn)鏡的觀測數(shù)據(jù)進(jìn)行分析,在距地球1 200 光年的水瓶座星座中發(fā)現(xiàn)了2 顆系外行星[7];在太陽物理學(xué)中,WANG 等利用核主成分分析(KPCA)模型對太陽耀斑先兆因子(磁通量、磁螺度平均值等)數(shù)據(jù)進(jìn)行了分析,增強(qiáng)了對強(qiáng)太陽耀斑的預(yù)報能力[8];在地質(zhì)學(xué)中,PHAM 等利用決策樹(DT)分類器、基于旋轉(zhuǎn)森林的決策樹(RFDT)、基于多重提升的決策樹(MDT)等模型,對印度某地區(qū)的10 種地質(zhì)數(shù)據(jù)(海拔、降水量、坡度、河流密度、巖性、地形濕度指數(shù)等)進(jìn)行了分析,完成了對34 口地下水井水位的預(yù)測[9]。

    上述研究均構(gòu)建了用于分析某一學(xué)科領(lǐng)域數(shù)據(jù)的學(xué)科認(rèn)知模型,這些模型包含對相關(guān)科學(xué)/技術(shù)工程的關(guān)鍵問題、核心技術(shù)、性能指標(biāo)、相關(guān)關(guān)系的描述和抽象,提供了研究這些科學(xué)/技術(shù)工程問題的方法、思路、計算框架、核心算法等,代表著科研人員對特定學(xué)科領(lǐng)域的認(rèn)知。若能將這些模型進(jìn)行有效解析、存儲,實現(xiàn)可查詢、檢索、重復(fù)使用,將為不同領(lǐng)域的科研人員和情報分析人員提供快速切入最新研究領(lǐng)域、敏捷獲取領(lǐng)域知識本體的抓手。

    3 建設(shè)情報認(rèn)知模型庫的必要性與意義

    3.1 什么是情報認(rèn)知模型?

    情報是知識的流動,并可以帶來原有知識結(jié)構(gòu)的變化??茖W(xué)進(jìn)步依賴于對現(xiàn)有知識的有效吸收,以選擇最有前途的演進(jìn)方向發(fā)展,并最大程度地減少重復(fù)勞動。潛在知識一方面蘊(yùn)藏在科學(xué)研究實驗/測量/觀測/分析數(shù)據(jù)中,另一方面也很大程度上“沉淀”在已有的學(xué)術(shù)文獻(xiàn)中。如果通過從大量學(xué)術(shù)文獻(xiàn)中提取知識和關(guān)系,能夠揭示“沉淀”知識,帶來全新的開發(fā)和設(shè)計成果,使原有知識結(jié)構(gòu)發(fā)生改變、形成新的知識結(jié)構(gòu)。正如布魯克斯知識方程[10]描述的那樣:

    方程(1)中,K[S]代表原有知識結(jié)構(gòu),△I為情報增量,K[S+△S]為新的知識結(jié)構(gòu)。這里的△I既可以來自各種自然科學(xué)實驗、觀測、測量、計算活動,也可以來自對文獻(xiàn)資源和各種音視頻媒體信息的綜合、提煉、歸納、總結(jié)、對比、分析,而后者正是學(xué)科情報工作的基本內(nèi)涵之一。

    基于已有學(xué)術(shù)文獻(xiàn),開展深度情報研究、快速應(yīng)對技術(shù)威脅、準(zhǔn)確把握學(xué)科研究進(jìn)展等,都需要高效地對學(xué)科領(lǐng)域與技術(shù)優(yōu)勢形成快速準(zhǔn)確科學(xué)認(rèn)知。然而,這種科學(xué)認(rèn)知除了需要借助信息化、智能化手段綜合分析科學(xué)大數(shù)據(jù)、學(xué)術(shù)文獻(xiàn)大數(shù)據(jù)等外,還需要借助各個學(xué)科領(lǐng)域的認(rèn)知模型,通過信息計算、數(shù)據(jù)計算、情報計算方式形成對學(xué)科和技術(shù)態(tài)勢的情報認(rèn)知。如果廣泛收集學(xué)科知識認(rèn)知模型建立“情報認(rèn)知模型庫”,則可以作為新的情報研究數(shù)據(jù)基礎(chǔ)設(shè)施,幫助不同領(lǐng)域的科研工作者、情報人員快速識別新科技理念、發(fā)現(xiàn)科技機(jī)遇、甄別技術(shù)威脅,進(jìn)行知識挖掘、組織、集成、關(guān)聯(lián)、重組。

    基于以上認(rèn)識和發(fā)展需要,可以將“情報認(rèn)知模型”定義為:科研人員借助于文獻(xiàn)信息資源、實驗數(shù)據(jù)進(jìn)行分析和挖掘的模擬、仿真計算模型,以及相關(guān)的知識挖掘計算方法等。

    3.2 “情報認(rèn)知模型”的類型與作用

    在不同學(xué)科領(lǐng)域,已有許多研究開發(fā)和構(gòu)建了各種分析模型,如前文提到的材料性能挖掘模型、蛋白質(zhì)結(jié)構(gòu)模型、系外行星識別模型、太陽耀斑活動分析模型、地下水水位分析模型等,可以將它們看作相關(guān)學(xué)科領(lǐng)域的“情報認(rèn)知模型”。但是,情報研究人員還很少從特色數(shù)據(jù)資源和數(shù)據(jù)基礎(chǔ)設(shè)施的角度去看待這些“情報認(rèn)知模型”,也很少從工程化實施的角度,去建設(shè)一個解析、存儲、檢索和調(diào)用這些“情報認(rèn)知模型”的信息庫。

    以石墨烯材料領(lǐng)域為例,相關(guān)研究可涉及至少5類信息對象:第1 類是開展實驗分析或測量所獲得的科學(xué)實驗數(shù)據(jù),如進(jìn)行石墨烯導(dǎo)電性實驗時記錄的時間信息和各種實驗儀器讀數(shù)等;第2 類是從這些實驗數(shù)據(jù)中獲得的知識,例如可以是石墨烯的電學(xué)性能、熱學(xué)性能、光學(xué)性能、力學(xué)性能、制備方法、功能化應(yīng)用領(lǐng)域等;第3 類是對科學(xué)技術(shù)領(lǐng)域的知識進(jìn)行挖掘、組織、歸納、分析之后所獲得的情報。例如可以是石墨烯的各種性能參數(shù)和應(yīng)用領(lǐng)域、制備方法之間的因果關(guān)系、上下位關(guān)系、包含關(guān)系、“材料—成品”關(guān)系、“實體—值”關(guān)系等。第4 類是用于指導(dǎo)對科學(xué)技術(shù)領(lǐng)域知識進(jìn)行分析和挖掘的認(rèn)知模型,例如可以是抽取石墨烯的熱學(xué)、力學(xué)、電學(xué)性能特征、采用聚類算法分析石墨烯研究主題的無監(jiān)督學(xué)習(xí)模型,也可以是抽取石墨烯的制備方法和催化劑種類特征的機(jī)器學(xué)習(xí)模型等。第5 類則是對各種情報認(rèn)知模型進(jìn)行分類、解析、組織和結(jié)構(gòu)化存儲的模型庫,例如不同石墨烯情報認(rèn)知模型的訓(xùn)練數(shù)據(jù)源、特征抽取規(guī)則、驗證方法、情報挖掘和預(yù)測效果、源代碼等。上述5類信息對象都對科學(xué)技術(shù)領(lǐng)域的科學(xué)研究和科技情報工作具有價值,都可以進(jìn)行積累和收集,對科研人員和情報人員提供服務(wù),發(fā)揮“數(shù)據(jù)基礎(chǔ)設(shè)施”和“情報分析/科學(xué)研究工具箱”的功效。

    3.3 國內(nèi)外已建成的公開數(shù)據(jù)基礎(chǔ)設(shè)施尚未覆蓋“情報認(rèn)知模型庫”功能

    當(dāng)前,許多研究領(lǐng)域呈現(xiàn)出對長期連續(xù)觀測獲取數(shù)據(jù)、有效存儲和傳輸數(shù)據(jù)、多源數(shù)據(jù)綜合分析等能力的強(qiáng)烈需求。在這樣的趨勢下,國內(nèi)外已經(jīng)建設(shè)了許多“數(shù)據(jù)基礎(chǔ)設(shè)施”,這其中包括美國能源部于2019年部署的“環(huán)境科學(xué)虛擬生態(tài)系統(tǒng)數(shù)據(jù)基礎(chǔ)設(shè)施”(ESS-DVIE)[11]、法國于2018 年規(guī)劃升級的“法國國家核物理和粒子物理計算中心”(CC-IN2P3)[12]、日本國立遺傳學(xué)研究所(NIG)建設(shè)的“日本DNA 數(shù)據(jù)銀行”(DDBJ)[13]、歐洲將于2021 年建成“多尺度植物表型組學(xué)和模擬歐洲設(shè)施”(EMPHASIS)和已建成并運行的“歐洲生物信息分布式網(wǎng)絡(luò)”(ELIXIR)[14]等。在中國,科技部和財政部于2019 年6 月對國家科技資源共享服務(wù)平臺進(jìn)行了整合,形成了“國家高能物理科學(xué)數(shù)據(jù)中心”等20個國家科學(xué)數(shù)據(jù)中心、“國家重要野生植物種質(zhì)資源庫”等30個國家生物種質(zhì)與實驗材料資源庫[15]。此外,中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心建設(shè)了“中國科學(xué)院數(shù)據(jù)云”[16],中國科學(xué)院文獻(xiàn)情報中心建設(shè)了“科技文獻(xiàn)大數(shù)據(jù)知識資源體系”[17]等。

    與上述已建成的“數(shù)據(jù)基礎(chǔ)設(shè)施”相比,“情報認(rèn)知模型庫”最大的不同在于其囊括了諸多獨特的應(yīng)用場景、科學(xué)技術(shù)領(lǐng)域知識,以及對各種科研問題的抽象方法和仿真框架。不僅如此,這些場景、知識、方法、框架是相互關(guān)聯(lián)的,能夠被“模型庫”的用戶統(tǒng)一檢索、查詢、調(diào)用。而作為對比,前文提到的大部分現(xiàn)有“數(shù)據(jù)基礎(chǔ)設(shè)施”只存儲了科學(xué)實驗研究的底層實驗數(shù)據(jù),或存儲了從底層實驗數(shù)據(jù)中提煉、總結(jié)發(fā)現(xiàn)的學(xué)科知識;盡管少數(shù)“數(shù)據(jù)基礎(chǔ)設(shè)施”對一些通用的數(shù)據(jù)挖掘算法進(jìn)行了存儲,但是這些算法是孤立的,并不包含細(xì)分科學(xué)技術(shù)領(lǐng)域的知識框架、特征抽取標(biāo)準(zhǔn),因此難以與這些領(lǐng)域的具體應(yīng)用場景進(jìn)行關(guān)聯(lián)。因此,盡管“情報認(rèn)知模型庫”在數(shù)據(jù)來源和存儲內(nèi)容上與現(xiàn)有的數(shù)據(jù)基礎(chǔ)設(shè)施具有一定聯(lián)系和相似性,但是它們之間依然存在顯而易見的差異。

    此外,通過對模型庫中各種跨科學(xué)技術(shù)領(lǐng)域的、從數(shù)據(jù)到知識的分析模型進(jìn)行對比、歸納、總結(jié),“模型庫”構(gòu)建人員未來將可能就“人工智能技術(shù)賦能的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)”的共性方法進(jìn)行更深入的分析和研究,從而在數(shù)據(jù)密集型知識發(fā)現(xiàn)的研究范式、理論、方法上做出更多貢獻(xiàn)。

    3.4 “情報認(rèn)知模型庫”可以為甄別科技機(jī)遇和威脅提供快速支撐

    科學(xué)技術(shù)的最新進(jìn)展往往帶來全新的科技認(rèn)知,可能是新關(guān)注焦點、新應(yīng)用場景、新發(fā)展方向,也可能是性能的突破、方法工藝的革新、結(jié)構(gòu)成分的突變等。這些新的科技認(rèn)知不斷沖擊舊的知識體系,在原有知識結(jié)構(gòu)中催生了新的知識節(jié)點、形成了新的關(guān)聯(lián)關(guān)系,亦或者突破了原有認(rèn)知模型中所存儲的參數(shù)閾值。為了對這些最新科技進(jìn)展進(jìn)行有效甄別,必須保證作為本底信息的原有知識儲備的全面性、準(zhǔn)確性、專業(yè)性。

    以包含“情報認(rèn)知模型”的高水平學(xué)術(shù)論文為收集對象,通過制定對各種科學(xué)技術(shù)領(lǐng)域情報認(rèn)知模型的標(biāo)引、融合、驗證、更新規(guī)則,構(gòu)建跨領(lǐng)域情報認(rèn)知體系的規(guī)范和框架,有利于積累相關(guān)數(shù)據(jù)和模型方法,發(fā)展面向關(guān)鍵核心技術(shù)性能評價的指標(biāo),乃至通過對各種認(rèn)知模型的集成、關(guān)聯(lián)、重組、梳理,逐漸形成跨領(lǐng)域、大規(guī)模、結(jié)構(gòu)化的科學(xué)技術(shù)領(lǐng)域知識庫。屆時,根據(jù)技術(shù)性能參數(shù)比對、成分結(jié)構(gòu)查詢、技術(shù)工藝對比等方法,就能夠快速甄別新科技動態(tài)中所蘊(yùn)含的機(jī)遇和威脅,或利用綜合性指標(biāo)體系判斷新科技成果的突破和創(chuàng)新顛覆程度。

    4 “情報認(rèn)知模型庫”的建設(shè)方法設(shè)計

    正是由于“情報認(rèn)知模型庫”的重要意義和價值,十分有必要厘清模型庫的結(jié)構(gòu)和功能,設(shè)計一套行之有效的模型庫構(gòu)建方法。

    4.1 “科學(xué)技術(shù)領(lǐng)域情報認(rèn)知模型”的要素和關(guān)系

    一般而言,學(xué)科領(lǐng)域知識挖掘模型是由各領(lǐng)域科研人員開發(fā),并以學(xué)術(shù)論文的形式進(jìn)行報道和公開的。在許多情況下,這些模型會將某一類研究對象或科學(xué)問題抽象為包含諸多“要素”的一套知識本體,然后根據(jù)這些“要素”確定需要挖掘的數(shù)據(jù)源,將技術(shù)領(lǐng)域問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)的分類或回歸問題,將技術(shù)領(lǐng)域背景知識儲備轉(zhuǎn)化為特征抽取的規(guī)則,構(gòu)建出合適的訓(xùn)練語料;最后通過對模型的訓(xùn)練、驗證,得到各種“要素”之間的相關(guān)關(guān)系,從而實現(xiàn)對未知問題的預(yù)測結(jié)果。仍以石墨烯技術(shù)領(lǐng)域為例,它包含的各種“要素”和“要素”之間的關(guān)系可以用圖1 進(jìn)行展示。

    圖1 石墨烯技術(shù)領(lǐng)域知識本體(Graphene Ontology,GO)示意圖Fig.1 A diagram of Graphene Ontology

    4.2 “情報認(rèn)知模型庫”的結(jié)構(gòu)和功能

    通過分析“情報認(rèn)知模型”的要素可以看出,模型要素的來源既包括技術(shù)方法和性能參數(shù)細(xì)節(jié),也包含文獻(xiàn)來源信息。因此,在設(shè)計模型庫的結(jié)構(gòu)和功能時,需要考慮文獻(xiàn)庫、知識庫、算法庫、實驗數(shù)據(jù)/語料庫等模塊;為了方便模型庫的建設(shè)和推廣應(yīng)用,可以分別設(shè)計“管理系統(tǒng)”“標(biāo)引系統(tǒng)”“用戶訪問系統(tǒng)”,分別面向“模型庫管理人員、建設(shè)和標(biāo)引人員、用戶”這3 類人群提供模型庫的訪問途徑。而在服務(wù)功能上,通過對模型庫中的文本進(jìn)行聚類分析、對各種性能參數(shù)等定量數(shù)據(jù)進(jìn)行統(tǒng)計分析、對各種模型的效果和適用場景進(jìn)行對比分析、對預(yù)標(biāo)引數(shù)據(jù)和算法提供下載服務(wù),可以實現(xiàn)研究熱點識別、技術(shù)性能對比、科技領(lǐng)域智能分析方法推薦、知識發(fā)現(xiàn)算法輔助設(shè)計開發(fā)等功能,如圖2 所示。

    值得指出的是,圖2 中并未顯示模型庫的不同模塊、各模塊的不同字段之間的相關(guān)關(guān)系,而這些相關(guān)關(guān)系是至關(guān)重要的。在未來的具體建設(shè)實施階段,需要進(jìn)一步設(shè)計各字段的數(shù)據(jù)類型/長度、錄入必要性、字段錄入的規(guī)范性等。

    4.3 “情報認(rèn)知模型庫”的建設(shè)流程

    考慮到“情報認(rèn)知模型”的上述結(jié)構(gòu)和功能特點,構(gòu)建“情報認(rèn)知模型庫”的過程應(yīng)當(dāng)包括對模型的監(jiān)測、收集、驗證、標(biāo)引、存儲、分裝、調(diào)用等,如圖3 所示。

    圖2 “情報認(rèn)知模型庫”的結(jié)構(gòu)和功能Fig.2 Structure and function of the"intelligence cognition model database"

    圖3 建設(shè)“情報認(rèn)知模型”的工作流程Fig.3 Workflow of constructing"intelligence cognition model database"

    (1)模型的收集和識別。在模型庫的建設(shè)過程中,應(yīng)當(dāng)以來自科技決策層和科研一線、產(chǎn)業(yè)一線的情報需求為牽引,優(yōu)先對具有重要應(yīng)用價值的、有重復(fù)使用潛力的模型進(jìn)行解析、驗證和存儲。應(yīng)當(dāng)盡量從經(jīng)過同行評審的高質(zhì)量學(xué)術(shù)期刊上搜集模型。另一方面,對模型的監(jiān)測和積累可以嵌入科技情報工作者的日常工作業(yè)務(wù)中,即在周期性情報快報的監(jiān)測和選題時、進(jìn)行專題情報調(diào)研時,注意對情報人員掃描發(fā)現(xiàn)的有價值的情報認(rèn)知模型加以關(guān)注,并將其納入后續(xù)的驗證環(huán)節(jié)。

    因此,可以納入“模型庫”的模型應(yīng)當(dāng)具備的標(biāo)準(zhǔn)包括:①權(quán)威性(由相關(guān)科學(xué)技術(shù)領(lǐng)域?qū)I(yè)研究人員開發(fā),或發(fā)表在經(jīng)過同行評議的高質(zhì)量期刊上);②完整性(包含對模型計算過程的定量描述、模型算法、輸入和輸出結(jié)果、訓(xùn)練語料、數(shù)據(jù)來源等);③實用性(應(yīng)當(dāng)不是純理論研究或推導(dǎo),而是通過數(shù)據(jù)分析實現(xiàn)了知識發(fā)現(xiàn),或確實解決了相關(guān)科學(xué)技術(shù)領(lǐng)域的實際問題);④可重復(fù)性(模型的使用場景、步驟、條件清晰,可以由情報分析人員或相關(guān)領(lǐng)域科研人員對模型進(jìn)行驗證),等等。可以預(yù)見,隨著模型庫的建設(shè),這些標(biāo)準(zhǔn)還會進(jìn)一步充實和豐富。

    (2)模型的驗證。在初步發(fā)現(xiàn)有價值的情報認(rèn)知模型后,對其的驗證是至關(guān)重要的一步,這直接關(guān)系到建成后的模型庫是否可靠、可信賴、可推廣。在對“情報認(rèn)知模型”進(jìn)行驗證時,首先應(yīng)當(dāng)對模型的水平、價值、應(yīng)用范圍做初步判斷,對價值較低的模型進(jìn)行剔除。對價值高的模型驗證時,應(yīng)當(dāng)對模型的算法、代碼、訓(xùn)練和測試語料數(shù)據(jù)進(jìn)行下載,對研究論文中介紹的挖掘?qū)嶒炦^程進(jìn)行重現(xiàn),對論文中的關(guān)鍵分析步驟和重要公示進(jìn)行重點追溯,避免出現(xiàn)邏輯錯誤;在必要時可以聘請相關(guān)科學(xué)技術(shù)領(lǐng)域?qū)<?,對模型設(shè)計的學(xué)科背景知識和科學(xué)性、準(zhǔn)確性進(jìn)行把關(guān)。對模型的驗證需要準(zhǔn)備相應(yīng)的計算環(huán)境和設(shè)備。如果模型驗證需要的數(shù)據(jù)量和計算量過大,超出模型庫建設(shè)單位的能力(例如一些采用大數(shù)據(jù)分析技術(shù)、或需要高性能計算設(shè)備的模型),那么可以暫時將“重現(xiàn)挖掘分析過程”省略;在將模型提供給服務(wù)對象(一般為具有相應(yīng)計算環(huán)境和設(shè)備的單位)時,由服務(wù)對象完成對挖掘過程的重現(xiàn)驗證。

    (3)模型的標(biāo)引。對“情報認(rèn)知模型”的標(biāo)引需要包括對報道和介紹模型的文獻(xiàn)信息的標(biāo)引,以及對模型自身特性的標(biāo)引兩個部分,如表1 所示。

    下面以香港大學(xué)KOOHI-MOGHADAM 等2019 年發(fā)表在期刊Nature Machine Intelligence上的論文Predicting Disease-Associated Mutation of Metal-Binding Sites in Proteins Using a Deep Learning Approach[6]為例說明對模型標(biāo)引的基本流程:這篇論文報道了使用深度學(xué)習(xí)方法預(yù)測蛋白質(zhì)中金屬結(jié)合位點的突變與疾病之間的相關(guān)性的一項研究。①在數(shù)據(jù)源方面,該研究首先從多個醫(yī)學(xué)數(shù)據(jù)庫下載了大量已知的金屬結(jié)合位點蛋白質(zhì)三維結(jié)構(gòu)(來自MetalPDB 數(shù)據(jù)庫),以及人體細(xì)胞(致?。夹裕┩蛔償?shù)據(jù)(分別來自ClinVar、Uniprot Humsavar 和CancerResource2 數(shù)據(jù)庫);②在特征工程方面,該研究利用受控的醫(yī)學(xué)主題詞表對疾病名稱進(jìn)行了清洗,然后定義了5 項數(shù)據(jù)特征(原始氨基酸類型、突變氨基酸類型、氨基酸在蛋白質(zhì)中的位置、金屬類型、相互作用類型),將蛋白質(zhì)結(jié)構(gòu)空間特征映射到三維點陣網(wǎng)格中,以矩陣形式在計算機(jī)中存儲;③在機(jī)器學(xué)習(xí)模型的訓(xùn)練上,該研究將上述矩陣(網(wǎng)格)作為多通道卷積神經(jīng)網(wǎng)絡(luò)(MCCNN)的輸入項,將不同金屬的結(jié)合位點良性突變作為陰性訓(xùn)練集/測試集(輸出項),而將致病突變作為陽性訓(xùn)練集/測試集(輸出項);④在分析效果上,該研究通過訓(xùn)練MCCNN,對未知是否致病的突變情況進(jìn)行了分類,最終發(fā)現(xiàn)了1 256 種與疾病相關(guān)的錯義突變,以及261 種良性錯義突變;在此基礎(chǔ)上發(fā)現(xiàn)10 種金屬與17 種疾病高度相關(guān),例如鋅結(jié)合位點的突變在乳腺、肝、腎、免疫系統(tǒng)和前列腺疾病中起主要作用,鈣和鎂的結(jié)合位點突變分別與肌肉疾病和免疫系統(tǒng)疾病有關(guān),錳和銅結(jié)合位點突變與心血管疾病有關(guān)等。因此,這項研究中所蘊(yùn)藏的“情報認(rèn)知模型”的關(guān)鍵之處在于它在第②步(特征工程)中定義的5 項“數(shù)據(jù)抽取特征”,以及后續(xù)對MCCNN 的輸入、輸出、陽性/陰性訓(xùn)練語料的構(gòu)建思路上;而相關(guān)算法、原始數(shù)據(jù)下載地址均可以重復(fù)利用,需要“模型庫”構(gòu)建人員進(jìn)行標(biāo)引和存儲。最后這篇論文的標(biāo)引結(jié)果如表1 的第1 行所示。

    表1 對“科學(xué)技術(shù)領(lǐng)域情報認(rèn)知模型”的標(biāo)引示例Table 1 Indexing examples of the"scientific and technological intelligence cognition models"

    (4)模型的封裝。對模型的標(biāo)引是進(jìn)行結(jié)構(gòu)化存儲、形成模型庫的關(guān)鍵步驟。為了讓模型庫發(fā)揮科研基礎(chǔ)設(shè)施和情報工具箱的效果,還可以將各種模型封裝為可執(zhí)行程序,方便科研人員和情報人員對模型的調(diào)用。

    (5)模型的存儲?!扒閳笳J(rèn)知模型庫”應(yīng)該包含對報道和介紹各個模型的文獻(xiàn)全文的存儲、對模型算法和代碼的存儲、對模型訓(xùn)練和驗證所采用的數(shù)據(jù)源和語料庫的存儲等??梢圆捎贸墒斓臄?shù)據(jù)庫構(gòu)建方法對上述內(nèi)容進(jìn)行存儲,并構(gòu)建支持檢索和調(diào)用的模型目錄。

    (6)模型庫的服務(wù)和應(yīng)用。“情報認(rèn)知模型庫”既可以供科技情報工作者查詢和調(diào)用,也可以供相關(guān)科學(xué)技術(shù)領(lǐng)域的科研人員使用,同時也能夠給研究機(jī)器學(xué)習(xí)算法和模型的技術(shù)人員以啟發(fā)。在應(yīng)用形式上,可以建設(shè)“情報認(rèn)知模型庫”門戶網(wǎng)站,按照領(lǐng)域類別不同,對模型進(jìn)行分類展示。科技情報人員可以在撰寫情報報告時,通過門戶網(wǎng)站查詢、利用不同的情報認(rèn)知模型,自動挖掘文獻(xiàn)信息、生成情報觀點,提高工作效率和分析水平。未來為了實現(xiàn)這一愿景,還需要進(jìn)一步研究如何改進(jìn)模型庫的組織方式、提高模型庫的自動化水平等。

    5 結(jié)論和展望

    構(gòu)建“情報認(rèn)知模型庫”對開展科學(xué)技術(shù)領(lǐng)域情報工作具有重要意義。隨著科研數(shù)據(jù)的爆炸式增長和信息技術(shù)的飛速發(fā)展,各種自動化、智能化的分析工具已經(jīng)在科學(xué)研究、技術(shù)開發(fā)、科技情報工作中扮演至關(guān)重要的角色;“情報認(rèn)知模型”中包含對各種科學(xué)技術(shù)領(lǐng)域知識的抽象、總結(jié),能夠發(fā)揮“從數(shù)據(jù)到知識”的重要橋梁作用,因此如果它們能被有效地收集、存儲、封裝,形成“情報認(rèn)知模型庫”,將具備廣泛應(yīng)用價值,發(fā)揮科技數(shù)據(jù)基礎(chǔ)設(shè)施、科技情報分析工具箱的效果。

    “對模型的驗證”是建設(shè)“情報認(rèn)知模型庫”的關(guān)鍵步驟之一。為驗證模型的可靠性、實用性,需要重現(xiàn)原始文獻(xiàn)中所描述的利用該模型對科學(xué)技術(shù)領(lǐng)域數(shù)據(jù)進(jìn)行挖掘、分析、實驗、評估的過程。對于模型庫的建設(shè)機(jī)構(gòu)而言,如何在有限的硬件計算能力、技術(shù)分析能力條件下,重現(xiàn)一些涉及大數(shù)據(jù)分析任務(wù)的模型,可能是需要解決的難題之一??赡艿奶幚矸绞桨ú捎谩跋却鎯?,后驗證”的方式,或?qū)で髶碛邢嚓P(guān)技術(shù)條件、硬件資源的機(jī)構(gòu)協(xié)助等。

    “情報認(rèn)知模型庫”的構(gòu)建需要情報人員、科學(xué)技術(shù)領(lǐng)域?qū)<?、信息技術(shù)人員的通力合作。任何一篇學(xué)術(shù)論文中設(shè)計的“情報認(rèn)知模型”都是對紛繁復(fù)雜的自然現(xiàn)象和問題的抽象、簡化、仿真,因此一定會存在信息損失,也一定是片面的;通過“情報認(rèn)知模型”構(gòu)建的科學(xué)技術(shù)領(lǐng)域知識本體,必須同該領(lǐng)域的專家智慧、研判相結(jié)合,才能保證整個科學(xué)技術(shù)領(lǐng)域的“知識地圖”的完整性、合理性、權(quán)威性。

    展望未來,在“情報認(rèn)知模型庫”初步建成后,如何對其進(jìn)行推廣服務(wù),如何提升模型庫檢索、查詢、調(diào)用的自動化水平,如何利用服務(wù)效果的反饋對模型庫進(jìn)行維護(hù)和更新升級等,還需要更進(jìn)一步的研究。

    猜你喜歡
    對模型模型庫情報
    情報
    情報
    情報
    光源對模型貼圖的影響——3種人造光源在三維數(shù)字化采集中的應(yīng)用
    廣州文博(2020年0期)2020-06-09 05:15:44
    蒙藥特潤舒都樂對模型小鼠脾臟NK細(xì)胞活性的影響
    蒙醫(yī)開竅補(bǔ)腎針刺法對模型大鼠胸腺、脾臟指數(shù)的影響
    蒙醫(yī)催熟療法對模型大鼠炎癥因子影響的實驗研究
    基于模型庫系統(tǒng)的金融體系流動性風(fēng)險預(yù)警機(jī)制研究
    交接情報
    基于模型庫的現(xiàn)代成本會計計量系統(tǒng)研究
    會計之友(2014年28期)2014-10-13 15:54:36
    渝北区| 商丘市| 西峡县| 双牌县| 威信县| 抚松县| 彰武县| 利津县| 漳平市| 齐河县| 隆昌县| 锦州市| 宿松县| 万载县| 南汇区| 济宁市| 九江县| 常德市| 福建省| 龙南县| 石台县| 吉林省| 伊吾县| 新余市| 新绛县| 思南县| 邹城市| 同仁县| 宜章县| 交口县| 屏边| 铁岭县| 萨迦县| 濮阳县| 贵定县| 离岛区| 务川| 积石山| 商丘市| 株洲市| 平罗县|