吳璇 徐源 宋亦兵
摘要:[目的/意義]探討微信小程序在學(xué)科知識服務(wù)中的應(yīng)用價值。[方法/過程]該文分析了當(dāng)前學(xué)科知識發(fā)現(xiàn)的服務(wù)現(xiàn)狀,微信小程序的應(yīng)用現(xiàn)狀。提出以微信小程序?yàn)檩d體,融合知識圖譜、機(jī)器學(xué)習(xí)、大數(shù)據(jù)處理等前沿技術(shù),從信息服務(wù)、知識服務(wù)、個性化服務(wù)等多個角度進(jìn)行服務(wù)內(nèi)容的研究,來設(shè)計(jì)一款便于用戶隨時隨地進(jìn)行學(xué)科知識發(fā)現(xiàn)的輕量級應(yīng)用。[結(jié)果/結(jié)論]筆者認(rèn)為盡管小程序只是一款輕量級應(yīng)用,但如能在服務(wù)模式、規(guī)劃布局、功能實(shí)現(xiàn)上突出其相較于傳統(tǒng)技術(shù)載體的優(yōu)勢,小程序能夠適用于海量的知識發(fā)現(xiàn)服務(wù)中,并從移動端開辟一條新的道路為廣大用戶提供科研創(chuàng)新服務(wù)。
關(guān)鍵詞:知識發(fā)現(xiàn);微信小程序;知識圖譜;機(jī)器學(xué)習(xí);科技大數(shù)據(jù)
中圖分類號:TP311? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)26-0074-05
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
1 背景
自20世紀(jì)90年代以來,通信技術(shù)與網(wǎng)絡(luò)技術(shù)飛速發(fā)展,它促進(jìn)了各學(xué)科與計(jì)算機(jī)學(xué)科的交叉融合[1]。信息資源的數(shù)字化轉(zhuǎn)型,拉近了我國與歐美發(fā)達(dá)國家的距離,一定程度上打破了彼此間的學(xué)術(shù)壁壘。據(jù)2018年中國科技論文統(tǒng)計(jì)結(jié)果顯示,我國在國際頂尖學(xué)術(shù)期刊上的發(fā)表的論文排名上升到世界第4位,發(fā)表在各學(xué)科最具影響力國際期刊上的論文數(shù)連續(xù)第八年排在世界第2位[2]。這昭示著我國已進(jìn)入了高質(zhì)量科技論文產(chǎn)出階段。基于對部分高水平科技論文參考文獻(xiàn)的研究發(fā)現(xiàn),外文數(shù)據(jù)庫所收錄的文獻(xiàn)對我國科研人員撰寫高水平論文以及科學(xué)研究起到了重大推動作用。然而,一個不可否認(rèn)的事實(shí)是,國內(nèi)高校及科研院所投入大量經(jīng)費(fèi)購買的外文數(shù)據(jù)庫利用率較低,且存在重復(fù)購買數(shù)據(jù)庫的情況,不可避免地造成了資源浪費(fèi)[3]。傳統(tǒng)數(shù)據(jù)平臺重建設(shè)、輕推廣,訪問限制等問題依舊制約著學(xué)科服務(wù)的高效展開,平臺的學(xué)術(shù)價值無法得到充分的應(yīng)用[4-5]。面對大數(shù)據(jù)時代科研信息化與知識發(fā)現(xiàn)服務(wù)模式的新形勢與新挑戰(zhàn),中國科學(xué)院“十三五”信息化專項(xiàng)旨在契合國家戰(zhàn)略,發(fā)展科學(xué)大數(shù)據(jù)[6]。圍繞干細(xì)胞領(lǐng)域知識發(fā)現(xiàn)的科研信息化需求,結(jié)合中國科學(xué)院廣州生物醫(yī)藥與健康研究院干細(xì)胞領(lǐng)域科研優(yōu)勢和中國科學(xué)院成都文獻(xiàn)情報中心信息數(shù)據(jù)資源優(yōu)勢,開發(fā)了一款集成干細(xì)胞領(lǐng)域大數(shù)據(jù)、知識計(jì)算、知識發(fā)現(xiàn)的綜合科技服務(wù)平臺。為了增強(qiáng)平臺在傳播、推廣方面的競爭力,提升科學(xué)數(shù)據(jù)資源共享水平和科學(xué)大數(shù)據(jù)應(yīng)用水平。筆者以微信小程序?yàn)槊浇?,結(jié)合干細(xì)胞平臺底層數(shù)據(jù),換一種思路與方法推廣知識發(fā)現(xiàn)服務(wù)。
2 知識發(fā)現(xiàn)服務(wù)特性與現(xiàn)狀
網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展以及數(shù)字化環(huán)境的日臻成熟,大數(shù)據(jù)時代產(chǎn)生的信息風(fēng)暴席卷而來,海量的數(shù)字化資源使得傳統(tǒng)的知識服務(wù)模式面臨極大挑戰(zhàn)。傳統(tǒng)的知識平臺數(shù)據(jù)體量已達(dá)到一定級別,但在內(nèi)容檢索的精準(zhǔn)性與數(shù)據(jù)的關(guān)聯(lián)性上表現(xiàn)不佳,用戶無法在海量數(shù)據(jù)中快速檢索自己所需要的信息。隨著互聯(lián)網(wǎng)信息總量的爆炸式增長,基于各類排序算法檢索顯然無法滿足用戶全面獲取信息資源的多樣化需求。國內(nèi)外不少知識服務(wù)機(jī)構(gòu)或團(tuán)隊(duì)采用知識挖掘、知識圖譜等相關(guān)技術(shù)對大量結(jié)構(gòu)化或半結(jié)構(gòu)化的復(fù)雜數(shù)據(jù)進(jìn)行了知識提取,并挖掘、分析海量數(shù)據(jù)背后不為人所知的信息,使用戶能夠簡潔、迅速地獲取所需的信息。
在知識圖譜的應(yīng)用中。Google搜索引擎基于Google Knowledge Graph,依托Google后臺強(qiáng)大的計(jì)算力,能夠智能分析用戶的輸入,區(qū)別于傳統(tǒng)的列表鏈接,提供一系列結(jié)構(gòu)化的主題信息,并生成與之關(guān)聯(lián)的百科圖譜。通過一次搜索即可展現(xiàn)出一幅與主題內(nèi)容關(guān)聯(lián)密切的智能圖譜,極大程度地提升了用戶的體驗(yàn)。但當(dāng)前國內(nèi)互聯(lián)網(wǎng)訪問Google受限,使得我們無法完美地使用這套強(qiáng)大的搜索工具[7]。Wolfram則更進(jìn)一步,其開發(fā)的WolframAlpha是一個強(qiáng)大的計(jì)算知識引擎而非搜索引擎。它支持自動聯(lián)想與模糊語意識別,能夠根據(jù)輸入,快速的理解,并直接向用戶返回答案,它是邁向語義網(wǎng)終極目標(biāo)道路上的一大飛躍[8]。
基于知識圖譜構(gòu)建的學(xué)術(shù)知識發(fā)現(xiàn)平臺層出不窮。Springer Nature的學(xué)術(shù)領(lǐng)域開放數(shù)據(jù)平臺通過知識圖譜提升了學(xué)術(shù)資源的可獲取性。在平臺組織架構(gòu)上,融合了諸如期刊、論文、專著、組織、專利、臨床試驗(yàn)、會議、研究資助者等多個內(nèi)容,通過對海量數(shù)據(jù)深度挖掘與內(nèi)容計(jì)算,使數(shù)據(jù)的內(nèi)容價值得到大幅度提升[9]。由Tahir Mansoori團(tuán)隊(duì)構(gòu)建的Wizdom ai平臺,其龐大的數(shù)據(jù)源來自他們持續(xù)監(jiān)控全球研究生態(tài)系統(tǒng)的數(shù)十億動態(tài)數(shù)據(jù)點(diǎn),涵蓋研究者,機(jī)構(gòu),出版物,論文,專利等實(shí)體。結(jié)合先進(jìn)的算法,它能夠生成關(guān)于科學(xué)發(fā)展的分析,針對用戶角色的不同,獲得對過去,現(xiàn)在,未來的強(qiáng)大見解,為機(jī)構(gòu)或個人的決策提供可行的方案[10]。清華大學(xué)研發(fā)的AMiner知識服務(wù)平臺以科研人員、科技文獻(xiàn)、學(xué)術(shù)活動三大類數(shù)據(jù)為基礎(chǔ),構(gòu)建三者之間的關(guān)聯(lián)關(guān)系,深入挖掘面向全球科研機(jī)構(gòu)及相關(guān)工作人員,提供學(xué)者、論文文獻(xiàn)等學(xué)術(shù)信息資源檢索以及面向科技文獻(xiàn)、專利、新聞的語義搜索、語義分析、成果評價等知識服務(wù)[11]。
上述各類研究平臺對筆者團(tuán)隊(duì)構(gòu)建知識大數(shù)據(jù)平臺提供了完美的借鑒。綜合中國科學(xué)院廣州生物醫(yī)藥與健康研究院以及中國科學(xué)院成都文獻(xiàn)情報中心各自優(yōu)勢,聯(lián)合構(gòu)建了干細(xì)胞知識發(fā)現(xiàn)平臺(https://stemcell.kmcloud.ac.cn),如圖1。平臺以論文專利、基金項(xiàng)目、專家機(jī)構(gòu)、期刊專著、政策法規(guī)等12類核心科技信息為基礎(chǔ),從科學(xué)儀器、動物模型、實(shí)驗(yàn)方案、細(xì)胞器官等8個視角,進(jìn)行多維度、深層次、細(xì)粒度地挖掘領(lǐng)域知識內(nèi)涵,將分散的多源異構(gòu)數(shù)據(jù)經(jīng)過清洗、挖掘、融合和關(guān)聯(lián)等處理,實(shí)現(xiàn)了干細(xì)胞領(lǐng)域科技信息與科技數(shù)據(jù)的集成化管理。基于知識實(shí)體構(gòu)建數(shù)據(jù)關(guān)聯(lián),打通了鏈接專家機(jī)構(gòu)、科技成果、產(chǎn)品服務(wù)等科技服務(wù)資源的孤島。從項(xiàng)目、論文、專利、新聞、師承關(guān)系等視角,實(shí)現(xiàn)了科學(xué)家、科研機(jī)構(gòu)、前沿?zé)狳c(diǎn)問題的知識畫像構(gòu)建。以此來建立科研信息化應(yīng)用示范,推進(jìn)科研活動與信息化融合,支撐研究機(jī)構(gòu)科研重大創(chuàng)新,提升科研信息化應(yīng)用水平[12]。