徐敏 楊應(yīng)全 陳祖琴
〔摘 要〕提出一個(gè)學(xué)科發(fā)展熱點(diǎn)推薦平臺的模型,致力于讓許多新進(jìn)科研人員能夠迅速了解到相關(guān)學(xué)科領(lǐng)域的前沿和研究熱點(diǎn)。本文詳細(xì)闡述了模型系統(tǒng)的邏輯結(jié)構(gòu)和設(shè)計(jì)思想并以信息采集模塊為例,詳細(xì)說明了信息推送的過程和如何通過爬蟲程序在學(xué)術(shù)期刊網(wǎng)站上獲取關(guān)鍵信息。
〔關(guān)鍵詞〕學(xué)科熱點(diǎn);熱點(diǎn)推薦;信息采集
DOI:10.3969/j.issn.1008-0821.20.01.032
〔中圖分類號〕G250.73 〔文獻(xiàn)標(biāo)識碼〕B 〔文章編號〕1008-0821(20)01-0127-03
Research of Implement Model of Recommended Disciplines Focus Platform
——Take the Function of Information Collection as ExampleXu Min Yang Yingquan Chen Zuqin
(Library,Chongqing University of Science & Technology,Chongqing 401331,China)
〔Abstract〕It proposed the mode of recommended disciplines focus platform which in order to enable new researchers to realize the subjects frontier study focus.The essay elaborated the logic structure and designed thought of system model and with the process of information collection as example to expound the information sending and how to get key messages from academic journals website via crawlers program.
〔Keywords〕disciplines focus;recommended focus;information collection
隨著現(xiàn)代科學(xué)研究的深入,前沿研究熱點(diǎn)越來越難把握,如何整合學(xué)術(shù)信息資源分類提取前沿?zé)狳c(diǎn),實(shí)現(xiàn)信息共建共享日益成為科研學(xué)術(shù)界普遍關(guān)注的問題。本文系中國冶金教育學(xué)會教育科學(xué)研究計(jì)劃課題“學(xué)科發(fā)展熱點(diǎn)推薦平臺的實(shí)施模式研究”的成果之一,以冶金領(lǐng)域?yàn)槔?,?gòu)架一個(gè)為科研學(xué)術(shù)用戶提供高質(zhì)量、個(gè)性化和及時(shí)的熱點(diǎn)信息服務(wù)的學(xué)科發(fā)展熱點(diǎn)推薦平臺模型。
1 平臺簡介
學(xué)科發(fā)展熱點(diǎn)推薦平臺指的是針對不同學(xué)科,首先收集該學(xué)科的核心期刊,以期刊或期刊中的不同版塊為單位按其涉及的研究方向進(jìn)行分類整理,再以每個(gè)期刊和期刊欄目下的文章為單位,通過對期刊的影響因子、期刊被引頻次、期刊反應(yīng)速率、期刊平均引文率、論文的自引和被引頻次、論文發(fā)表周期等進(jìn)行分析,進(jìn)行數(shù)據(jù)挖掘,形成有效的學(xué)科熱點(diǎn)。舉例來說,以維普或萬方的期刊全文數(shù)據(jù)庫為數(shù)據(jù)源,以網(wǎng)頁爬蟲程序?yàn)閿?shù)據(jù)采集工具,后臺通過對不同指標(biāo)賦予不同的權(quán)重進(jìn)行數(shù)據(jù)評價(jià),然后對結(jié)果進(jìn)行分類匯總,用戶通過前臺界面進(jìn)行查詢?yōu)g覽。
由于不同學(xué)科甚至同一學(xué)科的不同研究領(lǐng)域的發(fā)展程度是不同的,比如生物科技類期刊的影響因子一般高于機(jī)械類期刊,再就是醫(yī)學(xué)臨床類期刊的影響因子一般高于醫(yī)學(xué)內(nèi)科類期刊,所以我們對于期刊以及論文搜集整理后的第一步是以期刊或期刊中的不同欄目為單位按其涉及的研究方向進(jìn)行分類整理,將其劃分為一個(gè)個(gè)彼此獨(dú)立的小單元,這樣可以避免期刊論文評價(jià)中的強(qiáng)勢學(xué)科的干擾,再以每個(gè)期刊和期刊欄目下的文章為單位,通過事先已經(jīng)建立的具有不同權(quán)重值的指標(biāo)評價(jià)體系表對采集的論文進(jìn)行評價(jià),提取其中關(guān)鍵信息。但是每個(gè)研究領(lǐng)域都有其自身的特點(diǎn),不可能通過完全固化一種指標(biāo)評價(jià)體系,所以考慮每個(gè)學(xué)科實(shí)力較強(qiáng)的一些研究機(jī)構(gòu)可以制定出適合本學(xué)科的指標(biāo)評價(jià)體系并能調(diào)整修改,為讓結(jié)果更加符合用戶的需求,用戶可以對結(jié)果進(jìn)行評價(jià)或提交自己認(rèn)可的學(xué)科熱點(diǎn),從而產(chǎn)生用戶主觀知識熱點(diǎn)。
2 學(xué)科發(fā)展熱點(diǎn)推薦平臺模型
學(xué)科發(fā)展熱點(diǎn)推薦平臺的相關(guān)人員分為平臺設(shè)計(jì)者、平臺架構(gòu)者、數(shù)據(jù)提供者、數(shù)據(jù)獲取者、終端用戶五部分(見圖1),其中平臺設(shè)計(jì)者可以是一個(gè)或多個(gè)成員,他們往往來源于每個(gè)學(xué)科的核心研究機(jī)構(gòu),從概念模型到實(shí)際架構(gòu),從宏觀設(shè)計(jì)到細(xì)節(jié)布局提出想法,最終形成實(shí)施方案,平臺架構(gòu)者利用技術(shù)來實(shí)現(xiàn)。平臺架設(shè)成功之后其他成員主要進(jìn)行數(shù)據(jù)提供和數(shù)據(jù)獲取,而終端用戶主要是熱點(diǎn)信息獲取的單位、組織和個(gè)人,他們可以獲取熱點(diǎn)并進(jìn)行評價(jià)反饋。整個(gè)系統(tǒng)平臺中操作權(quán)限和優(yōu)先級別從高到底分別為“平臺設(shè)計(jì)者和架構(gòu)者>數(shù)據(jù)提供者和獲取者>終端用戶”。
20年1月第31卷第1期學(xué)科發(fā)展熱點(diǎn)推薦平臺的實(shí)施模式研究Jan.,20平臺的操作一定是簡潔高效的,符合用戶使用習(xí)慣的,而后臺數(shù)據(jù)的存儲和處理過程是用戶不可見的。當(dāng)在用戶界面進(jìn)行信息需求的提交操作之后,通過數(shù)據(jù)存取接口來對需求進(jìn)行分析,首先確定用戶需求知識所屬的學(xué)科,可以由一級學(xué)科劃分至二級學(xué)科直至細(xì)分到某些特定研究方向,再根據(jù)研究方向確定知識點(diǎn)的來源,然后將數(shù)據(jù)返回至用戶界面。由于現(xiàn)代學(xué)科的研究往往是多學(xué)科交叉,所以當(dāng)用戶在用戶界面提交查詢之后,通過數(shù)據(jù)存取接口的分析處理,可能會分別從學(xué)科1的成員1和學(xué)科3的成員q中提取知識(見圖2),越是復(fù)雜的熱點(diǎn)所涉及的成員就越多。簡而言之就是對用戶的需求進(jìn)行分解歸類,然后從特定欄目中提取資源提交用戶,這些資源都是來源于各個(gè)學(xué)科的不同成員。以冶金學(xué)科為例,北京科技大學(xué)的冶金與生態(tài)工程學(xué)院作為平臺中該學(xué)科類目的主干力量,起著制定冶金學(xué)科指標(biāo)體系、提供資源、分解任務(wù)等方面的作用,然后其他冶金類的??苹虮究圃盒;蛘邆€(gè)人用戶可以通過適量付費(fèi)的方式獲取平臺資源。
圖2 學(xué)科熱點(diǎn)推薦平臺成員結(jié)構(gòu)圖
3 平臺主要實(shí)現(xiàn)
平臺能夠?yàn)橛脩艉芎梅?wù)的前提是有一個(gè)良好的數(shù)據(jù)基礎(chǔ),因此如何能夠及時(shí)、方便、快捷地從互聯(lián)網(wǎng)上獲取海量學(xué)術(shù)信息的指標(biāo)信息成為一個(gè)關(guān)鍵,這些指標(biāo)信息指的就是論文的題名、作者、單位、摘要、關(guān)鍵詞、參考文獻(xiàn)、相似文獻(xiàn)、自引和被引頻次、發(fā)表周期以及所屬期刊的影響因子、被引頻次、反應(yīng)速率、平均引文率等,通過以上這些信息能夠很好的捕捉出每個(gè)學(xué)科專業(yè)的熱點(diǎn)。而這些數(shù)據(jù)的采集源就是一些大型的學(xué)術(shù)期刊網(wǎng),眾所周知,百度谷歌等大型搜索引擎都是可以直接索引學(xué)術(shù)期刊網(wǎng)的論文頁面,同樣也是獲取以上那些關(guān)鍵信息的過程,只要不索引論文的全文和一些保密信息是不會產(chǎn)生版權(quán)問題的,因?yàn)閷ζ涞乃饕紫仁欠奖阌脩舻男畔⒉樵?;其次是對學(xué)術(shù)期刊網(wǎng)的宣傳,用戶通過搜索引擎找到文章之后進(jìn)入相應(yīng)的學(xué)術(shù)期刊網(wǎng)采用單篇文本付費(fèi)方式獲取資源。本平臺數(shù)據(jù)采集的流程與搜索引擎類似,只采集期刊論文的指標(biāo)信息,不采集論文全文信息,同樣不會產(chǎn)生版權(quán)問題,另外一個(gè)區(qū)別是除了索引信息之外還利用其進(jìn)行熱點(diǎn)推薦,讓用戶在點(diǎn)開某學(xué)科欄目頁面之后了解最新的前沿,并能夠通過點(diǎn)擊熱點(diǎn)論文直接跳轉(zhuǎn)至學(xué)術(shù)資源網(wǎng)站的相應(yīng)頁面查看更多信息或付費(fèi)下載。
平臺的主要實(shí)現(xiàn)是依靠后臺的信息收集整理和前臺的用戶推薦。平臺前臺主要是為了實(shí)現(xiàn)信息推送、信息展示和信息搜索這3種功能。前臺學(xué)科熱點(diǎn)服務(wù)主要為會員用戶、訪客用戶和特定用戶服務(wù)。首先是一般性的訪客用戶,他們只是利用本平臺進(jìn)行信息的瀏覽,通過平臺的用戶界面主觀性地找尋某些研究領(lǐng)域的熱點(diǎn)信息或?qū)W術(shù)資源,由于是一般性訪客,出于知識版權(quán)的考慮,往往對其開放的資源很少;而對于在本平臺注冊的會員用戶除了具備一般性訪客的所有使用權(quán)限之外,平臺還會定期利用E-mail和站內(nèi)郵件等方式為其推送熱點(diǎn)信息,同時(shí)會員用戶也可以定制自己感興趣的熱點(diǎn)欄目,并根據(jù)級別開放不同層次的學(xué)術(shù)資源。而特定用戶是指需求不明確,研究領(lǐng)域較復(fù)雜的特殊用戶,平臺在熱點(diǎn)推薦的模式上可以既采用郵件式主動推送方式也可采取用戶提交需求,專家答疑的方式解決問題(見圖3)。而平臺后臺的實(shí)現(xiàn)主要是首先通過爬蟲程序?qū)W(xué)術(shù)網(wǎng)站相關(guān)學(xué)科的頁面進(jìn)行信息抓取,將所獲得的關(guān)鍵信息存儲起來,然后由該學(xué)科研究的專家成員根據(jù)本學(xué)科特點(diǎn)進(jìn)行分析制定出熱點(diǎn)評價(jià)指標(biāo)體系,所獲取的信息經(jīng)過指標(biāo)評價(jià)處理之后便形成熱點(diǎn),然后各個(gè)成員再根據(jù)要求提供自有資源,從而構(gòu)成一個(gè)既有熱點(diǎn)推薦也有學(xué)術(shù)資源共享的平臺。本部分以平臺后臺信息采集為例,通過分析外部學(xué)術(shù)資源網(wǎng)情況來實(shí)現(xiàn)關(guān)鍵信息抓取的過程。以維普的中文科技期刊數(shù)據(jù)庫為例,由于采用類似搜索引擎只抓取期刊論文展示頁面的各項(xiàng)關(guān)鍵信息而不涉及其全文信息,所以不會產(chǎn)生版權(quán)糾紛等問題。
圖3 前臺熱點(diǎn)服務(wù)模式圖
3.1 后臺信息采集過程
3.1.1 超鏈接分析
前面所討論的是各個(gè)成員主動性地將自身資源貢獻(xiàn)給平臺加以整合利用,但是學(xué)術(shù)網(wǎng)站的資源往往更加豐富,本平臺的一個(gè)熱點(diǎn)指標(biāo)評價(jià)系統(tǒng)就需要通過爬蟲程序?qū)ヂ?lián)網(wǎng)上某一領(lǐng)域?qū)W術(shù)文章的篇名、關(guān)鍵詞以及所屬期刊等指標(biāo)進(jìn)行收集比對分析,統(tǒng)計(jì)這些字段中的實(shí)義詞的絕對詞頻、相對詞頻、期刊影響因子等屬性來劃定哪些為學(xué)科熱點(diǎn)詞匯。通過后臺的爬蟲程序定期對期刊網(wǎng)站進(jìn)行頁面信息的抓取以實(shí)現(xiàn)數(shù)據(jù)收集的目的,以維普期刊網(wǎng)的一篇名為“高塑性耐熱Ni基合金”的文章為例,其頁面鏈接為http:∥www.cqvip.com/qk/95120X/201003/34264684.html,通過對該超鏈接的分析發(fā)現(xiàn),其中www.cqvip.com為維普期刊網(wǎng)站的一級域名;之后的qk字段為期刊的拼音縮寫,即維普的所有期刊頁面都存儲在該域名下的qk目錄中;95120X字段表示本篇論文所屬的期刊《兵器材料科學(xué)與工程》,即《兵器材料科學(xué)與工程》的所有論文的頁面都在該目錄下;201003字段表示該期刊的發(fā)行年月或刊號,即該目錄中為2010年3月份的《兵器材料科學(xué)與工程》的所有論文頁面;最后的34264684.html就是本篇論文的頁面。通過以上規(guī)律,我們的爬蟲程序可以分層級地在指定的期刊頁面進(jìn)行遍歷,以《兵器材料科學(xué)與工程》期刊為例,首先爬蟲程序會在http:∥www.cqvip.com/qk/95120X/頁面上獲取所有年份以及月份的期刊的目錄(見圖4),接著再從每期的期刊的頁面中進(jìn)入每篇論文的頁面,獲取每篇論文的關(guān)鍵信息。
爬蟲程序?qū)撁娴乃阉魇且粋€(gè)深度遍歷的過程(見圖5),首先爬蟲對給予超鏈接的第一層進(jìn)行遍歷,如果沒有發(fā)現(xiàn)下一層的超鏈接,則出錯(cuò),捕捉異常,進(jìn)行下一個(gè)超鏈接的遍歷;若成功則抓取該頁面的關(guān)鍵信息并進(jìn)行存儲,然后進(jìn)入下一層的超鏈接。以維普期刊網(wǎng)的一個(gè)超鏈接為例,我們指定了《兵器材料科學(xué)與工程》這份期刊,爬蟲程序會首先進(jìn)入特定網(wǎng)址http:∥www.cqvip.com/qk/95120X/,本頁面代碼中