劉靜春 陳麗云
關(guān)鍵詞:大數(shù)據(jù);網(wǎng)絡(luò)社區(qū);學(xué)術(shù)資源;數(shù)據(jù)挖掘
摘要:文章分析了網(wǎng)絡(luò)社區(qū)學(xué)術(shù)信息資源需求與行為特征,闡明了大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)社區(qū)學(xué)術(shù)資源的動(dòng)力機(jī)制,論述了大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)社區(qū)學(xué)術(shù)資源深度挖掘與聚合的方法,提出了網(wǎng)絡(luò)社區(qū)面向用戶的學(xué)術(shù)資源推送服務(wù)模式。
中圖分類號(hào):G250文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-1588(2016)09-0114-03
大數(shù)據(jù)時(shí)代學(xué)科信息交融為科研人員學(xué)術(shù)創(chuàng)新提供了條件,面對(duì)海量信息數(shù)據(jù),科研人員的學(xué)術(shù)交流方式也由傳統(tǒng)渠道逐漸向博客、SMS等網(wǎng)絡(luò)社區(qū)方向發(fā)展。大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)社區(qū)的數(shù)量逐漸增多,學(xué)術(shù)資源呈現(xiàn)網(wǎng)絡(luò)化聚合趨勢(shì),并且類型更為多樣,傳播速度更為高效。研究表明,截至2014年年底我國學(xué)術(shù)科研類網(wǎng)絡(luò)社區(qū)用戶的數(shù)量已經(jīng)超過180萬,常見的網(wǎng)絡(luò)社區(qū)包括丁香園、學(xué)術(shù)博客等。網(wǎng)絡(luò)社區(qū)學(xué)術(shù)信息資源的迅速增長及數(shù)據(jù)挖掘等技術(shù)的不斷進(jìn)步,為研究網(wǎng)絡(luò)社區(qū)功能與揭示知識(shí)關(guān)聯(lián)奠定了基礎(chǔ)。為更好地發(fā)現(xiàn)網(wǎng)絡(luò)社區(qū)學(xué)術(shù)資源的內(nèi)在關(guān)聯(lián),掌握網(wǎng)絡(luò)社區(qū)學(xué)術(shù)資源的發(fā)展規(guī)律,以高效管理促進(jìn)科研創(chuàng)新,需要借助大數(shù)據(jù)技術(shù)制訂合理的學(xué)術(shù)資源聚合與服務(wù)方案。
1網(wǎng)絡(luò)社區(qū)學(xué)術(shù)信息資源需求與行為特征分析
網(wǎng)絡(luò)社區(qū)是大數(shù)據(jù)時(shí)代科研人員獲取學(xué)術(shù)信息的重要來源,只有了解網(wǎng)絡(luò)社區(qū)學(xué)術(shù)信息需求與行為特征,才能更好地為科研人員提供服務(wù)。
1.1網(wǎng)絡(luò)社區(qū)學(xué)術(shù)資源的產(chǎn)生
網(wǎng)絡(luò)社區(qū)是指具有相同興趣愛好與學(xué)科背景的用戶,通過網(wǎng)絡(luò)技術(shù)開展信息交互形成的虛擬團(tuán)體。當(dāng)前網(wǎng)絡(luò)社區(qū)成為人們獲取信息的有效手段,也為科研人員獲取最新科研信息提供了便利[1]。網(wǎng)絡(luò)社區(qū)學(xué)術(shù)信息的獲取途徑十分廣泛,用戶之間的溝通與信息交互均會(huì)產(chǎn)生大量數(shù)據(jù),社區(qū)用戶所掌握的學(xué)術(shù)成果、學(xué)科經(jīng)驗(yàn)等信息資源,均可成為網(wǎng)絡(luò)社區(qū)學(xué)術(shù)資源的來源。網(wǎng)絡(luò)社區(qū)用戶數(shù)量龐大,依托互聯(lián)網(wǎng)可以實(shí)現(xiàn)跨區(qū)域、跨時(shí)空交流,這就意味著社區(qū)成員均可成為學(xué)術(shù)信息的發(fā)布者與利用者。
1.2網(wǎng)絡(luò)社區(qū)學(xué)術(shù)資源需求
科研人員通過網(wǎng)絡(luò)社區(qū)獲取最新科技信息,以解決學(xué)術(shù)研究中遇到的問題,或用于完善自身知識(shí)結(jié)構(gòu),這就產(chǎn)生了學(xué)術(shù)信息資源需求。當(dāng)前學(xué)術(shù)交流呈現(xiàn)跨學(xué)科趨勢(shì),科研人員要求獲取專業(yè)性、準(zhǔn)確性的學(xué)術(shù)資源,為科研活動(dòng)提供指導(dǎo)。而科研活動(dòng)實(shí)質(zhì)上屬于知識(shí)認(rèn)知過程,任何階段都需要信息資源提供支持。網(wǎng)絡(luò)社區(qū)學(xué)術(shù)資源具有學(xué)科化、分類化特點(diǎn),能夠?yàn)榭蒲腥藛T提供專業(yè)化學(xué)科信息服務(wù)[2]。如科學(xué)網(wǎng)根據(jù)學(xué)科專業(yè)進(jìn)行模塊劃分,其中包括醫(yī)學(xué)、工程學(xué)、信息技術(shù)及數(shù)理科學(xué)等資源,為科研人員獲取相關(guān)信息提供了便利。
1.3網(wǎng)絡(luò)社區(qū)學(xué)術(shù)信息行為特征
科研人員在開展科研活動(dòng)過程中產(chǎn)生學(xué)術(shù)信息需求,并在遵守網(wǎng)絡(luò)行為秩序的基礎(chǔ)上,利用網(wǎng)絡(luò)技術(shù)產(chǎn)生的一系列行為,這就是網(wǎng)絡(luò)社區(qū)信息行為??蒲腥藛T的學(xué)術(shù)信息行為源于其對(duì)學(xué)術(shù)信息的需求,而學(xué)術(shù)信息需求是信息行為的內(nèi)在動(dòng)力,屬于由內(nèi)而外的知識(shí)表達(dá)過程。網(wǎng)絡(luò)社區(qū)學(xué)術(shù)信息行為的開展具有獨(dú)特的方式,學(xué)術(shù)人員有極高的信息交互性,并通過信息發(fā)布與交流獲取更多資源。研究人員可通過發(fā)帖咨詢的方式獲得學(xué)術(shù)幫助,而其他社區(qū)成員對(duì)主題帖的關(guān)注、回復(fù)與轉(zhuǎn)發(fā),可以看作是學(xué)術(shù)信息衍生行為。科研人員學(xué)術(shù)信息交流具有廣泛性,信息交互對(duì)象也在不斷擴(kuò)大,有助于拓展學(xué)術(shù)資源傳播渠道。同時(shí),學(xué)術(shù)信息交流還具備多維性,即網(wǎng)絡(luò)社區(qū)的信息交流存在多種形式,不僅可以提升知識(shí)傳播的準(zhǔn)確度,還可以豐富研究人員的知識(shí)結(jié)構(gòu)。
2大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)社區(qū)學(xué)術(shù)資源的動(dòng)力機(jī)制
網(wǎng)絡(luò)社區(qū)屬于錯(cuò)綜復(fù)雜的人際關(guān)系網(wǎng)絡(luò),其中的學(xué)術(shù)資源存在復(fù)雜的關(guān)聯(lián)性,任何關(guān)聯(lián)的變化都會(huì)影響到整體發(fā)展?fàn)顩r。其支撐動(dòng)力包括信息行為引導(dǎo)、學(xué)術(shù)興趣發(fā)現(xiàn)、參與激勵(lì)機(jī)制等,有助于維持網(wǎng)絡(luò)社區(qū)的穩(wěn)定與發(fā)展。
2.1信息行為引導(dǎo)
保障網(wǎng)絡(luò)社區(qū)學(xué)術(shù)信息交流的活躍度,提高用戶的學(xué)術(shù)資源貢獻(xiàn)率,促進(jìn)網(wǎng)絡(luò)社區(qū)的良性發(fā)展,就需要構(gòu)建相應(yīng)的信息行為引導(dǎo)機(jī)制。網(wǎng)絡(luò)社區(qū)猶如一個(gè)龐大的知識(shí)庫,用戶可以從中獲取所需信息,也可以獲得幫助或分享知識(shí)[3]。網(wǎng)絡(luò)社區(qū)中經(jīng)常發(fā)布與分享信息的用戶,被看作網(wǎng)絡(luò)社區(qū)的“活躍者”,他們?cè)诳蒲行畔a(chǎn)生與交流中發(fā)揮著重要作用,也影響到其他用戶的行為。網(wǎng)絡(luò)社區(qū)可以將他們作為社區(qū)引導(dǎo)者,通過規(guī)范他們的學(xué)術(shù)信息行為,激勵(lì)更多用戶參與其中;同時(shí),制定學(xué)術(shù)造假舉報(bào)制度,發(fā)現(xiàn)造假行為及時(shí)處理,并對(duì)舉報(bào)成員予以適當(dāng)獎(jiǎng)勵(lì),以營造良好的學(xué)術(shù)交流氛圍。
2.2科研興趣發(fā)現(xiàn)
科研人員對(duì)學(xué)術(shù)信息具有較高的專業(yè)性要求,因此,在利用互聯(lián)網(wǎng)獲取信息時(shí)需要耗費(fèi)大量時(shí)間和精力,影響了科研效率。網(wǎng)絡(luò)學(xué)術(shù)社區(qū)的產(chǎn)生與發(fā)展,其根本目的在于全面了解科研人員的信息需求與科研興趣,為他們提供便捷的資源獲取途徑,保障學(xué)術(shù)資源的持續(xù)增長。網(wǎng)絡(luò)社區(qū)用戶科研興趣的發(fā)現(xiàn)需要對(duì)用戶需求進(jìn)行分析挖掘,通過構(gòu)建科研興趣模型了解不同用戶的個(gè)性化需求,也可以借助網(wǎng)絡(luò)社區(qū)成員的頁面瀏覽與檢索結(jié)果,從中挖掘不同用戶的興趣愛好或通過信息行為跟蹤了解用戶的學(xué)術(shù)興趣。
2.3參與激勵(lì)機(jī)制
網(wǎng)絡(luò)社區(qū)的發(fā)展離不開用戶的參與互動(dòng),這就要求借助必要的激勵(lì)手段吸引用戶參與到學(xué)術(shù)資源建設(shè)中,提升社區(qū)學(xué)術(shù)資源質(zhì)量。網(wǎng)絡(luò)社區(qū)用戶成員之間可以自由交流,并且允許通過版權(quán)功能設(shè)置等方式,幫助用戶構(gòu)建基于共同專業(yè)背景、興趣愛好的團(tuán)體。網(wǎng)絡(luò)社區(qū)用戶的參與度與其群體依賴性、人際交往情況均有關(guān)系,大部分用戶更傾向于在彼此認(rèn)同的基礎(chǔ)上形成團(tuán)隊(duì)關(guān)系,這種關(guān)系讓用戶認(rèn)識(shí)到自己屬于團(tuán)隊(duì)的一分子,擔(dān)負(fù)著共同建設(shè)社區(qū)的責(zé)任。網(wǎng)絡(luò)學(xué)術(shù)社區(qū)可以通過虛擬貨幣、積分等激勵(lì)方式,制定合理的激勵(lì)評(píng)估機(jī)制,營造良好的社區(qū)交流環(huán)境,激勵(lì)更多用戶參與到社區(qū)建設(shè)中,促進(jìn)網(wǎng)絡(luò)社區(qū)資源共建共享。
3大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)社區(qū)學(xué)術(shù)資源的深度挖掘與聚合
大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)社區(qū)用戶的信息行為是動(dòng)態(tài)變化的,決定了對(duì)網(wǎng)絡(luò)社區(qū)學(xué)術(shù)資源進(jìn)行分析處理的復(fù)雜性。借助數(shù)據(jù)挖掘等大數(shù)據(jù)技術(shù)開展學(xué)術(shù)資源挖掘,促進(jìn)學(xué)術(shù)資源的精確分類與高效聚合,可為學(xué)術(shù)資源推送服務(wù)奠定基礎(chǔ)。
3.1學(xué)術(shù)資源的獲取
從網(wǎng)絡(luò)社區(qū)海量數(shù)據(jù)資源中提取有價(jià)值的信息,需要用到數(shù)據(jù)挖掘技術(shù)。該技術(shù)能夠從海量信息中分析一系列信息行為,在分析數(shù)據(jù)關(guān)聯(lián)的基礎(chǔ)上揭示內(nèi)在規(guī)律,融合了數(shù)據(jù)可視化、數(shù)據(jù)庫、數(shù)據(jù)處理等技術(shù)。由于網(wǎng)絡(luò)社區(qū)學(xué)術(shù)資源的類別不同,采用的數(shù)據(jù)挖掘算法也存在差異[4]。數(shù)據(jù)挖掘過程中首先需要對(duì)海量數(shù)據(jù)進(jìn)行采集抽樣,然后開展數(shù)據(jù)預(yù)處理與數(shù)據(jù)描述,通過數(shù)據(jù)變換構(gòu)建相關(guān)模型,并通過模型評(píng)估獲得結(jié)果。學(xué)術(shù)資源的深度挖掘要求構(gòu)建興趣向量,明確具體的學(xué)術(shù)研究領(lǐng)域與方向,通過對(duì)相關(guān)學(xué)術(shù)資源、學(xué)術(shù)成果的分析處理及關(guān)鍵詞頻率排序等方式,將分散的學(xué)術(shù)資源聚集起來,提升學(xué)術(shù)信息服務(wù)的準(zhǔn)確率。
3.2合理選擇數(shù)據(jù)庫
網(wǎng)絡(luò)社區(qū)擁有龐大的數(shù)據(jù)信息,并且數(shù)據(jù)規(guī)模是不斷變化的。因此,在數(shù)據(jù)庫選擇方面需要考慮其最大容量,數(shù)據(jù)庫是否具備安全穩(wěn)定性及數(shù)據(jù)查詢速度是否滿足需求等。為解決海量學(xué)術(shù)信息資源的存儲(chǔ)問題,在數(shù)據(jù)庫選擇方面首先需要考慮其延展性與兼容性,要求該數(shù)據(jù)庫容納更多數(shù)據(jù),可由幾十或數(shù)百臺(tái)服務(wù)器構(gòu)成,數(shù)據(jù)的存儲(chǔ)模式更為自由,無需考慮數(shù)據(jù)文件的存儲(chǔ)格式。數(shù)據(jù)庫中每個(gè)文檔的存儲(chǔ)均有統(tǒng)一的標(biāo)識(shí),方便進(jìn)行瀏覽與管理。同時(shí),該數(shù)據(jù)庫具備較高的伸縮性,能夠?yàn)樵茢?shù)據(jù)庫提供支撐,還可以額外增加其他設(shè)備,可以通過文件備份與自動(dòng)轉(zhuǎn)移保障安全性。此外,該數(shù)據(jù)庫還具備完善的信息索引系統(tǒng),能夠幫助用戶迅速查找所需信息,提高學(xué)術(shù)信息的查詢速度。
3.3學(xué)術(shù)資源挖掘與存儲(chǔ)
網(wǎng)絡(luò)社區(qū)學(xué)術(shù)信息并非獨(dú)立存在的,而是存在語義關(guān)聯(lián)的知識(shí)節(jié)點(diǎn)[5]。學(xué)術(shù)資源挖掘是通過對(duì)信息數(shù)據(jù)進(jìn)行高層次處理,提取關(guān)聯(lián)數(shù)據(jù)的總體特征,獲取其中潛在的、新穎的、有價(jià)值的信息。首先,了解社區(qū)的信息行為特征,利用數(shù)據(jù)挖掘技術(shù)對(duì)用戶的輸入關(guān)鍵詞進(jìn)行搜集查詢,在標(biāo)記相關(guān)網(wǎng)頁的基礎(chǔ)上下載檢索文檔。其次,對(duì)檢索結(jié)果進(jìn)行深入分析,獲取相關(guān)文獻(xiàn)的URL值,借助編程技術(shù)了解相關(guān)文獻(xiàn)的具體信息,并將計(jì)算權(quán)值與相關(guān)參數(shù)存儲(chǔ)在數(shù)據(jù)庫中。全面掌握學(xué)術(shù)資源之間的語義關(guān)系,能夠更好地保障數(shù)據(jù)挖掘與聚合效果。最后,借助語義關(guān)聯(lián)促進(jìn)學(xué)術(shù)資源聚合,構(gòu)建多層次、多維度、立體化的網(wǎng)絡(luò)社區(qū)知識(shí)網(wǎng)絡(luò),并利用數(shù)據(jù)可視化技術(shù)進(jìn)行結(jié)果展示,方便社區(qū)用戶了解學(xué)術(shù)資源的整體脈絡(luò)及學(xué)術(shù)資源的挖掘與存儲(chǔ)過程(見圖1)。
4大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)社區(qū)面向用戶的學(xué)術(shù)資源推送服務(wù)模式
4.1網(wǎng)絡(luò)社區(qū)用戶需求分析
網(wǎng)絡(luò)社區(qū)本質(zhì)上屬于信息共享的虛擬交流平臺(tái),學(xué)術(shù)資源推送服務(wù)側(cè)重于對(duì)信息數(shù)據(jù)進(jìn)行重構(gòu)與加工,明確信息推送服務(wù)的參與要素、服務(wù)流程與實(shí)現(xiàn)機(jī)制,進(jìn)而為科研人員提供具有決策性的信息服務(wù)(見圖2)。為此,首先需要對(duì)社區(qū)用戶的基本信息、認(rèn)知水平及信息行為特征進(jìn)行分析,隨后在對(duì)社區(qū)學(xué)術(shù)信息資源進(jìn)行管理的基礎(chǔ)上形成學(xué)術(shù)資源庫。社區(qū)用戶在信息行為、認(rèn)知能力等方面存在較大差異,對(duì)社區(qū)學(xué)術(shù)信息的獲取、處理與認(rèn)知能力,都會(huì)影響其對(duì)所獲取資源的價(jià)值利用率。筆者認(rèn)為,可從社區(qū)用戶的科研興趣、認(rèn)知能力、認(rèn)知結(jié)構(gòu)等方面進(jìn)行分析,挖掘社區(qū)用戶潛在的學(xué)術(shù)信息需求,根據(jù)不同用戶群體的行為特征提供個(gè)性化服務(wù),也可以針對(duì)某個(gè)用戶提供個(gè)性化推送服務(wù),保障服務(wù)參與要素、服務(wù)流程的聯(lián)動(dòng)性,以提高信息服務(wù)效率。
4.2學(xué)術(shù)資源庫的構(gòu)建
不同網(wǎng)絡(luò)社區(qū)中學(xué)術(shù)資源的內(nèi)容存在較大差異,但學(xué)術(shù)資源的來源基本相同,均為社區(qū)用戶信息發(fā)布與分享的結(jié)果。通過對(duì)網(wǎng)絡(luò)社區(qū)各種形態(tài)學(xué)術(shù)信息的聚合與重組,就可以構(gòu)建學(xué)術(shù)資源數(shù)據(jù)庫。在具體構(gòu)建過程中組織與維護(hù)學(xué)術(shù)資源至關(guān)重要,學(xué)術(shù)資源聚合并非簡單的信息聚集,而是基于某一主題的關(guān)聯(lián)或?qū)Χ鄠€(gè)主題信息的融合,并保障提取關(guān)聯(lián)特征的準(zhǔn)確性。將所有學(xué)術(shù)資源通過聚類整理納入數(shù)據(jù)庫后,在全面掌握社區(qū)用戶需求的基礎(chǔ)上,對(duì)推送服務(wù)參與要素進(jìn)行識(shí)別分析,明確服務(wù)流程的科學(xué)性與合理性,確定學(xué)術(shù)信息推送服務(wù)目標(biāo),為準(zhǔn)確提供信息推送服務(wù)提供支撐。
4.3主動(dòng)推送服務(wù)的實(shí)施
網(wǎng)絡(luò)社區(qū)推出學(xué)術(shù)資源推送服務(wù),主要目的在于針對(duì)社區(qū)用戶的信息交互、檢索與瀏覽行為,在學(xué)術(shù)資源庫中深度挖掘與集成信息后,為用戶主動(dòng)提供準(zhǔn)確的反饋信息,滿足他們對(duì)網(wǎng)絡(luò)社區(qū)信息服務(wù)的期待。學(xué)術(shù)資源推送強(qiáng)調(diào)個(gè)性化服務(wù),在分析不同群體用戶特征的基礎(chǔ)上,主動(dòng)調(diào)取學(xué)術(shù)資源數(shù)據(jù)庫中的相關(guān)信息,并將最終結(jié)果推送給用戶[6]??筛鶕?jù)不同用戶群體的基本特征,在用戶沒有開展信息檢索的情況下,主動(dòng)為用戶提供科研信息,讓用戶在獲得信息的同時(shí)積極參與到學(xué)術(shù)信息發(fā)布及傳播中。
參考文獻(xiàn):
[1]胥琳佳.大數(shù)據(jù)對(duì)于傳播學(xué)研究內(nèi)容和方法的影響:基于社交媒體和移動(dòng)互聯(lián)網(wǎng)的思考[J].中國出版,2013(18):3-6.
[2]朱世琴.面向大數(shù)據(jù)時(shí)代的高校圖書館創(chuàng)新服務(wù)[J].高校圖書館工作,2014(5):70-72.
[3]欒旭倫.大數(shù)據(jù)環(huán)境下高校圖書館個(gè)性化信息服務(wù)系統(tǒng)研究[J].圖書館學(xué)刊,2014(8):118-121.
[4]李春英,湯庸,陳國華,等.面向?qū)W術(shù)社區(qū)的專家推薦模型[J].智能系統(tǒng)學(xué)報(bào),2012(4):365-369.
[5]彭文梅.大數(shù)據(jù)時(shí)代高校圖書館信息服務(wù)創(chuàng)新與發(fā)展[J].河北科技圖苑,2014(3):14-16.
[6]陳國華,湯庸,彭澤武,等.基于學(xué)術(shù)社區(qū)的學(xué)術(shù)搜索引擎設(shè)計(jì)[J].計(jì)算機(jī)科學(xué),2011(8):171-175.
(編校:馬懷云)