何 勝 柳益君 黃永鋒 習(xí)海旭 吳智勤
(1.江蘇理工學(xué)院計(jì)算機(jī)工程學(xué)院 江蘇常州 213001)
(2.江蘇理工學(xué)院圖書館 江蘇常州 213001)
信息共享與知識(shí)創(chuàng)新時(shí)代,大數(shù)據(jù)基礎(chǔ)理論與領(lǐng)域?qū)嵺`的分殊與對(duì)峙激發(fā)了眾多的研究需求。在面向科研用戶的圖書館知識(shí)服務(wù)實(shí)踐中,由于文獻(xiàn)大數(shù)據(jù)紛繁復(fù)雜、知識(shí)創(chuàng)新呼聲日益高漲且科研人員個(gè)性化特征分化顯著,有關(guān)用戶群體行為分析、科研知識(shí)問答和個(gè)性化推薦等理論和應(yīng)用研究面臨重大挑戰(zhàn)。
用戶畫像(User Profiling)是典型的數(shù)據(jù)處理方法[1-2]。該方法通過歸納和分類包括人口屬性、個(gè)性習(xí)慣、專業(yè)背景和興趣偏好等用戶屬性,多維度地析出描述性標(biāo)簽,并針對(duì)具體應(yīng)用目標(biāo)構(gòu)建特定模型,以凸顯用戶個(gè)性化特征。用戶畫像本質(zhì)是建立于各類數(shù)據(jù)分析基礎(chǔ)上的對(duì)個(gè)性特征的深刻認(rèn)知和精準(zhǔn)表達(dá),表現(xiàn)形式為用戶標(biāo)簽[3-4]。由于其在輔助用戶群體行為分析、助力知識(shí)問答、提供個(gè)性化服務(wù)等方面的優(yōu)越表現(xiàn),過去數(shù)年里,用戶畫像在商業(yè)、金融和醫(yī)療等領(lǐng)域個(gè)性化服務(wù)方面發(fā)揮了重要作用[5-6]。當(dāng)前隨著國(guó)家創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略的實(shí)施以及對(duì)科研智庫(kù)的重視,面向科研創(chuàng)新的用戶畫像構(gòu)建研究引起國(guó)內(nèi)外圖情學(xué)界的關(guān)注[7]。
高校圖書館科研用戶一般以圖書館各類資源為基礎(chǔ),以科研創(chuàng)新為目標(biāo)開展科學(xué)研究,科研用戶畫像構(gòu)建模式既具有一般用戶畫像的共性,又兼?zhèn)涿嫦蚩蒲械莫?dú)特個(gè)性,因此本文首先梳理一般用戶畫像的構(gòu)建模式理論、方法和過程,在此基礎(chǔ)上再著重分析科研用戶畫像需求和面臨的挑戰(zhàn),并密切結(jié)合需求深入討論科研用戶畫像獨(dú)特的構(gòu)建模式。
“模式”一詞在學(xué)界沒有明確定義,對(duì)于不同學(xué)科有各自不同的涵義?;?dòng)百科詞條將“模式”描述為:“理論和實(shí)踐之間的中介環(huán)節(jié),具有可重復(fù)性、結(jié)構(gòu)性和穩(wěn)定性等特征”、“事物有組織的結(jié)構(gòu)”和“研究社會(huì)現(xiàn)象的理論圖式和解釋方案”等[8]。綜合上述描述,本文將用戶畫像構(gòu)建模式粗略概括為介于相關(guān)基礎(chǔ)理論和用戶實(shí)踐需求之間的以各類模型構(gòu)建為主體的模型框架,形成包括構(gòu)建過程、構(gòu)建方法和構(gòu)建目標(biāo)等關(guān)鍵元素的用戶畫像方案和理論體系。
國(guó)外學(xué)者注重將社交網(wǎng)絡(luò)分析方法引入用戶畫像構(gòu)建模式。例如,Ayse C[1]指出用戶畫像應(yīng)依據(jù)用戶社交屬性、生活習(xí)慣等信息,抽取用戶特征并進(jìn)行屬性標(biāo)注,形成用戶標(biāo)簽;Haoran X等人[9]認(rèn)為大數(shù)據(jù)情景下,應(yīng)重視用戶社交網(wǎng)絡(luò)近鄰及社團(tuán)成員的影響,以應(yīng)對(duì)用戶畫像屬性標(biāo)注過程中的數(shù)據(jù)稀疏問題;Mohammad Y[10]提出一種面向用戶畫像的個(gè)性化推薦系統(tǒng),該系統(tǒng)由數(shù)據(jù)收集、用戶畫像、相似度計(jì)算、社交網(wǎng)絡(luò)近鄰選擇及預(yù)測(cè)等過程組成。學(xué)者們?cè)诖嘶A(chǔ)上進(jìn)一步開展案例研究,例如Zeki A等人[11]基于社交網(wǎng)絡(luò)分析方法研究用戶畫像,調(diào)查用戶動(dòng)機(jī)并劃分用戶群;Joseph K等人[12]對(duì)社交網(wǎng)絡(luò)平臺(tái)Tweet的內(nèi)容進(jìn)行分析,抽取用戶屬性并完善畫像標(biāo)簽。
國(guó)內(nèi)學(xué)者也注重融合社交網(wǎng)絡(luò)信息構(gòu)建用戶畫像。例如,牛溫佳等人[13]以知識(shí)工程理論為支撐,提出基于知識(shí)抽取和用戶社交網(wǎng)絡(luò)行為分析的畫像方案;黃文彬等人[14]應(yīng)用頻繁模式挖掘和構(gòu)建概率矩陣等方法,引入用戶地理信息構(gòu)建用戶畫像;Wu L等人[15]采用一個(gè)概率模型對(duì)用戶行為背后的用戶偏好以及社交網(wǎng)絡(luò)鏈接進(jìn)行分析,發(fā)現(xiàn)用戶偏好與社交網(wǎng)絡(luò)行為密切相關(guān);王凌霄等人[16]認(rèn)為用戶畫像是應(yīng)對(duì)“社會(huì)化問答社區(qū)”諸多挑戰(zhàn)的富有成效的建模手段,并討論標(biāo)記用戶特征的方法。
國(guó)外研究很早就提出了基于語(yǔ)義網(wǎng)和本體方法的用戶畫像構(gòu)建模式。2004年,Middleton S等人[17]在研究基于用戶畫像的學(xué)術(shù)論文推薦方法時(shí),通過提取用戶關(guān)注的論文主題本體,將論文內(nèi)容轉(zhuǎn)化為對(duì)應(yīng)的詞向量與之進(jìn)行匹配,以準(zhǔn)確定位用戶偏好;Calegari S等人[18]利用YAGO本體庫(kù)提取標(biāo)簽構(gòu)建用戶畫像,輔助用戶個(gè)性化信息檢索,提高了檢索的精準(zhǔn)度和多樣率;Andres M等人[19]提出基于語(yǔ)義網(wǎng)和用戶畫像方法的融合文本信息和專家知識(shí)的學(xué)習(xí)管理系統(tǒng)OntoSakai;A Salehi等人[20]通過標(biāo)注用戶文本的語(yǔ)義信息,實(shí)現(xiàn)社區(qū)用戶的情感畫像,提出基于用戶文本情感的社區(qū)畫像方法。
國(guó)內(nèi)學(xué)者在語(yǔ)義計(jì)算方面也開展了大量的研究。2010年,唐杰等人[21]提出了利用搜索引擎進(jìn)行科研用戶畫像的框架,其思路是通過分類模型從搜索引擎中找到科研用戶主頁(yè),然后從中抽取不同類別的文本信息用于屬性標(biāo)注;董偉等人[22]通過計(jì)算主題間的海林格(Hellinger)距離,識(shí)別社區(qū)用戶的興趣特征;宋雪雁等人[23]以用戶消費(fèi)行為為基礎(chǔ),應(yīng)用語(yǔ)義計(jì)算方法構(gòu)建用戶畫像標(biāo)簽體系。
國(guó)內(nèi)外學(xué)界以個(gè)性化推薦和信息檢索等為應(yīng)用目標(biāo),將社交網(wǎng)絡(luò)分析和語(yǔ)義計(jì)算兩種核心方法應(yīng)用于用戶畫像構(gòu)建,對(duì)于解決用戶數(shù)據(jù)稀疏、標(biāo)簽規(guī)范化和精準(zhǔn)化等問題起到了很大推動(dòng)作用,并在有限數(shù)據(jù)集上取得了較好的結(jié)果,但是當(dāng)前大數(shù)據(jù)情境下用戶畫像構(gòu)建模式研究尚面臨以下挑戰(zhàn):①學(xué)者們提出的用戶畫像支撐理論和方法較為單一,缺乏進(jìn)一步的深度分析和有效融合;②缺乏大數(shù)據(jù)環(huán)境下面向科研用戶尤其是用戶畫像構(gòu)建模式的深入研究。
科研用戶畫像標(biāo)簽?zāi)P鸵话憧蓮挠脩羧丝跇?biāo)簽和科研屬性標(biāo)簽?zāi)P蛢蓚€(gè)方面加以研究。高校圖書館科研用戶一般指利用圖書館各種資源從事科學(xué)研究的個(gè)體(如高校教師、研究生)或群體(如科研團(tuán)隊(duì))[5],對(duì)比以教學(xué)、休閑為目標(biāo)的圖書館用戶,是一類以科學(xué)探索和創(chuàng)新為己任的特殊圖書館用戶。一方面,科研創(chuàng)新工作建立在個(gè)體付出艱辛努力以及群體通力協(xié)作的基礎(chǔ)上,用戶畫像需要深度描述個(gè)體和群體特征,因此形成科研用戶人口標(biāo)簽?zāi)P?;另一方面,科研工作具備極強(qiáng)的領(lǐng)域特征,科研人員在某一領(lǐng)域的成果、學(xué)術(shù)影響等要素共同構(gòu)成科研屬性標(biāo)簽?zāi)P汀?/p>
科研人員是一類特殊的群體,其知識(shí)需求目標(biāo)具有高度的特異性,用戶畫像構(gòu)建模式必然呈現(xiàn)自身的規(guī)律和特點(diǎn)。相關(guān)文獻(xiàn)研究結(jié)果表明,科研用戶知識(shí)需求的特征可概括為“博、準(zhǔn)、快和新”四個(gè)方面[24-25]。大數(shù)據(jù)情境下,數(shù)據(jù)體量巨大、來源眾多,如何針對(duì)上述需求,構(gòu)建科研用戶畫像模式極具迫切性。
(1)博,即科研知識(shí)的全面性。知識(shí)的廣博是知識(shí)交叉和遷移的基礎(chǔ)。構(gòu)建用戶畫像人口標(biāo)簽的源數(shù)據(jù)須全面反映科研領(lǐng)域所涉及的內(nèi)容,需要廣泛抽取包括社交和專業(yè)數(shù)據(jù)等多方面資源,如科研人員所在的微信、微博資源,以及科研文獻(xiàn)、專利、項(xiàng)目、成果等公開發(fā)表且經(jīng)過驗(yàn)證的數(shù)據(jù),以全面反映科研知識(shí)的廣度。
(2)準(zhǔn),即科研知識(shí)的精準(zhǔn)性。知識(shí)的精準(zhǔn)性是科研深度的源泉和科研創(chuàng)新的支柱。這對(duì)用戶畫像科研屬性標(biāo)簽體系提出規(guī)范化和一致性的要求,標(biāo)簽規(guī)范化是知識(shí)精準(zhǔn)的保障,標(biāo)簽一致性使得規(guī)范化的標(biāo)簽更為持久。標(biāo)簽規(guī)范化和一致性相統(tǒng)一的重要手段是知識(shí)的語(yǔ)義化和本體化。
(3)快和新,即科研知識(shí)實(shí)時(shí)性和動(dòng)態(tài)性。實(shí)時(shí)和動(dòng)態(tài)的知識(shí)為科研創(chuàng)新提供不竭的驅(qū)動(dòng)力,助力科研用戶及時(shí)掌握領(lǐng)域發(fā)展的前沿。一方面要求用戶畫像的標(biāo)簽(如專業(yè)詞匯)實(shí)時(shí)并動(dòng)態(tài)地反映領(lǐng)域研究的最新成果,另一方面也對(duì)用戶畫像軟件平臺(tái)的算法和算力提出更高要求。
網(wǎng)絡(luò)大數(shù)據(jù)(Network Big Data)是指隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計(jì)算等技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)空間中各類應(yīng)用引發(fā)的數(shù)據(jù)規(guī)模急劇增長(zhǎng)而形成的大數(shù)據(jù)[3,26]。網(wǎng)絡(luò)大數(shù)據(jù)分析和應(yīng)用包括三個(gè)層面,對(duì)應(yīng)研究方法如下[27]。
(1)網(wǎng)絡(luò)大數(shù)據(jù)感知和數(shù)據(jù)表示:以大規(guī)模網(wǎng)絡(luò)圖(Graph)分析為首要方法,收集包括社交網(wǎng)絡(luò)和語(yǔ)義網(wǎng)大數(shù)據(jù)等多源數(shù)據(jù),依據(jù)所構(gòu)建的元數(shù)據(jù)模型,去重后存入數(shù)據(jù)庫(kù)。
(2)網(wǎng)絡(luò)大數(shù)據(jù)融合和模型構(gòu)建:以社交網(wǎng)絡(luò)分析和語(yǔ)義計(jì)算為研究基本范式,社交網(wǎng)絡(luò)和語(yǔ)義網(wǎng)大數(shù)據(jù)為兩類典型源數(shù)據(jù),構(gòu)建網(wǎng)絡(luò)大數(shù)據(jù)分析和計(jì)算模型。
(3)網(wǎng)絡(luò)大數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn):以圖分析和挖掘算法為主要工具,洞察隱藏于網(wǎng)絡(luò)大數(shù)據(jù)中的創(chuàng)新性知識(shí)或規(guī)律。
從研究工具上看,網(wǎng)絡(luò)大數(shù)據(jù)的分析和處理涉及機(jī)器學(xué)習(xí)、自然語(yǔ)言處理和網(wǎng)絡(luò)分析等各類算法以及分布式計(jì)算平臺(tái)。
近年來,為快速處理海量數(shù)據(jù),開源組織Apache提出了Hadoop+Spark+GraphX框架,用于大規(guī)模網(wǎng)絡(luò)分析和內(nèi)存計(jì)算,其中集成了用于大規(guī)模網(wǎng)絡(luò)圖分析的機(jī)器學(xué)習(xí)庫(kù)(Machine Learning Library,MLlib)。該框架在淘寶網(wǎng)、新浪微博等商業(yè)大數(shù)據(jù)應(yīng)用領(lǐng)域取得成功[28-29]。中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)在預(yù)測(cè)大數(shù)據(jù)發(fā)展趨勢(shì)時(shí)指出:“數(shù)據(jù)的語(yǔ)義化和知識(shí)化是數(shù)據(jù)價(jià)值的基礎(chǔ)問題”,并認(rèn)為多學(xué)科數(shù)據(jù)融合、數(shù)據(jù)語(yǔ)義化和知識(shí)化分別是未來大數(shù)據(jù)應(yīng)用和發(fā)展的兩大趨勢(shì)[30]。
將兩類網(wǎng)絡(luò)大數(shù)據(jù)(包括社交網(wǎng)絡(luò)和語(yǔ)義網(wǎng)大數(shù)據(jù))引入到科研用戶畫像研究,并與大數(shù)據(jù)實(shí)時(shí)分析平臺(tái)密切結(jié)合,對(duì)科研用戶畫像在算法和算力上形成有力的支撐,從而滿足科研用戶“博、準(zhǔn)、快和新”的知識(shí)需求。
面向知識(shí)創(chuàng)新的科研用戶畫像模式構(gòu)建應(yīng)對(duì)策略可概括為3個(gè)方面,如圖1所示。
圖1 面向知識(shí)創(chuàng)新的科研用戶畫像模式構(gòu)建應(yīng)對(duì)策略
(1)將用戶人口標(biāo)簽?zāi)P徒⒂谏缃痪W(wǎng)絡(luò)大數(shù)據(jù)分析基礎(chǔ)之上是覆蓋知識(shí)全面性的有效途徑。由于科研人員往往專注于所研究的領(lǐng)域,將大量的時(shí)間用于科研活動(dòng),在社交平臺(tái)上與其他用戶的互動(dòng)時(shí)間和互動(dòng)行為較少,因而描述用戶個(gè)性的數(shù)據(jù)十分稀疏。社交網(wǎng)絡(luò)分析方法能夠有效挖掘到科研用戶所屬的群體或團(tuán)隊(duì),將有相同研究興趣的科研人員的標(biāo)簽相互共享,使得描述知識(shí)的標(biāo)簽更加豐富,以拓展用戶的知識(shí)覆蓋面。首先依據(jù)科研用戶人口特征構(gòu)建人口標(biāo)簽?zāi)P停缓髴?yīng)用網(wǎng)絡(luò)分析方法挖掘用戶社交數(shù)據(jù),盡可能擴(kuò)展用戶人口屬性標(biāo)簽,以便科研人員全面獲取所需要的知識(shí):①對(duì)大規(guī)模網(wǎng)絡(luò)鏈接循蹤,搜尋并統(tǒng)計(jì)科研個(gè)體的所有社交網(wǎng)絡(luò)鄰接成員,在相鄰成員之間實(shí)施人口標(biāo)簽擴(kuò)展;②對(duì)科研團(tuán)隊(duì)的社交群體行為(如各高校的學(xué)者主頁(yè)、各類微信公眾號(hào)和微博知識(shí)分享等)進(jìn)行挖掘和分析,拓展群體人口標(biāo)簽;③通過社交網(wǎng)絡(luò)挖掘算法計(jì)算網(wǎng)絡(luò)個(gè)體間的相似度,對(duì)缺乏人口標(biāo)簽數(shù)據(jù)的科研個(gè)體,抽取其他高相似成員的標(biāo)簽進(jìn)行共享和補(bǔ)全。
(2)將科研屬性標(biāo)簽?zāi)P徒⒂诙嘣悩?gòu)大數(shù)據(jù)語(yǔ)義分析基礎(chǔ)之上是推動(dòng)知識(shí)精準(zhǔn)獲取的關(guān)鍵方法。通過對(duì)海量領(lǐng)域數(shù)據(jù)的語(yǔ)義分析和本體建模,抽取其中的實(shí)體、關(guān)系和屬性等要素并融合,同時(shí)結(jié)合成熟的領(lǐng)域本體庫(kù),為用戶打上規(guī)范的科研屬性標(biāo)簽,以聚焦和對(duì)接科研用戶的個(gè)性化研究領(lǐng)域和個(gè)人偏好,精準(zhǔn)獲取領(lǐng)域知識(shí)。
(3)基于分布式計(jì)算平臺(tái)和內(nèi)存計(jì)算技術(shù)的科研用戶畫像系統(tǒng)是知識(shí)實(shí)時(shí)獲取和動(dòng)態(tài)更新的有力工具。在Hadoop+Spark+GraphX計(jì)算平臺(tái)中,其內(nèi)置的GraphX圖算法庫(kù)能滿足網(wǎng)絡(luò)大數(shù)據(jù)的算法要求,Hadoop+Spark內(nèi)存框架亦具有強(qiáng)大的算力支撐,促進(jìn)科研用戶標(biāo)簽的實(shí)時(shí)獲取和動(dòng)態(tài)更新,為科研用戶的知識(shí)實(shí)時(shí)性和動(dòng)態(tài)性提供保障。
綜上所述,以社交網(wǎng)絡(luò)分析和語(yǔ)義計(jì)算方法為基礎(chǔ)的網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)用以及相適應(yīng)的高性能分析系統(tǒng),能夠有力支持科研用戶畫像,為用戶畫像模式構(gòu)建提供高度契合的理論和實(shí)踐途徑。
高校圖書館科研用戶畫像模式構(gòu)建框架如圖2所示,包括基礎(chǔ)數(shù)據(jù)收集和用戶畫像模式構(gòu)建兩個(gè)部分,其中通過網(wǎng)絡(luò)大數(shù)據(jù)分析平臺(tái)將二者連接和溝通起來。
以科研創(chuàng)新為目的,網(wǎng)絡(luò)大數(shù)據(jù)可由以下幾個(gè)部分構(gòu)成,其中科研專業(yè)數(shù)據(jù)庫(kù)為核心,科研用戶的社交網(wǎng)絡(luò)數(shù)據(jù)、建構(gòu)于本體之上的百科知識(shí)和各類領(lǐng)域數(shù)據(jù)庫(kù)、網(wǎng)頁(yè)數(shù)據(jù)為重要支撐,共同組建為用戶畫像的基礎(chǔ)數(shù)據(jù)。
(1)科研專業(yè)數(shù)據(jù)庫(kù)。以國(guó)內(nèi)萬(wàn)方、知網(wǎng),國(guó)際SpringerLink、ScienceDirect等平臺(tái)數(shù)據(jù)為代表, 積累了海量的科研學(xué)術(shù)文獻(xiàn),是科研用戶創(chuàng)新的主要數(shù)據(jù)來源。其格式統(tǒng)一,方便抽取標(biāo)簽。
(2)社交網(wǎng)絡(luò)數(shù)據(jù)。如各高??蒲腥藛T在各類社交平臺(tái)如人人網(wǎng)、科學(xué)網(wǎng)、新浪微博、微信朋友圈和Facebook等產(chǎn)生的數(shù)據(jù)。這些社交平臺(tái)的“關(guān)注”及“好友”功能非常精準(zhǔn)地反映用戶的科研偏好或領(lǐng)域團(tuán)體的共同科研話題和目標(biāo)。
(3)在線百科。以維基百科、互動(dòng)百科、百度百科等知識(shí)庫(kù)為代表,受領(lǐng)域?qū)<覈?yán)格審核,內(nèi)容可靠且結(jié)構(gòu)完整,具有較高的參考價(jià)值。
(4)知識(shí)庫(kù)。以Dbpedia、Yago和Freebase等為代表的知識(shí)圖譜,知識(shí)結(jié)構(gòu)規(guī)范、內(nèi)容嚴(yán)謹(jǐn),能為科研用戶畫像應(yīng)用系統(tǒng)提供極其豐富的知識(shí)源泉。
(5)網(wǎng)頁(yè)數(shù)據(jù)。包括科研人員用于檢索的常用搜索引擎(如谷歌或百度),以及對(duì)科研人員較高黏度的知乎網(wǎng)站等。谷歌學(xué)術(shù)和百度學(xué)術(shù)網(wǎng)站一般可抽取文獻(xiàn)摘要、作者、機(jī)構(gòu)等信息,而知乎網(wǎng)站則可抽取用戶偏好及最新的概念術(shù)語(yǔ)等。
本文將上述五類網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行元數(shù)據(jù)統(tǒng)一建模,借助Hadoop+Spark+GraphX計(jì)算平臺(tái),經(jīng)過數(shù)據(jù)清洗和融合,形成科研用戶畫像的基礎(chǔ)數(shù)據(jù)庫(kù)。
科研用戶畫像構(gòu)建模式以社交網(wǎng)絡(luò)分析和語(yǔ)義網(wǎng)分析理論為支撐,依托Hadoop+Spark+GraphX網(wǎng)絡(luò)大數(shù)據(jù)分析平臺(tái),通過構(gòu)建元數(shù)據(jù)模型、用戶畫像模型和應(yīng)用模型,形成完整的高校圖書館科研用戶畫像模式,具體包括“大數(shù)據(jù)抽取與融合”、“用戶畫像模型構(gòu)建”和“用戶畫像應(yīng)用與服務(wù)”三個(gè)部分,如圖2所示。
圖2 基于網(wǎng)絡(luò)大數(shù)據(jù)的科研用戶畫像模式框架
4.2.1 大數(shù)據(jù)抽取與融合
大數(shù)據(jù)抽取與融合是用戶畫像模式構(gòu)建的基礎(chǔ),致力于產(chǎn)生統(tǒng)一和規(guī)范的基礎(chǔ)數(shù)據(jù)。
(1)數(shù)據(jù)抽取。收集科研文獻(xiàn)(論文、圖書庫(kù)等)、用戶注冊(cè)信息、用戶行為日志(借閱、檢索、咨詢等)、用戶屬性(姓名、性別、專業(yè)等)和互聯(lián)網(wǎng)網(wǎng)頁(yè)(維基、百度百科等)數(shù)據(jù),建立各自對(duì)應(yīng)的元數(shù)據(jù)模型,提取實(shí)體、關(guān)系和屬性,以便在分布式數(shù)據(jù)庫(kù)系統(tǒng)(如MonogoDB數(shù)據(jù)庫(kù))中進(jìn)行存儲(chǔ)。
(2)數(shù)據(jù)融合。建立在知識(shí)抽取的基礎(chǔ)上,包括建模、評(píng)估和擴(kuò)充三個(gè)方面。將上述從網(wǎng)絡(luò)大數(shù)據(jù)不同數(shù)據(jù)源中提取的實(shí)體、關(guān)系、屬性等進(jìn)行對(duì)齊、關(guān)聯(lián)、合并計(jì)算,依照所構(gòu)建的知識(shí)組織模型和數(shù)據(jù)結(jié)構(gòu),按序生成知識(shí)條目并存入知識(shí)庫(kù)。針對(duì)知識(shí)可能存在錯(cuò)誤、不一致等沖突等情況,需要進(jìn)行知識(shí)評(píng)估和擴(kuò)充。其中知識(shí)評(píng)估對(duì)知識(shí)進(jìn)行質(zhì)量度量,解決其中知識(shí)沖突,最終融合成格式一致、結(jié)構(gòu)清晰的知識(shí)。知識(shí)擴(kuò)充(包括實(shí)體擴(kuò)充、關(guān)系擴(kuò)充、屬性擴(kuò)充等)將驗(yàn)證為正確的知識(shí)、動(dòng)態(tài)更新到知識(shí)庫(kù)中。知識(shí)評(píng)估是實(shí)現(xiàn)知識(shí)擴(kuò)充的先決條件,而知識(shí)擴(kuò)充的結(jié)果可以作為先驗(yàn)知識(shí)以指導(dǎo)知識(shí)評(píng)估[26]。
4.2.2 用戶畫像模型構(gòu)建
以注釋標(biāo)簽為主要任務(wù)的標(biāo)簽建模是用戶畫像的核心環(huán)節(jié),包括用戶人口標(biāo)簽和科研屬性標(biāo)簽?zāi)P蜆?gòu)建兩個(gè)方面。圖3中以情報(bào)學(xué)相關(guān)領(lǐng)域?yàn)槔o出了科研用戶畫像各標(biāo)簽?zāi)P偷氖纠?/p>
圖3 科研用戶畫像模型構(gòu)建
(1)用戶人口標(biāo)簽建模。如圖3所示,基于社交網(wǎng)絡(luò)挖掘方法構(gòu)建科研用戶人口標(biāo)簽?zāi)P?,?duì)社交網(wǎng)絡(luò)數(shù)據(jù)中的節(jié)點(diǎn)聚類、網(wǎng)絡(luò)鏈接統(tǒng)計(jì)(入度、出度、介數(shù)和緊密性等參數(shù)分析)、關(guān)鍵節(jié)點(diǎn)進(jìn)行分析,確定用戶人口標(biāo)簽的基礎(chǔ)信息以及進(jìn)一步的擴(kuò)展信息。為提高科研用戶服務(wù)的精細(xì)化和精準(zhǔn)度,可將用戶人口標(biāo)簽細(xì)分為群體人口屬性和個(gè)體人口屬性標(biāo)簽。個(gè)體人口標(biāo)簽?zāi)P椭苯釉从诟咝D書館信息系統(tǒng)中科研用戶注冊(cè)時(shí)的格式化數(shù)據(jù),或者學(xué)者社交網(wǎng)絡(luò)網(wǎng)頁(yè)數(shù)據(jù),包括“用戶ID”、“所屬單位”、“用戶學(xué)歷”和“用戶興趣”等屬性;群體人口標(biāo)簽?zāi)P桶ā叭后w命名”、“所屬機(jī)構(gòu)”和“社交平臺(tái)”等屬性,這兩部分標(biāo)簽數(shù)據(jù)源于高校圖書館信息系統(tǒng)的用戶行為日志、網(wǎng)頁(yè)數(shù)據(jù)和社交網(wǎng)絡(luò)數(shù)據(jù),并需要綜合應(yīng)用社交網(wǎng)絡(luò)分析的相關(guān)挖掘算法進(jìn)行提取。
(2)用戶科研屬性標(biāo)簽建模?;谡Z(yǔ)義分析方法構(gòu)建用戶科研屬性標(biāo)簽?zāi)P?,?duì)科研專業(yè)數(shù)據(jù)和知識(shí)庫(kù)采用包括文本分詞、相似度計(jì)算以及關(guān)鍵詞提取等語(yǔ)義計(jì)算方法,確定科研屬性的具體標(biāo)簽。依據(jù)科研創(chuàng)新活動(dòng)一般分類,可以將其進(jìn)一步分為科研成果模型和學(xué)術(shù)影響模型??蒲谐晒P途唧w反映科研用戶的現(xiàn)實(shí)狀況,以及科研創(chuàng)新的潛力,包括“科研論文”、“科研獲獎(jiǎng)”和“其他成果”(如項(xiàng)目、專利等)等屬性;學(xué)術(shù)影響模型涉及領(lǐng)域內(nèi)對(duì)科研創(chuàng)新的評(píng)價(jià)以及創(chuàng)新性科研服務(wù)等,包括“學(xué)術(shù)任職”和“科研服務(wù)”等。用戶科研屬性標(biāo)簽數(shù)據(jù)來源于科研專業(yè)數(shù)據(jù)庫(kù)、在線百科和著名知識(shí)庫(kù)融合后的結(jié)果。
4.2.3 用戶畫像應(yīng)用與服務(wù)
面向科研創(chuàng)新的各類服務(wù)是高校圖書館用戶畫像的終極目的和落腳點(diǎn)。與科研用戶畫像密切相關(guān)的服務(wù)有個(gè)性化知識(shí)推薦、科研群體行為分析、科研知識(shí)問答和科研趨勢(shì)預(yù)測(cè)四個(gè)方面。
(1)個(gè)性化知識(shí)推薦。精準(zhǔn)個(gè)性化知識(shí)推薦是科研用戶的主要需求之一。依據(jù)科研目標(biāo)用戶畫像的兩類標(biāo)簽所標(biāo)注的用戶特征或關(guān)鍵詞,在統(tǒng)一和規(guī)范化的科研知識(shí)庫(kù)中搜索或匹配,并對(duì)結(jié)果排序,將排名靠前的知識(shí)推薦給目標(biāo)用戶。建立在用戶畫像標(biāo)簽基礎(chǔ)上的個(gè)性化推薦能準(zhǔn)確定位用戶興趣,為用戶提供高價(jià)值的科研知識(shí)。
(2)科研群體行為分析。用戶行為分析是結(jié)合用戶個(gè)性特征開展用戶服務(wù)(或營(yíng)銷)和行為預(yù)測(cè)的關(guān)鍵環(huán)節(jié)。對(duì)科研用戶而言,以目標(biāo)用戶的畫像標(biāo)簽為依據(jù),以科研知識(shí)庫(kù)和社交網(wǎng)絡(luò)知識(shí)庫(kù)為基礎(chǔ)數(shù)據(jù),對(duì)科研用戶群體行為(如文獻(xiàn)查詢、檢索和借閱行為,微博、微信等互動(dòng)和社交行為)運(yùn)用機(jī)器學(xué)習(xí)算法進(jìn)行分析,可以洞察科研群體(研究社團(tuán)或群組)行為的整體概況和局部特征,進(jìn)而有針對(duì)性開展具有高黏度的科研服務(wù)。
(3)科研知識(shí)問答??蒲兄R(shí)問答為用戶提供高附加值知識(shí)發(fā)現(xiàn)服務(wù)。由于用戶畫像標(biāo)簽精確定位了用戶的個(gè)性化特征,根據(jù)這些標(biāo)簽,能夠在對(duì)用戶問題的分析中抓住用戶特征,通過對(duì)用戶所提出的問題進(jìn)行語(yǔ)義解析、語(yǔ)句分詞和知識(shí)庫(kù)查詢等過程,為用戶提供精準(zhǔn)和智能知識(shí)問答。
(4)科研趨勢(shì)預(yù)測(cè)。科研發(fā)展趨勢(shì)是科研用戶和科研管理部門關(guān)注的重要內(nèi)容。依據(jù)用戶畫像標(biāo)簽的動(dòng)態(tài)演化及其權(quán)重的實(shí)時(shí)變更,容易發(fā)現(xiàn)科研相關(guān)術(shù)語(yǔ)的熱度實(shí)時(shí)變化以及新的科研熱點(diǎn)演變軌跡,從而預(yù)測(cè)科研發(fā)展趨勢(shì),為科研人員的未來研究規(guī)劃和科研管理部門的科研決策提供科學(xué)依據(jù)。
大數(shù)據(jù)情境下,高校圖書館科研用戶畫像構(gòu)建對(duì)于科研人員的創(chuàng)新型研究具有重要意義,在分析科研需求的特征基礎(chǔ)上,從構(gòu)建目標(biāo)、構(gòu)建方法和構(gòu)建過程等角度探討科研用戶畫像構(gòu)建模式,并給出解決方案和模型框架,為領(lǐng)域研究提供一條基于網(wǎng)絡(luò)大數(shù)據(jù)的可行理論構(gòu)建途徑,并為科研用戶畫像的落地提供實(shí)踐思路。
社交網(wǎng)絡(luò)分析是一種成熟的研究范式,本質(zhì)偏向研究“人”的社交行為;語(yǔ)義網(wǎng)絡(luò)分析以文本“數(shù)據(jù)”分析見長(zhǎng),本文將二者融合起來成為網(wǎng)絡(luò)大數(shù)據(jù),應(yīng)用社交網(wǎng)絡(luò)分析的網(wǎng)絡(luò)拓展優(yōu)勢(shì)擴(kuò)充大數(shù)據(jù)來源,以支撐用戶畫像標(biāo)簽的全面性需求,借助語(yǔ)義網(wǎng)本體的規(guī)范化優(yōu)勢(shì)支撐用戶畫像標(biāo)簽的精準(zhǔn)性需求,突顯了科研用戶的“人”的社會(huì)化屬性和“大數(shù)據(jù)”驅(qū)動(dòng)的智能屬性,二者的深度融合具有潛在的一致性和高度的契合性。