摘 要:人工智能技術發(fā)展,驅(qū)動著圖書館的知識服務向著個性化、精準化方向發(fā)展。文章在概述知識發(fā)現(xiàn)和用戶畫像的基礎上,構建了圖書館讀者用戶畫像,以此構建了基于用戶畫像的圖書館知識發(fā)現(xiàn)服務模型。分析發(fā)現(xiàn),基于用戶畫像的圖書館知識服務,能在服務的個性化、精準化方面有著一定的優(yōu)勢,能夠提升圖書館知識服務體驗。
關鍵詞:人工智能;用戶畫像;圖書館;知識發(fā)現(xiàn);知識工程;機器學習
中圖分類號:G252 文獻標識碼:A DOI:10.11968/tsyqb.1003-6938.2017114
Abstract The development of artificial intelligence technology drives the library's knowledge service towards individuation and precision. Basic on the summarization of knowledge discovery and User portrait, this article constructs the user portrait, so as to construct a service model of librarys knowledge discovery. It is found that the library knowledge service based on user portrait has some advantages in personalized and precision service, and also can improve the experiences of library knowledge service.
Key words artificial intelligence; user portrait; library; knowledge discovery; knowledge engineering; machine learning
智能化與自動化是人工智能時代的兩大主題,而移動智能終端的普及應用,也為智能化與自動化的實現(xiàn)提供了海量的大數(shù)據(jù)基礎,通過數(shù)據(jù)挖掘和算法計算,從海量數(shù)據(jù)中發(fā)現(xiàn)需要的知識發(fā)現(xiàn),也在機器學習、神經(jīng)網(wǎng)絡模型和知識表示等人工智能技術的推動下,呈現(xiàn)出了新的發(fā)展態(tài)勢。同時,隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)量的爆發(fā)式增長和大數(shù)據(jù)分析技術的成熟使用戶可捕捉的行為數(shù)據(jù)越來越多,可形成用戶關鍵信息畫像的用戶畫像被廣泛的應用到了以標簽、畫像為基礎的精準服務領域[1]。將用戶畫像與知識發(fā)現(xiàn)相結合,可以為用戶的需求精準提供基于知識發(fā)現(xiàn)的決策知識、咨詢知識等服務。
圖書館是人類知識的傳承和傳播中心,實現(xiàn)對館藏知識的傳播與增值服務也一直是信息時代到大數(shù)據(jù)時代圖書館的主要服務內(nèi)容。近年來,基于知識發(fā)現(xiàn)系統(tǒng)如Primo、Worldcat Local、Encore等的圖書館知識發(fā)現(xiàn)服務也成為了知識服務的主要組成部分。隨著人工智能時代的到來驅(qū)動著圖書館向智能化服務、自動化服務轉(zhuǎn)型的過程中,基于用戶畫像的圖書館知識發(fā)現(xiàn)服務無疑將提高讀者的服務體驗與滿意度。
1 知識發(fā)現(xiàn)與用戶畫像
1.1 從人工智能到知識發(fā)現(xiàn)
從學科體系來看,人工智能是計算機科學的一個分支,它試圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。知識工程作為人工智能的五大研究領域(即腦認知、機器感知與模式識別、自然語言處理與理解、知識工程、機器人與智能系統(tǒng))之一,一直備受科學界關注。中國人工智能學會理事長李德毅就認為知識工程才是人工智能時代最有意義的課題之一。
知識發(fā)現(xiàn)(Knowledge Discovery,KD)則是一門來源于人工智能、知識工程和機器學習等眾多學科新興交叉的學科。具體來看,知識發(fā)現(xiàn)就是一次完整的從大量的異構、復雜數(shù)據(jù)或數(shù)據(jù)集、數(shù)據(jù)平臺中提取出隱含的、未知的、潛在有用的并能被人們理解的規(guī)則與模式,并檢查趨勢、發(fā)掘出事實的高級處理過程[2]。
1.2 知識發(fā)現(xiàn)的實現(xiàn)與發(fā)展
1989年,在“知識工程(Knowledge Engineering)”被提出12年之后,“知識發(fā)現(xiàn)”這一概念在第11屆國際聯(lián)合人工智能學術會議上出現(xiàn)。但由于當時的數(shù)據(jù)主要以數(shù)據(jù)庫的形式存儲管理,因而當初提出的知識發(fā)現(xiàn)主要是指基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),隨著數(shù)據(jù)挖掘技術的發(fā)展和數(shù)據(jù)來源、數(shù)據(jù)類型的豐富,知識發(fā)現(xiàn)也逐漸從基于數(shù)據(jù)庫的知識發(fā)現(xiàn)向面向大數(shù)據(jù)的知識發(fā)現(xiàn)方向發(fā)展。
1.3 用戶畫像的概念與應用
用戶畫像(User portrait)即用戶信息標簽化,就是通過收集與分析用戶的社會屬性、生活習慣、消費行為等主要信息之后,完美的抽象出一個用戶的信息全貌[3]。目前,由于用戶畫像能夠為服務提供方進一步精準、快速地分析用戶行為習慣、商業(yè)意愿、消費需求提供了重要的數(shù)據(jù)基礎,進而能夠幫助商業(yè)機構快速定位用戶/群體等更為廣泛的商業(yè)信息,基于用戶畫像的個性化推薦服務系統(tǒng)已經(jīng)處處可見,典型如今日頭條,普通如電子商務、社交網(wǎng)絡、影視推送、閱讀推送等。
2 面向大數(shù)據(jù)的圖書館知識發(fā)現(xiàn)服務
2.1 圖書館知識發(fā)現(xiàn)服務的發(fā)展現(xiàn)狀
(1)圖書館文獻資源發(fā)現(xiàn)服務。現(xiàn)代圖書館一直注重用戶的文獻檢索服務,并通過數(shù)據(jù)庫檢索技術而實現(xiàn)的圖書館書目數(shù)據(jù)檢索系統(tǒng)、主題資源檢索系統(tǒng)、綜合資源登記管理系統(tǒng)等文獻資源的檢索系統(tǒng),向用戶提供館藏數(shù)量、文獻排序等服務。如經(jīng)國務院批準的我國高等教育“211工程”“九五”“十五”總體規(guī)劃中三個公共服務體系之一的中國高等教育文獻保障系統(tǒng)(China Academic Library & Information System,CALIS)可為讀者提供文獻發(fā)現(xiàn)、文獻傳遞、館際互借等服務。endprint
(2)圖書館知識發(fā)現(xiàn)系統(tǒng)服務。當云計算的概念提出以后,基于云計算的圖書館知識發(fā)現(xiàn)系統(tǒng)也應運而生,目前已有Summon、Primo、Worldcat Local與Encore等越來越多的圖書館知識發(fā)現(xiàn)系統(tǒng)被開發(fā),并廣泛的應用到了圖書館的資源檢索、信息組織與知識服務中。此外,還有中國學術搜索、超星發(fā)現(xiàn)系統(tǒng)、智立方發(fā)現(xiàn)系統(tǒng)、學知搜索、百度學術等在線知識發(fā)現(xiàn)系統(tǒng)也都在圖書館得到廣泛應用。從服務內(nèi)容來看,圖書館基于這些知識發(fā)現(xiàn)系統(tǒng)的服務主要有文獻檢索、資源聚合、粒度分析、知識關聯(lián)、規(guī)律總結等服務。
2.2 圖書館讀者的用戶畫像構建
根據(jù)用戶畫像的相關理論[4],基于大數(shù)據(jù)的圖書館讀者用戶畫像的構建主要分為基礎數(shù)據(jù)收集、行為建模、構建畫像三個階段(見圖1)。其中,數(shù)據(jù)收集大致分為網(wǎng)絡行為數(shù)據(jù)(如活躍人數(shù)、頁面瀏覽量、訪問時長、激活率、外部觸點、社交數(shù)據(jù)等)、服務行為數(shù)據(jù)(如瀏覽路徑、頁面停留時間、訪問深度、唯一頁面瀏覽次數(shù)等)、用戶內(nèi)容偏好數(shù)據(jù)(如瀏覽/收藏內(nèi)容、評論內(nèi)容、互動內(nèi)容、生活形態(tài)偏好、品牌偏好等)[5]等三類;行為建模是對基礎數(shù)據(jù)收集階段收集到的大數(shù)據(jù),通過機器學習進行用戶行為建模,以抽象出圖書館用戶的標簽,并運用數(shù)學算法模型對用戶的行為、偏好等進行預測;在行為建模階段的標簽抽象和特征計算后,根據(jù)用戶的基本屬性(如身份證號、年齡、性別、地域等)、行為特征(如Cookie)、興趣愛好(如URL信息)、心理特征(如社交表情)、社交網(wǎng)絡(如微信、QQ社交網(wǎng)絡等)等基礎數(shù)據(jù)不斷修正,則會根據(jù)已知數(shù)據(jù)來抽象出新的標簽,從而使用戶畫像越來越立體和清晰。
2.3 基于用戶畫像的圖書館知識發(fā)現(xiàn)服務模型構建
本研究基于知識發(fā)現(xiàn)的三大階段(數(shù)據(jù)準備、數(shù)據(jù)挖掘、解釋與評估)和基于異構、海量、多粒度的大數(shù)據(jù)資源,采用人工智能技術中的自然語言處理、機器學習和神經(jīng)網(wǎng)絡模型技術的內(nèi)容信息挖掘、結構信息挖掘、自然語言信息挖掘的知識發(fā)現(xiàn)技術,在上述基于大數(shù)據(jù)的圖書館讀者用戶畫像的基礎上,構建了基于用戶畫像的圖書館知識發(fā)現(xiàn)服務模型(見圖2)。
相較于已有的圖書館知識發(fā)現(xiàn)模型,基于用戶畫像的圖書館知識發(fā)現(xiàn)服務模型區(qū)別有:(1)在數(shù)據(jù)準備階段,面向大數(shù)據(jù)資源集,突破了原有的由數(shù)據(jù)庫資源,豐富了數(shù)據(jù)的來源和類型,這就對包括啟用機器學習的語義自動發(fā)現(xiàn)、智能聯(lián)接、智能分析、層次生成、數(shù)據(jù)沿襲和對各種數(shù)據(jù)源(包括多結構化數(shù)據(jù))的數(shù)據(jù)混合技術處理提供了新的挑戰(zhàn);(2)在數(shù)據(jù)挖掘階段,增加了面向自然語言信息的知識發(fā)現(xiàn),這也增加了面向大數(shù)據(jù)自然語言信息資源的自動化處理,如相關性、異常、集群、關聯(lián)和預測等;(3)解析與評估階段,增加了圖書館讀者的用戶畫像與知識發(fā)現(xiàn)原型系統(tǒng)的匹配,這就使得在圖書館用戶的知識服務需求并不一定需要用戶自己來表達,提高了圖書館用戶知識發(fā)現(xiàn)服務的精準度。
2.4 圖書館知識發(fā)現(xiàn)服務的創(chuàng)新技術實現(xiàn)
信息化時代的知識發(fā)現(xiàn)主要是針對結構化數(shù)據(jù)的數(shù)據(jù)庫知識發(fā)現(xiàn),以及針對非結構化數(shù)據(jù)的基于文獻的(非)相關文獻知識發(fā)現(xiàn)、全文獻知識發(fā)現(xiàn)兩大分支。從應用的技術來看主要有統(tǒng)計方法(如回歸分析、判別分析、聚類分析、探索性分析、模糊集方法、支持向量機方法、粗糙集等)、機器學習方法(如規(guī)則歸納、決策樹、范例推理、遺傳算法等)、神經(jīng)計算方法(如自組織映射網(wǎng)絡、反傳網(wǎng)絡等)、語義網(wǎng)技術(如關聯(lián)數(shù)據(jù)等)。本文所構建的服務模型,則在上述技術和用戶畫像技術的應用基礎上借鑒引入了自然語言處理和隱語義模型,以實現(xiàn)對大數(shù)據(jù)資源中自然語言如語音、視頻的智聯(lián)處理,和對用戶畫像與知識發(fā)現(xiàn)的個性化推薦匹配。
(1)面向自然語言信息的知識發(fā)現(xiàn)。自然語言處理技術短文本相似度度量在信息檢索、新聞推薦和智能客服,文章標簽在個性化推薦、話題聚合,文章分類在個性化推薦、主題劃分等領域的成功應用,為本文所設計的面向自然語言信息的知識技術拓展提供了借鑒。每一種自然語言處理技術的豐富模型也為面向不同的視頻、語音、圖片等處理提供了選擇空間,可以根據(jù)語言信息的屬性特征和用戶畫像的需求特征選擇適合的度量模式。如短文本相似度常用的計算方法就有TF-IDF、LSI、LDA等模型算法。其中TF-IDF主要用以評估某一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度,返回過濾掉常見的詞語的重要詞語;LSI主要運用潛在語義索引和SVD降維方法來解決一詞多義和一義多詞問題;LDA是一種文檔主題生成模型(包含詞、主題和文檔三層結構),可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息[6]。
(2)基于隱語義模型的推薦服務匹配實現(xiàn)。本文所構建的是一種基于內(nèi)容(圖書館知識發(fā)現(xiàn)應用)和用戶畫像的個性化推薦服務模型(見圖3),模型有兩個實體(內(nèi)容和用戶)和一個關聯(lián)關系(標簽),內(nèi)容轉(zhuǎn)換為標簽即為內(nèi)容特征化、用戶則成為用戶特征化。
在這一模型基礎上,采用隱語義模型進行推薦,即通過用戶畫像實時計算用戶對于某一知識發(fā)現(xiàn)內(nèi)容的興趣度(CTR),進而通過人機交互、場景應用進行推薦精準知識服務。
CTR的計算公式[7]為:r=q*m*n
其中i=1…N是知識發(fā)現(xiàn)結果c具有的標簽,m(ci)指知識發(fā)現(xiàn)結果c和標簽i的關聯(lián)度(可以簡單認為是1),n(ui)指的是用戶u的標簽i的權重值,當用戶不具有此標簽時n(ui)=0,q(c)指的是知識發(fā)現(xiàn)結果c的質(zhì)量,可以使用點擊率(click/pv)表示。
2.5 圖書館知識發(fā)現(xiàn)服務的內(nèi)容
圖書館大數(shù)據(jù)資源的類型大致可以分為文本、視頻、音頻、圖片、動畫、軟件、中間件、數(shù)據(jù)集、網(wǎng)頁等,大數(shù)據(jù)時代與人工智能時代則主要是在數(shù)據(jù)集(如Cookie數(shù)據(jù)集、用戶行為數(shù)據(jù)集、科學數(shù)據(jù)集、政府開放數(shù)據(jù)集等)和自然語言信息(如人機交互語音、圖片、音頻等)方面豐富了圖書館的資源結構、內(nèi)容及數(shù)量。針對這些數(shù)字化的資源類型,運用本文所提出的基于用戶畫像的圖書館知識發(fā)現(xiàn)模型方法進行知識挖掘與服務呈現(xiàn),可在個性化知識資源聚合、個性化愛好推薦圖譜繪制等方面豐富傳統(tǒng)的數(shù)字圖書館服務范圍。如采用基于關聯(lián)規(guī)則的知識發(fā)現(xiàn)方法,可以構建不同資源、不同概念間的資源聚合體,從而達到發(fā)現(xiàn)連接內(nèi)容和模式匹配用戶畫像即需求的概念實體,以及這些概念實體間的隱性關聯(lián)關系;采用基于推導傳遞的知識發(fā)現(xiàn)方法,發(fā)現(xiàn)不同資源內(nèi)容信息中包括引證等關系在內(nèi)的隱性關聯(lián),從而達到復雜數(shù)據(jù)集的隱性知識發(fā)現(xiàn),并通過用戶畫像匹配實現(xiàn)個性化知識推薦;通過分析多粒度大數(shù)據(jù)資源和用戶(群體)的屬性特征,借助引證、合作等關系來揭示用戶個體間的網(wǎng)絡社交、科學研究、愛好興趣關聯(lián),以及用戶群體之間的研究貢獻、活躍可見度等指數(shù),從而形成不同類型、不同范圍的動態(tài)關系網(wǎng)絡圖譜。同時,基于圖書館用戶多種屬性分析和應用的用戶畫像構建,不但能為知識發(fā)現(xiàn)原型系統(tǒng)的用戶社交網(wǎng)絡分析提供資源,而且也能為實體分析對象提供幫助。如綜合基于模式 匹配、基于機器推理等多種揭示手段,可以構建如資源關系流動網(wǎng)絡圖譜、科研用戶知識流動網(wǎng)絡圖譜、機構關系知識流動網(wǎng)絡圖譜等,進而形成面向不同服務對象和群體、具有個性化差異化特征的推理圖譜,讓用戶可以從時間、空間、知識單元追蹤等角度推導和觀察到具有多維度關系的網(wǎng)絡演化、知識流動軌跡。
3 結語
基于內(nèi)容、行為認知和群體協(xié)同建模構建的圖書館用戶畫像,不但能夠準確的描繪出基于大數(shù)據(jù)標簽的圖書館用戶屬性特征,以此為基礎表達和傳遞圖書館知識服務需求,而且能讓圖書館基于大數(shù)據(jù)的知識發(fā)現(xiàn)系統(tǒng)更深層次地挖掘數(shù)據(jù)資源價值,最終為圖書館用戶提 供個性化知識發(fā)現(xiàn)服務。
參考文獻:
[1] 一步步教你看懂大數(shù)據(jù)時代下的“用戶畫像”[EB/OL].[2017-11-26].https://www.sohu.com/a/69687539_353595.
[2] 苗蔚,李后卿.知識發(fā)現(xiàn)及其實現(xiàn)技術的研究概述[J].現(xiàn)代情報,2005(1):12-15.
[3] 楊雙亮.用戶畫像在內(nèi)容推送的研究與應用[D].北京:北方工業(yè)大學,2017.
[4] 牛溫佳,劉吉強,石川,等.用戶網(wǎng)絡行為畫像——大數(shù)據(jù)中的用戶網(wǎng)絡行為畫像分析與內(nèi)容推薦應用[M].北京:電子工業(yè)出版社,2016.
[5] 基于大數(shù)據(jù)的用戶畫像構建(理論篇)[EB/OL].[2017-11-26].https://www.jianshu.com/p/0d77238771ef.
[6] 自然語言處理入門(1)——文本相似度計算[EB/OL].[2017-11-26].http://blog.csdn.net/flysky1991/article/details/72786820.
[7] 王爾昕.基于隱語義模型和聚類算法的電子商務個性化推薦系統(tǒng)的研究與實現(xiàn)[D].北京:北京郵電大學,2017.
作者簡介:張鈞,男,鄧小平圖書館副研究館員。endprint