摘 要 開展學(xué)科服務(wù)已成為高校圖書館的一項(xiàng)工作職責(zé),是高校圖書館服務(wù)教學(xué)的重要表現(xiàn)形式。然而,高校圖書館開展學(xué)科服務(wù)卻長(zhǎng)期面臨投入大、績(jī)效低等問題,導(dǎo)致相當(dāng)一部分學(xué)校的圖書館學(xué)科服務(wù)一直沒能跟上高校院系發(fā)展和需求。為此,南京曉莊學(xué)院圖書館開始實(shí)踐采用智能化技術(shù)提升學(xué)科服務(wù)的新思路、新模式,在人力投入基本不變的情況下,極大的提升了學(xué)科服務(wù)能力與質(zhì)量。
關(guān)鍵詞 學(xué)科服務(wù) 高校圖書館 智慧圖書館
分類號(hào) G258.6
DOI 10.16810/j.cnki.1672-514X.2018.11.011
傳統(tǒng)的高校學(xué)科服務(wù)模式基本可以概括為學(xué)科館員對(duì)口某學(xué)科服務(wù)的人工服務(wù)模式,但在服務(wù)過程中也暴露出諸多問題,如果沿用傳統(tǒng)的學(xué)科館員人工服務(wù)模式將很難從根本上解決學(xué)科服務(wù)中的精準(zhǔn)化問題[1]。
其實(shí),國(guó)內(nèi)外的高校學(xué)科服務(wù)一直都在努力緩解當(dāng)前學(xué)科服務(wù)模式對(duì)人工服務(wù)的高度依賴,而其中建設(shè)學(xué)科服務(wù)平臺(tái)就是一種被普遍認(rèn)可的辦法。早在2003年明尼蘇達(dá)大學(xué)就開發(fā)并應(yīng)用了一種集科研、課程及學(xué)科導(dǎo)航于一體的學(xué)科服務(wù)平臺(tái)。國(guó)外比較早期的還有哈佛大學(xué)圖書館建立的科研存儲(chǔ)平臺(tái),伊莎卡學(xué)院開發(fā)的資料存儲(chǔ)歸檔平臺(tái)等。國(guó)內(nèi)高校主要依托CALIS提供的專業(yè)學(xué)科導(dǎo)航服務(wù),也有上海交通大學(xué)、浙江理工大學(xué)、香港大學(xué)等部分高校開發(fā)了自己的學(xué)科服務(wù)平臺(tái)[2]。然而縱觀國(guó)內(nèi)外主流的高校學(xué)科服務(wù)平臺(tái),基本都還停留在存儲(chǔ)和導(dǎo)航的基礎(chǔ)功能上,少數(shù)平臺(tái)即便有了在線咨詢功能,但主要模式仍依靠學(xué)科館員在線人工服務(wù),對(duì)人工的依賴程度仍然很高。
1 當(dāng)前高校圖書館學(xué)科服務(wù)問題
本文結(jié)合高校圖書館學(xué)科服務(wù)普遍情況和南京曉莊學(xué)院圖書館(以下簡(jiǎn)稱本館)情況,對(duì)傳統(tǒng)學(xué)科服務(wù)模式中的問題歸納如下。
(1) 高校學(xué)科服務(wù)需要面向相關(guān)院系相關(guān)專業(yè)提供深入的跟蹤服務(wù),傳統(tǒng)學(xué)科服務(wù)模式下對(duì)學(xué)科館員數(shù)量和學(xué)科館員質(zhì)量的要求都很高。高校圖書館人員結(jié)構(gòu)復(fù)雜、信息素質(zhì)水平偏低的現(xiàn)狀雖然不斷改善,但仍然難以全面、高水平地開展覆蓋各學(xué)科的學(xué)科服務(wù)。加之培養(yǎng)學(xué)科館員的周期長(zhǎng)、成本高等問題,本館的學(xué)科服務(wù)團(tuán)隊(duì)建設(shè)一直沒有取得突破性進(jìn)展。
(2) 傳統(tǒng)學(xué)科館員制度下的學(xué)科服務(wù)模式中,學(xué)科館員是服務(wù)的中心,而嵌入式高校學(xué)科服務(wù)是以每一位用戶為中心的,也就是說目前在學(xué)科服務(wù)中實(shí)際存在著用戶和學(xué)科館員兩個(gè)中心。未來要強(qiáng)化用戶的中心地位,必須設(shè)法將傳統(tǒng)的學(xué)科館員與相關(guān)經(jīng)驗(yàn)、數(shù)據(jù)等分離開來。
(3) 現(xiàn)有學(xué)科服務(wù)平臺(tái)主要實(shí)現(xiàn)學(xué)科導(dǎo)航服務(wù),存在缺乏互動(dòng)性、難以定制等缺陷,師生訪問量也一直不高。從學(xué)科館員的角度來看,由于制作和維護(hù)學(xué)科導(dǎo)航的工作量大,專業(yè)性強(qiáng)且難以和其他知識(shí)發(fā)現(xiàn)工具整合,所以很多傳統(tǒng)學(xué)科服務(wù)平臺(tái)處于不更新狀態(tài)。有些學(xué)科館員以計(jì)算機(jī)水平低等理由,直接將工作推給圖書館技術(shù)部門的同志,更使得學(xué)科導(dǎo)航脫離了院系需求。
(4) 目前也有一些基于互聯(lián)網(wǎng)的學(xué)科服務(wù)平臺(tái),但這類平臺(tái)主要以導(dǎo)航為主,缺乏知識(shí)整理和知識(shí)發(fā)現(xiàn)的功能。智能化將是未來學(xué)科服務(wù)平臺(tái)發(fā)展的重要趨勢(shì)。
(5) 高校圖書館的專家館員在線咨詢?cè)鲩L(zhǎng)率遠(yuǎn)低于其他類型的在線專家咨詢系統(tǒng)增長(zhǎng)率,甚至一些師生干脆選擇搜索引擎和問答類網(wǎng)站獲取學(xué)術(shù)信息。高校圖書館亟待提供更深入的知識(shí)服務(wù),才能確立其在教學(xué)、科研服務(wù)中的重要地位。
2 智慧學(xué)科服務(wù)建設(shè)思路與功能需求
對(duì)高校圖書館而言,高校圖書館“十三五”規(guī)程中明確了“高校圖書館是為人才培養(yǎng)和科學(xué)研究服務(wù)的學(xué)術(shù)性機(jī)構(gòu)”,使得圍繞高校圖書館職能的智能學(xué)科服務(wù)模式研究更具必要性和迫切性[3]。智慧學(xué)科服務(wù)的研究與實(shí)踐將是高校圖書館發(fā)展的必然趨勢(shì)之一。在物聯(lián)網(wǎng)、傳感器、大數(shù)據(jù)、云計(jì)算、人工智能等高新技術(shù)聯(lián)合推動(dòng)下,近年來智能技術(shù)取得重大突破和越來越廣泛的應(yīng)用,而現(xiàn)有模式下學(xué)科館員服務(wù)的種種問題以及學(xué)科服務(wù)工具的先天性缺陷,都有望在智能化條件下得以徹底解決。
高校圖書館智能學(xué)科服務(wù)相對(duì)其他智能推薦系統(tǒng)具有明顯的特殊性,體現(xiàn)在學(xué)校容易實(shí)現(xiàn)單點(diǎn)登錄且容易獲取師生的學(xué)習(xí)研究方向。另外,高校圖書館智能學(xué)科服務(wù)面對(duì)的服務(wù)群體對(duì)內(nèi)容的需求有著非常大的周期性變化,如某學(xué)生一門學(xué)科學(xué)完后開始其他學(xué)科的學(xué)習(xí),前后關(guān)注內(nèi)容將發(fā)生很大變化。針對(duì)這一特點(diǎn),本館學(xué)科服務(wù)模式的建設(shè)原則是:緊緊圍繞高校教學(xué)和科研服務(wù),系統(tǒng)地應(yīng)用智能化技術(shù),逐漸完善適合南京曉莊學(xué)院的高校圖書館智能學(xué)科服務(wù)模式。
根據(jù)上述原則,南京曉莊學(xué)院的智能學(xué)科服務(wù)建設(shè)思路是:首先根據(jù)本校教學(xué)、科研具體需求構(gòu)建可行性建設(shè)方案,然后將可行性建設(shè)方案交相關(guān)領(lǐng)域?qū)<疫M(jìn)行篩選,最終將通過篩選的方案在可監(jiān)控的數(shù)據(jù)環(huán)境下進(jìn)行測(cè)試,測(cè)試過程中不斷收集和評(píng)估績(jī)效。對(duì)績(jī)效差的方案和調(diào)整后仍然不理想的方案進(jìn)行淘汰,最終通過測(cè)試將不需要再調(diào)整的模式固定下來[4]。本館的智能學(xué)科服務(wù)模式功能需求,主要包括以下幾個(gè)方面。
(1) 為高校師生提供搜索方式獲取電子教育資源,支持模糊搜索。
(2) 為高校師生主動(dòng)提供個(gè)性化的教育資源或知識(shí)片段推薦。
(3) 工作人員分為系統(tǒng)管理員及信息維護(hù)員。系統(tǒng)管理員負(fù)責(zé)保障整個(gè)系統(tǒng)的運(yùn)維。信息維護(hù)員主要負(fù)責(zé)數(shù)據(jù)管理及維護(hù)工作。
(4) 記錄用戶網(wǎng)絡(luò)學(xué)術(shù)行為。系統(tǒng)需要對(duì)所有用戶的網(wǎng)絡(luò)學(xué)術(shù)行為進(jìn)行動(dòng)態(tài)記錄,包括IP地址、登錄信息、訪問時(shí)間或Session ID等信息,這些信息構(gòu)成的大數(shù)據(jù)將用于分析用戶的在線學(xué)術(shù)行為。
(5) 海量在線知識(shí)管理。將圖書館海量的資料轉(zhuǎn)換為有用的且易于提取的知識(shí)信息,首先需要利用專門的數(shù)據(jù)處理平臺(tái)對(duì)其進(jìn)行摘要化處理和關(guān)系化處理。數(shù)據(jù)處理平臺(tái)還將提供包括資源訪問情況、資源偏好評(píng)分等多項(xiàng)基于大數(shù)據(jù)的分析功能。
(6) 個(gè)性學(xué)科知識(shí)推薦服務(wù)。系統(tǒng)不但具備對(duì)登錄用戶進(jìn)行個(gè)性化學(xué)科知識(shí)推薦服務(wù)能力,而且對(duì)沒有登錄系統(tǒng)的用戶也能根據(jù)實(shí)時(shí)頁(yè)面操作捕獲到用戶可能感興趣的知識(shí)并進(jìn)行推薦。登錄與非登錄用戶的個(gè)性學(xué)科服務(wù)推薦原理不同,登錄用戶的個(gè)性學(xué)科知識(shí)推薦服務(wù)更專業(yè),更符合學(xué)科服務(wù)的特殊要求,而非登錄用戶獲得的推薦類似于商品興趣推薦。
(7) 按學(xué)科分類樹進(jìn)行知識(shí)分類的功能。系統(tǒng)將建立一個(gè)類似高校學(xué)科目錄設(shè)置的樹形學(xué)科分類樹,有助于極大提升推薦的精確度。學(xué)科分類樹一般分為五層,其中學(xué)科層次較少的分三層,學(xué)科層次較多的可以分七層。學(xué)科分類樹的根節(jié)點(diǎn)按照一級(jí)學(xué)科分類進(jìn)行設(shè)置,相應(yīng)的第二層也直接對(duì)應(yīng)二級(jí)學(xué)科分類設(shè)置。學(xué)科分類樹的第三層和第四層,一般對(duì)應(yīng)著專業(yè)課程名稱和課程的細(xì)分知識(shí)點(diǎn),第四層也可以按照相關(guān)課程的目錄來設(shè)置。如果學(xué)科分類樹有必要設(shè)置到第五層,那么可以用章節(jié)中涉及知識(shí)點(diǎn)的關(guān)鍵字描述。當(dāng)然,范圍很廣的關(guān)鍵詞是不能用于該層知識(shí)點(diǎn)描述的。除了節(jié)點(diǎn)本身名稱、說明外,每個(gè)節(jié)點(diǎn)還要附加一個(gè)關(guān)鍵字集合A,用于反向定位至該節(jié)點(diǎn)。學(xué)科分類樹中上層節(jié)點(diǎn)中,相鄰或是相近的兩個(gè)節(jié)點(diǎn)既要有共同部分,更要體現(xiàn)差異部分。學(xué)科分類樹中每個(gè)節(jié)點(diǎn)建立一個(gè)推薦知識(shí)片段集合B,推薦知識(shí)片段盡量全面體現(xiàn)本節(jié)點(diǎn)內(nèi)容,同時(shí)要避免范圍過大影響定位。學(xué)科分類樹中每一個(gè)節(jié)點(diǎn)都對(duì)應(yīng)一個(gè)推薦知識(shí)片段地址集合C,推薦知識(shí)片段的地址集合必須是本節(jié)點(diǎn)相關(guān)的URL(Uniform Resoure Locator)。
3 智慧學(xué)科服務(wù)模型
本館通過前期對(duì)讀者行為大數(shù)據(jù)的跟蹤研究,提出了兩種發(fā)掘用戶興趣的辦法。第一種辦法是通過抽取用戶檢索詞和圖書的TF-IDF信息,并形成常用檢索詞順序列表,得到用戶特征向量和知識(shí)特征向量,再對(duì)用戶和知識(shí)的相似點(diǎn)計(jì)算對(duì)比,就能找到用戶感興趣的知識(shí)片段[5]。第二種辦法是分片聚類,首先根據(jù)檢索詞、時(shí)間、空間等屬性抽取出用戶即時(shí)行為分片,然后將所有分片一起聚類分析,得到相似分片分組,分別運(yùn)用相關(guān)算法找到目標(biāo)用戶可能需要的圖書或知識(shí)片段。
如圖1所示,一站式學(xué)術(shù)搜索引擎作為高校圖書館智能學(xué)科服務(wù)個(gè)性化推薦的基礎(chǔ)支撐,與用戶交互、記錄用戶行為,并用爬蟲(網(wǎng)絡(luò)機(jī)器人) 采集網(wǎng)上各類教學(xué)科研的資料信息。數(shù)據(jù)采集模塊采集以上信息,標(biāo)準(zhǔn)化后存入智能學(xué)科服務(wù)個(gè)性化推薦系統(tǒng)數(shù)據(jù)庫(kù)以及HDFS中,同時(shí)數(shù)據(jù)預(yù)處理模塊對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。采用潛在語(yǔ)義分析模型和基于分片聚類的分析模型分析用戶數(shù)據(jù),分別產(chǎn)生興趣集和相似分片集。最后采用不同的推薦算法分別執(zhí)行推薦并綜合推薦算法Rank后為用戶推薦資料[6]。
4 智能學(xué)科服務(wù)業(yè)務(wù)架構(gòu)
圖書館學(xué)科服務(wù)目標(biāo)作為業(yè)務(wù)系統(tǒng)的核心,圍繞該核心系統(tǒng)應(yīng)從業(yè)務(wù)上劃分為六個(gè)部分,分別是學(xué)科分類樹、知識(shí)聚類、智能推薦算法、資源建設(shè)、用戶行為及評(píng)價(jià)體系。各個(gè)部分的功能如下。
(1) 學(xué)科分類樹。該模塊提供最基礎(chǔ)的學(xué)科分類信息,建議參考國(guó)家《學(xué)位授予和人才培養(yǎng)學(xué)科目錄》 并結(jié)合本校專業(yè)設(shè)置情況、課程情況進(jìn)行設(shè)置。該模塊也為資源建設(shè)、用戶行為、智能推薦算法選擇提供重要依據(jù)。
(2) 知識(shí)聚類。這一模塊主要是針對(duì)海量的圖書館資源的知識(shí)聚類,通過知識(shí)聚類,減少系統(tǒng)即時(shí)運(yùn)算時(shí)間并提高知識(shí)推薦準(zhǔn)確度。通過調(diào)整學(xué)科分類樹和知識(shí)聚類來達(dá)到最佳的預(yù)分類海量知識(shí)的效果。
(3) 智能推薦。該部分能協(xié)調(diào)其他五個(gè)部分?jǐn)?shù)據(jù),最終形成針對(duì)每一個(gè)用戶定制的推薦結(jié)果。系統(tǒng)即便在無法獲取用戶偏好的情況下,仍然可以根據(jù)用戶標(biāo)簽來推薦,有效地避免了冷啟動(dòng)問題。
(4) 資源建設(shè)。除常規(guī)的資源建設(shè)外,系統(tǒng)可循環(huán)收集反饋數(shù)據(jù),建立動(dòng)態(tài)的資源庫(kù)。用戶二次加工的資源將實(shí)時(shí)轉(zhuǎn)化為新的資源,以此提升資源建設(shè)的效率和針對(duì)性。
(5) 用戶行為。通過用戶在線操作的動(dòng)態(tài)日志跟蹤和記錄,實(shí)現(xiàn)對(duì)用戶網(wǎng)上學(xué)術(shù)行為的記錄。這些海量記錄將用于智能推薦模塊分析用戶學(xué)習(xí)趨勢(shì),并結(jié)合其專業(yè)與課程學(xué)習(xí)情況,對(duì)用戶行為進(jìn)行教學(xué)引導(dǎo)。
(6) 評(píng)價(jià)體系。對(duì)教學(xué)資源進(jìn)行評(píng)分,并反饋推薦結(jié)果的有效性,為智能推薦的優(yōu)化提供數(shù)據(jù)支持。
5 高校圖書館智能學(xué)科系統(tǒng)部署架構(gòu)
本系統(tǒng)采用大數(shù)據(jù)分析技術(shù),并綜合采用Google公司推出的MapReduce及開源Hadoop云計(jì)算技術(shù),通過挖掘海量數(shù)據(jù)所蘊(yùn)含的信息,建立特定模型進(jìn)行預(yù)測(cè)。
為滿足總體需求,系統(tǒng)引入大數(shù)據(jù)處理、存儲(chǔ)設(shè)計(jì)部署。本館智能學(xué)科系統(tǒng)架構(gòu)部署了Hadoop Cluster、Mongo DB Sharing Cluster、Zookeeper Cluster、Spark Cluster四個(gè)數(shù)據(jù)集群及相關(guān)存儲(chǔ),另外還部署了學(xué)科分類樹集群、個(gè)性化推薦Web集群兩個(gè)應(yīng)用集群,用于提供相應(yīng)的應(yīng)用請(qǐng)求和分類樹建構(gòu)需求[7]。
(1)Hadoop Cluster。此部署集群又分為兩個(gè)功能部分。第一個(gè)功能是對(duì)大量URL進(jìn)行處理并對(duì)爬取內(nèi)容進(jìn)行分析與使用,從而對(duì)學(xué)科分類樹構(gòu)成輔助。另一個(gè)功能是在分布式計(jì)算的個(gè)性化推薦中輔助Mahout使用。在操作中為常將Second Name Node單獨(dú)部署在一臺(tái)服務(wù)器上,這樣可以防止Name Node單點(diǎn)故障,讓日志文件能寫入共享存儲(chǔ),提升Name Node的可靠性。
(2)Mongo DB Sharing Cluster。利用了Mongo DB的Sharding和復(fù)制集技術(shù)來搭建存儲(chǔ)分類樹文檔庫(kù)及推薦信息庫(kù),不但提升了可用性、穩(wěn)定性,和安全性而且易于集群的擴(kuò)展部署。
(3)Zookeeper Cluster。搭建具有一個(gè)決策節(jié)點(diǎn)和兩個(gè)數(shù)據(jù)節(jié)點(diǎn)的Zookeeper集群,用于在分布式任務(wù)協(xié)調(diào)中分配相關(guān)數(shù)據(jù)存儲(chǔ),為分類樹應(yīng)用管理、存儲(chǔ)和配置信息庫(kù)使用。
(4)Spark Cluster。該集群負(fù)責(zé)個(gè)性化推薦中基于Web應(yīng)用的實(shí)時(shí)推薦算法的計(jì)算任務(wù),由于實(shí)時(shí)性強(qiáng)、并行性強(qiáng),需要配置大容量?jī)?nèi)存和高性能服務(wù)器進(jìn)行支持。該集群通過重用Hadoop集群中yarn部署。
(5) 學(xué)科分類樹集群。該集群負(fù)責(zé)用戶上網(wǎng)日志提取及相關(guān)內(nèi)容抓取。由于信息量大,關(guān)鍵字提取及時(shí)性要求高,為滿足性能要求需要部署多臺(tái)爬蟲服務(wù)器。
(6) 個(gè)性化推薦Web集群。部署該部分主要是為緩解系統(tǒng)使用高峰中在線支持及實(shí)時(shí)推薦的計(jì)算壓力。通過單獨(dú)部署個(gè)性化推薦Web服務(wù)集群和前端部署負(fù)載均衡軟件的辦法相結(jié)合,提升個(gè)性推薦服務(wù)保障能力。
6 結(jié)語(yǔ)
圖書館智能學(xué)科服務(wù)對(duì)高校圖書館提升自我服務(wù)能力,優(yōu)化高校教育教學(xué)資源配置都有著重要的意義。本文結(jié)合高校學(xué)科服務(wù)需求,通過對(duì)大數(shù)據(jù)技術(shù)及推薦技術(shù)等的調(diào)研,最終形成針對(duì)高校特征的智能學(xué)科輔助服務(wù)模式。該模式在解決信息過載、冷啟動(dòng)以及減少技術(shù)復(fù)雜性上都做了一些嘗試,為部署高校圖書館智能學(xué)科服務(wù)平臺(tái)邁出了試探性的步伐,相信隨著高校圖書館的不斷升級(jí)和學(xué)科服務(wù)深入,以及教學(xué)相關(guān)數(shù)據(jù)的不斷積累,智能學(xué)科服務(wù)模式將成為高校圖書館普遍重視的研究領(lǐng)域。
傳統(tǒng)的高校學(xué)科服務(wù)模式基本可以概括為學(xué)科館員對(duì)口某學(xué)科服務(wù)的人工服務(wù)模式,但在服務(wù)過程中也暴露出諸多問題,如果沿用傳統(tǒng)的學(xué)科館員人工服務(wù)模式將很難從根本上解決學(xué)科服務(wù)中的精準(zhǔn)化問題[1]。
其實(shí),國(guó)內(nèi)外的高校學(xué)科服務(wù)一直都在努力緩解當(dāng)前學(xué)科服務(wù)模式對(duì)人工服務(wù)的高度依賴,而其中建設(shè)學(xué)科服務(wù)平臺(tái)就是一種被普遍認(rèn)可的辦法。早在2003年明尼蘇達(dá)大學(xué)就開發(fā)并應(yīng)用了一種集科研、課程及學(xué)科導(dǎo)航于一體的學(xué)科服務(wù)平臺(tái)。國(guó)外比較早期的還有哈佛大學(xué)圖書館建立的科研存儲(chǔ)平臺(tái),伊莎卡學(xué)院開發(fā)的資料存儲(chǔ)歸檔平臺(tái)等。國(guó)內(nèi)高校主要依托CALIS提供的專業(yè)學(xué)科導(dǎo)航服務(wù),也有上海交通大學(xué)、浙江理工大學(xué)、香港大學(xué)等部分高校開發(fā)了自己的學(xué)科服務(wù)平臺(tái)[2]。然而縱觀國(guó)內(nèi)外主流的高校學(xué)科服務(wù)平臺(tái),基本都還停留在存儲(chǔ)和導(dǎo)航的基礎(chǔ)功能上,少數(shù)平臺(tái)即便有了在線咨詢功能,但主要模式仍依靠學(xué)科館員在線人工服務(wù),對(duì)人工的依賴程度仍然很高。
1 當(dāng)前高校圖書館學(xué)科服務(wù)問題
本文結(jié)合高校圖書館學(xué)科服務(wù)普遍情況和南京曉莊學(xué)院圖書館(以下簡(jiǎn)稱本館)情況,對(duì)傳統(tǒng)學(xué)科服務(wù)模式中的問題歸納如下。
(1) 高校學(xué)科服務(wù)需要面向相關(guān)院系相關(guān)專業(yè)提供深入的跟蹤服務(wù),傳統(tǒng)學(xué)科服務(wù)模式下對(duì)學(xué)科館員數(shù)量和學(xué)科館員質(zhì)量的要求都很高。高校圖書館人員結(jié)構(gòu)復(fù)雜、信息素質(zhì)水平偏低的現(xiàn)狀雖然不斷改善,但仍然難以全面、高水平地開展覆蓋各學(xué)科的學(xué)科服務(wù)。加之培養(yǎng)學(xué)科館員的周期長(zhǎng)、成本高等問題,本館的學(xué)科服務(wù)團(tuán)隊(duì)建設(shè)一直沒有取得突破性進(jìn)展。
(2) 傳統(tǒng)學(xué)科館員制度下的學(xué)科服務(wù)模式中,學(xué)科館員是服務(wù)的中心,而嵌入式高校學(xué)科服務(wù)是以每一位用戶為中心的,也就是說目前在學(xué)科服務(wù)中實(shí)際存在著用戶和學(xué)科館員兩個(gè)中心。未來要強(qiáng)化用戶的中心地位,必須設(shè)法將傳統(tǒng)的學(xué)科館員與相關(guān)經(jīng)驗(yàn)、數(shù)據(jù)等分離開來。
(3) 現(xiàn)有學(xué)科服務(wù)平臺(tái)主要實(shí)現(xiàn)學(xué)科導(dǎo)航服務(wù),存在缺乏互動(dòng)性、難以定制等缺陷,師生訪問量也一直不高。從學(xué)科館員的角度來看,由于制作和維護(hù)學(xué)科導(dǎo)航的工作量大,專業(yè)性強(qiáng)且難以和其他知識(shí)發(fā)現(xiàn)工具整合,所以很多傳統(tǒng)學(xué)科服務(wù)平臺(tái)處于不更新狀態(tài)。有些學(xué)科館員以計(jì)算機(jī)水平低等理由,直接將工作推給圖書館技術(shù)部門的同志,更使得學(xué)科導(dǎo)航脫離了院系需求。
(4) 目前也有一些基于互聯(lián)網(wǎng)的學(xué)科服務(wù)平臺(tái),但這類平臺(tái)主要以導(dǎo)航為主,缺乏知識(shí)整理和知識(shí)發(fā)現(xiàn)的功能。智能化將是未來學(xué)科服務(wù)平臺(tái)發(fā)展的重要趨勢(shì)。
(5) 高校圖書館的專家館員在線咨詢?cè)鲩L(zhǎng)率遠(yuǎn)低于其他類型的在線專家咨詢系統(tǒng)增長(zhǎng)率,甚至一些師生干脆選擇搜索引擎和問答類網(wǎng)站獲取學(xué)術(shù)信息。高校圖書館亟待提供更深入的知識(shí)服務(wù),才能確立其在教學(xué)、科研服務(wù)中的重要地位。
2 智慧學(xué)科服務(wù)建設(shè)思路與功能需求
對(duì)高校圖書館而言,高校圖書館“十三五”規(guī)程中明確了“高校圖書館是為人才培養(yǎng)和科學(xué)研究服務(wù)的學(xué)術(shù)性機(jī)構(gòu)”,使得圍繞高校圖書館職能的智能學(xué)科服務(wù)模式研究更具必要性和迫切性[3]。智慧學(xué)科服務(wù)的研究與實(shí)踐將是高校圖書館發(fā)展的必然趨勢(shì)之一。在物聯(lián)網(wǎng)、傳感器、大數(shù)據(jù)、云計(jì)算、人工智能等高新技術(shù)聯(lián)合推動(dòng)下,近年來智能技術(shù)取得重大突破和越來越廣泛的應(yīng)用,而現(xiàn)有模式下學(xué)科館員服務(wù)的種種問題以及學(xué)科服務(wù)工具的先天性缺陷,都有望在智能化條件下得以徹底解決。
高校圖書館智能學(xué)科服務(wù)相對(duì)其他智能推薦系統(tǒng)具有明顯的特殊性,體現(xiàn)在學(xué)校容易實(shí)現(xiàn)單點(diǎn)登錄且容易獲取師生的學(xué)習(xí)研究方向。另外,高校圖書館智能學(xué)科服務(wù)面對(duì)的服務(wù)群體對(duì)內(nèi)容的需求有著非常大的周期性變化,如某學(xué)生一門學(xué)科學(xué)完后開始其他學(xué)科的學(xué)習(xí),前后關(guān)注內(nèi)容將發(fā)生很大變化。針對(duì)這一特點(diǎn),本館學(xué)科服務(wù)模式的建設(shè)原則是:緊緊圍繞高校教學(xué)和科研服務(wù),系統(tǒng)地應(yīng)用智能化技術(shù),逐漸完善適合南京曉莊學(xué)院的高校圖書館智能學(xué)科服務(wù)模式。
根據(jù)上述原則,南京曉莊學(xué)院的智能學(xué)科服務(wù)建設(shè)思路是:首先根據(jù)本校教學(xué)、科研具體需求構(gòu)建可行性建設(shè)方案,然后將可行性建設(shè)方案交相關(guān)領(lǐng)域?qū)<疫M(jìn)行篩選,最終將通過篩選的方案在可監(jiān)控的數(shù)據(jù)環(huán)境下進(jìn)行測(cè)試,測(cè)試過程中不斷收集和評(píng)估績(jī)效。對(duì)績(jī)效差的方案和調(diào)整后仍然不理想的方案進(jìn)行淘汰,最終通過測(cè)試將不需要再調(diào)整的模式固定下來[4]。本館的智能學(xué)科服務(wù)模式功能需求,主要包括以下幾個(gè)方面。
(1) 為高校師生提供搜索方式獲取電子教育資源,支持模糊搜索。
(2) 為高校師生主動(dòng)提供個(gè)性化的教育資源或知識(shí)片段推薦。
(3) 工作人員分為系統(tǒng)管理員及信息維護(hù)員。系統(tǒng)管理員負(fù)責(zé)保障整個(gè)系統(tǒng)的運(yùn)維。信息維護(hù)員主要負(fù)責(zé)數(shù)據(jù)管理及維護(hù)工作。
(4) 記錄用戶網(wǎng)絡(luò)學(xué)術(shù)行為。系統(tǒng)需要對(duì)所有用戶的網(wǎng)絡(luò)學(xué)術(shù)行為進(jìn)行動(dòng)態(tài)記錄,包括IP地址、登錄信息、訪問時(shí)間或Session ID等信息,這些信息構(gòu)成的大數(shù)據(jù)將用于分析用戶的在線學(xué)術(shù)行為。
(5) 海量在線知識(shí)管理。將圖書館海量的資料轉(zhuǎn)換為有用的且易于提取的知識(shí)信息,首先需要利用專門的數(shù)據(jù)處理平臺(tái)對(duì)其進(jìn)行摘要化處理和關(guān)系化處理。數(shù)據(jù)處理平臺(tái)還將提供包括資源訪問情況、資源偏好評(píng)分等多項(xiàng)基于大數(shù)據(jù)的分析功能。
(6) 個(gè)性學(xué)科知識(shí)推薦服務(wù)。系統(tǒng)不但具備對(duì)登錄用戶進(jìn)行個(gè)性化學(xué)科知識(shí)推薦服務(wù)能力,而且對(duì)沒有登錄系統(tǒng)的用戶也能根據(jù)實(shí)時(shí)頁(yè)面操作捕獲到用戶可能感興趣的知識(shí)并進(jìn)行推薦。登錄與非登錄用戶的個(gè)性學(xué)科服務(wù)推薦原理不同,登錄用戶的個(gè)性學(xué)科知識(shí)推薦服務(wù)更專業(yè),更符合學(xué)科服務(wù)的特殊要求,而非登錄用戶獲得的推薦類似于商品興趣推薦。
(7) 按學(xué)科分類樹進(jìn)行知識(shí)分類的功能。系統(tǒng)將建立一個(gè)類似高校學(xué)科目錄設(shè)置的樹形學(xué)科分類樹,有助于極大提升推薦的精確度。學(xué)科分類樹一般分為五層,其中學(xué)科層次較少的分三層,學(xué)科層次較多的可以分七層。學(xué)科分類樹的根節(jié)點(diǎn)按照一級(jí)學(xué)科分類進(jìn)行設(shè)置,相應(yīng)的第二層也直接對(duì)應(yīng)二級(jí)學(xué)科分類設(shè)置。學(xué)科分類樹的第三層和第四層,一般對(duì)應(yīng)著專業(yè)課程名稱和課程的細(xì)分知識(shí)點(diǎn),第四層也可以按照相關(guān)課程的目錄來設(shè)置。如果學(xué)科分類樹有必要設(shè)置到第五層,那么可以用章節(jié)中涉及知識(shí)點(diǎn)的關(guān)鍵字描述。當(dāng)然,范圍很廣的關(guān)鍵詞是不能用于該層知識(shí)點(diǎn)描述的。除了節(jié)點(diǎn)本身名稱、說明外,每個(gè)節(jié)點(diǎn)還要附加一個(gè)關(guān)鍵字集合A,用于反向定位至該節(jié)點(diǎn)。學(xué)科分類樹中上層節(jié)點(diǎn)中,相鄰或是相近的兩個(gè)節(jié)點(diǎn)既要有共同部分,更要體現(xiàn)差異部分。學(xué)科分類樹中每個(gè)節(jié)點(diǎn)建立一個(gè)推薦知識(shí)片段集合B,推薦知識(shí)片段盡量全面體現(xiàn)本節(jié)點(diǎn)內(nèi)容,同時(shí)要避免范圍過大影響定位。學(xué)科分類樹中每一個(gè)節(jié)點(diǎn)都對(duì)應(yīng)一個(gè)推薦知識(shí)片段地址集合C,推薦知識(shí)片段的地址集合必須是本節(jié)點(diǎn)相關(guān)的URL(Uniform Resoure Locator)。
3 智慧學(xué)科服務(wù)模型
本館通過前期對(duì)讀者行為大數(shù)據(jù)的跟蹤研究,提出了兩種發(fā)掘用戶興趣的辦法。第一種辦法是通過抽取用戶檢索詞和圖書的TF-IDF信息,并形成常用檢索詞順序列表,得到用戶特征向量和知識(shí)特征向量,再對(duì)用戶和知識(shí)的相似點(diǎn)計(jì)算對(duì)比,就能找到用戶感興趣的知識(shí)片段[5]。第二種辦法是分片聚類,首先根據(jù)檢索詞、時(shí)間、空間等屬性抽取出用戶即時(shí)行為分片,然后將所有分片一起聚類分析,得到相似分片分組,分別運(yùn)用相關(guān)算法找到目標(biāo)用戶可能需要的圖書或知識(shí)片段。
如圖1所示,一站式學(xué)術(shù)搜索引擎作為高校圖書館智能學(xué)科服務(wù)個(gè)性化推薦的基礎(chǔ)支撐,與用戶交互、記錄用戶行為,并用爬蟲(網(wǎng)絡(luò)機(jī)器人) 采集網(wǎng)上各類教學(xué)科研的資料信息。數(shù)據(jù)采集模塊采集以上信息,標(biāo)準(zhǔn)化后存入智能學(xué)科服務(wù)個(gè)性化推薦系統(tǒng)數(shù)據(jù)庫(kù)以及HDFS中,同時(shí)數(shù)據(jù)預(yù)處理模塊對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。采用潛在語(yǔ)義分析模型和基于分片聚類的分析模型分析用戶數(shù)據(jù),分別產(chǎn)生興趣集和相似分片集。最后采用不同的推薦算法分別執(zhí)行推薦并綜合推薦算法Rank后為用戶推薦資料[6]。
圖1 本校圖書館智能學(xué)科服務(wù)個(gè)性化推薦模型
4 智能學(xué)科服務(wù)業(yè)務(wù)架構(gòu)
圖書館學(xué)科服務(wù)目標(biāo)作為業(yè)務(wù)系統(tǒng)的核心,圍繞該核心系統(tǒng)應(yīng)從業(yè)務(wù)上劃分為六個(gè)部分,分別是學(xué)科分類樹、知識(shí)聚類、智能推薦算法、資源建設(shè)、用戶行為及評(píng)價(jià)體系。各個(gè)部分的功能如下。
(1) 學(xué)科分類樹。該模塊提供最基礎(chǔ)的學(xué)科分類信息,建議參考國(guó)家《學(xué)位授予和人才培養(yǎng)學(xué)科目錄》 并結(jié)合本校專業(yè)設(shè)置情況、課程情況進(jìn)行設(shè)置。該模塊也為資源建設(shè)、用戶行為、智能推薦算法選擇提供重要依據(jù)。
(2) 知識(shí)聚類。這一模塊主要是針對(duì)海量的圖書館資源的知識(shí)聚類,通過知識(shí)聚類,減少系統(tǒng)即時(shí)運(yùn)算時(shí)間并提高知識(shí)推薦準(zhǔn)確度。通過調(diào)整學(xué)科分類樹和知識(shí)聚類來達(dá)到最佳的預(yù)分類海量知識(shí)的效果。
(3) 智能推薦。該部分能協(xié)調(diào)其他五個(gè)部分?jǐn)?shù)據(jù),最終形成針對(duì)每一個(gè)用戶定制的推薦結(jié)果。系統(tǒng)即便在無法獲取用戶偏好的情況下,仍然可以根據(jù)用戶標(biāo)簽來推薦,有效地避免了冷啟動(dòng)問題。
(4) 資源建設(shè)。除常規(guī)的資源建設(shè)外,系統(tǒng)可循環(huán)收集反饋數(shù)據(jù),建立動(dòng)態(tài)的資源庫(kù)。用戶二次加工的資源將實(shí)時(shí)轉(zhuǎn)化為新的資源,以此提升資源建設(shè)的效率和針對(duì)性。
(5) 用戶行為。通過用戶在線操作的動(dòng)態(tài)日志跟蹤和記錄,實(shí)現(xiàn)對(duì)用戶網(wǎng)上學(xué)術(shù)行為的記錄。這些海量記錄將用于智能推薦模塊分析用戶學(xué)習(xí)趨勢(shì),并結(jié)合其專業(yè)與課程學(xué)習(xí)情況,對(duì)用戶行為進(jìn)行教學(xué)引導(dǎo)。
(6) 評(píng)價(jià)體系。對(duì)教學(xué)資源進(jìn)行評(píng)分,并反饋推薦結(jié)果的有效性,為智能推薦的優(yōu)化提供數(shù)據(jù)支持。
5 高校圖書館智能學(xué)科系統(tǒng)部署架構(gòu)
本系統(tǒng)采用大數(shù)據(jù)分析技術(shù),并綜合采用Google公司推出的MapReduce及開源Hadoop云計(jì)算技術(shù),通過挖掘海量數(shù)據(jù)所蘊(yùn)含的信息,建立特定模型進(jìn)行預(yù)測(cè)。
為滿足總體需求,系統(tǒng)引入大數(shù)據(jù)處理、存儲(chǔ)設(shè)計(jì)部署。本館智能學(xué)科系統(tǒng)架構(gòu)部署了Hadoop Cluster、Mongo DB Sharing Cluster、Zookeeper Cluster、Spark Cluster四個(gè)數(shù)據(jù)集群及相關(guān)存儲(chǔ),另外還部署了學(xué)科分類樹集群、個(gè)性化推薦Web集群兩個(gè)應(yīng)用集群,用于提供相應(yīng)的應(yīng)用請(qǐng)求和分類樹建構(gòu)需求[7]。
(1)Hadoop Cluster。此部署集群又分為兩個(gè)功能部分。第一個(gè)功能是對(duì)大量URL進(jìn)行處理并對(duì)爬取內(nèi)容進(jìn)行分析與使用,從而對(duì)學(xué)科分類樹構(gòu)成輔助。另一個(gè)功能是在分布式計(jì)算的個(gè)性化推薦中輔助Mahout使用。在操作中為常將Second Name Node單獨(dú)部署在一臺(tái)服務(wù)器上,這樣可以防止Name Node單點(diǎn)故障,讓日志文件能寫入共享存儲(chǔ),提升Name Node的可靠性。
(2)Mongo DB Sharing Cluster。利用了Mongo DB的Sharding和復(fù)制集技術(shù)來搭建存儲(chǔ)分類樹文檔庫(kù)及推薦信息庫(kù),不但提升了可用性、穩(wěn)定性,和安全性而且易于集群的擴(kuò)展部署。
(3)Zookeeper Cluster。搭建具有一個(gè)決策節(jié)點(diǎn)和兩個(gè)數(shù)據(jù)節(jié)點(diǎn)的Zookeeper集群,用于在分布式任務(wù)協(xié)調(diào)中分配相關(guān)數(shù)據(jù)存儲(chǔ),為分類樹應(yīng)用管理、存儲(chǔ)和配置信息庫(kù)使用。
(4)Spark Cluster。該集群負(fù)責(zé)個(gè)性化推薦中基于Web應(yīng)用的實(shí)時(shí)推薦算法的計(jì)算任務(wù),由于實(shí)時(shí)性強(qiáng)、并行性強(qiáng),需要配置大容量?jī)?nèi)存和高性能服務(wù)器進(jìn)行支持。該集群通過重用Hadoop集群中yarn部署。
(5) 學(xué)科分類樹集群。該集群負(fù)責(zé)用戶上網(wǎng)日志提取及相關(guān)內(nèi)容抓取。由于信息量大,關(guān)鍵字提取及時(shí)性要求高,為滿足性能要求需要部署多臺(tái)爬蟲服務(wù)器。
(6) 個(gè)性化推薦Web集群。部署該部分主要是為緩解系統(tǒng)使用高峰中在線支持及實(shí)時(shí)推薦的計(jì)算壓力。通過單獨(dú)部署個(gè)性化推薦Web服務(wù)集群和前端部署負(fù)載均衡軟件的辦法相結(jié)合,提升個(gè)性推薦服務(wù)保障能力。
6 結(jié)語(yǔ)
圖書館智能學(xué)科服務(wù)對(duì)高校圖書館提升自我服務(wù)能力,優(yōu)化高校教育教學(xué)資源配置都有著重要的意義。本文結(jié)合高校學(xué)科服務(wù)需求,通過對(duì)大數(shù)據(jù)技術(shù)及推薦技術(shù)等的調(diào)研,最終形成針對(duì)高校特征的智能學(xué)科輔助服務(wù)模式。該模式在解決信息過載、冷啟動(dòng)以及減少技術(shù)復(fù)雜性上都做了一些嘗試,為部署高校圖書館智能學(xué)科服務(wù)平臺(tái)邁出了試探性的步伐,相信隨著高校圖書館的不斷升級(jí)和學(xué)科服務(wù)深入,以及教學(xué)相關(guān)數(shù)據(jù)的不斷積累,智能學(xué)科服務(wù)模式將成為高校圖書館普遍重視的研究領(lǐng)域。
參考文獻(xiàn):
[ 1 ]蔚海燕,衛(wèi)軍朝.研究型圖書館學(xué)科服務(wù)的轉(zhuǎn)變:從學(xué)科館員到學(xué)科服務(wù)平臺(tái)[J].大學(xué)圖書館學(xué)報(bào),2013(6):74-81.
[ 2 ]劉靜春.大數(shù)據(jù)時(shí)代高校數(shù)字圖書館學(xué)科資源聚合“云”服務(wù)平臺(tái)構(gòu)建研究[J].圖書館學(xué)刊,2016(6):105-107.
[ 3 ]湯妙吉.圖書館智能化專業(yè)學(xué)科服務(wù)平臺(tái)建設(shè)[J].現(xiàn)代情報(bào),2016(6):100-102,107.
[ 4 ]曹畋.大數(shù)據(jù)環(huán)境下的圖書館異構(gòu)數(shù)據(jù)統(tǒng)一訪問與轉(zhuǎn)化系統(tǒng)[J]. 圖書館理論與實(shí)踐,2016(2):80-84.
[ 5 ]曹畋. 試論“互聯(lián)網(wǎng)+”下的智能閱讀推廣[J].圖書館理論與實(shí)踐,2016(8):94-96.
[ 6 ]曹畋.基于多Agent的高校智慧學(xué)習(xí)輔助平臺(tái)建設(shè)實(shí)踐[J].圖書館學(xué)研究,2017(24):37-41.
[ 7 ]曹畋.構(gòu)建基于Agent的高校圖書館智能教學(xué)輔助平臺(tái)[J].新世紀(jì)圖書館,2017(7):47-51.