張 恒,章成志,周清清
1970 年代中期誕生的OPAC 系統(tǒng)(Online Public Access Catalog,又稱(chēng)“聯(lián)機(jī)公共檢索目錄”)[1]在日常運(yùn)行中,積累了用戶(hù)大量的圖書(shū)檢索、瀏覽等信息,圖書(shū)館分析這些數(shù)據(jù),生成了一些應(yīng)用。比如,OPAC系統(tǒng)按照《中國(guó)圖書(shū)館分類(lèi)法》(以下簡(jiǎn)稱(chēng)《中圖法》)劃分的22個(gè)類(lèi)別,基于圖書(shū)瀏覽次數(shù)生成“熱門(mén)圖書(shū)”排行榜推薦給用戶(hù),用戶(hù)對(duì)OPAC系統(tǒng)中圖書(shū)詳情頁(yè)面的瀏覽,表明用戶(hù)對(duì)該書(shū)感興趣[2]。因此,基于所有用戶(hù)瀏覽次數(shù)生成的“熱門(mén)圖書(shū)”在一定程度上代表整個(gè)用戶(hù)群體的閱讀偏好。由于熱門(mén)圖書(shū)只是每所高校館根據(jù)各自的OPAC數(shù)據(jù)統(tǒng)計(jì)生成的,存在局限性,所以本文采集多所高校館的熱門(mén)圖書(shū)數(shù)據(jù),生成每所高校的用戶(hù)群體閱讀偏好向量,然后對(duì)這些高校進(jìn)行聚類(lèi)分析。這項(xiàng)工作將聚類(lèi)分析應(yīng)用于用戶(hù)群體閱讀偏好研究,擴(kuò)展了該類(lèi)研究的思路;幫助高校館把握用戶(hù)群體的閱讀偏好,通過(guò)聚類(lèi)發(fā)現(xiàn)具有相似群體閱讀偏好的高校;聚類(lèi)結(jié)果可對(duì)資源建設(shè)提供幫助。
用戶(hù)在OPAC系統(tǒng)中進(jìn)行圖書(shū)檢索,系統(tǒng)以日志形式保存相關(guān)信息,挖掘檢索日志有助于理解用戶(hù)行為與興趣,有針對(duì)性地優(yōu)化系統(tǒng),還可以為圖書(shū)館管理決策提供參考。對(duì)OPAC檢索日志挖掘一般遵循一定的框架,如將檢索日志挖掘分為數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)分析3個(gè)階段[3]。姜婷婷等搜集武漢大學(xué)圖書(shū)館18天的檢索日志,遵循日志挖掘框架,從關(guān)鍵詞、查詢(xún)式、搜索會(huì)話3個(gè)層次分析用戶(hù)行為[4]。侯志江等基于OPAC檢索日志挖掘用戶(hù)需求,從短缺圖書(shū)和館藏覆蓋率等角度指導(dǎo)圖書(shū)采購(gòu)[2]。劉高軍等基于北方工業(yè)大學(xué)圖書(shū)館10年的借閱記錄,首先使用基于用戶(hù)的協(xié)同過(guò)濾算法生成粗召回的推薦結(jié)果,然后針對(duì)具體用戶(hù)提取相關(guān)特征,構(gòu)建用戶(hù)偏好模型,對(duì)粗召回結(jié)果集進(jìn)行過(guò)濾,得到更精準(zhǔn)的推薦結(jié)果[5]。OPAC 系統(tǒng)通常包含簡(jiǎn)單的數(shù)據(jù)統(tǒng)計(jì)與分析功能,可以對(duì)系統(tǒng)中積累的數(shù)據(jù)進(jìn)行初步挖掘,并且將結(jié)果在系統(tǒng)中展示,為用戶(hù)選擇圖書(shū)提供幫助。熱門(mén)借閱、熱門(mén)評(píng)分、熱門(mén)收藏、熱門(mén)圖書(shū)、借閱關(guān)系圖等都是在此基礎(chǔ)之上進(jìn)行的。陸艷以河海大學(xué)2003-2013年借閱量排名前100 圖書(shū)數(shù)據(jù)為主,結(jié)合其他院校信息,分析高校館讀者閱讀特征[6]。劉麗帆等基于89 所高校館TOP 圖書(shū)數(shù)據(jù),參考全評(píng)價(jià)理論,結(jié)合層次分析法和決策樹(shù)模型,預(yù)測(cè)高校館用戶(hù)閱讀趨勢(shì)[7]。
用戶(hù)會(huì)由于個(gè)人喜好、專(zhuān)業(yè)背景、研究領(lǐng)域等偏向于閱讀某一些書(shū),稱(chēng)為用戶(hù)閱讀偏好。閱讀偏好是一種心理特征,也是一種行為傾向[8]。OPAC系統(tǒng)提供的熱門(mén)圖書(shū)排行榜依據(jù)所有用戶(hù)的瀏覽次數(shù)生成,可以代表高校用戶(hù)群體的閱讀偏好。相關(guān)研究包括:門(mén)淑華等總結(jié)大學(xué)生閱讀的多樣性、廣泛性、時(shí)代性、休閑型和實(shí)用性特點(diǎn)[9];于向前等發(fā)現(xiàn)大學(xué)生閱讀出現(xiàn)盲目跟從、追求功利實(shí)用和偏好網(wǎng)絡(luò)閱讀現(xiàn)象,應(yīng)通過(guò)樹(shù)立高尚閱讀動(dòng)機(jī)、舉辦讀書(shū)活動(dòng)等進(jìn)行引導(dǎo)[10];盧章平等將生物反饋技術(shù)引入就不同題材書(shū)籍對(duì)閱讀偏好影響的探索,發(fā)現(xiàn)大學(xué)生心理因素與書(shū)籍內(nèi)在元素都會(huì)影響閱讀偏好[11]。
整體而言,OPAC數(shù)據(jù)研究多使用一所或幾所高校數(shù)據(jù)來(lái)分析用戶(hù)行為,且大多針對(duì)單個(gè)用戶(hù)構(gòu)建圖書(shū)推薦模型。本文使用多所高校OPAC數(shù)據(jù),從用戶(hù)群體閱讀偏好角度進(jìn)行研究。
本文的研究框架如圖1所示。(1)采集103所中國(guó)高校館網(wǎng)站的“熱門(mén)圖書(shū)”排行榜數(shù)據(jù),以“題名+責(zé)任者”對(duì)圖書(shū)去重。(2)使用DF(Document Frequency)[12]特征選擇法過(guò)濾圖書(shū),選擇部分圖書(shū)來(lái)反映高校用戶(hù)的群體閱讀偏好。(3)使用TF-IDF(Term Frequency-Inverse Document Frequency)[13]方法來(lái)計(jì)算圖書(shū)在各高校中的權(quán)重,生成高校用戶(hù)群體的閱讀偏好向量。(4)使用AP聚類(lèi)[14]方法對(duì)這些高校進(jìn)行聚類(lèi),調(diào)整參數(shù)得到最優(yōu)聚類(lèi)結(jié)果。(5)對(duì)聚類(lèi)結(jié)果中不同類(lèi)簇高校的“熱門(mén)圖書(shū)”就類(lèi)別分布、題名高頻詞、圖書(shū)高頻學(xué)科主題詞進(jìn)行分析。
圖1 高校館用戶(hù)群體閱讀偏好研究框架
圖2 數(shù)據(jù)采集流程
“熱門(mén)圖書(shū)”排行榜是高校館OPAC 系統(tǒng)根據(jù)用戶(hù)瀏覽次數(shù)生成。出于興趣用戶(hù)才會(huì)在OPAC系統(tǒng)中檢索相關(guān)圖書(shū),進(jìn)而對(duì)檢索結(jié)果中的圖書(shū)詳情進(jìn)行瀏覽。高校館中被大量用戶(hù)瀏覽過(guò)的“熱門(mén)圖書(shū)”可以在一定程度上反映該校的用戶(hù)群體閱讀偏好。那么,基于用戶(hù)群體閱讀偏好是否可以將高校聚成若干個(gè)類(lèi)簇?因此,本文主要研究?jī)蓚€(gè)問(wèn)題:如何基于用戶(hù)群體閱讀偏好對(duì)高校進(jìn)行聚類(lèi)?不同類(lèi)簇的高校用戶(hù)群體閱讀偏好有何不同?
2.3.1 數(shù)據(jù)采集
江蘇匯文軟件有限公司(以下簡(jiǎn)稱(chēng)“匯文”)“Libsys圖書(shū)館管理系統(tǒng)”在國(guó)內(nèi)高校館中應(yīng)用較為廣泛,按照?qǐng)D2流程,本文設(shè)計(jì)爬蟲(chóng)程序自動(dòng)采集高校館“熱門(mén)圖書(shū)”排行榜數(shù)據(jù)。
首先,人工從匯文網(wǎng)站的“用戶(hù)名單”中篩選一批可訪問(wèn)的高校館網(wǎng)站鏈接。匯文系統(tǒng)按照《中圖法》22個(gè)圖書(shū)大類(lèi),為每個(gè)大類(lèi)分別生成基于瀏覽次數(shù)的“熱門(mén)圖書(shū)”排行榜,每個(gè)榜單一般為100 種圖書(shū)(少數(shù)情況下會(huì)低于100 種)。(1)本文采集各個(gè)類(lèi)別的“熱門(mén)圖書(shū)”排行榜網(wǎng)頁(yè),(2)提取出每一種“熱門(mén)圖書(shū)”的題名、責(zé)任者、瀏覽次數(shù)等信息。最終采集到103所高校共225,734 條“熱門(mén)圖書(shū)”數(shù)據(jù),采集時(shí)間為2018年10-11月。部分?jǐn)?shù)據(jù)見(jiàn)表1。
表1 部分“熱門(mén)圖書(shū)”信息
圖3 圖書(shū)瀏覽熱度分布
研究榜單數(shù)據(jù)一般要估計(jì)數(shù)據(jù)分布,確保榜單中的數(shù)據(jù)具有足夠的代表性。本文以高校館熱門(mén)圖書(shū)排行榜中的圖書(shū)及其瀏覽次數(shù)來(lái)刻畫(huà)用戶(hù)群體的閱讀偏好,進(jìn)行聚類(lèi)分析,因此,要驗(yàn)證排行榜中的圖書(shū)是否能代表絕大部分用戶(hù)的閱讀偏好。本文定義瀏覽熱度指標(biāo)來(lái)反映圖書(shū)在所有高校的受歡迎程度,圖書(shū)的瀏覽熱度通過(guò)如下方式計(jì)算:(1)對(duì)每所高校的熱門(mén)圖書(shū)瀏覽次數(shù)作歸一化處理,以圖書(shū)瀏覽次數(shù)除以該高校22個(gè)排行榜中所有圖書(shū)的瀏覽次數(shù)之和;(2)取1本書(shū)在所有高校中瀏覽次數(shù)經(jīng)過(guò)歸一化之后的值,以這些值的平均值作為該書(shū)的瀏覽熱度。瀏覽熱度最高的前1萬(wàn)本書(shū)的瀏覽熱度取對(duì)數(shù)后的分布情況見(jiàn)圖3。這1萬(wàn)本書(shū)的瀏覽熱度取對(duì)數(shù)后服從冪率分布,少許部分圖書(shū)獲得了絕大部分熱度。從排行榜中提取最熱門(mén)的前1萬(wàn)本書(shū)尚且如此,可見(jiàn)排行榜之外圖書(shū)僅能反映極少數(shù)人的閱讀偏好。因此,熱門(mén)圖書(shū)排行榜中的圖書(shū)能代表絕大部分高校用戶(hù)的閱讀偏好。
2.3.2 圖書(shū)去重
本文以部分熱門(mén)圖書(shū)作為反映高校用戶(hù)群體閱讀偏好的特征,對(duì)103所高校進(jìn)行聚類(lèi)分析。首先要對(duì)不同圖書(shū)進(jìn)行區(qū)分,本文使用“題名+責(zé)任者”作為圖書(shū)的唯一標(biāo)識(shí)。通過(guò)觀察采集到的熱門(mén)圖書(shū)數(shù)據(jù)發(fā)現(xiàn):同一種圖書(shū)在不同圖書(shū)館網(wǎng)站上的“題名”信息存在一些差異,如“毛澤東傳:中文版”“毛澤東傳:[中文版]”“毛澤東傳-中文版”“毛澤東傳.中文版”。因此,本文通過(guò)計(jì)算機(jī)程序?qū)Α邦}名”做如下處理:一是去除題名中的標(biāo)點(diǎn)符號(hào)(“?”“:”“[”“]”等)和空格;二是將所有英文字母轉(zhuǎn)化為小寫(xiě)。前面提到的4個(gè)“題名”樣例都將變換為“毛澤東傳中文版”。對(duì)“責(zé)任者”數(shù)據(jù)同樣也做如上處理。
2.3.3 特征選擇
以“題名+責(zé)任者”對(duì)圖書(shū)進(jìn)行去重后,需要再?gòu)闹羞x擇具有代表性的圖書(shū)作為特征。聚類(lèi)分析常用的特征選擇方法有卡方檢驗(yàn)(CHI)[15]、信息增益(Information Gain,IG)[16]、文檔頻率(Document Frequency,DF)[12]等。本研究中編寫(xiě)DF算法程序進(jìn)行特征選擇,DF值是針對(duì)文檔集中的詞語(yǔ)計(jì)算的,指文檔集中包含某個(gè)詞語(yǔ)的文檔數(shù)量與文檔總數(shù)量的比值。本文計(jì)算收藏某本圖書(shū)的高校數(shù)量與高??倲?shù)量的比值來(lái)進(jìn)行特征選擇,由于高校的總數(shù)量一定,只需要比較同時(shí)收藏某本圖書(shū)的高校數(shù)量(School Number,以下簡(jiǎn)稱(chēng)SN)即可??紤]到22 個(gè)類(lèi)別各有一個(gè)“熱門(mén)圖書(shū)”排行榜,且觀察發(fā)現(xiàn)不同高校的圖書(shū)瀏覽次數(shù)在類(lèi)別上的分布存在差異。筆者認(rèn)為特征選擇時(shí)應(yīng)考慮類(lèi)別因素,因此,在每個(gè)類(lèi)別中,都利用DF方法提取一次圖書(shū)特征,最后將22個(gè)類(lèi)別各自提取的圖書(shū)特征綜合起來(lái)。
使用DF方法進(jìn)行特征選擇時(shí),一般選取DF值適中的特征,具體做法是設(shè)定閾值過(guò)濾DF值過(guò)高和過(guò)低的特征。因?yàn)镈F值過(guò)高表明該特征幾乎出現(xiàn)在所有的樣本中,不能夠反映具體樣本的特點(diǎn)。DF值越低,表明特征出現(xiàn)在越少的樣本中,這樣的特征更能夠反映具體樣本的特點(diǎn),但DF值過(guò)低的特征數(shù)量龐大,需要進(jìn)行過(guò)濾以控制最終選出的特征數(shù)量,從而避免“維數(shù)災(zāi)難”。本文提取圖書(shū)作為特征時(shí),首先在整體上(不分圖書(shū)類(lèi)別)對(duì)同時(shí)被N所高校收藏的圖書(shū)數(shù)量分布情況進(jìn)行分析。如圖4所示,橫軸表示收藏同一本圖書(shū)的高校數(shù)量(即SN值),縱軸表示同時(shí)被N所高校收藏的圖書(shū)數(shù)量,可見(jiàn)大部分圖書(shū)只被少數(shù)高校館收藏。
圖4 同時(shí)被N所高校收藏的圖書(shū)數(shù)量分布
為提取出能夠反映不同高校閱讀特點(diǎn)的圖書(shū)并且避免“維數(shù)災(zāi)難”,需要過(guò)濾掉SN值過(guò)高和過(guò)低的圖書(shū)。那么,如何確定過(guò)濾的閾值?為此,本文統(tǒng)計(jì)了低SN值對(duì)應(yīng)的圖書(shū)數(shù)量的占比。如表2所示,SN值小于4的圖書(shū)數(shù)量占了圖書(shū)總數(shù)量的94.82%(即:接近95%,在統(tǒng)計(jì)上具有足夠的代表性),因此以4作為SN值的下限。圖書(shū)被收藏的高校數(shù)量最大值(SN_max)為91,本文取SN_max的1/2(取整為46)作為上限,而SN值大于46的圖書(shū)只占圖書(shū)總數(shù)量0.05%。所以提取每個(gè)類(lèi)別中的圖書(shū)特征的做法如下:在每個(gè)類(lèi)別中統(tǒng)計(jì)圖書(shū)被收藏的高校數(shù)量,剔除SN小于4的圖書(shū),同時(shí)統(tǒng)計(jì)各類(lèi)中SN的最大值,以最大值的1/2作為上限,剔除SN超出上限的圖書(shū)。各類(lèi)別提取到的特征數(shù)量如圖5所示,22個(gè)類(lèi)別的特征數(shù)量總和為6934。
表2 同時(shí)被較低數(shù)量高校收藏的圖書(shū)數(shù)量占比
圖5 圖書(shū)類(lèi)別及其特征數(shù)量
2.3.4 特征權(quán)重計(jì)算
在確定作為特征的圖書(shū)集合后,基于TFIDF算法[13]原理,按照下面公式計(jì)算每所高校的特征權(quán)重:
TF-IDF的思想是用詞頻乘以詞語(yǔ)的逆文檔頻率作為特征詞的權(quán)重。將所有高校及其熱門(mén)圖書(shū)當(dāng)作文檔集,每一個(gè)高校即為一篇文檔,高校的熱門(mén)圖書(shū)相當(dāng)于文檔中的詞語(yǔ)。那么一所高校中,圖書(shū)TF值(詞頻)即為圖書(shū)瀏覽次數(shù)除以該高校的圖書(shū)總瀏覽次數(shù),圖書(shū)的TF值體現(xiàn)了圖書(shū)在具體高校中的受歡迎程度,TF值越高,說(shuō)明該圖書(shū)相對(duì)于其他圖書(shū)更受歡迎。圖書(shū)IDF值(逆文檔頻率)即為高??倲?shù)除以收藏該圖書(shū)的高校數(shù)量,圖書(shū)的IDF值體現(xiàn)了圖書(shū)在所有高校中的重要程度,IDF值越高,說(shuō)明圖書(shū)出現(xiàn)在較少的高校中,更能夠體現(xiàn)出具體高校的閱讀特點(diǎn)。因此,本文以圖書(shū)的TF值乘以IDF值作為圖書(shū)的權(quán)重,綜合考慮圖書(shū)在具體高校中的受歡迎程度以及圖書(shū)在所有高校中的重要程度。
2.3.5 AP聚類(lèi)
AP聚類(lèi)即為近鄰傳播聚類(lèi)(Affinity Propagation)法[14]。AP 聚類(lèi)應(yīng)用了圖論理念,將每個(gè)聚類(lèi)樣本當(dāng)作圖中一個(gè)節(jié)點(diǎn),通過(guò)圖中節(jié)點(diǎn)之間的信息傳播來(lái)尋找聚類(lèi)集合[17]。AP聚類(lèi)的輸入為相似度矩陣,首先需要計(jì)算樣本之間的相似度,得到N*N 的相似度矩陣S(N 即樣本個(gè)數(shù))。本文計(jì)算高校之間的余弦相似度來(lái)生成相似度矩陣。假設(shè)兩所高校的閱讀偏好向量分別為A和B,那么它們的余弦相似度計(jì)算公式如下:
AP聚類(lèi)過(guò)程中,進(jìn)行兩種信息傳遞。吸引信息(Responsibility)矩陣R:r(i,k)描述了數(shù)據(jù)對(duì)象k適合作為數(shù)據(jù)對(duì)象i的聚類(lèi)中心的程度;歸屬信息(Availability)矩陣A:a(i,k)描述了數(shù)據(jù)對(duì)象i選擇數(shù)據(jù)對(duì)象k 作為其聚類(lèi)中心的適合程度[18]。Preference是AP聚類(lèi)中一個(gè)重要的參數(shù),即相似度矩陣中的S(i,i),是指點(diǎn)i 作為聚類(lèi)中心的參考度。查閱相關(guān)文獻(xiàn)發(fā)現(xiàn),Preference的取值一般有如下幾種:相似度矩陣中最小值、平均值、平均值的1/2或者2倍、中位數(shù)、中位數(shù)的1/2 或者2 倍,或者根據(jù)實(shí)際情況再做相應(yīng)調(diào)整。一般來(lái)說(shuō),Preference 的取值越小,聚類(lèi)的個(gè)數(shù)越少。
為得到較好的聚類(lèi)結(jié)果,對(duì)Preference 參數(shù)進(jìn)行調(diào)整,得到多組聚類(lèi)結(jié)果。然后利用誤方差和(Sum of Squares for Error,簡(jiǎn)稱(chēng) SSE)[19]對(duì)不同Preference 參數(shù)下的聚類(lèi)效果進(jìn)行評(píng)估,SSE值越小,說(shuō)明聚類(lèi)效果越好。SSE計(jì)算公式如下:
其中,k表示聚類(lèi)結(jié)果的類(lèi)簇個(gè)數(shù),Ci指類(lèi)簇i的質(zhì)心,p表示類(lèi)簇中的點(diǎn)。
為識(shí)別用戶(hù)群體閱讀偏好,使用AP算法對(duì)103 所高校進(jìn)行聚類(lèi)。調(diào)試AP 聚類(lèi)中的參考度(Preference參數(shù)),當(dāng)設(shè)置為前面提到的相似度矩陣的最小值、平均值、中值等數(shù)值時(shí),得到的類(lèi)簇個(gè)數(shù)比較多,很可能會(huì)使得原本屬于同一類(lèi)簇的高校被劃分到不同的類(lèi)簇中。所以本文將參考度調(diào)得更小一些,設(shè)為負(fù)值。在-1~0之間每隔0.05 取一個(gè)值作為參考度,得到了多組不同的結(jié)果。不同參考度下,計(jì)算聚類(lèi)結(jié)果的SSE值如圖6所示。根據(jù)SSE值越小聚類(lèi)效果越好的原則,選擇參考度為-0.05時(shí)的聚類(lèi)結(jié)果進(jìn)行分析,這時(shí)103所高校聚成13 個(gè)類(lèi)簇,詳細(xì)結(jié)果見(jiàn)表3。
圖6 不同參考度下聚類(lèi)結(jié)果的誤方差和
表3 AP聚類(lèi)結(jié)果
表3中高校數(shù)量較少的類(lèi)簇有3個(gè):類(lèi)簇1、2和13,這3個(gè)類(lèi)簇的高校都不超過(guò)5所。一般來(lái)說(shuō),相似度越大的高校越容易聚在一起,同一類(lèi)簇中的高?;旧隙紝儆趯?duì)方相似度最高的幾所高校。計(jì)算每一所高校與其他所有高校的余弦相似度,并且按照相似度從大到小排序,部分結(jié)果見(jiàn)表4。可以發(fā)現(xiàn)與類(lèi)簇1、2和13中高校最相似的1~2 所高校,相似度相比于剩下的高校有較大的差距。然而,其他10個(gè)類(lèi)簇中的高校,與之最相似的前幾所高校的相似度相差不大。在聚類(lèi)時(shí)會(huì)優(yōu)先選擇相似度最大的高校聚在一起,如“三江學(xué)院”和“華北電力大學(xué)”會(huì)先聚在一起,而“西安工程大學(xué)”與“三江學(xué)院”的相似度只有0.1982,但與“東北農(nóng)業(yè)大學(xué)”的相似度為0.2389,“西安工程大學(xué)”會(huì)更傾向于與“東北農(nóng)業(yè)大學(xué)”聚在一起。因此,相似度最高的前1~2 所高校與剩下的高校相似度差距較大是導(dǎo)致類(lèi)簇1、2和13中高校數(shù)量較少的主要原因。
表4 部分高校的相似高校及相似度
圖7 各類(lèi)簇高權(quán)重圖書(shū)在不同類(lèi)別上的分布
類(lèi)簇5中北京林業(yè)大學(xué)、南京農(nóng)業(yè)大學(xué)、南京林業(yè)大學(xué)等農(nóng)林類(lèi)高校聚在一類(lèi)。類(lèi)簇6中包含南京理工大學(xué)、南京航空航天大學(xué)、哈爾濱工業(yè)大學(xué)、西北工業(yè)大學(xué),這4所高校隸屬于工信部。類(lèi)簇8中常州工程職業(yè)技術(shù)學(xué)院、揚(yáng)州工業(yè)職業(yè)技術(shù)學(xué)院、泰州職業(yè)技術(shù)學(xué)院等職業(yè)技術(shù)學(xué)院聚在了一起。由此可見(jiàn)聚類(lèi)效果是可靠的。
3.2.1 圖書(shū)類(lèi)別分布
對(duì)于聚類(lèi)得到的13個(gè)高校類(lèi)簇,計(jì)算每個(gè)類(lèi)簇中所有高校用戶(hù)偏好向量的平均向量,然后對(duì)平均向量中的圖書(shū)特征權(quán)重按照從大到小排序,得到每個(gè)類(lèi)簇取權(quán)重最高的前100本圖書(shū)。本文統(tǒng)計(jì)這100本圖書(shū)在22個(gè)圖書(shū)類(lèi)別中的分布情況,如圖7所示。各類(lèi)簇中平均特征權(quán)重最高的前100種圖書(shū)中,文學(xué)類(lèi)書(shū)占比最多,尤其是類(lèi)簇4、9、12,比重均超過(guò)50%,表明文學(xué)類(lèi)圖書(shū)幾乎在所有高校中都很受讀者歡迎。在工業(yè)技術(shù)類(lèi)中,類(lèi)簇2、6和7的圖書(shū)數(shù)量占比明顯高于其他類(lèi)簇,反映出這兩個(gè)類(lèi)簇和其他類(lèi)簇高校用戶(hù)閱讀偏好的差異。觀察這3個(gè)類(lèi)簇中的高校發(fā)現(xiàn),工科類(lèi)高校較多。另外,類(lèi)簇3 在政治、法律這一類(lèi)別中的圖書(shū)占比遠(yuǎn)高于其他類(lèi)簇,類(lèi)簇1和8在馬列主義、毛澤東思想、鄧小平理論類(lèi)別中的圖書(shū)占比也遠(yuǎn)高于其他類(lèi)簇,表明這3個(gè)類(lèi)簇的用戶(hù)閱讀偏好與其他類(lèi)簇高校存在差異。
3.2.2 題名高頻詞
先獲取每個(gè)類(lèi)簇中平均特征權(quán)重最高的前100本書(shū),對(duì)題名進(jìn)行分詞、去停用詞,然后統(tǒng)計(jì)詞頻。取各個(gè)類(lèi)簇中前50的高頻詞分別生成詞云,見(jiàn)圖8。從13個(gè)類(lèi)簇的圖書(shū)題名高頻詞詞云圖中可以看出,“中國(guó)”和“世界”這兩個(gè)詞幾乎在每個(gè)類(lèi)簇中都屬于詞頻最高的幾個(gè)詞之中。13 個(gè)類(lèi)簇平均特征權(quán)重最高的前100 本書(shū)中,包含“中國(guó)”一詞的圖書(shū)有33種,而且這33種圖書(shū)出現(xiàn)在不同類(lèi)簇中的次數(shù)也較為平均,都不超過(guò)3次?!爸袊?guó)”一詞在圖書(shū)題名中均對(duì)圖書(shū)的主題起到限定作用,如“中國(guó)近代史”“中國(guó)人的精神”“中國(guó)人的氣質(zhì)”。包含“世界”一詞的圖書(shū)有40種,有幾種圖書(shū)出現(xiàn)在不同類(lèi)簇中次數(shù)較高,“平凡的世界”出現(xiàn)在7個(gè)類(lèi)簇中,且“平凡的世界”這一書(shū)名還有幾種其他形式,如“平凡的世界第2版”“平凡的世界普及本”“平凡的世界第1部”,這3種圖書(shū)均出現(xiàn)在4個(gè)類(lèi)簇中。因此,“世界”一詞占有很大權(quán)重的類(lèi)簇中,“平凡”一詞往往也占有較大的權(quán)重,如類(lèi)簇4、10、12 和13?!疤K菲的世界”也出現(xiàn)在5 個(gè)類(lèi)簇中,包含“世界”一詞的圖書(shū)多是文學(xué)類(lèi)圖書(shū)。
圖8 各類(lèi)簇圖書(shū)題名高頻詞
類(lèi)簇7和8中詞頻最高的3個(gè)詞均為“分析”“入門(mén)”“matlab”,大體看,這兩個(gè)類(lèi)簇的高校用戶(hù)閱讀偏好十分相似。但是,除詞頻最高的3個(gè)詞,類(lèi)簇8中的“龍族”“馬克思主義”“哲學(xué)”等詞與類(lèi)簇7 區(qū)別明顯。類(lèi)簇3 中的高校多為“音樂(lè)”“美術(shù)”類(lèi)高校,一般來(lái)說(shuō),該類(lèi)高校的主要學(xué)科為人文社科,而類(lèi)簇3的高頻詞中包含“社會(huì)”“文化”等,這些詞語(yǔ)也代表了人文社科領(lǐng)域的主要研究話題。
3.2.3 圖書(shū)高頻學(xué)科主題詞分析
獲取每個(gè)類(lèi)簇中平均特征權(quán)重最高的前100本書(shū),然后從高校館網(wǎng)站上采集這些圖書(shū)的學(xué)科主題詞數(shù)據(jù),并統(tǒng)計(jì)學(xué)科主題詞的詞頻。取各個(gè)類(lèi)簇中前50 的高頻詞分別生成詞云,如圖9 所示。與圖書(shū)題名高頻詞的情況類(lèi)似,有幾個(gè)學(xué)科主題詞幾乎在每個(gè)類(lèi)簇中頻次都很高,它們是“中國(guó)”“長(zhǎng)篇小說(shuō)”“當(dāng)代”“現(xiàn)代”,包含這幾個(gè)學(xué)科主題詞的圖書(shū)多為小說(shuō)或其他體裁的文學(xué)作品,說(shuō)明文學(xué)類(lèi)圖書(shū)最受歡迎,與圖書(shū)類(lèi)別分布中的結(jié)論一致。有幾個(gè)類(lèi)簇學(xué)科主題詞相比于其他類(lèi)簇表現(xiàn)出一些差異,如類(lèi)簇1中的“普及讀物”和“高等學(xué)?!钡念l次也比較高,但在其他類(lèi)簇中的頻次卻相對(duì)較低。類(lèi)簇6中“應(yīng)用軟件”的頻次最高,甚至超過(guò)了“中國(guó)”,包含學(xué)科主題詞“應(yīng)用軟件”的圖書(shū)多是各種應(yīng)用軟件的使用介紹,類(lèi)簇6中的學(xué)校以理工科高校,而這些學(xué)校的師生在學(xué)習(xí)和科研中經(jīng)常需要使用各類(lèi)應(yīng)用軟件。
圖9 各類(lèi)簇圖書(shū)高頻學(xué)科主題詞
本研究對(duì)于圖書(shū)館工作有著重要的參考價(jià)值。圖書(shū)館在進(jìn)行圖書(shū)推廣時(shí),一般是選擇本校瀏覽次數(shù)較高的一些圖書(shū)或者網(wǎng)絡(luò)熱門(mén)圖書(shū)生成推薦列表,然后向讀者宣傳。本研究可以生成有別于傳統(tǒng)的圖書(shū)推薦列表為圖書(shū)推廣提供更多的選擇,本研究中獲取了不少高校的熱門(mén)圖書(shū)瀏覽數(shù)據(jù),可以統(tǒng)計(jì)圖書(shū)在這些高校中的瀏覽次數(shù),從而生成基于大量高校讀者閱讀偏好的圖書(shū)推薦列表。除此之外,對(duì)于具體高校,可以統(tǒng)計(jì)與其同類(lèi)簇中高校的圖書(shū)瀏覽次數(shù),生成圖書(shū)推薦列表,同類(lèi)簇中的高校用戶(hù)具有相似的閱讀偏好,這樣的推薦列表具有較為重要的價(jià)值。
另外,高校圖書(shū)館進(jìn)行資源建設(shè)工作時(shí)可以參考在大量高校中都熱門(mén)的圖書(shū),如果本高校圖書(shū)館的館藏中還沒(méi)有其中的一些圖書(shū),就可以及時(shí)采購(gòu)。本研究生成了一些具有相似閱讀偏好的高校類(lèi)簇,類(lèi)簇中的高校需要采購(gòu)圖書(shū)時(shí),還可以參考同類(lèi)簇中其他高校的熱門(mén)圖書(shū)。以南京理工大學(xué)為例,其圖書(shū)館網(wǎng)站上公布了熱門(mén)圖書(shū)排行榜,采集到前10本圖書(shū)的題名數(shù)據(jù)信息分別是:c語(yǔ)言程序設(shè)計(jì)實(shí)驗(yàn)指導(dǎo)、蘇菲的世界、狼圖騰、平凡的世界1、追風(fēng)箏的人、平凡的世界第2版、平凡的世界第一部、明朝那些事兒朱元璋卷、c++ primer plus第6版中文版、圍城第2版。與其同類(lèi)簇的高校有13所,這13所高校最熱門(mén)的10本圖書(shū)的題名數(shù)據(jù)信息分別是:深度學(xué)習(xí)入門(mén)之pytorch、c++ primer第3版、消失的航班、平凡的世界、狼圖騰、strategic management、追風(fēng)箏的人、高質(zhì)量程序設(shè)計(jì)指南:c++/c語(yǔ)言第3版、挪威的森林、外國(guó)經(jīng)濟(jì)與管理??梢钥吹?,同類(lèi)簇高校的熱門(mén)圖書(shū)的題名數(shù)據(jù)信息與南京理工大學(xué)有所不同,在擴(kuò)充館藏資源時(shí)就可以考慮這些不同的圖書(shū)。
本文基于用戶(hù)群體的閱讀偏好,對(duì)中國(guó)103所高校進(jìn)行聚類(lèi)分析。AP聚類(lèi)結(jié)果顯示這些高校被聚成了13個(gè)類(lèi)簇,進(jìn)而對(duì)各類(lèi)簇中的高平均特征權(quán)重的圖書(shū)類(lèi)別分布、圖書(shū)題名高頻詞以及圖書(shū)高頻學(xué)科主題詞進(jìn)行了分析,發(fā)現(xiàn)這些類(lèi)簇的圖書(shū)類(lèi)別分布大體上比較相似,文學(xué)類(lèi)圖書(shū)在各類(lèi)中均占了較大的比重,但在工業(yè)技術(shù)等幾個(gè)類(lèi)別的圖書(shū)占比上,有些類(lèi)簇與其他類(lèi)簇存在非常明顯的差異。而圖書(shū)題名的高頻詞也反映了文學(xué)類(lèi)圖書(shū)占有很大比例這一情況,同時(shí)也體現(xiàn)了部分類(lèi)簇中高校的閱讀偏好特點(diǎn),且不同類(lèi)簇的高頻詞存在差異。圖書(shū)高頻學(xué)科主題詞和題名高頻詞的情況相似。由此可見(jiàn),部分類(lèi)簇之間的用戶(hù)群體閱讀偏好在圖書(shū)類(lèi)別分布、圖書(shū)題名高頻詞及圖書(shū)高頻學(xué)科主題詞上存在明顯差異。
本文為用戶(hù)群體閱讀偏好研究提供了一種新的思路,并且本研究有助于高校圖書(shū)館了解用戶(hù)群體的閱讀偏好,發(fā)現(xiàn)與本校具有相似群體閱讀偏好的高校,對(duì)于圖書(shū)館的圖書(shū)推廣和資源建設(shè)工作具有重要的參考價(jià)值。此外,同一類(lèi)簇的高校圖書(shū)館也可展開(kāi)合作,為用戶(hù)提供館際互借服務(wù)。當(dāng)然,本研究還存在一定的局限性,比如受限于數(shù)據(jù)獲取的途徑,本文選擇的高校在代表性上有所欠缺。未來(lái)工作可以擴(kuò)展高校相關(guān)數(shù)據(jù),收集這些高校更為詳細(xì)的其他信息,探索聚類(lèi)結(jié)果生成的原因,從而更加深刻地理解不同類(lèi)簇高校圖書(shū)館用戶(hù)群體閱讀偏好的差異。