劉 偉 李秀霞
(曲阜師范大學(xué)傳媒學(xué)院,山東 日照 276826)
“大數(shù)據(jù)”時(shí)代,在線評(píng)論成為主要的信息源之一。從海量的評(píng)論數(shù)據(jù)中發(fā)掘有用的信息已成為數(shù)據(jù)分析的熱點(diǎn)問(wèn)題,也是圖書(shū)館開(kāi)展信息組織、日常管理、信息服務(wù)的需要。高校圖書(shū)館服務(wù)質(zhì)量的網(wǎng)絡(luò)評(píng)論文本良莠不齊,主題特征不明顯,對(duì)在線評(píng)論文本進(jìn)行聚類,挖掘這些評(píng)論文本主題,能從大量的文本數(shù)據(jù)中發(fā)現(xiàn)很多潛在問(wèn)題,有利于圖書(shū)館提高服務(wù)質(zhì)量?;诖?,筆者通過(guò)爬取高校圖書(shū)館服務(wù)質(zhì)量的在線評(píng)論,通過(guò)Word2vec獲得在線文本內(nèi)容的詞義向量,利用K-means實(shí)現(xiàn)主題聚類,發(fā)現(xiàn)高校圖書(shū)館服務(wù)質(zhì)量領(lǐng)域的主題特征,可為提升圖書(shū)館的服務(wù)質(zhì)量和服務(wù)水平提供依據(jù),有利于圖書(shū)館據(jù)此提高資源利用率,提升高校圖書(shū)館的公眾形象,同時(shí)也為師生的文化閱讀和科研創(chuàng)新提供更好的環(huán)境。
文本挖掘又稱為文本知識(shí)發(fā)現(xiàn),是利用相關(guān)方法、工具、手段,從大量模糊的、隨機(jī)的、有噪聲影響的文本資料庫(kù)中,提取具有預(yù)測(cè)性或潛在分析價(jià)值的信息的過(guò)程[1]。對(duì)文本聚類的研究,在社會(huì)學(xué)、生物醫(yī)學(xué)以及圖書(shū)情報(bào)學(xué)領(lǐng)域都有所涉獵。作為一種典型的非監(jiān)督學(xué)習(xí)方法,文本聚類可大致分為劃分的方法、層次的方法、基于密度的方法和基于網(wǎng)格的方法等[2]。對(duì)于文本聚類算法,可以分為兩種類型:一類是層次聚類法,另一類是以K-means算法為代表的基于劃分的聚類算法。在文本聚類過(guò)程中,為了減少聚類過(guò)程中迭代的次數(shù),田詩(shī)宵[3]等人對(duì)K-means算法進(jìn)行了改進(jìn),提高了聚類精準(zhǔn)度。邱云飛[4]等人對(duì)短文本特征關(guān)鍵詞的稀疏性問(wèn)題做了相關(guān)研究。隨著數(shù)據(jù)科學(xué)的發(fā)展,文本聚類環(huán)境下數(shù)據(jù)驅(qū)動(dòng)的計(jì)算范式與方法體系正在形成[5],主題聚類在圖書(shū)館學(xué)領(lǐng)域也得到了普遍的應(yīng)用。李鵬飛[6]通過(guò)對(duì)青海民族大學(xué)圖書(shū)館的借閱信息進(jìn)行處理,通過(guò)K-means算法對(duì)用戶行為進(jìn)行主題聚類,實(shí)現(xiàn)個(gè)性化服務(wù)與大數(shù)據(jù)挖掘的有效結(jié)合。吳茵茵[7]借助LDA聚類模型對(duì)國(guó)外圖書(shū)館的在線展覽內(nèi)容進(jìn)行聚類,分析其對(duì)展覽主題的選擇。蔡曉峰[8]通過(guò)在數(shù)字圖書(shū)館和用戶之間建立網(wǎng)絡(luò)模型分析圖書(shū)館用戶群組。薩支斌[9]等人提出了基于個(gè)性化推送服務(wù)的數(shù)字圖書(shū)館學(xué)習(xí)資源提取方法。在主題聚類思想的影響下,楊帆[10]提出了構(gòu)建圖書(shū)館大數(shù)據(jù)分析平臺(tái)的方法。
隨著互聯(lián)網(wǎng)在線社交平臺(tái)的蓬勃發(fā)展,越來(lái)越多的用戶通過(guò)在線評(píng)論的方式發(fā)表對(duì)產(chǎn)品或服務(wù)的意見(jiàn)[11]。由于在線評(píng)論來(lái)源廣、數(shù)據(jù)量大、更新快,越來(lái)越被企業(yè)和用戶所重視[12]。高校圖書(shū)館是學(xué)校的文化服務(wù)與傳播的中心,提高圖書(shū)館的服務(wù)質(zhì)量是高校圖書(shū)館建設(shè)的重點(diǎn)方向。雖然多位學(xué)者都對(duì)其有所研究,但基于高校圖書(shū)館在線評(píng)論并通過(guò)分析其主題特征開(kāi)展服務(wù)質(zhì)量的研究卻很少。基于此,筆者通過(guò)爬取在線評(píng)論,在分析高頻主題詞的基礎(chǔ)上,利用Word2vec獲取評(píng)論文本的詞義向量,分析評(píng)論的語(yǔ)義關(guān)系,借助Kmeans算法實(shí)現(xiàn)評(píng)論文本的主題聚類,發(fā)掘用戶對(duì)高校圖書(shū)館服務(wù)的關(guān)注點(diǎn),提出改進(jìn)高校圖書(shū)館服務(wù)質(zhì)量的策略。
(1)Word2vec
Word2vec是Google在2013年開(kāi)源的一款詞向量訓(xùn)練工具[13]。與其他詞向量模型相比,Word2vec的優(yōu)勢(shì)在于能借助上下文語(yǔ)義,將相似性高的詞語(yǔ)聚為一類,從大規(guī)模未經(jīng)標(biāo)注的語(yǔ)料中高效生成詞向量,因此具有極強(qiáng)的適用性和靈活性。該算法包含CBOW和Skip-Gram兩種模式,前者根據(jù)上下文推測(cè)特征詞,后者通過(guò)特征詞推測(cè)上下文概率。由于Skip-Gram可以改善文本特征的稀疏性和可解釋性,但不會(huì)增加聚類算法的復(fù)雜性,可得到更好的聚類效果[14]。所以筆者選擇Word2vec的第二種模式。Skip-Gram模式的基礎(chǔ)形式如圖1所示。
圖1 Skip-Gram模式的基礎(chǔ)形式圖
該模型本質(zhì)上采用的是3層神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練詞向量,模型輸入的是某個(gè)特定詞上下文相關(guān)的詞,輸出的是該詞特定的詞向量,筆者運(yùn)用Skip-Gram模式進(jìn)行高頻主題詞向量的輸出,假設(shè)給定文本序列詞A={a1,a2,a3…an},運(yùn)用Skip-Gram實(shí)現(xiàn)整個(gè)序列詞的對(duì)數(shù)概率平均值最大化。
該詞序列的訓(xùn)練目標(biāo)函數(shù)為:
在該目標(biāo)函數(shù)中,c為該詞所在的上下文,c值越大,結(jié)果越精準(zhǔn)。但同時(shí)會(huì)加劇計(jì)算時(shí)間,k指文本窗口的大小。
對(duì)于P(at+c|at),則有:
該式中,vt為詞語(yǔ)at的詞向量輸出,那vc即該詞在文本中相鄰詞ac的詞向量。
在爬取的文本集中,由于數(shù)據(jù)量較為龐大,且不同高校圖書(shū)館服務(wù)質(zhì)量方面的在線評(píng)論文本數(shù)量不一,僅舉例來(lái)說(shuō)明在線評(píng)論語(yǔ)義特征的表示。對(duì)5所高校圖書(shū)館的相關(guān)評(píng)論文本,即建立了5個(gè)文本集,表示為M={M1,M2,M3,M4,M5},數(shù)據(jù)預(yù)處理后,運(yùn)用Word2vec中的Skip-Gram模型,將數(shù)據(jù)集中每一個(gè)高頻主題詞映射成一個(gè)向量,最終的文本語(yǔ)義采用向量加權(quán)平均法,計(jì)算公式如下所示。
該式中,V(dj)表示第jt條評(píng)論文本內(nèi)容所輸出的語(yǔ)義向量,Wi為評(píng)論文本中的第i個(gè)詞,V(wi)表示詞Wi的詞向量,N表示評(píng)論文本的長(zhǎng)度。
(2)K-means算法
K-means算法由MacQueen于1967年提出。其算法的核心思想是按照樣本的相似度進(jìn)行聚類。該聚類算法適合大容量數(shù)據(jù)集,操作簡(jiǎn)單,計(jì)算速度快,通常與Word2vec結(jié)合使用。筆者利用K-means算法實(shí)現(xiàn)在線評(píng)論的主題聚類。Kmeans算法的計(jì)算分為以下4步:
第一步,記隨機(jī)選取的樣本均值點(diǎn)為k,第i個(gè)均值為ui。
第二步,通過(guò)歐式距離求各個(gè)樣本點(diǎn)到各均值點(diǎn)的距離,把距離最短的歸為一類,其中,d為第i個(gè)點(diǎn)到第j個(gè)均值距離,xi為第i個(gè)數(shù)據(jù)點(diǎn)。公式為:
第三步,對(duì)第二步得到的新的k類,求取均值,得到新的均值點(diǎn)。
第四步,重復(fù)步驟二、三,直至樣本均值點(diǎn)不再顯著變化。
Word2vec詞義向量模型在自然語(yǔ)言處理領(lǐng)域進(jìn)行數(shù)據(jù)分析得到了廣泛的應(yīng)用,其本質(zhì)是在神經(jīng)網(wǎng)絡(luò)模型下進(jìn)行非線性的變換。李賀教授團(tuán)隊(duì)利用該模型對(duì)電子產(chǎn)品進(jìn)行評(píng)論與需求之間的主題關(guān)聯(lián)度,促進(jìn)了Word2vec進(jìn)行文本語(yǔ)義相似度的深入發(fā)展。Word2vec詞向量模型依據(jù)中文詞義的相似性,這是源于認(rèn)知語(yǔ)言學(xué)中的“距離相似性”原理,已經(jīng)得到了業(yè)內(nèi)外學(xué)者的廣泛認(rèn)同。到目前為止,對(duì)Word2vec的相關(guān)理論論證已經(jīng)非常充分,其處理程序也實(shí)現(xiàn)了部分開(kāi)源。
K-means聚類算法是典型的目標(biāo)函數(shù)聚類算法的代表,以歐氏距離作為相似度測(cè)度,其原理是通過(guò)距離相似度進(jìn)行聚類。隨著需求的增加,專家學(xué)者對(duì)其算法不斷優(yōu)化,k-means+,k-means++等應(yīng)運(yùn)而生。其算法在教育學(xué)、經(jīng)濟(jì)學(xué)、管理學(xué)等領(lǐng)域都得到了運(yùn)用。
研究框架如圖2所示。
圖2 研究框架圖
根據(jù)圖2,首先利用Python抓取數(shù)據(jù)源,篩選有用的評(píng)論文本,剔除與內(nèi)容無(wú)關(guān)的在線評(píng)論。對(duì)文本進(jìn)行預(yù)處理,包括去停用詞、NLTK分詞以及詞性的標(biāo)注等。抽取評(píng)論文本的高頻主題詞,形成語(yǔ)料數(shù)據(jù)。再將高頻主題詞通過(guò)Word2vec轉(zhuǎn)化為詞向量,然后利用K-means進(jìn)行聚類,確定K值,實(shí)現(xiàn)主題聚類,進(jìn)一步進(jìn)行聚類分析。
大眾點(diǎn)評(píng)網(wǎng)是全球最早建立的第三方言論發(fā)布網(wǎng)站,因此所有在線評(píng)論均來(lái)源于大眾點(diǎn)評(píng)網(wǎng)。筆者借助Python的Scrapy網(wǎng)頁(yè)爬取工具,爬取大眾點(diǎn)評(píng)網(wǎng)上有關(guān)上海大學(xué)、天津大學(xué)、浙江大學(xué)、西安電子科技大學(xué)以及武漢大學(xué)等評(píng)論數(shù)量較多的圖書(shū)館的在線評(píng)論文本,時(shí)間跨度為2018年1月—2021年5月。5所高校圖書(shū)館的原始在線評(píng)論共獲得2703條,初步剔除圖片、表情等非文本評(píng)論后共獲得2456條。抓取評(píng)論發(fā)布時(shí)間、評(píng)論內(nèi)容、文本長(zhǎng)度以及評(píng)論回復(fù)等字段。將爬取的在線評(píng)論文本存儲(chǔ)在文本編輯器中,以“.csv”格式進(jìn)行保存。在線評(píng)論的數(shù)據(jù)預(yù)處理包括剔除無(wú)關(guān)評(píng)論、對(duì)評(píng)論文本進(jìn)行去重、降噪、切詞,為下一步主題抽取提供數(shù)據(jù)源;之后進(jìn)行詞性標(biāo)注,形成待處理語(yǔ)料集。
利用Python對(duì)所爬取的高校圖書(shū)館服務(wù)質(zhì)量領(lǐng)域的在線評(píng)論文本做詞頻的統(tǒng)計(jì),利用哈爾濱工業(yè)大學(xué)停用詞表,通過(guò)軟件ROST對(duì)爬取的評(píng)論文本進(jìn)行數(shù)據(jù)分詞、去重、去停用詞、消除噪音等預(yù)處理操作,同義合并后得到高頻詞表,根據(jù)高頻詞,將其劃分為名詞詞性高頻詞、動(dòng)詞詞性高頻詞和形容詞詞性高頻詞。高頻詞表(部分)如表1所示。
表1 在線評(píng)論文本高頻主題詞(部分)
表1中的高頻詞分3類,有名詞詞性高頻詞、動(dòng)詞詞性高頻詞、形容詞詞性高頻詞,不同類型的高頻詞反映了高校圖書(shū)館的不同服務(wù)水平和服務(wù)質(zhì)量。在名詞詞性高頻詞中,讀者最重視的是圖書(shū)館的借閱環(huán)境和藏書(shū)量,大部分讀者評(píng)價(jià)為“館藏豐富”并給予較高的評(píng)價(jià),但也不乏出現(xiàn)“資源老舊,圖書(shū)更新速度慢”這樣的評(píng)語(yǔ)。此外,圖書(shū)館閱讀氛圍、配套基礎(chǔ)設(shè)施如座椅等,也是讀者關(guān)注的地方。在動(dòng)詞詞性高頻詞中,最受關(guān)注的高頻詞是“借閱圖書(shū)”“檢索效率”等,說(shuō)明高校師生最關(guān)注的是圖書(shū)借閱與資源檢索;除了與圖書(shū)館業(yè)務(wù)直接相關(guān)的詞外,也有“咨詢”“自修”等高頻詞,說(shuō)明高校圖書(shū)館是學(xué)子們備考的主要場(chǎng)所。在形容詞詞性高頻詞中,大多涉及“干凈”“舒適”及圖書(shū)館建筑方面的評(píng)價(jià),結(jié)合原始在線評(píng)論語(yǔ)料庫(kù)中“圖書(shū)館占地面積大,規(guī)模宏偉”“干凈衛(wèi)生,服務(wù)細(xì)致”,發(fā)現(xiàn)基本為正向評(píng)級(jí)的詞語(yǔ),說(shuō)明高校圖書(shū)館作為一個(gè)文化傳遞機(jī)構(gòu),對(duì)高校學(xué)生具有極大的吸引力。
詞向量反映了文本的基本結(jié)構(gòu),良好的詞向量便于使語(yǔ)義相近的詞聚集在一起。將高頻詞映射到詞向量空間,可為后續(xù)實(shí)現(xiàn)文本聚類提供語(yǔ)義分析基礎(chǔ)。借助Word2vec訓(xùn)練詞向量,將處理好的評(píng)論文本通過(guò)Word2vec獲得詞向量,Word2vec輸出的詞向量矩陣(部分)如圖3所示。
圖3 詞向量輸出圖
(1)K值的選取
聚類數(shù)K值可根據(jù)平均輪廓系數(shù)法和手肘法來(lái)確定[15]。筆者采用手肘法,評(píng)估公式為:
SSE是誤差平方和,代表聚類結(jié)果的好壞,ci是第i個(gè)簇,p是ci的樣本點(diǎn),mi是ci的質(zhì)心。隨著聚類數(shù)k的增大,樣本劃分會(huì)更加精細(xì),同時(shí)隨著每個(gè)簇的聚合程度提高,誤差平方和SSE會(huì)逐漸變小。也就是說(shuō),SSE和k的關(guān)系圖是一個(gè)手肘的形狀,這個(gè)肘部對(duì)應(yīng)的K值就是最佳的聚類數(shù)。
筆者采取各個(gè)簇內(nèi)的樣本點(diǎn)到所在簇質(zhì)心的距離平方和(SSE)作度量,SSE越小,則各個(gè)類簇越收斂,通過(guò)肘部圖中曲線下降的拐點(diǎn),即可較好地確定K值。在數(shù)據(jù)集上實(shí)驗(yàn),得到圖4所示的肘部圖,該圖中肘部對(duì)應(yīng)的K值取5,說(shuō)明該數(shù)據(jù)集最佳的聚類數(shù)為5,即在線評(píng)論文本的主題可聚為5類。
圖4 肘部圖
(2)聚類結(jié)果與分析
通過(guò)K-means對(duì)評(píng)論主題詞進(jìn)行聚類,得到評(píng)論數(shù)據(jù)的聚類結(jié)果(見(jiàn)表2)。
表2 高校圖書(shū)館在線評(píng)論文本聚類
根據(jù)K-means算法將共2456條評(píng)論語(yǔ)句聚為5類,每個(gè)類簇評(píng)論條數(shù)分別為875條,510條,417條,266條,388條(見(jiàn)表3)。
表3 各主題評(píng)論占比及相應(yīng)的高頻詞
(3)結(jié)果驗(yàn)證及效果評(píng)估
目前,由于聚類算法不同,聚類原理也有差異,聚類結(jié)果尚無(wú)統(tǒng)一的評(píng)估標(biāo)準(zhǔn),在實(shí)際運(yùn)用中,聚類常用的評(píng)估指標(biāo)有純度(purity)、蘭德系數(shù)(Rand Index)以及F值,已有文獻(xiàn)中多采用純度評(píng)估K-means聚類效果,因此筆者采用純度計(jì)算。
純度計(jì)算公式如下:
其中,N為樣本數(shù),A為聚類后的簇類數(shù)量,B為正確的類別,wk為某一簇中的樣本,cj為類別中真實(shí)的樣本,P的取值范圍為[0-1],數(shù)值越大,聚類效果越好。
通過(guò)每一簇主題與總評(píng)論主題去交集,得到5類簇中每一簇的有效聚類樣本為617條,406條,288條,218條,304條。由于類簇中樣本較多,通過(guò)數(shù)據(jù)導(dǎo)入Excel中,運(yùn)用此法進(jìn)行計(jì)算,得到結(jié)果為:
聚類結(jié)果受多種因素的影響,運(yùn)用K-means算法聚類,得到的聚類效果評(píng)估為0.746,在[0-1]的范圍之內(nèi),聚類效果比較理想,能夠真實(shí)反映聚類的數(shù)量及準(zhǔn)確度。但是,在聚類過(guò)程中,由于機(jī)器語(yǔ)言聚類的限制,不可避免地將某些主題聚集到與之不相關(guān)的類簇中,例如“自助借閱”本應(yīng)歸為自動(dòng)化服務(wù)的類簇中,但聚類結(jié)果卻為面向讀者服務(wù)的類簇中,這種情況極大影響聚類效果。另外,K值的選擇也客觀影響聚類的效果,在實(shí)際聚類中,共有9個(gè)類簇,但是類簇的選取要看肘部圖中拐點(diǎn)前的類簇,故舍棄了4個(gè)與之關(guān)系不大的類簇。
根據(jù)表2、表3分析高校圖書(shū)館在線評(píng)論文本的5類主題特征。
(1)基礎(chǔ)服務(wù)?;A(chǔ)服務(wù)類的評(píng)論占比最高,讀者更重視圖書(shū)館的閱讀環(huán)境和閱讀氛圍。對(duì)于圖書(shū)館來(lái)說(shuō),服務(wù)是第一位的,培養(yǎng)具有高素質(zhì)的館員為讀者服務(wù)是圖書(shū)館基礎(chǔ)性的服務(wù),館員要加強(qiáng)自身職業(yè)道德的培養(yǎng),要定期參加圖書(shū)館相關(guān)知識(shí)培訓(xùn),提升自身職業(yè)技能,擺正為讀者服務(wù)的位置,把個(gè)人利益與服務(wù)業(yè)績(jī)相結(jié)合。在圖書(shū)館設(shè)施布局的過(guò)程中,不僅要注重美觀,合理利用經(jīng)費(fèi),為讀者提供良好的閱讀場(chǎng)所,還要注重用戶的閱讀體驗(yàn)。此外,由高頻主題詞看出,讀者對(duì)圖書(shū)館內(nèi)部裝潢也比較看重,在設(shè)計(jì)布置時(shí),要考慮到讀者閱讀舒適度,加強(qiáng)配套設(shè)施的建設(shè),形成聚合效應(yīng),從而吸引更多人到館閱讀。
(2)自動(dòng)化、數(shù)字化建設(shè)服務(wù)。從這5所高校圖書(shū)館的在線評(píng)論中,可以看到“圖書(shū)資源更新慢”“難以找到特定書(shū)目”“部分電子資源付費(fèi)”等評(píng)論,可見(jiàn),高校圖書(shū)館應(yīng)加強(qiáng)館藏紙質(zhì)和電子文獻(xiàn)的建設(shè)工作。吸納學(xué)生志愿者幫助讀者查找圖書(shū);定期征詢讀者所需書(shū)目并進(jìn)行購(gòu)買(mǎi),進(jìn)一步加強(qiáng)館藏資源的建設(shè)。在圖書(shū)館自動(dòng)化、數(shù)字化建設(shè)過(guò)程中,要注重學(xué)科數(shù)字資源的建設(shè),增添專業(yè)化較強(qiáng)的電子館藏。借助數(shù)據(jù)庫(kù),將各種有價(jià)值的信息進(jìn)行匯集。通過(guò)配備高性能的借閱設(shè)備,提高借閱效率。此外,還要注重信息系統(tǒng)的建設(shè),定期對(duì)電子化、數(shù)字化文檔進(jìn)行維護(hù)。為了減少圖書(shū)亂架的現(xiàn)象,有條件的高校圖書(shū)館可以引入RFID射頻識(shí)別技術(shù)。
(3)面向讀者服務(wù)。服務(wù)是高校圖書(shū)館的核心要素,通過(guò)高頻詞句如“電子設(shè)備充電”“借閱機(jī)長(zhǎng)期占用”“開(kāi)館時(shí)間晚”等,筆者認(rèn)為,圖書(shū)館員應(yīng)定期對(duì)基礎(chǔ)配套設(shè)施進(jìn)行維護(hù),還要更大限度地開(kāi)放館員和讀者之間的情感認(rèn)同,只有具備專業(yè)素養(yǎng)的館員才能給讀者提供滿意的圖書(shū)館現(xiàn)代化的服務(wù)。在該主題下,讀者普遍圍繞“圖書(shū)借還”“館際互借”“開(kāi)放時(shí)間”等進(jìn)行咨詢。因此,圖書(shū)館員要具備極強(qiáng)的服務(wù)意識(shí),積極主動(dòng)服務(wù),才能真正做好服務(wù)讀者工作。在開(kāi)展咨詢活動(dòng)時(shí),可以定期組織校園志愿者參與其中,提高讀者滿意度。
(4)科研創(chuàng)新服務(wù)。美國(guó)圖書(shū)館學(xué)家謝拉(JesseH.Shera)認(rèn)為“早期的圖書(shū)館員都是學(xué)者”,科研工作是館員自身成長(zhǎng)的重要因素,館員做科研引領(lǐng)是一種新理念,一種把服務(wù)者與研究者合二為一的工作模式。通過(guò)在線評(píng)論了解到,讀者愈加看重館員的專業(yè)知識(shí)及具備科學(xué)準(zhǔn)確的查詢技能。館員的服務(wù)能力主要取決于其科研能力,而科研成果的產(chǎn)出量是館員科研能力的標(biāo)志。因此,要建立起較強(qiáng)科研能力的圖書(shū)館團(tuán)隊(duì),集中力量科研攻關(guān)[16]。在制度層面上,高校圖書(shū)館應(yīng)建立起科研工作管理體系,定期進(jìn)行科研規(guī)劃,提高館員的創(chuàng)新能力和創(chuàng)新素養(yǎng)。
(5)文化傳承的過(guò)程中,要多渠道加強(qiáng)對(duì)優(yōu)秀文化資源的搜集,創(chuàng)新文化載體的表達(dá)方式。近年來(lái),各級(jí)圖書(shū)館都在積極探索以人為本、服務(wù)育人。充分融合“互聯(lián)網(wǎng)+”,一方面將信息化、網(wǎng)絡(luò)化的時(shí)代背景融入圖書(shū)館服務(wù)育人的總體框架內(nèi);另一方面積極利用網(wǎng)絡(luò)作為傳播媒體,宣傳圖書(shū)館,以圖書(shū)館為媒介,積極宣傳地域文化和校本文化,創(chuàng)新性開(kāi)展文化推廣活動(dòng),提高高校的知名度和地域影響力。通過(guò)圖書(shū)館文化傳播媒介,推動(dòng)當(dāng)?shù)匚幕l(fā)展。
基于高校圖書(shū)館在線評(píng)論的文本數(shù)據(jù),將在線評(píng)論通過(guò)名詞性高頻詞、動(dòng)詞詞性高頻詞、形容詞詞性高頻詞來(lái)表達(dá);利用Word2vec詞向量獲取評(píng)論文本高頻詞的語(yǔ)義特征,通過(guò)K-means算法將評(píng)論文本聚為5個(gè)主題,分別是基礎(chǔ)服務(wù)、自動(dòng)化及數(shù)字化建設(shè)服務(wù)、面向讀者服務(wù)、科研創(chuàng)新服務(wù)和文化傳承服務(wù)。根據(jù)5類評(píng)論主題,從館員培訓(xùn)、圖書(shū)館設(shè)施配置、分學(xué)科館藏建設(shè)及校本文化的傳播等角度,給出提升高校圖書(shū)館服務(wù)質(zhì)量的策略。
當(dāng)然,由于本算法不能有效處理圖片、音頻以及視頻信息,對(duì)此作了刪除處理,丟失了部分評(píng)論信息。后期將通過(guò)圖片、音頻、視頻等處理技術(shù),挖掘相關(guān)內(nèi)容,豐富評(píng)論主題,提高在線評(píng)論文本分析的可靠性。