摘 要 為提高圖書審校效率,論文以高校圖書館館藏中文書目為數(shù)據(jù)源,以內(nèi)容提要、主題詞和題名為特征詞來源,根據(jù)特征詞來源位置對特征詞進行加權處理和特征詞詞頻統(tǒng)計,構建圖書-特征詞稀疏矩陣,按比例對帶有圖書分類號的稀疏矩陣進行樸素貝葉斯計算,找到圖書分類最大概率,評估訓練分類模型。實驗結果表明,利用樸素貝葉斯算法基于加權精選特征詞的圖書智能分類模型,具有良好的實用性,對進一步提高采編部工作的智能化和高效化是有效可行的。
關鍵詞 機器學習;樸素貝葉斯;圖書智能分類;中文圖書
分類號 G254.3
DOI 10.16810/j.cnki.1672-514X.2025.02.006
An Empirical Study on Intelligent Classification of Chinese Books Based on Machine Learning
Xia Dan
Abstract To improve the efficiency of book review, this paper takes the Chinese bibliography collected by university library as the data source, takes the content summary, subject words and titles as the source of feature words, carries out weighted processing and word frequency statistics of feature words according to the source location of feature words, constructs a book feature word sparse matrix, carries out naive Bayes calculation on the book feature word sparse matrix with book classification number proportionally, finds the maximum probability of book classification, and evaluates and trains the classification model. The experimental results show that the book intelligent classification model based on weighted selection of feature words using naive Bayes algorithm has good practicality, it is effective and feasible for further improving the intelligence and efficiency of the collection and editing department’s work.
Keywords Machine learning. Naive Bayes. Intelligent book classification. Chinese books.
0 引言
目前,高校圖書館雖然圖書物理加工、書目著錄工作外包給圖書供應商,在一定程度上分擔了采編部的工作,但是對良莠不齊的著錄數(shù)據(jù)的審校工作依然很耗費時間和精力,造成大量圖書積壓。根據(jù)近幾年圖書審校人員對書商發(fā)生的著錄數(shù)據(jù)錯誤類型和錯誤數(shù)量的統(tǒng)計發(fā)現(xiàn),描述圖書客觀信息的著錄字段錯誤較少,如書名、著者、定價等字段,絕大部分著錄錯誤集中在反映圖書內(nèi)容的圖書分類上,因為每個圖書館都有自身的館藏分類原則,而外包書商很難滿足所有合作圖書館的分類要求,所以影響審校工作效率的瓶頸就是圖書分類,如果大部分圖書分類快速、準確,就可以大大縮短圖書加工周期,節(jié)省更多的人員和時間去完成更高層次、更深層次的讀者服務工作。
隨著人工智能技術的發(fā)展,高校圖書館已經(jīng)有多個領域?qū)崿F(xiàn)了智慧化,如清華大學圖書館的讀者咨詢問答智能機器人[1]、南京大學圖書館的具備引導、圖書查詢等功能的“圖寶”智能機器人[2]等,智慧化大大解放了人力,提高了高校圖書館工作效率,這些成功案例為人工智能技術應用在圖書編目領域提供了信心。本文在總結前人關于中文圖書自動分類研究成果的基礎上,嘗試將機器學習算法引入到中文圖書分類中,構建基于特征加權的中文圖書智能分類模型,使之能夠根據(jù)反映中文圖書內(nèi)容的重要字段信息智能輸出圖書分類號,并以哈爾濱理工大學圖書館(以下稱“本館”)的館藏數(shù)據(jù)做測試,驗證該模型的準確性,以期解決中文圖書分類效率低、準確率不高的問題,提升采編部的工作效率,這也是智慧化在圖書館傳統(tǒng)業(yè)務中的最佳體現(xiàn)[3]。
1 中文圖書自動分類相關研究
學者對中文文獻自動分類標引的研究成果是比較豐厚的,但是對中文圖書的自動分類標引研究成果相對不是很多,且大多處于試驗階段,根據(jù)對相關文獻的閱讀、研究和梳理,總結出中文圖書自動分類研究呈階段性特征,主要有兩種方式:一種方式是集中在20世紀80年代至2009年,基于專家系統(tǒng)實現(xiàn)圖書自動分類;一種方式是集中在2010年及以后,基于機器學習算法實現(xiàn)圖書自動分類。
1.1 基于專家系統(tǒng)
20世紀80年代,有學者開始了基于專家系統(tǒng)的圖書分類研究[4],隨后一些年陸續(xù)有學者開展了相關研究。該研究方式的思路是由圖書分類領域?qū)<腋鶕?jù)其多年的工作經(jīng)驗提供專門的領域知識,構建系統(tǒng)知識庫。專家系統(tǒng)利用推理機制對待分類的圖書選擇適合的知識進行推理,得出最適合的分類結果,知識庫可根據(jù)實際需求、經(jīng)驗的不斷累積而不斷改進、完善,使得出的結果更加精準。比較典型的研究有鄧要武[5]基于《中圖法》的分類原則和有關分類專家的思維,構建了“圖書自動分類專家系統(tǒng)”,并進行了技術實現(xiàn);田軍[6]以《中圖法》中計算機類圖書分類為例建立了分類系統(tǒng)模型,詳細探討了分類系統(tǒng)的知識表示技術、推理機制和知識獲??;顧燕萍[7]等利用基于《中圖法》的中文信息自動標引和自動分類系統(tǒng)對中文圖書自動標引和自動分類進行了測試實驗,驗證自動分類系統(tǒng)可用于中文圖書的自動分類。
1.2 基于機器學習算法
專家系統(tǒng)屬于人工智能應用的早期階段,存在知識獲取困難、推理方法單一、分類準確率依賴于知識庫的組織難以保證等問題。專家系統(tǒng)的出現(xiàn),促使自動知識獲取成為機器學習應用的重要研究內(nèi)容,隨著大數(shù)據(jù)、互聯(lián)網(wǎng)等信息技術的發(fā)展,作為人工智能中最具有智能特征的研究領域之一的機器學習也得到了迅猛的發(fā)展,機器學習在各學科領域得到了大量的應用研究,不乏中文圖書自動分類領域。
基于機器學習算法的研究思路主要指構建系統(tǒng)模型,通過輸入已完成分類的圖書相關數(shù)據(jù)訓練模型,然后使用訓練好的模型實現(xiàn)待分類圖書的自動分類,通過對模型輸出結果和人工分類結果的對比,驗證模型分類的準確度,通過調(diào)整參數(shù),逐步增強分類準確度。機器學習算法主要有支持向量機、貝葉斯、決策樹、隨機森林和神經(jīng)網(wǎng)絡等。比較典型的研究有:王昊[8]等基于BP神經(jīng)網(wǎng)絡和支持向量機算法建立了書目層次分類系統(tǒng)模型,通過實驗驗證了該模型的可行性和合理性;楊敏[9]等基于混合特征矩陣的SVM算法構建了圖書自動分類系統(tǒng),實驗證明分類效果良好;潘輝[10]采用基于極限學習機的分類方法實現(xiàn)圖書的自動分類;Lin,Li[11]等提出了一種基于深度學習的主題詞自動識別模型以有效識別中文圖書;Husiyin,Maysigul[12]等對傳統(tǒng)的基于人工智能技術的特征選擇算法進行了改進,提出了一種基于類別區(qū)分的新型特征選擇算法,對漢語言文學圖書進行自動分類。
基于機器學習算法研究圖書自動分類的研究成果中,采取支持向量機算法的研究較多,采取樸素貝葉斯算法的研究很少,且研究維度較窄。另外,多數(shù)研究都是事先人為確定好固定的數(shù)據(jù)集測試訓練模型、預測準確度,不能確保模型準確度的穩(wěn)定性。樸素貝葉斯算法對缺失數(shù)據(jù)不太敏感,在文本分類中應用較多,且分類效率穩(wěn)定,因此本文嘗試基于樸素貝葉斯算法實現(xiàn)中文圖書的自動分類,并通過實際的館藏數(shù)據(jù)進行實驗,從不同途徑探索中文圖書的自動分類,并采取隨機比例分配訓練集和測試集的方式,多次驗證該方法的分類準確度,確保模型的有效性,希望訓練模型能夠適用于圖書館的工作實際,提高圖書編目、審校效率。
2 基于機器學習的中文圖書智能分類方案設計
2.1 總體設計技術路線
本文的研究目標是實現(xiàn)已采購中文圖書的自動分類,提高圖書編目數(shù)據(jù)的質(zhì)量,提升圖書審校效率,因此筆者選擇了高校圖書館館藏數(shù)據(jù)作為本研究的數(shù)據(jù)來源。首先,從館藏數(shù)據(jù)中選取若干種類的圖書書目并進行數(shù)據(jù)預處理;其次,從數(shù)據(jù)處理后的圖書著錄項中選取描述圖書內(nèi)容的字段數(shù)據(jù)作為特征詞來源,利用切詞工具和停用詞表進行切詞并過濾掉無實際意義的詞語,根據(jù)特征詞來源位置對特征詞進行加權處理,選取部分高頻特征詞和人工選詞作為精選特征詞,計算精選特征詞的TF-IDF值,構建圖書——特征詞稀疏矩陣;最后,按比例對帶有圖書分類號的圖書——特征詞稀疏矩陣進行多次隨機數(shù)據(jù)分割,分為訓練集和測試集,進行樸素貝葉斯計算,找到圖書分類最大概率,評估訓練分類模型。基于機器學習的中文圖書智能分類技術路線如圖1所示。
2.2 相關算法介紹
2.2.1 TF-IDF算法
TF-IDF(Term Frequency-Inverse DocumentFrequency),稱為詞頻—逆文本頻率,在文本關鍵詞挖掘領域中,TF-IDF算法是一種常用的加權計算算法[13],其主要思想是:如果某個詞在一個文檔中出現(xiàn)的頻率高,并且在其他文檔中較少出現(xiàn),則認為此詞具有很好的類別區(qū)分特征。利用該算法可以過濾掉常見的、無實際意義的詞語,保留表示文本重要特征的詞語。特征詞越能夠表達圖書的內(nèi)涵,機器學習的效果也將越好,因此本文應用TF-IDF算法對館藏書目數(shù)據(jù)提取特征詞。計算公式如下:
詞頻tfij表示第i個詞語ti在第j個書目bj中出現(xiàn)的頻率,體現(xiàn)詞語ti在書目bj中的重要程度,其中分母表示bj中所有詞語出現(xiàn)的次數(shù)之和,分子nij表示詞語ti在書目bj中出現(xiàn)的次數(shù)。逆文本頻率idfi表示所有書目中出現(xiàn)詞語ti的書目情況,包含ti詞語的書目數(shù)量越少,idfi數(shù)值就越大,詞語ti越具備代表該書目的獨特性,|B|表示書目總數(shù),分母表示包含詞語ti的書目總數(shù),為防止存在詞語ti未出現(xiàn)在任何待分類圖書書目中導致分母為0的情況,包含詞語ti的書目總數(shù)進行加1計算,這種方式也減少了非常罕見的詞語對整體權重的過分放大,使得TF-IDF值更加平衡和合理。
2.2.2 樸素貝葉斯算法
樸素貝葉斯算法是以貝葉斯算法為基礎并假設各特征之間相互獨立的算法[14],其主要思路是:假設各特征詞之間相互獨立,先通過已給定的訓練集,學習從輸入到輸出的聯(lián)合概率分布,獲得訓練分類模型,然后基于此模型,輸入新樣本,輸出具有最大后驗概率的分類。該算法應用在中文圖書分類中,其原理為:每一個書目b都具有n個特征,即b=(b1,b2,…bn),分類標記集合c含有k種類別,即c=(c1,c2,…ck)。對于待分類的新書目b,預判斷其分類,依據(jù)樸素貝葉斯公式,得到b屬于ck類的P(ck|b)概率,概率最大的類別則為書目b的分類。公式如下:
2.3 構建圖書-特征詞稀疏矩陣
特征詞提取是開展人工智能分類分析的基礎,提取到的文本形式的特征詞必須轉(zhuǎn)換為機器學習能夠識別的向量矩陣,方可進行分類研究,圖書—特征詞稀疏矩陣構建流程如下。
2.3.1 圖書信息獲取與預處理
選取若干種類的館藏圖書書目信息,信息內(nèi)容包括圖書書號、圖書題名、主題詞、內(nèi)容提要、圖書索取號等,因為館藏數(shù)據(jù)庫中存在一些數(shù)據(jù)不完整、無效的著錄數(shù)據(jù)在當時著錄時未及時刪除,造成提取到的書目信息有重復,因為圖書書號是唯一的,根據(jù)書號對冗余數(shù)據(jù)進行去重處理。另外,因為學科交叉性,有些圖書存在多個圖書分類號,本文選取最終被作為圖書索取依據(jù)的圖書分類號作為該書的分類,以確保經(jīng)過機器學習后得到的智能分類符合圖書館實際分類要求,保證館藏分布的一致性和連續(xù)性。因為本館圖書索取號由圖書分類號和著者信息組成,根據(jù)實驗需要,去掉圖書索取號中的著者信息,最終得到符合實驗要求的圖書書目,將圖書書目按照圖書分類號聚類保存。
2.3.2 特征詞提取與選擇
在圖書著錄項中,最能表征描述圖書內(nèi)容的字段為題名、主題詞和內(nèi)容提要,特征詞可從上述字段中進行提取,以表達圖書的內(nèi)容。但不同來源提取到的特征詞對圖書內(nèi)容的表示能力是不同的,通常情況下,主題詞是反映圖書內(nèi)容的核心詞語,其表達能力最強,題名是圖書重要內(nèi)容的高度濃縮,是以最準確、最簡潔的詞語反映圖書具體內(nèi)容的詞語組合,其表達能力次之,內(nèi)容提要是對圖書內(nèi)容的簡短介紹,篇幅較題名要長很多,其表達能力最弱,因此需要根據(jù)特征詞來源的不同對特征詞賦予不同的權重。
特征詞提取與選擇的具體步驟為:(1)利用jieba分詞工具對題名和內(nèi)容提要進行分詞,jieba是Python中優(yōu)秀的中文分詞組件,支持三種分詞模式,支持用戶自行添加新詞以保證更高的分詞準確率,在分詞時構建一個停用詞表,停用詞表中包括一般通用的日常詞語,例如:“全書”“探討”“體現(xiàn)”“陳述”等,利用停用詞表過濾無實際意義的詞語,保證剩下的詞語能夠表達圖書的主題。對題名和內(nèi)容提要分詞后得到的詞語與主題詞共同組成特征詞;(2)對不同來源的特征詞賦予權重,根據(jù)機器學習結果不斷調(diào)整權重系數(shù),確保模型分類效果最優(yōu);(3)對全部特征詞進行TF值計算,按照TF值從大到小的順序?qū)μ卣髟~進行排序,結合本館實際編目經(jīng)驗,經(jīng)過多次測試,選擇使得模型分類效果最優(yōu)的部分高頻特征詞和人工選詞形成精選詞頻矩陣和向量索引表,對精選特征詞進行IDF計算。
2.3.3 圖書—特征詞稀疏矩陣構建
經(jīng)過IDF計算的精選特征詞結合特征詞向量索引表構建圖書—特征詞稀疏矩陣,根據(jù)稀疏矩陣的特點,整個矩陣很大,而有交互的數(shù)據(jù)比較少,所以本文通過CSR Matrix結構來表示稀疏矩陣,表示方式如下:
(書目1, 特征詞1)" TF-IDF值
(書目1, 特征詞2)" TF-IDF值
(書目1, 特征詞4)" TF-IDF值
……
(書目2, 特征詞2)" TF-IDF值
(書目2, 特征詞8)" TF-IDF值
(書目2, 特征詞10)" TF-IDF值
……
(書目N, 特征詞I)" TF-IDF值
(書目N, 特征詞J)" TF-IDF值
(書目N, 特征詞K)" TF-IDF值
每一個書目包含多個特征詞,這些特征詞分布在特征詞向量索引表的不同位置上,鑒于稀疏矩陣的特點,如果書目不包含某個特征詞,則在稀疏矩陣中的TF-IDF值為0,在該表示法中不予顯示。
2.4 智能分類模型性能評測
圖書—特征詞稀疏矩陣與數(shù)據(jù)預處理后的圖書分類信息結合,形成評估數(shù)據(jù)集和數(shù)據(jù)標簽,按比例對數(shù)據(jù)集和數(shù)據(jù)標簽進行多次隨機數(shù)據(jù)分割,形成訓練集和測試集,利用樸素貝葉斯算法生成訓練分類模型,通過不斷調(diào)整參數(shù)優(yōu)化模型,用測試集對通過優(yōu)化后的訓練分類模型進行性能測試,驗證模型有效性。
本文分別按照《中圖法》圖書分類號的不同級別類目對模型分類性能進行測試。對于一級分類,只要經(jīng)過機器學習后的分類與圖書原館藏分類的大類一致,即認為分類正確,對于多級(N級)分類,如果機器學習后的分類與館藏分類的前N位一致,則判定模型分類準確,如書目“稀土化學”的館藏分類號為“O614.33”,對于一級分類,如果機器學習后的分類屬于O類,則判定模型分類準確;對于二級分類,如果機器學習后的分類屬于O6類,則判定模型分類準確;同理,對于三級分類,如果機器學習后的分類與館藏分類的前3位一致,屬于O61類,則視為分類正確。分類的性能評估指標主要為準確度(accuracy)、精確度(precision)、召回率(recall)、F1(f1-score),各項評估指標的含義如下:
假設分類目標只有兩類:正類(Positive)和負類(Negtive),那么模型分類會產(chǎn)生四種分類結果:
TP:實例為正類,經(jīng)模型分類后判定為正類
FP:實例為負類,經(jīng)模型分類后判定為正類
FN:實例為正類,經(jīng)模型分類后判定為負類
TN:實例為負類,經(jīng)模型分類后判定為負類
3 實證研究
3.1 實驗數(shù)據(jù)與工具
本研究挑選哈爾濱理工大學若干類別的館藏數(shù)據(jù)進行實證研究,圖書分類依據(jù)《中國圖書館分類法》(以下簡稱《中圖法》),挑選的館藏圖書分別為C類、F類、O類、TP類、TU類,由于本校屬于理工類院校,工業(yè)技術T類圖書館藏數(shù)量比較多,其二級分類比較細致、精準,有些二級分類圖書已超過其他一些一級分類的館藏圖書數(shù)量,所以本文中將TP類和TU類與其他一級分類并列做實驗分析,挑選書目數(shù)量依次為C類5 078種、F類40 023種、O類5556種、TP類10 431種、TU類7715種,經(jīng)過去重去掉無效數(shù)據(jù)后,書目數(shù)量依次為C類5055種、F類39 966種、O類5539種、TP類10 404種、TU類7694種,共68 658種。
訓練樣本越多,機器獲得數(shù)據(jù)反饋的學習機會就越多,為保證機器學習效果,必須保證有充足的訓練集,圖書分類劃分越細致,分類號所對應的書目數(shù)量越少,機器學習效果越差,模型分類能力就會越弱。在所有處理好的書目數(shù)據(jù)中,類目級別從一級至七級。筆者對本館館藏數(shù)量較多的F類大類下的各級類目所包含的平均書目數(shù)量進行了統(tǒng)計,2級類目平均包含書目數(shù)量為4437種,3級類目平均包含書目數(shù)量為606種,4級類目平均包含書目數(shù)量為110種。平均數(shù)對于對稱分布和無離群值的數(shù)據(jù)集是一個有效的指標,而圖書分類可能存在非對稱分布和有離群值的情況,所以本文又對各級類目所包含的書目數(shù)量進行了中位數(shù)統(tǒng)計, 2級類目書目數(shù)量中位數(shù)為4106種,3級類目書目數(shù)量中位數(shù)為735種,4級類目書目數(shù)量中位數(shù)為72種,平均書目數(shù)量和中位數(shù)書目數(shù)量統(tǒng)計結果相似。無論是按照平均數(shù)計算還是按照中位數(shù)計算,3級及以下類目書目數(shù)量比較多,隨著類目級別的深入,書目數(shù)量均呈下降趨勢,對于其他館藏數(shù)量相對較少的大類書目,相應分級所包含的類目可能更少。因此,為保證機器學習具備充足的訓練樣本,獲得較為理想的學習效果,圖書分類到3級比較適合,將中圖法中所有3級以上的小類目進行合并,劃入本大類第3級。
研究工具采用Python語言的Sklearn庫,Sklearn(全稱Scikit-Learn)是基于Python語言的
機器學習工具,它建立在 NumPy、SciPy、Pandas和Matplotlib之上,實驗數(shù)據(jù)以csv文件格式存儲,分詞數(shù)據(jù)以txt格式存儲。本文用到的中文分詞技術采用jieba分詞的Python語言版本,分詞模式為精確分詞。TF-IDF稀疏矩陣計算工具主要來源于sklearn的TfidfTransformer工具,樸素貝葉斯分類和預測工具主要來源于sklearn的naive_bayes工具,還包括一些相關函數(shù)和基礎工具,如csv、json、coo_matrix等。
3.2 基于全量特征詞的中文圖書智能分類實驗
利用切詞工具和停用詞表對預處理后的68658種館藏書目中的題名和內(nèi)容提要進行特征詞提取,提取到的詞與書目中的主題詞共同作為書目的特征詞,特征詞共93733個,將特征詞信息轉(zhuǎn)換為二維矩陣,矩陣表示如下。
行號為“0”表示第1本書的信息,第1本書擁有13個特征詞,行號為“27505” 表示第27506本書的信息,第27506本書擁有11個特征詞,每一行最后列出了該書某個特征詞的TF-IDF值,上述矩陣結果解釋,如表1所示。
對所有書目根據(jù)全量特征詞進行一級分類計算,以總書目數(shù)量的80 %書目作為訓練集,計算結果,如表2所示:
上表可以看出, C類的召回率很低,僅為10%。樸素貝葉斯算法對于分類任務依賴于特征的選擇和質(zhì)量,如果選擇的特征區(qū)分性不高,可能導致召回率較低。本實驗說明C類圖書特征詞的分類不明顯,我館采購的C類圖書主要為統(tǒng)計學和管理學方面的圖書,特征詞與O類數(shù)學方面的圖書和F類經(jīng)濟管理方面的圖書特征詞區(qū)分不明顯。
3.3 基于加權特征詞的中文圖書智能分類實驗分析
特征的權重在機器學習模型中決定了其在分類中的貢獻程度,通過調(diào)整權重可以影響分類結果,但權重的影響需要綜合考慮其他因素,并在合適的范圍內(nèi)進行調(diào)整,以提高分類的準確性和泛化能力。為提高圖書分類效果,對不同來源的特征詞進行加權處理,為盡量獲得最佳智能分類效果,本文對不同來源的特征詞的權重進行多次取值測試,探究不同權重下的分類效果。筆者對內(nèi)容提要、主題詞和題名的權重分配分別為1:1:1、1:2:2、1:3:3、1:3:4、1:4:3和1:4:4進行實驗,實驗結果如表3所示。
可以看出,不同特征詞來源的權重對分類效果是有影響的,對不同來源的特征詞進行加權處理對獲得良好的智能分類效果是必須的,當內(nèi)容提要、主題詞和題名的權重比例設置為1:4:3時智能分類的效果最好,說明主題詞對智能分類的貢獻最大,題名次之,內(nèi)容提要的貢獻度最小,在后續(xù)對其他圖書進行智能分類時可以按照此比例進行權重設置。
3.4 基于精選特征詞的中文圖書智能分類實驗分析
特征詞數(shù)量過多或過少都會對機器學習的結果造成影響,當特征詞抽取個數(shù)過少時,機器學習的知識不全面,模型的表達能力會受到限制,難以充分捕捉數(shù)據(jù)的特征和關聯(lián)性,導致模型的準確性下降,分類能力不高。然而,當特征詞抽取個數(shù)過多時,低頻特征詞會產(chǎn)生一定的干擾,這些特征詞可能會變得不太具有區(qū)分性,也會影響到最終的圖書分類準確性,甚至出現(xiàn)噪聲詞匯,導致模型的準確性急劇下降。另外,使用全量特征詞會產(chǎn)生眾多列的稀疏矩陣,嚴重影響計算性能,從而使分類準確性下降。為探究特征詞數(shù)量在哪個區(qū)間范圍內(nèi),機器學習效果較好,筆者對未加權的特征詞按照TF值從大到小的順序進行排序,挑選出高頻特征詞并根據(jù)經(jīng)驗人工挑選一些具有顯著特征的特征詞,兩類特征詞結合在一起,選擇不同數(shù)量進行機器學習。筆者分別對一級、二級和三級分類進行實驗分析,一級分類包含C、F、O、TP和TU所有大類68 658種書目,二級分類和三級分類選取TP類下的下級分類進行實驗分析,TP類下的二級分類包含10 401種書目,TP類下的三級分類包含9758種書目,因為哈爾濱理工大學是理工科院校,TP類圖書書目數(shù)量較多,以該類進行實驗分析可以保證有充足的訓練數(shù)據(jù)且實驗更具實踐意義。筆者分別取不同數(shù)量的特征詞進行實驗,均以各級書目總數(shù)量的 80%書目作為訓練集,實驗結果如表4所示。
由表4可以看出,對于一級分類,當特征詞抽取個數(shù)為3000~10000時,可以得到較為理想的圖書分類結果,尤其是抽取個數(shù)為5000左右時,分類效果最好;對于二級分類,特征詞抽取個數(shù)為2000左右時,圖書分類效果最好;對于三級分類,特征詞抽取個數(shù)為1000左右時,圖書分類效果最好。不同級別的類目所包含的圖書數(shù)量不一致,所以特征詞的總量也有很大的區(qū)別,只要圖書樣本數(shù)據(jù)足夠多,按照分級選取相應數(shù)量的特征詞,就可以得到較為理想的圖書分類效果。
3.5 基于加權精選特征詞的中文圖書智能分類實驗分析
基于上面的分析,筆者構建基于加權精選特征詞的圖書智能分類模型。筆者仍以C、F、O、TP和TU所有大類和TP類下的二級和三級分類進行實驗分析,特征詞來源內(nèi)容提要、主題詞和題名的權重比例設置為1:4:3,特征詞按TF值從大到小取前高頻詞并結合人工選詞,一級分類特征詞選取5000個,二級分類特征詞選取2000 個,三級分類特征詞選取1000個。為驗證基于加權精選特征詞的圖書智能分類模型的有效性,筆者對各級書目以不同比例隨機分割訓練集和測試集,對模型分類性能進行測試。因訓練集數(shù)量不能太少,所以筆者分別以0.8:0.2、0.7:0.3 、0.6:0.4的比例進行測試,測試結果如表5所示。
表5 各級類目基于加權精選特征詞的圖書智能分類結果
圖書分類 書目數(shù) F1值(訓練集:測試集)
0.8:0.2 0.7:0.3 0.6:0.4
一級類目C/F/O/TP/TU 68 658 0.94 0.92 0.91
二級類目TP1/TP2/TP3 10 401 0.93 0.91 0.91
三級類目TP30/TP31/TP33/TP36/TP39 9758 0.86 0.82 0.79
從上面的實驗結果可以看出:(1)各級書目均是在訓練集和測試集 0.8:0.2比例下的分類準確度最高,說明訓練數(shù)據(jù)數(shù)量的增加會提高分類模型智能分類的準確度。(2)只要訓練集數(shù)據(jù)充足,就能保證圖書智能分類的準確性,即使是三級分類,訓練集數(shù)據(jù)數(shù)量達到7800種以上,也能達到86%的分類性能;(3)隨著分類級別的加深,分類正確率是逐漸下降的,可能是由于分類的訓練樣本數(shù)逐層下降所導致,TP類圖書在哈理工圖書館的館藏量是非常豐富的,多級分類的樣本集也相應充足一些,但其他較少館藏量的圖書,如果分類過細,勢必會因為樣本集數(shù)量過少導致分類準確性下降,因此在實際應用中,類目級別不宜設置過大,三級分類比較合理;(4)基于加權精選特征詞的圖書分類正確率高于前面只加權、只精選特征詞的圖書分類準確率,基于特征加權的圖書淺層次分類達到了86%的分類性能, 說明該模型具有一定的實用價值,也體現(xiàn)出特征選擇和特征加權在機器學習中的重要性。通過特征選擇,能夠篩選出最具有區(qū)分性和相關性的特征詞,減少了噪聲和冗余信息,通過特征加權則進一步突出了每個特征詞在分類任務中的重要性,確保了關鍵特征詞的影響力。
4 結語
針對圖書分類準確率不高、圖書審校效率低的采編部工作現(xiàn)狀,本文利用樸素貝葉斯算法構建了基于加權精選特征詞的中文圖書智能分類模型,通過對若干類別的館藏書目進行實驗,取得了較高的準確率,驗證了該模型具有良好的實用性,這一方法通過充分考慮特征詞的貢獻率,提高了分類模型的性能。今后可以進行更廣泛圖書分類的測試和比較,確保該模型的魯棒性和可擴展性,評估其在所有圖書分類中的適用性,進一步提高采編部工作的智能化和高效化。
參考文獻:
郭麗杰.人工智能在高校智慧圖書館創(chuàng)新應用研究[J].河南圖書館學刊,2022,42(8):81-83,104.
南京大學圖書館.南京大學智慧圖書館二期 ——智能機器人正式發(fā)布[EB/OL].(2017-05-18)
[2023-07-01].http://lib.nju.edu.cn/info/1065/2430.htm.
王惠君,吳昊,潘詠怡,等.圖書采分編智能作
業(yè)系統(tǒng)的研究與應用[J].圖書館論壇, 2021, 41
(1): 58-63.
吳英澤.圖書分類專家系統(tǒng)及其知識獲取方法[J].微處理機, 1987(4): 38-45.
鄧要武.圖書自動分類專家系統(tǒng)技術實現(xiàn)初探[J].大學圖書館學報,1997, 15(2): 52-53.
田軍.圖書自動分類的數(shù)學建模及實現(xiàn)[J].圖書情報工作, 2001(9): 44-47.
顧燕萍,侯漢清,王曉紅.中文圖書自動標引與分類加權設計研究[J].中國圖書館學報,2006
(6): 69-72.
王昊,嚴明,蘇新寧.基于機器學習的中文書目
自動分類研究[J].中國圖書館學報, 2010, 36(6):
28-39.
楊敏,谷俊.基于SVM的中文書目自動分類及
應用研究[J].圖書情報工作,2012,56(9):114-119.
潘輝.基于極限學習機的自動化圖書信息分類技術[J].現(xiàn)代電子技術, 2019, 42(17):183-186.
Lin L,Guo X X.A Deep Learning-based Recognition Model for Chinese Book Subject Words[C]//Proceedings of 2022 6th International Conference on Electronic Information Technology and Computer Engineering.New York:ACM,2022:1731-1736.
Husiyin M,Akhat A,Habibulla I,et al.Research on the Classification Algorithm of Chinese Language and
Literature System Based on Artificial Intelligence Technology[C]//ICSED 2022-2022 4th International Conference on Software Engineering and Development.
New York:ACM,2022:10-15.
Lin X.Application of an Improved TF-IDF Method in Literary Text Classification[EB/OL].(2022-05-09)[2023-07-01].https://onlinelibrary.wiley.com/doi/epdf/10.1155/2022/9285324.
李思奇,呂王勇,陳雯,等.基于屬性約簡的加
權樸素貝葉斯分類算法[J].四川師范大學學報:自然科學版,2023,46(4):532-539.
夏 丹 哈爾濱理工大學圖書館副研究館員。 黑龍江哈爾濱,150081。
(收稿日期:2023-12-19 編校:陸 康,劉 明)