耿強(qiáng)
摘? 要: 傳統(tǒng)的圖書館檔案信息分類系統(tǒng)存在不平衡數(shù)據(jù)分類精度低的問題,為此,設(shè)計(jì)基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)。在硬件設(shè)計(jì)上,使用單塊電路芯片構(gòu)成的單片機(jī)與傳輸芯片相連,設(shè)計(jì)相應(yīng)的數(shù)據(jù)傳輸電路,實(shí)現(xiàn)數(shù)據(jù)的發(fā)送與接收;在軟件設(shè)計(jì)上,引用關(guān)聯(lián)法規(guī)則,根據(jù)支持率和信任度確定分類關(guān)聯(lián)規(guī)則。以此為依據(jù),比較數(shù)據(jù)類的判別函數(shù)值完成檔案信息分類,利用程序代碼將結(jié)果顯示在系統(tǒng)界面上。測試結(jié)果表明,在使用相同的不平衡數(shù)據(jù)集的情況下,與傳統(tǒng)的分類系統(tǒng)相比,設(shè)計(jì)的基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)分類精度更高,說明該系統(tǒng)適合應(yīng)用在圖書館檔案信息分類中。
關(guān)鍵詞: 圖書館; 檔案信息分類; 系統(tǒng)設(shè)計(jì); 關(guān)聯(lián)法規(guī)則; 數(shù)據(jù)傳輸; 系統(tǒng)測試
中圖分類號(hào): TN911?34; TP391? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)18?0143?03
Abstract: As the traditional library archival information classification system has unbalanced data and low classification accuracy, a library archival information classification system based on association rule is designed. In the hardware design, a single?chip microcomputer composed of a single circuit chip is connected to the transmission chip, and the corresponding data transmission circuit is designed to realize the sending and receiving of data. In the software design, the association rules are cited, and the classification rule is determined according to the support rate and credibility. On this basis, the discrimination function values of the data class are compared to complete the classification of the archival information, and the program code is used to display the results on the system interface. The testing results show that, in the case of using the same imbalanced data set, in comparison with the traditional classification system, the designed library archival information classification system based on association rule has higher classification accuracy, which indicates that the system is suitable for the classification of library archives information.
Keywords: library; archival information classification; system design; association rule; data transmission; system testing
0? 引? 言
圖書館內(nèi)大規(guī)模檔案信息的不斷涌現(xiàn),需要利用相應(yīng)的技術(shù)管理這些信息,將其按照一定的規(guī)則分類,方便快速、全面地查找用戶所需的檔案信息[1?3]。傳統(tǒng)的圖書館檔案信息分類系統(tǒng)是基于決策樹法實(shí)現(xiàn)檔案信息分類,該系統(tǒng)由于數(shù)據(jù)規(guī)模、數(shù)據(jù)類分布和數(shù)據(jù)屬性缺失的影響,出現(xiàn)大量不平衡數(shù)據(jù),對系統(tǒng)的分類精度影響較大[4]。因此引用關(guān)聯(lián)法規(guī)則,設(shè)計(jì)基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)。不平衡數(shù)據(jù)是指具有不均衡分布的數(shù)據(jù),其中具有少量樣本的類稱為少數(shù)類,具有樣本量比較多的類為多數(shù)類[5]。對于該類數(shù)據(jù)的分類,使用關(guān)聯(lián)法規(guī)則生成檔案信息分類關(guān)聯(lián)規(guī)則,完成檔案信息分類。利用關(guān)聯(lián)法規(guī)則的解釋說明強(qiáng)的特點(diǎn),提高系統(tǒng)對于不平衡數(shù)據(jù)的分類精度,解決傳統(tǒng)分類系統(tǒng)中存在的問題。
1? 基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)設(shè)計(jì)
根據(jù)圖書館檔案信息分類實(shí)際需求,設(shè)計(jì)基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)各個(gè)模塊,具體內(nèi)容如圖1所示。用戶主要通過系統(tǒng)界面實(shí)現(xiàn)與系統(tǒng)的交互,將單片機(jī)與傳輸芯片相連,實(shí)現(xiàn)數(shù)據(jù)的傳輸,以此實(shí)現(xiàn)檔案信息的錄入。檔案信息經(jīng)過錄入傳輸至分類模塊,在分類模塊中封裝了檔案信息分類算法,利用關(guān)聯(lián)法規(guī)則獲得檔案信息分類關(guān)聯(lián)規(guī)則庫,實(shí)現(xiàn)檔案信息分類,并通過顯示模塊展示在用戶面前。
1.1? 圖書館檔案信息分類系統(tǒng)硬件設(shè)計(jì)
選擇由單塊電路芯片構(gòu)成的單片機(jī),通過單片機(jī)與傳輸芯片接口連接,以此實(shí)現(xiàn)信號(hào)的發(fā)送與接收[6]。其指令接收模塊與發(fā)送模塊如圖2所示。
x
圖中,TXD引腳與DOUT和DIN引腳相連,實(shí)現(xiàn)數(shù)據(jù)的發(fā)送與接收;由P0.0控制PLAYE端,實(shí)現(xiàn)高電平與低電平之間的轉(zhuǎn)換,觸發(fā)數(shù)據(jù)發(fā)送或接收狀態(tài);P2.2控制TXEN端,當(dāng)輸出為“1”時(shí),進(jìn)入數(shù)據(jù)發(fā)送狀態(tài);當(dāng)輸出位“0”時(shí),進(jìn)入數(shù)據(jù)接收狀態(tài)[7]。
1.2? 圖書館檔案信息分類系統(tǒng)軟件設(shè)計(jì)
假設(shè)[Q=q1,q2,…,qn]表示圖書館檔案數(shù)據(jù)庫,[qn]表示在數(shù)據(jù)庫[Q]中的第[n]個(gè)記錄,[w=w1,w2,…,wn]表示數(shù)據(jù)屬性集,設(shè)置屬性集[w]內(nèi)均為類別型屬性,有[e]個(gè)類標(biāo)簽,表示記錄的檔案信息中所有的類[8?10]。將數(shù)據(jù)屬性劃分為若干個(gè)三角集合,用[fr]表示。將記錄在類別型屬性[wn]上的取值放在一起,作為樣本點(diǎn)的集合[R],假設(shè)[R]中共有[n]個(gè)樣本點(diǎn)。將所有的樣本點(diǎn)根據(jù)最大隸屬原則歸類,從類中找出位于類中心兩側(cè)的隸屬度最小的樣本點(diǎn),設(shè)左側(cè)隸屬度最小的樣本點(diǎn)為[r′],隸屬度為[fr′],右側(cè)隸屬度最小的樣本點(diǎn)為[rε],隸屬度[11]為[frε],則[fr]表示:
式中,[p]表示類的中心點(diǎn)。類別型數(shù)據(jù)分別被劃分為不同的三角集合,當(dāng)記錄所屬類的標(biāo)簽與屬性對應(yīng)的類標(biāo)簽一致時(shí),記值為1,反之為0。將集合中所有得到的類標(biāo)簽屬性的集合整合為新的數(shù)據(jù)庫,在此數(shù)據(jù)庫基礎(chǔ)上確定檔案信息關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則的支持率和信任度為:
式中:[Sup]表示關(guān)聯(lián)規(guī)則的支持率;[Conf]表示關(guān)聯(lián)規(guī)則的信任度;[L]表示所有類標(biāo)簽屬性的集合。根據(jù)以上關(guān)聯(lián)規(guī)則的支持率和信任度,得到檔案信息分類關(guān)聯(lián)規(guī)則,形成的規(guī)則形式為:If? w1 is [D1] and … and wn is [Dn],then L is [g1]。其中,[D]表示由類別型屬性所取的規(guī)則組成的分類系統(tǒng)的分類規(guī)則庫。在進(jìn)行檔案信息分類時(shí),對于一個(gè)待分類的樣本,取其屬性上的值,計(jì)算樣本對各個(gè)類的判別函數(shù)值,比較各類的判別函數(shù)值,將最大的值對應(yīng)的類標(biāo)簽作為樣本的分類結(jié)果。
將結(jié)果保存至數(shù)據(jù)庫中,用戶成功登錄系統(tǒng)后,通過相應(yīng)的程序代碼將檔案信息分類結(jié)果展示在系統(tǒng)界面中。通過rs_reader.open sql.conn.adopenkeyset打開數(shù)據(jù)庫,利用SQL語言中的select*from data查詢語句將分類結(jié)果展示在界面上。
至此,基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)設(shè)計(jì)完成。
2? 圖書館檔案信息分類系統(tǒng)性能仿真測試
2.1? 數(shù)據(jù)集選取
從UCI數(shù)據(jù)庫中選擇12個(gè)不平衡數(shù)據(jù)集,數(shù)據(jù)集種類為圖書館所有藝術(shù)類圖書分類數(shù)據(jù),其中包括數(shù)據(jù)屬性值域、數(shù)據(jù)樣本數(shù)以及類分布??紤]不同的類分布可能會(huì)對測試結(jié)果產(chǎn)生影響,為了更加全面地進(jìn)行研究,得到可靠的結(jié)論,選擇在不同平衡度的數(shù)據(jù)集上進(jìn)行測試。根據(jù)均勻變化的不平衡度對原始數(shù)據(jù)進(jìn)行采樣,并設(shè)置不同的數(shù)據(jù)不平衡度,以5%,10%,15%,20%,25%,30%,35%,40%,45%,50%的比例對數(shù)據(jù)進(jìn)行采樣。
2.2? 數(shù)據(jù)屬性值抽樣
通過數(shù)據(jù)屬性值抽樣抽取不平衡數(shù)據(jù)集中的少樣類樣本和多類樣本,用于后續(xù)分類精度測試。確定數(shù)據(jù)集中數(shù)據(jù)類的屬性值,判斷數(shù)據(jù)與其對應(yīng)的類的相關(guān)性強(qiáng)弱,根據(jù)數(shù)據(jù)類的屬性值,增加少數(shù)類數(shù)據(jù)中與類相關(guān)性強(qiáng)的數(shù)據(jù)樣本,減少多數(shù)類中與類相關(guān)性弱的樣本。數(shù)據(jù)屬性值抽樣后的數(shù)據(jù)類分布為如圖3所示。
從圖中明顯看出,經(jīng)過抽樣后的數(shù)據(jù)類樣本中有效信息被增強(qiáng),將經(jīng)過屬性值抽樣后的數(shù)據(jù)用于后續(xù)測試中,保證測試結(jié)果的全面和可靠。
2.3? 系統(tǒng)分類精度測試結(jié)果及分析
使用設(shè)計(jì)的基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)的同時(shí),引用傳統(tǒng)的基于決策樹法的圖書館檔案信息分類系統(tǒng),對相同的不平衡數(shù)據(jù)集進(jìn)行分類,測試不同分類系統(tǒng)的分類精度。將使用的基于關(guān)聯(lián)法規(guī)則的分類系統(tǒng)定義為系統(tǒng)1,傳統(tǒng)的基于模糊集法的分類系統(tǒng)定義為系統(tǒng)2,利用第三方軟件統(tǒng)計(jì)測試結(jié)果。測試結(jié)果如表2所示。
表中,Iris表示隨機(jī)選取的不平衡數(shù)據(jù)集。觀察表中數(shù)據(jù),在Iris不平衡數(shù)據(jù)集中,對于不同平衡程度的數(shù)據(jù),系統(tǒng)1的分類精度基本在90%以上,只有極個(gè)別測試的分類精度在90%以下;在相同環(huán)境下,系統(tǒng)2測試的分類精度在30%~70%之間,分類精度較低且穩(wěn)定相較差。兩者相比,系統(tǒng)1的分類精度明顯高于系統(tǒng)2的分類精度,說明設(shè)計(jì)的基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)優(yōu)于傳統(tǒng)的分類系統(tǒng)。
3? 結(jié)? 語
近年來,圖書館從傳統(tǒng)的紙質(zhì)管理轉(zhuǎn)換為數(shù)字智能管理模式,館內(nèi)的檔案信息與日俱增,用戶從海量的信息中搜索到自己需要的信息越來越困難。因此,相關(guān)專業(yè)人員設(shè)計(jì)了圖書館檔案信息分類系統(tǒng),提高搜索效率。但是對于不平衡數(shù)據(jù)的分類,傳統(tǒng)的分類系統(tǒng)分類精度較低。通過引用關(guān)聯(lián)法規(guī)則,生成檔案信息分類關(guān)聯(lián)規(guī)則庫,以此為依據(jù)實(shí)現(xiàn)檔案信息分類,有效地解決了傳統(tǒng)分類系統(tǒng)中存在的問題。
參考文獻(xiàn)
[1] 林澤斐,孟雪梅.基于關(guān)聯(lián)數(shù)據(jù)的地方文獻(xiàn)地名規(guī)范控制[J].圖書館雜志,2017,36(10):55?62.
[2] 黃容,何楊煜琪,王忠義,等.數(shù)字圖書館數(shù)值知識(shí)元檢索系統(tǒng)設(shè)計(jì)[J].圖書情報(bào)工作,2018,62(14):125?132.
[3] 吳飛翔,趙桂清.海量圖書信息采集中的掃描器抗連續(xù)擺動(dòng)干擾設(shè)計(jì)[J].科技通報(bào),2018,34(5):154?157.
[4] 張棟,李壽山,王晶晶.基于問題與答案聯(lián)合表示學(xué)習(xí)的半監(jiān)督問題分類方法[J].中文信息學(xué)報(bào),2017,31(1):1?7.
[5] 甘俊英,戚玲,項(xiàng)俐,等.輕量化多特征融合的指紋分類算法研究[J].信號(hào)處理,2019,35(5):888?896.
[6] 余鷹,王樂為,吳新念,等.基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的多標(biāo)記分類算法[J].智能系統(tǒng)學(xué)報(bào),2019,14(3):566?574.
[7] 李占芳,李慧云,劉新為.分類稀疏低秩表示的子空間聚類方法[J].系統(tǒng)科學(xué)與數(shù)學(xué),2018,38(8):852?865.
[8] 王偉偉,魏婷,楊曉燕,等.基于信息關(guān)聯(lián)分析的設(shè)計(jì)線索構(gòu)思方法[J].機(jī)械設(shè)計(jì),2017,34(11):117?122.
[9] 李振霞,羅萬和,李超,等.獸用藥物生物藥劑學(xué)分類系統(tǒng)(BCS)的研究進(jìn)展[J].中國獸藥雜志,2018,52(6):72?79.
[10] 楊澤宇,王培良,葉曉豐.基于SSAE的非線性系統(tǒng)故障分類方法[J].控制工程,2018,25(11):2003?2009.
[11] 崔超,呂丹,姜淑鳳.貝頁斯垃圾郵件分類系統(tǒng)成本參數(shù)調(diào)整對系統(tǒng)精度的影響[J].北京理工大學(xué)學(xué)報(bào),2019,39(2):142?146.