李化明,王家云,馬利華
(淮北師范大學(xué),235000)
高校圖書館自動化建設(shè)經(jīng)過多年的發(fā)展,已經(jīng)積累了大量的歷史數(shù)據(jù),這些數(shù)據(jù)不但完整,而且質(zhì)量高,充分反映了讀者學(xué)習(xí)成長的過程。如何對其進(jìn)行挖掘提煉并從中發(fā)現(xiàn)有價值的知識,是我們了解讀者需求,開展個性化服務(wù)的重要信息來源。前人研究主要是根據(jù)某類讀者以往的借閱歷史數(shù)據(jù),利用關(guān)聯(lián)規(guī)則算法、聚類算法和遺傳算法等來挖掘,因?yàn)檫@些讀者在不斷地進(jìn)行知識更新和深化學(xué)習(xí),這樣挖掘的結(jié)果往往不能反映讀者不斷變化著的信息需要。本文通過對專業(yè)讀者群進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)其學(xué)科建設(shè)的知識體系結(jié)構(gòu),建立相應(yīng)的知識庫,然后根據(jù)讀者當(dāng)前所在年級、專業(yè)來進(jìn)行個性化推送服務(wù),把他們真正需要的知識送給他們。
(1)個性化服務(wù):根據(jù)信息用戶的知識結(jié)構(gòu),信息需求,信息使用行為、習(xí)慣和偏好,有的放矢地向用戶提供符合其個性化需求的一種信息服務(wù)。用戶對信息的個性化需求是服務(wù)的起點(diǎn),先進(jìn)的技術(shù)是個性化服務(wù)的重要手段,針對性、主動性是個性化服務(wù)的兩個主要特點(diǎn)[1]。
粗糙集理論認(rèn)為“知識就是一種對對象進(jìn)行分類的能力”,它將分類理解為在特定空間上的等價關(guān)系,而等價關(guān)系構(gòu)成了對該空間的劃分[2]。
(2)論域、知識:設(shè)U是我們感興趣的對象組成的非空有限集合,稱為一個論域。論域U上的任一子集X?U,稱為論域U的一個概念或范疇。論域U中的任何子集簇(概念簇)稱為關(guān)于U的抽象知識,簡稱知識[3]。在二維表中,知識就是由某些列對所有行的劃分構(gòu)成的集合所表示。
(3)知識庫:給定一個論域U和U上的一簇等價關(guān)系S,稱二元組K=(U,S),是關(guān)于論域U 的一個知識庫或近似空間。因此,論域上的等價關(guān)系就代表著劃分和知識。這樣,知識庫就表示了論域上的由等價關(guān)系導(dǎo)出的各種各樣的知識,即劃分或分類模式,同時代表了對論域的分類能力,并隱含著知識庫中概念之間存在的各種關(guān)系[4]。
(4)不可分辨關(guān)系:給定一個論域U和U上的一簇等價關(guān)系S,若P?S,且P≠?,則∩P(P中所有等價關(guān)系的交集)仍然是論域U上的一個等價關(guān)系,稱為 P上的一個不可分辨關(guān)系,記作IND(P)。IND(P)的等價類稱為知識 P的基本范疇[5]。
(5)集合的下近似和上近似:給定知識庫K=(U,S),其中,U為論域,S表示論域U上的等價關(guān)系簇,則?X?U和論域U上的一個等價關(guān)系R∈IND(K),我們定義子集X關(guān)于知識R的下近似和上近似分別為:
其中[X]R是根據(jù)知識R對論域U的劃分形成的子集;下近似R(X)=pos(X)稱為X的R正域,是那些根據(jù)知識R判斷肯定屬于X的論域U中的元素組成的集合;上近似R(X)是那些根據(jù)知識R判斷肯定屬于或可能屬于X的論域U中元素組成的集合;bn(X)=R(X)-(X)稱為X 的邊界域[6]。
(6)知識的依賴度:給定一個知識庫K=(U,S),?P,Q∈ IND(K),定義
本文以淮北師范大學(xué)教育技術(shù)學(xué)專業(yè)學(xué)生作為研究對象,經(jīng)統(tǒng)計,該專業(yè)自2008年以來每年招生一個班,系統(tǒng)有2008年以來的所有借閱歷史記錄,符合研究要求。為了簡化樣本數(shù)據(jù),筆者選取2013學(xué)年度(2013-2-25日到2014-1-19日)教育技術(shù)學(xué)專業(yè)2010級到2013級學(xué)生借閱歷史數(shù)據(jù)作為研究樣板,經(jīng)過統(tǒng)計后具體情況見下表1。
表1 2013年學(xué)年度教育技術(shù)學(xué)專業(yè)2010級到2013級學(xué)生借閱情況統(tǒng)計表
在進(jìn)行數(shù)據(jù)挖掘之前,需要對數(shù)據(jù)進(jìn)行去噪、補(bǔ)缺和轉(zhuǎn)換等預(yù)處理操作,以便進(jìn)行數(shù)據(jù)挖掘。數(shù)據(jù)預(yù)處理步驟如下:(1)根據(jù)年級、專業(yè)代碼和時間段獲取讀者借閱歷史記錄,并通過匯總可以獲得借閱圖書的人數(shù)、沒借閱的人數(shù)和總的借閱冊數(shù)。(2)去除借閱書目的種次號,得到其借閱類目,匯總后得到借閱類目數(shù);由于中圖法是通過標(biāo)記符號來代表各級類目和固定其先后次序的分類體系,標(biāo)記符號不同,其表示的知識類目也不同,故不能把相近類目合并為一類。(3)按類目進(jìn)行匯總,求得各類目的借閱冊數(shù)和所有類目的平均借閱冊數(shù),并刪除低于平均借閱冊數(shù)的類目,因?yàn)樗憩F(xiàn)的只是某個學(xué)生的個人愛好,相當(dāng)于噪音數(shù)據(jù)。(4)求出借過大于平均借閱冊數(shù)類目圖書的所有讀者,這些讀者即是進(jìn)行知識約簡的對象。(5)生成上述讀者對象和其借閱類目的二維表,并對表中數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理,即此讀者借過該類目書籍則為1,否則為0;類目列按類目總借閱冊數(shù)降序添加到表中。
經(jīng)過上面的數(shù)據(jù)預(yù)處理后,我們得到了知識庫的關(guān)系簇S和論域U:即不小于平均借閱冊數(shù)的類目和借閱這些類目的讀者。然而,即使經(jīng)過上述預(yù)處理后,其約簡的類目數(shù)量還是不少;如果直接用知識依賴度來約簡,需要計算的次數(shù)為M*logM*2n(M是讀者數(shù),n是類目數(shù)),這是指數(shù)級時間復(fù)雜度,需要消耗大量的計算時間。為了得到多項(xiàng)式時間算法,我們采用以類目借閱的冊數(shù)多少作為屬性重要度的啟發(fā)式策略,應(yīng)用知識依賴度算法來約簡二維表,具體的算法見圖1。
圖1 知識依賴度約簡算法
此算法不能保證所有結(jié)果是最優(yōu)的,但近似最優(yōu)值。經(jīng)過對教育技術(shù)學(xué)專業(yè)2013學(xué)年度的知識約簡后的結(jié)果見表1“類目選擇”列,這里按屬性重要度(借閱冊次多少)列出了前面5-6個約簡后得到的類目(知識集合)。然后對各年級約簡的類目進(jìn)行掃描一遍,根據(jù)類目的位置和重復(fù)度多少,就可以得到本專業(yè)的核心知識,從上表處理結(jié)果得出:TP391.41,I247.5為專業(yè)核心知識集。約簡后主要一些類目借閱冊數(shù)見表2。
表2 約簡后主要類目借閱冊數(shù)統(tǒng)計表
在表2中,如果各約簡后的主要類目借閱冊數(shù)相差懸殊不大,則說明他們不了解專業(yè)知識結(jié)構(gòu),而是根據(jù)自己的興趣愛好來進(jìn)行借閱;相反則表明他們了解專業(yè)知識結(jié)構(gòu),借閱的針對性和目的性非常強(qiáng)。例如,表2中大一學(xué)生(2013年級)借閱TP391.41為14冊,G40-057為6冊,對應(yīng)的表1中的幾個主要借閱類目之間的最大比例是14/6≈2.3倍,這說明了他們除了學(xué)習(xí)專業(yè)技術(shù)知識外,還閱讀“I247.57社會、言情小說”、“I561英國文學(xué)”等書籍,閱讀內(nèi)容涉及面較寬,不了解專業(yè)知識體系結(jié)構(gòu)。同理,大二學(xué)生(2012年級)借閱TP391.41為69冊,J06為7冊,幾個主要借閱類目之間的最大比例是69/7≈9.9倍,這表明他們初步抓住了專業(yè)知識體系結(jié)構(gòu),閱讀內(nèi)容較集中。而大三、大四的學(xué)生幾個主要借閱類目之間的最大比例都≥12倍,表明他們主攻專業(yè)技術(shù)知識,如:“TP391.41圖像識別及其裝置”、“TP393.092網(wǎng)絡(luò)瀏覽器”,學(xué)習(xí)目標(biāo)非常明確。
另外,我們還可以看到,“I247.5新體長篇、中篇小說”一直是他們熱衷看的書籍,但在教育技術(shù)學(xué)專業(yè)人才培養(yǎng)方案(2013)中則沒有反映出來,其專業(yè)主要課程是:教育技術(shù)學(xué)導(dǎo)論、心理學(xué)、教學(xué)系統(tǒng)設(shè)計、遠(yuǎn)程教育基礎(chǔ)、電視教材設(shè)計與制作、教育媒體理論、教育技術(shù)學(xué)研究方法、中學(xué)信息技術(shù)課程教學(xué)設(shè)計[8]。并且從表2中我們還能看出,一些專業(yè)基礎(chǔ)理論知識,例如:“J06造型藝術(shù)理論”、“G40-057教育技術(shù)學(xué)”,主要是由大一、大二學(xué)生借閱,而且數(shù)量都不大。這表明學(xué)科體系結(jié)構(gòu)中相關(guān)基礎(chǔ)理論課程設(shè)置較合理,基本滿足他們的需要。相反,“TP393.092網(wǎng)絡(luò)瀏覽器”在大三、大四學(xué)生借閱量中卻猛然增加,反映了教育技術(shù)學(xué)專業(yè)學(xué)生更需要這方面的知識和技能,也說明該課程在學(xué)科體系結(jié)構(gòu)中的重要性,以及設(shè)置的不夠合理性。
因此,通過對相關(guān)數(shù)據(jù)分析得出如下一些建議:(1)給大一、大二學(xué)生適當(dāng)介紹本學(xué)科知識體系結(jié)構(gòu),使他們從一開始就明確學(xué)習(xí)目標(biāo)、方向和內(nèi)容組成;對于開通《學(xué)科導(dǎo)論》課的院系,則需要扎實(shí)推進(jìn)本導(dǎo)制,發(fā)揮其引導(dǎo)作用。(2)深入研究小說等文學(xué)藝術(shù)類素養(yǎng)與提高教育技術(shù)學(xué)專業(yè)能力之間的關(guān)系,開發(fā)利用文學(xué)藝術(shù)資源中想象元素,培育學(xué)生教育技術(shù)設(shè)計的靈感,把技術(shù)與藝術(shù)完美結(jié)合起來。(3)在低年級中適當(dāng)開設(shè)有關(guān)“TP393.092網(wǎng)絡(luò)瀏覽器”課程,做好有關(guān)理論基礎(chǔ)知識鋪墊。(4)對于未借過書的個別學(xué)生,則需要針對性地進(jìn)行訪談,找出其不借閱的原因,做好相應(yīng)的閱讀指導(dǎo)工作。
為了驗(yàn)證上面發(fā)現(xiàn)的知識規(guī)律是否正確,我們對2011、2012、2013級教育技術(shù)學(xué)專業(yè)讀者進(jìn)行問卷調(diào)查。問卷內(nèi)容主要是根據(jù)表2約簡后得到的幾個類目,按借閱冊次多少選擇前3個類目,挑選出上一年級讀者在2013年度借閱最多的前幾本書目和后面幾個類目(配有類目解釋和例子),加上讀者自我推薦書目欄目,把這些作為2014年度本年級調(diào)查的內(nèi)容。這樣設(shè)計目的是:(1)驗(yàn)證上面發(fā)現(xiàn)的知識規(guī)律是否正確;(2)驗(yàn)證上一年級讀者在上一年度借閱最多的書目是否也是本年級讀者在本年度借閱最多的,以確定個性化推薦內(nèi)容。對調(diào)查數(shù)據(jù)是這樣進(jìn)行處理的,根據(jù)書名和責(zé)任者,從館藏OPAC書目查詢系統(tǒng)、讀秀學(xué)術(shù)搜索或者豆瓣等互聯(lián)網(wǎng)上進(jìn)行查找,確定其分類號,然后根據(jù)分類號進(jìn)行匯總,倘若前面這類書目已經(jīng)處理過,則此次不再計算人數(shù)。調(diào)查統(tǒng)計結(jié)果見下面表3,按此知識規(guī)則進(jìn)行推薦,其類目命中率(即約簡后的知識類目想借閱數(shù)/總想借閱數(shù))都在87%以上。例如:2103級學(xué)生現(xiàn)在是大二,從表1中看2012級大二學(xué)生借閱的主要類目有:TP391.41,I247.5,H319.4,I565.4,J06,對應(yīng)表 3,2013 年級的想借冊數(shù)為49+26+24+33+34=166冊,而2013年級問卷調(diào)查總數(shù)是166+1+14=181冊,其比例為166/181≈91.7%。我們再把表2和表3內(nèi)容合并起來進(jìn)行比較得出下面表4,從表4中我們也能看出它們順序基本一致。因此,采用這種方法得出的知識與實(shí)際相符,驗(yàn)證了其規(guī)律的正確性。另外,從調(diào)查的具體數(shù)據(jù)來看,上一年級讀者借閱最多的書目并不一定是這年級讀者最想看的書目,例如:在對2012級教育技術(shù)學(xué)專業(yè)學(xué)生問卷調(diào)查中,書目《Flash 8基礎(chǔ)與實(shí)例精講》(騰飛科技編著.人民郵電出版社,2007),在2013年度被2011級教育技術(shù)學(xué)專業(yè)學(xué)生借閱了6次,問卷調(diào)查結(jié)果是34人想借閱;而書目《Flash 8角色與動畫短片設(shè)計技術(shù)精粹》(周國棟編著.人民郵電出版社,2007),則借閱了4次,問卷結(jié)果是41人想借閱。因此,在進(jìn)行個性化書目推薦時,需要從這些約簡后的類目中分別挑選借閱最多的前幾本書目,組合起來作為推薦內(nèi)容,這樣才能基本滿足他們真正的需要。
表3 2011-2013級讀者問卷調(diào)查結(jié)果統(tǒng)計表
表4 類目比較表
總之,通過利用粗糙集理論中的知識依賴度約簡方法挖掘某專業(yè)的核心知識集和各年級核心知識集,能夠幫助我們發(fā)現(xiàn)學(xué)生當(dāng)前需要的知識,使得個性化推薦服務(wù)能夠根據(jù)學(xué)生知識結(jié)構(gòu)變化進(jìn)行預(yù)判,做到有的放矢,大大提高推薦的準(zhǔn)確性和服務(wù)效果。通過與各院系學(xué)科體系結(jié)構(gòu)進(jìn)行比較,還能起到相互促進(jìn)、相互發(fā)展的作用。當(dāng)然,本文還有一些地方有待進(jìn)行更深入的研究:如表4類目順序變化的真正原因是什么,蘊(yùn)含了哪些知識,如何把獲得的知識更好地應(yīng)用在數(shù)字化圖書館個性化服務(wù)上等等。
[1]薛琴榮,李 響.基于數(shù)據(jù)挖掘技術(shù)的圖書館個性化借閱服務(wù)研究[J].情報探索,2013,(4):110-113.
[2]李龍澍,王慧萍,徐 怡.二進(jìn)制可分辨矩陣的最小屬性約簡算法[J].計算機(jī)技術(shù)與發(fā)展,2010,20(6):93-96,100.
[3][4][5][6][7]苗奪謙,李道國著.粗糙集理論、算法與應(yīng)用[M].北京:清華大學(xué)出版社,2008.
[8]淮北師范大學(xué)教育學(xué)院.教育技術(shù)學(xué)專業(yè)培養(yǎng)方案[EB/OL].http://210.45.128.5/edu/pxjd/show.asp?id=25,2013-4-22.