• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于灰狼優(yōu)化聚類算法的讀者行為分析*

      2020-12-11 06:10:08蔣一鋤
      關(guān)鍵詞:灰狼數(shù)據(jù)挖掘聚類

      蔣一鋤

      (湖南環(huán)境生物職業(yè)技術(shù)學(xué)院圖書館,湖南 衡陽 421001)

      隨著物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等技術(shù)的推廣應(yīng)用,以數(shù)據(jù)為核心驅(qū)動的圖書館服務(wù)模式將成為未來發(fā)展趨勢[1].為了能從讀者行為數(shù)據(jù)中及時、準(zhǔn)確地發(fā)現(xiàn)讀者的真實需求,圖書館需要引入特定的信息處理技術(shù),從海量數(shù)據(jù)中找出其中隱藏的有效信息并進行處理,利用大數(shù)據(jù)結(jié)論快速、準(zhǔn)確、便捷地為讀者提供所需信息資源,滿足讀者的個性化需要[2].數(shù)據(jù)挖掘技術(shù)就是實現(xiàn)該任務(wù)的關(guān)鍵技術(shù)之一.

      傳統(tǒng)的讀者行為分析一般采用數(shù)據(jù)挖掘技術(shù)中的聚類算法,對圖書館信息系統(tǒng)中大量數(shù)據(jù)進行聚類,得到隱藏在信息中的內(nèi)在規(guī)律及關(guān)聯(lián),以提升圖書館服務(wù)質(zhì)量和資源有效利用率[3].但對于傳統(tǒng)的聚類算法,其最明顯的缺點是難以尋找到最佳的初始值,而初始值的確定對最終聚類分析的結(jié)果影響較大.針對這個問題,筆者以線下圖書館圖書借閱數(shù)據(jù)為例,采用灰狼優(yōu)化算法(Gray Wolf Optimization Algorithm, GWO)來優(yōu)化模糊C均值(FuzzyC-Mean, FCM)的聚類初始值,然后再對讀者借閱行為數(shù)據(jù)進行聚類分析.實驗證明,此方法行之有效,能顯著提升聚類結(jié)果的準(zhǔn)確度.

      1 相關(guān)研究

      國外學(xué)者對讀者行為分析的研究起步較早.2001年,Michael利用數(shù)據(jù)挖掘技術(shù)對加州大學(xué)數(shù)字圖書館進行分析,發(fā)現(xiàn)了不同類型用戶在圖書館的時間規(guī)律,并采用時間序列和聚類分析法對該規(guī)律進行分析,最終成功地預(yù)測了該圖書館未來的訪客情況[4].2010年,Kovacevic等利用數(shù)據(jù)挖掘技術(shù)對讀者的資料和搜索記錄進行分析,提出了數(shù)字化圖書館的推薦服務(wù)模式,將興趣愛好相同的讀者歸類在一起,為他們提供專門化的服務(wù)[5].

      相對而言,國內(nèi)圖書館領(lǐng)域?qū)?shù)據(jù)挖掘技術(shù)的研究就起步較晚.2015年,李文林等結(jié)合文本挖掘工具和醫(yī)藥類專業(yè)文獻構(gòu)建了數(shù)據(jù)挖掘平臺,從而提高了讀者的文獻檢索準(zhǔn)確度和效率[6].2016年,吳越采用數(shù)據(jù)挖掘技術(shù)對圖書館的借閱數(shù)據(jù)進行聚類,將不同用戶對文獻的利用情況進行了對比,結(jié)合讀者的需求分析,為圖書館管理者提供了決策依據(jù)[7].同年,陳金菊也通過對讀者借閱數(shù)據(jù)的挖掘,構(gòu)建了讀者個性化服務(wù)模型,實現(xiàn)了讀者個性化推薦服務(wù)[8].

      總的來說,國內(nèi)圖書館界對讀者行為分析算法的研究尚處于起步階段,與國外同類研究存在較大差距.

      2 基于灰狼優(yōu)化的聚類算法

      2.1 灰狼優(yōu)化算法

      GWO聚類算法是澳大利亞格里菲斯大學(xué)Mirjalili等于2014年提出來的一種群智能優(yōu)化算法,具有收斂性能較強、參數(shù)少、實現(xiàn)容易等特點[9].GWO是基于對自然界中灰狼的狩獵與社會機制的研究而提出來的.在自然界中,灰狼可分為頭狼(alpha)、決策狼(beta)、執(zhí)行狼(delta)以及最底層的狼(omega).GWO將狼群中的狩獵機制分為尋找、包圍、攻擊3個步驟.狼群中alhpa的主要職責(zé)是負責(zé)制定狩獵流程,決定狩獵對象,決定狼群是休息還是繼續(xù)搜索獵物;beta幫助alpha制定狩獵流程和決策;delta執(zhí)行aplha和beta所做出的決定,以及命令、領(lǐng)導(dǎo)omega;omega處于狼群社會中的最底層,只能服從于alpha,beta以及delta.灰狼的社會等級分層如圖1所示.

      圖1 灰狼的社會等級分層Fig.1 Gray Wolf Grading Distributions and Functions

      在灰狼優(yōu)化算法中,一般取最終的alpha作為優(yōu)化算法的最優(yōu)解,beta和delta作為次優(yōu)解.在灰狼優(yōu)化算法的迭代過程中,通過omega不斷地搜索、包圍、攻擊獵物,來更新alpha,beta以及delta的位置,最終得到的aplha位置,即是優(yōu)化算法所得到的最優(yōu)解.具體迭代公式為

      式中:Pt+1表示的是狼群在t+1次迭代時候的位置;Dα,Dβ,Dδ分別表示在第t次迭代過程中alpha,beta,delta與omega之間的距離.

      在迭代過程中,alpha,beta,delta指揮最底層的omega進行狩獵來鎖定獵物的位置,然后再去對獵物進行捕殺.由于A=2a×r1-a,A會隨著a的減小而減小,因此當(dāng)A的值少于1的時候,就是狼群對獵物發(fā)起進攻的時候.

      2.2 FCM聚類算法

      FCM聚類算法是一種基于目標(biāo)函數(shù)劃分的聚類算法,具體來說是使被劃分到同一簇對象之間的相似度最大,而不同簇對象之間的相似度最小.FCM聚類算法是普通C均值算法的改進.普通C均值算法對數(shù)據(jù)的劃分是硬性的,而FCM聚類算法則是一種柔性的模糊劃分.假設(shè)X={x1,x2,…,xn}是需要進行聚類的數(shù)據(jù)集,標(biāo)準(zhǔn)的FCM會將每個對象xi(1≤i≤N)分配給具有隸屬度的矩陣U=(uij).uij表示第i個類別的第j個數(shù)據(jù)的隸屬度.FCM的具體定義為

      U∈RC×Nuij∈(0,1),

      FCM聚類算法的主要目的是得到每個數(shù)據(jù)對應(yīng)每個類別的隸屬度和每個類別的聚類中心點C={c1,c2,…,cc}.在標(biāo)準(zhǔn)的FCM聚類算法中,首先隨機地初始化隸屬度矩陣,然后通過目標(biāo)函數(shù)來更新參數(shù).具體的目標(biāo)函數(shù)為

      式中:m為模糊因子,這里取值為2;dik表示xk和第i個聚類中心點vi之間的距離,通常表示的是歐式距離,dik=‖xk-vi‖2.

      FCM算法的基本步驟如下:

      Step 1 初始化參數(shù),給定聚類的類別數(shù)和所能接受的最大迭代次數(shù);

      Step 2 初始化隸屬度矩陣U=(uij);

      Step 5 判斷是否達到結(jié)束迭代的條件,如達到便輸出,如未達到就返回Step 3.

      2.3 基于灰狼優(yōu)化的模糊C均值局內(nèi)算法流程

      在標(biāo)準(zhǔn)的FCM聚類算法中,不斷迭代的目的是為了使目標(biāo)函數(shù)值最小.但在迭代過程中,由于標(biāo)準(zhǔn)FCM聚類算法在初始化參數(shù)時采用的是隨機初始化方法,而隨機的聚類中心會極大影響最終聚類效果.針對這個問題,筆者擬用GWO優(yōu)化FCM聚類算法的辦法來解決,首先采用GWO優(yōu)化算法找到FCM的最佳聚類中心,然后再采用FCM聚類迭代達到較好的聚類效果.

      GWO-FCM算法流程如圖2所示.為了找到最優(yōu)的初始化聚類中心點,選取的狼群適應(yīng)度函數(shù)

      式中Jm表示FCM聚類算法中的目標(biāo)函數(shù).

      圖2 GWO-FCM算法流程Fig. 2 GWO-FCM Algorithm Flow Chart

      3 仿真實驗

      3.1 實驗環(huán)境

      筆者采用Matlab軟件對讀者借閱行為數(shù)據(jù)進行分析,在實驗過程中所用到的軟件、硬件及其參數(shù)為:CPU Inter Core i7-9750H,GPU NVIDIA RTX 2060 6G,RAM 16 GB,ROM 500 G,Matlab-R2016a,OS Windows 10.

      3.2 實驗數(shù)據(jù)選取與讀者分類

      讀者與圖書館間產(chǎn)生的讀者行為信息數(shù)據(jù),既有基于傳統(tǒng)形式的讀者、資源屬性信息和行為信息,也有基于互聯(lián)網(wǎng)產(chǎn)生的讀者行為信息,包括讀者性別、年齡、閱讀輔導(dǎo)、電子資源瀏覽與檢索、訪問內(nèi)容、下載、收藏、到館時間、到館次數(shù)、圖書借閱記錄、RFID數(shù)據(jù)等多種不同類型數(shù)據(jù).分析這些行為數(shù)據(jù),可幫助圖書館提升服務(wù)質(zhì)量與管理水平.采用傳統(tǒng)的聚類算法分析這些讀者行為數(shù)據(jù),難以尋找到最佳的初始值,對聚類結(jié)果影響較大.筆者采用GWO來優(yōu)化模糊C均值的聚類初始值,是一種改進后的初始值優(yōu)化方法,能提升最終聚類分析結(jié)果的準(zhǔn)確度.為了方便驗證算法的有效性,筆者選取線下到館讀者借閱圖書行為數(shù)據(jù)進行仿真分析.首先,讀者借閱信息是重要的讀者行為數(shù)據(jù)之一,能較直觀地反映出讀者閱讀行為事實.其次,基本上每個圖書館都具備圖書借閱管理系統(tǒng),能輕松、真實地獲取讀者借閱信息.第三,圖書借閱管理系統(tǒng)中線下讀者借閱信息是一段時期內(nèi)相對準(zhǔn)確、穩(wěn)定和連續(xù)的讀者行為記錄數(shù)據(jù),符合數(shù)據(jù)分析要求,通過分析這些數(shù)據(jù)能客觀反映出相應(yīng)的行為意義.第四,選擇何種類型行為數(shù)據(jù)進行實驗,對所采用的聚類算法并沒有影響,通過讀者借閱信息對算法進行驗證,能直接反映出算法在讀者行為數(shù)據(jù)分析中的有效性.第五,選擇線下到館讀者借閱數(shù)據(jù),能方便同行再現(xiàn)實驗過程和結(jié)果,激發(fā)對數(shù)據(jù)挖掘算法服務(wù)圖書館管理的研究興趣,促進圖書館事業(yè)的發(fā)展.

      筆者所在單位Interlib圖書館管理系統(tǒng)中,2019年的圖書借閱行為數(shù)據(jù)由5 174條線下到館讀者圖書借閱行為數(shù)據(jù)(不包括還書)組成,每條數(shù)據(jù)代表讀者一年內(nèi)借閱圖書的總數(shù)量.

      在進行實驗前,將線下到館借閱圖書的讀者分為“十分活躍型”讀者、“活躍型”讀者、“一般活躍型”讀者和“不活躍型”讀者4類,然后根據(jù)數(shù)據(jù)特征將5 174條數(shù)據(jù)按上述讀者類型分類,最后根據(jù)聚類實驗結(jié)果,驗證算法的準(zhǔn)確性.

      3.3 實驗算法與參數(shù)設(shè)置

      因傳統(tǒng)聚類算法的隨機初始化值會影響聚類分析最終結(jié)果,因此筆者采用GWO算法優(yōu)化聚類的初始值,然后分別選取GWO-FCM聚類算法、FCM聚類算法、基于粒子群優(yōu)化(Particle Swarm Optimization, PSO)的FCM聚類算法(PSO-FCM)[9]及K最近鄰算法[10](K-Nearest Neighbor, KNN)進行聚類仿真實驗,并對比實驗結(jié)果.在實驗參數(shù)的確定中,根據(jù)控制變量的原則,參考文獻[10-11],將實驗參數(shù)設(shè)置如下:選區(qū)的粒子群種群規(guī)模大小為20,F(xiàn)CM聚類算法的模糊因子m為2,算法最大迭代次數(shù)為100,灰狼種群大小為20.

      3.4 實驗結(jié)果

      筆者將5 174條數(shù)據(jù)輸入到GWO-FCM算法中,數(shù)據(jù)聚類成4類.統(tǒng)計各個類別的讀者數(shù)目、占比以及圖書借閱情況,結(jié)果表明:第1類讀者393人,占比7.6%,圖書借閱25~69次;第2類讀者642人,占比12.4%,圖書借閱12~24次;第3類讀者3 063人,占比59.2%,圖書借閱2~11次;第4類讀者1 076人,占比20.8%,圖書借閱0~1次.

      第1類屬于“十分活躍型”讀者,雖然占比只有7.6%,但他們的借閱量最高.對這類讀者,應(yīng)盡最大努力滿足他們的借閱需求,保持他們的閱讀熱情.第2類屬于“活躍型”讀者,占比12.4%,他們的借閱量較高.對這類讀者,應(yīng)盡力去發(fā)現(xiàn)他們的潛在需求,進一步激發(fā)他們的閱讀熱情.第3類屬于“一般活躍型”讀者,占比59.2%.這類讀者個人借閱量較低,但總體人數(shù)最多,總借閱量高.對這類讀者,應(yīng)盡最大努力去喚醒他們的閱讀內(nèi)驅(qū)力,提升讀者的閱讀“黏度”,挖掘他們的閱讀潛力.第4類屬于“不活躍型”讀者,占比20.8%.通常這類讀者的學(xué)習(xí)成績較差,缺乏閱讀興趣.對這類讀者,應(yīng)通過“幫”“帶”等各種導(dǎo)讀活動方式,多措并舉,慢慢培養(yǎng)他們的閱讀愛好.

      為了驗證GWO-FCM聚類算法的有效性,筆者對KNN,F(xiàn)CM,PSO-FCM和GWO-FCM算法的聚類結(jié)果進行分析,分別統(tǒng)計聚類結(jié)果中的正確與錯誤的樣本數(shù)量,計算聚類分析結(jié)果的正確率(表2).

      表2 聚類正確率

      從表2可以看出,筆者改進的GWO-FCM聚類算法優(yōu)于其他三種算法.對比PSO-FCM聚類算法和GWO-FCM聚類算法可以發(fā)現(xiàn),對于FCM聚類算法,GWO的優(yōu)化效果要比PSO的優(yōu)化效果更好,仿真實驗證明了GWO-FCM聚類算法的有效性,GWO-FCM聚類算法能較好地完成讀者行為分析任務(wù),提升聚類分析結(jié)果的準(zhǔn)確度.

      4 結(jié)語

      在對比現(xiàn)有的讀者行為分析技術(shù)的基礎(chǔ)上,筆者提出了一種基于灰狼優(yōu)化聚類的讀者行為分析算法,該算法能顯著提升聚類結(jié)果的準(zhǔn)確度,提高圖書館個性化、精準(zhǔn)化服務(wù)質(zhì)量,能幫助圖書館構(gòu)建科學(xué)、合理、高效的服務(wù)管理體系.當(dāng)然,由于設(shè)備設(shè)施等條件的限制,筆者僅對讀者行為數(shù)據(jù)中的線下到館讀者借閱行為數(shù)據(jù)進行了分析,尚存在一定的局限性.基于大數(shù)據(jù)的智慧服務(wù)是圖書館未來的發(fā)展趨勢,對網(wǎng)絡(luò)環(huán)境中讀者復(fù)合行為的信息數(shù)據(jù)進行聚類分析,將是未來研究關(guān)注的重點.

      猜你喜歡
      灰狼數(shù)據(jù)挖掘聚類
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      谷谷雞和小灰狼
      小太陽畫報(2019年1期)2019-06-11 10:29:48
      灰狼的大大噴嚏
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      灰狼和老虎
      快樂語文(2016年15期)2016-11-07 09:46:31
      基于改進的遺傳算法的模糊聚類算法
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      灰狼的幸福
      讀寫算(中)(2015年6期)2015-02-27 08:47:14
      杨浦区| 奉化市| 客服| 调兵山市| 霍州市| 满洲里市| 右玉县| 龙口市| 鲁甸县| 和平区| 大洼县| 阿巴嘎旗| 翁牛特旗| 罗山县| 容城县| 遂昌县| 巴里| 金沙县| 武胜县| 盐源县| 犍为县| 苏州市| 临湘市| 定安县| 三都| 青州市| 时尚| 穆棱市| 壶关县| 天等县| 阿城市| 莱芜市| 攀枝花市| 新田县| 大足县| 东平县| 莫力| 伊金霍洛旗| 河间市| 泸溪县| 河津市|