• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    綜合社區(qū)與關(guān)聯(lián)序列挖掘的電子政務(wù)推薦算法

    2017-11-15 06:02:46黃亞坤王明星
    計(jì)算機(jī)應(yīng)用 2017年9期
    關(guān)鍵詞:電子政務(wù)辦事事項(xiàng)

    黃亞坤,王 楊,王明星

    (1.安徽師范大學(xué) 數(shù)學(xué)計(jì)算機(jī)科學(xué)學(xué)院,安徽 蕪湖 241000; 2.安徽訊飛智能科技有限公司,安徽 蕪湖 241000)(*通信作者電子郵箱hyk_it@foxmail.com)

    綜合社區(qū)與關(guān)聯(lián)序列挖掘的電子政務(wù)推薦算法

    黃亞坤1,2*,王 楊1,王明星1

    (1.安徽師范大學(xué) 數(shù)學(xué)計(jì)算機(jī)科學(xué)學(xué)院,安徽 蕪湖 241000; 2.安徽訊飛智能科技有限公司,安徽 蕪湖 241000)(*通信作者電子郵箱hyk_it@foxmail.com)

    個(gè)性化推薦作為一種有效的信息獲取手段已成功應(yīng)用于電商、音樂(lè)和電影等領(lǐng)域。已有研究多數(shù)聚焦于推薦的精度,缺乏對(duì)推薦結(jié)果的多樣性考慮,忽略了應(yīng)用領(lǐng)域中被推薦項(xiàng)目的流程特性(如“互聯(lián)網(wǎng)+政務(wù)”中辦事項(xiàng)的推薦)。為此提出一種綜合用戶社區(qū)與關(guān)聯(lián)序列挖掘(CAS-UC)的電子政務(wù)推薦算法,優(yōu)先向用戶推送利益關(guān)聯(lián)最大的辦事項(xiàng)。首先,對(duì)用戶和辦事項(xiàng)的靜態(tài)基本屬性以及動(dòng)態(tài)行為屬性分別進(jìn)行特征建模;其次,基于用戶的歷史辦事記錄和屬性相似度進(jìn)行用戶社區(qū)發(fā)現(xiàn),預(yù)篩選出與目標(biāo)用戶最為相似的用戶集,提高推薦結(jié)果的多樣性,減少核心推薦過(guò)程的計(jì)算量;最后,辦事項(xiàng)的關(guān)聯(lián)序列挖掘充分考慮了電子政務(wù)的業(yè)務(wù)特性,加入時(shí)間維度的辦事項(xiàng)序列挖掘,進(jìn)一步提高了推薦結(jié)果的精度。以蕪湖市易戶網(wǎng)為平臺(tái)載體,基于Spark計(jì)算平臺(tái)對(duì)用戶脫敏后的信息進(jìn)行仿真,實(shí)驗(yàn)結(jié)果表明,CAS-UC適用于被推薦項(xiàng)目具有序列或流程特性領(lǐng)域的推薦,與傳統(tǒng)推薦算法如協(xié)同過(guò)濾推薦、矩陣分解以及基于語(yǔ)義相似度的推薦算法相比,具有更高的推薦精度,用戶的多社區(qū)歸屬因素增加了推薦結(jié)果的多樣性。

    用戶社區(qū);關(guān)聯(lián)序列挖掘;Spark平臺(tái);多樣性;電子政務(wù)推薦

    0 引言

    隨著以互聯(lián)網(wǎng)為主的信息新技術(shù)在經(jīng)濟(jì)、社會(huì)和生活各部分的擴(kuò)散與應(yīng)用,“互聯(lián)網(wǎng)+政務(wù)”以電子政務(wù)服務(wù)平臺(tái)為基礎(chǔ),以實(shí)現(xiàn)智慧政府為目標(biāo),對(duì)政府組織結(jié)構(gòu)和辦事流程進(jìn)行優(yōu)化重組[1-2]。傳統(tǒng)電子政務(wù)系統(tǒng)缺乏面向用戶個(gè)性化需求的精準(zhǔn)服務(wù),獨(dú)立、多源、異構(gòu)的政務(wù)信息增加了用戶的辦事難度。個(gè)性化推薦系統(tǒng)作為一種有效的信息過(guò)濾手段已在多個(gè)領(lǐng)域中取得良好的反饋,如電商網(wǎng)站[3-4]、音樂(lè)和電影類網(wǎng)站[5-6],通過(guò)分析用戶的瀏覽和購(gòu)買行為,向該用戶推送符合其特征的相關(guān)項(xiàng)目,進(jìn)一步提高了用戶體驗(yàn)。傳統(tǒng)的協(xié)同過(guò)濾推薦算法,如基于內(nèi)容和項(xiàng)目的推薦、基于矩陣分解(Matrix Factorization, MF)以及由其衍生而出的具有偏好的矩陣分解(Preference MF, PMF)算法或結(jié)合上下文的MF(Context MF, CMF)推薦算法已在電商、音樂(lè)和電影等領(lǐng)域推薦取得一定成果。綜合考慮電子政務(wù)辦事項(xiàng)的序列化特征,設(shè)計(jì)出符合電子政務(wù)業(yè)務(wù)特點(diǎn)的推薦算法是構(gòu)建智慧城市的關(guān)鍵技術(shù)之一。

    國(guó)內(nèi)外相關(guān)文獻(xiàn)主要從語(yǔ)義相似度、本體理論以及多角度改進(jìn)的協(xié)同過(guò)濾算法對(duì)電子政務(wù)推薦算法進(jìn)行研究[7-14]。集成語(yǔ)義相似度與協(xié)同過(guò)濾的推薦算法提供準(zhǔn)確性和擴(kuò)展性更高的個(gè)性化推薦服務(wù)。從增強(qiáng)語(yǔ)義信息角度來(lái)看,文獻(xiàn) [7] 結(jié)合FALC模糊描述邏輯語(yǔ)言提出一種模糊語(yǔ)義的推薦服務(wù)來(lái)促進(jìn)電子政務(wù)中的資源信息利用;文獻(xiàn) [8] 設(shè)計(jì)了一種智能貿(mào)易展覽的推薦系統(tǒng),通過(guò)集成語(yǔ)義相似性和傳統(tǒng)的基于項(xiàng)目的協(xié)同過(guò)濾解決電子政務(wù)服務(wù)中唯一項(xiàng)目的推薦問(wèn)題;文獻(xiàn) [9] 基于增強(qiáng)推薦中的混合語(yǔ)義信息提出了一種項(xiàng)目語(yǔ)義相關(guān)性模型,并開(kāi)發(fā)了智能商業(yè)定位器推薦系統(tǒng)原型進(jìn)行驗(yàn)證?;诒倔w理論的相關(guān)算法提供主動(dòng)推送、動(dòng)態(tài)、差異的個(gè)性化推薦。文獻(xiàn) [10] 結(jié)合合肥市政務(wù)信息資源建設(shè)和應(yīng)用實(shí)際,基于個(gè)性化目錄模型和本體理論構(gòu)建具有個(gè)性化、動(dòng)態(tài)化和智能化的電子政務(wù)信息個(gè)性化服務(wù)系統(tǒng)。Al-Hassan等[11]不僅考慮了語(yǔ)義相似性,同時(shí)結(jié)合本體理論提出了一種新的推理本體的語(yǔ)義相似性方法(Inferential Ontology-Based Semantic Similarity, IOBSS)測(cè)量,通過(guò)其顯式分層關(guān)系、共享屬性和隱含關(guān)系來(lái)評(píng)估特定域中項(xiàng)目之間的語(yǔ)義相似性,并使用澳大利亞電子政府旅游服務(wù)的案例驗(yàn)證所提出的混合方法的有效性。此外,還有針對(duì)協(xié)同過(guò)濾進(jìn)行改進(jìn)的相關(guān)推薦算法也在一定程度上提高了電子政務(wù)推薦系統(tǒng)的準(zhǔn)確性[12-14]。Shambour等[14]開(kāi)發(fā)了混合信任增強(qiáng)的協(xié)同過(guò)濾推薦方法(Trust-enhanced Collaborative Filtering, TeCF),其集成了隱式信任過(guò)濾和增強(qiáng)的基于用戶的協(xié)同過(guò)濾(Collaborative Filtering, CF)推薦方法,適用于處理非常稀疏的數(shù)據(jù)集和冷啟動(dòng)用戶。

    電子政務(wù)辦事項(xiàng)的序列化特征難以直接應(yīng)用傳統(tǒng)個(gè)性化推薦算法。已有文獻(xiàn)主要對(duì)推薦算法進(jìn)行改進(jìn)優(yōu)化設(shè)計(jì),缺乏結(jié)合電子政務(wù)辦事項(xiàng)的業(yè)務(wù)特征,進(jìn)而向用戶推薦更精準(zhǔn)的服務(wù)。本文綜合社區(qū)與關(guān)聯(lián)序列挖掘提出了一種個(gè)性化“互聯(lián)網(wǎng)+政務(wù)”推薦算法——CAS-UC(Combining User Community and Associated Sequence mining)。首先,挖掘用戶群社區(qū),對(duì)被推薦用戶進(jìn)行社區(qū)歸屬再進(jìn)行推薦能夠有效增加推薦結(jié)果的多樣性和減少海量用戶、辦事項(xiàng)引入的計(jì)算量;其次,辦事項(xiàng)的關(guān)聯(lián)序列挖掘深入業(yè)務(wù)特點(diǎn),根據(jù)歷史辦事記錄精準(zhǔn)預(yù)測(cè)分析關(guān)聯(lián)性最大的辦事項(xiàng);最后,綜合兩者的計(jì)算結(jié)果優(yōu)化排序向用戶推薦最終結(jié)果集。

    1 CAS-UC 推薦模型

    圖1描述了CAS-UC算法的推薦流程。推薦主要綜合了用戶社區(qū)的預(yù)選推薦集和辦事項(xiàng)的關(guān)聯(lián)挖掘推薦集。數(shù)據(jù)預(yù)處理階段主要是對(duì)用戶和辦事項(xiàng)的原始數(shù)據(jù)進(jìn)行清洗和建模,并根據(jù)用戶的辦事記錄進(jìn)行用戶社區(qū)發(fā)現(xiàn)。對(duì)于輸入的任意目標(biāo)用戶,首先對(duì)其進(jìn)行社區(qū)歸屬計(jì)算,然后根據(jù)基本靜態(tài)屬性和動(dòng)態(tài)行為屬性篩選最相似的K個(gè)關(guān)聯(lián)用戶,與其關(guān)聯(lián)性不大(即使處于同一社區(qū))的用戶辦事記錄不會(huì)入選待推薦辦事項(xiàng)集合中,從這K個(gè)關(guān)聯(lián)用戶預(yù)選出目標(biāo)用戶的待推薦辦事項(xiàng)集合,最后,基于用戶的協(xié)同過(guò)濾算法建立目標(biāo)用戶與K個(gè)關(guān)聯(lián)用戶的推薦模型。此外,基于Apriori序列模式挖掘在辦事項(xiàng)中產(chǎn)生關(guān)聯(lián)序列推薦集合,基于兩部分推薦集獲得最終的推薦集。

    圖1 CAS-UC推薦流程

    用戶模型描述了用戶的靜態(tài)基本屬性和動(dòng)態(tài)行為屬性,包括結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)信息。靜態(tài)屬性通常有ID、性別、年齡、婚姻、學(xué)歷等,同時(shí)也包含社保、公積金、醫(yī)保等個(gè)人隱私的靜態(tài)屬性;動(dòng)態(tài)行為屬性主要指用戶的歷史行為信息(已辦理事項(xiàng)或?yàn)g覽行為記錄)和用戶反饋信息(對(duì)推送內(nèi)容反饋的信息)?;谙蛄靠臻g模型定義四元組User_M=〈BIU,SI,FB,AA〉。其中,用戶的基本信息用BIU={uid,age,sex}表示;SI={ss,hi,pf,ho,li,ca}代表社保、公積金、醫(yī)保等個(gè)人隱私的靜態(tài)屬性;FB={as,af}表示用戶的評(píng)價(jià)和行為反饋信息,主要用于模型的調(diào)優(yōu)與校準(zhǔn);n維特征向量AA={a1,a2,…,an}表示行為特征,其中,ai=(kei,wei,τi)為用戶的第i個(gè)行為;kei為行為信息;wei為行為信息的權(quán)重,權(quán)值為1或0,表示辦理或未辦理記錄;τi為行為更新的時(shí)間戳。

    用戶模型為用戶社區(qū)的劃分和準(zhǔn)確推薦提供計(jì)算基礎(chǔ),用戶的靜態(tài)和動(dòng)態(tài)屬性是計(jì)算用戶之間相似程度的主要根據(jù)。用戶社區(qū)劃分依據(jù)用戶自身屬性特征,包括BIU,SI有效屬性特征向量組合。用戶樣本可以表示為包含上述屬性的n維向量u=(age,sex,ss,hi,pf,sa,ho,li,ca),所有維度的取值范圍為0或1,當(dāng)ss,hi,pf,ho,li,ca取值為1時(shí),表示用戶擁有社保、醫(yī)保、公積金、房產(chǎn)、駕照和車輛;sex取值1表示性別相同;age和sa指計(jì)算兩個(gè)不同用戶相似度時(shí),考慮年齡或工資等級(jí)是否是同一年齡段或工資等級(jí),如age取值為1表示任意兩條用戶記錄的年齡屬于同等級(jí),0為否;sa取值為1則表示兩條用戶記錄的工資等級(jí)相同,0為否。如存在用戶樣本A與樣本B,其基本屬性向量uA=(1,0,1,1,1,0,1,1,0)和uB=(1,0,1,1,1,0,0,1,1)分別表示A和B的年齡、性別、社保、醫(yī)保、公積金、房產(chǎn)、駕照和車輛的相關(guān)狀態(tài),向量uA和uB中第一位均為1表示A和B處于同一年齡段,而向量中第六位為0則表示A和B工資等級(jí)不同;其他位置的1和0分別表示是否擁有改屬性?;谏鲜鲇脩粝蛄?,若用M00代表向量A和向量B都是0的維度個(gè)數(shù);M01代表向量A是0而向量B是1的維度個(gè)數(shù);M10代表向量A是1而向量B是0的維度個(gè)數(shù);M11代表向量A和向量B都是1的維度個(gè)數(shù),n維向量的每一維都會(huì)落入上述向量中的某一類,給出利用Jaccard相似系數(shù)計(jì)算二者的相似性:

    Jaccard系數(shù)可定義如下:

    Jac(A,B)=M11/(M01+M10+M11)

    (1)

    根據(jù)式(1)計(jì)算出用戶在基礎(chǔ)屬性BIU和隱私屬性SI的相似度,屬性的類別區(qū)分主要解決不同屬性對(duì)相似度結(jié)果的偏好影響。式(2)給出融合兩種相似度的計(jì)算公式:

    sim(ui,uj)=(1-α)·b_sim(ui,uj)+

    α·s_sim(ui,uj)

    (2)

    其中:b_sim(ui,uj)代表用戶ui與uj在基礎(chǔ)屬性上的相似度,s_sim(ui,uj)是用戶ui與ui在隱私屬性相似度;α是調(diào)節(jié)兩種相似度的偏好影響,控制不同類別屬性在用戶相似度所占的比重初始化為0.5,仿真實(shí)驗(yàn)表明當(dāng)α=0.63時(shí),取得最優(yōu)表現(xiàn)。

    用戶辦事關(guān)系網(wǎng)絡(luò)反映用戶辦事行為間關(guān)聯(lián)的緊密程度。現(xiàn)實(shí)的用戶好友關(guān)系能夠直接表明兩者的關(guān)系,然而電子政務(wù)類的服務(wù)型應(yīng)用難以直接獲取用戶的好友關(guān)系,用戶的辦事行為記錄則提供了隱式的用戶關(guān)系網(wǎng)絡(luò)。定義G為無(wú)向圖表示用戶的隱式辦事關(guān)系網(wǎng),G中的節(jié)點(diǎn)表示擁有不同辦事記錄的用戶,用戶之間的鏈接表示存在辦事記錄交集,鏈接上的權(quán)值反映用戶之間關(guān)系強(qiáng)弱,計(jì)算方式主要是基于用戶的屬性相似度和辦事行為交集程度。對(duì)G的存儲(chǔ)采用壓縮優(yōu)化的鄰接矩陣V存儲(chǔ)。

    (3)

    其中:vi, j表示用戶ui與uj鏈接之間的關(guān)系權(quán)值,反映用戶之間的相似程度,權(quán)值越大表明用戶相似關(guān)系越緊密。下文使用的電子政務(wù)用戶辦事數(shù)據(jù)集中,用戶辦事關(guān)系的權(quán)值設(shè)定不僅僅與辦事行為有關(guān),還與用戶的基本屬性有關(guān),即用戶之間的相似程度,對(duì)用戶的相似度已進(jìn)行歸一化處理,相關(guān)規(guī)則如下:

    1) 用戶之間無(wú)任何辦事行為交集,且用戶基礎(chǔ)屬性相似度低,則判定為無(wú)鏈接行為;

    2) 用戶間存在辦事行為交集,且用戶基礎(chǔ)屬性相似度低,則鏈接權(quán)值為辦事記錄的相似系數(shù);

    3) 用戶間存在辦事行為交集,且用戶基礎(chǔ)屬性相似度高,則鏈接權(quán)值為兩種相似度之和。

    為了更好地描述劃分社區(qū)結(jié)構(gòu)的合理性,式(4)描述了Newman[15]基于Jaccrad距離模塊度:

    (4)

    其中:Aij為連接節(jié)點(diǎn)i和j邊的權(quán)值,該矩陣元素主要表示不同用戶鏈接之間的權(quán)值,綜合用戶辦事記錄的相似性與用戶自身屬性的相似性進(jìn)行計(jì)算,具體的構(gòu)造基于上述三條基本規(guī)則;m為網(wǎng)絡(luò)中邊的數(shù)量;ki為節(jié)點(diǎn)i的度;kj為節(jié)點(diǎn)j的度;Ci為i所屬的社區(qū)。δ(Ci,Cj)表示節(jié)點(diǎn)i與節(jié)點(diǎn)j是否為同一個(gè)社區(qū),是為1,否為0。

    考慮到本文的核心是辦事項(xiàng)推薦,基于辦事項(xiàng)的特征分析,快速挖掘出基本的用戶社區(qū)即可滿足后續(xù)推薦需求,基于文獻(xiàn)[16]提出的一種線性時(shí)間內(nèi)的大規(guī)模網(wǎng)絡(luò)下的社區(qū)劃分算法,主要采用層次貪心策略進(jìn)行社區(qū)發(fā)現(xiàn),篩選出K個(gè)與目標(biāo)用戶相似度最大的用戶集合。算法主要包括兩個(gè)階段,第一階段合并社區(qū),初始狀態(tài)將每個(gè)節(jié)點(diǎn)視為獨(dú)立社區(qū),基于最近鄰居相似度最大標(biāo)準(zhǔn)決定哪些社區(qū)應(yīng)該被合并;第二階段,將第一階段發(fā)現(xiàn)的社區(qū)重新視為獨(dú)立節(jié)點(diǎn)社區(qū),重復(fù)構(gòu)建。這兩個(gè)階段重復(fù)進(jìn)行,直到網(wǎng)絡(luò)社區(qū)劃分的模塊度趨于穩(wěn)定。

    區(qū)別于傳統(tǒng)音樂(lè)、電影類的評(píng)分推薦,用戶與辦事項(xiàng)之間不存在評(píng)分,僅具有辦理或未辦理的狀態(tài)值。如表1表示了用戶-辦事項(xiàng)的行為記錄,1表示用戶辦理或?yàn)g覽辦事項(xiàng),狀態(tài)0表示對(duì)辦事項(xiàng)無(wú)行為記錄。

    表1 用戶辦事行為關(guān)系矩陣

    令ri,j={0,1}表示第i個(gè)用戶對(duì)第j個(gè)項(xiàng)目的辦事記錄行為,由于ri, j取值的特殊性,計(jì)算公式采用Jaccard相似度。通常,大多數(shù)用戶都會(huì)辦理基礎(chǔ)的熱門(mén)辦事項(xiàng),造成用戶的相似度差異較小。考慮在計(jì)算行為相似度時(shí),對(duì)熱門(mén)事項(xiàng)進(jìn)行懲罰,計(jì)算公式如下:

    (5)

    因此,式(6)度量了用戶u關(guān)注辦事項(xiàng)i的可能性:

    (6)

    其中:S(u,K)是用戶u最相似最高的K個(gè)用戶,式(5)中N(u)和N(v)分別表示用戶u和v的辦事記錄集合,N(i)是用戶u和v的共同辦事項(xiàng)i存在辦事記錄的所有用戶集合,通過(guò)1/log(1+N(i))懲罰了用戶u和v共同熱門(mén)辦事項(xiàng)記錄對(duì)相似度計(jì)算的影響。通過(guò)給定K值,即可獲取用戶可能性最高的待辦事項(xiàng)集合,表示為RSU。

    算法1 基于用戶社區(qū)的辦事項(xiàng)推薦算法。

    1)

    ut

    //target user

    2)

    UC

    //Pre-process user communities

    3)

    begin

    4)

    Ct←UC{Ci|i∈N}

    //Select the community

    5)

    for eachutinCtthen

    6)

    USt←UC{Ci|i∈N}

    //Select the items

    7)

    end for

    8)

    k,α

    //Initialization of parameters

    9)

    for eachutinUStthen

    //Calculate the similarity

    10)

    sim(ut,uj) ← Formula(4);

    11)

    SelectRes←uj;

    12)

    end for

    13)

    for eachutinUStthen

    //Select the Pre-result

    14)

    RSu←ut

    15)

    end for

    16)

    for each itemiinRSUthen

    //Recommendation indexes

    17)

    PS←p(u,i)

    18)

    end for

    19)

    Res← Rank(PS,k)

    //Results

    20)

    end

    二元組Item_M=〈BII,AI〉表示辦事項(xiàng)特征模型,包括辦事項(xiàng)屬性和辦事記錄屬性。BII={mid,fm,t,c}描述辦事項(xiàng)的編號(hào)、所屬機(jī)構(gòu)、時(shí)間以及類別信息;AI=〈uid,mid〉表示用戶產(chǎn)生的辦事項(xiàng)行為記錄。用戶的辦事行為記錄中包含辦理或?yàn)g覽的時(shí)間點(diǎn)可用于標(biāo)記并挖掘出辦事項(xiàng)之間的流程信息。辦事項(xiàng)序列模式挖掘能夠有效識(shí)別出電子政務(wù)系統(tǒng)中的動(dòng)態(tài)系統(tǒng)特征,預(yù)測(cè)用戶在未來(lái)一段時(shí)間內(nèi)可能的辦事項(xiàng)序列信息。

    設(shè)D是包含一個(gè)或多個(gè)辦事項(xiàng)序列,即與單個(gè)用戶相關(guān)聯(lián)的辦事項(xiàng)有序集合。規(guī)定IA?IB在有序辦事項(xiàng)集合中成立,改序列具有的支持度為s,其中s是D中包含辦事項(xiàng)IA∪IB(即包含辦事項(xiàng)IA和IB的并)的百分比。它是概率P(IA∪IB),表示D中序列包含辦事項(xiàng)IA和IB的并(即序列中包含辦事項(xiàng)IA和IB)概率。若S的支持度大于或等于閾值minsup,則S即為一個(gè)序列模式。序列模式的挖掘可以枚舉所有可能的序列,再進(jìn)行支持度計(jì)算,如對(duì)于n個(gè)辦事項(xiàng),依次對(duì)1個(gè)辦事項(xiàng),2個(gè)辦事項(xiàng),3個(gè)辦事項(xiàng)直到n個(gè)辦事項(xiàng)進(jìn)行枚舉。由于先驗(yàn)原理對(duì)序列數(shù)據(jù)成立,因此包含特定k個(gè)辦事項(xiàng)的任何序列必然包括該k個(gè)辦事項(xiàng)的所有k-1個(gè)辦事項(xiàng)的子序列?;贏priori算法給出挖掘用戶辦事項(xiàng)記錄中的序列模式偽代碼描述。

    算法2 序列模式挖掘的類Apriori算法。

    1)

    k=1

    2)

    Fk={i|i∈I∧σ(i)/N≥minsup}

    //find out all of 1-sequence

    3)

    do

    4)

    k=k+1

    5)

    Ck=Apriori-generate(Fk-1)

    //generatek-sequence

    6)

    for each sequencek=k+1 then

    7)

    Ct=Sub(Ck,t)

    //identify the subsequence int

    8)

    for eachk-sequence inc∈Ctthen

    9)

    σ(c)=σ(c)+1

    //calculate the support value

    10)

    end for

    11)

    end for

    12)

    Fk={c|c∈Ck∧σ(c)/N≥minsup}

    //extractk-sequence

    13)

    whileFk≠?

    14)

    ResultSet=∪Fk

    算法2迭代產(chǎn)生k-序列,通過(guò)剪枝(k-1)-序列的非序列模式完成對(duì)候選序列的篩選,對(duì)留下的候選序列進(jìn)行支持度計(jì)算,最終根據(jù)支持度提取序列模式。具體而言,為了避免重復(fù)產(chǎn)生候選序列,傳統(tǒng)Apriori算法僅當(dāng)前k-1項(xiàng)相同時(shí)才合并一對(duì)序列k-項(xiàng)集,類似的思想同樣適用于產(chǎn)生候選k-序列(即一對(duì)頻繁(k-1)-序列合并產(chǎn)生候選k-序列)。對(duì)于序列的合并主要步驟如下:假定序列s1與s2進(jìn)行合并,且從s1去除第一項(xiàng)辦事項(xiàng)編號(hào)獲得的子序列與從s2中去除最后一項(xiàng)辦事項(xiàng)編號(hào)得到的子序列相同。候選結(jié)果集是對(duì)s1和s2中最后一項(xiàng)辦事項(xiàng)編號(hào)進(jìn)行連接。s2中最后一項(xiàng)辦事項(xiàng)編號(hào)可以合并至s1中的最后一項(xiàng)辦事項(xiàng)中,或者作為一項(xiàng)不同的辦事項(xiàng)。此外,若候選k-序列的(k-1)-序列至少有一個(gè)非頻繁項(xiàng),那么需要進(jìn)行剪枝操作。在計(jì)算支持度時(shí),可以枚舉屬于某個(gè)特定序列的所有候選k-序列,同時(shí)增加選擇的支持度值。在此之后,算法將識(shí)別出k-序列,并且丟棄其支持度小于最小支持度閾值minsup的候選序列集合。

    在完成用戶社區(qū)挖掘及相似用戶預(yù)選推薦辦事項(xiàng)集合RSU和序列模式的關(guān)聯(lián)挖掘預(yù)選推薦辦事項(xiàng)集合RSA之后,需要根據(jù)兩部分結(jié)果的重疊程度進(jìn)行優(yōu)化篩選,形成最終的辦事項(xiàng)推薦結(jié)果集合。如圖2所示給出兩種集合的3種覆蓋情況示例。

    圖2 RSU與RSA集合覆蓋示意圖

    若假定推送給目標(biāo)用戶的辦事項(xiàng)數(shù)目為K,對(duì)于RSU和RSA兩種結(jié)果集的覆蓋結(jié)果篩選,可細(xì)分為圖2所示的三種情況:1)覆蓋結(jié)果集能夠滿足N(RSA∩RSU)≥K,Top(RSA)被選擇作為最終推薦結(jié)果集合;2)當(dāng)N(RSA∩RSU)

    2 實(shí)驗(yàn)分析

    為了評(píng)估本文提出的CAS-UC推薦算法在電子政務(wù)推薦中的有效性、高效性和應(yīng)用價(jià)值,以蕪湖市電子政務(wù)綜合服務(wù)平臺(tái)易戶網(wǎng)(ewoho)為載體,從多個(gè)推薦評(píng)估指標(biāo)與傳統(tǒng)的推薦算法基于用戶的協(xié)同過(guò)濾(User-based Collaborative Filtering, User-B)、基于項(xiàng)目的協(xié)同過(guò)濾(Item-based Collaborative Filtering, Item-B)、基于語(yǔ)義的推薦算法和矩陣分解(Matrix Factorization, MF)推薦算法進(jìn)行對(duì)比。電子政務(wù)推薦數(shù)據(jù)集記錄的主要是用戶辦事的狀態(tài),單個(gè)用戶的辦事記錄較少,且用戶的辦事行為具有一定的周期性,與傳統(tǒng)的評(píng)分推薦數(shù)據(jù)集存在較大差異。實(shí)驗(yàn)采用的數(shù)據(jù)集是截止2017年3月7日蕪湖市實(shí)有人口389萬(wàn)人共計(jì)170多萬(wàn)條辦事記錄進(jìn)行驗(yàn)證。對(duì)于實(shí)驗(yàn)數(shù)據(jù)集中涉及的用戶隱私信息,均已加密處理,數(shù)據(jù)預(yù)處理后的主要形式是加密后的用戶ID對(duì)于其響應(yīng)的辦事記錄編號(hào)。

    此外,實(shí)際應(yīng)用中,數(shù)據(jù)的處理效率是影響高效推薦的重要因素。實(shí)驗(yàn)環(huán)境采用基于Spark的集群計(jì)算平臺(tái),數(shù)據(jù)存儲(chǔ)形式為HDFS文件形式,CDH部署的集群環(huán)境主要為:16臺(tái)計(jì)算節(jié)點(diǎn)配置均為32 GB內(nèi)存,磁盤(pán)大小為50 GB,1臺(tái)CDH管理機(jī)節(jié)點(diǎn)配置同上,此外1臺(tái)服務(wù)器主要使用Yarn和Zookeeper進(jìn)行資源管理調(diào)度使用,物理內(nèi)存大小為32 GB,其他配置相同,所有主機(jī)的CPU配置均為32核32 GB,圖3給出具體的集群組件配置圖。

    圖3 基于CDH部署的Spark集群組件配置圖

    2.1 評(píng)估指標(biāo)

    精準(zhǔn)率和召回率通常被用于評(píng)估Top-N推薦的有效性。通過(guò)計(jì)算推薦項(xiàng)目與總項(xiàng)目集的比例得到覆蓋率,用于評(píng)估推薦結(jié)果。推薦結(jié)果的多樣性滿足了用戶的廣泛興趣,意味著推薦列表可以覆蓋用戶涉及的不同領(lǐng)域,通常計(jì)算推薦結(jié)果列表的內(nèi)相似性。相關(guān)指標(biāo)計(jì)算公式如下。

    1)精準(zhǔn)率[17]:

    (7)

    2)召回率[17]:

    (8)

    其中:R(u)和T(u)分別表示用戶在訓(xùn)練集和測(cè)試集上得到的推薦列表。此外,F(xiàn)1-Measure通過(guò)計(jì)算精準(zhǔn)率和召回率的比值描述Top-N推薦中的整體性能。

    3)覆蓋率[18]:

    (9)

    假定用戶集為U,且I表示項(xiàng)集,R(u)表示為長(zhǎng)度為N的推薦列表結(jié)果集。

    4)多樣性(Intra-list相似度)[19]:

    (10)

    其中:bf和be為推薦列表Pi中的推薦項(xiàng)目;g(bf,be)定義為bf和be的相似度。ILS(Pi)越小,則表示推薦列表Pi中的項(xiàng)目種類相似度越小,推薦的多樣性越好。

    2.2 實(shí)驗(yàn)分析

    仿真實(shí)驗(yàn)從精準(zhǔn)率(P)、召回率(R)、覆蓋率(C)以及多樣性(D)四個(gè)指標(biāo)分析CAS-UC與其他推薦算法在電子政務(wù)數(shù)據(jù)集上的性能表現(xiàn)。表2中K表示推薦算法選擇K個(gè)和目標(biāo)用戶最相似的用戶,然后推薦這K個(gè)用戶關(guān)聯(lián)的辦事項(xiàng)。實(shí)驗(yàn)中K的初始值定義為5,該值不斷倍增至80,共計(jì)5組。

    表2顯示不同推薦算法在給定實(shí)驗(yàn)數(shù)據(jù)集上的推薦結(jié)果。在Top-N推薦中,K值的選取影響最終的推薦。對(duì)于特定的數(shù)據(jù)集,不同算法的最優(yōu)K值存在差異,如CAS-UC和MF的最優(yōu)K值為20,Item-B和IOBSS算法為10,而User-B則為40,不同算法在推薦過(guò)程中的側(cè)重點(diǎn)不同導(dǎo)致最優(yōu)K值具有一定區(qū)別,K值的調(diào)整對(duì)推薦結(jié)果的各項(xiàng)評(píng)估指標(biāo)都會(huì)產(chǎn)生一定的影響。對(duì)于CAS-UC,推薦結(jié)果的精準(zhǔn)率和召回率與K值并不呈現(xiàn)出線性關(guān)系。隨著推薦辦事項(xiàng)集的增加,精準(zhǔn)率也隨之增加,當(dāng)K=20時(shí),精準(zhǔn)率達(dá)到最高點(diǎn)0.302 0,之后推薦項(xiàng)集的基數(shù)增大降低了推薦的精準(zhǔn)度,召回率在該K值處達(dá)到最大值0.111 2,兩者呈現(xiàn)出相似的變化趨勢(shì)。對(duì)于多樣性,由于K值決定了推薦算法推薦時(shí)選取的用戶數(shù),因此,用戶關(guān)聯(lián)的辦事項(xiàng)數(shù)量伴隨著K的增加而增加,當(dāng)選取的用戶越多,推薦的辦事項(xiàng)的多樣性則越大,相應(yīng)的推薦列表內(nèi)相似性intra-list值則越小,當(dāng)K=80時(shí),該值為0.190 5。對(duì)于推薦的覆蓋率,K值與CAS-UC推薦的覆蓋率呈現(xiàn)出負(fù)相關(guān),在初始K=5時(shí)達(dá)到最大0.183 9。這主要是CAS-UC逐漸傾向于推薦相對(duì)熱門(mén)的辦事項(xiàng),同時(shí)辦事項(xiàng)基數(shù)仍在增加,造成了覆蓋率降低。

    表2 不同推薦算法的實(shí)驗(yàn)結(jié)果

    從不同推薦算法對(duì)比分析可知:對(duì)于推薦精準(zhǔn)率和召回率,IOBSS和CAS-UC比User-B、Item-B和MF具有更好的精度,IOBSS結(jié)合特定域中項(xiàng)目之間的語(yǔ)義知識(shí)來(lái)增強(qiáng)推薦質(zhì)量,CAS-UC有效結(jié)合了社區(qū)和辦事項(xiàng)之間存在的關(guān)聯(lián)關(guān)系來(lái)提高推薦的精準(zhǔn)度;對(duì)于推薦的多樣性,User-B、Item-B和MF的intra-list值比其他兩種算法高,說(shuō)明推薦結(jié)果的多樣性表現(xiàn)差,這些算法在建模過(guò)程忽略了對(duì)多樣性的考慮;IOBSS中推薦項(xiàng)目之間的語(yǔ)義知識(shí)主要是針對(duì)于推薦的精度,也缺乏對(duì)多樣性的考慮;CAS-UC在建模中,優(yōu)先考慮了用戶的社區(qū)構(gòu)建,由于同一個(gè)用戶可能歸屬于多個(gè)社區(qū),推薦的結(jié)果可能來(lái)自于多個(gè)社區(qū),從而提升了推薦結(jié)果的多樣性,結(jié)合辦事項(xiàng)的關(guān)聯(lián)挖掘推薦,保障了推薦結(jié)果的精準(zhǔn)度。綜合來(lái)看,CAS-UC對(duì)于具有流程特性的推薦項(xiàng)目表現(xiàn)出更優(yōu)的性能。

    社區(qū)構(gòu)建對(duì)CAS-UC推薦結(jié)果的多樣性和計(jì)算量具有重要的影響,由于表2中相關(guān)數(shù)據(jù)結(jié)果已能夠驗(yàn)證推薦結(jié)果的多樣性,圖4主要從推薦精度,給出在不同K值下,構(gòu)建社區(qū)時(shí),訓(xùn)練集所使用的原始數(shù)據(jù)百分比對(duì)F1-Measure的影響。不同K值下的F1-Measure存在較大的差異,這主要是K值決定了推薦時(shí)選取的用戶數(shù)和關(guān)聯(lián)的辦事項(xiàng)數(shù)。從圖4中折線趨勢(shì)來(lái)看,隨著訓(xùn)練集的百分比增大,社區(qū)趨于穩(wěn)定狀態(tài),F(xiàn)1-Measure也增大至某一峰值。當(dāng)構(gòu)建社區(qū)的訓(xùn)練集百分比在70%左右,F(xiàn)1-Measure獲得最優(yōu)值,之后增加訓(xùn)練集的百分比對(duì)推薦的結(jié)果產(chǎn)生的影響較小,即在CAS-UC的推薦過(guò)程需要在構(gòu)建的社區(qū)處于穩(wěn)態(tài)時(shí)進(jìn)行。

    圖4 數(shù)據(jù)規(guī)模對(duì)推薦結(jié)果的影響分析

    本文在用戶社區(qū)發(fā)現(xiàn)階段主要采用文獻(xiàn)[16]提出的一種適用于大規(guī)模網(wǎng)絡(luò)中的快速層次社區(qū)發(fā)現(xiàn)算法,該算法能在線性時(shí)間內(nèi)完成社區(qū)發(fā)現(xiàn),其中,γ因子的含義是體現(xiàn)用戶之間相似度閾值,對(duì)于不同實(shí)驗(yàn)環(huán)境或數(shù)據(jù)集,應(yīng)當(dāng)探討社區(qū)劃分的最佳γ取值范圍。理論分析,隨著γ的增大,社區(qū)內(nèi)部節(jié)點(diǎn)的相似度也隨之增大,社區(qū)穩(wěn)定性越高,推薦結(jié)果更精準(zhǔn),即F1-measure值更高,實(shí)際結(jié)果如圖5所示,給出K=10、20、40 時(shí)的結(jié)果分析,隨著γ增加至0.6以后,在γ=0.65左右,推薦結(jié)果的F1-measure值呈現(xiàn)最佳,之后顯現(xiàn)降低趨勢(shì)。分析可知社區(qū)劃分的信息量對(duì)社區(qū)的穩(wěn)定性具有較大影響,當(dāng)閾值過(guò)高時(shí),社區(qū)內(nèi)部成員節(jié)點(diǎn)數(shù)量急劇下降,劃分結(jié)果則呈現(xiàn)出越來(lái)越多的獨(dú)立小社區(qū),若γ=1(即兩者相同),則轉(zhuǎn)化為每個(gè)節(jié)點(diǎn)用戶、項(xiàng)目單獨(dú)為一個(gè)社區(qū)的情形,此時(shí)社區(qū)內(nèi)的辦事項(xiàng)以及辦事記錄數(shù)量無(wú)法支持后續(xù)的推薦計(jì)算,推薦結(jié)果則采用Top-k的計(jì)算結(jié)果,因此,推薦結(jié)果的F1-measure值具有明顯的下降趨勢(shì)。針對(duì)不同的數(shù)據(jù)集,需要預(yù)選訓(xùn)練生成最優(yōu)閾值取值范圍,本文仿真實(shí)驗(yàn)中γ取值為0.63。

    圖5 社區(qū)劃分閾值γ參數(shù)分析

    圖6分析了CAS-UC的算法效率,探究CAS-UC在處理不同規(guī)模數(shù)據(jù)的執(zhí)行效率。圖中橫坐標(biāo)百分比是選取實(shí)有人口共計(jì)390萬(wàn)人的百分比進(jìn)行推薦,縱坐標(biāo)的時(shí)間是在相應(yīng)數(shù)據(jù)規(guī)模下平均單個(gè)用戶推薦耗費(fèi)的時(shí)間,單位為秒。結(jié)果顯示,隨著數(shù)據(jù)規(guī)模的百分比增長(zhǎng),CAS-UC產(chǎn)生單條推薦的計(jì)算代價(jià)逐漸減小,體現(xiàn)出Spark計(jì)算平臺(tái)在處理大規(guī)模數(shù)據(jù)的優(yōu)勢(shì)。因而,基于Spark平臺(tái)的CAS-UC的推薦算法更適用于大數(shù)據(jù)環(huán)境下的電子政務(wù)辦事推薦。

    圖6 CAS-UC執(zhí)行效率

    2.3 優(yōu)化討論

    考慮到基于模塊度優(yōu)化的社區(qū)發(fā)現(xiàn)以及序列模式挖掘算法在大規(guī)模數(shù)據(jù)應(yīng)用中復(fù)雜度較高,實(shí)際應(yīng)用場(chǎng)景中需要根據(jù)數(shù)據(jù)集的特點(diǎn)進(jìn)行優(yōu)化。電子政務(wù)推薦中辦事項(xiàng)與用戶當(dāng)前所處階段聯(lián)系緊密,且辦事項(xiàng)的序列特性與辦事時(shí)間的先后順序具有強(qiáng)關(guān)聯(lián)關(guān)系。此外,由于居民日常辦事的頻率與購(gòu)物、看電影以及聽(tīng)音樂(lè)的頻率差距明顯,因此,電子政務(wù)推薦中的數(shù)據(jù)稀疏性更為明顯。

    結(jié)合上述特征分析,在社區(qū)發(fā)現(xiàn)過(guò)程中,社區(qū)模塊度優(yōu)化主要基于用戶辦事記錄產(chǎn)生的鏈接關(guān)系,初始社區(qū)發(fā)現(xiàn)過(guò)程僅針對(duì)具有辦事記錄的用戶,該過(guò)程面向的用戶群體僅占總體的一部分;同時(shí),本文中采用的快速層次發(fā)現(xiàn)算法,主要適用于大規(guī)模網(wǎng)絡(luò)的社區(qū)快速發(fā)現(xiàn),實(shí)際應(yīng)用中初始社區(qū)的發(fā)現(xiàn)效率較高;對(duì)于沒(méi)有辦事記錄的用戶,根據(jù)用戶的基本屬性計(jì)算與已有社區(qū)內(nèi)任意一個(gè)非邊緣節(jié)點(diǎn)用戶的相似性來(lái)計(jì)算其社區(qū)歸屬狀態(tài);此外,由于用戶的基本屬性通常不會(huì)頻繁修改,且用戶的辦事頻率相較于購(gòu)物等其他領(lǐng)域推薦要低,因此全量社區(qū)發(fā)現(xiàn)在一段時(shí)間僅需計(jì)算一次即可,并不需要達(dá)到實(shí)時(shí)計(jì)算要求。CAS-UC結(jié)合了辦事項(xiàng)的序列特性,利用序列模式挖掘算法分析辦事項(xiàng)之間的強(qiáng)關(guān)聯(lián)關(guān)系。實(shí)際場(chǎng)景應(yīng)用中,辦事項(xiàng)總量共計(jì)2萬(wàn)多項(xiàng),通過(guò)對(duì)辦事項(xiàng)的分布熱度進(jìn)行分析,存在辦事記錄的辦事項(xiàng)大多數(shù)集中于300多項(xiàng)辦事項(xiàng)以內(nèi),結(jié)合線下相關(guān)業(yè)務(wù)人員整理的熱門(mén)辦事項(xiàng)列表,得出可能存在序列模式的辦事項(xiàng)主要集中于熱門(mén)辦事項(xiàng)內(nèi),綜上,序列模式的挖掘無(wú)需對(duì)全量的辦事項(xiàng)或辦事記錄進(jìn)行運(yùn)算,僅針對(duì)分布熱度較高的辦事記錄進(jìn)行序列模式挖掘即可達(dá)到預(yù)期效果。

    3 結(jié)語(yǔ)

    “互聯(lián)網(wǎng)+政務(wù)”是建立智慧城市的核心業(yè)務(wù)之一,考慮到電子政務(wù)辦事項(xiàng)具有的序列化特征,難以直接將傳統(tǒng)個(gè)性化推薦算法直接擴(kuò)展應(yīng)用,本文綜合考慮社區(qū)與關(guān)聯(lián)序列挖掘提出一種個(gè)性化的“互聯(lián)網(wǎng)+政務(wù)”推薦算法(CAS-UC)。CAS-UC基于用戶社區(qū)和辦事項(xiàng)內(nèi)存在的序列特征進(jìn)行建模推薦。用戶社區(qū)發(fā)現(xiàn)不僅有助于提高推薦結(jié)果的多樣性,而且減少核心推薦過(guò)程的計(jì)算量;辦事項(xiàng)關(guān)聯(lián)序列挖掘深入電子政務(wù)的業(yè)務(wù)特點(diǎn),保障推薦結(jié)果的精度。仿真實(shí)驗(yàn)從推薦的精準(zhǔn)率、召回率、覆蓋率和多樣性等指標(biāo)評(píng)估所提出的CAS-UC算法性能。CAS-UC在多樣性和推薦精度上比傳統(tǒng)推薦算法(如協(xié)同過(guò)濾推薦、矩陣分解以及基于語(yǔ)義相似度的推薦算法)推薦的精確度更高,適用于具有明顯序列或流程特性項(xiàng)目推薦;因此,CAS-UC推薦算法大數(shù)據(jù)環(huán)境下的電子政務(wù)辦事項(xiàng)推薦具有一定優(yōu)勢(shì)?;赟park集群計(jì)算平臺(tái)有效地提高CAS-UC的數(shù)據(jù)處理效率。

    References)

    [1] 鄭躍平,黃博涵. “互聯(lián)網(wǎng)+政務(wù)”報(bào)告(2016)——移動(dòng)政務(wù)的現(xiàn)狀與未來(lái)[J]. 電子政務(wù), 2016(9):16-31.(ZHENG Y P, HUANG B H. “Internet+government” report (2016)—the current situation and future of mobile government [J]. E-Government, 2016(9):16-31.)

    [2] 姜嵐.探索“互聯(lián)網(wǎng)+政務(wù)”服務(wù)新模式[J].黑龍江科技信息,2016(13):183.(JIANG L. Exploring the new mode of “Internet+Government Service” [J]. Heilongjiang Science and Technology Information, 2016(13): 183.)

    [3] ZHAO W X, LI S, HE Y, et al. Connecting social media to e-commerce: cold-start product recommendation using microblogging information [J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(5): 1147-1159.

    [4] SCHOLZ M, DORNER V, SCHRYEN G, et al. A configuration-based recommender system for supporting e-commerce decisions [J]. European Journal of Operational Research, 2017, 259(1): 205-215.

    [5] GUO C. Feature generation and selection on the heterogeneous graph for music recommendation [C] // Proceedings of the 9th ACM International Conference on Web Search and Data Mining. New York: ACM, 2016: 715.

    [6] ABDOLLAHI B, NASRAOUI O. Explainable matrix factorization for collaborative filtering [C]// Proceedings of the 25th International Conference Companion on World Wide Web. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2016: 5-6.

    [7] 牟向偉.模糊語(yǔ)義個(gè)性化推薦系統(tǒng)在電子政務(wù)中的應(yīng)用研究[D].大連:大連海事大學(xué),2010:13-20.(MOU X W. Fuzzy semantic personalized recommendation system and application to e-government [D]. Dalian: Dalian Maritime University, 2010: 13-20.)

    [8] GUO X, LU J. Intelligent e-government services with personalized recommendation techniques [J]. International Journal of Intelligent Systems, 2007, 22(5): 401-417.

    [9] XU Y, SHAMBOUR Q, LIN Q, et al. BizSeeker: a hybrid semantic recommendation system for personalized government-to-business e-services [J]. Internet Research, 2010, 20(3): 342-365.

    [10] 楊大寨.基于本體理論的政務(wù)信息資源個(gè)性化應(yīng)用研究[D].合肥:合肥工業(yè)大學(xué),2014:15-40.(YANG D Z. Research on personalized applications of government information resource based on ontological theory [D]. Hefei: Hefei University of Technology, 2014: 15-40.)

    [11] AL-HASSAN M, LU H, LU J. A semantic enhanced hybrid recommendation approach: a case study of e-government tourism service recommendation system [J]. Decision Support Systems, 2015, 72: 97-109.

    [12] ZHU Y, ZHANG S, WANG Y, et al. A social network-based expertise-enhanced collaborative filtering method for e-government service recommendation [J]. Advances in Information Sciences & Service Sciences, 2013, 5(10): 724-735.

    [13] AYACHI R, BOUKHRIS I, MELLOULI S, et al. Proactive and reactive e-government services recommendation [J]. Universal Access in the Information Society, 2016, 15(4): 681-697.

    [14] SHAMBOUR Q, LU J. A hybrid trust-enhanced collaborative filtering recommendation approach for personalized government-to-business e-services [J]. International Journal of Intelligent Systems, 2011, 26(9): 814-843.

    [15] NEWMAN M E J. Detecting community structure in networks [J]. The European Physical Journal B, 2004, 38(2): 321-330.

    [16] BLONDEL V D, GUILLAUME J L, LAMBIOTTE R, et al. Fast unfolding of community hierarchies in large networks [J]. Journal of Statistical Mechanics, 2008, 3(1): 1-7.

    [17] SARWAR B, KARYPIS G, KONSTAN J, et al. Analysis of recommendation algorithm for e-commerce [C]// Proceedings of the 2nd ACM Conference on Electronic commerce. New York: ACM, 2000: 158-167.

    [18] HAMMAR M, KARLSSON R, NILSSON B J. Using maximum coverage to optimize recommendation systems in e-commerce [EB/OL]. [2016- 11- 26]. http://muep.mah.se/bitstream/handle/2043/16856/paper-theoneused.pdf?sequence=2&isAllowed=y.

    [19] ZIEGLER C N, MCNEE S M, KONSTAN J A, et al. Improving recommendation lists through topic diversification [C] // Proceedings of the 14th International Conference on World Wide Web. New York: ACM, 2005: 22-32.

    E-governmentrecommendationalgorithmcombiningcommunityandassociationsequencemining

    HUANG Yakun1,2*, WANG Yang1, WANG Mingxing1

    (1.SchoolofMathematics&ComputerScience,AnhuiNormalUniversity,WuhuAnhui241000,China;2.AnhuiIFLYTEKIntelligentTechnologyCorporation,WuhuAnhui241000,China)

    Personalized recommendation as an effective means of information gathering has been successfully applied to e-commerce, music and film and other fields. Most of the studies have focused on the recommended accuracy, lack of consideration of the diversity of recommended results, and neglected the process characteristics of the recommended items in the application area (e. g. “Internet of Things plus E-government”). Aiming at this problem, an e-government recommendation algorithm Combining User Community and Associated Sequence mining (CAS-UC) was proposed to recommend the items most associated with users. Firstly, the static basic attributes and dynamic behavior attributes of the users and items were modeled separately. Secondly, based on the user’s historical record and attribute similarity for user community discovery, the user set most similar to the target user was pre-filtered to improve the diversity of the recommended results and reduce the computational amount of the core recommendation process. Finally, the associated sequence mining of the items was taken full account of the business characteristics of e-government, and the item sequence mining with time dimension was added to further improve the accuracy of the recommended results. The simulation experiments were carried out with the information after desensitization of users on the Spark platform of ewoho.com in Wuhu. The experimental results show that CAS-UC is suitable for the recommendation of items with sequence or process characteristics, and has higher recommendation accuracy compared with traditional recommendation algorithms such as cooperative filtering recommendation, matrix factorization and recommendation algorithm based on semantic similarity. The multi-community attribution factor of the user increases the diversity of the recommended results.

    user community; associated sequence mining; Spark framework; diversity; e-government recommendation

    2017- 04- 19;

    2017- 07- 16。

    國(guó)家自然科學(xué)基金資助項(xiàng)目(61572036); 安徽省人文社科重大專項(xiàng)(SK2014ZD033)。

    黃亞坤(1992—),男,安徽合肥人,碩士研究生,CCF會(huì)員,主要研究方向:個(gè)性化推薦、數(shù)據(jù)挖掘; 王楊(1971—),男,安徽靈璧人,教授,博士,主要研究方向:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、智能Agent; 王明星(1992—) ,男,安徽合肥人,碩士研究生,CCF會(huì)員,主要研究方向:數(shù)據(jù)挖掘,社交網(wǎng)絡(luò)。

    1001- 9081(2017)09- 2671- 07

    10.11772/j.issn.1001- 9081.2017.09.2671

    TP393

    A

    This work is partially supported by the National Natural Science Foundation of China (61572036), the Key Grant Project of Humanities and Social Sciences of Anhui Province (SK2014ZD033).

    HUANGYakun, born in 1992, M. S. candidate. His research interests include personalized recommendation, data mining.

    WANGYang, born in 1971, Ph. D., professor. His research interests include data mining, machine learning, intelligent Agent.

    WANGMingxing, born in 1992, M. S. candidate. His research interests include data mining, social network.

    猜你喜歡
    電子政務(wù)辦事事項(xiàng)
    如果要獻(xiàn)血,需注意以下事項(xiàng)
    中老年保健(2022年4期)2022-08-22 03:01:48
    宜昌“清單之外無(wú)事項(xiàng)”等
    細(xì)節(jié)指引 辦事不抓瞎
    疫情期間,這些事項(xiàng)請(qǐng)注意!
    論基于云的電子政務(wù)服務(wù)平臺(tái)構(gòu)建
    青銅器收藏10大事項(xiàng)
    各自為政
    履職盡責(zé)謀發(fā)展 為民辦事解憂難
    明天有事
    少年文摘(2016年4期)2016-08-13 17:34:22
    電子政務(wù)工程項(xiàng)目績(jī)效評(píng)價(jià)研究
    清流县| 永定县| 新干县| 泸西县| 吉安县| 南投市| 崇信县| 庆城县| 车险| 万山特区| 策勒县| 麻栗坡县| 伊金霍洛旗| 简阳市| 万年县| 江陵县| 夏津县| 织金县| 邹平县| 濮阳县| 碌曲县| 武陟县| 沭阳县| 德安县| 融水| 河西区| 宝应县| 水城县| 永安市| 榆中县| 青川县| 抚远县| 吴忠市| 县级市| 湟源县| 澳门| 丹阳市| 呼图壁县| 孟州市| 南安市| 勃利县|