張 琳 張 進(jìn)
(南京郵電大學(xué)計(jì)算機(jī)學(xué)院, 南京 210003)
基于PPIN的社交網(wǎng)絡(luò)推薦系統(tǒng)
張 琳 張 進(jìn)
(南京郵電大學(xué)計(jì)算機(jī)學(xué)院, 南京 210003)
為了提升海量數(shù)據(jù)下社交網(wǎng)絡(luò)推薦系統(tǒng)的性能,將傳統(tǒng)聚類(lèi)方法與蛋白質(zhì)網(wǎng)絡(luò)的新特性相結(jié)合,提出了一種競(jìng)爭(zhēng)-抑制節(jié)點(diǎn)模型(CINM).該模型將數(shù)據(jù)的整個(gè)處理流程分為節(jié)點(diǎn)重構(gòu)、膜外聚類(lèi)、膜內(nèi)聚類(lèi)及內(nèi)容推薦4個(gè)部分,分別完成數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗、精度匹配與數(shù)據(jù)輸出.在數(shù)據(jù)預(yù)處理過(guò)程中,通過(guò)矩陣運(yùn)算,將復(fù)雜多維數(shù)據(jù)集構(gòu)成的用戶信息轉(zhuǎn)換成結(jié)構(gòu)化定量數(shù)據(jù),并產(chǎn)生數(shù)據(jù)摘要.數(shù)據(jù)清理通過(guò)判斷競(jìng)爭(zhēng)值來(lái)獲取用戶的特征數(shù)據(jù).在精度匹配階段,基于蛋白質(zhì)相互作用網(wǎng)絡(luò)的相似性匹配原理獲取相似性最大的一組值,并結(jié)合與用戶相關(guān)聯(lián)的數(shù)據(jù)項(xiàng)進(jìn)行最終內(nèi)容或關(guān)系的推薦.實(shí)驗(yàn)結(jié)果表明,CINM模型可以通過(guò)數(shù)據(jù)預(yù)處理和特征值競(jìng)爭(zhēng)抑制機(jī)制較好地完成數(shù)據(jù)過(guò)濾,從而提高數(shù)據(jù)處理效率并提升最終推薦結(jié)果的精確性.
社交網(wǎng)絡(luò);蛋白質(zhì)相互作用網(wǎng)絡(luò);聚類(lèi);推薦系統(tǒng);大數(shù)據(jù)
隨著互聯(lián)網(wǎng)的發(fā)展,社交網(wǎng)絡(luò)呈現(xiàn)出飛速發(fā)展的態(tài)勢(shì),社交網(wǎng)絡(luò)的服務(wù)形態(tài)也隨之發(fā)生著急劇變化.現(xiàn)在的網(wǎng)絡(luò)呈現(xiàn)出一種綜合發(fā)展的態(tài)勢(shì),網(wǎng)絡(luò)中各個(gè)領(lǐng)域不再相互獨(dú)立地存在,而社交網(wǎng)絡(luò)作為人類(lèi)社會(huì)關(guān)系在網(wǎng)絡(luò)中的再重現(xiàn)更是整合了各種數(shù)據(jù)資源,包含了各種聯(lián)接關(guān)系.新的發(fā)展對(duì)社交網(wǎng)絡(luò)的服務(wù)也提出了新的要求.蛋白質(zhì)相互作用網(wǎng)絡(luò)(protein-protein interaction network,PPIN)是分析蛋白質(zhì)之間復(fù)雜結(jié)構(gòu)、形態(tài)之間相互作用機(jī)制的一種研究工具.PPIN通過(guò)定義蛋白質(zhì)之間的相似性來(lái)確定其功能之間的聯(lián)系.蛋白質(zhì)屬性復(fù)雜,PPIN作為復(fù)雜網(wǎng)絡(luò)也具有小世界性與無(wú)尺度性,與社交網(wǎng)絡(luò)存在著相似性,可以用來(lái)作為研究社交網(wǎng)絡(luò)的工具.
在推薦系統(tǒng)中,聚類(lèi)作為一種成熟的理論得到了廣泛應(yīng)用.傳統(tǒng)聚類(lèi)技術(shù)針對(duì)的單一屬性在日趨復(fù)雜的社交網(wǎng)絡(luò)中難以發(fā)揮有效作用.文獻(xiàn)[1]針對(duì)社交網(wǎng)絡(luò)中出現(xiàn)的高維復(fù)雜數(shù)據(jù)集,將高維數(shù)據(jù)映射到低維空間,采用矩陣與對(duì)應(yīng)鏈接結(jié)構(gòu),體現(xiàn)了復(fù)雜數(shù)據(jù)中的內(nèi)在聯(lián)系,并將特征屬性與其具體的內(nèi)容分離,便于量化指標(biāo).文獻(xiàn)[2]提出了一種新的分析蛋白質(zhì)結(jié)構(gòu)相似性的方法,并實(shí)現(xiàn)了將分析蛋白質(zhì)結(jié)構(gòu)功能向結(jié)合分析文本信息的普及,使得蛋白質(zhì)分析方法可以運(yùn)用于各種包含機(jī)構(gòu)關(guān)系的數(shù)據(jù)庫(kù)中.文獻(xiàn)[3]闡述了基于圖的聚類(lèi)與蛋白質(zhì)相互作用網(wǎng)絡(luò)描述和分類(lèi)方法的共同特點(diǎn).文獻(xiàn)[4]提出了一種大型社交網(wǎng)絡(luò)中通過(guò)定義用戶相似性來(lái)進(jìn)行有效推薦的方法.在非單一關(guān)系的網(wǎng)絡(luò)中,通過(guò)對(duì)比擁有共同利益和資源的用戶與一般社交網(wǎng)絡(luò)中用戶之間的差別,揭示了相似性在有效推薦中的重要作用.文獻(xiàn)[5]提出了一種推薦高品質(zhì)網(wǎng)頁(yè)內(nèi)容時(shí)的核心與長(zhǎng)期頻率逆文檔相關(guān)程度算法(TF-IDF).文獻(xiàn)[6-7]對(duì)存在先驗(yàn)印象下的推薦系統(tǒng)進(jìn)行了研究,并以一個(gè)圖書(shū)信息推薦系統(tǒng)為例,證明此推薦系統(tǒng)的實(shí)用性.文獻(xiàn)[8]針對(duì)推薦系統(tǒng)的數(shù)據(jù)稀疏與冷啟動(dòng)問(wèn)題,結(jié)合聚類(lèi)算法與Eclat算法,對(duì)用戶相似性轉(zhuǎn)化數(shù)據(jù)進(jìn)行了深入的推薦處理.文獻(xiàn)[9-11]分別從用戶偏好、用戶聚類(lèi)、用戶相似度出發(fā),設(shè)計(jì)了對(duì)應(yīng)的社交網(wǎng)絡(luò)推薦系統(tǒng),將具有相同屬性的用戶分為一組,解決了大量社會(huì)媒體的推薦問(wèn)題.并以新浪微博為例,解決了弱關(guān)系下新用戶冷啟動(dòng)的問(wèn)題,提高了推薦準(zhǔn)確率與用戶滿意度.
對(duì)已有數(shù)據(jù)的分類(lèi)度量是一項(xiàng)重要工作.文獻(xiàn)[12]提出了一種基于凝聚式聚類(lèi)方法抽取網(wǎng)絡(luò)層次結(jié)構(gòu)的算法,基于拓?fù)浣Y(jié)構(gòu)分析,給出了社會(huì)網(wǎng)絡(luò)的標(biāo)注密度估計(jì)函數(shù),并通過(guò)其在網(wǎng)絡(luò)層次結(jié)構(gòu)上的聚合操作,計(jì)算聚簇的特征性指標(biāo),從而發(fā)現(xiàn)特征聚簇.文獻(xiàn)[13]通過(guò)改進(jìn)遺傳算法,減少了搜算空間,加速了算法的收斂.文獻(xiàn)[14-15]分別提出了蛋白序列聚類(lèi)方法以及利用改進(jìn)蜂群算法提高蛋白質(zhì)網(wǎng)絡(luò)聚類(lèi)的方法,基于復(fù)雜網(wǎng)絡(luò)之間的相似性,可將這些算法延伸至其他領(lǐng)域.文獻(xiàn)[16]通過(guò)隱式反饋處理大規(guī)模用戶的習(xí)慣信息,并基于其缺少負(fù)反饋的問(wèn)題設(shè)計(jì)了評(píng)價(jià)機(jī)制,從而提升了數(shù)據(jù)的訓(xùn)練效率.
本文以PPIN為基礎(chǔ),結(jié)合協(xié)同過(guò)濾技術(shù),構(gòu)建了CINM模型.在CINM模型中,大量的節(jié)點(diǎn)信息通過(guò)一種稱(chēng)為特征基因的數(shù)據(jù)摘要游走于PPIN中.網(wǎng)絡(luò)中節(jié)點(diǎn)產(chǎn)生的數(shù)據(jù)摘要到達(dá)該網(wǎng)絡(luò)中的一個(gè)隨機(jī)節(jié)點(diǎn)后,與該節(jié)點(diǎn)的特征屬性進(jìn)行匹配,通過(guò)正負(fù)壓競(jìng)爭(zhēng)機(jī)制篩選出滿足條件的節(jié)點(diǎn),然后進(jìn)入下一個(gè)聚類(lèi)推薦環(huán)節(jié),由此便可大量減少聚類(lèi)過(guò)程中運(yùn)算資源的開(kāi)銷(xiāo).在推薦環(huán)節(jié)中,根據(jù)節(jié)點(diǎn)的優(yōu)勢(shì)屬性結(jié)合其可能的劣勢(shì)屬性計(jì)算相對(duì)密度值,進(jìn)而分析其與目標(biāo)節(jié)點(diǎn)的相對(duì)吸引力,從而完成最終的推薦任務(wù).
本模型在PPIN的基礎(chǔ)上,以節(jié)點(diǎn)間的相似性為度量依據(jù),確定節(jié)點(diǎn)的關(guān)聯(lián)性.在關(guān)聯(lián)性到達(dá)設(shè)定要求的情況下,對(duì)節(jié)點(diǎn)所含數(shù)據(jù)進(jìn)行聚類(lèi)運(yùn)算,根據(jù)聚類(lèi)結(jié)果進(jìn)行推薦,從而對(duì)社交網(wǎng)絡(luò)中的實(shí)時(shí)和高維復(fù)雜的數(shù)據(jù)進(jìn)行高效準(zhǔn)確的處理.模型示意圖如圖1所示.
圖1 CINM模型示意圖
CINM模型將數(shù)據(jù)的整個(gè)處理流程分為節(jié)點(diǎn)重構(gòu)、膜外聚類(lèi)、膜內(nèi)聚類(lèi)、內(nèi)容推薦4個(gè)部分.
1) 節(jié)點(diǎn)重構(gòu).構(gòu)建適應(yīng)CINM模型的節(jié)點(diǎn)數(shù)據(jù),包含外部競(jìng)爭(zhēng)通道、免疫機(jī)制、內(nèi)部密度控制與核心表達(dá)結(jié)構(gòu).
2) 膜外聚類(lèi).節(jié)點(diǎn)重構(gòu)后產(chǎn)生的特征基因游走于PPIN中,遇到匹配節(jié)點(diǎn)時(shí)嘗試通過(guò)外部競(jìng)爭(zhēng)通道,目的是對(duì)大量數(shù)據(jù)源進(jìn)行預(yù)處理,將相似度不合要求的數(shù)據(jù)源先期排除,減少了聚類(lèi)的開(kāi)銷(xiāo).
3) 膜內(nèi)聚類(lèi).對(duì)于已經(jīng)通過(guò)了競(jìng)爭(zhēng)通道并且沒(méi)有觸發(fā)免疫機(jī)制的源數(shù)據(jù),進(jìn)行密度換算,并與待匹配節(jié)點(diǎn)的密度進(jìn)行對(duì)比,從而決定最終的待推薦目標(biāo).
4) 內(nèi)容推薦.從待推薦目標(biāo)中分析用戶可能的潛在社會(huì)關(guān)系、潛在興趣以及感興趣的內(nèi)容.
2.1 節(jié)點(diǎn)重構(gòu)
社交網(wǎng)絡(luò)中的節(jié)點(diǎn)對(duì)應(yīng)著現(xiàn)實(shí)生活中的人.眾所周知,人具有復(fù)雜的屬性,故其在社交網(wǎng)絡(luò)中的活動(dòng)無(wú)法僅由一個(gè)表示相對(duì)位置與結(jié)構(gòu)關(guān)聯(lián)的純節(jié)點(diǎn)表示.社交網(wǎng)絡(luò)中的各種操作都包含了復(fù)雜數(shù)據(jù),由這些復(fù)雜數(shù)據(jù)組成的多維數(shù)據(jù)集對(duì)進(jìn)行相似節(jié)點(diǎn)的聚類(lèi)造成了很大的干擾,并提升了聚類(lèi)的難度.因此,在進(jìn)行具體聚類(lèi)操作前,對(duì)多維數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理是有必要的.另外,為了完成針對(duì)性的推薦,應(yīng)避免數(shù)據(jù)的過(guò)分扎堆聚集,即聚類(lèi)結(jié)果應(yīng)盡量是離散的.
CINM模型仿細(xì)胞結(jié)構(gòu)包括外部競(jìng)爭(zhēng)通道、免疫機(jī)制、內(nèi)部密度控制與核心表達(dá)4個(gè)模塊.
外部競(jìng)爭(zhēng)通道的作用是進(jìn)行聚類(lèi)前的數(shù)據(jù)預(yù)處理,通過(guò)設(shè)置競(jìng)爭(zhēng)通道來(lái)實(shí)現(xiàn)數(shù)據(jù)壁壘的功能,過(guò)濾掉關(guān)聯(lián)性低于設(shè)定值的數(shù)據(jù)源及無(wú)關(guān)數(shù)據(jù).
免疫機(jī)制與競(jìng)爭(zhēng)通道相輔相成,用戶作為社交網(wǎng)絡(luò)的主體,對(duì)內(nèi)容有著天然的好惡特征,故對(duì)于包含有抗原的數(shù)據(jù)源進(jìn)行選擇性過(guò)濾.
內(nèi)部密度控制是對(duì)已經(jīng)通過(guò)了競(jìng)爭(zhēng)通道的數(shù)據(jù),在進(jìn)行聚類(lèi)運(yùn)算時(shí)根據(jù)待匹配節(jié)點(diǎn)的狀態(tài)由膜內(nèi)聚類(lèi)算法控制其密度,進(jìn)而控制其向待匹配節(jié)點(diǎn)靠攏的速度.
核心表達(dá)功能與外部競(jìng)爭(zhēng)通道相配合,通過(guò)摘要算法產(chǎn)生一個(gè)特征基因數(shù)據(jù)包,該數(shù)據(jù)包進(jìn)入PPIN進(jìn)行傳播,與其他節(jié)點(diǎn)的競(jìng)爭(zhēng)通道進(jìn)行匹配.
2.2 膜外聚類(lèi)
CINM節(jié)點(diǎn)產(chǎn)生的特征基因數(shù)據(jù)包在PPIN中隨機(jī)游走,到達(dá)一個(gè)CINM節(jié)點(diǎn)時(shí)嘗試穿越競(jìng)爭(zhēng)通道.特征基因數(shù)據(jù)包是通過(guò)CINM核心表達(dá)機(jī)制產(chǎn)生的一組數(shù)據(jù)摘要,包含了對(duì)應(yīng)節(jié)點(diǎn)的基本數(shù)據(jù)內(nèi)容,由一個(gè)m×n矩陣G=(fij)m×n組成,其中fij為用戶的特征表達(dá)值(非負(fù)).
用戶的數(shù)據(jù)類(lèi)型由核心表達(dá)機(jī)制產(chǎn)生的一組數(shù)據(jù)摘要組成,即矩陣G的每一列代表用戶的一類(lèi)特征,每一行代表該列所代表特征的具體數(shù)值.由于每個(gè)節(jié)點(diǎn)都采用CINM結(jié)構(gòu),故產(chǎn)生的數(shù)據(jù)摘要在結(jié)構(gòu)上是一致的,不同之處在于矩陣中代表屬性的特征值存在差異.
xt,i≠0; xp,i≠0; fij≥?
由現(xiàn)實(shí)關(guān)系易知,人與人之間存在較多共同點(diǎn),但因?yàn)樵谀承┟舾行畔⒎矫娲嬖诓煌捶?故無(wú)法成為朋友關(guān)系.在膜外聚類(lèi)階段引入免疫機(jī)制,若αt中存在某一特定的特征值列與αp中預(yù)先設(shè)定的觸發(fā)機(jī)制吻合,則忽略競(jìng)爭(zhēng)電壓φ的作用,直接對(duì)其進(jìn)行過(guò)濾.
2.3 膜內(nèi)聚類(lèi)
通過(guò)了競(jìng)爭(zhēng)通道的特征基因進(jìn)入結(jié)構(gòu)內(nèi)部后,源節(jié)點(diǎn)與待匹配節(jié)點(diǎn)具有一定的相似性.在PPIN中存在大量的源節(jié)點(diǎn),故在一個(gè)持續(xù)的時(shí)間段內(nèi),會(huì)有持續(xù)不斷的數(shù)據(jù)摘要通過(guò)CINM結(jié)構(gòu)的競(jìng)爭(zhēng)通道.對(duì)于不斷刷新的數(shù)據(jù),一次聚類(lèi)只能完成有限的推薦,匹配節(jié)點(diǎn)本身的特征屬性不斷發(fā)生改變,不同時(shí)間段通過(guò)競(jìng)爭(zhēng)通道的特征基因具有不同的特性,推薦效果具有實(shí)時(shí)性.根據(jù)用戶近一段時(shí)間的興趣取向,進(jìn)行針對(duì)性的內(nèi)容與關(guān)系推薦,由此引入了一種密度控制概念的增量聚類(lèi)方法.
密度控制的增量聚類(lèi)方法是指按照數(shù)據(jù)類(lèi)型對(duì)與匹配節(jié)點(diǎn)具有一定程度相似性的節(jié)點(diǎn)數(shù)據(jù)賦予一定的權(quán)值,然后采用密度換算算法將數(shù)據(jù)的權(quán)值與待匹配節(jié)點(diǎn)的權(quán)值進(jìn)行密度換算.密度大于匹配節(jié)點(diǎn)的節(jié)點(diǎn)數(shù)據(jù)下沉并聚集到核心周?chē)?密度相同的保持平衡;密度小于匹配節(jié)點(diǎn)的節(jié)點(diǎn)數(shù)據(jù)上升并遠(yuǎn)離核心.由此便可通過(guò)密度控制算法將一個(gè)時(shí)間段內(nèi)最符合條件的節(jié)點(diǎn)聚集到核心附近,而相似度、關(guān)聯(lián)度小的節(jié)點(diǎn)則按其密度值漂浮在核心周?chē)?呈現(xiàn)出明顯的離散型變化.
D中的元素為fij所代表屬性的具體元素值,每一個(gè)相同的元素可以提供v的密度獎(jiǎng)勵(lì).每一個(gè)強(qiáng)勢(shì)屬性提供V的密度獎(jiǎng)勵(lì),每一個(gè)弱勢(shì)屬性提供V的密度懲罰.那么,強(qiáng)勢(shì)屬性中總的密度獎(jiǎng)勵(lì)為V+nv,弱勢(shì)屬性中總的密度獎(jiǎng)勵(lì)為nv-V.在整個(gè)節(jié)點(diǎn)范圍內(nèi),所獲得的密度獎(jiǎng)勵(lì)為ns(nv+V)-nw(nv-V),其中,ns表示具有競(jìng)爭(zhēng)屬性的數(shù)據(jù)列向量,nw表示具有抑制屬性的數(shù)據(jù)列向量.源節(jié)點(diǎn)的密度可表示為
推薦節(jié)點(diǎn)篩選的算法步驟如下:
① 對(duì)每個(gè)已通過(guò)了入膜運(yùn)算篩選的節(jié)點(diǎn),選出強(qiáng)勢(shì)屬性值及弱勢(shì)屬性值fs,i∩fw,i;
② 在G=(fij)m×n中選出[fs,i∩fw,i]的值;
③ 比較Dt∨Dp;
⑤ 計(jì)算ρp;
⑥ 計(jì)算ρt/ρp;
⑦ 在ρt/ρp中聚類(lèi);
⑧ 得到聚類(lèi)結(jié)果.
實(shí)驗(yàn)過(guò)程中通過(guò)選取隨機(jī)函數(shù)來(lái)獲得用戶屬性值,在隨機(jī)數(shù)據(jù)的基礎(chǔ)上獲取摘要矩陣,并構(gòu)建索引結(jié)構(gòu),最大限度地逼近真實(shí)的使用環(huán)境.實(shí)驗(yàn)機(jī)器為Intel Core2雙核 2GRAM Windows XP系統(tǒng).
3.1 數(shù)據(jù)預(yù)處理效率
協(xié)同過(guò)濾(CF)是一種比較成熟的推薦方法,本文選取其作為比較對(duì)象.CINM的特征值取為15,可以作為稀疏矩陣處理.CF采用m×n的矩陣來(lái)表示用戶對(duì)物品的喜好情況,打分越高則表示越喜歡該物品,0表示沒(méi)有買(mǎi)過(guò)該物品.二者數(shù)據(jù)過(guò)濾效率比較結(jié)果見(jiàn)圖2.由圖可知,與CF相比,CINM可以更有效地處理數(shù)據(jù),選出較合理的節(jié)點(diǎn),從而有利于提高推薦的準(zhǔn)確率.
圖2 數(shù)據(jù)過(guò)濾效率對(duì)比圖
3.2 時(shí)效對(duì)比
在整個(gè)處理過(guò)程中,CINM的時(shí)間效率對(duì)整個(gè)模型的可行性會(huì)產(chǎn)生重要影響.由于量化后的特征矩陣與純文本信息的處理具有一致性,在時(shí)間效率上具有可比性,本文選取文獻(xiàn)[5]中的TF-IDF作為比較對(duì)象.二者的時(shí)效性比較結(jié)果如圖3所示.
圖3 時(shí)效性比較
由圖3可知,CINM的時(shí)間開(kāi)銷(xiāo)隨著節(jié)點(diǎn)總數(shù)的增大而緩慢增大.鑒于隨機(jī)數(shù)據(jù)的不確定性,算法的時(shí)間開(kāi)銷(xiāo)出現(xiàn)一定波動(dòng),并非嚴(yán)格的線性關(guān)系,而是一種帶波動(dòng)的上升趨勢(shì),且隨著節(jié)點(diǎn)總數(shù)的增多,時(shí)間開(kāi)銷(xiāo)總體上處于合理的增長(zhǎng)范圍內(nèi).相比IF-IDF,CINM在時(shí)間上具有明顯優(yōu)勢(shì).
1) 節(jié)點(diǎn)重構(gòu)模塊借助矩陣運(yùn)算,將不同類(lèi)型的數(shù)據(jù)進(jìn)行統(tǒng)一的量化處理,變成具有膜結(jié)構(gòu)與特征基因的數(shù)據(jù)節(jié)點(diǎn),從而達(dá)到了數(shù)據(jù)預(yù)處理的目的.
2) 膜外聚類(lèi)模塊借助了蛋白質(zhì)相互作用網(wǎng)絡(luò)中的蛋白質(zhì)間功能匹配方法,以相似性為依據(jù),能夠過(guò)濾噪聲節(jié)點(diǎn)并通過(guò)引入免疫機(jī)制,從而提高了推薦系統(tǒng)的準(zhǔn)確率.
3) 膜內(nèi)聚類(lèi)模塊將經(jīng)過(guò)預(yù)處理和清洗操作的數(shù)據(jù)進(jìn)行密度換算,通過(guò)與待匹配節(jié)點(diǎn)進(jìn)行對(duì)比,選擇出待推薦節(jié)點(diǎn),并交給內(nèi)容推薦模塊,完成最終的推薦,從而提高了推薦結(jié)果的高效性.
References)
[1]Altingovde I S, Subakan ? N, Ulusoy ?. Cluster searching strategies for collaborative recommendation systems[J].InformationProcessing&Management, 2013, 49(3): 688-697. DOI:10.1016/j.ipm.2012.07.008.
[2]Franceschini A, Szklarczyk D, Frankild S, et al. STRING v9.1: Protein-protein interaction networks, with increased coverage and integration[J].NucleicAcidsRes, 2013, 41(D1): D808-D815. DOI:10.1093/nar/gks1094.
[3]Pizzuti C, Rombo S E, Marchiori E. Complex detection in protein-protein interaction networks: A compact overview for researchers and practitioners [C]//10thEuropeanConferenceonEvolutionaryComputation,MachineLearningandDataMininginBioinformatics. Málaga, Spain, 2012: 211-223. DOI:10.1007/978-3-642-29066-4_19.
[4]de Meo P, Nocera A, Terracina G, et al. Recommendation of similar users, resources and social networks in a Social Internetworking Scenario[J].InformationSciences, 2011, 181(7): 1285-1305. DOI:10.1016/j.ins.2010.12.001.
[5]Sohn J S, Bae U B, Chung I J. Contents recommendation method using social network analysis[J].WirelessPersonalCommunications, 2013, 73(4): 1529-1546. DOI:10.1007/s11277-013-1264-z.
[6]Kempe D, Kleinberg J, Tardos é. Influential nodes in a diffusion model for social networks[C]//InternationalColloquiumonAutomata,LanguagesandProgramming. Lisbon, Portugal, 2005: 1127-1138. DOI:10.1007/11523468_91.
[7]Leem B, Chun H. An impact of online recommendation network on demand[J].ExpertSystemswithApplications, 2014, 41(4): 1723-1729. DOI:10.1016/j.eswa.2013.08.071.
[8]Pandya S, Shah J, Joshi N, et al. A novel hybrid based recommendation system based on clustering and association mining[C]//10thInternationalConferenceonSensingTechnology. Nanjing, China, 2016: 1-6. DOI:10.1109/icsenst.2016.7796287.
[9]賈大文,曾承,彭智勇,等.一種基于用戶偏好自動(dòng)分類(lèi)的社會(huì)媒體共享和推薦方法[J].計(jì)算機(jī)學(xué)報(bào),2012,35(11):2381-2391. DOI:10.3724/SP.J.1016.2012.02381. Jia Dawen, Zeng Cheng, Peng Zhiyong, et al. A user preference based automatic potential group generation method for social media sharing and recommendation[J].ChineseJournalofComputers, 2012, 35(11): 2381-2391. DOI:10.3724/SP.J.1016.2012.02381.(in Chinese)
[10]陳克寒,韓盼盼,吳健.基于用戶聚類(lèi)的異構(gòu)社交網(wǎng)絡(luò)推薦算法[J].計(jì)算機(jī)學(xué)報(bào),2013,36(2):349-359. DOI:10.3724/SP.J.1016.2013.00349. Chen Kehan, Han Panpan, Wu Jian. User clustering based social network recommendation[J].ChineseJournalofComputers, 2013, 36(2): 349-359. DOI:10.3724/SP.J.1016.2013.00349.(in Chinese)
[11]榮輝桂,火生旭,胡春華,等.基于用戶相似度的協(xié)同過(guò)濾推薦算法[J].通信學(xué)報(bào),2014(2):16-24. Rong Huigui, Huo Shengxu, Hu Chunhua, et al. User similarity-based collaborative filtering recommendation algorithm[J].CommunicationJournal, 2014(2): 16-24. (in Chinese)
[12]何東曉,周栩,王佐,等.復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘——基于聚類(lèi)融合的遺傳算法[J].自動(dòng)化學(xué)報(bào),2010,36(8):1160-1170. He Dongxiao, Zhou Xu, Wang Zuo, et al. Community mining in complex networks—Clustering combination based genetic algorithm [J].ActaAutomaticaSinica, 2010, 36(8): 1160-1170. (in Chinese)
[13]韓毅,方濱興,賈焰,等.基于密度估計(jì)的社會(huì)網(wǎng)絡(luò)特征簇挖掘方法[J].通信學(xué)報(bào),2012,33(5):38-48. DOI:10.3969/j.issn.1000-436X.2012.05.005. Han Yi, Fang Binxing, Jia Yan, et al. Mining characteristic clusters: a density estimation approach[J].JournalonCommunications, 2012, 33(5): 38-48. DOI:10.3969/j.issn.1000-436X.2012.05.005.(in Chinese)
[14]唐東明,朱清新,楊凡,等.一種有效的蛋白質(zhì)序列聚類(lèi)分析方法[J].軟件學(xué)報(bào),2011,22(8):1827-1837. DOI:10.3724/SP.J.1001.2011.03848. Tang Dongming, Zhu Qingxin, Yang Fan, et al. Efficient cluster analysis method for protein sequences[J].JournalofSoftware, 2011, 22(8): 1827-1837. DOI:10.3724/SP.J.1001.2011.03848.(in Chinese)
[15]雷秀娟,田建芳.蛋白質(zhì)相互作用網(wǎng)絡(luò)的蜂群信息流聚類(lèi)模型與算法[J].計(jì)算機(jī)學(xué)報(bào),2012,35(1):134-145. DOI:10.3724/SP.J.1016.2012.00134. Lei Xiujuan, Tian Jianfang. The information flow clustering model and algorithm based on the artificial bee colony mechanism of PPI network[J].ChineseJournalofComputers, 2012, 35(1): 134-145. DOI:10.3724/SP.J.1016.2012.00134.(in Chinese)
[16]王智圣,李琪,汪靜,等.基于隱式用戶反饋數(shù)據(jù)流的實(shí)時(shí)個(gè)性化推薦[J].計(jì)算機(jī)學(xué)報(bào),2016,39(1):52-64. DOI:10.11897/SP.J.1016.2016.00052. Wang Zhisheng, Li Qi, Wang Jing, et al. Real-time personalized recommendation based on implicit user feedback data stream[J].ChineseJournalofComputers, 2016, 39(1): 52-64. DOI:10.11897/SP.J.1016.2016.00052.(in Chinese)
Social network recommendation system based on PPIN
Zhang Lin Zhang Jin
(College of Computer, Nanjing University of Posts and Telecommunications, Nanjing 210003, China)
To improve the performance of the social network recommendation system on massive data, a competition-inhibition node model (CINM) is proposed by combing the traditional clustering methods with the new features of the protein networks. The whole processing flow is divided into four parts including node reconstruction, out-of-band clustering, intra-film clustering and content recommendation, in which data preprocessing, data cleaning, precision matching and data output are performed, respectively. In data preprocessing, the user information with the complex cube is converted into the structured quantitative data by the matrix operation, and the data summary is generated. In data cleaning, the user’s characteristic data are obtained by judging the competition value. During the precision matching phase, a set of values with the greatest similarity are acquired by the similarity matching principle of the protein-protein interaction network. The final content or the relationship can be recommended by the user-association data items. The experimental results show that the CINM model can complete data filtering by data preprocessing and eigenvalue competition prefabrication mechanism to improve the efficiency of data processing and the accuracy of the final recommendation results.
social network; protein-protein interaction network; cluster; recommendation system; massive data
10.3969/j.issn.1001-0505.2017.03.011
2016-10-12. 作者簡(jiǎn)介: 張琳(1980—),女,博士,副教授, zhangl@njupt.edu.cn.
國(guó)家自然科學(xué)基金資助項(xiàng)目(61373017,61402241,61472192,61572260,61572261)、江蘇省科技支撐計(jì)劃資助項(xiàng)目(BE2014718,BE2015702)、江蘇省自然科學(xué)基金優(yōu)秀青年基金資助項(xiàng)目(BK20160089)、江蘇省普通高校研究生科研創(chuàng)新計(jì)劃資助項(xiàng)目(CXLX12_0482)、南京郵電大學(xué)校級(jí)科研基金資助項(xiàng)目(NY217050).
張琳,張進(jìn).基于PPIN的社交網(wǎng)絡(luò)推薦系統(tǒng)[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,47(3):478-482.
10.3969/j.issn.1001-0505.2017.03.011.
TP393
A
1001-0505(2017)03-0478-05