張維作
摘 要:隨著社交網(wǎng)絡(luò)的不斷發(fā)展及普及,人們也逐漸活躍在一個或者多個社交網(wǎng)絡(luò)中,這對研究用戶的興趣,為用戶提供精準的網(wǎng)絡(luò)推送提供了基礎(chǔ)。目前,我國對此的研究有很多,但是社交網(wǎng)絡(luò)整合信息的研究卻較少,在如今大數(shù)據(jù)的環(huán)境下,社交網(wǎng)絡(luò)的用戶需求、興趣也有了可能?;诖?,基于大數(shù)據(jù)時代背景,提出了社交網(wǎng)絡(luò)用戶興趣層次化模型的構(gòu)建。
關(guān)鍵詞:社交網(wǎng)絡(luò);大數(shù)據(jù)時代;用戶興趣;層次化建模
web2.0時代已經(jīng)逐漸到來,網(wǎng)絡(luò)用戶也不斷追尋全新的應(yīng)用體驗,在此背景下,社交網(wǎng)絡(luò)油然而生。社交網(wǎng)絡(luò)指的就是以互動作為基礎(chǔ),以網(wǎng)絡(luò)中用戶的共同興趣、活動及愛好為前提,以實名制或者非實名制的方式在網(wǎng)絡(luò)中構(gòu)建的社會關(guān)系網(wǎng)絡(luò)服務(wù),其是社會化媒體的一種主流形式,其中包括婚戀交友網(wǎng)絡(luò)。在如今大數(shù)據(jù)時代的今天,運用數(shù)據(jù)及挖掘數(shù)據(jù)決定著社交網(wǎng)絡(luò)的未來,所以用戶的興趣數(shù)據(jù)對社交網(wǎng)絡(luò)具有重要的價值意義。
1 用戶興趣模型的表示
興趣模型指的是在一定數(shù)據(jù)結(jié)構(gòu)中,通過算法表示的一種形式,興趣模型的表現(xiàn)形式影響著模型對用戶興趣的描述能力及計算能力。用戶興趣模型包括兩方面,分別為以向量空間模型為基礎(chǔ)及以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ):其一,以向量模型為基礎(chǔ)。以向量模型為基礎(chǔ)主要是將用戶的興趣模型當(dāng)成一個n維的特征向量((t1,w2),(t2,w2),...,(tn,wn)),以此表示用戶感興趣的事物及對其的感興趣程度。ti(1≤i≤n)為興趣特征;wi(1≤i≤n)表示興趣特征的興趣模型權(quán)重。其二,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)。神經(jīng)網(wǎng)絡(luò)就是多種簡單處理單元通過互聯(lián)形式,以此構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu),其組織、學(xué)習(xí)及適應(yīng)能力超強。以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的用戶興趣模型能夠通過網(wǎng)絡(luò)連接的權(quán)重網(wǎng)絡(luò)進行表示。[2]
2 基于大數(shù)據(jù)的社交網(wǎng)絡(luò)用戶興趣層次化模型的構(gòu)建
2.1 構(gòu)建興趣層次化模型的思路
為了能夠構(gòu)建基于大數(shù)據(jù)時代的社交網(wǎng)絡(luò)用戶興趣層次化模型,本文提出了如圖1的研究思路:其一,在現(xiàn)實社交網(wǎng)絡(luò)中,有多種數(shù)據(jù)來源方式,總的來說可以分為標簽及無標簽兩種。用戶在注冊社交網(wǎng)站的時候要填寫基本信息,有的社交網(wǎng)站還會要求用戶填寫個人標簽。個人標簽是能夠直接反映用戶感興趣領(lǐng)域的方式,但是沒有標簽屬性的信息提取只能夠通過內(nèi)部的結(jié)構(gòu)信息實現(xiàn)。通過上述就可以看出,標簽數(shù)據(jù)具有預(yù)測用戶評論、瀏覽等行為的作用,非標簽行為也能夠論證用戶的興趣領(lǐng)域。其二,創(chuàng)建用戶興趣模型的主要目的就是能夠為用戶推送感興趣的信息,并且為用戶推薦具有相同信息的好友,以此描述社交網(wǎng)絡(luò)中不同用戶的不同偏好,從而創(chuàng)建個人偏好的名片,從而標記用戶對象,滿足用戶的需求,提高用戶推薦的成功率,從而提高商家的利益。[3]
2.2 用戶興趣層次化模型的構(gòu)建方式
通過以上算法,把所有用戶都聚集到同一個類中,使其興趣通過屬性值、類別及興趣度表示,這些都是用戶的共同興趣,算法步驟為:(1)創(chuàng)建一個用戶興趣池Mki,用戶興趣池表示為屬于第k類中第i個用戶的興趣集合,興趣池中的每個元素都是由三元組(
從而能夠得出用戶的長期興趣向量IML=(
3 實驗分析
從某個交友網(wǎng)站中選取實驗數(shù)據(jù),得出訓(xùn)練集為兩百名用戶的基本信息,實現(xiàn)用戶的聚類,隨機選擇一個類,獲取一百名此類別用戶在最近一周的瀏覽行為。
為了證明本文中的方式能夠得到準確的興趣模型,通過評價指標對模型進行評價。選擇的兩百名用戶的評價指標為查全率及查準率,通過本文中的方法對用戶創(chuàng)建興趣模型。查全率能夠呈現(xiàn)出上述方法的用戶興趣尋找能力,從而判斷用戶興趣模型的全面性,查準率能夠呈現(xiàn)出上述方法的用戶興趣準確度。
通過聚類分析法對數(shù)據(jù)集中的兩百個樣本訓(xùn)練,創(chuàng)建用戶興趣值,獲得用戶的長期興趣IML。計算出一百名交友網(wǎng)站用戶興趣模型的查全率及查準率。
使用本文中的方法計算的查全率及查準率分別為0.816及0.786,傳統(tǒng)模型的查全率及查準率分別為0.524及0.562,以此證明本文中的方法能夠精準的發(fā)現(xiàn)用戶的興趣分類,以此滿足社交網(wǎng)站及需求。
4 結(jié)束語
隨著社會的不斷進步,互聯(lián)網(wǎng)技術(shù)也在不斷的發(fā)展,使用社交網(wǎng)絡(luò)的用戶越來越多,以此構(gòu)成了較大的用戶數(shù)據(jù)。本文通過標簽傳播集成、創(chuàng)建用戶興趣模型,以此構(gòu)建了社交網(wǎng)絡(luò)用戶興趣層次化模型,社交網(wǎng)絡(luò)可以通過其為用戶推動個性化廣告,并且為用戶推薦相同興趣的好友,以此滿足用戶的需求,提高商家及社交網(wǎng)絡(luò)的利益。
參考文獻
[1]張玨,楊振華,王世琪,等.社交網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境下的用戶興趣層次化模型研究[J].教育觀察,2016,5(8).
[2]吳良.社交網(wǎng)絡(luò)中社區(qū)與用戶興趣分析——模型設(shè)計與實現(xiàn)[D].北京大學(xué),2014.