劉海鷗 李 凱 何旭濤 姜 波
(1.燕山大學(xué)經(jīng)濟管理學(xué)院 河北秦皇島 066004; 2. 燕山大學(xué)圖書館 河北秦皇島 066004)
大數(shù)據(jù)時代,推薦系統(tǒng)能夠根據(jù)數(shù)據(jù)痕跡深入分析用戶需求和潛在興趣,為用戶量身定做精準(zhǔn)的“個人日報”。然而,這種精準(zhǔn)服務(wù)模式會使用戶長期處于“個人日報”的局限之中,用戶易接收到大量同質(zhì)化內(nèi)容,興趣無法遷移,致使知識接觸面和視野不斷趨于窄化[1]。加之用戶對自身的信息需求也有一定的偏好,于是便逐漸地將自己禁錮在一個蠶繭一般的“繭房”之中,形成“信息繭房”。用戶畫像作為一種用戶數(shù)據(jù)分析工具,能夠?qū)⒂脩魪?fù)雜異構(gòu)的數(shù)據(jù)轉(zhuǎn)換成多樣化的標(biāo)簽并進行可視化表現(xiàn),實現(xiàn)對用戶的全方位刻畫,從而能了解到用戶多樣化的特征和興趣[2-3]。因此,本研究提出面向信息繭房的用戶畫像多樣化標(biāo)簽推薦服務(wù),通過構(gòu)建用戶畫像模型對用戶標(biāo)簽進行分級,再從用戶畫像的標(biāo)簽入手挖掘出用戶多樣化的興趣和需求,最終提出基于用戶畫像的多樣化標(biāo)簽推薦服務(wù)方式,提升推薦系統(tǒng)的多樣性,為解決“信息繭房”問題提供參考。
1.1.1 信息繭房的產(chǎn)生
“信息繭房”的概念最早是由美國芝加哥大學(xué)教授凱斯·桑斯坦提出的,他認(rèn)為每個人對自身的信息需求都是有偏好的,在選擇所接收到的信息時往往只會關(guān)注自己所偏好的或者迎合自己喜好的信息,長此以往,就會將自己困在一個由信息組成的“繭房”之中。與“信息繭房”相關(guān)性較大的是“回音室效應(yīng)”和“過濾氣泡”。
“回音室效應(yīng)”的概念也是由凱斯·桑斯坦提出的,他認(rèn)為在一個相對封閉的環(huán)境中,有些觀點相似的信息會不斷地進行重復(fù)傳播,并且傳播的形式可能會產(chǎn)生扭曲或被加以夸張,從而這些觀點會得到進一步強化,使那些在相對封閉環(huán)境中的用戶認(rèn)為這些虛假或扭曲的信息就是事實的全部。在這個相對封閉的環(huán)境中,其他領(lǐng)域的觀點和想法,不會得到認(rèn)同。“回音室效應(yīng)”在互聯(lián)網(wǎng)環(huán)境中的表現(xiàn)是,部分商業(yè)網(wǎng)站會依靠個性化推薦算法,為用戶提供和搜索結(jié)果相似的信息內(nèi)容。因此,用戶在選擇信息來源時,就已經(jīng)進行了信息的過濾,用戶所接收到的信息內(nèi)容都是相似的,這就使得用戶固守在符合自己偏好的信息與意見的圈子里,就像處在一個“回音室”之中。不同的“回音室”之間是相互隔絕甚至是對立的,這就會容易導(dǎo)致群體極化現(xiàn)象的產(chǎn)生。
“過濾氣泡”則由Eli Pariser 提出,他認(rèn)為用戶自身世界觀的形成會受到用戶對社交網(wǎng)絡(luò)依賴的影響,互聯(lián)網(wǎng)上的一系列個性化過濾器會為用戶構(gòu)造出獨特的網(wǎng)絡(luò)環(huán)境,使用戶在使用互聯(lián)網(wǎng)時處在個人化的信息世界。而這些過濾器大多盛行于互聯(lián)網(wǎng)。而“過濾氣泡”是指以大數(shù)據(jù)與推薦算法為底層架構(gòu),根據(jù)用戶的使用時間、地區(qū)、瀏覽行為和搜索歷史生成用戶畫像,并通過算法技術(shù)向用戶提供相關(guān)的信息。因此用戶所接收到的信息都是經(jīng)過過濾的,從而對用戶進行智能隔絕[4]。過濾氣泡會導(dǎo)致用戶的視野顯著變窄,將用戶隔絕在自己的信息世界。
1.1.2 信息繭房相關(guān)現(xiàn)狀
對于信息繭房的相關(guān)研究,大多都是集中在信息繭房的產(chǎn)生和危害兩個方面。關(guān)于信息繭房是如何產(chǎn)生的,Bozdag E 等[5]認(rèn)為搜索引擎、社交網(wǎng)絡(luò)平臺和其他在線中介所使用的算法,會形成“過濾氣泡”,從而降低了信息的多樣性。Geschke Danine 等[6]通過構(gòu)建模型,對十二種不同的信息過濾場景進行分析。結(jié)果顯示即使沒有任何社會或技術(shù)的過濾,“回音室效應(yīng)”也會出現(xiàn)。Nguyen T T 等[7]對電影評分和相關(guān)推薦網(wǎng)站上的數(shù)據(jù)進行分析,認(rèn)為推薦系統(tǒng)的算法會在用戶層面產(chǎn)生“過濾氣泡”的效應(yīng),并得出協(xié)同過濾算法可能會向用戶推薦本不會接觸到的信息類型,進而開闊用戶的視野。Lili Ji[8]認(rèn)為在智能媒體背景下,算法推薦技術(shù)被廣泛應(yīng)用于信息分發(fā)中,會導(dǎo)致“信息繭房”現(xiàn)象的出現(xiàn),對于信息繭房的解決可以從政府的調(diào)控、媒體的融合、社會群體的網(wǎng)絡(luò)互動、智能媒體的強化和算法推薦技術(shù)的改進五個方面來進行。蔡磊平[9]提出個性化推薦系統(tǒng)的普及和應(yīng)用,大大提升了信息的分發(fā)率,用戶的信息需求得到滿足,但是導(dǎo)致了“信息繭房”效應(yīng)的產(chǎn)生。關(guān)于信息繭房所帶來的危害,Wesley Cota 等[10]認(rèn)為在社交網(wǎng)絡(luò)中的“回音室”效應(yīng),使用戶只喜歡與意識形態(tài)一致的同伴互動,從而導(dǎo)致錯誤信息的傳播。王秋旭[11]認(rèn)為在“信息繭房”的影響下,再加上用戶的選擇性心理和群體壓力、技術(shù)發(fā)展等原因,微博用戶之間會形成各個不同的團隊,進而造成群體極化現(xiàn)象。羅華麗等[12]認(rèn)為網(wǎng)絡(luò)圈層會使一些大學(xué)生陷入自我構(gòu)筑的“信息繭房”之中,并且信息繭房所帶來的信息繭化、群體極化等負(fù)面效應(yīng)會給大學(xué)生帶來危害。何楊等[13]認(rèn)為新媒體過度使用算法技術(shù)導(dǎo)致用戶受困于“信息繭房”,并對新媒體環(huán)境下網(wǎng)絡(luò)群體極化動力機理進行研究,為政府管控網(wǎng)絡(luò)輿情和減緩信息繭房效應(yīng)提供參考。劉曉璇[14]認(rèn)為在當(dāng)今時代,智能手機已經(jīng)成為大眾傳播的主要媒介,通過智能算法為用戶畫像,精準(zhǔn)推薦其感興趣的信息,進而形成了“信息繭房”,也導(dǎo)致了信息同質(zhì)化、社會黏性喪失、群體極化等問題。
綜合上述文獻可以看出,算法推薦技術(shù)和個性化推薦系統(tǒng)的飛速發(fā)展與廣泛應(yīng)用,再加上用戶對信息需求的選擇性心理,是造成“信息繭房”的主要原因。而信息繭房的產(chǎn)生,會使用戶的信息接收范圍變窄、對世界和社會的認(rèn)知出現(xiàn)偏差,并且會造成價值偏頗、信息同質(zhì)化和群體極化等負(fù)面效應(yīng)。當(dāng)前,國內(nèi)外對信息繭房的相關(guān)研究逐年增多,但學(xué)者的研究重點大多集中于信息繭房是如何產(chǎn)生的和信息繭房給用戶帶來的負(fù)面效應(yīng)有哪些,對如何進行“破繭”,如何降低信息繭房負(fù)面影響、開闊人們視野的研究還相對較少。
用戶畫像起初是由交互設(shè)計之父Alan Cooper 提出的,他將用戶畫像定義為“基于用戶真實數(shù)據(jù)的虛擬代表”。Gauch S[15]、Quintana R M[16]等將用戶畫像形容為從大量用戶數(shù)據(jù)中提取信息并生成的用戶形象集合,根據(jù)形象集合,可對用戶需求、興趣和行為進行刻畫。Assimakopoulos C[17]對希臘的移動互聯(lián)網(wǎng)服務(wù)進行了研究,并識別基于心理和人口統(tǒng)計特征的用戶群體;同時,分析網(wǎng)絡(luò)服務(wù)的使用和移動技術(shù)采用的程度,使用用戶畫像的方法將用戶進行分組。Bertani R M 等[18]提出一種新的學(xué)習(xí)用戶畫像的算法,結(jié)合新穎性和流行度生成個性化推薦,實驗結(jié)果表明,在相同背景下,該算法的性能優(yōu)于傳統(tǒng)的協(xié)同過濾算法。王順箐[19]認(rèn)為圖書館可以構(gòu)建智慧推薦系統(tǒng),而智慧推薦系統(tǒng)的構(gòu)建,要在數(shù)據(jù)采集的基礎(chǔ)上整合用戶畫像、觀點分析等主要流程,并且以讀者需求分析為核心。張鈞[20]基于用戶畫像和知識發(fā)現(xiàn)對圖書館讀者用戶畫像進行構(gòu)建,并據(jù)此對基于用戶畫像的圖書館知識發(fā)現(xiàn)服務(wù)模型進行構(gòu)建。劉蓓琳等[21]在電子商務(wù)用戶購買的決策過程中應(yīng)用用戶畫像技術(shù),并從電子商務(wù)用戶畫像中的用戶畫像維度劃分、屬性確定和屬性抽取方法三個角度進行了分析研究。翟秀鳳[22]在對基于用戶畫像的資源推薦方式和傳統(tǒng)資源推薦方式的區(qū)別進行分析的過程中,應(yīng)用用戶畫像理論,對用戶顯性與隱性畫像資源庫進行構(gòu)建,并結(jié)合用戶畫像資源庫開展智慧推薦系統(tǒng)設(shè)計。謝姝琳[23]利用用戶畫像的構(gòu)建方法,對圖書館用戶群體的差異化行為特征進行探究和呈現(xiàn),最后提出基于圖書館特定情境來構(gòu)建用戶畫像標(biāo)簽體系。
綜合上述分析可以看出,用戶畫像作為一種用戶多樣化標(biāo)簽表現(xiàn)工具,在推薦系統(tǒng)中得到廣泛應(yīng)用,能夠通過將用戶各個屬性不同權(quán)重的數(shù)據(jù)轉(zhuǎn)換為多個維度的標(biāo)簽,對用戶進行全方位、立體化的刻畫。而在用戶畫像研究方面,國內(nèi)外相關(guān)研究大部分關(guān)注的是用戶畫像的構(gòu)建方法,以及用戶畫像在推薦系統(tǒng)中的相關(guān)應(yīng)用,對用戶標(biāo)簽體系的關(guān)注和挖掘存在不足,缺乏基于用戶標(biāo)簽體系對用戶多維興趣進行挖掘的相關(guān)研究。另外,當(dāng)前很少有研究將用戶畫像和信息繭房結(jié)合起來。鑒于此,本文在結(jié)合用戶畫像和信息繭房相關(guān)理論的基礎(chǔ)上,利用用戶畫像核心技術(shù),依據(jù)多標(biāo)簽分類算法構(gòu)建用戶的多維特征標(biāo)簽體系,并利用主題模型對用戶各級標(biāo)簽下所隱藏的興趣進行挖掘,最終通過多樣化標(biāo)簽體系進行協(xié)同過濾推薦,從而解決推薦系統(tǒng)中信息繭房導(dǎo)致的信息推送窄化和信息雷同問題。
用戶畫像中多樣化、多元化的標(biāo)簽,能有效地對用戶的興趣和需求進行多樣化、全方位的刻畫。將用戶畫像的多樣化標(biāo)簽應(yīng)用到推薦系統(tǒng)中,對用戶畫像的標(biāo)簽分級,進而對用戶畫像模型以往的標(biāo)簽體系進行改進,構(gòu)建出用戶畫像的多維特征標(biāo)簽體系來分析和挖掘用戶多方面的需求和愛好,能有效提升推薦系統(tǒng)的多樣性,進而有效降低“信息繭房”的影響。本文設(shè)計了基于用戶畫像的多樣化標(biāo)簽推薦服務(wù)框架,將多標(biāo)簽分類、主題模型和協(xié)同過濾推薦進行有效結(jié)合。首先,對用戶的相關(guān)數(shù)據(jù)信息進行搜集和處理,提取出用戶數(shù)據(jù)信息中的標(biāo)簽,從而生成用戶畫像模型;然后,依據(jù)用戶畫像的標(biāo)簽權(quán)重和多標(biāo)簽分類算法,對用戶畫像標(biāo)簽進行分級;最后,利用主題模型、協(xié)同過濾推薦實現(xiàn)多樣化的推薦服務(wù),以此建立一個合理、自適應(yīng)的多樣化標(biāo)簽推薦服務(wù)體系?;谟脩舢嬒竦亩鄻踊扑]服務(wù)框架如圖1 所示。
圖1 基于用戶畫像的多樣化標(biāo)簽推薦服務(wù)架構(gòu)
畫像構(gòu)建層是構(gòu)建基于用戶畫像的多樣化標(biāo)簽推薦服務(wù)體系的前提基礎(chǔ),刻畫出用戶的畫像模型,才能了解用戶的標(biāo)簽都包含了哪些內(nèi)容。構(gòu)建用戶畫像模型,就是全面收集用戶的相關(guān)數(shù)據(jù),然后將用戶相關(guān)數(shù)據(jù)中的關(guān)鍵詞匯和文本進行凝練與提取,作為用戶畫像模型的標(biāo)簽,從而構(gòu)建標(biāo)簽體系。首先,利用網(wǎng)絡(luò)爬蟲和相關(guān)方法,從短視頻軟件的數(shù)據(jù)庫中獲取用戶的基本信息、興趣偏好和互動行為等各個類型的相關(guān)數(shù)據(jù);其次,應(yīng)用數(shù)據(jù)清洗、轉(zhuǎn)化和歸約方法處理收集到的用戶相關(guān)數(shù)據(jù),將不同結(jié)構(gòu)的數(shù)據(jù)都轉(zhuǎn)化為同一結(jié)構(gòu);再次,根據(jù)用戶的相關(guān)數(shù)據(jù),提取其中的主題詞,形成用戶標(biāo)簽,同時對用戶標(biāo)簽進行權(quán)重計算,組成用戶標(biāo)簽體系,構(gòu)建用戶的標(biāo)簽詞庫;最后,將用戶的特征屬性與標(biāo)簽進行匹配,為用戶粘貼相應(yīng)的標(biāo)簽,實現(xiàn)用戶的標(biāo)簽化,并應(yīng)用可視化技術(shù)呈現(xiàn)用戶畫像模型。
標(biāo)簽分級層是多樣化標(biāo)簽推薦服務(wù)框架的核心構(gòu)成部分。首先,將用戶標(biāo)簽詞庫中的所有標(biāo)簽進行分類,了解用戶的標(biāo)簽類型及用戶標(biāo)簽的具體內(nèi)容;然后,對用戶的標(biāo)簽內(nèi)容進行更精細(xì)的劃分,基于用戶畫像模型的標(biāo)簽權(quán)重和多標(biāo)簽分類方法,對用戶畫像模型的標(biāo)簽進行分級,實現(xiàn)用戶畫像多樣化標(biāo)簽的等級化;最后,按照用戶標(biāo)簽的級別,對用戶標(biāo)簽進行由粗到細(xì)和逐個級別的關(guān)聯(lián)分析,得出更為精準(zhǔn)細(xì)化的用戶標(biāo)簽所代表的用戶特征,進而發(fā)現(xiàn)用戶屬性的多樣化特征,構(gòu)建出用戶的多維特征標(biāo)簽體系。
服務(wù)應(yīng)用層是在整合畫像構(gòu)建層和標(biāo)簽分級層服務(wù)功能的基礎(chǔ)上,根據(jù)用戶多維特征標(biāo)簽體系中用戶的各個特征,利用主題模型的方法,對每個級別的用戶標(biāo)簽中的主題進行分析和提取。然后利用協(xié)同過濾算法將標(biāo)簽分析結(jié)果應(yīng)用到推薦系統(tǒng)中,進而進行多樣化標(biāo)簽推薦服務(wù),如基于用戶興趣畫像可以對用戶的多個興趣愛好進行分析和挖掘,根據(jù)用戶的多樣化興趣愛好,為用戶提供多樣化的信息資源推薦服務(wù);基于用戶行為畫像可以獲取到用戶的行為模式、規(guī)律等行為特征,并將行為模式歸納為主題,從而進行多樣化推送。此外,系統(tǒng)還可以根據(jù)用戶的行為模式,為用戶推薦具有相同行為模式的用戶,以此進行交流討論;或通過構(gòu)建動態(tài)畫像模型來追蹤用戶興趣和行為的變化,提供實時的多樣化服務(wù)。
3.1.1 數(shù)據(jù)采集
通過分析和挖掘用戶所留下的相關(guān)數(shù)據(jù),可以精準(zhǔn)地完成用戶及用戶群體畫像的刻畫,從而將用戶的興趣偏好、行為特征和信息需求全面完備地體現(xiàn)出來??坍嬘脩舢嬒衲P退璧南嚓P(guān)數(shù)據(jù)主要包括用戶的基本信息數(shù)據(jù)、內(nèi)容偏好數(shù)據(jù)、互動行為數(shù)據(jù)和數(shù)量統(tǒng)計數(shù)據(jù)。其中,用戶的基本信息數(shù)據(jù)主要包括用戶的姓名、性別、年齡、用戶ID、所從事的工作、地理位置、籍貫、教育程度、電話號碼等信息,此類信息可以通過用戶在注冊軟件或客戶端時所填寫的信息進行獲??;興趣偏好數(shù)據(jù)主要包括用戶喜好或關(guān)注的信息主題、相關(guān)作者、瀏覽時長、瀏覽時段、喜好的內(nèi)容類型等數(shù)據(jù);互動行為數(shù)據(jù)主要包括用戶在瀏覽時所進行的點贊、收藏、轉(zhuǎn)發(fā)、下載和討論等行為數(shù)據(jù);數(shù)量統(tǒng)計數(shù)據(jù)則是包括用戶的關(guān)注數(shù)、好友數(shù)、粉絲數(shù)、點贊次數(shù)、評論次數(shù)等數(shù)據(jù)。這些數(shù)據(jù)可以通過爬蟲軟件進行爬取或者從相關(guān)的數(shù)據(jù)庫中進行導(dǎo)出提取。
數(shù)據(jù)采集者應(yīng)保護用戶隱私權(quán),將所采集的用戶信息匿名化并嚴(yán)格管控使用權(quán)限,不采集用戶其他與多樣化推薦無關(guān)的信息數(shù)據(jù),加大用戶基本信息數(shù)據(jù)和隱私數(shù)據(jù)的使用管理力度,保護用戶數(shù)據(jù)的所有權(quán)和使用權(quán),對采集到的數(shù)據(jù)進行集中管理。同時,制定業(yè)界行為規(guī)范和公約,利用行業(yè)自律與行為監(jiān)督來保護用戶隱私[24]。鑒于數(shù)據(jù)的來源多樣,所收集的數(shù)據(jù)結(jié)構(gòu)是不同的,主要包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),不能直接用來構(gòu)建畫像,因而需要對數(shù)據(jù)進行處理。非結(jié)構(gòu)化數(shù)據(jù)需要通過數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)歸約的方法進行處理,進而轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)存在著數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)和同名異義的問題。數(shù)據(jù)缺失問題可通過搜索或詢問等方式進行補充完善;數(shù)據(jù)重復(fù)問題需要剔除多余信息,使數(shù)據(jù)保持唯一;同名異義問題則需要通過人名消歧等方法來解決。
3.1.2 標(biāo)簽的提取與權(quán)重計算
構(gòu)建用戶畫像模型就是給用戶貼上相應(yīng)的標(biāo)簽,而貼標(biāo)簽就是將相應(yīng)的符號粘貼到所收集的用戶相關(guān)數(shù)據(jù)上。標(biāo)簽可以理解為一種用戶數(shù)據(jù)和特征的符號表示,其具有短文本和意義化的特點,便于對用戶的需求和行為進行分析和理解[25]。因此,構(gòu)建立體的用戶畫像模型,需要在收集和處理用戶數(shù)據(jù)之后,對數(shù)據(jù)之中的關(guān)鍵詞匯和文本進行分析,提取出用戶的特征標(biāo)簽。用戶畫像是多維度、多層次的模型,以往的單標(biāo)簽數(shù)據(jù)提取方法難以對用戶畫像的標(biāo)簽進行深度挖掘,從而導(dǎo)致用戶畫像和資源畫像標(biāo)簽不足、標(biāo)注不準(zhǔn)[26]。對此,我們可以通過統(tǒng)計分析、機器學(xué)習(xí)等相關(guān)方法,從多個維度來對用戶畫像的標(biāo)簽進行提取。
對于用戶標(biāo)簽的提取,本文圍繞所收集到的用戶基本信息數(shù)據(jù)、知識偏好數(shù)據(jù)、互動行為數(shù)據(jù)和數(shù)量統(tǒng)計數(shù)據(jù)四個維度,提取出相應(yīng)的用戶標(biāo)簽。其中,對于用戶基本信息數(shù)據(jù)的標(biāo)簽提取就是將用戶在基本信息中所填寫的內(nèi)容進行精煉,直接作為標(biāo)簽。興趣偏好數(shù)據(jù)的標(biāo)簽提取,則是將用戶檢索內(nèi)容、所關(guān)注和喜好的信息中的關(guān)鍵詞或主題詞作為標(biāo)簽進行提取?;有袨閿?shù)據(jù)的標(biāo)簽提取,就是圍繞用戶的社交互動信息進行提取,包括用戶在進行評論、討論時發(fā)表的內(nèi)容和相關(guān)特征等信息。數(shù)量統(tǒng)計數(shù)據(jù)的標(biāo)簽提取,就是對用戶的關(guān)注數(shù)、好友數(shù)和粉絲數(shù)等進行統(tǒng)計提取。具體內(nèi)容如表1 所示。
表1 用戶標(biāo)簽內(nèi)容
構(gòu)建用戶畫像,需要在提取出用戶畫像模型的相應(yīng)標(biāo)簽后,計算用戶畫像標(biāo)簽的權(quán)重,然后根據(jù)標(biāo)簽的權(quán)重進行標(biāo)簽歸類。計算用戶畫像的標(biāo)簽權(quán)重,可通過加權(quán)算法對不同類型的標(biāo)簽賦予不同的權(quán)重。其中,基本信息標(biāo)簽由于是對用戶基本信息數(shù)據(jù)的精煉,直接作為標(biāo)簽,所以對基本信息標(biāo)簽的權(quán)重計算可以直接計算;而用戶的興趣偏好不是一成不變的,在權(quán)重計算時需要綜合考慮偏好權(quán)重和衰減權(quán)重;互動行為標(biāo)簽則可以根據(jù)用戶互動行為發(fā)生的頻率、數(shù)量等強弱關(guān)系進行計算。
3.1.3 生成用戶畫像模型
在標(biāo)簽體系構(gòu)建完成后,以標(biāo)簽體系為依據(jù)對用戶的屬性特征進行分析,通過特征屬性與標(biāo)簽的匹配,可將相應(yīng)的標(biāo)簽粘貼到用戶上,實現(xiàn)用戶標(biāo)簽化,從而構(gòu)建出用戶的畫像模型;以不同的標(biāo)簽權(quán)重為依據(jù),使用tagCloud、Wordle、Tagul 等工具將標(biāo)簽進行可視化表示,采用語義分析技術(shù)來發(fā)現(xiàn)用戶間的隱性關(guān)系;對用戶的標(biāo)簽進行聚類,聚合具有相似屬性特征的用戶,進而得到不同的群體用戶畫像。
為了從多個維度對用戶的興趣和需求進行分析,使用戶畫像的標(biāo)簽體系更加完整和全面,本研究從用戶畫像的多樣化標(biāo)簽入手,依據(jù)以往的多標(biāo)簽分類算法,計算用戶畫像每個標(biāo)簽的權(quán)重,將用戶的標(biāo)簽進行分級,構(gòu)建用戶的多維特征標(biāo)簽體系。多標(biāo)簽研究主要有兩種分類算法:問題轉(zhuǎn)化法主要是將多標(biāo)簽分類問題分解為多個單標(biāo)簽分類問題,再利用傳統(tǒng)的單標(biāo)簽分類;算法轉(zhuǎn)化法是通過對傳統(tǒng)的分類方法進行改進,使其能適用于多標(biāo)簽數(shù)據(jù)的分類[27]。用戶畫像的標(biāo)簽種類和數(shù)量較多,使用問題轉(zhuǎn)化法會比較麻煩,所以算法轉(zhuǎn)化法較為常用。
本研究將用戶畫像模型的標(biāo)簽權(quán)重和多標(biāo)簽分類算法進行結(jié)合,實現(xiàn)用戶畫像標(biāo)簽的分級。首先,根據(jù)構(gòu)建畫像模型時所計算出來的每個標(biāo)簽的權(quán)重,在基本信息標(biāo)簽、興趣偏好標(biāo)簽和互動行為標(biāo)簽這三個標(biāo)簽類型中,選取各自權(quán)重最大的一個標(biāo)簽,并將選取出來的標(biāo)簽作為一級標(biāo)簽。其次,以選取出來的一級標(biāo)簽為中心,利用多標(biāo)簽分類算法,如KNN 算法,對剩下的標(biāo)簽進行計算,得出其他標(biāo)簽與一級標(biāo)簽之間的相似度,然后選取與一級標(biāo)簽相似度高的標(biāo)簽,作為第二級標(biāo)簽。以此類推,對剩余的標(biāo)簽進行計算,得到第三級標(biāo)簽、第四級標(biāo)簽、第五級標(biāo)簽……,直到完成所有的標(biāo)簽分級。最后,依據(jù)分完級別的標(biāo)簽,構(gòu)建出用戶畫像的多維特征標(biāo)簽體系。
構(gòu)建多維特征標(biāo)簽體系,需要從多個層面對用戶的興趣特征和行為特征進行剖析,進而挖掘出用戶多方位的愛好和需求。用戶畫像模型是多維度、多層次的模型,用戶畫像包含著用戶多個維度的數(shù)據(jù),因此可以通過統(tǒng)計分析、機器學(xué)習(xí)等相關(guān)方法,在標(biāo)簽分級的基礎(chǔ)之上,從多個維度對用戶畫像模型標(biāo)簽的特征進行劃分,由此構(gòu)建用戶畫像的多維特征標(biāo)簽體系。
對于用戶畫像多維特征標(biāo)簽的構(gòu)建,本研究根據(jù)對用戶基本信息標(biāo)簽、興趣偏好標(biāo)簽和互動行為標(biāo)簽這三類標(biāo)簽的分級,將用戶畫像模型標(biāo)簽的特征分為基本特征、興趣特征、行為特征、數(shù)量特征。其中基本特征主要是對用戶基本信息標(biāo)簽類型進行分級后所得到的,包括用戶性別、用戶ID、用戶姓名、是否實名認(rèn)證、所在地域、從事的工作、年齡、籍貫、電話號碼等;興趣特征主要是對用戶興趣偏好標(biāo)簽進行分級后所得到的,包括主題、話題、位置、使用的設(shè)備、檢索內(nèi)容、喜好的內(nèi)容類型、喜好的內(nèi)容主題、喜好的內(nèi)容作者、關(guān)注的作者和內(nèi)容等;行為特征是對用戶互動行為標(biāo)簽類型進行分級后所得到的,包括用戶對某個話題的參與程度,用戶的評論內(nèi)容,用戶在評論中使用的表情、語氣詞、符號,用戶的轉(zhuǎn)發(fā)、下載、點贊、發(fā)布等;數(shù)量特征是對上述標(biāo)簽進行數(shù)量統(tǒng)計后所得到的,包括用戶的關(guān)注數(shù)量、粉絲數(shù)量、好友數(shù)量、訪問數(shù)量、瀏覽時長、瀏覽時間段、評論次數(shù)、點贊次數(shù)、下載次數(shù)等。
對用戶畫像模型數(shù)據(jù)庫進行分析,可以從提取的用戶畫像興趣偏好標(biāo)簽中了解到用戶的興趣偏好與關(guān)注熱點,由此形成用戶的興趣標(biāo)簽,構(gòu)建出用戶的興趣畫像。該畫像能夠更好地描述用戶的關(guān)注熱點和興趣偏好,并能夠?qū)τ脩襞d趣偏好的變化情況進行分析,從而實現(xiàn)基于用戶興趣畫像的多樣化資源推薦服務(wù)。首先,基于用戶興趣畫像的多樣化推薦服務(wù),識別用戶的興趣偏好信息和行為信息,進而得出用戶的興趣點與關(guān)注點。然后,在標(biāo)簽分級的基礎(chǔ)上,依據(jù)LDA、JST 等主題模型,對每個級別用戶標(biāo)簽中所潛藏的主題信息進行識別和分析,進而挖掘出用戶的興趣分布。另外,根據(jù)所構(gòu)建出的用戶多維特征標(biāo)簽體系,也能夠了解到用戶的興趣偏好特征。最后,依據(jù)協(xié)同過濾算法,找出用戶感興趣的信息內(nèi)容,將與用戶的多個興趣點和關(guān)注點相符的信息資源推送給用戶,根據(jù)多個主題、話題和類型進行多樣化的推送,以此來擴大推送內(nèi)容的范圍,促進推送內(nèi)容的多樣性。同時,還可以依據(jù)用戶的興趣點和關(guān)注點,推測出用戶以往沒有涉及的“未知領(lǐng)域”,并將用戶不關(guān)注的信息資源穿插在用戶的關(guān)注內(nèi)容中進行推送,適時地將用戶不關(guān)注的信息資源推送給他們,幫助用戶激發(fā)興趣和開闊視野,探索那些“未知領(lǐng)域”,進而擴大用戶的信息接收范圍,使用戶能夠接收到多方位的信息,減少“信息繭房”所帶來的視野窄化、價值偏頗等影響。
系統(tǒng)通過對用戶畫像數(shù)據(jù)庫進行深度分析和挖掘,可以從所提取的用戶互動行為標(biāo)簽中了解用戶的行為模式和規(guī)律,由此形成用戶的行為標(biāo)簽。用戶的行為標(biāo)簽?zāi)軌蚋玫伢w現(xiàn)用戶在瀏覽信息時的行為模式和行為特征,由此構(gòu)建出用戶的行為畫像。行為畫像能夠更加精準(zhǔn)地描述用戶的行為特點和行為習(xí)慣,并基于不同的用戶行為模式分類提供多樣化資源推薦服務(wù)。該推薦服務(wù)通過分析和挖掘用戶的各種行為數(shù)據(jù),生成用戶的行為標(biāo)簽,并聚類用戶的行為標(biāo)簽,進而生成多個行為層次結(jié)構(gòu),然后將多個層次結(jié)構(gòu)進行歸納,形成多個主題,構(gòu)建用戶行為主題模型,利用主題描述用戶的行為模式和規(guī)律;在歸納主題的基礎(chǔ)上,結(jié)合用戶多維標(biāo)簽體系中的用戶行為特征,依據(jù)協(xié)同過濾算法,將信息資源主題與用戶行為主題進行匹配,把與用戶多個主題相符的信息資源推送給用戶,從而進行多樣化推送。同時,通過對用戶行為的規(guī)律和特點進行分析,可以向其推薦具有相同行為模式的其他用戶。這些用戶雖然有著相同的行為模式,但是興趣和愛好會有所差異。因此,用戶之間可以將各自喜好領(lǐng)域內(nèi)的信息資源進行分享和討論,從而開闊視野,擴大信息接收范圍。用戶在對某個話題進行討論時,能夠得到不同的看法和觀點,增強與外部世界的聯(lián)系,實現(xiàn)多元觀點的碰撞與融合,有效地避免了“群體極化”現(xiàn)象的產(chǎn)生。
在大數(shù)據(jù)時代背景下,用戶的數(shù)據(jù)信息和行為模式會因為時間和場景的變化而發(fā)生變化,因此需要對用戶畫像進行實時更新?;趧討B(tài)畫像實時更新的多樣化資源推薦服務(wù)能夠?qū)τ脩魝€體進行標(biāo)記,各類短視頻軟件和新聞客戶端平臺可以實時記錄用戶每次的瀏覽行為軌跡和瀏覽時間變化,系統(tǒng)能夠根據(jù)用戶的數(shù)據(jù)信息變化對其數(shù)據(jù)庫存儲信息進行關(guān)聯(lián),由此對其畫像進行實時更新,通過更新的用戶畫像可以準(zhǔn)確提取用戶最新的訪問內(nèi)容和訪問行為特征,同時結(jié)合用戶訪問路徑、訪問頻率、頁面停留時間、訪問間隔時間等指標(biāo)的變化,對用戶的需求偏好進行預(yù)測,從而對推薦系統(tǒng)的推薦機制進行調(diào)整,最終為用戶推薦與其當(dāng)前興趣偏好、行為模式最為相符的信息資源,提高其在平臺的留存率和回訪率。對用戶畫像的實時更新,也使得用戶的興趣畫像和行為畫像進行自我更新和調(diào)整,有利于挖掘出更加多樣化、全方位的信息資源并根據(jù)用戶需求的變化進行多樣化推送。同時,根據(jù)用戶對多樣化資源推送服務(wù)的評價和反饋,可以實時地對推薦策略進行修正和完善,從而進一步更新用戶的服務(wù)需求,完善推薦系統(tǒng)的服務(wù)機制,使用戶畫像多樣化標(biāo)簽推薦服務(wù)具有更大的靈活性。