張昊
(湖北第二師范學(xué)院計(jì)算機(jī)學(xué)院,湖北武漢,430205)
在互聯(lián)網(wǎng)電子商務(wù)經(jīng)濟(jì)活動(dòng)不斷發(fā)展的過程中,用戶畫像對(duì)于電子商務(wù)企業(yè)來說價(jià)值也在不斷增加。電子商務(wù)網(wǎng)站涉及領(lǐng)域廣泛,不只是追求技術(shù),還要對(duì)用戶需求進(jìn)行分析。但是,用戶畫像研究還處于初級(jí)階段,只要?jiǎng)?chuàng)建完善用戶模型,相關(guān)互聯(lián)網(wǎng)商務(wù)網(wǎng)站才能夠掌握用戶實(shí)際需求。用戶畫像要求一定挖掘技術(shù)進(jìn)行保證,以此本文就對(duì)文本挖掘技術(shù)和用戶畫像特征進(jìn)行分析。
在設(shè)計(jì)產(chǎn)品初期,為了實(shí)現(xiàn)產(chǎn)品精準(zhǔn)營(yíng)銷,企業(yè)使用創(chuàng)建用戶畫像方法,使設(shè)計(jì)與開發(fā)人員能夠?qū)τ脩粜枨罄斫狻O嚓P(guān)研究人員提出以用戶為中心設(shè)計(jì),其中就包括對(duì)用戶畫像概念的描述。對(duì)用戶特征識(shí)別,實(shí)現(xiàn)用戶類型的細(xì)分,根據(jù)用戶特征對(duì)典型用戶進(jìn)行定義,發(fā)現(xiàn)用戶使用產(chǎn)品傾向和需求[1]。
用戶畫像能夠理解用戶,使用戶屬性轉(zhuǎn)變?yōu)榉奖阌?jì)算機(jī)存儲(chǔ)、規(guī)則的可持續(xù)數(shù)據(jù)格式,根據(jù)某模型規(guī)范化描述客戶信息。創(chuàng)建用戶畫像模型,為了實(shí)現(xiàn)數(shù)據(jù)分析,將用戶需求進(jìn)行挖掘,為用戶推薦感興趣的服務(wù)和物品等功能。
1.2.1 用戶畫像維度
用戶畫像能夠描述用戶靜態(tài)、動(dòng)態(tài)的信息,用戶畫像模型能夠以用戶所提供數(shù)據(jù)使用合理方法規(guī)范、精準(zhǔn)的描繪用戶屬性和信息,以描繪的用戶信息實(shí)現(xiàn)用戶分群,用戶群內(nèi)部充分展現(xiàn)明顯相似性,各用戶群之間具備不同差異性。本文數(shù)據(jù)都是爬蟲和賣家授權(quán)數(shù)據(jù),使用標(biāo)簽方式實(shí)現(xiàn)客戶畫像建模,也就是通過不同維護(hù)為用戶設(shè)置標(biāo)簽,對(duì)客戶各維度特征進(jìn)行描繪,用戶畫像維度包括:
基礎(chǔ)屬性:指的是用戶基本資料,比如年齡、性別、職業(yè)、單身、身高、尺寸、鞋碼等;
行為屬性:指的是用戶偏好和行為,比如產(chǎn)品、類目、品牌、規(guī)格等標(biāo)簽和細(xì)分人群、購買動(dòng)機(jī)、顧客滿意度等;
社交屬性:剁手族、夜淘族、吃貨族、囤貨族、收藏族等;
價(jià)值屬性:購買頻率、購買時(shí)間、單次最高交易額、平均每次交易額[2]。
1.2.2 用戶畫像數(shù)據(jù)的獲取
圖1為用戶畫像的流程,通過圖1可以看出來用戶畫像流程就是閉環(huán)。利用淘寶爬取用戶的場(chǎng)景和賣家授權(quán)用戶數(shù)據(jù)創(chuàng)建數(shù)據(jù)源,使得到的數(shù)據(jù)格式化并且分析,比如對(duì)用戶消費(fèi)能力、活躍時(shí)間分析,得到用戶初步分析。之后,使用文本挖掘和規(guī)則庫結(jié)合對(duì)用戶數(shù)據(jù)開展深度挖掘處理,得出用戶畫像。以用戶畫像開展精準(zhǔn)營(yíng)銷,根據(jù)用戶畫像對(duì)產(chǎn)品改進(jìn)和完善。對(duì)客戶推銷,構(gòu)成閉環(huán),使產(chǎn)品更加完善。
圖1 用戶畫像的流程
利用淘寶中API得到用戶購物數(shù)據(jù),采集原始數(shù)據(jù)之后對(duì)數(shù)據(jù)進(jìn)行清洗,對(duì)分析引擎提交清洗之后的數(shù)據(jù),并且對(duì)原始數(shù)據(jù)備份。分析引擎分析數(shù)據(jù),構(gòu)成用戶基本數(shù)據(jù)庫,包括用戶愛好清單、基本數(shù)據(jù),通過挖掘模塊挖掘,構(gòu)成客戶畫像和內(nèi)容推薦模型并且保存[3]。
用戶中的標(biāo)簽根據(jù)通過淘寶手機(jī)的數(shù)據(jù),淘寶數(shù)據(jù)包括最近半年和半年前的數(shù)據(jù)。利用淘寶API得到用戶數(shù)據(jù),比如購買商品ID、用戶ID、商品所屬子類目、父類目、商品標(biāo)價(jià)等。因?yàn)槭褂谜Z料為短文本,所以分詞方法使用字符串詞出現(xiàn)概率和字符串左右鄰字中信息熵方法實(shí)現(xiàn)分詞。在分詞之后,以指定標(biāo)簽和規(guī)則開展分類,用戶基礎(chǔ)屬性利用淘寶api接口和購買行為分析得出[4]。
1.2.3 挖掘文本數(shù)據(jù)
文本挖掘方法包括語義分析、觀點(diǎn)挖掘、聚類分析等,相關(guān)研究人員所研發(fā)的網(wǎng)頁監(jiān)視工具WebWatcher,能夠利用監(jiān)測(cè)用戶點(diǎn)擊操作行為對(duì)用戶行為與興趣進(jìn)行分析。世界中最大汽車銷售站點(diǎn)Auto Trader利用數(shù)據(jù)挖掘得到用戶對(duì)于產(chǎn)品喜愛偏好,實(shí)現(xiàn)指定服務(wù)。我國專家學(xué)者表示文本挖掘指的是通過文本數(shù)據(jù)中得到可用、可理解的知識(shí),并且使用此知識(shí)組織信息實(shí)現(xiàn)參考。因?yàn)橛脩粼谄脚_(tái)中具備傳播消息、消費(fèi)信息功能節(jié)點(diǎn),大量后臺(tái)數(shù)據(jù)樣本能夠?yàn)閿?shù)據(jù)挖掘提供富余準(zhǔn)備條件。
1.2.4 用戶屬性分析
通過多維度屬性創(chuàng)建用戶畫像,業(yè)界針對(duì)用戶畫像屬性課題有大量的研究,使用戶畫像屬性維度定義為六種,包括能力、基本、興趣、行為、心理、社交、興趣等屬性,圖2為屬性標(biāo)簽分類[5]。
圖2 屬性標(biāo)簽分類
1.2.5 提取屬性
為了得到用戶屬性,對(duì)已經(jīng)訪問的網(wǎng)頁評(píng)分收集,之后通過其開展機(jī)器學(xué)習(xí)用戶畫像的創(chuàng)建本身就是用戶本身。通過用戶自發(fā)在網(wǎng)絡(luò)平臺(tái)中寫下留言是商家和企業(yè)得到客戶實(shí)際需求的主要途徑,用戶評(píng)論具備潛在用戶需求與情感信息。得到文本型數(shù)據(jù)方式比較多,比如web頁面數(shù)據(jù)。首先對(duì)html標(biāo)簽處理后開展分詞處理,使其轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化文本數(shù)據(jù)。在文本處理過程中,過濾常用停用詞和出現(xiàn)頻率比較高的信息價(jià)值,之后在文本中將可用分詞打標(biāo),利用統(tǒng)計(jì)得出高頻詞語片斷,并且邀請(qǐng)專家使此分詞開展評(píng)估賦予權(quán)重值,并且將其作為用戶屬性。因?yàn)橛脩舢嬒褚髮⒂脩裟繕?biāo)需求和行為作為屬性創(chuàng)建原型,所以利用文本挖掘技術(shù)通過大量文本抽取潛在用戶信息,使其成為用戶屬性[6]。
1.2.6 聚類分析
為了使用戶創(chuàng)建不同組群,相關(guān)人員提出了通過屬性標(biāo)簽使具備類似思想與共同關(guān)注點(diǎn)的用戶聚類,并且構(gòu)成制定社會(huì)群體。聚類分析是以事物自身特點(diǎn)實(shí)現(xiàn)個(gè)體分類的方法,使數(shù)據(jù)劃分為多個(gè)外部差異性比較大的群組,但是群組內(nèi)部具有較高的相似度。目前聚類分析研究領(lǐng)域主要包括模式識(shí)別、圖像處理與市場(chǎng)分析。K-means算法與模擬c-均值聚類算法為目前使用最為廣泛的方法,K-means為硬劃分算法,使對(duì)象排他地隸為類簇,假如兩個(gè)類簇重合度較高,那么就無法區(qū)分。FCM算法具有完善理論,能夠快速處理大數(shù)據(jù)集,但是其目標(biāo)函數(shù)會(huì)局限在極小值中無法得到聚類最優(yōu)解,基于此問題可以使優(yōu)化遺傳算法和FCM算法結(jié)合,使算法性能得到提高[7],描述為:
(1)初始群體與編碼的創(chuàng)建。選擇s組作為對(duì)象,每組有c個(gè)簇,之后根據(jù)類內(nèi)近距離最小,類間距最大原則使N-C個(gè)對(duì)象在C個(gè)簇中劃分,從而產(chǎn)生c個(gè)聚類;
(2)適應(yīng)度函數(shù)的計(jì)算;
(3)執(zhí)行交叉、選擇和變異操作,保留父代和下一代高適應(yīng)度的個(gè)體,從而合成全新的下一代;
(4)假如到設(shè)定繁衍代數(shù),結(jié)束算法;要不然繼續(xù)執(zhí)行第3步驟[8]。
在用戶畫像屬性聚類分析過程中,模糊聚類理論利用matlab數(shù)據(jù)處理工具實(shí)現(xiàn)屬性因子聚類分析,聚類數(shù)目設(shè)置為3-6個(gè)。在項(xiàng)目中與企業(yè)溝通,設(shè)置聚類類別c=3。利用遺傳優(yōu)化Fcm算法計(jì)算得到表1聚類原型矩陣中心表。
表1 聚類原型矩陣中心表
通過適應(yīng)度函數(shù)執(zhí)行變異、選擇、交叉等操作步驟,將適應(yīng)度高的個(gè)體保存構(gòu)成下一代,圖3為適應(yīng)度曲線結(jié)果,通過圖3可以看出來平均迭代30次之后開始適應(yīng)度最佳,100次之后運(yùn)算終止。
圖3 適應(yīng)度曲線結(jié)果
使30個(gè)用戶樣本根據(jù)最大隸屬度對(duì)象分組,每個(gè)樣本針對(duì)聚類原型隸屬度和為1,得到聚類樹狀圖,詳見圖4。通過圖4表示,群組內(nèi)部區(qū)具有較高的相似度,群組之間存在差異[9]。
圖4 聚類原型樹狀圖
在互聯(lián)網(wǎng)信息技術(shù)不斷發(fā)展的過程中,大部分電子商務(wù)網(wǎng)站也得到了更大的發(fā)展空間,在網(wǎng)絡(luò)交易活動(dòng)中,設(shè)置相關(guān)客戶的用戶畫像,能夠全面掌握客戶信息和需求的主要工具。在規(guī)模不斷擴(kuò)大的過程中,對(duì)于大量客戶系統(tǒng)化管理也會(huì)越來越復(fù)雜。如何在海量數(shù)據(jù)中利用文本挖掘技術(shù)得到相關(guān)客戶的信息,用戶畫像為最合適的路徑。