• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于文本挖掘技術(shù)的用戶畫像設(shè)計(jì)分析

    2022-01-20 13:29:22張昊
    電子制作 2021年24期
    關(guān)鍵詞:分詞畫像適應(yīng)度

    張昊

    (湖北第二師范學(xué)院計(jì)算機(jī)學(xué)院,湖北武漢,430205)

    在互聯(lián)網(wǎng)電子商務(wù)經(jīng)濟(jì)活動(dòng)不斷發(fā)展的過程中,用戶畫像對(duì)于電子商務(wù)企業(yè)來說價(jià)值也在不斷增加。電子商務(wù)網(wǎng)站涉及領(lǐng)域廣泛,不只是追求技術(shù),還要對(duì)用戶需求進(jìn)行分析。但是,用戶畫像研究還處于初級(jí)階段,只要?jiǎng)?chuàng)建完善用戶模型,相關(guān)互聯(lián)網(wǎng)商務(wù)網(wǎng)站才能夠掌握用戶實(shí)際需求。用戶畫像要求一定挖掘技術(shù)進(jìn)行保證,以此本文就對(duì)文本挖掘技術(shù)和用戶畫像特征進(jìn)行分析。

    1 用戶畫像和創(chuàng)建

    ■1.1 用戶畫像

    在設(shè)計(jì)產(chǎn)品初期,為了實(shí)現(xiàn)產(chǎn)品精準(zhǔn)營(yíng)銷,企業(yè)使用創(chuàng)建用戶畫像方法,使設(shè)計(jì)與開發(fā)人員能夠?qū)τ脩粜枨罄斫狻O嚓P(guān)研究人員提出以用戶為中心設(shè)計(jì),其中就包括對(duì)用戶畫像概念的描述。對(duì)用戶特征識(shí)別,實(shí)現(xiàn)用戶類型的細(xì)分,根據(jù)用戶特征對(duì)典型用戶進(jìn)行定義,發(fā)現(xiàn)用戶使用產(chǎn)品傾向和需求[1]。

    ■1.2 用戶畫像創(chuàng)建

    用戶畫像能夠理解用戶,使用戶屬性轉(zhuǎn)變?yōu)榉奖阌?jì)算機(jī)存儲(chǔ)、規(guī)則的可持續(xù)數(shù)據(jù)格式,根據(jù)某模型規(guī)范化描述客戶信息。創(chuàng)建用戶畫像模型,為了實(shí)現(xiàn)數(shù)據(jù)分析,將用戶需求進(jìn)行挖掘,為用戶推薦感興趣的服務(wù)和物品等功能。

    1.2.1 用戶畫像維度

    用戶畫像能夠描述用戶靜態(tài)、動(dòng)態(tài)的信息,用戶畫像模型能夠以用戶所提供數(shù)據(jù)使用合理方法規(guī)范、精準(zhǔn)的描繪用戶屬性和信息,以描繪的用戶信息實(shí)現(xiàn)用戶分群,用戶群內(nèi)部充分展現(xiàn)明顯相似性,各用戶群之間具備不同差異性。本文數(shù)據(jù)都是爬蟲和賣家授權(quán)數(shù)據(jù),使用標(biāo)簽方式實(shí)現(xiàn)客戶畫像建模,也就是通過不同維護(hù)為用戶設(shè)置標(biāo)簽,對(duì)客戶各維度特征進(jìn)行描繪,用戶畫像維度包括:

    基礎(chǔ)屬性:指的是用戶基本資料,比如年齡、性別、職業(yè)、單身、身高、尺寸、鞋碼等;

    行為屬性:指的是用戶偏好和行為,比如產(chǎn)品、類目、品牌、規(guī)格等標(biāo)簽和細(xì)分人群、購買動(dòng)機(jī)、顧客滿意度等;

    社交屬性:剁手族、夜淘族、吃貨族、囤貨族、收藏族等;

    價(jià)值屬性:購買頻率、購買時(shí)間、單次最高交易額、平均每次交易額[2]。

    1.2.2 用戶畫像數(shù)據(jù)的獲取

    圖1為用戶畫像的流程,通過圖1可以看出來用戶畫像流程就是閉環(huán)。利用淘寶爬取用戶的場(chǎng)景和賣家授權(quán)用戶數(shù)據(jù)創(chuàng)建數(shù)據(jù)源,使得到的數(shù)據(jù)格式化并且分析,比如對(duì)用戶消費(fèi)能力、活躍時(shí)間分析,得到用戶初步分析。之后,使用文本挖掘和規(guī)則庫結(jié)合對(duì)用戶數(shù)據(jù)開展深度挖掘處理,得出用戶畫像。以用戶畫像開展精準(zhǔn)營(yíng)銷,根據(jù)用戶畫像對(duì)產(chǎn)品改進(jìn)和完善。對(duì)客戶推銷,構(gòu)成閉環(huán),使產(chǎn)品更加完善。

    圖1 用戶畫像的流程

    利用淘寶中API得到用戶購物數(shù)據(jù),采集原始數(shù)據(jù)之后對(duì)數(shù)據(jù)進(jìn)行清洗,對(duì)分析引擎提交清洗之后的數(shù)據(jù),并且對(duì)原始數(shù)據(jù)備份。分析引擎分析數(shù)據(jù),構(gòu)成用戶基本數(shù)據(jù)庫,包括用戶愛好清單、基本數(shù)據(jù),通過挖掘模塊挖掘,構(gòu)成客戶畫像和內(nèi)容推薦模型并且保存[3]。

    用戶中的標(biāo)簽根據(jù)通過淘寶手機(jī)的數(shù)據(jù),淘寶數(shù)據(jù)包括最近半年和半年前的數(shù)據(jù)。利用淘寶API得到用戶數(shù)據(jù),比如購買商品ID、用戶ID、商品所屬子類目、父類目、商品標(biāo)價(jià)等。因?yàn)槭褂谜Z料為短文本,所以分詞方法使用字符串詞出現(xiàn)概率和字符串左右鄰字中信息熵方法實(shí)現(xiàn)分詞。在分詞之后,以指定標(biāo)簽和規(guī)則開展分類,用戶基礎(chǔ)屬性利用淘寶api接口和購買行為分析得出[4]。

    1.2.3 挖掘文本數(shù)據(jù)

    文本挖掘方法包括語義分析、觀點(diǎn)挖掘、聚類分析等,相關(guān)研究人員所研發(fā)的網(wǎng)頁監(jiān)視工具WebWatcher,能夠利用監(jiān)測(cè)用戶點(diǎn)擊操作行為對(duì)用戶行為與興趣進(jìn)行分析。世界中最大汽車銷售站點(diǎn)Auto Trader利用數(shù)據(jù)挖掘得到用戶對(duì)于產(chǎn)品喜愛偏好,實(shí)現(xiàn)指定服務(wù)。我國專家學(xué)者表示文本挖掘指的是通過文本數(shù)據(jù)中得到可用、可理解的知識(shí),并且使用此知識(shí)組織信息實(shí)現(xiàn)參考。因?yàn)橛脩粼谄脚_(tái)中具備傳播消息、消費(fèi)信息功能節(jié)點(diǎn),大量后臺(tái)數(shù)據(jù)樣本能夠?yàn)閿?shù)據(jù)挖掘提供富余準(zhǔn)備條件。

    1.2.4 用戶屬性分析

    通過多維度屬性創(chuàng)建用戶畫像,業(yè)界針對(duì)用戶畫像屬性課題有大量的研究,使用戶畫像屬性維度定義為六種,包括能力、基本、興趣、行為、心理、社交、興趣等屬性,圖2為屬性標(biāo)簽分類[5]。

    圖2 屬性標(biāo)簽分類

    1.2.5 提取屬性

    為了得到用戶屬性,對(duì)已經(jīng)訪問的網(wǎng)頁評(píng)分收集,之后通過其開展機(jī)器學(xué)習(xí)用戶畫像的創(chuàng)建本身就是用戶本身。通過用戶自發(fā)在網(wǎng)絡(luò)平臺(tái)中寫下留言是商家和企業(yè)得到客戶實(shí)際需求的主要途徑,用戶評(píng)論具備潛在用戶需求與情感信息。得到文本型數(shù)據(jù)方式比較多,比如web頁面數(shù)據(jù)。首先對(duì)html標(biāo)簽處理后開展分詞處理,使其轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化文本數(shù)據(jù)。在文本處理過程中,過濾常用停用詞和出現(xiàn)頻率比較高的信息價(jià)值,之后在文本中將可用分詞打標(biāo),利用統(tǒng)計(jì)得出高頻詞語片斷,并且邀請(qǐng)專家使此分詞開展評(píng)估賦予權(quán)重值,并且將其作為用戶屬性。因?yàn)橛脩舢嬒褚髮⒂脩裟繕?biāo)需求和行為作為屬性創(chuàng)建原型,所以利用文本挖掘技術(shù)通過大量文本抽取潛在用戶信息,使其成為用戶屬性[6]。

    1.2.6 聚類分析

    為了使用戶創(chuàng)建不同組群,相關(guān)人員提出了通過屬性標(biāo)簽使具備類似思想與共同關(guān)注點(diǎn)的用戶聚類,并且構(gòu)成制定社會(huì)群體。聚類分析是以事物自身特點(diǎn)實(shí)現(xiàn)個(gè)體分類的方法,使數(shù)據(jù)劃分為多個(gè)外部差異性比較大的群組,但是群組內(nèi)部具有較高的相似度。目前聚類分析研究領(lǐng)域主要包括模式識(shí)別、圖像處理與市場(chǎng)分析。K-means算法與模擬c-均值聚類算法為目前使用最為廣泛的方法,K-means為硬劃分算法,使對(duì)象排他地隸為類簇,假如兩個(gè)類簇重合度較高,那么就無法區(qū)分。FCM算法具有完善理論,能夠快速處理大數(shù)據(jù)集,但是其目標(biāo)函數(shù)會(huì)局限在極小值中無法得到聚類最優(yōu)解,基于此問題可以使優(yōu)化遺傳算法和FCM算法結(jié)合,使算法性能得到提高[7],描述為:

    (1)初始群體與編碼的創(chuàng)建。選擇s組作為對(duì)象,每組有c個(gè)簇,之后根據(jù)類內(nèi)近距離最小,類間距最大原則使N-C個(gè)對(duì)象在C個(gè)簇中劃分,從而產(chǎn)生c個(gè)聚類;

    (2)適應(yīng)度函數(shù)的計(jì)算;

    (3)執(zhí)行交叉、選擇和變異操作,保留父代和下一代高適應(yīng)度的個(gè)體,從而合成全新的下一代;

    (4)假如到設(shè)定繁衍代數(shù),結(jié)束算法;要不然繼續(xù)執(zhí)行第3步驟[8]。

    2 用戶畫像的試驗(yàn)

    在用戶畫像屬性聚類分析過程中,模糊聚類理論利用matlab數(shù)據(jù)處理工具實(shí)現(xiàn)屬性因子聚類分析,聚類數(shù)目設(shè)置為3-6個(gè)。在項(xiàng)目中與企業(yè)溝通,設(shè)置聚類類別c=3。利用遺傳優(yōu)化Fcm算法計(jì)算得到表1聚類原型矩陣中心表。

    表1 聚類原型矩陣中心表

    通過適應(yīng)度函數(shù)執(zhí)行變異、選擇、交叉等操作步驟,將適應(yīng)度高的個(gè)體保存構(gòu)成下一代,圖3為適應(yīng)度曲線結(jié)果,通過圖3可以看出來平均迭代30次之后開始適應(yīng)度最佳,100次之后運(yùn)算終止。

    圖3 適應(yīng)度曲線結(jié)果

    使30個(gè)用戶樣本根據(jù)最大隸屬度對(duì)象分組,每個(gè)樣本針對(duì)聚類原型隸屬度和為1,得到聚類樹狀圖,詳見圖4。通過圖4表示,群組內(nèi)部區(qū)具有較高的相似度,群組之間存在差異[9]。

    圖4 聚類原型樹狀圖

    3 結(jié)束語

    在互聯(lián)網(wǎng)信息技術(shù)不斷發(fā)展的過程中,大部分電子商務(wù)網(wǎng)站也得到了更大的發(fā)展空間,在網(wǎng)絡(luò)交易活動(dòng)中,設(shè)置相關(guān)客戶的用戶畫像,能夠全面掌握客戶信息和需求的主要工具。在規(guī)模不斷擴(kuò)大的過程中,對(duì)于大量客戶系統(tǒng)化管理也會(huì)越來越復(fù)雜。如何在海量數(shù)據(jù)中利用文本挖掘技術(shù)得到相關(guān)客戶的信息,用戶畫像為最合適的路徑。

    猜你喜歡
    分詞畫像適應(yīng)度
    改進(jìn)的自適應(yīng)復(fù)制、交叉和突變遺傳算法
    威猛的畫像
    “00后”畫像
    畫像
    結(jié)巴分詞在詞云中的應(yīng)用
    值得重視的分詞的特殊用法
    基于空調(diào)導(dǎo)風(fēng)板成型工藝的Kriging模型適應(yīng)度研究
    中國塑料(2016年11期)2016-04-16 05:26:02
    潛行與畫像
    少數(shù)民族大學(xué)生文化適應(yīng)度調(diào)查
    高考分詞作狀語考點(diǎn)歸納與疑難解析
    北辰区| 绥宁县| 唐山市| 缙云县| 贵溪市| 泸西县| 宜良县| 长武县| 青铜峡市| 自贡市| 乐山市| 遵义市| 施秉县| 陆河县| 万宁市| 阿合奇县| 文化| 新营市| 门头沟区| 彰化县| 遵义市| 吉安市| 莱芜市| 文成县| 敦化市| 乌拉特后旗| 靖安县| 平定县| 西吉县| 衡阳市| 逊克县| 广西| 项城市| 鄂托克前旗| 唐海县| 五河县| 华池县| 鹰潭市| 池州市| 英超| 武夷山市|