梁震杰
摘 要:伴隨著社會經(jīng)濟持續(xù)不斷向前進步,互聯(lián)網(wǎng)信息技術(shù)得到快速發(fā)展。與此同時電子商務(wù)網(wǎng)站也取得了巨大發(fā)展空間,關(guān)于電子商務(wù)相關(guān)行業(yè)競爭也更加越來越激烈,準確把控企業(yè)相關(guān)競爭優(yōu)勢,有效保證企業(yè)持續(xù)、穩(wěn)定發(fā)展是很多電子商務(wù)相關(guān)企業(yè)的共同發(fā)展方向。很多互聯(lián)網(wǎng)電子相關(guān)企業(yè)為了更好整合、優(yōu)化網(wǎng)站運營相關(guān)活動,都應(yīng)該根據(jù)實際情況。投入更多資源對網(wǎng)站用戶進行系統(tǒng)化分析,使用文本挖掘相關(guān)技術(shù)創(chuàng)建自己相關(guān)用戶畫像,有很多經(jīng)濟實力比較強的商務(wù)網(wǎng)站或多或少都積累了大量用戶消費信息資源。對此,我們文本挖掘技術(shù)支持下的用戶畫像設(shè)計研究這個作為出發(fā)點,對其進行探討與論述。
關(guān)鍵詞:文本挖掘 用戶畫像 用戶研究
隨著互聯(lián)網(wǎng)相關(guān)電子商務(wù)經(jīng)濟活動持續(xù)快速發(fā)展,用戶畫像對于電子商務(wù)相關(guān)企業(yè)來說,其價值越來越大。電子商務(wù)相關(guān)網(wǎng)站涉及領(lǐng)域比較廣泛,不單指追求、關(guān)注技術(shù),還應(yīng)該全面的分析用戶需要。然而,對用戶畫像相關(guān)研究還是處于初級階段,只要創(chuàng)建、設(shè)計出完善的用戶模型,有關(guān)互聯(lián)網(wǎng)商務(wù)網(wǎng)站才能更好的認識、了解客戶的真實需要。用戶畫像需要一定的挖掘技術(shù)做保障,對此,我們就詳細的討論文本挖掘技術(shù)與用戶畫像相關(guān)特征。
一、文本挖掘技術(shù)概況
文本挖掘技術(shù)一般情況下指從相關(guān)文本信息數(shù)據(jù)中來獲取可以理解、可用知識,與此同時更好的把這些知識組織起來,以便作為未來發(fā)展、參考的重要依據(jù)。它是一種非結(jié)構(gòu)化信息數(shù)據(jù),它的長度不受任何限制,沒有固定的形狀。另外,它的結(jié)構(gòu)有比較紛繁復(fù)雜,無法從數(shù)據(jù)庫來充分表現(xiàn)出來。通常情況下,文本挖掘都是從海量的文本信息數(shù)據(jù)中,提取有規(guī)律性的知識相關(guān)過程。它是有信息數(shù)據(jù)挖掘逐步發(fā)展起來,兩者既有差異也有差距,例如,信息數(shù)據(jù)挖掘使用處理的對象大多數(shù)都是關(guān)系型比較強的信息數(shù)據(jù)庫。然而,文本挖掘主要使用處理對象主要是,沒有任務(wù)固定模式相關(guān)數(shù)據(jù)。在文本挖局處理過程中,其品質(zhì)良好對信息相關(guān)模式的有效識別有重要影響,因此,文本預(yù)處理整個程序是非常關(guān)鍵環(huán)節(jié)。通常情況下,文本挖掘整個操作流程保護以下幾個步驟數(shù)據(jù)文本獲取、信息數(shù)據(jù)過濾、文本相關(guān)特征挑選、創(chuàng)建模型、模型評測。[1]
二、關(guān)于文本獲取分析
文本挖掘所要解決的對象大多數(shù)都是使用、文本形式進行存儲相關(guān)信息內(nèi)容。從中找到潛在性的知識和規(guī)律,與結(jié)構(gòu)化相關(guān)信息數(shù)據(jù)存在很大差異。與結(jié)構(gòu)化相關(guān)信息數(shù)據(jù)可以從相關(guān)有聯(lián)系的數(shù)據(jù)庫里邊提取出來。文本型相關(guān)數(shù)據(jù)提起的方式有很多,例如,關(guān)于Web網(wǎng)頁數(shù)據(jù)需要對其展開有效處理,在去掉html格式標簽之后,進行逐一分句、分詞,將他們變成結(jié)構(gòu)化形式的文本數(shù)據(jù),除此之外,還有一些文本數(shù)據(jù)經(jīng)過系統(tǒng)處理,存儲在數(shù)據(jù)中。[2]
三、關(guān)于文本挖掘數(shù)據(jù)清洗分析
信息數(shù)據(jù)清洗,是文本挖局中比較重要的一個關(guān)鍵環(huán)節(jié)。首次獲取的相關(guān)數(shù)據(jù)文件并不是關(guān)系型數(shù)據(jù),第一步要做的就是把該數(shù)據(jù)相關(guān)文件直接轉(zhuǎn)換成計算機可以識別的相關(guān)數(shù)據(jù),同時還能夠表現(xiàn)相關(guān)文本內(nèi)容中的結(jié)構(gòu)化主要形式。文本型相關(guān)數(shù)據(jù)結(jié)構(gòu)都是有限的,文本型相關(guān)數(shù)據(jù),在計算機日常處理過程中存在很大困難,因此,文本相關(guān)內(nèi)容就無法通過數(shù)據(jù)相關(guān)挖掘技術(shù)進行解決和處理,必須先對文本進行及時處理。一般情況下,很多文本內(nèi)容里都擁有海量文本相關(guān)信息,在去除噪音后,需要保留文檔相關(guān)特征。同時使用特征相關(guān)模型來作為文本表達形式,把文本由從非結(jié)構(gòu)化相關(guān)數(shù)據(jù)有效轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)。[3]
四、關(guān)于文本特征相關(guān)選擇分析
文本特征通常情況下,是指與文本內(nèi)容聯(lián)系比較緊密的元數(shù)據(jù),主要分為兩種:語義性相關(guān)特征和描述性相關(guān)特征,文本型相關(guān)數(shù)據(jù)都具有很大維度,這些問題對文本挖掘相互消耗掉海量網(wǎng)絡(luò)資源和大量時間。尤其,在文本進行處理階段時包含:日常使用比較多的詞表刪除、過濾,不管是用詞表來刪減那些使用率比較的低的常用詞語。并且依據(jù)詞語相關(guān)片段在文本與結(jié)構(gòu)中位置不同,來進行不同權(quán)重。通過文本模型來表示所得到的數(shù)據(jù)規(guī)模都非常巨大,一般情況下,都帶有很高維數(shù),尤其采用向量相關(guān)空間模型時,文本向量將會達到百萬級別的維數(shù)甚至?xí)M一步擴大。假設(shè)對這種上百萬數(shù)據(jù)文本進行解決與處理,必定會耗費非常多的時間,因此,一定要選擇突出的特征詞,把文本相關(guān)特征集壓縮。以此來降低文本的維數(shù)。
五、關(guān)于文本挖掘分析
文本相關(guān)數(shù)據(jù)通過特征化進行處理后,之后就要進入處于挖掘階段。文本挖掘是整個挖掘程序中比較困難,同時也是非常關(guān)鍵的環(huán)節(jié)。它主要包含:文本聚類、文本關(guān)聯(lián)、文本分類、數(shù)據(jù)信息檢索、數(shù)據(jù)鏈接分析等。文本型相關(guān)數(shù)據(jù)大多數(shù)比較復(fù)雜,維度相關(guān)也比較高。因此,要用傳統(tǒng)相關(guān)文本進行挖掘與算法,來對知識進行挖掘。這種情況就扥不到好的效果。因此,在對文本挖掘時要根據(jù)語料相關(guān)特點來改進,或者使用比較創(chuàng)新型的算法來挖掘。通常情況下,有兩個選擇性比較強的因素:第一種是依據(jù)不同類型文本數(shù)據(jù)各自不同具有的特點進行模擬算法。文本挖掘相關(guān)過程核心主要是文本挖掘算法,文本挖掘常用算法是主要研究方向,使用正確的文本挖掘算法能夠有效提升挖掘效率。想要獲取有價值的挖掘效果,一定要認真了解各種挖掘算法,依據(jù)所要訓(xùn)練的文本特征并且有效結(jié)合適當、合理算法來展開挖掘。
六、關(guān)于模式提取
通過對用戶的評估相關(guān)指標來對文本挖掘所獲得知識展開評價,依據(jù)評價相關(guān)結(jié)果來選擇是否使用。文本挖掘所獲得結(jié)果是各種應(yīng)用知識的模式,使用原先已經(jīng)定義好的評估指標來對已經(jīng)獲取的模式來評價。如果所評價的相關(guān)結(jié)果符合一定要求,就應(yīng)該保存相關(guān)知識模式,為用戶使用做好充足準備。
1.關(guān)于用戶畫像相關(guān)概述
用戶畫像是一種有效勾畫需求客戶、準確聯(lián)系相關(guān)用戶訴求和創(chuàng)造方向的工具。近些年隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,用戶畫像已經(jīng)被得到廣泛使用。在日常操作中,通常會用比較淺顯并且與生活聯(lián)系密切的語言,把相關(guān)用戶的行為和特點進行有效結(jié)合起來。一般情況下,用戶畫像相關(guān)產(chǎn)品在沒有進入市場之前,定性化相關(guān)用戶畫像在很大程度上能夠節(jié)省更多時間與資源,通過使用桌面研究定性化相關(guān)方法來取得用戶畫像。它是一種把定性和定量進行有效結(jié)合的載體,對定量化初期進行調(diào)研能夠取得對一個用戶群比較精準的理解,在以后用戶角色創(chuàng)建中,能夠很好的對用戶順序進行排列,把有關(guān)核心用戶給重點突出來。定性化相關(guān)方法雖然不能有效統(tǒng)計不同單位特征,但是,能夠有效對相關(guān)資料進行分類、比較。進一步對某類現(xiàn)象性質(zhì)做出一定概況,在創(chuàng)建角色中使用定型化相關(guān)方式,能夠有效獲取海量用戶的生活狀況、相關(guān)使用情境、等重要資料,最終生成活生生用戶類型。針對后臺相關(guān)信息數(shù)據(jù)挖掘,可以將定型化與定量化有效結(jié)合在一起來建立用戶畫像??梢愿鶕?jù)實際情況從后臺相關(guān)信息數(shù)據(jù)中提取,通過對這些數(shù)據(jù)進行分析,能夠有效了解用戶相關(guān)上網(wǎng)環(huán)境的重要指標。在對用戶使用相關(guān)場景熟悉了解后,可以抽取一部分用戶ID樣本,從中獲得用戶身份、性別、購物習(xí)慣、用戶個人愛好,用戶的日常交易習(xí)慣的重要因素,經(jīng)過清洗后,可以使用聚類分析相關(guān)工具以此來確定區(qū)分最明顯的相關(guān)因素。在用戶畫像還有一個非常重要的細化標準:顆粒度。舉一個通俗的例子,假設(shè)“用戶畫像”細化到具體的生活場景里。然而,這種情況幾乎不可能發(fā)生的,與此同時,假設(shè)用戶相關(guān)畫像顆粒度比較大,對于產(chǎn)品相關(guān)設(shè)計意義也就會變小,因此,從整體上有效把握畫像就顯的非常有必要。[4]
2.關(guān)于用戶畫像設(shè)計
用戶畫像是對相關(guān)用戶進行深入了解,把用戶真實屬性有效轉(zhuǎn)化成有規(guī)則、方便計算機進行存儲的信息數(shù)據(jù)格式,一般情況下,是依照某種特殊模型,來規(guī)范客戶相關(guān)信息。創(chuàng)建用戶相關(guān)畫像模型,主要目的是對客戶進行有效數(shù)據(jù)分析,更深層次挖掘用戶相關(guān)需求信息。最終達到為用戶提供比較適合的物品或者其他相關(guān)服務(wù)功能。
結(jié)語
伴隨著互聯(lián)網(wǎng)信息技術(shù)快速發(fā)展,很多電子商務(wù)網(wǎng)站也獲得更大發(fā)展空間,在進行網(wǎng)絡(luò)相關(guān)交易活動中,對有關(guān)客戶進行用戶畫像設(shè)置,是能夠更加充分了解客戶信息與需求的重要工具。伴隨著可和規(guī)模的持續(xù)不斷擴大,對大量客戶進行系統(tǒng)化管理將會變得更加復(fù)雜。怎么在海量的信息數(shù)據(jù)中通過使用文本挖掘技術(shù)來獲取相關(guān)客戶信息,用戶畫像是最佳合適選擇路徑。
參考文獻
[1]汪強兵,章成志.融合內(nèi)容與用戶手勢行為的用戶畫像構(gòu)建系統(tǒng)設(shè)計與實現(xiàn)[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(2):80-86.
[2]李雅坤.基于用戶畫像挖掘技術(shù)的網(wǎng)絡(luò)借貸平臺研究綜述[J].知識經(jīng)濟,2017(16):70-70.
[3]王憲朋.基于視頻大數(shù)據(jù)的用戶畫像構(gòu)建[J].電視技術(shù),2017,41(6):20-23.
[4]李恒超,林鴻飛,楊亮,等.一種用于構(gòu)建用戶畫像的二級融合算法框架[J].計算機科學(xué),2018,45(1):157-161.