伍瑩++黃鑫
[摘 要] 隨著信息技術(shù)的快速發(fā)展,各種信息數(shù)據(jù)的規(guī)模呈爆炸式增長,社會逐漸進(jìn)入“大數(shù)據(jù)時代”。數(shù)據(jù)挖掘技術(shù)作為大數(shù)據(jù)技術(shù)的核心技術(shù)之一,其在各行各業(yè)得到了廣泛的應(yīng)用。在門戶網(wǎng)站中,通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用,能夠?qū)τ脩粜袨楹托枨筮M(jìn)行全面的分析,從而使網(wǎng)站的各方面內(nèi)容能夠更加貼合用戶的興趣,吸引更多的用戶,推動網(wǎng)站的發(fā)展。
[關(guān)鍵詞] 大數(shù)據(jù);門戶網(wǎng)站;用戶行為分析;數(shù)據(jù)挖掘;聚類分析
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 19. 087
[中圖分類號] TP311 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1673 - 0194(2017)19- 0203- 02
0 引 言
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)的重要性日漸凸顯,門戶網(wǎng)站作為提供綜合性信息資源的網(wǎng)站,應(yīng)該充分利用大數(shù)據(jù)技術(shù)的優(yōu)勢,對用戶行為和需求進(jìn)行深入分析,從而對網(wǎng)站內(nèi)容進(jìn)行調(diào)整,提升網(wǎng)站內(nèi)容的豐富性,更好地滿足用戶的多樣化需求。同時,通過大數(shù)據(jù)技術(shù)的分析,還能夠提升網(wǎng)站服務(wù)的精準(zhǔn)性,開發(fā)各類增值業(yè)務(wù),提升網(wǎng)站的效益。
1 大數(shù)據(jù)分析在網(wǎng)站應(yīng)用的現(xiàn)狀
從全球范圍來看,隨著大數(shù)據(jù)技術(shù)的發(fā)展,各類門戶網(wǎng)站的建設(shè)逐漸向著智慧化、精準(zhǔn)化、主動化的方向發(fā)展。在這種門戶網(wǎng)站發(fā)展趨勢的背后,有著深刻的技術(shù)變革背景,即近幾年來數(shù)據(jù)分析工具的技術(shù)創(chuàng)新,逐漸朝著基于云模式采集用戶行為數(shù)據(jù),應(yīng)用大數(shù)據(jù)分析平臺對用戶行為的深度挖掘。近幾年來,很多網(wǎng)站基于先進(jìn)的網(wǎng)站智能分析工具,對用戶的需求進(jìn)行準(zhǔn)確及時的分析,從而向用戶推送精準(zhǔn)的信息和服務(wù),取得了良好的效果。
2 數(shù)據(jù)挖掘及用戶行為分析
2.1 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是大數(shù)據(jù)技術(shù)的重要應(yīng)用內(nèi)容,其主要是從大型數(shù)據(jù)庫或者數(shù)據(jù)倉庫中提取一些隱含的、未知的以及具有潛在應(yīng)用價值的信息或模式[1]。通過對數(shù)據(jù)的挖掘,提供預(yù)測性決策的方法、工具和過程。在大數(shù)據(jù)背景下,數(shù)據(jù)挖掘技術(shù)在網(wǎng)站中的應(yīng)用,主要是利用數(shù)據(jù)挖掘技術(shù)從網(wǎng)站數(shù)據(jù)庫記錄的用戶瀏覽信息中提取出他們感興趣的信息,是一項(xiàng)綜合性技術(shù),對于網(wǎng)站內(nèi)容的優(yōu)化調(diào)整,精準(zhǔn)服務(wù)等具有重要的參考價值。
2.2 用戶行為分析
隨著大數(shù)據(jù)時代的到來,鋪天蓋地的網(wǎng)絡(luò)數(shù)據(jù)向人類襲來,這些龐大的數(shù)據(jù)蘊(yùn)含了非常巨大的價值,隨著網(wǎng)絡(luò)用戶的增加,大量門戶網(wǎng)站著手進(jìn)行用戶數(shù)據(jù)的分析,從而總結(jié)出用戶的具體行為特征,向用戶精準(zhǔn)推送網(wǎng)站內(nèi)容。網(wǎng)絡(luò)用戶行為分析主要是對網(wǎng)絡(luò)用戶數(shù)據(jù)進(jìn)行統(tǒng)計和分析,從其中發(fā)現(xiàn)用戶的行為規(guī)律,可以利用一些特征公式來表示用戶的這種行為規(guī)律,也可利用可視化技術(shù)將這種特征體現(xiàn)出來。
對于網(wǎng)站訪問用戶行為的分析,可以利用下面的模型簡單計算出用戶的行為值:
B=S+T
其中,S表示用戶訪問網(wǎng)站消耗的流量;T表示用戶訪問網(wǎng)站消耗的時間。
3 聚類分析技術(shù)
聚類分析是數(shù)據(jù)挖掘中最主要的方法和功能之一,近幾年來越來越受到人們的重視。用戶的行為的分析主要是結(jié)合用戶的特征分析出不同的類或者簇,聚類是在未知類或者簇的數(shù)目和特征情況下對數(shù)據(jù)進(jìn)行分類。正常網(wǎng)絡(luò)行為非常豐富,而在分析之前并不知道可以聚為多少個類。選擇何種算法主要由數(shù)據(jù)的類型、聚類的目的和應(yīng)用來確定。小波聚類算法主要是以信號分析理論為基礎(chǔ)提出的一種聚類算法,信號的高頻部分對應(yīng)特征空間中數(shù)據(jù)點(diǎn)的快速變化部分,可以將其作為聚類的邊界。而信號的低頻部分主要對應(yīng)特征空間中數(shù)據(jù)點(diǎn)較為集中的部分,即聚類的本身。其核心思想是:給定空間對象集O,算法的目的是檢測簇,給對象分配其所屬的簇的標(biāo)簽,通過小波變化轉(zhuǎn)換原特征空間,然后找到新空間中的密集區(qū),這樣就能夠?qū)⒂脩舭凑罩付ǖ男袨槟P头诸惖讲煌念怺2]。在該算法中,以多為數(shù)據(jù)對象的特征向量作為輸入值,輸出聚類對象。
4 小波聚類算法在門戶網(wǎng)站用戶行為分析中的應(yīng)用
本文選擇門戶網(wǎng)站新浪網(wǎng)作為算法應(yīng)用對象,數(shù)據(jù)選用了新浪網(wǎng)用戶行為日志數(shù)據(jù)集,從其中選取了1 000個用戶,選用了其中1個月的網(wǎng)絡(luò)日志數(shù)據(jù),對網(wǎng)站主要六大板塊,用戶訪問情況進(jìn)行了分析,包括“新聞”、“財經(jīng)”、“科技”、“體育”、“娛樂”和“游戲”六個板塊的內(nèi)容。統(tǒng)計用戶訪問各板塊的流量,并根據(jù)前文提出的用戶行文模型計算相應(yīng)的行為值,并通過小波聚類算法將對應(yīng)的行為值聚類到相應(yīng)的簇中,從而準(zhǔn)確劃分出用戶訪問網(wǎng)站內(nèi)容的行為偏好。由于用戶在工作日與周末訪問網(wǎng)站的行為習(xí)慣存在較大差異,因此,將兩個時段分開進(jìn)行聚類分析,具體結(jié)果如表1和表2所示。
通過表1和表2的數(shù)據(jù)可以看出,在利用小波聚類算法對用戶訪問行為進(jìn)行聚類分析之后,將所有用戶的行為進(jìn)行了明確的分類,可以利用這些數(shù)據(jù)準(zhǔn)確的總結(jié)出用戶在工作日以及周末訪問網(wǎng)站的具體傾向,為網(wǎng)站運(yùn)維團(tuán)隊對網(wǎng)站內(nèi)容選擇以及客戶服務(wù)等提供了重要的參考方向。
5 結(jié) 語
在大數(shù)據(jù)時代,門戶網(wǎng)站需要充分利用大數(shù)據(jù)技術(shù)的優(yōu)勢,對各種信息數(shù)據(jù)進(jìn)行充分挖掘,總結(jié)出用戶的需求和行為特征,為網(wǎng)站的設(shè)計、內(nèi)容的選擇以及客戶服務(wù)等提供重要的決策依據(jù),進(jìn)一步推動網(wǎng)站的可持續(xù)發(fā)展。
主要參考文獻(xiàn)
[1]陳玲霞.大數(shù)據(jù)時代檔案網(wǎng)站用戶體驗(yàn)優(yōu)化研究[J].云南檔案,2017(1):58-60.
[2]屠以撒.淺析大數(shù)據(jù)分析技術(shù)在新聞網(wǎng)站中的應(yīng)用[J].新聞研究導(dǎo)刊,2016(1):192-193.