李明杰 劉小飛
摘 ?要:大數(shù)據(jù)技術(shù)的迅猛發(fā)展帶來商業(yè)運(yùn)行模式的巨變,這種改變正從云端潛移默化地滲透到每一個(gè)置身其中的消費(fèi)者身上。從數(shù)據(jù)分析的角度去處理和解決問題,用大量數(shù)據(jù)分析得出的結(jié)論是最有效、最科學(xué)的,這一觀點(diǎn)正逐步被所有人接受。本文將從實(shí)際案例出發(fā),描述現(xiàn)有大數(shù)據(jù)商業(yè)分析模式,并展示其中最常用的MapReduce文本分析技術(shù)。
關(guān)鍵詞:用戶追蹤;數(shù)據(jù)分析;MapReduce
中圖分類號(hào):TP391.1 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)13-0013-03
Application of MapReduce Text Analysis Technology in Business Model
LI Mingjie,LIU Xiaofei
(School of Information & Intelligence Engineering,University of Sanya,Sanya ?572022,China)
Abstract:The rapid development of big data technology has brought about tremendous changes in business operation mode,which is imperceptibly penetrating into every consumer in the cloud. From the perspective of data analysis to deal with problems and solve problems,a large number of data analysis concluded that the most effective and scientific,this view is gradually accepted by all. In this paper,we will describe the existing business analysis model of large data based on practical cases,and show the most commonly used MapReduce text analysis technology.
Keywords:user tracking;data analysis;MapReduce
0 ?引 ?言
大數(shù)據(jù)的發(fā)展帶來了商業(yè)模式的改變,其技術(shù)的不斷進(jìn)步帶來了前所未有的商機(jī)。大數(shù)據(jù)技術(shù)可以使得商業(yè)公司提升現(xiàn)有數(shù)據(jù)庫的性能,使其更現(xiàn)代化;對于目前存在的機(jī)會(huì),更具有洞察力;更快速地獲取信息,探索并利用新的機(jī)會(huì)。下面我們介紹兩種常見的商業(yè)應(yīng)用。
1 ?問題的提出
第一種應(yīng)用是面向廣告公司的,或者是有投放廣告訴求的公司,他們希望可以使用大數(shù)據(jù)技術(shù)在線上接觸到特定的目標(biāo)群體并且能在網(wǎng)絡(luò)上追蹤目標(biāo)消費(fèi)者。第二種應(yīng)用我們以亞馬遜為例,分析如何使用大數(shù)據(jù)來增加銷量,并幫助其針對各類消費(fèi)者提供個(gè)性化的產(chǎn)品和服務(wù)。
2 ?基于大數(shù)據(jù)背景的解題思路
針對第一種應(yīng)用,我們給出這樣一種思路:若使得廣告公司或者公司可以使用大數(shù)據(jù)在線上接觸到特定的目標(biāo)群體并且能在網(wǎng)絡(luò)上追蹤目標(biāo)消費(fèi)者,其實(shí)質(zhì)就是利用大數(shù)據(jù)分析得出18歲-25歲這部分人群最經(jīng)常瀏覽的網(wǎng)站平臺(tái)以及瀏覽時(shí)間,以此指導(dǎo)廣告公司的最佳廣告投放位置和投放時(shí)間。具體實(shí)施步驟如下:
(1)首先是數(shù)據(jù)收集階段,可考慮在網(wǎng)絡(luò)主流社交平臺(tái)上投放廣告,比如國內(nèi)的QQ、國外的Facebook、Twitter等等。在沒有任何先驗(yàn)知識(shí)的情況下,這時(shí)期各平臺(tái)的投放比例和投放時(shí)間應(yīng)平均且一致。經(jīng)過一段時(shí)間的投放后,通過對點(diǎn)擊廣告并下單的實(shí)際消費(fèi)者進(jìn)行追蹤,對其在社交平臺(tái)上的瀏覽痕跡,比如發(fā)表的評論或點(diǎn)贊等信息進(jìn)行收集和整理,得出消費(fèi)者的分布情況,并重點(diǎn)對18歲-25歲這個(gè)年齡段的群體進(jìn)行進(jìn)一步分析,得出他們感興趣的方面,比如提及“歐冠”“NBA”等詞匯的比例達(dá)到70%,提及“游戲”“疲勞”等詞匯的達(dá)到20%,其他有10%。則可以進(jìn)一步追蹤目標(biāo)消費(fèi)者。
(2)改進(jìn)階段。一是根據(jù)收集分析得出的各大社交平臺(tái)上的實(shí)際點(diǎn)擊頻率和點(diǎn)擊時(shí)間,改變各平臺(tái)的投放比例和投放時(shí)間;二是根據(jù)分析得出的關(guān)鍵詞匯對目標(biāo)消費(fèi)者進(jìn)行追蹤投放,比如70%都提及了體育類詞匯,則可以在QQ的體育專欄或NBA專欄中投放廣告,并且在廣告語中加入“運(yùn)動(dòng)”“無極限”類的關(guān)鍵詞。
針對第二種亞馬遜的服務(wù)需求,則需兼顧大眾營銷和個(gè)性營銷之間的平衡。一是大眾營銷,即利用自身平臺(tái)和公共社交平臺(tái)收集的數(shù)據(jù)分析,重點(diǎn)改善亞馬遜平臺(tái)自身的品牌形象,產(chǎn)品推薦和價(jià)格設(shè)定等;二是優(yōu)質(zhì)消費(fèi)者的定制化個(gè)性營銷,即注冊會(huì)員服務(wù)等等,追蹤會(huì)員人群的消費(fèi)特點(diǎn),針對性的定制服務(wù)。具體實(shí)施步驟如下:
(1)增加銷量的一個(gè)簡單方法是根據(jù)亞馬遜網(wǎng)站上的搜索關(guān)鍵詞,進(jìn)行數(shù)據(jù)分析,得出關(guān)鍵詞的搜索頻率,在網(wǎng)站主頁醒目位置提供這些關(guān)鍵詞對應(yīng)消費(fèi)品的展示,增加點(diǎn)擊量。除此之外,在各大社交網(wǎng)站平臺(tái),搜索關(guān)于亞馬遜產(chǎn)品和服務(wù)的評價(jià),通過分析,完善自身服務(wù)水平,并使得產(chǎn)品有更加明確的消費(fèi)群體指向。
(2)設(shè)置商品的普通價(jià)格和會(huì)員價(jià)格,使得更多人從普通消費(fèi)者轉(zhuǎn)變?yōu)闀?huì)員消費(fèi)者,這樣亞馬遜可以獲得更多關(guān)于該消費(fèi)者的個(gè)人信息(比如:email、手機(jī)號(hào)碼等),也更有利于追蹤該消費(fèi)者的消費(fèi)習(xí)慣。根據(jù)大量的消費(fèi)者的消費(fèi)數(shù)據(jù),分析得出不同的消費(fèi)者類型,比如A類型的消費(fèi)者每次買完兒童讀物之后還會(huì)去瀏覽女性化妝品,可以據(jù)此為這類用戶設(shè)定好相應(yīng)產(chǎn)品的鏈接,讓其在購買兒童讀物的時(shí)候,方便地跳轉(zhuǎn)到化妝品頁面。而且這樣分解成不同的消費(fèi)者類型后,當(dāng)有類似購買行為的消費(fèi)者出現(xiàn)的時(shí)候,系統(tǒng)也可以將其歸類到某種消費(fèi)類型中,以便為其提供更好的服務(wù),而原本屬于類型A的消費(fèi)者如果購買習(xí)慣發(fā)生了變化,通過數(shù)據(jù)分析后,要迅速更新他的消費(fèi)類型,將其歸為更符合他現(xiàn)在消費(fèi)習(xí)慣的類型中。
以上即是在大數(shù)據(jù)背景下常見的兩種商業(yè)思維模式,這其中數(shù)據(jù)分析扮演著非常重要的角色,而利用MapReduce進(jìn)行文本分析是其中最常用的技術(shù)手段。
3 ?MapReduce基礎(chǔ)
隨著網(wǎng)絡(luò)用戶的急劇增加,原有的網(wǎng)頁爬取和頻率查詢類應(yīng)用無法應(yīng)對未來的需求。為了可以高速地處理大量數(shù)據(jù),商業(yè)公司開始使用網(wǎng)絡(luò)中集群形式的分布計(jì)算機(jī)。分布式新算法要求必須與數(shù)據(jù)的位置以及處理數(shù)據(jù)的應(yīng)用程序的位置無關(guān)。為了實(shí)現(xiàn)這一算法,一種新的泛型編程模型誕生了,這就是MapReduce。MapReduce這個(gè)名字來源于兩種已存在的編程語言功能的結(jié)合,也就是Map和Reduce。
MapReduce具有如下特性:
(1)時(shí)序安排。將一項(xiàng)工作分割為各個(gè)單獨(dú)的任務(wù),再由應(yīng)用程序的Map和Reduce來進(jìn)行處理。
(2)同步。通過保持追蹤任務(wù)及時(shí)來同時(shí)執(zhí)行多個(gè)進(jìn)程。
(3)代碼數(shù)據(jù)協(xié)同定位。在執(zhí)行相關(guān)進(jìn)程和處理相關(guān)數(shù)據(jù)之前,把代碼和與其相關(guān)的數(shù)據(jù)放到同一個(gè)節(jié)點(diǎn)上。
(4)錯(cuò)誤處理。在一個(gè)Hadoop集群中,可以跨節(jié)點(diǎn)來有效地處理錯(cuò)誤。
要讓MapReduce高效地工作需要一個(gè)合適的算法:從大量的數(shù)據(jù)或者記錄開始,對數(shù)據(jù)進(jìn)行迭代,利用Map功能提取有效信息并且創(chuàng)建一個(gè)輸出列表,整理輸出列表進(jìn)行優(yōu)化以便后續(xù)處理,利用Reduce功能來計(jì)算一系列的結(jié)果,產(chǎn)生最終的輸出。
4 ?MapReduce文本分析
對于各種形式的文本分析而言,LineCount應(yīng)用程序是一個(gè)不可或缺的統(tǒng)計(jì)工具。想分析文本,我們必須知道文本中的行數(shù)、字?jǐn)?shù)和單詞數(shù)。此外,這些參數(shù)的出現(xiàn)頻率也有助于我們對數(shù)(值)進(jìn)行分類。本文實(shí)驗(yàn)中,我們將借助Eclipse集成開發(fā)環(huán)境(IDE)編寫MapReduce程序,以統(tǒng)計(jì)給定文本文件的行數(shù)。下面給出具體實(shí)驗(yàn)步驟:
(1)在Ubuntu上安裝Eclipse、Hadoop和JDK,在Eclipse中創(chuàng)建新的Java Project,在其中添加必要的jar包文件,如圖1所示。
(2)創(chuàng)建包,并在包中創(chuàng)建“LineCount”類,其核心代碼如圖2所示。
(3)將LineCount項(xiàng)目導(dǎo)出為jar文件。啟動(dòng)Hadoop,復(fù)制所要分析的文件(文件名為loaddata1)到HDFS,重命名為LOAD,如圖3所示。
(4)運(yùn)行MapReduce程序,如圖4所示。
(5)最后將結(jié)果導(dǎo)出到文本文件并查看,如圖5所示。
5 ?結(jié) ?論
在大數(shù)據(jù)背景下,我們需要轉(zhuǎn)變自身思維,從數(shù)據(jù)分析的角度去處理問題和解決問題,認(rèn)同大量數(shù)據(jù)分析得出結(jié)論的有效性和科學(xué)性。掌握大數(shù)據(jù)分析的常用技術(shù),體會(huì)大數(shù)據(jù)背景下的商業(yè)模式變革。
參考文獻(xiàn):
[1] 王永昌,朱立谷.面向Twitter情感分析的文本預(yù)處理方法研究 [J].中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,26(2):31-38.
[2] 冒佳明,王鵬飛,趙然.MapReduce架構(gòu)下Reduce任務(wù)的調(diào)度優(yōu)化 [J].無線互聯(lián)科技,2018,15(22):5-6.
[3] 陳先紅,宋發(fā)枝.互聯(lián)網(wǎng)新技術(shù)背景下的輿論傳播策略 [J].武漢理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2019(3):1-6.
作者簡介:李明杰(1984-),男,漢族,吉林松原人,碩
士,副教授,研究方向:模式分析與人工智能;劉小飛(1984-),女,漢族,吉林敦化人,碩士,副教授,研究方向:動(dòng)態(tài)規(guī)劃與規(guī)劃識(shí)別。