王存昕,蔣文蓉
(上海第二工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,上海 201209)
客戶資源決定企業(yè)的核心競(jìng)爭(zhēng)力。淘寶上開(kāi)店的商家們?nèi)狈?duì)自己以及同類網(wǎng)店銷售情況的收集和分析,沒(méi)有對(duì)產(chǎn)品進(jìn)行促銷的可靠參考數(shù)據(jù)資料,不能維護(hù)自己的客戶資源。面對(duì)淘寶競(jìng)爭(zhēng)日益激烈的狀況,商家們需要維護(hù)自己的客戶,關(guān)心他們的想法、需求、購(gòu)買目的,并與客戶建立良好的、長(zhǎng)期的客戶關(guān)系,強(qiáng)化與客戶的溝通,留住老客戶,拓展新客戶,提升客戶價(jià)值,從而全面提升競(jìng)爭(zhēng)能力和盈利能力,由此本課題應(yīng)運(yùn)而生了。
目前,針對(duì)C2C的網(wǎng)店的客戶管理,淘寶網(wǎng)提供了阿里旺旺軟件。通過(guò)使用這個(gè)軟件,商家們可以添加買家賬號(hào)為好友,可以給客戶發(fā)信息,可以處理訂單、發(fā)貨、退貨等,但是沒(méi)有針對(duì)買家進(jìn)行信息的統(tǒng)計(jì)、消費(fèi)情況的分析,不能為商家的營(yíng)銷提供參考。
這是一套功能強(qiáng)大的企業(yè)網(wǎng)站管理系統(tǒng),集成網(wǎng)絡(luò)營(yíng)銷思想,使用生成HTML靜態(tài)頁(yè)面、模板程序分離、強(qiáng)大內(nèi)容標(biāo)簽技術(shù),在建立網(wǎng)站和后天管理功能方面都很出色,但是沒(méi)有針對(duì)客戶的管理功能,不能對(duì)客戶的信息進(jìn)行分析和統(tǒng)計(jì)。
這些C2C網(wǎng)站盡管前臺(tái)界面美觀,后臺(tái)管理功能也比較完善,但是沒(méi)有對(duì)商家的客戶進(jìn)行管理、消費(fèi)情況統(tǒng)計(jì)分析等功能。
本課題研究開(kāi)發(fā)的針對(duì)淘寶商家的客戶管理系統(tǒng),是專為淘寶商家量身打造的客戶管理系統(tǒng),能對(duì)商家客戶個(gè)人信息、消費(fèi)信息、商品信息等進(jìn)行統(tǒng)計(jì)和管理,并能生成統(tǒng)計(jì)圖及詳細(xì)報(bào)表,可為商家進(jìn)行產(chǎn)品營(yíng)銷提供參考。
本程序主要是運(yùn)用Java技術(shù)來(lái)實(shí)現(xiàn)的,其界面部分使用的是JSP及AJAX技術(shù),數(shù)據(jù)庫(kù)使用MYSQL,操作系統(tǒng)使用WINDOWS 7。
WEB信息的抽取分四個(gè)步驟:(1) WEB頁(yè)面的抓??;(2) 頁(yè)面的清洗;(3) 數(shù)據(jù)的抽取;(4) 數(shù)據(jù)的裝載[1,2]。首先抓取WEB頁(yè)面獲取WEB數(shù)據(jù)源,然后使用網(wǎng)頁(yè)預(yù)處理程序清洗頁(yè)面,去除與信息無(wú)關(guān)的標(biāo)記,生成結(jié)構(gòu)化的HTML文檔,最后再將HTML文檔轉(zhuǎn)化成為后續(xù)程序可以識(shí)別的標(biāo)準(zhǔn)結(jié)構(gòu),獲取淘寶交易記錄和客戶信息等數(shù)據(jù),加載到數(shù)據(jù)庫(kù)。
圖1 抽取流程圖Fig.1 Extraction flow chart
網(wǎng)頁(yè)抓取程序的功能就是通過(guò)URL將網(wǎng)頁(yè)的HTML代碼抽取出來(lái)保存到文本文檔中。該程序會(huì)通過(guò)輸入的URL自動(dòng)獲取該URL的域名地址,可以保證遍歷網(wǎng)頁(yè)抽取信息的范圍在該站點(diǎn)中。這樣可以更有效地針對(duì)一個(gè)網(wǎng)站進(jìn)行信息抽取,也可以提高抽取的效率和準(zhǔn)確性[3,4]。
網(wǎng)頁(yè)的預(yù)處理在整個(gè)信息抽取過(guò)程中是一個(gè)很重要的部分。網(wǎng)頁(yè)中大量有用的數(shù)據(jù)往往都被許多噪音數(shù)據(jù)所干擾,包括廣告、導(dǎo)航條、版權(quán)說(shuō)明等。盡管這些噪音數(shù)據(jù)對(duì)于在互聯(lián)網(wǎng)上瀏覽的用戶來(lái)說(shuō)有一定的功能,但是它們也妨礙了網(wǎng)頁(yè)數(shù)據(jù)的自動(dòng)收集和挖掘,包括網(wǎng)頁(yè)自動(dòng)分類、聚類、信息抽取和信息檢索等的準(zhǔn)確性、效率和性能。網(wǎng)頁(yè)的預(yù)處理主要包括HTML代碼的修正和噪音數(shù)據(jù)的過(guò)濾。在這里我把預(yù)處理功能分成了三塊:HTML代碼修正、URL處理和信息數(shù)據(jù)處理[5,6]。
包裝器是一種軟件過(guò)程。這個(gè)過(guò)程使用已經(jīng)定義好的信息抽取規(guī)則,將網(wǎng)絡(luò)爬蟲(chóng)搜集到的WEB頁(yè)面的信息數(shù)據(jù)抽取出來(lái),轉(zhuǎn)換為用特定的格式描述的信息。一個(gè)包裝器一般針對(duì)某一種數(shù)據(jù)源中的一類頁(yè)面。包裝器運(yùn)用規(guī)則執(zhí)行程序?qū)?shí)際要抽取的數(shù)據(jù)源進(jìn)行抽取。包裝器一般由抽取規(guī)則和抽取器兩部分構(gòu)成[7]。
圖2 包裝器Fig.2 Wrapper
2.4.1 抽取規(guī)則的制定
抽取規(guī)則主要描述規(guī)則制定、抽取步驟、輸出方式等。本程序的抽取規(guī)則主要是由兩個(gè)方面組成的,一個(gè)是URL抽取規(guī)則,另一個(gè)是基于DOM樹(shù)的抽取規(guī)則[8-12]。
URL抽取規(guī)則十分重要,是直接影響抽取效率的一個(gè)部分。根據(jù)淘寶網(wǎng)店中所有產(chǎn)品展示的頁(yè)面數(shù)據(jù)特點(diǎn),本程序進(jìn)行了針對(duì)性的信息抽取,保證抽取的準(zhǔn)確性和效率性。
基于DOM樹(shù)的抽取規(guī)則是采用基于DOM樹(shù)抽取路徑表達(dá)式的抽取規(guī)則對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行抽取。下面是淘寶網(wǎng)店商品展示頁(yè)面的HTML代碼片段,對(duì)應(yīng)的DOM樹(shù)如圖3所示。該DOM樹(shù)中的每一個(gè)節(jié)點(diǎn)對(duì)應(yīng)于HTML語(yǔ)法里的TAG元素,對(duì)于各個(gè)消息屬性域有著共同的父節(jié)點(diǎn),其路徑為HTML[0].BODY[0].DIV[0],該節(jié)點(diǎn)以下所有子節(jié)點(diǎn)構(gòu)成了所要抽取的信息塊。淘寶網(wǎng)店商品展示頁(yè)面的HTML代碼片段如下:
圖3 網(wǎng)頁(yè)的DOM樹(shù)Fig.3 DOM tree of the page
基于DOM樹(shù)具有良好的結(jié)構(gòu)性,可以根據(jù)樹(shù)的節(jié)點(diǎn)準(zhǔn)確定位HTML頁(yè)面中的TAG標(biāo)記,能夠準(zhǔn)確定位到所要抽取信息的位置。該抽取方法抽取數(shù)據(jù)明確,不會(huì)產(chǎn)生歧義。雖然不能動(dòng)態(tài)適應(yīng)HTML文檔結(jié)構(gòu)的變化,但是淘寶網(wǎng)頁(yè)內(nèi)容都為機(jī)器生產(chǎn)的統(tǒng)一標(biāo)準(zhǔn)的代碼,結(jié)構(gòu)很少發(fā)生變化。抽取規(guī)則的重點(diǎn)是將商品供應(yīng)信息塊和塊內(nèi)屬性域利用路徑表達(dá)式進(jìn)行唯一性描述。
2.4.2 包裝器的工作流程
當(dāng)用戶指定好包含抽取信息的URL時(shí),包裝器就會(huì)將URL進(jìn)行規(guī)則提取。接著用戶指定抽取樣本,包裝器又會(huì)將樣本進(jìn)行規(guī)則提取同時(shí)記錄抽取規(guī)則。當(dāng)抽取規(guī)則制定完畢后,程序?qū)?huì)根據(jù)選擇抽取信息的條數(shù)來(lái)自動(dòng)進(jìn)行抽取,并存入對(duì)應(yīng)的數(shù)據(jù)庫(kù)[13,14]。
信息的抽取是根據(jù)抽取規(guī)則一條一條地抽取,但信息的存儲(chǔ)則需要按數(shù)據(jù)表一行一行地插入。這樣就造成了抽取和存儲(chǔ)的不同步,因此在配置表里存儲(chǔ)了所生成的數(shù)據(jù)表的字段數(shù)信息。在存儲(chǔ)信息時(shí),根據(jù)字段的數(shù)量進(jìn)行循環(huán)拼接SQL語(yǔ)句,每次信息的規(guī)則比較就是一次循環(huán),在循環(huán)的開(kāi)始和結(jié)尾處將SQL語(yǔ)句補(bǔ)完,以確保語(yǔ)句的正確性。
對(duì)已經(jīng)保存到數(shù)據(jù)庫(kù)中的數(shù)據(jù),進(jìn)行進(jìn)一步整理、維護(hù)[15,16],然后使用Google圖表API生成統(tǒng)計(jì)圖[17]。
主要是對(duì)淘寶買家的信息、消費(fèi)記錄和商品信息,進(jìn)行查看、修改和更新。
經(jīng)過(guò)分析可得到某淘寶網(wǎng)店的全部商品的交易記錄信息。
淘寶網(wǎng)店“杜曼閃卡”的商品“圓點(diǎn)卡數(shù)字卡*全程教學(xué)計(jì)劃”的部分交易記錄數(shù)據(jù)如下:
表 1 交易記錄表Tab.1 Transaction record table
可得到網(wǎng)店的淘寶買家信息。
淘寶網(wǎng)店“杜曼閃卡”的部分買家信息數(shù)據(jù)如表2所示。
表2 買家信息表Tab.2 Buyers’ information table
經(jīng)數(shù)據(jù)分析生成的統(tǒng)計(jì)圖表如圖4所示[18,19]。
圖4 數(shù)據(jù)統(tǒng)計(jì)圖Fig.4 Data statistics chart
淘寶客戶管理系統(tǒng)總體框架如圖5所示。
圖5 客戶管理系統(tǒng)總體框架Fig.5 Customer management system framework
圖表顯示頁(yè)面見(jiàn)圖6。
圖6 商家客戶消費(fèi)統(tǒng)計(jì)圖Fig.6 Consumer business customers statistics chart
根據(jù)交易記錄,統(tǒng)計(jì)生成商家客戶購(gòu)買商品的種類、數(shù)量,就可以看出最優(yōu)客戶、顧客忠誠(chéng)度及購(gòu)買的產(chǎn)品特征,可向這些顧客推薦優(yōu)惠活動(dòng)及感興趣的促銷產(chǎn)品;根據(jù)淘寶買家信息,統(tǒng)計(jì)出他們的居住地,可據(jù)此向顧客居住地密集的地域推出包郵促銷活動(dòng);統(tǒng)計(jì)出購(gòu)買某商品的性別特征,商家可調(diào)整與這種商品配套的相關(guān)產(chǎn)品的推薦促銷。
使用第三方統(tǒng)計(jì)分析工具對(duì)現(xiàn)在淘寶、買買樂(lè)等平臺(tái)上的C2C網(wǎng)店進(jìn)行分析,對(duì)商家的客戶進(jìn)行管理,成本低,效率高,易用性強(qiáng)。然而,這種基于對(duì)WEB信息進(jìn)行抽取的客戶信息管理系統(tǒng),最主要的問(wèn)題仍是信息抽取的準(zhǔn)確性和健壯性有待提高,以及信息的加密和訪問(wèn)權(quán)限等問(wèn)題。本系統(tǒng)的功能比較有限,還可以朝多樣化、全面化、智能化等方向發(fā)展,尚有很大的開(kāi)發(fā)空間。
[1]柳佳剛, 劉高嵩, 賀令亞, 等.基于Web的信息抽取技術(shù)現(xiàn)狀與發(fā)展[J].福建電腦, 2007, (7):48-49.
[2]李保利, 陳玉忠, 俞士汶.信息抽取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用, 2003, 39(10):1-5, 66.
[3]苗穎.Web頁(yè)面信息自主抽取技術(shù)的研究[J].中國(guó)科技信息, 2007, 10(23):104-105.
[4]王錕.WEB文檔信息抽取方法研究[J].福建電腦, 2008, 3(3):133-134.
[5]陳天, 黃敏.Web信息抽取中的數(shù)據(jù)交叉定位[J].華南理工大學(xué)學(xué)報(bào):自然科學(xué)版, 2008, 5(5):43-47.
[6]色菲, 王佳, 潘超.基于XML描述的WEB信息抽取技術(shù)研究[J].計(jì)算機(jī)與信息技術(shù), 2007, 11(34):380,403.
[7]周順先, 林亞平, 王雷.Web信息抽取中基于頁(yè)面特性的包裝器平衡算法[J].計(jì)算機(jī)工程與應(yīng)用, 2006(36):144-147.
[8]冀高峰, 湯庸, 道煒, 等.基于XML的自動(dòng)學(xué)習(xí)Web信息抽取[J].計(jì)算機(jī)科學(xué), 2008, 11(35):87-90.
[9]吳揚(yáng)揚(yáng), 陳鍛生.識(shí)別和抽取web列表中的關(guān)系信息[J].計(jì)算機(jī)科學(xué), 2003, 31(6):86-88.
[10]黃健斌, 姬紅兵, 孫鶴立.Web網(wǎng)頁(yè)中動(dòng)態(tài)數(shù)據(jù)區(qū)域的識(shí)別與抽取[J].軟件技術(shù)與數(shù)據(jù)庫(kù), 2007.6(11):53-55.
[11]徐云風(fēng), 蔣文蓉.Web頁(yè)面抽取的分析與研究[J].信息化縱橫, 2008, 672(12):20-21.
[12]林科鏘.Web頁(yè)中表格結(jié)構(gòu)識(shí)別的研究與實(shí)現(xiàn)[D].成都:電子科技大學(xué), 2006.
[13]PIRRONE R, CARERI G, FABIANO F S.Real-time low level feature extraction for on-board robot vision systems[C]//Computer Architecture for Machine Perception, 2005, Palermo, Italy, IEEE Press:99-104.
[14]POL K, PATL N A ,PATANKAR S, et al.Survey on Web contentmining and extraction of structured and semistructured data, emerging trends in engineering and technology[C]//ICETET '08, 2008, Ghrce Nagpur, India, IEEE Press:543–546.
[15]JIANG W R, YAN J H.Implementation of static web-pages generator using JavaScript [J].Applied Mechanics and Materials, 2010, 39(11):588-591.
[16]JIANG W R, CHEN J, PAN H L.Develop the e-commerce website rapidly based on open-source system zen cart[C]//The 15th Conference on the Wireless across the Taiwan Straits (WRTS-2010), Kunming, China, Scientific Research Publishing, Inc, 2010(9):285-289.
[17]JIANG W R, WANG A B, WU C H, et al.Approach for name ambiguity problem using a multiple-layer clustering[C]//The 2009 IEEE International Conference on Social Computing (SocialCom-09), Vancouver, Canada, IEEE Press, 2009(8):874-878.
[18]梁海燕, 趙嵩正.基于JSP技術(shù)工程項(xiàng)目甘特圖的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件, 2006, (8):43-44,59.
[19]王睿, 張能立, 萬(wàn)歆.一種基于JFreeChart的Web統(tǒng)計(jì)圖表[J].微機(jī)發(fā)展,2005, (3):117-120.