李蘇龍 王大慶 董曉瑋
摘 ?要:職位畫像系統(tǒng)的主要目的就是利用現(xiàn)代編程技術(shù),將定量數(shù)據(jù)與定性分析相結(jié)合,構(gòu)建出職位畫像系統(tǒng),并將結(jié)果可視化,為企業(yè)、求職者和第三方學(xué)校、培訓(xùn)機(jī)構(gòu)之間提供參考幫助。文章基于文本分析,將定量數(shù)據(jù)與定性分析的方法相結(jié)合,運(yùn)用基于分布式爬蟲技術(shù),進(jìn)行文本挖掘、數(shù)據(jù)挖掘,幫助企業(yè)找到合適的人才,求職者明確市場(chǎng)需求找準(zhǔn)自身定位,也為學(xué)校、培訓(xùn)機(jī)構(gòu)的領(lǐng)導(dǎo)層提供數(shù)據(jù)決策支持和行業(yè)洞察功能。
關(guān)鍵詞:職位畫像系統(tǒng);分布式爬蟲技術(shù);數(shù)據(jù)挖掘;文本挖掘
中圖分類號(hào):TP311.52 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)23-0067-05
Research and Design of Position Portrait System Based on Text
LI Sulong,WANG Daqing,DONG Xiaowei
(Xuzhou University of Technology,Xuzhou ?221018,China)
Abstract:The main purpose of position portrait system is to use modern programming technology,combining quantitative data and qualitative analysis,build a position portrait system,and the results visualization,so as to provide reference and help for enterprises,job seekers,third-party schools and training institutions. Based on text analysis,this paper combines quantitative data with qualitative analysis,and uses distributed crawler technology to carry out text mining and data mining,so as to help enterprises find suitable talents,job seekers clarify market demand,find their own positioning,and provide data decision support and industry insight function for the leadership of schools and training institutions.
Keywords:position portrait system;distributed crawler technology;data mining;text mining
0 ?引 ?言
長(zhǎng)期以來(lái),企業(yè)、求職者和第三方學(xué)校、培訓(xùn)機(jī)構(gòu)之間都面臨著棘手的問(wèn)題:一方面企業(yè)無(wú)職位定義、找不到合適的員工、處于長(zhǎng)期動(dòng)蕩的局面;另一方面,求職者求職難、不知道企業(yè)要什么、不清楚自己會(huì)什么;同時(shí),作為第三方的學(xué)校、培訓(xùn)結(jié)構(gòu)以及獵頭公司“望眼欲穿”很想抓住市場(chǎng)的痛點(diǎn),但苦于招生困難、就業(yè)率低、學(xué)習(xí)的理與企業(yè)需求不匹配。
通過(guò)對(duì)以上問(wèn)題的分析和對(duì)職位畫像系統(tǒng)的研究,結(jié)合徐州工程學(xué)院實(shí)際情況,本項(xiàng)目提出了基于文本的職位畫像系統(tǒng)(以下均簡(jiǎn)稱為職位畫像系統(tǒng))的研究與設(shè)計(jì)。一方面幫助企業(yè)找到合適的人才,另一方面求職者明確市場(chǎng)需求找準(zhǔn)自身定位,同時(shí)也為第三方學(xué)校、培訓(xùn)機(jī)構(gòu)的領(lǐng)導(dǎo)層提供數(shù)據(jù)決策支持和行業(yè)洞察的功能。解決人才與崗位之間不匹配的矛盾,方便人才快速便捷的找到適合自己的工作崗位,企業(yè)也可以根據(jù)人才畫像找到對(duì)應(yīng)崗位技能需求的人才。
1 ?研究意義
職位畫像作為用戶畫像的一種,不僅可以完美的抽象出一個(gè)用戶的全貌信息,還可以對(duì)用戶的職位信息做出精準(zhǔn)的判斷,進(jìn)而了解到職位的薪資水平和地理分布,挖掘出潛在的數(shù)據(jù)價(jià)值。
基于文本的職位畫像系統(tǒng)的研究與設(shè)計(jì)既能夠幫助企業(yè)找到合適的人才,提高企業(yè)的核心競(jìng)爭(zhēng)力;幫助求職者明確市場(chǎng)需求找準(zhǔn)自身定位,最大限度地體現(xiàn)自身價(jià)值;同時(shí)也為第三方的學(xué)校、培訓(xùn)機(jī)構(gòu)中的領(lǐng)導(dǎo)層提供數(shù)據(jù)決策支持,保證授課內(nèi)容緊跟市場(chǎng)潮流,實(shí)時(shí)更新市場(chǎng)需求信息,協(xié)助教學(xué)產(chǎn)品的研發(fā)。
2 ?研究目標(biāo)及主要內(nèi)容
2.1 ?研究目標(biāo)
職位畫像是對(duì)職位的一種可視化描述形式。通過(guò)對(duì)職位建立畫像,能過(guò)形象直觀地標(biāo)識(shí)職位的具體特征,把數(shù)量龐大且雜亂無(wú)章的職位數(shù)據(jù)用簡(jiǎn)單易懂的形式表示出來(lái)。
本系統(tǒng)采用以Python為主,輔以JavaScript編程語(yǔ)言結(jié)合Tableau桌面應(yīng)用軟件、MySQL和Linux的形式進(jìn)行系統(tǒng)開(kāi)發(fā),采用文本分析的方法,將定量數(shù)據(jù)與定性分析相結(jié)合,運(yùn)用基于網(wǎng)絡(luò)爬蟲技術(shù),有效的抓取全行業(yè)“準(zhǔn)實(shí)時(shí)”數(shù)據(jù),進(jìn)行文本挖掘、數(shù)據(jù)挖掘,分析各種職位的需求,對(duì)職位進(jìn)行準(zhǔn)確描述,設(shè)計(jì)形成了特定職位的畫像。
2.2 ?項(xiàng)目的需求分析和總體設(shè)計(jì)
2.2.1 ?系統(tǒng)可視化界面
從多個(gè)角度分析職位數(shù)據(jù)特征,形成可視化報(bào)表,對(duì)職位畫像系統(tǒng)進(jìn)行系統(tǒng)的分析:
(1)職位數(shù)據(jù)統(tǒng)計(jì)。不同的時(shí)間對(duì)于不同專業(yè)方向,例如大數(shù)據(jù)、數(shù)據(jù)分析、HTML5等崗位的需求數(shù)是有所變化的,職位數(shù)據(jù)統(tǒng)計(jì)如圖1所示。
(2)Java系統(tǒng)架構(gòu)師職位畫像。Java系統(tǒng)架構(gòu)師的職位技能要求中,架構(gòu)設(shè)計(jì)最為明顯,這是由于所有職位描述中,架構(gòu)設(shè)計(jì)一詞出現(xiàn)的頻率最高,也就是出現(xiàn)的次數(shù)最多,理解為Java系統(tǒng)架構(gòu)師職位畫像中架構(gòu)設(shè)計(jì)為主要要求技能,具體地說(shuō)計(jì)算機(jī)體系結(jié)構(gòu)指的是計(jì)算機(jī)系統(tǒng)設(shè)計(jì)的觀念與架構(gòu),描述計(jì)算機(jī)在的設(shè)計(jì)原則。該架構(gòu)確定一個(gè)計(jì)算機(jī)設(shè)計(jì)的部件功能,部件間接口并且計(jì)算機(jī)體系結(jié)構(gòu)著重于負(fù)責(zé)了計(jì)算機(jī)架構(gòu)的中心功能:計(jì)算的中央處理器內(nèi)部的運(yùn)行動(dòng)作與存儲(chǔ)器的訪問(wèn)。此外,還有其他技能,例如:數(shù)據(jù)分析、用戶體驗(yàn)、Axure等[1]。
2.2.2 ?系統(tǒng)非功能性需求
結(jié)合目前計(jì)算機(jī)和網(wǎng)絡(luò)資源的優(yōu)勢(shì),利用國(guó)內(nèi)外現(xiàn)有成果,最大限度發(fā)揮系統(tǒng)投資效益,本系統(tǒng)以運(yùn)用、管理、維護(hù)、保障投資持續(xù)性為原則。除上述總體設(shè)計(jì)原則外,本系統(tǒng)的設(shè)計(jì)應(yīng)充分考慮以下非功能性需求[2]:
(1)開(kāi)放性。該系統(tǒng)可獨(dú)立作為一個(gè)完整的系統(tǒng)平臺(tái)使用,并可方便地集成到現(xiàn)有的系統(tǒng)中。
(2)實(shí)用性。進(jìn)行系統(tǒng)設(shè)計(jì)的首要目標(biāo)是提高系統(tǒng)的實(shí)用性,系統(tǒng)需要滿足信息管理的基本要求。
(3)靈活性。作為一個(gè)計(jì)算機(jī)應(yīng)用系統(tǒng),隨著需求的變化,系統(tǒng)應(yīng)具有良好的適應(yīng)性,可以靈活滿足不同用戶的訪問(wèn)需求
(4)穩(wěn)定性。系統(tǒng)采用多層架構(gòu),基于協(xié)同開(kāi)發(fā)方法,具有較高的可靠性和穩(wěn)定性。
2.2.3 ?系統(tǒng)功能性需求
結(jié)合系統(tǒng)功能,本系統(tǒng)功能性需求包括:
(1)系統(tǒng)功能。本系統(tǒng)主要功能模塊分為信息采集模塊和數(shù)據(jù)挖掘模塊。其中,信息采集模塊包括網(wǎng)絡(luò)通信、資源管理、數(shù)據(jù)分析和存儲(chǔ)管理。數(shù)據(jù)挖掘模塊包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、回歸分析、決策樹分析等。此外,還應(yīng)考慮一些常用功能,以考慮用戶的不同需求??梢詫⑸鲜龉δ茉龠M(jìn)行細(xì)分,如用戶界面等。
(2)系統(tǒng)用例。職位畫像系統(tǒng)的主要實(shí)施目標(biāo)是進(jìn)行架設(shè)網(wǎng)絡(luò)平臺(tái),最后,數(shù)據(jù)挖掘技術(shù)使系統(tǒng)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分析和處理,形成具體的工作畫像,并為相關(guān)人員提供決策支持,從而提高系統(tǒng)的智能化水平。
圖2左側(cè):一般用戶是普通求職者或企業(yè)招聘經(jīng)理。通過(guò)查詢、查看、下載結(jié)果等功能,可以查看在線招聘崗位信息的數(shù)據(jù)挖掘結(jié)果。
圖2右側(cè):管理員、一般用戶和分析人員可以對(duì)系統(tǒng)的各個(gè)功能模塊進(jìn)行操作,最終實(shí)現(xiàn)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)功能。
(3)系統(tǒng)體系架構(gòu)。由圖3所示系統(tǒng)架構(gòu)可知,整個(gè)系統(tǒng)分為:數(shù)據(jù)源層、數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)預(yù)處理層、分詞數(shù)據(jù)分析層(用戶畫像層)、職位畫像應(yīng)用層[3]。
(4)系統(tǒng)數(shù)據(jù)架構(gòu)。將來(lái)自各個(gè)爬蟲系統(tǒng)的數(shù)據(jù)根據(jù)多維應(yīng)用主題對(duì)數(shù)據(jù)進(jìn)行匯總后,進(jìn)一步分類,建立統(tǒng)一的數(shù)據(jù)視圖,構(gòu)筑存儲(chǔ)中心,形成統(tǒng)一的數(shù)據(jù)分析模型,以此共同組成完整的職位畫像系統(tǒng)的數(shù)據(jù)架構(gòu)[4]。
2.3 ?職位畫像系統(tǒng)的詳細(xì)設(shè)計(jì)
2.3.1 ?系統(tǒng)模塊設(shè)計(jì)
職位畫像系統(tǒng)總體包括三大部分:職位數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、職位畫像模塊。
職位數(shù)據(jù)采集模塊:基于Python腳本語(yǔ)言,使用Web Spider技術(shù),從指定的招聘網(wǎng)站獲取招聘數(shù)據(jù)。
數(shù)據(jù)預(yù)處理模塊:負(fù)責(zé)分析下載到本地?cái)?shù)據(jù)庫(kù)的在線招聘崗位信息,對(duì)爬取后的職位招聘信息作簡(jiǎn)單數(shù)據(jù)預(yù)處理工作。
職位畫像模塊:職位畫像系統(tǒng)的核心處理模塊,通過(guò)抽取經(jīng)過(guò)預(yù)處理后的職位招聘數(shù)據(jù),建立不同角度的數(shù)據(jù)結(jié)構(gòu)模型,構(gòu)建多層次職位畫像。
對(duì)于上述三大部分,詳細(xì)介紹:
(1)職位數(shù)據(jù)采集模塊設(shè)計(jì)。常見(jiàn)大數(shù)據(jù)采集方法有系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集及其他數(shù)據(jù)采集方法。對(duì)職位信息的采集屬于網(wǎng)絡(luò)數(shù)據(jù)采集。網(wǎng)絡(luò)數(shù)據(jù)采集是指通過(guò)網(wǎng)絡(luò)爬蟲公開(kāi)API等方式從網(wǎng)站獲取數(shù)據(jù)信息,抽取網(wǎng)頁(yè)中的非結(jié)構(gòu)化數(shù)據(jù),通過(guò)頁(yè)面解析成結(jié)構(gòu)化數(shù)據(jù),并保存到本地文件中。通用網(wǎng)絡(luò)爬蟲框架如圖4所示。
(2)數(shù)據(jù)預(yù)處理模塊設(shè)計(jì)。網(wǎng)站收集的大量原始招聘數(shù)據(jù)中存在大量的異常數(shù)據(jù),嚴(yán)重影響了數(shù)據(jù)挖掘建模的有效性,可能導(dǎo)致搜索結(jié)果偏差。因此,對(duì)數(shù)據(jù)進(jìn)行清洗接著或者同時(shí)進(jìn)行預(yù)處理,對(duì)于提高數(shù)據(jù)集的質(zhì)量和最小化異常數(shù)據(jù)是非常重要的。以此來(lái)提高數(shù)據(jù)集的質(zhì)量,盡可能減少異常數(shù)據(jù)對(duì)結(jié)果的影響。數(shù)據(jù)預(yù)處理一般包括步驟:初始數(shù)據(jù)的獲取、數(shù)據(jù)清洗、數(shù)據(jù)繼承和融合、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約、數(shù)據(jù)挖掘知識(shí)評(píng)價(jià)等。如圖5所示。
(3)職位畫像模塊設(shè)計(jì)。專業(yè)技術(shù)領(lǐng)域中,職位信息一般都含有對(duì)要求技能的描述。而在眾多職位中被頻繁提到的技能,正是目前大多企業(yè)正廣泛使用的技術(shù)?;诖耍俣ㄔ~條出現(xiàn)的次數(shù)越多就表明職位對(duì)該詞條的需求越大,即詞條對(duì)應(yīng)的詞頻越大,詞條需求度就越高。通過(guò)專業(yè)技能詞條的出現(xiàn)頻率來(lái)度量職位技能的需求度,具體包括如下:
1)詞條:根據(jù)爬取數(shù)據(jù)的各個(gè)職位描述,對(duì)職位描述進(jìn)行分詞得到詞條。
2)詞頻:分詞后,針對(duì)詞語(yǔ)出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì)得到詞頻。
3)詞條長(zhǎng)度:定義每個(gè)詞條的字符個(gè)數(shù)為詞條長(zhǎng)度。
4)職位需求度量:詞條出現(xiàn)的詞頻越大,表明職位對(duì)該詞條的需求越大。
職位畫像模塊是職位畫像系統(tǒng)的核心處理模塊,通過(guò)抽取經(jīng)過(guò)預(yù)處理后的職位招聘數(shù)據(jù),建立不同角度的數(shù)據(jù)結(jié)構(gòu)模型,構(gòu)建多層次職位畫像。
2.3.2 ?數(shù)據(jù)庫(kù)設(shè)計(jì)
一個(gè)好的數(shù)據(jù)庫(kù)產(chǎn)品不等于就有一個(gè)好的應(yīng)用系統(tǒng),如果不能設(shè)計(jì)一個(gè)合理的數(shù)據(jù)庫(kù)模型,不僅會(huì)增加客戶端和服務(wù)器端程序的編寫和維護(hù)的難度,而且將會(huì)影響系統(tǒng)實(shí)際運(yùn)行的性能。本系統(tǒng)的數(shù)據(jù)庫(kù)優(yōu)化設(shè)計(jì)主要包含以下幾個(gè)方面:
(1)數(shù)據(jù)庫(kù)優(yōu)化設(shè)計(jì)。數(shù)據(jù)庫(kù)模型不僅會(huì)影響編寫和維護(hù)客戶端和服務(wù)器端程序的難易度,還會(huì)影響系統(tǒng)運(yùn)行的實(shí)際性能。本系統(tǒng)的數(shù)據(jù)庫(kù)優(yōu)化設(shè)計(jì)主要包含以下幾個(gè)方面[5]:
1)索引。創(chuàng)建索引,可以在查詢的過(guò)程中使用優(yōu)化隱藏器,提高系統(tǒng)的性能。
2)存儲(chǔ)過(guò)程。存儲(chǔ)過(guò)程過(guò)多,無(wú)論是對(duì)版本控制、開(kāi)發(fā)、部署還是對(duì)遷移數(shù)據(jù)庫(kù)都會(huì)帶來(lái)很大的影響。所以在設(shè)計(jì)過(guò)程中,盡可能少的使用存儲(chǔ)過(guò)程,對(duì)于功能需求可以參考使用相關(guān)技術(shù)替代,如“對(duì)象/關(guān)系映射”等。
3)弱關(guān)聯(lián)。在關(guān)系型數(shù)據(jù)庫(kù)中,通過(guò)表中的字段來(lái)設(shè)計(jì)聯(lián)系,表和表之間的外鍵約束盡可能少,能夠方便對(duì)表字段和表結(jié)構(gòu)的調(diào)整和重構(gòu)。
4)并發(fā)控制。如果對(duì)并發(fā)操作不加以控制,就可能會(huì)造成讀取和存儲(chǔ)錯(cuò)誤,破壞數(shù)據(jù)庫(kù)的一致性。
(2)數(shù)據(jù)庫(kù)邏輯結(jié)構(gòu)設(shè)計(jì)。對(duì)職位畫像系統(tǒng)的詳細(xì)設(shè)計(jì),根據(jù)系統(tǒng)要求的分析和設(shè)計(jì),分別實(shí)現(xiàn)和分析了三個(gè)主要功能模塊,給出了系統(tǒng)實(shí)現(xiàn)和數(shù)據(jù)挖掘過(guò)程的細(xì)節(jié)。關(guān)于開(kāi)發(fā)工具的選擇,本文試圖選擇更新的版本。關(guān)于職位信息收集模塊,系統(tǒng)正在使用基于Python語(yǔ)言的Web Spider模塊。使用者可以自訂收集網(wǎng)址,以收集網(wǎng)站下方的子鏈接資料。對(duì)于數(shù)據(jù)預(yù)處理模塊,將采集來(lái)的經(jīng)過(guò)清洗、變換、規(guī)約、集成處理后的有用信息存儲(chǔ)到本地?cái)?shù)據(jù)庫(kù)當(dāng)中;職位畫像模塊采用回歸分析、決策樹等分析方法,對(duì)于不同的分詞進(jìn)行處理,形成特定的職位畫像。
(3)數(shù)據(jù)庫(kù)實(shí)現(xiàn)。部分代碼為:
# -*- coding:utf-8 -*-
"""
Created on Mon Jan 25 11:26:29 2016
@author:ifuturedata@icloud.com
mongodb數(shù)據(jù)庫(kù)連接類
"""
import sys
reload(sys)
import ?pymongo
sys.setdefaultencoding('utf-8')
class dbMongo:
def __init__(self):
self.OpenDB()
self.def_collection()
def OpenDB(self):
user=''
passwd=''
host=''
port=''
auth_db=''
uri = "mongodb://"+user+":"+passwd+"@"+host+":"+port+"/"+auth_db+"?authMechanism=SCRAM-SHA-1"
self.con = pymongo.MongoClient(uri,connect= False)
def def_collection(self):
self.db = self.con['qq']
self.c1_ods_qq_msg = self.db['ods_qq_msg']
self.c2_qq_group_member = self.db['qq_group_member']
def closeDB(self):
self.con.close()
def PrintResult(self,rows):
for row in rows:
for key in row.keys():
print row[key]
print '\n'
class dbMongoTest:
def __init__(self):
self.OpenDB()
self.def_collection()
def OpenDB(self):
user = 'root'
passwd = 'ibfroot'
host = 'db.ibf.cn'
port = '27019'
auth_db = 'admin'
uri = "mongodb://" + user + ":" + passwd + "@" + host + ":" + port + "/" + auth_db + "?authMechanism= SCRAM-SHA-1"
self.con = pymongo.MongoClient(uri,connect=False)
def def_collection(self):
self.db = self.con['resume']
self.c1_echarts = self.db['echarts']
def closeDB(self):
self.con.close()
def PrintResult(self,rows):
for row in rows:
for key in row.keys():
print row[key]
print '\n'
# class dbMongoInit:
# init_dict={'con':{'user':'',
# ? 'passwd':'',
# ? 'host':'',
# ? 'port':'',
# ? 'auth_db':''
# ? },
# 'db_use':{'db':'',
# ? 'col':[]}
# }
#
# def __init__(self,init_dict):
# self.init_dict=init_dict
# self.OpenDB()
# self.def_collection()
#
# def OpenDB(self):
# uri = "mongodb://"+self.init_dict['con']['user']+":"+self.init_dict['con']['passwd']+"@"+ \
# ?self.init_dict['con']['host']+":"+self.init_dict['con']['port']+\
# ?"/"+self.init_dict['con']['auth_db']+"?authMechanism=SCRAM-SHA-1"
# self.con = pymongo.MongoClient(uri,connect=False)
#
# def def_collection(self):
# self.db = self.con[self.init_dict['db_use']['db']]
# c_id=0
# for colection in self.init_dict['db_use']['col']:
# c_id+=1
# exec("self.c{0[0]}_{0[1]}=self.db['{0[2]}']".format([c_id,colection,colection]))
#
# def closeDB(self):
# self.con.close()
#
# def PrintResult(self,rows):
# for row in rows:
# for key in row.keys():
# print row[key]
# print '\n'
#
# @classmethod
# def db_mongo_use(cls):
# cls.init_dict={'con':{'user':'root',
# 'passwd':'ibfroot',
# 'host':'db.ibf.cn',
# 'port':'27019',
# 'auth_db':'admin'
# },
# 'db_use':{'db':'resume',
# 'col':['echarts']}
# }
# return dbMongoInit(cls.init_dict)
………
3 ?結(jié) ?論
數(shù)據(jù)挖掘一方面對(duì)歷史數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,總結(jié)過(guò)去,另一方面為今后的發(fā)展提供寶貴的信息。由于筆者在這一領(lǐng)域的時(shí)間和理解有限,對(duì)該系統(tǒng)的研究還存在一些不足,在設(shè)計(jì)開(kāi)發(fā)的系統(tǒng)中還有許多地方需要加強(qiáng)和改進(jìn),例如需要加強(qiáng)對(duì)采集系統(tǒng)邏輯處理策略的研究等。作者對(duì)本論文的研究和開(kāi)發(fā)過(guò)程進(jìn)行總結(jié)和歸納后,認(rèn)為下一階段的研究應(yīng)側(cè)重于以下方面:
(1)網(wǎng)頁(yè)數(shù)據(jù)預(yù)處理。Web數(shù)據(jù)結(jié)構(gòu)越來(lái)越復(fù)雜,Web數(shù)據(jù)分析中需要考慮許多問(wèn)題,例如有效填充默認(rèn)屬性、轉(zhuǎn)換數(shù)據(jù)類型、減小文本大小和檢查屬性一致性。為了解決這些問(wèn)題,還需要進(jìn)行更多的系統(tǒng)研究。
(2)效率問(wèn)題。隨著網(wǎng)上招聘數(shù)據(jù)量的成倍增加,我們應(yīng)該考慮采用更有效、更先進(jìn)的技術(shù)來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲功能,并利用有效的網(wǎng)頁(yè)分析算法對(duì)網(wǎng)頁(yè)進(jìn)行快速準(zhǔn)確的分析,提高網(wǎng)頁(yè)收集效率。
(3)與現(xiàn)有企業(yè)信息系統(tǒng)無(wú)縫集成。如何將網(wǎng)絡(luò)信息收集平臺(tái)透明地納入現(xiàn)有系統(tǒng),是今后研究的重點(diǎn)之一。
參考文獻(xiàn):
[1] 劉海,盧慧,阮金花,等.基于“用戶畫像”挖掘的精準(zhǔn)營(yíng)銷細(xì)分模型研究 [J].絲綢,2015,52(12):37-42.
[2] 郝勝宇,陳靜仁.大數(shù)據(jù)時(shí)代用戶畫像助力企業(yè)實(shí)現(xiàn)精準(zhǔn)化營(yíng)銷 [J].中國(guó)集體經(jīng)濟(jì),2016,2(4):61-62.
[3] 王珊,王會(huì)舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn),現(xiàn)狀與展望 [J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1741-1752.
[4] 朱志遠(yuǎn).基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)招聘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) [D].成都:電子科技大學(xué),2012:10-13.
[5] 韓家煒.數(shù)據(jù)挖掘:概念與技術(shù) [M].北京:機(jī)械工業(yè)出版社,2000.
作者簡(jiǎn)介:李蘇龍(1999—),男,漢族,江蘇徐州人,本科在讀,研究方向:信息與計(jì)算科學(xué);王大慶(2000-)男,漢族,江蘇連云港人,本科在讀,研究方向:信息與計(jì)算科學(xué);通訊作者:董曉瑋(1980—),女,漢族,山東新泰人,實(shí)驗(yàn)師,碩士研究生,研究方向:軟件工程及大數(shù)據(jù)處理。