• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    海量非結(jié)構(gòu)化網(wǎng)絡(luò)招聘數(shù)據(jù)的挖掘分析

    2017-10-23 10:35:11張學(xué)新賈園園
    長春師范大學(xué)學(xué)報 2017年10期
    關(guān)鍵詞:分詞職位聚類

    張學(xué)新,賈園園,饒 希,蔡 黎

    (湖北工程學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院,湖北孝感 432000)

    海量非結(jié)構(gòu)化網(wǎng)絡(luò)招聘數(shù)據(jù)的挖掘分析

    張學(xué)新,賈園園,饒 希,蔡 黎

    (湖北工程學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院,湖北孝感 432000)

    網(wǎng)絡(luò)招聘憑借其獨(dú)特優(yōu)勢,己成為招聘者發(fā)布信息和應(yīng)聘者獲取信息的主要渠道,挖掘海量網(wǎng)絡(luò)招聘信息里隱含的社會和相關(guān)行業(yè)的需求特點(diǎn)與趨勢有著非常重要的意義。本文抓取拉勾網(wǎng)站發(fā)布的50多萬條招聘數(shù)據(jù)及58同城兩千多條應(yīng)聘數(shù)據(jù),先對其中的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行去重去空、中文分詞及停用詞過濾等數(shù)據(jù)預(yù)處理,再使用TF-IDF權(quán)重法提取候選特征詞,形成詞袋,構(gòu)造詞匯-文本矩陣,利用基于潛在語義(LSA)分析的奇異值分解算法(SVD)對詞匯-文本矩陣進(jìn)行空間語義降維,最后通過k-means聚類算法對職位的職業(yè)類型和專業(yè)領(lǐng)域進(jìn)行劃分,找出熱門需求,分析大數(shù)據(jù)職位需求情況與行業(yè)分布情況、大數(shù)據(jù)職位技能要求及IT行業(yè)供求與發(fā)展;對相關(guān)結(jié)果進(jìn)行可視化展示,并運(yùn)用關(guān)聯(lián)規(guī)則挖掘信息間的內(nèi)在聯(lián)系。

    大數(shù)據(jù);網(wǎng)絡(luò)招聘信息;TF-IDF;奇異值分解;Python語言

    隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,企業(yè)把人才招聘信息越來越多地發(fā)布到互聯(lián)網(wǎng)上,產(chǎn)生了大量的非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)包含用人單位對人才的需求及能力要求信息,在一定程度上代表了人才需求的未來走向。但是,對模糊而且非結(jié)構(gòu)化的文本數(shù)據(jù)進(jìn)行挖掘比較困難,涉及統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)以及專業(yè)軟件使用等技術(shù)。國內(nèi)對這方面的挖掘研究很少。鐘曉旭[1-2]先后對2010年的3家招聘網(wǎng)站的78481條招聘信息及新安人才網(wǎng)上計算機(jī)類專業(yè)招聘信息進(jìn)行聚類,統(tǒng)計各個職位的需求量,計算職位間的相關(guān)系數(shù)。王靜[3]選擇2011年的4家招聘網(wǎng)站、包括6種職業(yè)的2262個招聘網(wǎng)頁,采用偽二維隱馬爾可夫模型來分割,抽取其中的職位名、機(jī)構(gòu)名等信息??偟膩碚f,這些文本挖掘的研究深度有限,所用數(shù)據(jù)不是真正意義上的網(wǎng)絡(luò)招聘數(shù)據(jù),不是大量非結(jié)構(gòu)化的招聘數(shù)據(jù);統(tǒng)計分析方法簡單,很少使用軟件編程。本文利用八爪魚采集器,結(jié)合Python語言爬取自2015年11月至2016年4月拉鉤網(wǎng)25萬多條企業(yè)招聘信息(http://www.lagou.com),58同城網(wǎng)上北京地區(qū)的人才招聘信息共2219條,深入挖掘并可視化海量非結(jié)構(gòu)化網(wǎng)絡(luò)招聘數(shù)據(jù)的有關(guān)信息。

    1 數(shù)據(jù)預(yù)處理

    觀察抓取的數(shù)據(jù),招聘信息.csv中的字段大多為文本格式,需要將其量化成數(shù)值形式才能對其進(jìn)行分析。而職位描述.csv中有大量空行以及重復(fù)的情況,如果不做處理會對后續(xù)分析造成影響,并且招聘文本信息存在大量噪聲特征,如果把這些數(shù)據(jù)也引入進(jìn)行分詞、詞頻統(tǒng)計乃至文本聚類等,則必然會對聚類結(jié)果的質(zhì)量造成很大的影響,因此首先要對數(shù)據(jù)進(jìn)行預(yù)處理。

    1.1 屬性數(shù)值化

    對于招聘信息.csv、Salary(月薪)、Work Year(工作經(jīng)驗(yàn))、Position Advantage(職位優(yōu)勢)、Finance Stage(公司階段)、Education(學(xué)歷要求)、Company Size(公司規(guī)模)等指標(biāo),需要將其數(shù)值化,例如:Salary出現(xiàn)3種字符類型:8k~12k、8k以下、12k以上,正則表達(dá)式轉(zhuǎn)換為數(shù)字型:10、8、12,單位:k;Finance Stage:初創(chuàng)型(未融資)、初創(chuàng)型(不需要融資)、初創(chuàng)型(天使輪)、成長型(不需要融資)、成長型(A輪)、成長型(B輪)、成熟型(不需要融資)、成熟型(C輪)、成熟型(D輪及以上)、上市公司。編碼轉(zhuǎn)換為:初創(chuàng)型—B1、成長型—B2、成熟型—B3、上市公司—B4。

    1.2 去重、去空

    對職位描述.csv,存在大量空行和崗位描述文本完全一致的樣本,去除后數(shù)據(jù)僅剩365890行。

    1.3 中文分詞

    由于中文文本的特點(diǎn)是詞與詞之間沒有明顯的界限,從文本中提取詞語時需要分詞,本文采用Python開發(fā)的一個中文分詞模塊——jieba分詞,對每一個崗位描述進(jìn)行中文分詞,jieba分詞的原理是采用Trie樹進(jìn)行詞圖掃描,得到一個有向無環(huán)圖(DAG),其中包括漢字所有可能的構(gòu)詞。對句子中詞的切分采用最大概率(詞頻的最大)方法,對詞典中沒有的詞,采用Viterbi算法,使用HMM模型處理。該分詞系統(tǒng)具有分詞、詞性標(biāo)注、未登錄詞識別,支持用戶自定義詞典、關(guān)鍵詞提取等功能。

    部分分詞結(jié)果示例如圖1所示。

    圖1 部分分詞結(jié)果

    圖1的分詞結(jié)果是沒有停用詞過濾的結(jié)果,可以看到,其中含有大量標(biāo)點(diǎn)及表達(dá)無意義的字詞,對后續(xù)分析會造成很大影響,因此接下來需要進(jìn)行停用詞過濾。

    1.4 停用詞過濾

    把文本里某些無實(shí)義的介詞、連詞、分號等字符,以及某些無助于分類的專用名詞過濾掉,以減少存儲空間,提高搜索效率。停用詞有兩個特征:一是極其普遍、出現(xiàn)頻率高;二是包含信息量低,對文本標(biāo)識無意義。

    2 文本向量化

    2.1 文檔頻數(shù)(DF)

    文檔頻數(shù)(DF)即訓(xùn)練集合中包含某單詞的文本數(shù)。當(dāng)一個詞在大量文檔中出現(xiàn)時,這個詞通常被認(rèn)為是噪聲詞。本文選用DF方法篩選出如下停用詞:我、有、的、了、是,等。將篩選出的停用詞加入停用詞表,再利用停用詞表過濾停用詞,將分詞結(jié)果與停用詞表中的詞語進(jìn)行匹配,若匹配成功,則進(jìn)行刪除處理。去除停用詞后的部分結(jié)果示例如圖2所示。

    2.2 文本特征抽取

    經(jīng)過上述文本預(yù)處理后,雖然已經(jīng)去掉部分停用詞,但還是包含大量詞語,給文本向量化過程帶來困難,所以特征抽取的主要目的是在不改變文本原有核心信息的情況下盡量減少要處理的詞數(shù),以此來降低向量空間維數(shù),從而簡化計算,提高文本處理的速度和效率。

    圖2 停用詞過濾后分詞結(jié)果

    在Shannon的信息論的解釋中,如果特征項在所有文本中出現(xiàn)的頻率越高,它所包含的信息嫡越??;如果特征項集中在少數(shù)文本中,即在少數(shù)文本中出現(xiàn)頻率較高,則它所具有的信息嫡也較高。這樣詞的權(quán)重可以定義為wij=tfij×idfi,將權(quán)重按照從大到小的順序排列,抽取權(quán)重最大的前50000個特征詞作為候選特征詞。

    2.3 文本的空間向量模型[5]

    用向量空間的一個向量表示每一個文本,并以每一個不同的特征項(詞條)對應(yīng)為向量空間中的一個維度,而每一個維度的值就是對應(yīng)的特征項在文本中的權(quán)重,這里的權(quán)重可以由TF-IDF等算法得到。向量空間模型就是將文本表示成為一個特征向量V(d)=(wi)n×1,其中,ti為文檔d中的特征項,wi為該特征項的權(quán)值,可由TF-IDF算法得出。

    2.4 文本的向量化表示

    上述文本特征抽取將全部特征項篩選為50000個候選特征項,這時需要構(gòu)建一個詞袋,根據(jù)招聘文本的特征項對應(yīng)詞袋中的位置,組成一個同維數(shù)的向量,最后得到一個詞匯-文本矩陣(wij)m×n,其每一行表示一個特征項在各個文檔中的權(quán)重,每一列表示一個文檔向量。表1和表2是部分結(jié)果顯示。

    表1 詞匯-文本詞頻矩陣

    2.5 語義空間降維

    理論上,當(dāng)?shù)贸鑫谋鞠蛄亢缶涂梢灾苯颖容^兩向量夾角的余弦值進(jìn)行相似度的計算。但可以發(fā)現(xiàn),現(xiàn)在構(gòu)造的詞匯-文本矩陣是一個50000×365890的巨大矩陣,計算起來比較困難。另外,招聘信息文本信息中存在同義詞和近義詞等詞語,即使通過特征抽取轉(zhuǎn)化得到的文本向量也可能達(dá)不到自然語言屬性本質(zhì)的要求。

    因此,這里需要借用潛在語義分析(LSA)理論,將招聘信息的文本向量空間中非完全正交的多維特征投影到維數(shù)較少的潛在語義空間上。而LSA對特征空間進(jìn)行處理時用的關(guān)鍵技術(shù)就是奇異值分解(SVD),在統(tǒng)計學(xué)上,它是針對矩陣中的特征向量進(jìn)行分解和壓縮的技術(shù)。

    2.6 奇異值分解的基本原理

    奇異值分解可以將網(wǎng)頁文本通過向量轉(zhuǎn)換后的非完全正交的多維特征投影到較少的一個潛在語義空間中,同時保持原空間的語義特征,從而可以實(shí)現(xiàn)對特征空間的降噪和降維處理。

    對于任意的矩陣A=Am×n,這里是由招聘文本信息組成的詞匯-文本矩陣。它的奇異值分解表達(dá)式為A=U∑VT,其中,Um×m是酉矩陣,∑m×n是對角矩陣,Vn×n是酉矩陣。∑對角線上的元素是A的奇異值,∑=diag(σ1,σ2,…,σr,0,…,0),其中σ1≥σ2≥…≥σr>0。

    奇異值分解定理[6]設(shè)A∈Rm×n,且r=rank(A)≤min(m,n),則存在正交矩陣U∈Rm×n和V∈Rm×n,對角矩陣∑∈Rm×n,∑=diag(σ1,σ2,…,σr,0,…,0),其中σ1≥σ2≥…≥σr>0,使得

    A=U∑VT.

    (1)

    2.7 詞匯-文本矩陣的奇異值分解

    對于矩陣詞匯-文檔矩陣Am×n的奇異值分解可表示為Am×n=Um×m∑m×nVn×nT,其中,Um×m稱為詞匯矩陣,每一行可以理解為意思相關(guān)的一類詞,行中的元素就是某個詞與該行其它詞的相關(guān)性大小的度量,而Vn×nT視為文檔矩陣,它的每一列都表示招聘信息中同一主題一類的文本,其中的每個元素代表這類文本中每篇文本的相關(guān)性,∑m×n矩陣表示的是某類詞與招聘文本之間的相關(guān)性。在生成的這個“語義空間”中,大的奇異值對應(yīng)的維度更具詞的共性,而小的奇異值所對應(yīng)的維度更具有詞的個性。

    對Um×m及Vn×n進(jìn)行行分塊,得到

    (2)

    Am×n≈Um×k∑k×kVk×nT?Ak.

    (3)

    3 數(shù)據(jù)挖掘

    3.1 文本聚類

    相似度是用來衡量文本間相似程度的一個標(biāo)準(zhǔn)。本文采用基于距離度量的歐幾里得距離測度招聘文本間差異。文本聚類對無類別標(biāo)記的文本信息,根據(jù)不同的特征,將有著各自特征的文本進(jìn)行分類,使用相似度計算將具有相同屬性或者相似屬性的文本聚類在一起。通過對不同職位進(jìn)行分類,求職者可以結(jié)合自身狀況更加快捷地獲取相關(guān)信息資源。

    聚類結(jié)果顯示,目前所需人才分為產(chǎn)品類、技術(shù)類、運(yùn)營類、金融類、設(shè)計類、市場與銷售類、職能類等類型;人才需求中分為移動互聯(lián)網(wǎng)、電子商務(wù)、分類信息、廣告營銷、教育、金融、旅游、企業(yè)服務(wù)、社交網(wǎng)絡(luò)、生活服務(wù)、數(shù)據(jù)服務(wù)、文化娛樂、信息安全、醫(yī)療健康、硬件、游戲、招聘等專業(yè)領(lǐng)域。

    3.2 分析熱門需求

    首先,要定義何為熱門需求,本文認(rèn)為熱門需求具備以下幾個特征:普遍供不應(yīng)求、企業(yè)需求量大、平均工資高、未來需求量大、發(fā)展前景好。本文用企業(yè)發(fā)布招聘信息數(shù)量、平均薪水、發(fā)展階段與公司規(guī)模描述人才需求情況。所抓取的文檔涉及300個大中小地域,利用python 2.7求得各個地域發(fā)布的招聘信息量,首先篩選出發(fā)布信息量在前33名的地域占總招聘信息數(shù)的98.89%,因此其余267個城市可以忽略不計,進(jìn)而構(gòu)造上述指標(biāo),運(yùn)用主成分分析法構(gòu)建綜合排名算法對其進(jìn)行綜合排名。熱門行業(yè)排行前五的分別是:移動互聯(lián)網(wǎng)、金融、電子商務(wù)·金融、移動互聯(lián)網(wǎng)·金融、電子商務(wù)。經(jīng)統(tǒng)計,所抓取文檔中共有124類職位,首先篩選出發(fā)布信息量在前37名的行業(yè)占總招聘信息數(shù)的99.83%,因此其余87個行業(yè)可以忽略不計,同樣對其進(jìn)行綜合排名。熱門職位排行前五的分別是:后端開發(fā)、運(yùn)營、銷售、視覺設(shè)計、編輯。

    3.3 未來人才需求走向

    對于熱門地域前五名,即北京、上海、深圳、杭州、廣州,分析其對學(xué)歷的需求,大多以本科、??茷橹?;分析其對工作經(jīng)驗(yàn)的需求,要求大多在1~3年。分析各月發(fā)布的招聘信息中,熱門地域所占比例均大于80%,占較大比重,且趨勢較均衡,可以看出近期熱門地域?qū)θ瞬诺男枨笕匀缓艽蟆?/p>

    3.4 大數(shù)據(jù)職位需求情況

    首先需要將大數(shù)據(jù)相關(guān)職位篩選出來進(jìn)行分析,本文通過對大數(shù)據(jù)相關(guān)職位的職位名稱特點(diǎn)進(jìn)行分析,發(fā)現(xiàn)其職位名稱大多包含“數(shù)據(jù)”二字,但是某些職位如“數(shù)據(jù)庫開發(fā)師”“數(shù)據(jù)倉庫工程師”等并不屬于大數(shù)據(jù)相關(guān)職位,因此,本文在篩選數(shù)據(jù)時,只在職位名稱文檔中選出包含“數(shù)據(jù)”字段且不包含“數(shù)據(jù)庫”與“數(shù)據(jù)倉庫”字段的數(shù)據(jù),共得到10958條招聘信息。

    3.5 關(guān)聯(lián)規(guī)則挖掘[7]

    進(jìn)行關(guān)聯(lián)規(guī)則挖掘時,首先對數(shù)據(jù)進(jìn)行編碼,將文本型數(shù)據(jù)轉(zhuǎn)換為分類數(shù)據(jù),編碼結(jié)果是,城市C1~C4,對應(yīng)一線城市~四線城市;公司規(guī)模B1~B4,對應(yīng)員工50人以下~500人以上;應(yīng)聘者教育水平E1~E4,對應(yīng)大專及學(xué)歷不限~博士;公司金融狀況F1~F4,對應(yīng)初創(chuàng)型~上市公司;工作年限要求W1~W4,對應(yīng)1年以下(應(yīng)屆,不限)~5年以上;月薪資水平S1~S7,對應(yīng)5千以下~3萬以上。對編碼后的數(shù)據(jù)對,分析各個指標(biāo)之間的關(guān)聯(lián)規(guī)則(圖3)。

    圖3 關(guān)聯(lián)規(guī)則網(wǎng)絡(luò)

    關(guān)聯(lián)分析的部分結(jié)果如表3所示,在所有大數(shù)據(jù)相關(guān)職位中,存在的關(guān)聯(lián)規(guī)則如下:如果一個企業(yè)提供的平均薪酬在2萬~2.5萬范圍內(nèi),且要求學(xué)歷是本科,那么這家企業(yè)92.83%的概率在一線城市。如果一家企業(yè)要求的工作經(jīng)驗(yàn)是3~5年,公司規(guī)模是500人以上,位于一線城市,那么它有86.99%的概率需要本科以上學(xué)歷。

    表3 關(guān)聯(lián)分析部分結(jié)果

    4 大數(shù)據(jù)職位的行業(yè)分布情況

    4.1 地區(qū)分布情況

    從大數(shù)據(jù)職位的區(qū)域分布來看,“北上深杭廣”等特大一線城市合計占據(jù)89.2%的職位份額,僅北京地區(qū)占比就超過五成。因此,對于大數(shù)據(jù)的職業(yè)發(fā)展來說,“堅守一線城市”才是明智的選擇。

    4.2 大數(shù)據(jù)職位技能要求

    本文篩選出所有的大數(shù)據(jù)職位與其對應(yīng)編號,按照編號將抓取保存的數(shù)據(jù)集中相應(yīng)的大數(shù)據(jù)職位的崗位描述和任職要求提取出來,利用武漢大學(xué)開發(fā)的ROST文本挖掘系統(tǒng)對這些文本進(jìn)行分詞,由于文本中有大量的專業(yè)術(shù)語如“數(shù)據(jù)分析”“數(shù)據(jù)挖掘”“云計算”等,需要添加自定義的用戶詞典,將這些專業(yè)術(shù)語添加進(jìn)去,然后再進(jìn)行分詞,詞頻統(tǒng)計,畫出詞云圖[8]如圖4所示。

    圖4 詞云圖

    根據(jù)圖4可以看出,“數(shù)據(jù)”“數(shù)據(jù)分析”“數(shù)據(jù)挖掘”“開發(fā)”“技術(shù)”“算法”“模型”“系統(tǒng)”“互聯(lián)網(wǎng)”等詞語出現(xiàn)頻數(shù)較大,這說明大數(shù)據(jù)相關(guān)職位要求應(yīng)聘者具有良好的數(shù)據(jù)處理與分析能力,其次,“運(yùn)營”“項目”“市場”“客戶”“用戶行為”“營銷”等詞出現(xiàn)頻率也比較高,這說明要求應(yīng)聘者具有對數(shù)據(jù)的業(yè)務(wù)理解能力;另外,“學(xué)歷”“統(tǒng)計學(xué)”“數(shù)學(xué)”“計算機(jī)”等詞語,說明大數(shù)據(jù)相關(guān)職位對與學(xué)歷和專業(yè)都有一定的要求。

    越來越多的企業(yè)將“大數(shù)據(jù)”視為未來發(fā)展的“能源”,期待數(shù)據(jù)能給企業(yè)的運(yùn)營、產(chǎn)品策略、市場研究、品牌管理等方面帶來價值。企業(yè)對數(shù)據(jù)分析師等數(shù)據(jù)相關(guān)人才的需求不斷上升。2016年,據(jù)獵聘網(wǎng)人才大數(shù)據(jù)研究中心估計,中高級數(shù)據(jù)分析師的人才處于極度緊缺狀態(tài),人才緊缺指數(shù)在4.5以上。

    4.3 IT行業(yè)供求與發(fā)展

    IT行業(yè)包括計算機(jī)硬件業(yè)、通信設(shè)備業(yè)、軟件業(yè)、計算機(jī)及通信服務(wù)業(yè)。原始數(shù)據(jù)沒有給出IT人才市場的供應(yīng)量,需要爬取外部網(wǎng)絡(luò)招聘數(shù)據(jù),構(gòu)造TSI人才緊缺指數(shù)來分析IT人才市場的供求現(xiàn)狀和發(fā)展趨勢。

    4.4 數(shù)據(jù)來源

    4.5 不同職位供求現(xiàn)狀

    不同學(xué)歷TSI指數(shù)見圖5和圖6。由于職業(yè)種類很多,本文只對發(fā)布招聘信息數(shù)前8位的職位進(jìn)行供求分析。根據(jù)圖5可以看出,目前IT行業(yè)中網(wǎng)頁設(shè)計/制作以及軟件工程師的人才緊缺指數(shù)較大,呈現(xiàn)供不應(yīng)求的現(xiàn)狀;而硬件工程師、網(wǎng)絡(luò)管理員、電子電器工程師和技術(shù)支持維護(hù)人員的緊缺指數(shù)較低,呈現(xiàn)供過于求的狀態(tài)。根據(jù)圖6可以看出,目前大專學(xué)歷和碩士人才緊缺指數(shù)較大,呈現(xiàn)供不應(yīng)求的現(xiàn)狀;而本科生的人才緊缺指數(shù)較低,呈現(xiàn)供過于求的狀態(tài),可能是由于大學(xué)擴(kuò)招導(dǎo)致本科畢業(yè)生數(shù)量急劇上升,就業(yè)形勢險峻。

    圖5 不同職位TSI指數(shù)

    圖6 不同學(xué)歷TSI指數(shù)

    5 結(jié)語

    本文基于TF-IDF權(quán)重法提取特征詞,構(gòu)造詞匯-文本矩陣,進(jìn)一步運(yùn)用基于潛在語義(LSA)分析的奇異值分解算法(SVD)對詞匯-文本矩陣進(jìn)行空間語義降維,通過k-means聚類算法對職位的職業(yè)類型和專業(yè)領(lǐng)域進(jìn)行了聚類;分析了熱門行業(yè)、職位、地域;對大數(shù)據(jù)相關(guān)新興職位,深入挖掘其關(guān)聯(lián)規(guī)則,分析其需求增長趨勢、行業(yè)分布情況、地域分布情況、行業(yè)職位特征、行業(yè)薪酬情況以及技能要求。

    得到的聚類結(jié)果準(zhǔn)確度與抓取文檔的結(jié)果在一定程度上有出入,主要是采用歐式距離測度相似性有局限性,k均值算法本身也需要改進(jìn)。在中文文本挖掘過程中如何使用較復(fù)雜的數(shù)學(xué)統(tǒng)計模型值得進(jìn)行深入研究。

    [1]鐘曉旭.基于Web招聘信息的文本挖掘系統(tǒng)研究[D].合肥:合肥工業(yè)大學(xué),2010.

    [2]鐘曉旭,胡學(xué)鋼.基于數(shù)據(jù)挖掘的Web招聘信息相關(guān)性分析[J].安徽建筑工業(yè)學(xué)院學(xué)報:自然科學(xué)版,2010,18(4):23-45.

    [3]王靜.Web對象的信息抽取的關(guān)鍵技術(shù)研究[D].西安:西安電子科技大學(xué),2011.

    [4]朱明.數(shù)據(jù)挖掘[M].2版.合肥:中國科學(xué)技術(shù)大學(xué)出版社,2008.

    [5]鄔啟為.基于向量空間的文本聚類方法與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2014.

    [6]鄭慧嬈,陳紹林,莫忠息,等.數(shù)值計算方法[M].2版.武漢:武漢大學(xué)出版社,2012.

    [7]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.數(shù)據(jù)挖掘?qū)д揫M].北京:人民郵電出版社,2006.

    [8]Helic D,Trattner C,Strohmaier M,et al.Are tag clouds useful for navigation? A network-theoretic analysis[J].Journal of Social Computing and Cyber-Physical Systems,2011,1(1):33-55.

    [9]周健,傅昭南,田茂再.基于TSI指數(shù)的中國運(yùn)輸服務(wù)指數(shù)構(gòu)建[J].系統(tǒng)工程理論與實(shí)踐,2015,35(4):965-972.

    DataMiningAnalysisofMassiveUnstructuredNetworkRecruitmentInformation

    ZHANG Xue-xin, JIA Yuan-yuan, RAO Xi, CAI Li

    (Mathematics and Statistics School,Hubei Engineering University,Xiaogan Hubei 432000,China)

    With its unique advantages, network recruitment has become the main channel for recruiters and candidates to release information, thus, it is of great significance to excavate the features and trends of the social & related industries demand hidden in the vast network of recruitment information. This paper crawl out about 500 thousand recruitment texts from Lagou net and more than 2 thousand application job data from 58 tong city. First of all, the unstructured data are reprocessed by discard empty, Chinese word segmenting and stop word filtering and other data preprocessing. Secondly, extracting of candidate feature words using TF-IDF weighting method, formation words bag, structuring term-document matrix, to reduce the dimensionality of the semantic space for term-document matrix based on the singular value decomposition algorithm for latent semantic analysis are carry out. Finally, post types of occupations and areas of specialization are divided through the K-means clustering algorithm, and the hot demand is find out, the demand for big data jobs and big data industry distribution, big data job skill requirements and the development of IT industry are analyzed, also, visualization of the relevant results, and the inherent link between information by association rules mining are implemented.

    big data; network recruitment information; TF-IDF; SVD; Python language

    TP391.4

    A

    2095-7602(2017)10-0028-09

    2017-05-06

    湖北工程學(xué)院教研項目“與大數(shù)據(jù)公司聯(lián)合開展(應(yīng)用)統(tǒng)計學(xué)專業(yè)實(shí)訓(xùn)教學(xué)的探索與思考”(2016A20)。

    張學(xué)新(1966- ),男,副教授,博士,從事概率論與數(shù)理統(tǒng)計方法應(yīng)用研究。

    猜你喜歡
    分詞職位聚類
    領(lǐng)導(dǎo)職位≠領(lǐng)導(dǎo)力
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    職位之謎與負(fù)謗之痛:柳治徵在東南大學(xué)的進(jìn)退(1916—1925)
    值得重視的分詞的特殊用法
    基于改進(jìn)的遺傳算法的模糊聚類算法
    一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
    美最高就業(yè)率地鐵圈
    海外星云 (2014年22期)2015-01-19 09:34:28
    收入性別歧視的職位差異
    自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
    免费黄频网站在线观看国产| 免费观看人在逋| 大香蕉久久成人网| 欧美大码av| 亚洲午夜精品一区,二区,三区| 亚洲 国产 在线| 高清视频免费观看一区二区| 香蕉国产在线看| av一本久久久久| 在线观看舔阴道视频| 身体一侧抽搐| 在线天堂中文资源库| 黄片大片在线免费观看| 久久午夜综合久久蜜桃| 激情视频va一区二区三区| 精品人妻在线不人妻| 国内毛片毛片毛片毛片毛片| 精品熟女少妇八av免费久了| 99国产精品99久久久久| 三上悠亚av全集在线观看| 一本一本久久a久久精品综合妖精| 天天操日日干夜夜撸| 国产精品亚洲av一区麻豆| 美女福利国产在线| 精品人妻1区二区| 大香蕉久久网| 亚洲人成伊人成综合网2020| 亚洲av成人一区二区三| 午夜免费成人在线视频| 老司机影院毛片| 三级毛片av免费| 窝窝影院91人妻| 丝袜在线中文字幕| 久久精品人人爽人人爽视色| 99热网站在线观看| 久久精品亚洲熟妇少妇任你| 国产精品香港三级国产av潘金莲| 日韩人妻精品一区2区三区| 色综合欧美亚洲国产小说| 成人永久免费在线观看视频| 一a级毛片在线观看| 亚洲精品中文字幕一二三四区| 最新在线观看一区二区三区| 国产精品国产高清国产av | 人人妻人人澡人人看| 亚洲 欧美一区二区三区| 国产成人欧美| 午夜福利在线免费观看网站| 中文字幕色久视频| 亚洲色图av天堂| 国产一区在线观看成人免费| 日本a在线网址| 少妇的丰满在线观看| 精品久久久精品久久久| 精品一区二区三卡| 亚洲精品自拍成人| 亚洲欧美日韩高清在线视频| 丝瓜视频免费看黄片| 久久久国产精品麻豆| 视频区图区小说| 少妇猛男粗大的猛烈进出视频| 三上悠亚av全集在线观看| 亚洲中文av在线| 国产极品粉嫩免费观看在线| 在线国产一区二区在线| 国产精品久久久av美女十八| 久久亚洲真实| 亚洲在线自拍视频| 日韩免费av在线播放| 99re6热这里在线精品视频| 欧美乱妇无乱码| 午夜免费鲁丝| 丝瓜视频免费看黄片| 老司机影院毛片| 国产成人免费观看mmmm| a级毛片黄视频| 黄色女人牲交| 中文字幕人妻熟女乱码| 女人爽到高潮嗷嗷叫在线视频| 精品亚洲成a人片在线观看| 黄色视频,在线免费观看| 色婷婷av一区二区三区视频| 色婷婷久久久亚洲欧美| 午夜免费观看网址| 国产成人av教育| 国产成人精品久久二区二区免费| tube8黄色片| 天堂中文最新版在线下载| 中文字幕色久视频| 欧美成人午夜精品| 岛国毛片在线播放| 久久久久视频综合| 又黄又爽又免费观看的视频| 欧美老熟妇乱子伦牲交| 后天国语完整版免费观看| 人妻丰满熟妇av一区二区三区 | 亚洲熟女毛片儿| 精品国产美女av久久久久小说| a在线观看视频网站| 91大片在线观看| 亚洲精品在线美女| 人人妻人人澡人人爽人人夜夜| 亚洲欧美激情综合另类| 老熟妇乱子伦视频在线观看| 99re6热这里在线精品视频| av福利片在线| 一本大道久久a久久精品| tube8黄色片| 久久久久久久精品吃奶| xxx96com| 国产野战对白在线观看| 国产黄色免费在线视频| 两个人看的免费小视频| 涩涩av久久男人的天堂| 亚洲av欧美aⅴ国产| 亚洲国产中文字幕在线视频| 侵犯人妻中文字幕一二三四区| 亚洲精品一二三| 欧美成狂野欧美在线观看| 窝窝影院91人妻| 久久精品国产a三级三级三级| 国产精品av久久久久免费| 一级片'在线观看视频| 亚洲午夜精品一区,二区,三区| 热99久久久久精品小说推荐| 精品无人区乱码1区二区| 一本大道久久a久久精品| 国产主播在线观看一区二区| 欧美日韩福利视频一区二区| 久久精品国产综合久久久| 天天影视国产精品| 久久九九热精品免费| 窝窝影院91人妻| 男女午夜视频在线观看| 老鸭窝网址在线观看| 成人影院久久| 国产欧美日韩一区二区三区在线| 久久中文字幕人妻熟女| 欧美久久黑人一区二区| 色在线成人网| 一级,二级,三级黄色视频| 亚洲情色 制服丝袜| 国产高清视频在线播放一区| 人成视频在线观看免费观看| 国产激情欧美一区二区| 午夜福利视频在线观看免费| 中文欧美无线码| 一级毛片高清免费大全| 热99久久久久精品小说推荐| 女人精品久久久久毛片| 亚洲欧美激情在线| 亚洲性夜色夜夜综合| 狂野欧美激情性xxxx| 九色亚洲精品在线播放| 久久中文看片网| 黄片大片在线免费观看| 中文字幕最新亚洲高清| xxxhd国产人妻xxx| 国产色视频综合| 国产男女内射视频| 亚洲欧美一区二区三区久久| 纯流量卡能插随身wifi吗| 亚洲男人天堂网一区| 亚洲av日韩在线播放| 99热网站在线观看| 少妇猛男粗大的猛烈进出视频| 老司机靠b影院| 国产在线观看jvid| 香蕉丝袜av| 美女 人体艺术 gogo| 国产精品 欧美亚洲| 国产1区2区3区精品| 日韩免费av在线播放| 成年人免费黄色播放视频| 99香蕉大伊视频| 精品国内亚洲2022精品成人 | 亚洲av成人不卡在线观看播放网| 亚洲熟妇熟女久久| 精品久久久久久久毛片微露脸| 别揉我奶头~嗯~啊~动态视频| 国产99久久九九免费精品| 国产精品99久久99久久久不卡| av免费在线观看网站| 亚洲少妇的诱惑av| 国产精品久久久人人做人人爽| а√天堂www在线а√下载 | 在线视频色国产色| 黄频高清免费视频| 久久久久视频综合| 午夜91福利影院| tube8黄色片| 亚洲av第一区精品v没综合| 国产激情久久老熟女| 岛国在线观看网站| av在线播放免费不卡| 人成视频在线观看免费观看| 欧美精品av麻豆av| 亚洲精品中文字幕在线视频| 99在线人妻在线中文字幕 | 国产精品1区2区在线观看. | 亚洲九九香蕉| 在线观看免费日韩欧美大片| 少妇的丰满在线观看| 一级毛片女人18水好多| 下体分泌物呈黄色| 国产精品久久久av美女十八| 精品国产乱码久久久久久男人| 精品熟女少妇八av免费久了| 看免费av毛片| 伊人久久大香线蕉亚洲五| 久久精品人人爽人人爽视色| 国产成人免费观看mmmm| 一本大道久久a久久精品| tube8黄色片| 少妇裸体淫交视频免费看高清 | 波多野结衣av一区二区av| 叶爱在线成人免费视频播放| 在线av久久热| 国产免费男女视频| 欧美在线黄色| 免费人成视频x8x8入口观看| 色综合欧美亚洲国产小说| 成年版毛片免费区| av欧美777| 1024视频免费在线观看| 在线永久观看黄色视频| 亚洲成av片中文字幕在线观看| 91国产中文字幕| 国产精品一区二区在线不卡| 欧美日韩精品网址| 日韩精品免费视频一区二区三区| 久久人妻熟女aⅴ| 热99re8久久精品国产| 亚洲 欧美一区二区三区| 999久久久精品免费观看国产| 人妻一区二区av| 欧美激情极品国产一区二区三区| 欧美激情高清一区二区三区| 国产精品成人在线| 国产男女内射视频| 老司机亚洲免费影院| 国产一区有黄有色的免费视频| 亚洲国产精品一区二区三区在线| 精品欧美一区二区三区在线| 亚洲一区二区三区不卡视频| 在线观看一区二区三区激情| 精品国产一区二区三区久久久樱花| 狂野欧美激情性xxxx| 王馨瑶露胸无遮挡在线观看| 激情视频va一区二区三区| 亚洲久久久国产精品| bbb黄色大片| 99久久99久久久精品蜜桃| 人人妻,人人澡人人爽秒播| 久久国产精品大桥未久av| 亚洲一区高清亚洲精品| 久久久久国产精品人妻aⅴ院 | 人人妻人人澡人人看| 美国免费a级毛片| tube8黄色片| 中亚洲国语对白在线视频| 两个人看的免费小视频| 好男人电影高清在线观看| 少妇裸体淫交视频免费看高清 | 大香蕉久久成人网| 欧美不卡视频在线免费观看 | 亚洲一区高清亚洲精品| 乱人伦中国视频| 嫁个100分男人电影在线观看| 两性午夜刺激爽爽歪歪视频在线观看 | 一进一出抽搐gif免费好疼 | 伦理电影免费视频| 村上凉子中文字幕在线| 日韩一卡2卡3卡4卡2021年| 一区二区三区激情视频| 日韩人妻精品一区2区三区| 亚洲专区字幕在线| 大陆偷拍与自拍| 国产成人av激情在线播放| 久久精品aⅴ一区二区三区四区| 免费在线观看亚洲国产| 大型黄色视频在线免费观看| 一级作爱视频免费观看| 国产无遮挡羞羞视频在线观看| 交换朋友夫妻互换小说| 亚洲自偷自拍图片 自拍| 亚洲中文av在线| 久久人人爽av亚洲精品天堂| 亚洲精品一二三| 熟女少妇亚洲综合色aaa.| 亚洲精品在线观看二区| 午夜老司机福利片| 精品一区二区三区视频在线观看免费 | 黄色视频不卡| 精品国产乱子伦一区二区三区| 人妻 亚洲 视频| 成人国语在线视频| 女人高潮潮喷娇喘18禁视频| 女警被强在线播放| 建设人人有责人人尽责人人享有的| 亚洲国产精品一区二区三区在线| 不卡av一区二区三区| 国产精品一区二区在线观看99| 淫妇啪啪啪对白视频| 在线观看免费视频网站a站| 国产区一区二久久| 涩涩av久久男人的天堂| 国产亚洲欧美98| 一进一出抽搐gif免费好疼 | 午夜日韩欧美国产| videosex国产| 精品高清国产在线一区| 成人亚洲精品一区在线观看| 色播在线永久视频| 国产精品一区二区在线观看99| 久久青草综合色| a级片在线免费高清观看视频| 美女扒开内裤让男人捅视频| 久久精品熟女亚洲av麻豆精品| 亚洲成国产人片在线观看| 日韩制服丝袜自拍偷拍| 精品国产一区二区久久| www.自偷自拍.com| 精品一区二区三区四区五区乱码| 黑人巨大精品欧美一区二区蜜桃| 无人区码免费观看不卡| 欧美+亚洲+日韩+国产| tocl精华| 午夜视频精品福利| 久久精品亚洲av国产电影网| 999久久久精品免费观看国产| 在线观看午夜福利视频| 亚洲三区欧美一区| 国产精华一区二区三区| 麻豆乱淫一区二区| 国产精品偷伦视频观看了| 黑人巨大精品欧美一区二区mp4| 大型av网站在线播放| 一本大道久久a久久精品| 黄色视频,在线免费观看| 亚洲成人手机| 国产一区二区三区在线臀色熟女 | 日韩欧美国产一区二区入口| 美女 人体艺术 gogo| 精品电影一区二区在线| 一进一出抽搐动态| 韩国精品一区二区三区| 很黄的视频免费| 韩国精品一区二区三区| av片东京热男人的天堂| 亚洲国产精品sss在线观看 | 我的亚洲天堂| 黄色视频不卡| 在线国产一区二区在线| 香蕉丝袜av| 午夜福利影视在线免费观看| 亚洲av第一区精品v没综合| 国产精品久久久久成人av| 亚洲性夜色夜夜综合| 99久久99久久久精品蜜桃| 露出奶头的视频| 色综合婷婷激情| 日韩熟女老妇一区二区性免费视频| 脱女人内裤的视频| 国产免费现黄频在线看| 91九色精品人成在线观看| 国产精品一区二区在线观看99| 午夜日韩欧美国产| 欧美激情高清一区二区三区| 久久久久国产精品人妻aⅴ院 | 欧美日韩黄片免| 久久午夜亚洲精品久久| 亚洲中文字幕日韩| 麻豆国产av国片精品| 不卡一级毛片| 黄色片一级片一级黄色片| 自线自在国产av| 国产亚洲欧美精品永久| videos熟女内射| 首页视频小说图片口味搜索| 免费少妇av软件| 色综合欧美亚洲国产小说| 午夜福利欧美成人| 国产精品永久免费网站| 精品乱码久久久久久99久播| 国产成人av激情在线播放| 亚洲精品美女久久久久99蜜臀| 免费观看精品视频网站| 人人妻人人澡人人爽人人夜夜| 午夜91福利影院| 91av网站免费观看| 成年版毛片免费区| 一区二区三区精品91| 天堂俺去俺来也www色官网| 嫁个100分男人电影在线观看| 妹子高潮喷水视频| 在线观看日韩欧美| 新久久久久国产一级毛片| 首页视频小说图片口味搜索| av欧美777| av一本久久久久| 亚洲,欧美精品.| 国产精品一区二区在线不卡| 捣出白浆h1v1| 欧美日韩国产mv在线观看视频| 香蕉丝袜av| 国产精品乱码一区二三区的特点 | 99精国产麻豆久久婷婷| 高清欧美精品videossex| 久久精品国产亚洲av高清一级| 一边摸一边抽搐一进一出视频| 老鸭窝网址在线观看| 女同久久另类99精品国产91| 香蕉国产在线看| 一进一出抽搐gif免费好疼 | 一本大道久久a久久精品| 久久精品国产亚洲av高清一级| 成年版毛片免费区| 久久精品亚洲av国产电影网| 大型黄色视频在线免费观看| 国产成人欧美在线观看 | 怎么达到女性高潮| 亚洲人成77777在线视频| 欧美乱色亚洲激情| 国产精品 国内视频| 黄网站色视频无遮挡免费观看| 欧美色视频一区免费| 嫩草影视91久久| 日本vs欧美在线观看视频| 无遮挡黄片免费观看| 人妻久久中文字幕网| 午夜福利一区二区在线看| 最近最新中文字幕大全电影3 | 精品亚洲成a人片在线观看| 久久九九热精品免费| 国产精品一区二区精品视频观看| 久久久久久久午夜电影 | 久久青草综合色| 在线免费观看的www视频| 美女扒开内裤让男人捅视频| 在线视频色国产色| 很黄的视频免费| 一进一出抽搐gif免费好疼 | 日本wwww免费看| 国产无遮挡羞羞视频在线观看| 国产精品久久视频播放| 亚洲一区二区三区不卡视频| 啦啦啦 在线观看视频| 91老司机精品| 国产欧美日韩一区二区三| 国产激情久久老熟女| 搡老岳熟女国产| 免费在线观看亚洲国产| 一进一出抽搐gif免费好疼 | 午夜精品在线福利| 宅男免费午夜| 国产单亲对白刺激| 亚洲专区国产一区二区| 亚洲av第一区精品v没综合| 免费一级毛片在线播放高清视频 | 热re99久久国产66热| 亚洲,欧美精品.| 国产精品永久免费网站| 国产不卡一卡二| 欧美黄色淫秽网站| 国产男靠女视频免费网站| 女警被强在线播放| 免费在线观看影片大全网站| 久久精品亚洲av国产电影网| 午夜两性在线视频| 这个男人来自地球电影免费观看| 欧美日韩av久久| 高清黄色对白视频在线免费看| 久久精品亚洲精品国产色婷小说| 99国产综合亚洲精品| 丝袜美足系列| 国产一区二区激情短视频| xxxhd国产人妻xxx| 99国产精品免费福利视频| 91大片在线观看| 少妇被粗大的猛进出69影院| 久久久国产一区二区| 国产一区在线观看成人免费| 国产麻豆69| 亚洲国产看品久久| 久久国产精品人妻蜜桃| 亚洲性夜色夜夜综合| 国产精品98久久久久久宅男小说| av福利片在线| 国产不卡一卡二| 人人妻人人添人人爽欧美一区卜| 99国产综合亚洲精品| 亚洲专区国产一区二区| 18禁黄网站禁片午夜丰满| 国产xxxxx性猛交| 两个人看的免费小视频| 极品教师在线免费播放| 国产精品亚洲一级av第二区| 精品无人区乱码1区二区| 在线观看免费视频网站a站| 一级毛片女人18水好多| 亚洲精品中文字幕一二三四区| 日本黄色视频三级网站网址 | 一区福利在线观看| 亚洲精品av麻豆狂野| 天堂中文最新版在线下载| 成人特级黄色片久久久久久久| 老司机午夜十八禁免费视频| 日韩欧美一区二区三区在线观看 | 99热只有精品国产| 搡老熟女国产l中国老女人| 国产黄色免费在线视频| 午夜免费成人在线视频| 中文字幕最新亚洲高清| 亚洲性夜色夜夜综合| 侵犯人妻中文字幕一二三四区| 视频区图区小说| 亚洲精品久久成人aⅴ小说| 日日夜夜操网爽| 一夜夜www| 国产一区二区三区视频了| 国产成人欧美在线观看 | 咕卡用的链子| 中国美女看黄片| 欧美+亚洲+日韩+国产| 日韩欧美在线二视频 | 亚洲一区中文字幕在线| 男人操女人黄网站| 巨乳人妻的诱惑在线观看| 人妻丰满熟妇av一区二区三区 | 亚洲av成人一区二区三| 国产黄色免费在线视频| 新久久久久国产一级毛片| 国产aⅴ精品一区二区三区波| 亚洲av成人av| 色老头精品视频在线观看| 别揉我奶头~嗯~啊~动态视频| 91麻豆av在线| 精品一品国产午夜福利视频| 亚洲精品av麻豆狂野| 天天操日日干夜夜撸| 久久久久久久国产电影| 777米奇影视久久| 十八禁网站免费在线| 欧美精品啪啪一区二区三区| 成人黄色视频免费在线看| 国产在线观看jvid| av国产精品久久久久影院| 狠狠狠狠99中文字幕| 亚洲精品中文字幕在线视频| 成人三级做爰电影| 五月开心婷婷网| 久热爱精品视频在线9| 日韩一卡2卡3卡4卡2021年| 91麻豆精品激情在线观看国产 | 精品亚洲成a人片在线观看| 久久国产精品人妻蜜桃| 精品免费久久久久久久清纯 | 很黄的视频免费| 18禁国产床啪视频网站| 一本综合久久免费| 中文欧美无线码| 巨乳人妻的诱惑在线观看| 一级毛片精品| 最近最新免费中文字幕在线| av中文乱码字幕在线| av天堂久久9| 免费女性裸体啪啪无遮挡网站| 国产成人欧美| 夫妻午夜视频| 大陆偷拍与自拍| 国产99白浆流出| 精品久久蜜臀av无| 国产午夜精品久久久久久| 亚洲精品一卡2卡三卡4卡5卡| 亚洲欧美激情综合另类| 人人妻人人爽人人添夜夜欢视频| 亚洲自偷自拍图片 自拍| 一级作爱视频免费观看| 午夜福利一区二区在线看| 女人爽到高潮嗷嗷叫在线视频| 香蕉国产在线看| 国产亚洲精品第一综合不卡| xxxhd国产人妻xxx| 亚洲精华国产精华精| 国产亚洲精品第一综合不卡| 亚洲精品久久午夜乱码| 天天操日日干夜夜撸| 99久久人妻综合| 国产aⅴ精品一区二区三区波| 天堂中文最新版在线下载| 精品电影一区二区在线| av天堂久久9| 久久精品国产亚洲av高清一级| 91字幕亚洲| 精品第一国产精品| 久久久久久久精品吃奶| 午夜免费成人在线视频| 人妻丰满熟妇av一区二区三区 | 免费在线观看视频国产中文字幕亚洲| 后天国语完整版免费观看| 精品人妻在线不人妻| 黑人操中国人逼视频| 亚洲熟女精品中文字幕| 一区二区日韩欧美中文字幕| 亚洲欧美一区二区三区久久| 国产av又大| 亚洲片人在线观看| 美国免费a级毛片| 精品熟女少妇八av免费久了| 国产不卡av网站在线观看| 欧美人与性动交α欧美软件| 国产极品粉嫩免费观看在线| 在线免费观看的www视频| 亚洲午夜精品一区,二区,三区|