呂 梁
(黃河水利職業(yè)技術(shù)學院,河南開封 475004)
茶葉由于其易運輸、易儲藏、易包裝、標準化程度高等特征成為在網(wǎng)上熱銷的農(nóng)產(chǎn)品之一,據(jù)2017年中國農(nóng)產(chǎn)品電子商務報告顯示,茶葉的網(wǎng)上銷售額在所有農(nóng)產(chǎn)品中居第二位。行業(yè)的興旺勢必對人才產(chǎn)生吸引力,但據(jù)茶產(chǎn)業(yè)經(jīng)濟研究室2017年調(diào)研數(shù)據(jù)顯示依然有一半以上的茶葉企業(yè)認為電子商務人才的缺乏影響了企業(yè)的贏利能力。所以了解茶業(yè)行業(yè)對電子商務人才的技能需求并針對性的開展人才培養(yǎng),就成為人才培養(yǎng)機構(gòu)尤其是開設電子商務專業(yè)的高校急需要考慮的問題。
傳統(tǒng)的崗位技能分析主要是基于崗位調(diào)查問卷法和企業(yè)專家座談法,存在成本高,產(chǎn)生結(jié)果的周期長,企業(yè)覆蓋率低,企業(yè)和專家質(zhì)量無法保證,無法滿足學校與企業(yè)之間即時性的快速反饋和響應等問題。本文在廣泛閱讀文獻資料的基礎上,經(jīng)過多種方法的實踐比較,提出了基于網(wǎng)絡文本挖掘的茶葉電子商務專業(yè)崗位核心技能需求分析方法。該方法綜合使用了網(wǎng)絡文本自動采集技術(shù)、中文分詞技術(shù)、方差分析、數(shù)學模型建立等技術(shù),為解決電子商務專業(yè)建設中無法動態(tài)跟蹤用人單位崗位需求信息的問題提出了一個低成本解決的方案,同時也為其他專業(yè)解決類似問題提供了借鑒。
本文將茶葉行業(yè)電子商務類崗位核心技能需求的分析過程分成了7步驟。首先是數(shù)據(jù)源選取,其次是編寫網(wǎng)絡文本自動采集程序輔助于人工分析,將采集到的文本匯集成網(wǎng)絡文檔集,然后使用php html phraser技術(shù)對文本進行識別,然后編寫文本詞典,作為網(wǎng)絡文本分詞的依據(jù),同時使用ICTCLAS軟件對分別進行分詞并統(tǒng)計器出現(xiàn)的頻次,最后建立數(shù)學模型對抽取出來的關(guān)鍵詞進行重要性程度分值評價,最終推導出崗位核心技能需求。
圖1 基于網(wǎng)絡文本分析的茶葉電子商務崗位核心技能分析流程圖
數(shù)據(jù)源的選取要遵循較小資源耗費,更高查詢質(zhì)量的原則。本文主要以知名招聘網(wǎng)站上發(fā)布的與茶葉行業(yè)電子商務相關(guān)的崗位信息作為信息源,輔以企業(yè)官方網(wǎng)站上的招聘廣告和專業(yè)博客。
(1)專業(yè)招聘網(wǎng)站
據(jù)艾瑞咨詢《2017年中國網(wǎng)絡招聘行業(yè)半年度發(fā)展報告》顯示,2017年上半年在中國網(wǎng)絡招聘市場中,前程無憂和智聯(lián)招聘分別占據(jù)市場份額的31.8%和30.7%,領(lǐng)跑整個行業(yè),本文選擇這兩個國內(nèi)最大的招聘網(wǎng)站作為網(wǎng)絡文本的主要數(shù)據(jù)源。
(2)企業(yè)官方網(wǎng)站
越來越多的茶葉企業(yè)將自己的企業(yè)官網(wǎng)作為發(fā)布招聘信息的渠道,同時茶葉企業(yè)在官方網(wǎng)站上發(fā)布的信息具有明確的崗位分類和詳細的崗位職責描述,所以可以作為重要的輔助性數(shù)據(jù)源來驗證崗位分析的準確性。
(3)茶葉類專業(yè)博客、微信公眾號社區(qū)。
專業(yè)博客和微信公眾號的作者往往是茶葉領(lǐng)域的專家,所以其發(fā)表的博客往往與自身的任職崗位有很多關(guān)聯(lián),這對于分析崗位工作環(huán)境、崗位技能點、崗位任務具有重要的意義。
由于采集到的網(wǎng)絡文本主要是非結(jié)構(gòu)化的文本,所以需要使用特殊的工具進行文本解析,在文本解析之前首先需要建立專業(yè)詞典。本文通過三個方面來建立分詞詞典。一是收集崗位論文關(guān)鍵詞和茶葉類電子商務博客文章進行大規(guī)模聚類,并形成知識點詞典。二是采集《普通高等學校電子商務本科專業(yè)知識體系(試行)》中的專業(yè)知識點形成專業(yè)詞典。三是對招聘網(wǎng)站上的文本廣告進行自然語言分詞輔以人工篩選形成崗位詞典。通過建立分詞詞典再對采集到的數(shù)據(jù)重新進行分詞并匯入數(shù)據(jù)庫,為數(shù)據(jù)分析和建模提供基礎。
崗位核心技能的篩選和描述主要通過分析崗位關(guān)鍵詞出現(xiàn)的頻次來判定,考慮到后期計算的難度以及代表性本文取均值以上的數(shù)據(jù)作為核心關(guān)鍵詞。同一個崗位的關(guān)鍵詞出現(xiàn)的頻次越多說明其越重要,但是其重要程度不能單純用頻次來衡量,比如在同一崗位的某個行業(yè)出現(xiàn)100次的關(guān)鍵詞并不一定就比在另外一個行業(yè)出現(xiàn)30詞重要,這取決于該行業(yè)所有關(guān)鍵詞的整體頻次,如果某個行業(yè)所有關(guān)鍵詞出現(xiàn)的頻次均高,則其處于最重要位置的關(guān)鍵詞出現(xiàn)的頻次必然多,反之亦然。所以需要采用一種方法來統(tǒng)一衡量關(guān)鍵詞的重要性程度。本文在借鑒同類研究分析的基礎上提出了以最大頻次關(guān)鍵詞為最重要,其他關(guān)鍵詞以此為參考計算重要程度的計算方法,計算公式如(1)所示。
Gn表示關(guān)鍵詞的對于崗位描述的重要程度,Wn為第n個頻次在頻次平均數(shù)以上關(guān)鍵詞,Wmax為同一崗位同一行業(yè)出現(xiàn)頻次最大的詞的頻次,P為重要程度的最大值,本研究取10作為最重要的衡量值。
通過分崗位對關(guān)鍵詞進行抽取并進行重要程度篩選后,我們對同一崗位篩選出來的關(guān)鍵詞進行了累加,在累加結(jié)果的基礎上進行了二次關(guān)鍵詞重要程度計算,以抽取出崗位核心關(guān)鍵詞。崗位核心關(guān)鍵詞計算方法如公式(2)所示。
CW表示同一崗位中的某一關(guān)鍵詞在不同行業(yè)中的重要性程度的累加,Wj為第j個關(guān)鍵詞的重要程度值。計算出每一個崗位中的每一個關(guān)鍵詞的重要性程度累加值后,再使用公式(1)計算關(guān)鍵詞在每一個崗位中的重要程度。之所以重新使用公式1計算是為了進行不同崗位核心關(guān)鍵詞之間的比較,以篩選出不同崗位的共性關(guān)鍵詞,從而進行統(tǒng)一分析,以降低后續(xù)工作量。
通過將采集到的網(wǎng)絡文本導入電子商務分詞分析并在廣泛研究相關(guān)文獻的基礎上,本研究將茶葉行業(yè)電子商務崗位的核心技能定義為15項,包含兩類電子商務崗位,并根據(jù)其代表的關(guān)鍵詞的重要性程度分值,按照其重要程度分為了1-3級。
表 茶葉行業(yè)電子商務崗位核心技能需求情況
通過網(wǎng)絡文本分詞技術(shù)對茶葉類電子商務人才崗位核心技能需求進行分析區(qū)別于傳統(tǒng)的問卷調(diào)查和實地調(diào)研分析方法,具有全面性和整體性,避免了由于調(diào)查對象選取問題引起的以偏概全現(xiàn)象。通過網(wǎng)絡文本分析采集崗位需求中的共性內(nèi)容進行針對性培養(yǎng)可以顯著提升電子商務人才的適應性,滿足茶葉行業(yè)不同企業(yè)的需求。