賈璇
基于文本挖掘的求職軟件顧客評論情感分析
賈璇
(同濟(jì)大學(xué) 經(jīng)濟(jì)與管理學(xué)院,上海 200092)
網(wǎng)絡(luò)求職已經(jīng)成為了當(dāng)代人最喜歡的一種求職方式。通過利用各類求職軟件可以搜索到大量的職位信息和工作機(jī)會,這為找工作提供了便利。針對當(dāng)下最流行的幾款求職軟件,收集了相關(guān)軟件的在線顧客評論信息,通過對評論進(jìn)行特征詞提取、制作詞云圖、語義網(wǎng)絡(luò)分析和情感極性特征分析,得出了用戶對各求職軟件使用的情感極性分布,根據(jù)分析的結(jié)果為各求職軟件提出了改進(jìn)建議。
求職軟件;文本挖掘;網(wǎng)絡(luò)語義分析;情感分析
在快速發(fā)展的信息時代,每一個求職者想要找到理想的工作,不再需要參加各類大型招聘求職現(xiàn)場活動,而是僅需將自己的簡歷上傳至網(wǎng)絡(luò),通過在各類求職網(wǎng)站上搜索求職信息并進(jìn)行簡歷投遞,進(jìn)而等待面試邀請,真正做到了“足不出戶找工作”。但是近期發(fā)生多起學(xué)生通過網(wǎng)絡(luò)投遞簡歷后求職被騙以及個人信息泄露的事件,這不得不讓人們反思網(wǎng)絡(luò)求職給帶來便利的同時,它所存在的一些問題和漏洞。本文選擇當(dāng)下最流行的3款求職軟件——BOSS直聘、前程無憂、智聯(lián)招聘,通過網(wǎng)絡(luò)爬蟲手段獲取以上軟件的顧客評論,從顧客評論中挖掘出可用信息,發(fā)現(xiàn)以上軟件的不足之處并進(jìn)行對比,為相關(guān)軟件開發(fā)公司提出改進(jìn)建議。
文本挖掘是一個新型的研究領(lǐng)域,主要從大量的、無規(guī)則的文本數(shù)據(jù)中發(fā)現(xiàn)潛在的、可能的數(shù)據(jù)模式、內(nèi)在聯(lián)系、規(guī)律、發(fā)展趨勢等,抽取有效、新穎、有用、可理解的、散布在文本文件中的有價值知識,并且利用這些知識更好地組織信息的過程[1]。
文本挖掘技術(shù)較成熟地應(yīng)用于旅游和醫(yī)療行業(yè)。JOAO G和PAULO R通過對旅游行業(yè)的顧客評論進(jìn)行分析,探索了在顧客評論中,能夠為閱讀評論的人提供明確建議的驅(qū)動因素。熊偉等學(xué)者對酒店顧客的在線評論進(jìn)行詞頻和情感分析,并結(jié)合時間序列分析法預(yù)測未來的酒店的發(fā)展情況[2]。OKUHARA T等學(xué)者應(yīng)用文本挖掘的方法,對日本HPV疫苗接種危機(jī)爆發(fā)前后的報紙文章內(nèi)容進(jìn)行了檢查和比較,為新聞工作者就相關(guān)事實的公正報道提出了看法。錢宇星等學(xué)者通過對老年在線社區(qū)用戶的評論進(jìn)行文本分析,成功劃分了老年在線社區(qū)用戶的信息需求,為利用互聯(lián)網(wǎng)開展精準(zhǔn)的醫(yī)學(xué)教育和科普服務(wù)提供依據(jù),優(yōu)化在線社區(qū)服務(wù),吸引和鼓勵更多老年人使用網(wǎng)絡(luò)分享和獲取健康信息[3]。
也有學(xué)者應(yīng)用文本挖掘技術(shù),為企業(yè)管理提出寶貴建議。張振華等認(rèn)為社會化媒體發(fā)達(dá)的環(huán)境下,在線評論已成為商業(yè)競爭情報的重要來源[4],馬文超等利用文本挖掘技術(shù)從個體和上市公司群體角度分析了CSR報告,認(rèn)為文本挖掘技術(shù)便利了CSR報告的信息獲取,為研究建構(gòu)CSR報告的本體提供了參考[5]。
綜上所述,當(dāng)前的研究主要集中在實際服務(wù)質(zhì)量改進(jìn)的研究中,而對更迭速度快的、質(zhì)量特性模糊的互聯(lián)網(wǎng)產(chǎn)品質(zhì)量改進(jìn)的研究相對較少。
在國內(nèi)被廣泛使用的求職軟件主要有BOSS直聘、前程無憂、智聯(lián)招聘等。筆者對3款軟件的顧客評論進(jìn)行網(wǎng)絡(luò)爬蟲,獲取各軟件的顧客評論1 000條,并對無效評論(評論中大部分為符號或混亂的詞語、語義不清晰)或重復(fù)評論(評論中出現(xiàn)多次語句重復(fù))進(jìn)行了手動剔除。最后剩余的有效評論條數(shù)為:BOSS直聘951條、前程無憂985條、智聯(lián)招聘1 000條。
本文所選擇的文本挖掘軟件是ROSTCM 6.0軟件。該軟可以實現(xiàn)微博分析、聊天分析、全網(wǎng)分析、網(wǎng)站分析、瀏覽分析、分詞、詞頻統(tǒng)計、英文詞頻統(tǒng)計、流量分析、聚類分析等一系列文本分析。
在進(jìn)行分析前,需要對獲取的評論樣本進(jìn)行文本預(yù)處理。文本預(yù)處理的方法主要有分詞、去除停用詞、詞性標(biāo)注、詞頻統(tǒng)計等。
本文主要是應(yīng)用ROSTCM 6.0軟件對樣本集進(jìn)行分詞和去除停用詞預(yù)處理,將樣本集中的評論變成更加方便研究的、比較干凈的評論,為文本挖掘做準(zhǔn)備。
本文應(yīng)用ROSTCM6.0軟件對經(jīng)過預(yù)處理的評論集進(jìn)行特征分析和網(wǎng)絡(luò)語義分析,歸納出顧客所聚焦的一些產(chǎn)品特性。然后分別圍繞不同的產(chǎn)品特性做情感極性特征分析,得出顧客對每個軟件的各個產(chǎn)品特性正面、中性、負(fù)面評論的占比。
本文采集到的文本數(shù)據(jù)量較大,可以利用詞云圖對數(shù)據(jù)進(jìn)行可視化分析。詞云圖是在分詞的基礎(chǔ)上設(shè)計并實現(xiàn)的,是一種將文本中的高頻詞匯提取并以有趣、高效、新穎的方式呈現(xiàn)給閱讀者的一種數(shù)據(jù)可視化工具。通過觀察詞云圖,可以直觀地分析和歸納出顧客所關(guān)注產(chǎn)品的焦點和主題。
本文針對3個招聘網(wǎng)站的全部在線顧客評論制作了詞云圖并進(jìn)行了分析。在線顧客評論詞云如圖1所示。圖1中文字的大小反映了該詞組的詞頻,間接地說明了顧客所關(guān)注的熱點話題和產(chǎn)品相關(guān)的主題,通過分析可知,顧客對3款軟件的關(guān)注點主要聚焦在軟件、平臺、工作、職位、求職、簡歷、信息、公司、功能等方面。這說明用戶比較在意求職軟件是否是一個可靠的求職平臺,對簡歷的管理工作是否合理,他們也在意軟件提供的職位相關(guān)的信息,軟件是否好用、功能是否全面。另外,詞云圖中還體現(xiàn)了一些具有情感偏向的高頻詞匯如方便、推薦、喜歡、感謝、簡單、合適等,這可以說明這些軟件能給求職者帶來便利,使顧客滿意。
圖1 在線顧客評論詞云
為了對顧客關(guān)注的焦點進(jìn)一步分析,本文使用ROSTCM 6.0軟件對3個網(wǎng)站的顧客評論分別作網(wǎng)絡(luò)語義分析。采用網(wǎng)絡(luò)語義分析可以得出主要特征詞之間、特征與評價詞之間的關(guān)聯(lián)關(guān)系,為進(jìn)一步分析評論特征提供重要依據(jù)。BOSS直聘評論語義關(guān)系網(wǎng)絡(luò)如圖2所示。
從圖2中可以看出軟件、找工作、招聘、簡歷等詞是網(wǎng)絡(luò)圖的關(guān)鍵節(jié)點。進(jìn)一步分析網(wǎng)絡(luò)語義圖可知,很多正向的評價詞比如很好、規(guī)范、好的、方便、神器、效率、機(jī)會、滿意以及減少麻煩等,表現(xiàn)了用戶對使用BOSS直聘這款軟件求職的滿意心理。但圖2中也有垃圾、擔(dān)心受騙、錯過、石沉大海等負(fù)向評價詞,這說明該軟件仍然存在一些讓顧客不滿意的地方。
圖2 BOSS直聘評論語義關(guān)系網(wǎng)絡(luò)
前程無憂評論語義關(guān)系網(wǎng)絡(luò)如圖3所示。從圖3中可以看出軟件、找工作、招聘、簡歷等詞是網(wǎng)絡(luò)圖的關(guān)鍵節(jié)點,進(jìn)一步分析網(wǎng)絡(luò)語義圖可知,圖中顯示了方便、簡單、快捷、很好等正向的評價詞,表現(xiàn)了用戶在使用前程無憂軟件進(jìn)行求職時的滿意心理。但圖中也有騷擾、垃圾、浪費時間等負(fù)向評價詞,這說明該軟件還存在一些讓顧客不滿意的地方。
智聯(lián)招聘評論語義關(guān)系網(wǎng)絡(luò)如圖4所示。從圖4中可以看出軟件、找工作、招聘、簡歷、平臺、職位、方便等詞是網(wǎng)絡(luò)圖的關(guān)鍵節(jié)點,進(jìn)一步分析網(wǎng)絡(luò)語義圖可知,圖中顯示了方便、實用、很好、適合、可靠、稱心、值得、快速、感謝、輕松等正向的評價詞,表現(xiàn)了用戶在使用智聯(lián)招聘軟件進(jìn)行求職時的滿意心理。從圖中并不能發(fā)現(xiàn)負(fù)面的評論詞。
通過對3款軟件的顧客在線評論進(jìn)行網(wǎng)絡(luò)語義分析,可以初步得知顧客對各軟件的積極和消極的態(tài)度。為進(jìn)一步分析顧客對軟件細(xì)節(jié)要素的評價,結(jié)合詞云圖和網(wǎng)絡(luò)分析的結(jié)果,將同一主題的詞匯合并,可歸納出顧客評論所聚焦的6個主題方向,即軟件/平臺、企業(yè)、招聘、職位/崗位、簡歷、求職/找工作。
圖3 前程無憂評論語義關(guān)系網(wǎng)絡(luò)
圖4 智聯(lián)招聘評論語義關(guān)系網(wǎng)絡(luò)
“軟件/平臺”方向主要指顧客對軟件使用的整體感知情況的相關(guān)評論,“企業(yè)”方向主要指顧客對軟件中招聘企業(yè)事項的相關(guān)評論,“招聘”方向主要指顧客對軟件招聘流程的相關(guān)評論,“職位/崗位”方向主要指顧客對軟件職位設(shè)置事項的相關(guān)評論,“簡歷”方向主要是指顧客對填寫和投遞簡歷事項的相關(guān)評論,“求職/找工作”方向主要是指顧客對求職流程的相關(guān)評論。
本文使用Excel軟件將3個網(wǎng)站的評論分別按照6個方向進(jìn)行提取歸類,歸類條數(shù)如表1所示。
以上各軟件不同主題方向評論條數(shù)總計均超過了該軟件樣本容量的80%,這說明所選主題方向可涵蓋樣本的絕大多數(shù)信息。
BOSS直聘評論特征情感極性分布如圖5所示。從圖5可知,BOSS直聘的“簡歷”方向的正面評論占比最少,說明用戶對于該軟件在填寫和投遞簡歷等相關(guān)事項存在不滿意的地方。從具體的評論中可以看出,有的求職者抱怨因招聘人員在軟件中一直沒有回復(fù)消息而導(dǎo)致求職者無法投遞簡歷的設(shè)置不合理,也有求職者抱怨投遞簡歷時候不能進(jìn)行批量投遞,還有招聘人員抱怨篩選到的求職簡歷都長時間未更新。
表1 招聘軟件各主題方向的提取評論條數(shù)
BOSS直聘前程無憂智聯(lián)招聘 軟件/平臺290281415 企業(yè)334930 招聘118103148 職位/崗位417173 簡歷3514235 求職/找工作256176192 總計773822889
圖5 BOSS直聘評論特征情感極性分布
BOSS直聘“招聘”方向的負(fù)面評論占比最多,說明該軟件的招聘流程相關(guān)事項存在較多讓用戶不滿意的地方。從具體的評論中可以看出,有的求職者抱怨軟件的招聘類目劃分不清晰,有的求職者抱怨招聘單位少而亂,有的招聘崗位不真實,有的招聘公司抱怨發(fā)布招聘信息時需要注冊資金,且經(jīng)常被無故查封賬戶。
前程無憂評論特征情感極性分布如圖6所示。從圖6可知,前程無憂的“招聘”方向的正面評論最少且負(fù)面評論最多,說明用戶對于該軟件在招聘流程相關(guān)事項中存在不滿意的地方。從具體的評論中可以看出,有部分求職者反映網(wǎng)站上發(fā)布的招聘信息都是虛假招聘信息,還有部分求職者表示許多招聘和崗位都已經(jīng)過期但是一直掛在網(wǎng)上沒能得到及時的處理,也有一些求職者反映招聘公司的瀏覽簡歷的效率太低甚至不查看簡歷。
圖6 前程無憂評論特征情感極性分布
智聯(lián)招聘評論特征情感極性分布如圖7所示。從圖7中可知,智聯(lián)招聘的“簡歷”方向的正面評論最少且負(fù)面評論最多,說明用戶對于該軟件在填寫和投遞簡歷等相關(guān)事項存在不滿意的地方。從具體的評論中可以看出,有部求職者反映該軟件泄露簡歷信息,有的求職者反映該軟件不能添加多份簡歷等。
圖7 智聯(lián)招聘評論特征情感極性分布
從上述分析中可以得出以下結(jié)論:①智聯(lián)招聘是好評率相對最高的軟件,各個方面的好評率都相對較高。但是在簡歷方向的負(fù)面評論相對其他方向較多,該軟件公司需要聽取顧客的聲音,并進(jìn)行相應(yīng)的改進(jìn)。②BOSS直聘軟件的中評相比于其他兩款軟件占了很大的比例。對于BOSS直聘軟件公司,應(yīng)該積極關(guān)注中性評論用戶使用軟件的情況,努力爭取讓多數(shù)中性評論客戶轉(zhuǎn)變成正面評論客戶,相比于讓負(fù)面評論的用戶轉(zhuǎn)變成正面評論的用戶更容易。③前程無憂是差評率相對最高的軟件,對于前程無憂軟件公司,應(yīng)該主要關(guān)注負(fù)面評論的用戶需求,尤其是“簡歷”和“招聘”兩個方
向,應(yīng)作為軟件改進(jìn)的首要突破口。
[1]鄭雙怡.文本挖掘及其在知識管理中的應(yīng)用[J].中南民族大學(xué)學(xué)報(人文社會科學(xué)版),2005(4):127-130.
[2]熊偉,郭揚(yáng)杰.酒店顧客在線評論的文本挖掘[J].北京第二外國語學(xué)院學(xué)報,2013,35(11):38-47.
[3]錢宇星,周華陽,周利琴,等.老年在線社區(qū)用戶健康信息需求挖掘研究[J].現(xiàn)代情報,2019,39(6):59-69.
[4]張振華,許柏鳴.基于在線評論文本挖掘的商業(yè)競爭情報分析模型構(gòu)建及應(yīng)用[J].情報科學(xué),2019,37(2):149-153,160.
[5]馬文超,吳商碩,黃麒,等.基于文本挖掘技術(shù)的企業(yè)社會責(zé)任報告研究[J].中國市場,2018(4):16-18.
TP311.10
A
10.15913/j.cnki.kjycx.2019.17.001
2095-6835(2019)17-0001-04
賈璇(1993—),男,同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院碩士研究生。
〔編輯:張思楠〕