劉銀婷 李秋敏 詹潔
(成都信息工程大學(xué) 四川成都 610103)
隨著社會(huì)就業(yè)壓力的提高,終身學(xué)習(xí)的意識(shí)深入人心,付費(fèi)自習(xí)室是共享經(jīng)濟(jì)發(fā)展下的產(chǎn)物,有自習(xí)需求的人們?cè)诩一蚨嗷蛏贂?huì)被干擾。公共圖書(shū)館座位有限,咖啡館相對(duì)嘈雜,所以付費(fèi)自習(xí)室逐漸變成了合適的選擇,商家通過(guò)構(gòu)建沉浸式學(xué)習(xí)格子間并提供相應(yīng)的學(xué)習(xí)條件和學(xué)習(xí)氛圍,消費(fèi)者依據(jù)使用時(shí)間付費(fèi)來(lái)獲得自習(xí)室座位的使用權(quán)。目前,國(guó)內(nèi)學(xué)者對(duì)付費(fèi)自習(xí)室的研究多集中在付費(fèi)自習(xí)室的發(fā)展歷程、興起原因、用戶滿意的影響因素和未來(lái)發(fā)展,在研究方法上多為對(duì)問(wèn)卷調(diào)查結(jié)果的簡(jiǎn)單描述統(tǒng)計(jì),未建立模型構(gòu)建指標(biāo)深入探討,基于線上評(píng)論信息挖掘分析的研究較少,本文意在借鑒其他學(xué)者的研究方法;首先,通過(guò)收集美團(tuán)平臺(tái)中付費(fèi)自習(xí)室的在線評(píng)論文本,對(duì)評(píng)論數(shù)據(jù)進(jìn)行機(jī)械壓縮去詞、分詞、過(guò)濾停用詞等初步處理;然后,對(duì)文本進(jìn)行情感傾向分類(lèi)和語(yǔ)義網(wǎng)絡(luò)分析,分別建立正面、負(fù)面評(píng)價(jià)的詞頻聯(lián)系;最后,通過(guò)主題模型提取潛在主題,得到消費(fèi)者對(duì)付費(fèi)自習(xí)室的滿意點(diǎn)與抱怨點(diǎn)并對(duì)付費(fèi)自習(xí)室的發(fā)展提出建議。
由于目前付費(fèi)自習(xí)室多分布于人口密集、教育資源領(lǐng)先、付費(fèi)意愿強(qiáng)烈的一線和新一線城市,故分別選取北京、上海、廣州、深圳、成都、長(zhǎng)沙、鄭州七個(gè)城市中具有代表性的付費(fèi)自習(xí)室作為分析對(duì)象,利用Python語(yǔ)言的Scrapy爬蟲(chóng)框架對(duì)美團(tuán)平臺(tái)上中付費(fèi)自習(xí)室的在線評(píng)論進(jìn)行解析,爬取得到近5000條在線評(píng)論文本數(shù)據(jù),除去無(wú)效評(píng)論與不齊全記錄后篩選得到4538條評(píng)論作為樣本數(shù)據(jù)。
機(jī)械壓縮去詞:在美團(tuán)付費(fèi)自習(xí)室的在線評(píng)論中常存在著大量重復(fù)語(yǔ)料、顏文字、縮寫(xiě)詞匯如“非常好好好好好好好好好,很安靜”“不錯(cuò)不錯(cuò)不錯(cuò)”等,過(guò)于冗余,需要對(duì)其進(jìn)行機(jī)械壓縮去詞處理[1]。
分詞:由于文本的句子中沒(méi)有詞的界限,因此在進(jìn)行中文自然語(yǔ)言處理時(shí),通常需要先進(jìn)行分詞,并按照規(guī)則重新合成詞序列。本文采用Python開(kāi)發(fā)的一個(gè)中文模塊——jieba分詞,對(duì)評(píng)論內(nèi)容進(jìn)行中文分詞。
過(guò)濾停用詞:在文本處理中,停用詞是指那些包含信息少且在文中大量出現(xiàn)的詞語(yǔ)。它們通常是一些單字及高頻的單詞,如“的”“甚至”“我”“嗎”等。因此,過(guò)濾停用詞能有效提高文本的檢索效率和效果,以避免對(duì)文本特別是短文本造成負(fù)面的影響。本文在哈爾濱工業(yè)大學(xué)停用詞表基礎(chǔ)上結(jié)合具體評(píng)論內(nèi)容構(gòu)建綜合停用詞表,對(duì)分詞結(jié)果進(jìn)行過(guò)濾[2]。
表1 數(shù)據(jù)預(yù)處理結(jié)果
本文將收集到的10000條帶有標(biāo)注的語(yǔ)料集作為訓(xùn)練集,使用樸素貝葉斯模型進(jìn)行訓(xùn)練擬合,訓(xùn)練出更好的詞向量,來(lái)預(yù)測(cè)新數(shù)據(jù)的分類(lèi)結(jié)果,在準(zhǔn)確率達(dá)到98.5%,損失率為0.61%的情況下,預(yù)測(cè)付費(fèi)自習(xí)室的評(píng)論內(nèi)容分為帶有正面情緒的評(píng)論與帶有負(fù)面情緒的評(píng)論兩類(lèi)[3],結(jié)果如表2所示。
表2 情感分布情況
上述結(jié)果顯示,消費(fèi)者對(duì)付費(fèi)自習(xí)室的正面評(píng)價(jià)有4265條,占總評(píng)論條數(shù)的93.98%;消費(fèi)者對(duì)付費(fèi)自習(xí)室的負(fù)面評(píng)價(jià)有273條,占總評(píng)論條數(shù)的6.02%。從總體上說(shuō),當(dāng)前消費(fèi)者對(duì)付費(fèi)自習(xí)室的評(píng)價(jià)大多為好評(píng)。但差評(píng)的內(nèi)容更是關(guān)注的重點(diǎn),情感分類(lèi)只能直觀地看出消費(fèi)者總體使用感受,不能得到具體的內(nèi)容反饋。
為了找出各評(píng)論詞匯的主要內(nèi)容之間的關(guān)系,進(jìn)一步建立語(yǔ)義網(wǎng)絡(luò)模型,分別提取出正面情緒詞匯和負(fù)面情緒的高頻詞匯,并過(guò)濾掉無(wú)意義的詞語(yǔ),基于高頻詞表提取特征值,最后構(gòu)建正面評(píng)價(jià)語(yǔ)義網(wǎng)絡(luò)和負(fù)面評(píng)價(jià)語(yǔ)義網(wǎng)絡(luò),生成共現(xiàn)矩陣詞表展現(xiàn)文本數(shù)據(jù)的一般關(guān)注對(duì)象[4]。語(yǔ)義網(wǎng)絡(luò)如圖1、圖2所示。
圖1 正面評(píng)價(jià)語(yǔ)義網(wǎng)絡(luò)
圖2 負(fù)面評(píng)價(jià)語(yǔ)義網(wǎng)絡(luò)
根據(jù)付費(fèi)自習(xí)室正面評(píng)價(jià)的語(yǔ)義網(wǎng)絡(luò)圖,可得以下結(jié)論:在付費(fèi)自習(xí)室的環(huán)境方面,正面語(yǔ)義網(wǎng)絡(luò)中存在安靜、干凈、氛圍等相似詞匯關(guān)系;在付費(fèi)自習(xí)室的設(shè)施方面,正面語(yǔ)義網(wǎng)絡(luò)中存在微波爐、茶水、咖啡、零食等相似詞匯關(guān)系;在付費(fèi)自習(xí)室的服務(wù)方面,正面語(yǔ)義網(wǎng)絡(luò)中存在姐姐、熱情、前臺(tái)等相似詞匯關(guān)系;在付費(fèi)自習(xí)室的地理位置方面,正面語(yǔ)義網(wǎng)絡(luò)存在好找、區(qū)域、地鐵站等相似詞匯關(guān)系;在消費(fèi)者體驗(yàn)方面,正面語(yǔ)義網(wǎng)絡(luò)中存在舒服、沉浸、很棒、不錯(cuò)、喜歡、效率等相似詞匯關(guān)系。
根據(jù)付費(fèi)自習(xí)室負(fù)面評(píng)價(jià)的語(yǔ)義網(wǎng)絡(luò)圖,可以得到以下結(jié)論:在付費(fèi)自習(xí)室的環(huán)境方面,負(fù)面語(yǔ)義網(wǎng)絡(luò)中存在隔音、裝修、味道、通風(fēng)、空氣等相似詞匯關(guān)系;在付費(fèi)自習(xí)室的設(shè)施方面,負(fù)面語(yǔ)義網(wǎng)絡(luò)中存在廁所、空調(diào)、桌子、衛(wèi)生間等相似詞匯關(guān)系;在付費(fèi)自習(xí)室的服務(wù)方面,負(fù)面語(yǔ)義網(wǎng)絡(luò)中存在小姐姐等相似詞匯關(guān)系;在付費(fèi)自習(xí)室的地理位置方面,負(fù)面語(yǔ)義網(wǎng)絡(luò)中存在位置等相似詞匯關(guān)系;在消費(fèi)者體驗(yàn)方面,負(fù)面語(yǔ)義網(wǎng)絡(luò)中存在不好、花錢(qián)、體驗(yàn)、略貴等相似詞匯關(guān)系。
為了更直觀地看出正面、負(fù)面語(yǔ)義的具體范圍,本文制作了詞云圖,如圖3、圖4所示。
圖3 正面評(píng)價(jià)詞云圖
圖4 負(fù)面評(píng)價(jià)詞云圖
綜上所 述,付費(fèi)自習(xí)室能夠?yàn)槲覀兲峁┌察o的學(xué)習(xí)氛圍,是受到消費(fèi)者追捧的主要原因。付費(fèi)自習(xí)室行業(yè)突然興起,大量商家跟風(fēng)創(chuàng)建付費(fèi)自習(xí)室的同時(shí)環(huán)境和設(shè)施并沒(méi)有達(dá)到消費(fèi)者的要求,存在隔音不好、通風(fēng)不暢、廁所臟亂少等問(wèn)題。
為對(duì)在線評(píng)論的潛在主題進(jìn)行挖掘,展現(xiàn)主題之間的差異化特點(diǎn),需要進(jìn)行特征主題分析,進(jìn)一步細(xì)化特征詞類(lèi)型[5]。本文使用基于機(jī)器學(xué)習(xí)的情感分類(lèi)結(jié)果產(chǎn)生的正面評(píng)價(jià)和負(fù)面評(píng)價(jià)作為輸入數(shù)據(jù)集,對(duì)不同情感傾向下的潛在主題分別進(jìn)行挖掘,得到付費(fèi)自習(xí)室評(píng)價(jià)的潛在主題與特征詞的概率分布情況,選擇前三個(gè)主題作為評(píng)論集中的熱點(diǎn),并得出對(duì)應(yīng)的熱點(diǎn)評(píng)論詞。
根據(jù)付費(fèi)自習(xí)室正面評(píng)論的三個(gè)潛在主題的特征詞的提取,主題一中的高頻特征詞,即熱門(mén)關(guān)注點(diǎn)主要是“自習(xí)室”(0.026%)、“學(xué)習(xí)”(0.026%)、“安靜”(0.014%)、“體驗(yàn)”(0.014%)、“環(huán)境”(0.014%)、“氛圍”(0.011%)、“不錯(cuò)”(0.010%)、“地方”(0.010%)、“感覺(jué)”(0.009%)、“挺”(0.008%),由此可以看出,主題一主要是反映付費(fèi)自習(xí)室很安靜;主題二的高頻特征詞,即熱門(mén)關(guān)注點(diǎn)主要是“自習(xí)室”(0.024%)、“環(huán)境”(0.023%)、“學(xué)習(xí)”(0.018%)、“不錯(cuò)”(0.011%)、“體驗(yàn)”(0.011%)、“特別”(0.010%)、“喜歡”(0.009%)、“免費(fèi)”(0.008%)、“真的”(0.007%)、“姐姐”(0.007%),由此可以看出,主題二主要是反映消費(fèi)者對(duì)付費(fèi)自習(xí)室的環(huán)境很滿意;主題三的高頻特征詞,即熱門(mén)關(guān)注點(diǎn)主要是“學(xué)習(xí)”(0.054%)、“環(huán)境”(0.044%)、“安靜”(0.036%)、“不錯(cuò)”(0.021%)、“適合”(0.016%)、“氛圍”(0.015%)、“姐姐”(0.013%)、“地方”(0.009%)、“自習(xí)”(0.009%)、“干凈”(0.009%),由此可以看出,主題三主要是反映付費(fèi)自習(xí)室的學(xué)習(xí)氛圍良好。
將付費(fèi)自習(xí)室正面評(píng)論的三個(gè)主題特征詞出現(xiàn)的概率進(jìn)行統(tǒng)計(jì)加和,得到條形圖如圖5所示,可以明顯看出,付費(fèi)自習(xí)室正面評(píng)論中主題分布差異較大,主題三占比最高,占0.226%,主題一、主題二分別占比0.142%、0.128%。由主題一主要關(guān)注在付費(fèi)自習(xí)室的學(xué)習(xí)氛圍方面,我們可以得到結(jié)論:有自習(xí)需求的人們?cè)诩一蚨嗷蛏贂?huì)被干擾,公共圖書(shū)館座位有限,咖啡館相對(duì)嘈雜,所以能提供良好學(xué)習(xí)氛圍的付費(fèi)自習(xí)室逐漸受到了消費(fèi)者的追捧。
圖5 付費(fèi)自習(xí)室正向評(píng)論分布圖
根據(jù)付費(fèi)自習(xí)室負(fù)面評(píng)論的三個(gè)潛在主題的特征詞的提取,主題一中的高頻特征詞,即熱門(mén)關(guān)注點(diǎn)主要是“環(huán)境”(0.017%)、“貴”(0.012%)、“自習(xí)”(0.009%)、“位置”(0.007%)、“價(jià)格”(0.007%)、“學(xué)習(xí)”(0.006%)、“座位”(0.006%)、“希望”(0.006%)、“體驗(yàn)”(0.006%)、“卡”(0.005%),由此可以看出,主題一主要是反映消費(fèi)者認(rèn)為付費(fèi)自習(xí)室價(jià)格貴;主題二的高頻特征詞,即熱門(mén)關(guān)注點(diǎn)主要是“自習(xí)室”(0.010%)、“學(xué)習(xí)”(0.009%)、“環(huán)境”(0.009%)、“廁所”(0.008%)、“位置”(0.008%)、“吵”(0.008%)、“樓下”(0.007%)、“公共”(0.007%)、“服務(wù)”(0.006%)、“區(qū)域”(0.005%),由此可以看出,主題二主要是反映消費(fèi)者認(rèn)為付費(fèi)自習(xí)室周?chē)h(huán)境吵;主題三的高頻特征詞,即熱門(mén)關(guān)注點(diǎn)主要是“自習(xí)”(0.008%)、“通風(fēng)”(0.007%)、“地方”(0.007%)、“差”(0.006%)、“學(xué)習(xí)”(0.006%)、“空調(diào)”(0.006%)、“唯一”(0.006%)、“房間”(0.005%)、“特別”(0.005%)、“太”(0.005%),由此可以看出,主題三主要是反映消費(fèi)者認(rèn)為付費(fèi)自習(xí)室通風(fēng)不好,空氣差。
將付費(fèi)自習(xí)室負(fù)面評(píng)論的三個(gè)主題特征詞出現(xiàn)的概率進(jìn)行統(tǒng)計(jì)加和,得到條形圖如圖6所示,可以明顯看出,付費(fèi)自習(xí)室負(fù)面評(píng)論中主題分布差異不大,主題一、主題二、主題三分別占比0.081%、0.077%、0.061%。根據(jù)三個(gè)主題關(guān)注的內(nèi)容,我們可以得到結(jié)論:消費(fèi)者對(duì)付費(fèi)自習(xí)室不滿意的原因有付費(fèi)自習(xí)室價(jià)格較昂貴;付費(fèi)自習(xí)室所處的地理位置周?chē)h(huán)境不安靜;付費(fèi)自習(xí)室通風(fēng)不是太好,空氣質(zhì)量差。
圖6 付費(fèi)自習(xí)室負(fù)向評(píng)論分布圖
為得到消費(fèi)者對(duì)付費(fèi)自習(xí)室的客觀全面的評(píng)價(jià),本文在對(duì)美團(tuán)平臺(tái)中付費(fèi)自習(xí)室在線評(píng)論的文本挖掘過(guò)程中,進(jìn)行了情感分類(lèi)、語(yǔ)義網(wǎng)絡(luò)分析和LDA模型主題分析,實(shí)證研究的結(jié)果為當(dāng)前消費(fèi)者對(duì)付費(fèi)自習(xí)室的評(píng)價(jià)大多是正向評(píng)價(jià);付費(fèi)自習(xí)室受到消費(fèi)者的追捧的主要原因是提供好的學(xué)習(xí)氛圍;消費(fèi)者對(duì)付費(fèi)自習(xí)室不滿意的主要原因是付費(fèi)自習(xí)室價(jià)格昂貴、付費(fèi)自習(xí)室所處的地理位置周?chē)h(huán)境不安靜、付費(fèi)自習(xí)室通風(fēng)不好、空氣質(zhì)量差、付費(fèi)自習(xí)室的廁所等設(shè)施有待完善等。
建立分區(qū)自習(xí)室,分人群收費(fèi),合理定價(jià):由于每個(gè)受眾的收入水平不一,對(duì)付費(fèi)自習(xí)室價(jià)格的接受程度也不同,因此可以建立低價(jià)區(qū)和高價(jià)區(qū)等不同類(lèi)型自習(xí)室,滿足不同消費(fèi)水平人員的需求。同時(shí)利潤(rùn)高和利潤(rùn)低的自習(xí)室能綜合維持企業(yè)的持續(xù)經(jīng)營(yíng)[6]。
合理選址,選擇安靜的環(huán)境:學(xué)習(xí)環(huán)境是影響學(xué)習(xí)效率的一大因素,商家在選擇付費(fèi)自習(xí)室的創(chuàng)建地點(diǎn)時(shí),應(yīng)該盡量選擇周?chē)h(huán)境安靜的地點(diǎn);另外,商家應(yīng)使用隔音較好的隔板及靜音設(shè)備,給消費(fèi)者提供安靜的學(xué)習(xí)環(huán)境[7]。
優(yōu)化付費(fèi)自習(xí)室的設(shè)施:商家在付費(fèi)自習(xí)室中盡可能地提供便利服務(wù),付費(fèi)自習(xí)室的設(shè)施應(yīng)更加齊全,提供干凈充足的公共衛(wèi)生間、日常生活的必需品與寬敞的學(xué)習(xí)空間,另外室內(nèi)也要常通風(fēng),保持空氣清新[8]。