章一丹 羅繼鋒 吳志艷
(1.上海交通大學(xué) 安泰經(jīng)濟(jì)與管理學(xué)院,上海 200030;2.對外經(jīng)貿(mào)大學(xué),上海 201620)
時(shí)間距離是影響在線評(píng)價(jià)的重要因素,但針對旅游在線評(píng)論時(shí)間距離的研究還比較少見。并且,時(shí)間距離對評(píng)論影響的研究主要集中在認(rèn)知理論方面,解釋水平/情感強(qiáng)度兩條路徑的作用尚未被充分討論,而且缺乏二手?jǐn)?shù)據(jù)的支撐。鑒于此,本文對上述問題進(jìn)行研究,主要貢獻(xiàn)體現(xiàn)在:
第一,本文爬蟲獲取平臺(tái)旅游網(wǎng)站門票區(qū)2017—2018年的全量評(píng)論數(shù)據(jù),使用文本情感傾向和效價(jià)評(píng)分結(jié)合的方式探究時(shí)間距離的兩條作用路徑。首先采用文本挖掘的方法提煉情感指標(biāo),其次運(yùn)用分位數(shù)回歸、固定效應(yīng)模型和中介效應(yīng)模型等計(jì)量模型嚴(yán)謹(jǐn)?shù)仳?yàn)證時(shí)間距離的兩條作用路徑。本文將二手?jǐn)?shù)據(jù)的方法應(yīng)用于心理距離理論研究在以前的研究中不多見,是對當(dāng)前理論的實(shí)證補(bǔ)充。
第二,本文充分論證了時(shí)間距離對評(píng)分的兩條作用路徑:(1)隨著時(shí)間距離的增加,消費(fèi)者情感減弱從而導(dǎo)致原先低評(píng)分變好、原先高評(píng)分變差;(2)時(shí)間距離的增加帶來高水平的構(gòu)建,對原先評(píng)分有正向作用,而整體上時(shí)間距離對評(píng)分的正向作用是由于評(píng)分右偏的J形分布特征,低評(píng)分被拉高作用明顯大于高評(píng)分被拉低作用。這一結(jié)論對線上口碑的營銷策略有一定的指導(dǎo)意義,適度的評(píng)論時(shí)間距離能帶來更多正向的口碑,而服務(wù)商一味促使消費(fèi)者過早評(píng)論可能會(huì)帶來消極影響。
為了研究旅游網(wǎng)站在線評(píng)論的時(shí)間距離對評(píng)分的影響,編寫爬蟲程序獲取某旅游網(wǎng)站門票專欄2017年4月1日—2018年11月1日的所有產(chǎn)品的評(píng)論信息,包括產(chǎn)品編號(hào)、消費(fèi)者編號(hào)、出行時(shí)間(精確到天)、評(píng)論時(shí)間(精確到秒)、旅游地區(qū)、評(píng)分、評(píng)論文本。為了結(jié)果的有效性,去除數(shù)據(jù)中的噪聲,比如系統(tǒng)故障導(dǎo)致的重復(fù)評(píng)論,產(chǎn)品上線最開始的30條評(píng)論等。最終,共有622178條評(píng)論、2451個(gè)產(chǎn)品和225428個(gè)用戶。
此外,旅游以戶外活動(dòng)為主,容易受天氣這類外生因素的影響,為避免遺漏天氣因素帶來的內(nèi)生性問題,本文編寫爬蟲程序獲取2017年4月1日-2018年11月1日所有景點(diǎn)地區(qū)每日的天氣信息,包括最高溫度、天氣(晴、雨、多云)和PM2.5值。
1.2.1 評(píng)分
旅游網(wǎng)站評(píng)論中的產(chǎn)品評(píng)分有1~5分五檔,分?jǐn)?shù)越高越積極。622178條樣本評(píng)分均值4.57,方差0.80。評(píng)分有著明顯J形偏態(tài)分布(Gao et al.,2015;Hu et al.,2006;2009),評(píng)分集中在5分檔(見圖1)。90.1%的評(píng)分集中在4~5分,其中5分超過70%。由于消費(fèi)者對高分(4~5分)的偏好,時(shí)間距離對低分段的變化(1~2分)和高分段的變化(4~5分)的影響可能是不一樣的,常見的多元回歸在這里可能無效,本文增加分位數(shù)回歸模型驗(yàn)證這種不一致性。
圖1 評(píng)分分布
1.2.2 時(shí)間距離
時(shí)間距離定義為消費(fèi)者出行時(shí)間和評(píng)論時(shí)間的時(shí)間差。旅游網(wǎng)站的出行時(shí)間精確到天,評(píng)論時(shí)間精確到分鐘,因此本文以天為單位統(tǒng)計(jì)時(shí)間距離。時(shí)間距離的偏度是3.39(p<0.001),因此對時(shí)間距離做對數(shù)變換,由于時(shí)間距離包含0(0沒有對數(shù)變換),因此整體加1再進(jìn)行對數(shù)變換(McCune et al.,2012)。此外,為了更好地解釋交互項(xiàng),本文對時(shí)間距離做了中心化處理(Cohen et al.,2003)。
圖2 時(shí)間距離分布
1.2.3 文本情感
Senta情感分析系統(tǒng)采用Bi-LSTM雙向語義依賴的深度學(xué)習(xí)框架,本文調(diào)用Baidu API的Senta情感分析定制模塊,采用遷移學(xué)習(xí)的方法,獲得文本情感得分0~1的連續(xù)值。首先利用公開數(shù)據(jù)集“譚松波的酒店評(píng)論語料”訓(xùn)練模型,共包含9000條積極樣本、3000條消極樣本,訓(xùn)練后的模型精確度從0.77提升到0.84。然后將模型應(yīng)用到622178條評(píng)論文本中,獲得連續(xù)情感值的均值為0.78、方差為0.28、偏度為-1.51,也存在J形偏態(tài)分布的情況。
具體的控制變量見表1,包含產(chǎn)品信息、用戶信息和天氣信息。產(chǎn)品信息方面,本文統(tǒng)計(jì)了評(píng)論前產(chǎn)品的歷史平均分和歷史評(píng)價(jià)數(shù),分別代表了旅游產(chǎn)品的歷史水平和受歡迎程度,這些可能會(huì)影響到產(chǎn)品評(píng)價(jià)(Huang et al.,2016)。用戶信息方面,本文統(tǒng)計(jì)了評(píng)論前消費(fèi)者的評(píng)論平均分和評(píng)論數(shù),這可能系統(tǒng)性代表了消費(fèi)者的評(píng)價(jià)習(xí)慣(Huang et al.,2016)。天氣信息是影響旅游出行的重要因素(Becken and Wilson,2013),本文提取了最高氣溫、天氣狀況和PM2.5三個(gè)指標(biāo)。選用當(dāng)日最高氣溫主要是景點(diǎn)旅游一般是在日間進(jìn)行,由于一些地區(qū)的晝夜溫差較大,最高氣溫比平均氣溫更能反映出當(dāng)天的體感溫度。為了更好地解釋交互項(xiàng),對最高氣溫做了中心化處理(Cohen et al.,2003)。天氣狀況是將天氣預(yù)報(bào)的文字描述劃分成4檔:1-晴,2-多云,3-小雨陣雨等,4-中雨暴雨等。旅游出行受到淡旺季、氣候等因素的影響,因此本文采用年度和月度的時(shí)間固定效應(yīng),以消除由時(shí)間因素帶來的模型不可觀測因素。需要注意的是,當(dāng)使用時(shí)間和產(chǎn)品的固定效應(yīng)時(shí),產(chǎn)品信息已經(jīng)在固定效應(yīng)模型中體現(xiàn);當(dāng)使用時(shí)間和消費(fèi)者固定效應(yīng)時(shí),消費(fèi)者信息也得到了體現(xiàn),相應(yīng)變量無需再放入模型。
表1 控制變量表
圖3 連續(xù)情感得分分布
首先,采用傳統(tǒng)的多元回歸模型,評(píng)分為因變量、時(shí)間距離為自變量。模型有兩個(gè)特點(diǎn):(1)增加了天氣變量、最高氣溫、天氣狀況和PM2.5值,其中天氣狀況(2,3,4)是離散值(2)分別對時(shí)間、產(chǎn)品和消費(fèi)者做固定效應(yīng),控制了隨時(shí)間、產(chǎn)品、個(gè)體變化但難以觀測的變量,因此三者固定效應(yīng)模型具有最佳的穩(wěn)健性。用以下公式對三者固定效應(yīng)模型做具體解釋:
在式(1)中:TD指時(shí)間距離,Temp是最高氣溫,i是消費(fèi)者編號(hào),j是產(chǎn)品編號(hào),t是時(shí)間編號(hào),δi是消費(fèi)者的固定效應(yīng),λj是產(chǎn)品的固定效應(yīng),τt是時(shí)間的固定效應(yīng),Controlijt代表除時(shí)間距離以外的控制變量。
回歸結(jié)果顯示(表2),在普通的最小二乘回歸(OLS)和多種固定效應(yīng)模型下,時(shí)間距離對評(píng)分均有顯著的正向作用,且多個(gè)模型的回歸系數(shù)相近。天氣因素的影響方面,最高氣溫對評(píng)分有顯著的負(fù)作用(系數(shù)=-0.003,p<0.01);極端天氣(天氣狀況4)相較于好天氣(天氣狀況1)有顯著的負(fù)作用(系數(shù)=-0.028,p<0.01);PM2.5也會(huì)影響到評(píng)分,旅游當(dāng)天的 PM2.5值越高,評(píng)分越低(系數(shù)=-0.015,p<0.1)。此外,表2還報(bào)告了時(shí)間與天氣的交互系數(shù),時(shí)間與最高氣溫的交互項(xiàng)顯著為正(系數(shù)=0.0007,p<0.01),而最高氣溫對評(píng)分有負(fù)作用(系數(shù)=-0.003,p<0.01)。因此,時(shí)間距離對主效應(yīng)(最高氣溫)帶來的負(fù)影響有一定的調(diào)節(jié)作用,即隨著時(shí)間距離的增加,最高氣溫對評(píng)分的負(fù)作用逐漸減弱。
值得思考的是,時(shí)間距離對最高氣溫的調(diào)節(jié)作用也說明了時(shí)間距離增加給消費(fèi)者天氣感知帶來的減弱作用,由此推斷時(shí)間距離對評(píng)分可能也會(huì)存在同樣的“弱化”作用。同時(shí),評(píng)分有著明顯J形偏態(tài)分布(Gao et al.,2015;Hu et al.,2006;2009),評(píng)分主要集中在5分,低分段的變化(1分/2分向高分)空間大于高分段的變化(4分和5分向低分),傳統(tǒng)的最小二乘回歸中時(shí)間距離對低分段的影響主導(dǎo)了回歸系數(shù)。因此,傳統(tǒng)的多元回歸在這里可能是失效的,下面將采用分位數(shù)回歸模型進(jìn)一步探究時(shí)間距離對不同水平評(píng)分的影響。
表2 評(píng)分的回歸模型結(jié)果
普通最小二乘法是建立自變量和因變量條件均值關(guān)系的線性模型,而分位數(shù)回歸則是利用自變量和因變量的條件分位數(shù)進(jìn)行建模,它能反映自變量對因變量分布位置、刻度和形狀的影響。本文采用分位數(shù)回歸模型對評(píng)分在0.25、0.5、0.75、0.9分位點(diǎn)上進(jìn)行回歸,研究不同水平下時(shí)間距離的影響系數(shù)。同時(shí),模型在時(shí)間和產(chǎn)品層面做了固定效應(yīng),由于消費(fèi)者人數(shù)較多,直接將用戶平均分和用戶評(píng)論數(shù)作為控制變量加入模型中。固定效益模型能夠避免觀測不到的變量對模型的干擾,增加了模型整體的穩(wěn)健性。具體回歸模型如下:
其中:λj(τ)是產(chǎn)品j在水平τ下的固定效應(yīng),υt(τ)是時(shí)間t在水平τ下的固定效應(yīng),模型中的不同水平的斜率系數(shù)不一樣,時(shí)間距離TDijts的系數(shù)αgi(τ)(τ)代表第g i(τ)組未知的斜率參數(shù)。
根據(jù)Williams(2013)的研究,時(shí)間距離對不同水平的情感有不同的作用,時(shí)間距離對消極情感有改進(jìn)的作用,對積極情感有減弱的作用。前文已經(jīng)探討了效價(jià)評(píng)分和文本情感傾向的差別,本文加入時(shí)間距離對文本的情感值(自然語言處理模型計(jì)算的連續(xù)情感值)的分位數(shù)回歸,對比時(shí)間距離對評(píng)分和情感值的不同影響。
表3展示了分位數(shù)回歸的結(jié)果,對評(píng)分的回歸中,時(shí)間距離在 25%(0.029,p<0.01)、50%(0.008,p<0.01)、75%(0.04,p<0.01)分位點(diǎn)上均有正向作用,但影響系數(shù)在逐漸變小,而時(shí)間距離在90%分位點(diǎn)對評(píng)分沒有顯著的作用。對情感值的回歸中,時(shí)間距離在25%(0.002,p<0.01)分位點(diǎn)有正向作用,在50%分位點(diǎn)沒有顯著的作用,在75%(-0.0008,p<0.01)和90%(-0.001,p<0.01)分位點(diǎn)有顯著的負(fù)向作用,同時(shí)負(fù)向作用是在逐漸增強(qiáng)的。需要注意的是,因?yàn)橐蜃兞吭u(píng)分和連續(xù)情感值的閾值范圍不同,回歸系數(shù)沒有直接可比性。
從模型結(jié)果來看,時(shí)間距離對不同水平評(píng)分的影響系數(shù)差異較大,這種差異可能是別的遺漏變量帶來的。而時(shí)間距離對情感強(qiáng)度的減弱作用明顯,隨著時(shí)間距離的增加,消極情感和積極情感都會(huì)逐漸減弱,并且時(shí)間距離的作用大小隨情感強(qiáng)度的增加邊際增大。因此,時(shí)間距離很可能通過改變情感強(qiáng)度從而減弱了對評(píng)分的影響系數(shù)。本文進(jìn)一步在時(shí)間距離對評(píng)分的回歸中加入情感值作為中介變量。
時(shí)間距離對評(píng)分的回歸中加入情感值作為中介變量的結(jié)果展示在下方。首先,加入情感值后的時(shí)間距離在各分位點(diǎn)上對評(píng)分都是顯著的正向作用,并且影響系數(shù)處于同一個(gè)量級(jí),即加入剔除情感收縮的影響后,時(shí)間距離對各水平評(píng)分均有穩(wěn)健的正向作用。結(jié)合解釋水平理論的相關(guān)研究(Eyal et al.,2004;Herzog et al.,2007;Williams et al.,2014;Huangetal.,2016),認(rèn)為這反映時(shí)間距離通過高水平構(gòu)建正向提高了評(píng)分。
其次,以0.25和0.75分位數(shù)為例分析情感值的中介作用。根據(jù)溫忠麟等(2004)的中介效應(yīng)測試方法,情感值的中介作用成立。在0.25分位數(shù)水平上(圖5),時(shí)間距離對情感是正向作用,加入情感值后,時(shí)間距離對評(píng)分的影響系數(shù)從原先的0.029(p<0.01)下降到0.023(p<0.01);在0.75水平上,時(shí)間距離對情感是負(fù)向作用,加入情感值后,時(shí)間距離對評(píng)分的影響系數(shù)從原先的0.004(p<0.01)下降到0.012(p<0.01)。
表3 時(shí)間距離、評(píng)分和情感值的分位數(shù)回歸結(jié)果
表4 情感值在時(shí)間距離對評(píng)分影響的中介效應(yīng)
圖4 情感值的中介效應(yīng)(0.25分位數(shù))
圖5 情感值的中介效應(yīng)(0.75分位數(shù))
首先,本文通過分位數(shù)回歸模型論證了時(shí)間距離對情感值的減弱作用,并且時(shí)間距離對最高氣溫的調(diào)節(jié)作用也佐證了這一減弱效應(yīng)。其次,通過中介效應(yīng)模型論證了時(shí)間距離通過情感和解釋水平兩條路徑共同作用于評(píng)分。本文還對模型的穩(wěn)健性進(jìn)行了檢驗(yàn)。一方面,調(diào)整樣本集,如隨機(jī)生成的方式抽取子樣本集,在樣本集中隨機(jī)加入被清洗掉的“臟”樣本等,測試發(fā)現(xiàn)樣本數(shù)據(jù)的變化不會(huì)改變時(shí)間距離對評(píng)分的影響方式;另一方面,調(diào)整時(shí)間距離的測量方式,如改用周度、月度統(tǒng)計(jì)時(shí)間距離,取消時(shí)間距離的對數(shù)變換等,測試發(fā)現(xiàn)時(shí)間距離的測量方式也不會(huì)其對評(píng)分結(jié)果產(chǎn)生作用。因此,以上的模型結(jié)果適用于普遍數(shù)據(jù)集和測量方式,有良好的穩(wěn)健性。
本文的貢獻(xiàn)在于:第一,通過嚴(yán)謹(jǐn)?shù)膶?shí)證分析,在二手?jǐn)?shù)據(jù)中論證了時(shí)間距離的兩條作用路徑,對心理距離、解釋水平理論和在線評(píng)論的研究工作作出了貢獻(xiàn);第二,為旅游評(píng)論的市場營銷提供了科學(xué)建議。目前普遍督促消費(fèi)者盡早評(píng)論的營銷策略可能會(huì)帶來負(fù)面效果,適度增加消費(fèi)者評(píng)論的時(shí)間距離可以提高在線口碑。本文的研究還有以下兩點(diǎn)不足:首先,本文研究中只論證了時(shí)間距離對評(píng)分的正向作用,并結(jié)合 Williams(2013)的框架推斷出這種作用是由解釋水平變化帶來的,而抽象/具體在其中的作用尚未得到充分論證;其次,本文目前只涉及四種心理距離中的時(shí)間距離,Huang et al.(2016)的研究表明時(shí)間距離和空間距離會(huì)同時(shí)影響到在線評(píng)分,并且時(shí)間距離和空間距離間有交互作用,這些有待后續(xù)研究繼續(xù)論證。
人們常說“距離產(chǎn)生美”,本文的研究發(fā)現(xiàn),旅游活動(dòng)的回憶會(huì)隨著時(shí)間距離的增加而變化,所謂的“距離產(chǎn)生美”,一方面是時(shí)間距離的增加減弱了消極情感,另一方面是時(shí)間距離增加使人們更關(guān)注抽象事件,從而增加了評(píng)價(jià)的積極性。當(dāng)然,時(shí)間距離的增加也會(huì)減弱積極情感,但由于旅游口碑的J形分布特征,消極情感的改善效果和解釋水平的正向作用更為突出。因此,服務(wù)商不必一味促使消費(fèi)者過早評(píng)論,適當(dāng)?shù)摹熬嚯x”能夠產(chǎn)生更“美”的口碑。