楊 程,譚 昆,俞春陽+
(1.浙江大學(xué)城市學(xué)院 工業(yè)設(shè)計(jì)系,浙江 杭州 310015;2.浙江大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310027)
在競爭日益激烈的市場環(huán)境下,外部環(huán)境變化迅速,企業(yè)想要在這種動態(tài)環(huán)境下發(fā)展,必須加快產(chǎn)品設(shè)計(jì)更新的速度[1]。如今的產(chǎn)品設(shè)計(jì)周期比原來短很多,在相同時(shí)間內(nèi)可經(jīng)過多次用戶反饋和設(shè)計(jì)改進(jìn),從而更快地更新產(chǎn)品,滿足用戶快速變化的需求[2]。
由于時(shí)間限制,傳統(tǒng)調(diào)研模式的用戶參與度低、調(diào)研范圍小,易使產(chǎn)品設(shè)計(jì)方向脫離用戶需求而導(dǎo)致項(xiàng)目失?。涣硗?,產(chǎn)品設(shè)計(jì)需要用戶測試、總結(jié)反饋和捕捉用戶需求,從而逐步完善產(chǎn)品。如果吸收用戶反饋和檢驗(yàn)的周期較長,則將降低產(chǎn)品的設(shè)計(jì)節(jié)奏。因此,快速準(zhǔn)確地搜集用戶反饋,跟蹤其細(xì)微變化,對產(chǎn)品設(shè)計(jì)改進(jìn)具有重要意義[3]。
大數(shù)據(jù)的產(chǎn)生提供了新的研究條件和機(jī)遇[4-5],依賴小規(guī)模數(shù)據(jù)發(fā)現(xiàn)未知領(lǐng)域規(guī)律的方法正逐漸被大數(shù)據(jù)分析取代[6-7]。已有研究發(fā)現(xiàn),在線評論數(shù)據(jù)比從其他來源(如用戶調(diào)研等)獲取的用戶數(shù)據(jù)更加可靠[8],對相關(guān)部門監(jiān)管網(wǎng)絡(luò)輿情具有重要的價(jià)值[9],廠商也可利用其快速作出有利決策,獲得競爭優(yōu)勢[10]。雖然大數(shù)據(jù)分析相比傳統(tǒng)用戶調(diào)研有很多優(yōu)點(diǎn),但是由于數(shù)據(jù)的體積和產(chǎn)生速度不斷增加,對數(shù)據(jù)的有用性進(jìn)行研究變得越發(fā)重要[11],消除無用數(shù)據(jù)后的數(shù)據(jù)會更有價(jià)值[12]。Banerjee等[13]認(rèn)為評論者的特征(積極性、參與性、經(jīng)驗(yàn)、聲譽(yù)、能力和社會性)對評論的有用性有直接影響;Karimi等[14]認(rèn)為視覺線索對用戶評估評論是否有用有一定的影響;Forman等[15]對電商環(huán)境下的評論有用性進(jìn)行了研究,將評論者的專業(yè)知識和吸引力作為評判評論有用性的兩個標(biāo)準(zhǔn)。
從有用評論中獲取有價(jià)值的信息也是一個值得研究的方向[16]。Kushal等[17]對觀點(diǎn)抽取和語義分類進(jìn)行了系統(tǒng)研究,其實(shí)驗(yàn)效果甚至比機(jī)器學(xué)習(xí)方法更好。基于中文評論,Zhang等[18]通過特征提取算法檢測不同品牌化妝品的缺點(diǎn),幫助制造商提高產(chǎn)品質(zhì)量和競爭力;Jing等[19]通過建立兩階段驗(yàn)證模型,并對比兩階段的數(shù)據(jù)分析結(jié)果,證明了情感分析方法比調(diào)研方法更有效。此外,Kang等[20]利用情感分析方法分析了手機(jī)應(yīng)用程序的速度、穩(wěn)定性等6個特點(diǎn),并取得了較好的效果。
大數(shù)據(jù)的數(shù)據(jù)量大、覆蓋范圍廣,可以增加產(chǎn)品設(shè)計(jì)開發(fā)過程中的用戶參與度,縮減用戶調(diào)研的時(shí)間成本和人工成本,幫助調(diào)研人員快速準(zhǔn)確地理解龐雜的數(shù)據(jù),更快地找到用戶需求和產(chǎn)品設(shè)計(jì)改進(jìn)方向。
本文提出一種結(jié)合文本挖掘和情感分析的產(chǎn)品設(shè)計(jì)改進(jìn)研究方法,分為3個部分,流程如圖1所示。
(1)有用評論的獲取 借助爬蟲程序爬取大量在線評論數(shù)據(jù),并對獲取的在線評論進(jìn)行預(yù)處理。應(yīng)用隱含狄利克雷主題(Latent Dirichlet Allocation,LDA)模型對在線評論進(jìn)行主題抽取,獲得用戶關(guān)注的產(chǎn)品屬性及其對應(yīng)的屬性詞(描述產(chǎn)品屬性的詞語),基于屬性詞和情感詞(描述用戶情感的詞)對在線評論進(jìn)行有用性判斷,去除無用評論。
(2)評價(jià)指標(biāo)體系的建立與分析 根據(jù)產(chǎn)品屬性和屬性詞對有用評論進(jìn)行分類。通過情感分析,計(jì)算單個評論表達(dá)正面情感的概率、用戶對產(chǎn)品各屬性的滿意度和關(guān)注度等指標(biāo),建立產(chǎn)品評價(jià)指標(biāo)體系,通過分析產(chǎn)品指標(biāo)得分找到產(chǎn)品需要改進(jìn)的屬性。
(3)改進(jìn)策略分析 提取待改進(jìn)產(chǎn)品屬性的相關(guān)評論,篩選其中的負(fù)向評論,結(jié)合文本觀點(diǎn)挖掘找到用戶不滿意的點(diǎn),分析出用戶需求,從而確定產(chǎn)品改進(jìn)策略。
智能手機(jī)種類多、更新速度快,因此將其作為分析案例。利用Python Request編寫在線爬蟲程序,爬取京東商城銷售量排名前60的智能手機(jī)的在線評論,共1 257 482條評論。為保證評論數(shù)據(jù)的準(zhǔn)確性,對爬取的評論數(shù)據(jù)進(jìn)行預(yù)處理,刪除重復(fù)評論、含有廣告的評論和評論內(nèi)容為標(biāo)點(diǎn)符號的評論,最終得到1 189 357條評論。
屬性詞是描述事物(產(chǎn)品)屬性的詞語。產(chǎn)品屬性為多個相近屬性詞匯總形成的集合,代表產(chǎn)品的某一種屬性,例如顏色、形狀、材質(zhì)和大小等相近屬性詞代表產(chǎn)品的外觀屬性。
采用中文分詞工具Jieba分詞對所獲得的評論進(jìn)行分詞處理?;贚DA模型對評論進(jìn)行產(chǎn)品屬性抽取,通過給定產(chǎn)品屬性個數(shù)K計(jì)算各產(chǎn)品屬性之間的相似度,相似度越小,說明各產(chǎn)品屬性間的重復(fù)度越小,對應(yīng)的K值越優(yōu)[21]。通過計(jì)算發(fā)現(xiàn),當(dāng)K=18時(shí),各產(chǎn)品屬性間的相似度最低,由此獲得了18個屬性詞集合。在初步獲得的分類結(jié)果中,有多個屬性詞集合主要包括形容詞、副詞和動詞等,它們不能代表產(chǎn)品屬性,需要去除,最終得到15個屬性詞集合。通過咨詢專業(yè)手機(jī)設(shè)計(jì)人員的意見,并結(jié)合華為與蘋果等知名企業(yè)官網(wǎng)對手機(jī)屬性的分類標(biāo)準(zhǔn),確定了15個屬性詞集合所代表的產(chǎn)品屬性。各個產(chǎn)品屬性對應(yīng)的屬性詞數(shù)量如表1所示。
表1 各產(chǎn)品屬性中的屬性詞個數(shù)
本文的評論有用性分析主要關(guān)注產(chǎn)品的描述,即描述產(chǎn)品的屬性詞和代表用戶情感的情感詞。如果一條評論為有用評論,則其必定包含用戶關(guān)注的產(chǎn)品屬性(以屬性詞表現(xiàn))和用戶對該產(chǎn)品屬性表現(xiàn)情況的情感傾向(以情感詞表現(xiàn)),屬性詞已由前文產(chǎn)品屬性獲取的步驟中獲得。知網(wǎng)(HowNet)是著名機(jī)器翻譯專家董振東先生花費(fèi)數(shù)十年時(shí)間建立的一個以漢語和英語詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫,其從建立到現(xiàn)在已被很多學(xué)者用于中文文本研究,知網(wǎng)(HowNet)中的情感詞詞庫(下載地址:http://www.keenage. com/download/sentiment.rar)也是目前最知名的中文情感詞詞庫之一,本文將前文得到的屬性詞和知網(wǎng)(HowNet)情感詞詞庫中的情感詞作為評判評論有用性的依據(jù)。
如果一個評論同時(shí)具有屬性詞和情感詞,則認(rèn)為該評論為有用評論,判斷規(guī)則為
(1)
基于式(1),對所有評論進(jìn)行評論有用性分析,最終獲得808 426條有用評論。
每個有效評論中都包含屬性詞,根據(jù)屬性詞所在的產(chǎn)品屬性將評論分為15類。
借助文本情感分析工具AipNlp計(jì)算單個評論表達(dá)正面情感的概率q,第N個產(chǎn)品屬性中第i個評論的正面情感概率記為qNi,qNi∈[0,1]。為了更清晰地表達(dá)用戶的情感傾向,通過式(2)將評論的正面情感概率qNi轉(zhuǎn)換為用戶情感值QNi,QNi∈[-1,1],其數(shù)值越大,情感越積極,用戶的滿意度越高。
QNi=(qNi-0.5)×2。
(2)
為了了解用戶對第N個產(chǎn)品屬性的滿意度,計(jì)算描述第N個產(chǎn)品屬性所有評論的情感值均值,記為PN,
(3)
式中:QNi為第N個產(chǎn)品屬性中第i個評論的情感值;tN為描述第N個產(chǎn)品屬性的評論的個數(shù)。VN為QNi的方差,
(4)
其值越大說明用戶群體對該產(chǎn)品屬性滿意度的差異越大。
評論中出現(xiàn)了對產(chǎn)品屬性的評價(jià),即用戶對該產(chǎn)品屬性的關(guān)注。記用戶對第N個產(chǎn)品屬性的關(guān)注程度為TN,
(5)
式中:tN為第N個產(chǎn)品屬性的評論個數(shù);n為總的有用評論數(shù)。TN值越大用戶的關(guān)注度越高。
SN=(1-PN)×TN。
(6)
由此建立15(15個產(chǎn)品屬性)×4(4個產(chǎn)品屬性評價(jià)指標(biāo))的手機(jī)評價(jià)指標(biāo)體系。
為了解市場上手機(jī)產(chǎn)品的總體情況,通過式(3)~式(6)分析總體手機(jī)的評論數(shù)據(jù),計(jì)算各個產(chǎn)品屬性的滿意度PN、用戶關(guān)注度TN、情感值方差VN和每個產(chǎn)品屬性亟需改進(jìn)的程度SN,得到總體手機(jī)評價(jià)指標(biāo)得分,如表2所示。
表2 總體手機(jī)評價(jià)指標(biāo)得分結(jié)果
在得到總體手機(jī)評價(jià)指標(biāo)得分后,通過分析手機(jī)各個屬性的滿意度PN和用戶關(guān)注度TN,發(fā)現(xiàn)用戶對外觀、價(jià)格和處理器的滿意度最高,對數(shù)據(jù)連接、包裝清單和音頻視頻的滿意度最低;對系統(tǒng)和外觀的關(guān)注度最高,對包裝清單、尺寸重量和數(shù)據(jù)連接的關(guān)注度最低。原因可能是外觀和系統(tǒng)是用戶每天接觸最多的兩個產(chǎn)品屬性,其對用戶的使用體驗(yàn)影響最大。分析還發(fā)現(xiàn),用戶的滿意度越低,情感值的方差VN越大,這表明用戶的滿意度越低,對該產(chǎn)品屬性的情感分歧越大。由此分析,并不是所有現(xiàn)有手機(jī)產(chǎn)品在滿意度低的產(chǎn)品屬性上都做得不好。分析各產(chǎn)品屬性的亟需改進(jìn)程度SN,發(fā)現(xiàn)總體手機(jī)亟需改進(jìn)的屬性為系統(tǒng),其次是外觀和服務(wù)。
將手機(jī)按價(jià)格分為高端、中端和低端3種類型,價(jià)格在2 500 元以上的手機(jī)為高端手機(jī),價(jià)格在1 500 元~2 500 元的手機(jī)為中端手機(jī),價(jià)格在1 500 元以下的手機(jī)為低端手機(jī)[22]。將評論數(shù)據(jù)按照高、中、低手機(jī)類別進(jìn)行劃分,得到高端手機(jī)評論294 472條,中端手機(jī)評論261 153條,低端手機(jī)評論252 801條。
為了解市場上高端、中端和低端3種手機(jī)的具體情況,通過式(3)~式(6)計(jì)算各類手機(jī)的評價(jià)指標(biāo)得分,結(jié)果如表3~表5所示。通過指標(biāo)得分分析發(fā)現(xiàn),高端手機(jī)用戶對外觀、存儲和處理器的滿意程度最高,對數(shù)據(jù)連接、包裝清單和音頻視頻的滿意度最低;對系統(tǒng)和外觀的關(guān)注度最高,對包裝清單、尺寸重量和存儲的關(guān)注度最低。在系統(tǒng)、服務(wù)和外觀方面,SN值較大,表明系統(tǒng)、服務(wù)和外觀需要改進(jìn)的迫切程度較高。
表3 高端手機(jī)評價(jià)指標(biāo)得分結(jié)果
續(xù)表3
表4 中端手機(jī)評價(jià)指標(biāo)得分結(jié)果
表5 低端手機(jī)評價(jià)指標(biāo)得分結(jié)果
中端手機(jī)用戶對外觀、價(jià)格和處理器的滿意程度最高,對數(shù)據(jù)連接、包裝清單和音頻視頻的滿意度最低;對系統(tǒng)和外觀的關(guān)注度最高,對存儲、感應(yīng)器和數(shù)據(jù)連接的關(guān)注度最低。在系統(tǒng)、外觀和服務(wù)方面,SN值較大,可知中端手機(jī)急需改進(jìn)的產(chǎn)品屬性為系統(tǒng)、外觀和服務(wù)。
低端手機(jī)用戶對外觀、價(jià)格和感應(yīng)器的滿意程度最高,對包裝清單、數(shù)據(jù)連接和音頻視頻的滿意度最低;對系統(tǒng)、外觀和價(jià)格的關(guān)注度最高,對感應(yīng)器、包裝清單和尺寸重量的關(guān)注度最低。在系統(tǒng)、價(jià)格和外觀方面,SN值較大,表明系統(tǒng)、價(jià)格和外觀急需改進(jìn)。另外,對比3類手機(jī)用戶對各個手機(jī)產(chǎn)品屬性的滿意度,發(fā)現(xiàn)在大部分產(chǎn)品屬性上,高中端手機(jī)用戶的滿意度較低,低端手機(jī)用戶的滿意度較高,這可能與不同消費(fèi)水平用戶的心理預(yù)期有關(guān)。對比3類手機(jī)用戶對各個手機(jī)產(chǎn)品屬性的關(guān)注度,發(fā)現(xiàn)不同購買力的用戶對大部分產(chǎn)品屬性的關(guān)注度基本一致,但低端用戶更關(guān)注手機(jī)的價(jià)格,高端用戶更關(guān)注手機(jī)的系統(tǒng),產(chǎn)生這種現(xiàn)象可能由手機(jī)對于不同消費(fèi)群體存在意義的不同造成。對比3類手機(jī)各產(chǎn)品屬性的亟需改進(jìn)程度發(fā)現(xiàn),大多數(shù)高端和中端手機(jī)產(chǎn)品屬性的亟需改進(jìn)程度明顯高于低端手機(jī),尤其在系統(tǒng)和服務(wù)方面,說明低端手機(jī)相比較高端和中端手機(jī)更符合消費(fèi)者預(yù)期,高端和中端手機(jī)各屬性改進(jìn)的迫切程度更大,尤其在系統(tǒng)和服務(wù)方面。
為研究具體型號的手機(jī),對前文銷售排名前60的手機(jī)一一進(jìn)行分析。限于篇幅,在此以蘋果公司iPhone X型號的手機(jī)作為分析案例。iPhone X作為蘋果公司iPhone十周年紀(jì)念產(chǎn)品,其全面屏設(shè)計(jì)、創(chuàng)新的交互方式、獨(dú)有的面部解鎖等特性為手機(jī)發(fā)展指引了一個方向。
計(jì)算用戶對iPhone X各產(chǎn)品屬性的滿意度PN、用戶關(guān)注度TN、情感值方差VN和每個產(chǎn)品屬性亟需改進(jìn)程度SN,得到iPhone X評價(jià)指標(biāo)得分結(jié)果,如表6所示。由表可見,iPhone X用戶對尺寸重量、價(jià)格和外觀的滿意度最高,對音頻視頻和包裝清單的滿意度最低;對系統(tǒng)和服務(wù)的關(guān)注度最高,對存儲和包裝清單的關(guān)注度最低。分析各產(chǎn)品屬性的亟需改進(jìn)程度SN可知,現(xiàn)階段iPhone X亟需改進(jìn)的屬性為系統(tǒng),其次為服務(wù)和外觀。
表6 iPhone X評價(jià)指標(biāo)得分結(jié)果
在確定手機(jī)改進(jìn)方向后,為了解具體的產(chǎn)品屬性改進(jìn)細(xì)節(jié),采用AipNlp模塊中的文本觀點(diǎn)抽取模塊對手機(jī)相關(guān)屬性的負(fù)向在線評論進(jìn)行觀點(diǎn)抽取,分析得出用戶不滿意的點(diǎn)。負(fù)向評論觀點(diǎn)抽取的具體分析步驟如下:
(1)提取待改進(jìn)產(chǎn)品屬性的相關(guān)評論 在獲得手機(jī)亟需改進(jìn)的產(chǎn)品屬性后,按照亟需改進(jìn)的產(chǎn)品屬性中的屬性詞篩選出描述這些產(chǎn)品屬性的在線評論。
(2)負(fù)向評論篩選 為減少干擾,準(zhǔn)確分析用戶不滿意的點(diǎn),篩選出情感值QNi<0的負(fù)向情感評論。
(3)負(fù)向評論觀點(diǎn)挖掘 借助AipNlp模塊中的評論觀點(diǎn)抽取模塊對這些在線評論進(jìn)行觀點(diǎn)抽取,并對抽取后的觀點(diǎn)進(jìn)行刪選處理。
以iPhone X手機(jī)為例,通過評論情感分析可知其需改進(jìn)的產(chǎn)品屬性為系統(tǒng)、服務(wù)和外觀,利用AipNlp中的觀點(diǎn)分析模塊對iPhone X手機(jī)的系統(tǒng)、服務(wù)和外觀的負(fù)向評論進(jìn)行觀點(diǎn)抽取,數(shù)據(jù)處理結(jié)果如表7所示。
表7 負(fù)向評論觀點(diǎn)挖掘結(jié)果
結(jié)合觀點(diǎn)挖掘結(jié)果及相應(yīng)的評論發(fā)現(xiàn),iPhone X用戶對系統(tǒng)不滿意的點(diǎn)主要為系統(tǒng)易崩潰、不穩(wěn)定、出bug、開機(jī)慢和易死機(jī),發(fā)熱嚴(yán)重,反應(yīng)慢、不靈敏、運(yùn)行游戲時(shí)卡頓、發(fā)熱嚴(yán)重、功能少、App下載速度慢、軟件兼容性差等。
對服務(wù)不滿意的點(diǎn)主要為客服服務(wù)態(tài)度差、不專業(yè)和用戶事件處理速度慢,物流發(fā)貨速度慢、運(yùn)輸速度慢和快遞員服務(wù)態(tài)度差,售后的服務(wù)差、處理速度慢和步驟繁瑣等問題上,特別是客服方面的問題占據(jù)了用戶負(fù)向觀點(diǎn)的大半。
對外觀不滿意的點(diǎn)主要為“劉?!痹煨筒皇娣?,外形丑、不好看,機(jī)身尺寸小,機(jī)身配色單一、無個性,可供選擇的顏色少,做工一般、有瑕疵等。
在找到iPhone X手機(jī)各個亟需改進(jìn)屬性的用戶不滿意的點(diǎn)后,基于專家意見提出具體的改進(jìn)策略。iPhone X手機(jī)的具體改進(jìn)策略如下:
(1)增強(qiáng)系統(tǒng)的良好體驗(yàn) 提高系統(tǒng)的穩(wěn)定性、流暢度和對各個App版本的兼容性,優(yōu)化系統(tǒng)的運(yùn)行速度和反應(yīng)速度,加快手機(jī)的開機(jī)速度,增加系統(tǒng)中人性化的功能,優(yōu)化溫控系統(tǒng)以控制機(jī)身溫度;強(qiáng)化系統(tǒng)在游戲環(huán)境下的體驗(yàn),有針對地優(yōu)化手機(jī)游戲的性能,優(yōu)化大眾游戲的運(yùn)行效率,提高游戲的流暢性;增加App Store國內(nèi)服務(wù)器的建設(shè),加快App的更新下載速度。
(2)增強(qiáng)客服服務(wù)的專業(yè)性 改善客服的服務(wù)態(tài)度,加快用戶事件處理速度,簡化客服服務(wù)的流程,增加客服的人員數(shù)量;提高物流配送服務(wù)的水平,加快產(chǎn)品的發(fā)貨速度和運(yùn)輸速度,改善快遞員配送時(shí)的服務(wù)態(tài)度;提升售后服務(wù)的專業(yè)性,改善售后服務(wù)人員的服務(wù)態(tài)度,加快售后問題的處理速度,簡化售后問題處理流程的步驟。
(3)增強(qiáng)手機(jī)產(chǎn)品的個性 豐富產(chǎn)品的顏色,為追求個性的用戶提供豐富的選擇;提高手機(jī)造型設(shè)計(jì)的水準(zhǔn),設(shè)計(jì)出符合當(dāng)下消費(fèi)者審美的手機(jī)外觀,減小或消除“劉海”屏等;增加手機(jī)尺寸型號,給消費(fèi)者多種選擇;提升產(chǎn)品的做工,提高代工廠的生產(chǎn)質(zhì)量,減少手機(jī)瑕疵。
其他具體型號手機(jī)均可以該方法快速找到用戶不滿意的點(diǎn),并據(jù)此做出相應(yīng)的改進(jìn)策略。
該文利用SPSS 20.0統(tǒng)計(jì)學(xué)軟件展開數(shù)據(jù)分析和處理,計(jì)量資料表示為(±s),利用t檢驗(yàn),計(jì)數(shù)資料利用(%)表示,通過χ2檢驗(yàn),P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
本文提出的產(chǎn)品設(shè)計(jì)改進(jìn)研究方法,主要通過建立評價(jià)指標(biāo)體系對產(chǎn)品各個屬性進(jìn)行逐一評價(jià)來找到亟需改進(jìn)的方向,因此該方法的有效性主要與評價(jià)指標(biāo)體系的準(zhǔn)確性和評論數(shù)據(jù)的真實(shí)性相關(guān)。
在線評論的差評率是用戶評價(jià)產(chǎn)品優(yōu)劣的重要指標(biāo),其為產(chǎn)品差評占總體評論的比例。驗(yàn)證實(shí)驗(yàn)通過爬蟲程序爬取手機(jī)產(chǎn)品在線評論的差評率,基于主成分分析(Principal Component Analysis,PCA)和多元線性回歸分析方法,搭建本文手機(jī)評價(jià)指標(biāo)與手機(jī)在線評論差評率之間的多元線性回歸模型。如果該多元線性回歸模型能夠通過手機(jī)評價(jià)指標(biāo)準(zhǔn)確預(yù)測產(chǎn)品在線評論的差評率,則能從側(cè)面證明手機(jī)評價(jià)指標(biāo)體系的準(zhǔn)確性,進(jìn)而驗(yàn)證本文方法的有效性。
PCA是一種通過分析相關(guān)系數(shù)矩陣各變量間的關(guān)系,將相近的變量匯總,將原先繁雜的變量轉(zhuǎn)化為為數(shù)不多的綜合指標(biāo)的降維分析方法[23]。根據(jù)60種手機(jī)各產(chǎn)品屬性的亟需改進(jìn)程度S建立相關(guān)系數(shù)矩陣G,然后通過爬蟲程序獲取60種手機(jī)的在線評論差評率,據(jù)此建立系數(shù)矩陣W:
(7)
(8)
式中:SMN為銷量排名第M個手機(jī)第N個產(chǎn)品屬性的亟需改進(jìn)程度,M=1,2,…,60,N=1,2,…,15;CM為銷量排名第M個手機(jī)的在線評論差評率。
記各手機(jī)第N個產(chǎn)品屬性的亟需改進(jìn)程度形成的矩陣為BN,
(9)
采用皮爾遜積矩相關(guān)系數(shù)測量手機(jī)各產(chǎn)品屬性的亟需改進(jìn)程度BN與各手機(jī)在線評論差評率W的相關(guān)性,然后通過顯著性檢驗(yàn)驗(yàn)證兩組數(shù)據(jù)具有相關(guān)性事件的合理性。若皮爾遜積矩相關(guān)系數(shù)值大于0.3,則認(rèn)為兩組數(shù)據(jù)間具有明顯相關(guān)性[24]。借助社會科學(xué)統(tǒng)計(jì)軟件包(Statistical Package for the Social Sciences, SPSS)分析各系數(shù)間的皮爾遜積矩相關(guān)系數(shù)和顯著性概率值P,結(jié)果如表8所示。由表可見,亟需改進(jìn)程度與評論差評率明顯相關(guān)的有電池、服務(wù)、價(jià)格、耐用性、屏幕、數(shù)據(jù)連接和系統(tǒng)7個產(chǎn)品屬性。
表8 各產(chǎn)品屬性的亟需改進(jìn)程度與評論差評率的皮爾遜積矩相關(guān)系數(shù)及顯著性概率值
為研究7個產(chǎn)品屬性亟需改進(jìn)程度間的相關(guān)性,減少線性回歸分析的復(fù)雜性,利用SPSS對剩余7個產(chǎn)品屬性的亟需改進(jìn)程度進(jìn)行主成分分析。通過巴特利特檢驗(yàn)和KMO(Kaiser-Meyer-Olkin)檢驗(yàn)驗(yàn)證PCA。巴特利特檢驗(yàn)的顯著性P=0.000,小于0.001,證明數(shù)據(jù)可以進(jìn)行主成分分析。KMO取樣適切性量數(shù)為0.827,大于0.8,證明此次主成分分析具有較好的實(shí)用性。PCA結(jié)果如表9所示。
表9 各成分的特征值和方差貢獻(xiàn)率及累積方差貢獻(xiàn)率
表11 主成分特征向量
表10 因子載荷矩陣
(10)
(11)
續(xù)表10
使用多元線性回歸分析方法,研究第一主成分值和第二主成分值與手機(jī)評論差評率的關(guān)系。計(jì)算第一主成分值和第二主成分值,結(jié)果如表12所示。
表12 主成分值和評論差評率
隨機(jī)抽取表12中2/3的數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù),其余1/3的數(shù)據(jù)作為驗(yàn)證集數(shù)據(jù)。將評論差評率作為因變量,主成分值作為自變量,利用SPSS對訓(xùn)練數(shù)據(jù)進(jìn)行多元線性回歸分析,得到手機(jī)產(chǎn)品差評率多元線性回歸方程
(12)
對多元線性回歸方程進(jìn)行擬合優(yōu)度檢驗(yàn),回歸方程與訓(xùn)練集數(shù)據(jù)的擬合優(yōu)度R2=0.537,說明所得多元線性回歸方程與訓(xùn)練集數(shù)據(jù)的吻合度較好,證明該模型有較好的數(shù)據(jù)擬合作用。對多元線性回歸方程進(jìn)行整體回歸效應(yīng)顯著性檢驗(yàn),P=0.017,小于0.05,證明該多元線性回歸方程具有較好的統(tǒng)計(jì)學(xué)意義。
通過式(12)計(jì)算驗(yàn)證集中20款手機(jī)的差評率預(yù)測值,差評率的預(yù)測值和實(shí)際值及兩者的誤差比例如表13所示。
表13 差評率的預(yù)測值和實(shí)際值及兩者的誤差比例
可以看出,手機(jī)在線評論差評率的預(yù)測值和實(shí)際值差別較小,平均誤差為9.9%,說明基于手機(jī)評價(jià)指標(biāo)建立的多元線性回歸方程哪個較好地預(yù)測手機(jī)用戶在線評論的差評率,從而證明手機(jī)評價(jià)指標(biāo)體系的準(zhǔn)確性,進(jìn)而驗(yàn)證了本文方法的有效性。
日益激烈的市場競爭環(huán)境和不斷變化的用戶需求使得產(chǎn)品設(shè)計(jì)更新速度加快、周期縮短,如何快速找到產(chǎn)品改進(jìn)策略是目前產(chǎn)品設(shè)計(jì)更新的重點(diǎn)。本文基于手機(jī)評論大數(shù)據(jù),結(jié)合文本挖掘和情感分析,建立手機(jī)評價(jià)指標(biāo)體系來快速獲得用戶反饋。通過分析總體手機(jī)和各類手機(jī)評論數(shù)據(jù),了解市場上手機(jī)的具體情況;通過分析具體型號的手機(jī)評論數(shù)據(jù)(本文以iPhone X為例),根據(jù)手機(jī)評價(jià)指標(biāo)得分找到手機(jī)的具體改進(jìn)方向,并結(jié)合觀點(diǎn)挖掘到用戶不滿意的點(diǎn),進(jìn)而確定對應(yīng)的改進(jìn)策略。由于京東的在線評論反扒機(jī)制限制了用戶在線評論的爬取數(shù)量,導(dǎo)致評論數(shù)據(jù)仍不夠大。下一步工作將在擴(kuò)大評論數(shù)據(jù)的基礎(chǔ)上,研究產(chǎn)品屬性指標(biāo)與產(chǎn)品銷量排名等的關(guān)系模型,從而預(yù)測銷售數(shù)據(jù)。