張鳳偉 ,曹國忠 ,劉 帥 ,朱玉寧
(1.河北工業(yè)大學,天津 300401;2.國家技術創(chuàng)新方法與實施工具工程技術研究中心,天津 300130)
隨著移動互聯(lián)網(wǎng)、大數(shù)據(jù)、物聯(lián)網(wǎng)的迅猛發(fā)展以及消費意識的增強,用戶需求呈現(xiàn)時效性強、復雜多變的特點。能否全面、準確預測用戶需求,從而得到產(chǎn)品創(chuàng)新設計的突破點,是產(chǎn)品研發(fā)成功的關鍵。消費者通過電子商務、社交網(wǎng)絡等平臺,發(fā)表對產(chǎn)品功能、性能等方面的真實感受,不僅是潛在消費者的重要信息資源,同時也為產(chǎn)品制造商帶來新的機遇。挖掘客戶表達觀點獲取用戶需求,數(shù)據(jù)真實性高,對提高用戶滿意度和產(chǎn)品競爭力具有較高的研究價值[1-3]。
目前關于產(chǎn)品評論挖掘的研究主要是產(chǎn)品特征抽取和情感分析。文獻[4]提出應用Apriori 關聯(lián)規(guī)則挖掘算法從由名詞和名詞短語構成的文件中挖掘頻繁項,并通過“冗余修剪”作為產(chǎn)品特征。但是中文結構與英文有所不同,英文的挖掘算法不能直接應用于中文文本的挖掘。對此,文獻[5]研究了針對中文評論挖掘算法,實現(xiàn)中文產(chǎn)品特征的自動提取。在結合Web 產(chǎn)品數(shù)據(jù)挖掘用戶需求方面,文獻[6]提出了基于群體多粒度語義信息的顧客需求優(yōu)先度確定方法,該方法主要是結合專家意見和市場競爭確定需求優(yōu)先度,具有一定的主觀性,數(shù)據(jù)源具有極大的局限性,導致需求信息獲取不全面。文獻[7]利用大數(shù)據(jù)分析、了解用戶需求,提高分析用戶需求的效率。文獻[8]根據(jù)產(chǎn)品設計知識庫提供的信息等數(shù)據(jù),定性判定產(chǎn)品技術成熟度和市場生命周期階段,以此做出產(chǎn)品相關于預測。文獻[9]將特征選擇技術應用于顧客需求識別和基本重要度確定研究,同時獲取顧客需求的Kano 屬性。采用加權算術平均法整合顧客需求基本重要度和調整后的競爭性重要度,確定顧客需求的最終重要度。雖然,基于Web 數(shù)據(jù)用戶需求獲取方法的研究已取得一定的成果,但仍存在以下幾個方面的問題[3-11]:
(1)獲取的用戶需求依然存在不全面、模糊性、抽象性等問題,且對用戶隱性需求預測方法不夠完善。
(2)缺乏針對產(chǎn)品功能、外觀等不同方面用戶需求分類及權重的確定方法。
(3)根據(jù)馬斯洛需求層次分析用戶需求等級主觀性較強,缺乏客觀評價依據(jù),且未能客觀分析各需求層次貢獻較大的用戶需求。
針對上述問題,采用SAS 軟件利用自然語言處理技術(NLP)以及數(shù)據(jù)挖掘技術,從Web 評論數(shù)據(jù)和專利知識挖兩個方面,深入探究用用戶需求獲取和預測方法。該方法能有效解決用戶需求獲取和預測不全面,主觀性強等問題,以期對產(chǎn)品創(chuàng)新設計的前期研究方面做出有意義的探索。
2.1.1 Web 評論數(shù)據(jù)采集
網(wǎng)絡評論已成為用戶表達觀點的主要方式,消費者通過在線評論把產(chǎn)品的隱性知識轉化為文字形式的顯性知識。從中挖掘用戶真實需求,有助于提高用戶滿意度,增強產(chǎn)品市場競爭力。
網(wǎng)絡信息資源極為豐富,涵蓋了各個領域,內(nèi)容呈現(xiàn)方式多種多樣,從中獲取有效信息是挖掘用戶需求的關鍵。因此,企業(yè)應整合、分析內(nèi)部和外部資源,明確研究目標,確定出市場需求的目標產(chǎn)品,有針對性的進行信息檢索,避免數(shù)據(jù)冗雜。根據(jù)目標產(chǎn)品,對比相關數(shù)據(jù)源如社交網(wǎng)絡、購物平臺等產(chǎn)品評論數(shù)據(jù),分析其有效性,選擇價值較高的數(shù)據(jù)源作為待研究的主要內(nèi)容。
利用爬蟲技術爬取目標數(shù)據(jù)源中用戶評論數(shù)據(jù),將初始數(shù)據(jù)以一定的格式保存到目標數(shù)據(jù)庫中,完成基于Web 數(shù)據(jù)相關產(chǎn)品用戶需求信息全面、有效的采集。利用產(chǎn)品評論特征提取技術,獲取用戶顯性需求。該方法較之問卷調查、用戶訪談等傳統(tǒng)方法,具有信息豐富、時效性強、真實性高等特點,具有較高的研究價值。
2.1.2 基于特征提取技術獲取關鍵用戶顯性需求
由于產(chǎn)品評論中包含大量與產(chǎn)品特征無關的詞語,影響數(shù)據(jù)質量。因此,首先通過對產(chǎn)品評論文本結構的研究,在哈工大停用詞表的基礎上構建關于產(chǎn)品評論的網(wǎng)絡停用詞表,用于去除冗余特征。利用模塊化、集成化的大型統(tǒng)計分析軟件SAS,結合網(wǎng)絡停用詞表,利用算法從非結構化產(chǎn)品評論中獲取洞察,挖掘用戶需求,為新產(chǎn)品的設計提供靈感。然后,基于特征提取技術利用SAS 軟件挖掘Web 評論數(shù)據(jù),獲取關鍵用戶顯性需求。具體過程為:
(1)文本分詞。
采用自然語言處理技術(NLP)對數(shù)據(jù)庫中評論數(shù)據(jù)進行分詞,將結果以SAS 能夠識別的文本格式(如編碼為UTF-8 的TXT文本格式)保存。
(2)數(shù)據(jù)轉換。
將分詞后的評論語句進行變量轉化,即將以句子為單位轉換為以詞或短語為單位。將分詞后的評論語句進行變量轉化,并去除數(shù)據(jù)集中“的”、“了”“贊贊”等詞。對由于分詞誤分的詞語,如“操控”誤分為“操#控”,“爬坡能力”誤分為“爬坡#能力”等,通過詞語共現(xiàn)算法進行詞語整合,避免關鍵用戶需求遺失,提高用戶需求獲取的準確度。
(3)去停用詞及產(chǎn)品特征顯性化處理。
基于構建的網(wǎng)絡停用詞表以及詞語共現(xiàn)算法得出產(chǎn)品特征關鍵詞,同時進行詞頻統(tǒng)計并設置閾值去除低頻產(chǎn)品特征,通過產(chǎn)品隱性特征的顯性化處理得出產(chǎn)品特征集T1。
(4)產(chǎn)品特征集有效性判斷。
判斷用戶顯性需求集T1是否達到獲取目標產(chǎn)品要求,如果不滿足對初始數(shù)據(jù)進行重新選擇,按照上述步驟重新獲取目標產(chǎn)品特征集,直至獲得滿足目標產(chǎn)品需要的產(chǎn)品特征集T。
(5)用戶顯性需求轉化。
通過產(chǎn)品特征與用戶需求之間的映射關系,即通過需求的有效拆分和整合,如“回頭率”其隱含對產(chǎn)品“外觀”這一需求,需借助人工對隱性表達進行分析判斷,使用戶需求顯性化。此外,有些并不是最優(yōu)表述,如“輕便”一詞,是“車身重量”和“車體尺寸”兩個方面需求的簡約表達,又如“電池耐用”,“備用電池”等,是對同一需求的不同表述。得出用戶顯性需求集,并對用戶需求進行歸約處理,得出最優(yōu)化的用戶需求集RC1。
基于特征提取技術獲取關鍵用戶顯性需求的模型,如圖1所示。
為挖掘用戶顯性需求潛在有用知識和規(guī)則,增強對用戶顯性需求客觀現(xiàn)實的認識。
首先,利用SAS/EM 模塊中VARCLUS 過程,依據(jù)SEMMA方法,即數(shù)據(jù)抽樣(S)、數(shù)據(jù)探索(E)、數(shù)據(jù)修正(M)、建模(M)、模型評估(A),通過工作流方式,連接所需節(jié)點,對需求集RC1進行變量聚類分析,增強對用戶需求客觀現(xiàn)實的認識。
然后,將馬斯洛需求層次作為聚類結果的潛在變量,分析用戶需求滿足等級。由于其是通過人為劃分,主觀性較強。為了解決這一問題,依據(jù)聚類結果與馬斯洛需求層次的對應關系,構建馬斯洛需求層次SEM 路徑圖,依據(jù)測量模型公式(1),利用SAS 中CALIS 過程驗證其合理性。
式中:Xi—用戶顯性需求組成的向量;fi—馬斯洛需求層次向量;ei—Xi的測量誤差向量;ei—Xi對 fi的因子載荷矩陣。
通過分析結果中擬合指數(shù),如CFI、AGFI 等衡量模型的擬合程度。如果模型擬合度較差,對路徑圖進行調整后再進行分析,以達到理想效果。
圖1 基于Web 評論數(shù)據(jù)用戶顯性需求獲取模型Fig.1 User Explicit Requirement Acquisition Model Based on Web Review Data
最后,根據(jù)標準因子載荷的相對大小確定用戶需求權重,以此分析各級需求層次中貢獻較大的用戶需求。比如在社交需求層次中用戶需求是“藍牙音樂、充電方式、電池容量”等,如果“藍牙音樂”的因子載荷相對于其他項較大,說明“藍牙音樂”對“社交需求”的度量最好,在滿足用戶社交需求時,應重點考慮。根據(jù)上述分析結果構建用戶顯性需求等級表。以此分析用戶顯性需求客觀性強,具有較大參考價值。
專利是產(chǎn)品創(chuàng)新的重要知識資源,知識單元是專利信息內(nèi)容的高度概括,準確提取專利知識單元并進行深入研究,對挖掘用戶隱性需求具有重要意義。
首先,選擇目標專利庫,以用戶需求等級表中的用戶顯性需求或相近表述為關鍵詞檢索相關專利,建立以專利數(shù)據(jù)集為目標文本的背景知識庫,依據(jù)顯性需求獲取方法提取專利知識單元。
然后,由于其對用戶需求的表述并不直接,因此針對專利知識單元,采用多階段提取方法,結合用戶顯性需求等級表,分析用戶需求進化趨勢。即將專利技術轉變?yōu)楣δ苄枨?,功能需求轉變?yōu)樵O計需求,設計需求轉變?yōu)橛脩綦[性需求,如圖2 所示。
最后,通過需求歸約處理,得出用戶隱性需求集RC2。合并顯性需求集RC1和隱性需求集RC2,得出用戶需求集RC,即RC=RC1∪RC2。
圖2 基于專利知識的用戶需求提取的轉變過程Fig.2 Transformation Process of User Requirement Extraction Based on Patent Knowledge
人的需求是由低級向高級逐步進化的,對于產(chǎn)品的需求也是由低級向高級逐步衍化的過程,依據(jù)馬斯洛需求層次理論的這一特性,可衍生出新的需求進而指導產(chǎn)品設計。Petrov 定義了五條需求進化定律,給出了需求的進化以及產(chǎn)品創(chuàng)新的設計方向,所以根據(jù)需求進化方向把握用戶需求的變化,預測用戶新需求。依據(jù)上述理論以及對用戶顯性需求的的分析研究,提出一種基于馬斯洛需求層次理論和需求進化定律相結合的需求預測模型,如圖3 所示。例如,對于平衡車的結構設計而言,平衡車把手在馬斯洛需求層次中屬于生理需求,依據(jù)需求進化定律中需求進化動態(tài)化,即需求在時間、空間結構、條件等的變化趨勢。我們可以得到以下假設,平衡車的扶手結構可以滿足用戶對多種行駛姿態(tài)的需求,扶手高度設計可以依據(jù)不同人群的身高、喜好等進行調解。
Kano 模型將用戶需求分為基本需求、期望需求和興奮需求。Kano 模型表明,用戶對產(chǎn)品的期望不斷變化,且會越來越高,因此企業(yè)在滿足用戶基本需求和期望需求的基礎上盡可能滿足用戶的興奮需求。為了使用戶需求在產(chǎn)品功能、性能和外觀方面的重要程度更加具體化,將中的用戶需求依據(jù)Kano 屬性從產(chǎn)品功能、性能以及外觀三個方面對進行分類。最終形成用戶需求任務書,供設計人員參考。
圖3 基于馬斯洛需求層次理論和需求進化定律的需求預測模型Fig.3 A Demand Prediction Model Based on Maslow’s Demand Level Theory and Demand Evolution Law
通過對上述關鍵技術內(nèi)容研究,提出用戶需求獲取及預測模型,如圖4 所示。
圖4 用戶需求獲取及預測模型Fig.4 User Requirement Acquisition and Prediction Model
步驟如下:
(1)確定目標產(chǎn)品,對比各網(wǎng)絡平臺產(chǎn)品評論數(shù)據(jù)的有效性,選擇目標數(shù)據(jù)源并采集評論數(shù)據(jù)。
(2)基于特征提取技術和網(wǎng)絡停用詞表,利用SAS 軟件挖掘Web 評論數(shù)據(jù),通過產(chǎn)品特征與用戶需求之間的映射關系獲取關鍵用戶顯性需求。
(3)對用戶顯性需求進行變量聚類分析,將聚類結果與馬斯洛需求層次對應,應用結構方程模型(SEM)分析顯性需求等級并計算顯性需求權重。
(4)基于用戶顯性需求和專利知識挖掘用戶隱性需求,通過顯性需求和隱性需求歸約處理,得出用戶需求。
(5)依據(jù)Kano 屬性從產(chǎn)品功能、性能以及外觀三個方面對進行分類。根據(jù)需求進化定律預測需求進化方向,形成用戶需求任務書。
隨著人們環(huán)保意識的加強,交通擁堵日趨加劇,智能平衡車因其操作方便、時尚、低碳環(huán)保等優(yōu)點,成為城市代步的理想首選。
根據(jù)(1),通過市場調研、網(wǎng)絡信息采集、產(chǎn)品分析等資源的整合,確定目標產(chǎn)品為:兒童用雙輪智能平衡車。通過對比數(shù)據(jù)源選擇京東網(wǎng)絡購物平臺作為主要數(shù)據(jù)源。
選擇評論條數(shù)在1500 條之上的12 款產(chǎn)品,總共抓取評論46200 條,將其以.xls 格式保存在目標數(shù)據(jù)庫中。采用中科院的中文分析系統(tǒng)NLPIR 進行文本分詞,以編碼為UTF-8 的TXT 格式保存在目標數(shù)據(jù)庫中。根據(jù)步驟2 對數(shù)據(jù)進行分析,部分程序,如圖5 所示。
圖5 SAS 數(shù)據(jù)分析部分程序(部分)Fig.5 SAS Data Analysis Part Program(Part)
通過產(chǎn)品特征有效性判斷得到T={安裝方便,車身重,顛簸,外觀風格,輪胎,失控,維修方便,顏色,馬力,保護,行駛速度,電池耐用,感應靈敏,輪子,時速調解,上坡有力,車子樣式,雜音,車型,電動強度,好學,耐磨損,提拿手柄,續(xù)航久,樣子,噪聲,播放音樂,車子沉,電力強,耗電,結實耐用,速度,簡單易學,遙控器,行駛噪音,材料,車體尺寸,電量,黑色,容易控制,塑料,藍牙音樂,易學,造型,材質,充電方式,抖動,車型小,強勁有力,音樂,震動,彩燈,反應靈敏,車體厚實,輕便,提速快,提速慢,樣式,音量,質感,操控方便,外觀大氣,防凍,款式,操作簡單,外觀大小,防水,行駛里程,外觀,做工,車燈漂亮,上檔次,外殼結實,音質,炫,車輪,燈光漂亮,粉色,酷}。
通過需求轉化及歸約處理得出用戶顯性需求集RC1={藍牙音樂,車身重量,故障維修,電池容量,充電方式,顏色,舒適度,便攜性,顯示屏,動力強度,簡單易學,提拿手柄,操控性,智能性,車燈,材質,噪音,越障能力,防泥水,安全性,靈敏度,車體造型,車速,穩(wěn)定性,質感,防盜裝置}。根據(jù)(3),本例中變量源選擇協(xié)方差,點擊運行。可在結果中通過聚類圖,如圖6 所示。查看聚類情況,根據(jù)聚類結果整理出用戶顯性需求聚類表,其中X1表示顯性需求,如表1 所示。由表1 可以得出處于生理需求等級的需求居多,主要原因是平衡車處于產(chǎn)品的成長期。從結果看出用戶需求聚為五類,分析五類結果可分別歸為馬斯洛需求層次,構建需求層次結構方程模型路徑。利用SAS 中CALIS 過程驗證該路徑圖的合理性,CALIS 部分程序,如圖7 所示。運行之后輸出分析結果,其中 GFI 值是 0.9384,AGFI 值是0.9236,說明模型具有較好的擬合效果。決定系數(shù)R2是度量觀測變量可靠性的指標,結果數(shù)據(jù)表明R2結果表明每個方程可靠性均較高。
圖6 顯性需求聚類圖Fig.6 Dominant Demand Cluster Graph
表1 用戶顯性需求聚類表Tab.1 User Dominant Demand Clustering Table
圖7 CALIS 過程程序(部分)Fig.7 CALIS Process Program(Part)
根據(jù)顯性需求與需求層次之間的關系方程,可以判斷馬斯洛需求層次中用戶需求權重,并構建顯性需求等級,如表2 所示。
表2 用戶顯性需求等級表Tab.2 User Explicit Requirement Hierarchy
表3 產(chǎn)品設計用戶需求任務書Tab.3 Product Design User Requirements Task Book
根據(jù)(4),以patsnap 為目標專利庫,以表1 中用戶需求為關鍵詞進行專利檢索。以“X22”為例,在patsnap 檢索欄中輸入“平衡車”,以“造型”“外觀”等為篩選關鍵詞,整理出重要專利1078條,將其保存在目標產(chǎn)品專利數(shù)據(jù)庫中。通過提到的用戶顯性需求獲取方法,得出外觀知識單元為“越野型”,“卡通造型”,“休閑娛樂”等。以同樣方法獲取所需專利知識單元。并根據(jù)圖2 結合需求等級表預測用戶需求。合并用戶顯性需求和隱性需求,并進行歸約處理,得出用戶需求。根據(jù)(5),結合Kano 屬性,對平衡車功能、性能和外觀三個方面調整用戶需求分類。分析需求進化趨勢,依據(jù)需求進化定律給出需求進化方向。根據(jù)以上分析,最終確定用戶需求,如表3 所示。
用戶需求預測是產(chǎn)品設計的首要環(huán)節(jié)也是最重要環(huán)節(jié)。Web評論數(shù)據(jù)和專利知識蘊含著豐富的用戶需求信息,形式雖有不同,但同是產(chǎn)品創(chuàng)新設計重要的數(shù)據(jù)資源?;赪eb 評論數(shù)據(jù)和專利知識統(tǒng)計分析的用戶需求預測方法,具有能全面、及時的獲取用戶顯性需求,又能從大量的專利知識信息中有效的挖掘用戶隱性需求。同時該方法對用戶需求等級的劃分及需求權重的確定,客觀性強,避免了人為、環(huán)境等因素的影響,消除了傳統(tǒng)需求獲取方法對用戶需求獲取不全面、不及時、不準確的弊端。雙輪平衡車需求獲取及預測實例表明,該方法有利于針對Web 評論數(shù)據(jù)和專利知識用戶需求的有效提取和準確預測,具有較強的實用性和有效性。