【中圖分類號】F724.6;F713.55;TP391.1
【文獻標志碼】A
【文章編號】1673-1069(2025)04-0096-03
1引言
近年來,主流電子商務(wù)平臺(如亞馬遜、京東等)普遍引入了產(chǎn)品或服務(wù)的在線評論系統(tǒng),為消費者提供信息分享與獲取渠道。隨著電子商務(wù)平臺上大量在線評論的出現(xiàn),在線評論已經(jīng)成為消費者購買產(chǎn)品或服務(wù)的重要信息來源。當消費者考慮購買產(chǎn)品或服務(wù)時,往往會閱讀相關(guān)產(chǎn)品或服務(wù)的在線評論,以做出最佳購買決定。例如,選擇酒店的消費者會通過閱讀在線評論篩選合適的住宿。然而,海量的在線評論數(shù)量使得消費者難以從中提取關(guān)鍵信息對替代產(chǎn)品進行排序或選擇理想的產(chǎn)品。因此,為支持消費者的購買決策,有必要關(guān)注基于在線評論的數(shù)據(jù)挖掘、信息融合和產(chǎn)品排序的方法和技術(shù)研究。目前,該領(lǐng)域已取得一系列有價值的研究成果。
現(xiàn)有研究表明,多數(shù)基于在線評論的產(chǎn)品排序方法均涉及信息融合過程。該過程可劃分為3個階段:首先,利用數(shù)據(jù)挖掘技術(shù)從在線評論中提取產(chǎn)品特征;其次,采用情感分析方法識別在線評論對每個產(chǎn)品特征的情感傾向和強度;最后,融合情感分析結(jié)果以確定產(chǎn)品排序。本文旨在系統(tǒng)梳理基于在線評論的產(chǎn)品排序信息融合的流程和方法,為相關(guān)研究者提供詳細參考。具體而言,本文首先闡述基于在線評論的產(chǎn)品排序問題定義,繼而對基于在線評論的產(chǎn)品特征提取、情感分析和產(chǎn)品排序的信息融合過程和方法進行了綜述。此外,本文亦簡要探討在線評論信息融合在其他領(lǐng)域的應(yīng)用研究。最后,總結(jié)現(xiàn)有成果并展望未來研究方向。
2基于在線評論進行產(chǎn)品排序的問題描述
在在線購物場景中,消費者通常需要閱讀替代產(chǎn)品的在線評論以了解其特性,進而篩選出最符合自身偏好的商品。然而,在線評論屬于文本數(shù)據(jù),具有模糊和隨機特征,且每個產(chǎn)品的在線評論數(shù)量龐大。這使得消費者難以直接從中精準獲取產(chǎn)品功能信息。此外,消費者需要根據(jù)個人偏好權(quán)衡產(chǎn)品的不同特性。因此,消費者需要融合眾多在線評論的產(chǎn)品特征信息,從備選產(chǎn)品中選出最滿意的產(chǎn)品。為支持該決策過程,需要開發(fā)決策分析工具幫助消費者提取產(chǎn)品特征并進行情感分析,最終通過信息融合得到產(chǎn)品排序結(jié)果4。
解決基于在線評論的產(chǎn)品排序問題需完成以下信息融合處理。
① 產(chǎn)品特征提取:首先利用爬蟲工具(如 Scrapy、BeautifulSoup)獲取文本數(shù)據(jù)形式的在線評論;其次對評論進行預處理(包括分詞、詞性標注及去除停用詞);最后,基于預處理結(jié)果識別并提取與產(chǎn)品特征相關(guān)的詞匯。
② 情感分析:通過基于詞典或機器學習的情感分析方法,識別評論中情感詞的情感取向與強度,進而計算整體情感得分以獲取分析結(jié)果。
③ 替代產(chǎn)品排序:在前兩階段工作的基礎(chǔ)上,通過信息融合技術(shù)確定替代產(chǎn)品的最終排序。
3基于在線評論的產(chǎn)品特征提取
在線購物時,消費者通常依賴在線評論了解產(chǎn)品功能。每個產(chǎn)品都有多個功能,消費者對每個產(chǎn)品的每個功能都有不同的偏好。因此,有必要解決基于在線評論的產(chǎn)品特征提取問題。由于在線評論數(shù)量多,無效信息多,消費者獲取產(chǎn)品特性的效率會降低,從而導致信息過載問題。為此,研究者開發(fā)了多種分析工具以自動化地從評論中提取產(chǎn)品特征。
典型的產(chǎn)品特征提取流程如下:首先,利用網(wǎng)絡(luò)爬蟲(如指定特定網(wǎng)站API或使用通用爬蟲框架)從目標網(wǎng)站抓取在線評論數(shù)據(jù);其次,對評論進行預處理,主要包括分詞與詞性標注(如使用Jieba、NLTK等工具),以及去除停用詞(如\"的”“了\"等高頻無實義詞);最后,從預處理后的文本中識別并提取產(chǎn)品特征。
眾多學者從不同視角強調(diào)了產(chǎn)品特征提取的重要性。Yanetal.指出產(chǎn)品特征提取是在線評論分析的基礎(chǔ)和重要步驟,亟需開發(fā)自動化識別方法。Changetal.認為特征提取技術(shù)可挖掘因信息過載而被掩蓋的信息價值。Quan和 Ren[10] 將產(chǎn)品特征提取視為情感分析的重要基礎(chǔ)和瓶頸,并將其定義為特定領(lǐng)域內(nèi)的實體識別問題。
4在線評論的情感分析
在提取產(chǎn)品特征后,需要通過情感分析識別每條評論對各特征的情感傾向?;诖?,融合情感信息即可確定替代產(chǎn)品的排序結(jié)果。
情緒分析(SentimentAnalysis)起源于20世紀90年代末,旨在通過挖掘文本中的情感內(nèi)容輔助決策者獲取情感信息。Pangetal.最早提出了一種基于整體情感的分類方法。隨后,學者們對情感分析技術(shù)進行了深人研究,使其成為數(shù)據(jù)挖掘和機器學習領(lǐng)域的研究熱點之一?,F(xiàn)有文獻主要將情感分析方法分為兩類:基于詞典的情感分析和基于機器學習的情感分析。前者通常適用于句子級分析,而后者更適用于文檔級分析。
4.1基于詞典的情感分析
基于詞典的情感分析過程如下:首先,根據(jù)研究需要構(gòu)建情感詞典作為種子詞表;其次,結(jié)合統(tǒng)計方法與語義規(guī)則識別句子中的意見詞;再次,將意見詞與種子詞表中的情感詞進行比較,依據(jù)詞語差異、極性(正面/負面)程度副詞等因素加權(quán)計算整句情感得分;最后,根據(jù)得分判定句子的情感傾向(積極、消極或中性)。
依據(jù)情感詞典構(gòu)建方法的不同,可進一步細分為基于詞典的方法和基于語料庫構(gòu)建詞典的方法。
Xuetal.提出了一種基于詞典的情感分析技術(shù)捕捉消費者對產(chǎn)品的情感傾向。Zhangetal.4采用特定策略處理含否定詞的中性句及含程度副詞的修飾詞,識別用戶對各產(chǎn)品功能的情感方向以發(fā)現(xiàn)產(chǎn)品弱點。Liu提出了一種句子層面的情感分析方法。需要指出的是,基于預定義詞典(如HowNet、WordNet情感詞典)構(gòu)建情感詞集相對便捷,故多數(shù)現(xiàn)有研究采用此方法。然而,基于詞典的情感分析方法存在顯著局限:一是難以在特定上下文語境中準確判斷情感詞義,影響分析精度;二是最終詞典多由通用詞匯構(gòu)成,缺乏領(lǐng)域術(shù)語及網(wǎng)絡(luò)口語表達,導致專業(yè)場景下適用性不足。
4.2基于機器學習的情感分析
基于機器學習的情感分析可分為監(jiān)督學習和無監(jiān)督學習兩類。監(jiān)督學習方法可細分為:基于概率模型的分類(如樸素貝葉斯、貝葉斯網(wǎng)絡(luò))基于支持向量機(SVM)的方法、基于決策樹的方法以及基于深度學習的方法(如卷積神經(jīng)網(wǎng)絡(luò)CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN)。其核心思想是將情感分析視為文本分類問題進行處理。
5基于在線評論的產(chǎn)品排序
在產(chǎn)品特征提取與情感分析的基礎(chǔ)上,需進一步融合信息以生成替代產(chǎn)品的排序結(jié)果。其基本流程通常為:首先,基于每條評論對各產(chǎn)品特征的情感分析結(jié)果,通過統(tǒng)計分析(如計算積極/消極評論比例或平均情感得分)確定單產(chǎn)品在單一特征上的情感傾向;其次,聚合各特征情感信息得到產(chǎn)品的整體評價結(jié)果;最后,通過對比分析各產(chǎn)品的綜合評價確定最終排序。
現(xiàn)有文獻中,主流的產(chǎn)品排序信息融合方法主要包括:
基于直覺模糊理論的信息融合方法:Liuetal.提出了一種基于直覺模糊集理論的信息融合方法。在他們的方法中,首先基于在線評論的情感分析確定每個產(chǎn)品特征的直覺模糊數(shù);然后利用IFWA算子融合直覺模糊數(shù)和每個產(chǎn)品涉及多個特征的特征情感權(quán)重;最后,計算出產(chǎn)品的總體直覺模糊數(shù)。Bietal.使用區(qū)間2型模糊數(shù)來表達基于在線評論的情感分析結(jié)果,通過區(qū)間2型模糊數(shù)的聚合得到產(chǎn)品排序結(jié)果。Zhangetal.提出了一種基于在線評論對產(chǎn)品進行排序的擴展TODIM方法。該方法利用直覺模糊集確定產(chǎn)品特征的情感取向和情感強度。
基于加權(quán)有向圖構(gòu)造的信息融合方法:Lietal.構(gòu)建了統(tǒng)一的圖模型來整合產(chǎn)品間的比較關(guān)系。Kongetal.2采用主動直接句/不主動直接句和不主動直接句/不主動間接句的比值來確定兩個相關(guān)產(chǎn)品之間的關(guān)系,并建立加權(quán)圖,融合產(chǎn)品情感特征和產(chǎn)品之間的比較關(guān)系,從而得到產(chǎn)品排序的結(jié)果。
基于猶豫模糊理論的信息融合方法:Zhangetal.[2提出了一種基于猶豫模糊集和情感詞框架的利用在線評論數(shù)據(jù)對產(chǎn)品進行排序的方法。在該方法中,首先通過情感分析獲得每條評論中每個特征的情感得分;其次,利用猶豫模糊集得到各特征的綜合性能;最后,通過對比實驗驗證了所提方法的有效性。
6總結(jié)與展望
近年來,基于在線評論的產(chǎn)品排序方法研究受到廣泛關(guān)注。本文綜述了該領(lǐng)域的最新進展,其核心框架包含3個環(huán)節(jié):產(chǎn)品特征提取、情感分析及產(chǎn)品排序。其中,產(chǎn)品特征提取方法主要有基于規(guī)則的無監(jiān)督方法(如RubE)隱馬爾可夫模型(HMM)、潛狄利克雷分配(LDA)及TF-IDF方法等。情感分析方法主要分為基于詞典和基于機器學習兩大類?;谛畔⑷诤系漠a(chǎn)品排序方法主要包括基于直覺模糊理論、加權(quán)有向圖模型和猶豫模糊理論的方法。
盡管基于在線評論的產(chǎn)品排序與信息融合研究已取得豐碩成果,未來研究仍可在以下方向深化。
① 虛假評論與信息可信度:現(xiàn)有研究多默認評論內(nèi)容真實可信,但實際數(shù)據(jù)中?;祀s虛假與低質(zhì)信息。當前方法在此類數(shù)據(jù)上進行信息融合會顯著降低特征提取、情感分析及排序的準確性。未來亟需開發(fā)針對性技術(shù),例如,融合虛假評論識別的情感分析方法(如利用用戶行為模式、文本一致性特征或基于因果推斷/反事實分析的模型)以區(qū)分真實與虛假情感表達。
② 多源信息融合:除文本評論外,電商平臺還存在在線評分、點贊數(shù)、互動交流信息等多種數(shù)據(jù)源。開發(fā)融合在線評論與其他異構(gòu)數(shù)據(jù)(如評分、社交互動)的信息融合方法與技術(shù),是提升排序效果的重要途徑。
③ 多模態(tài)評論分析:當前部分電商網(wǎng)站支持圖片評論、視頻評論等豐富媒體形式,其信息價值往往高于純文本評論。為更全面支持消費者決策,未來研究需開發(fā)能夠融合文本、圖像及視頻評論的多模態(tài)數(shù)據(jù)挖掘與信息融合技術(shù)。
④ 大語言模型(LLM)的應(yīng)用:大語言模型(如GPT、BERT等)在自然語言理解與生成方面展現(xiàn)出強大能力。探索LLM在端到端產(chǎn)品排序任務(wù)(如聯(lián)合特征提取、細粒度情感分析與排序決策)中的應(yīng)用潛力,是極具前景的前沿方向。LLM有望克服傳統(tǒng)方法在上下文理解、語義連貫性及隱含特征捕捉方面的局限。
⑤ 模型泛化性與魯棒性:當前研究對方法局限性的探討尚顯不足,尤其在模型泛化性(跨領(lǐng)域、跨平臺適應(yīng)性)數(shù)據(jù)稀疏性(冷啟動產(chǎn)品或長尾特征)以及噪聲魯棒性方面。未來需深人分析現(xiàn)有經(jīng)典方法的固有局限(如基于詞典方法對上下文依賴的敏感性、傳統(tǒng)機器學習模型的特征工程依賴、深度模型的解釋性與數(shù)據(jù)需求),并提出更具普適性和魯棒性的解決方案。
【參考文獻】
【1]J.Qi,Z.Zhang,S.Jeon,et al.Mining customer requirements from online reviews:a product improvement perspective[J].Inf.Manage.,2O16(53): 951-963.
【2]尤天慧,張瑾,樊治平.基于情感分析和證據(jù)理論的多屬性在線評 論決策方法[J].系統(tǒng)管理學報,2019,28(3):536-544.
【3]Liu P T F.Probabilistic linguistic TODIM method for selecting products through online product reviews[J].Information Sciences:An International Journal,2019(485):441-455.
【4]Fan,Zhi -Ping,Yang,et al.Supporting the purchase decisionsof consumers:A comprehensive method for selecting desirable online products [J].Kybernetes:The International Journal of Systemsamp; Cybernetics,2018,47(4):689-715.
【5]S.P.Eslami,M.Ghasemaghaei.Efectsof online review positiveness and review score inconsistency on sales:a comparison by product involvement[J].Journal of Retailing and Consumer Services,2O18(45): 74-80.
【6]R.Y.Lau,C.Li,S.S.Liao.Social analytics:learning fuzzy product ontologies foraspect-orientedsentimentanalysis[JDecision Support Systems,2014(65):80-94.
【7]D.Zeng,H.Chen,R.Lusch,et al.Social mediaanalytics and intelligence[J]. IEEE Intell.Syst,2010,25(6):13-16.
【8JZ.Yan,M.Xing,D.Zhang,et al.EXPRS:an extended pagerank method for product feature extraction from onlineconsumer reviews[J].Inf. Manage.,2015,52(7):850-858.
【9]Y.C.Chang,C.H.Ku,C.H.Chen.Social mediaanalytics: extracting and visualizing Hilton hotel ratings and reviews from TripAdvisor[J.Int. J.Inf.Manage.,2019(48):263-279.
【10]C.Quan,F(xiàn).Ren.Unsupervised productfeature extraction forfeatureoriented opinion determination[J].Inf.Sci.,2014(272):16-28.
【11]PangB,LeeL,VaithyanathanS.Thumbsup?Sentiment Classification using Machine Learning Techniques [J].Empirical Methods inNaturalLanguageProcessing,2002:79-86.
【12]TaboadaM,BrookeJ,Tofiloski M,etal.Lexicon-Based Methods for Sentiment Analysis[J].Computational Linguistics,2011,37(2):267-307.
【13]XuK,Liao SS,Li J,et al.Mining comparative opinions from customer reviews for Competitive Intelligence [J].Decision Support Systems,2011,50(4):74-74.
【14]Zhang W,Xu H,Wan W.Weakness Finder:Find product weakness from Chinese reviews by using aspects based sentiment analysis[J]. Expert Systems with Applications,2012,39(11):10283-10291.
【15]Liu B.Sentiment analysisandsubjectivityJ]2010.
【16]Y.Liu,J.W.Bi,Z.P.Fan.Amethodforrankingproductsthrough online reviews based on sentiment classication and interval-valued intuitionistic fuzzy TOPSIS[J].Int.J.Inf.Technol.Decis.Mak.,2017,16 (06):1497-1522.
【17]J.W.Bi,Y.Liu,Z.P.Fan.Representingsentimentanalysisresultsof online reviews using interval type -2 fuzzy numbersand its applicationtoproductranking-ScienceDiret [JJ.Information Sciences,2019(504):293-307.
【18]Zhang D,Li Y,Wu C.An extended TODIM method to rank products with online reviews under intuitionistic fuzzy environment [J].Journal of theOperational Research Society,2019:1-13.
【19]S.Li,Z.J.Zha,Z.Ming.etal.Proceedingsofthe34thinternational ACM SIGIR conference on Researchand developmentin Information Retrieval[J].ACM,2011:1151-1152.
【20]R.Kong,Y.Wang,W.Xin,etal.2O11First International Conference on Instrumentation[J].Measurement,Computer,Communicationand Control,IEEE,2011:449-453.
【21]Zhang D,Wu C,Liu J.Ranking products with online reviews:A novel method based on hesitant fuzzy set and sentiment word framework[J]. Joumal of the Operational Research Society,2019:1-15.