陳 璐 趙 衍 尚珊珊
(1.上海外國語大學國際工商管理學院,上?!?01620;2.上海外國語大學信息技術(shù)中心,上海外國語大學電子政務(wù)國際化研究中心,上?!?00083)
基于加權(quán)詞頻的I-Match算法改進及其應(yīng)用分析
——以電商網(wǎng)站為例
陳璐1趙衍2尚珊珊1
(1.上海外國語大學國際工商管理學院,上海201620;2.上海外國語大學信息技術(shù)中心,上海外國語大學電子政務(wù)國際化研究中心,上海200083)
介紹網(wǎng)絡(luò)產(chǎn)品重復(fù)評論研究現(xiàn)狀;基于I-Match算法,提出一種基于TF詞頻的重復(fù)評論的改進算法;將該算法對某電子商務(wù)網(wǎng)站的產(chǎn)品評論進行重復(fù)性檢測,獲得了較理想的效果。
網(wǎng)絡(luò)評論;重復(fù)評論檢測;I-Match算法;詞頻;評論傾向
對文本內(nèi)容重復(fù)性自動檢測技術(shù)的研究最早開始于20世紀90年代。從算法的角度可以將文本內(nèi)容重復(fù)性檢測技術(shù)分為基于語法和基于語義兩大類。
1.1基于語法的文本重復(fù)性檢測
1.2基于語義的文本重復(fù)性檢測
2.1I-Match算法原理
使用I-Match算法對網(wǎng)絡(luò)產(chǎn)品評論進行重復(fù)性檢測的過程如圖1。
圖1 I-Match改進算法流程圖
2.2I-Match的改進算法
盡管I-Match算法能夠較高準確率的進行識別重復(fù)評論檢測但檢測過于籠統(tǒng)存在一定的誤判率。根據(jù)網(wǎng)絡(luò)產(chǎn)品無價值評論的特點對重復(fù)評論進行進一步信息挖掘識別評論是否為無意義評論、自我吹噓評論或者惡意貶低評論。
采用人工或者機器學習的方式建立和維護三種類型詞庫:無意義評論詞庫、褒揚評論詞庫和貶低評論詞庫。并根據(jù)單詞的慣用程度對每一類型單詞進行分級并為每一級設(shè)置權(quán)重。本文使用的詞庫如下:
表1 無意義評論詞庫
表2 褒揚評論詞庫
表3 貶低評論詞庫
改進算法的處理過程如下:
(1)采用I-Match算法識別所有重復(fù)的產(chǎn)品評論;
(2)計算每一條評論中單詞出現(xiàn)的頻率:
(其中ni,j表示該詞i在評論j中出現(xiàn)的次數(shù)表示所有詞出現(xiàn)的次數(shù)之和)
(其中Qijk表示評論j中單詞i的k類型傾向權(quán)值wik為單詞i在詞庫k中的權(quán)重)
(其中Qjk為文檔j的k類型評論傾向權(quán)值)
(5)取三種類型評論集合的非交集的非交集為真正沒有價值的產(chǎn)品評論。
本文針對國內(nèi)某電子商務(wù)網(wǎng)站中目前熱銷的iphone6s64G相關(guān)評論(截止時間2015年10月21日10:57數(shù)據(jù))運用改進的I-match算法對評論進行重復(fù)性檢測研究。處理過程如下:
表4 產(chǎn)品評論部分截圖
表5 選取的研究對象以及評論表
(2)運用中科院ICTCLAS開源[12]中文分詞算法對評論進行分詞形成評論的單詞集合。
表6 部分詞的IDF值以及按降序排列表
表7 部分評論的特征詞典
表8 部分重復(fù)評論的三種權(quán)值列表
表9 iPhone6s 64G無意義、褒揚和貶低重復(fù)評論數(shù)
表10 查全率和查準率分析
本文主要針對電商網(wǎng)站網(wǎng)絡(luò)產(chǎn)品的重復(fù)評論識別進行研究。將廣泛使用的I-Match算法應(yīng)用到網(wǎng)絡(luò)產(chǎn)品評論的重復(fù)性檢測。并針對網(wǎng)絡(luò)評論的特點基于三種類型的詞庫對I-Match重復(fù)性檢測結(jié)果進行評論的傾向性識別。改進后的I-Match算法提高了檢測結(jié)果的準確性降低了誤判率。
[1]Manber U.Finding similar files in a large file system[C],Proceedings of the Winter USENIX Conference1994:1-10.
[3]Heintze N.Scalable document fingerprinting[C], Proceedings of the2nd USENIX Workshop on Electronic Commerce.1996.
[9]Garcia-Molina HGravano LShivakumar N.dSCAM:Finding document copies across multiple databases[C/OL]. Proceedings of the4th International Conference on Parallel and Distributed Systems(PDIS'96).1996.
[11]Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma.Detecting Near-Duplicates for Web Crawling[C].www2007Track:Data Mining.2007
The Improved I-Match Algorithm based on the Analysis of Weighted Word Frequency and Its Application in the Electronic Commerce Website
Chen LuZhao YanShang Shanshan
Study the recent status of network product duplication.Based on the I-Match Algorithm,proposing an improved algorithm based on weighted word frequency.At last, this improved algorithm is applied into the detecting of a certain electronic commerce website and gets a good result.
network review; detection of repeated comments; the I-Match algorithm;weighted word frequency;comment tendency
TP391
A
1005-9679(2016)01-0051-04
本研究得到2013年上海市哲學社會科學規(guī)劃課題(編號:2013ETQ001)、上海市教育委員會2014年科研創(chuàng)新項目(編號:14ZS070)、上海外國語大學“2013教學科研團隊”項目、上海外國語大學“2014青年教師創(chuàng)新團隊”項目(編號:QJTD14ZY001)、上海外國語大學高層次人才發(fā)展計劃(編號:KX171260)資助。
陳璐上海外國語大學信息管理與信息系統(tǒng)專業(yè)本科生; 趙衍上海外國語大學信息技術(shù)中心上海外國語大學電子政務(wù)國際化研究中心副教授博士;尚珊珊上海外國語大學國際工商管理學院講師博士。