• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于網(wǎng)絡評論小樣本數(shù)據(jù)的群體情緒量化方法

    2022-12-23 03:14:16龔莉萍劉漢濤李文藻
    物聯(lián)網(wǎng)技術 2022年12期
    關鍵詞:標點符號聚類群體

    王,龔莉萍,劉漢濤,李文藻,3

    (1.四川省教育信息化與大數(shù)據(jù)中心,四川 成都 610000;2.成都體育學院,四川 成都 610000;3.成都信息工程大學,四川 成都 610000)

    0 引 言

    在新一代通信技術的高速發(fā)展下,評論參與、評論轉(zhuǎn)發(fā)或者信息報道更加簡便[1]。而在網(wǎng)絡購物已經(jīng)成為生活常態(tài)的今天,用戶對于商品的感受評論以及改進建議對商品發(fā)展具有強大的推動作用,甚至決定著商品的研發(fā)方向。商家從大量褒貶不一、非結構化的評論中準確獲知用戶群體對商品的態(tài)度和意見,對產(chǎn)品改進及經(jīng)營決策至關重要。特別是在用戶追求商品質(zhì)量的相關領域,比如更新?lián)Q代快的智能產(chǎn)品領域,網(wǎng)絡評論關注群體多、用戶參與感強、媒體關注度高等特征明顯。這些特征會使網(wǎng)絡評論的用戶群體情緒認同感強,事后處理成本高,擴散和影響持續(xù)周期長,商品的研發(fā)或者經(jīng)營可能遭受損失。

    目前,國內(nèi)外學者對用戶群體評論情緒的分析主要通過機器學習[2]、情感詞提取[3]等方法,圍繞用戶體驗感知、用戶情感等視角展開多范疇研究。雖然出現(xiàn)了基于人工智能等方式的網(wǎng)絡評論群體情緒監(jiān)測分析技術[4],但基于神經(jīng)網(wǎng)絡的網(wǎng)絡評論群體情緒分析存在兩方面的挑戰(zhàn),首先,由于語義理解的偏差,對評論中的信息理解感知結果相對較差;其次,采用基于神經(jīng)網(wǎng)絡的方式時需要大量商品評論數(shù)據(jù)作為神經(jīng)網(wǎng)絡的訓練樣本。而通過情感詞提取的方法識別群體情緒時,情感分析的結果好壞對情感詞的構建是否完善依賴程度高。

    基于以上研究方式的一些不足之處,筆者提出了一種基于網(wǎng)絡評論小樣本數(shù)據(jù)的群體情緒量化方法,通過k-means聚類算法對數(shù)據(jù)進行分類。該方法在網(wǎng)絡評論群體情緒出現(xiàn)初期,僅有少量樣本數(shù)據(jù)的條件下,對網(wǎng)絡評論的群體情緒進行識別分析。k-means聚類算法因為其較好的穩(wěn)定性和聚類效果,也被廣泛用于文本挖掘[5]、風險評估[6]等各項研究,也有學者將之用于基于文本挖掘的網(wǎng)絡評論情緒分類研究[7]。

    1 評論量化模型與評論群體情緒分析算法

    網(wǎng)絡商品評論的生態(tài)環(huán)境具有復雜性特征,網(wǎng)民的評論數(shù)據(jù)往往也包含如時間維度、情感及關注程度等方面的信息。聚類分析是群體情緒分析中獲取群體情緒特征的主要手段。通過聚類后的結果分析我們可以發(fā)現(xiàn)一些潛在的隱性知識[5],客觀揭示了研究對象間的相似程度,從而發(fā)現(xiàn)隱含的客觀規(guī)律[6]。傳統(tǒng)的文本建模方法是基于詞空間的建模方法,一方面,這種建模方法語義識別困難,存在一詞多義(多義詞)和多詞一義(同義詞)的問題;另一方面,隨著語料庫規(guī)模的增加,基于詞空間的建模方法會面臨維數(shù)過高、數(shù)據(jù)稀疏等問題[7]。此外,各種商品評論本身一般含有較多的專業(yè)名詞,進行對比分析存在一定難度。因此,筆者決定采用客觀的評論字數(shù)及帶有明顯情緒的標點符號(如“!”“?”等)作為評論的特征數(shù)據(jù),構建網(wǎng)絡評論群體情緒分析算法,既規(guī)避語義識別、語料庫規(guī)模增加的問題,同時又促進評論的群體情緒自動化定位。在提出的算法中,表情符號和標點符號都屬于情緒因子:在網(wǎng)絡交流過程中,表情符號非常流行,它以簡單圖形或彩色圖像甚至動畫等表情達意,通俗易懂,與語言中的體態(tài)語相類似,形成了一種顯式的、固定的情緒表達方式;標點符號在網(wǎng)絡評論群體情緒分析中同樣起到關鍵作用,標點符號的使用會導致評論表達情緒出現(xiàn)差別,也是理解和判斷網(wǎng)絡評論表達情緒的重要手段[8]?;诰W(wǎng)絡評論小樣本數(shù)據(jù)的群體情緒量化流程如圖1所示。

    圖1 基于網(wǎng)絡評論小樣本數(shù)據(jù)的群體情緒量化流程

    針對商品對象網(wǎng)絡評論群體情緒的量化分為數(shù)據(jù)預處理與評論群體情緒量化算法兩部分。第一階段為數(shù)據(jù)預處理階段,該階段需要通過一種量化模型,對所有的評論數(shù)據(jù)進行客觀量化處理。本模型選擇評論字數(shù)因子γ,情緒ε作為評論數(shù)據(jù)的特征因子[9]。

    在評論數(shù)據(jù)樣本集?中,對γ進行歸一化處理。這里采取最小-最大規(guī)范化實現(xiàn)線性變換,使得γ∈(0,1]。

    式中:γi為評論數(shù)據(jù)i的字數(shù);max(γ?)為取樣評論數(shù)據(jù)集中的數(shù)據(jù)最大值。通過公式(1)可以將評論數(shù)據(jù)的字數(shù)信息量化映射至對應區(qū)間。

    情緒因子ε因為樣本數(shù)量不多,采取人工辨別的方式對評論表現(xiàn)的情緒進行判定。如“!”在負面評論中常用于突出強調(diào)不滿情緒;而“?”表示疑問語氣,常用于質(zhì)疑和懷疑;按照網(wǎng)絡評論常用的消極表情(如“[淚]”“[怒]”“[弱]”等),以及情緒標點符號(如“!”“?”等),將評論表達的情緒分為平緩、較激烈、激烈。情緒判定標準為:小于2個消極表情和情緒標點符號的評論判定為平緩;包含2個消極表情和情緒標點符號的評論判定為較激烈;大于2個消極表情和情緒標點符號的評論判定為激烈。我們經(jīng)過多次實驗及分析推論,將平緩定為0.2(2個以下標點符號),較激烈定為0.5(2個標點符號),激烈定為0.8(3個及以上標點符號)。

    在通過評論字數(shù)因子γ,情緒因子ε的量化后,為每條評論附加了2個維度的特征向量。在特征向量的基礎上,每條評論能夠在二維笛卡爾坐標中表達具體的位置。依據(jù)以上量化方法,每條評論的數(shù)據(jù)將會出現(xiàn)在坐標系中的第一象限。由于評論在一定程度上反映了商品的關注度以及用戶的使用感受,容易在量化后出現(xiàn)聚集特征[10-11]。因此,第二階段中,采用k-means聚類算法對以上量化數(shù)據(jù)進行聚類分析時,有利于統(tǒng)計樣本數(shù)據(jù)中商品受關注程度及用戶群體對商品的感受程度?;谠u論數(shù)據(jù)量化后的k-means聚類算法處理流程如下:

    基于評論數(shù)據(jù)量化后的k-means聚類算法

    (1)隨機選取k個點為初始聚集簇心(樣本點選擇);

    (2)分別計算每個樣本點到k個簇心的距離(D);

    (3)選擇每個點至簇心的最短距離mix(D),歸屬該簇;

    (4)計算每簇的質(zhì)心(平均距離中心),以作為新分簇的簇心;

    (5)迭代步驟(2)~(5),在ω次后退出循環(huán)。

    通過k-means算法處理后,坐標系中量化后的評論數(shù)據(jù)將會歸屬于不同的簇分類。通過聚類算法,我們基本將評論的小樣本數(shù)據(jù)進行了相應分類,使評論數(shù)據(jù)實現(xiàn)聚焦的功能。由于算法特征較好,該類無監(jiān)督學習方法也可用于行為畫像等領域。

    2 實驗結果與分析

    基于以上方法,本文選擇取樣了近期“****小米手機”商品的評論,進行相應實驗及討論分析。我們隨機選取近期新品發(fā)布后短時段內(nèi)用戶的消極評論50條數(shù)據(jù),進行以上算法處理,具體見表1所列。

    表1 “****馬拉松事故”網(wǎng)友評論抽樣事例

    其中,k-means聚類算法中k值選擇為2與3,ω取值1 000,其結果如圖2、圖3所示。

    圖2 k=2時評論數(shù)據(jù)分類

    圖3 k=3時評論數(shù)據(jù)分類

    通過算法結果圖2、圖3可以看到,評論數(shù)據(jù)量化后均分布于坐標系第一象限。我們對量化后評論數(shù)據(jù)進行聚類處理,算法很好地將數(shù)據(jù)進行了分簇。針對圖2中的結果,可以觀察到分類2靠近(0,0)點,分析數(shù)據(jù)后得出分類1數(shù)據(jù)占比為56%,分類2數(shù)據(jù)占比為44%。圖3中k值為3的情況下,分類1占比為26%,分類2占比為38%,分類3占比為36%?;谠u論數(shù)據(jù)的量化方式,我們依據(jù)字數(shù)因子γ、情緒ε可知,一定程度上特征因子的值越大,網(wǎng)絡評論群體情緒擴散的可能性也越大。所以分簇占比中比例靠近(1,1)點的比例,一定程度上能夠反映網(wǎng)絡評論群體情緒擴散的可能性。同時我們觀察到:在實際應用中,簇心K=3相比于K=2時,評論種類劃分更細,但是不一定有利于數(shù)據(jù)分析。在目前取樣的數(shù)據(jù)集中,超過半數(shù)的評論數(shù)據(jù)分簇后劃分在靠近(1,1)點,所以聚類比例可以作為商品網(wǎng)絡評論中用戶群體不滿情緒較大的分析依據(jù)。

    3 結 語

    本文提出了一種網(wǎng)絡評論群體情緒量化模型與采用k-means聚類算法對量化后的網(wǎng)絡評論數(shù)據(jù)進行聚類的方法。該方法在基于網(wǎng)絡評論小樣本數(shù)據(jù)的基礎上進行了完整的實驗,為后期網(wǎng)絡評論群體情緒分析中的機器學習提出了一種新的網(wǎng)絡評論群體情緒量化前置處理方法。量化后的評論數(shù)據(jù)隨著分簇數(shù)量動態(tài)變化,可以實時監(jiān)測評論群體的情緒程度,幫助商家做出相應的經(jīng)營決策,幫助買家了解商品。而對情緒的具體分類比例閾值的確定,本文中沒有詳細研究,這將是未來研究工作中的重點。

    猜你喜歡
    標點符號聚類群體
    通過自然感染獲得群體免疫有多可怕
    科學大眾(2020年10期)2020-07-24 09:14:12
    我們班的“標點符號”
    小讀者(2020年4期)2020-06-16 03:34:06
    “群體失語”需要警惕——“為官不言”也是腐敗
    當代陜西(2019年6期)2019-04-17 05:04:02
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    標點符號爭吵記
    快樂語文(2017年12期)2017-05-09 22:07:56
    標點符號的爭論
    基于改進的遺傳算法的模糊聚類算法
    新人教版《逍遙游》中幾處標點符號誤用例說
    語文知識(2015年9期)2015-02-28 22:01:43
    一種層次初始的聚類個數(shù)自適應的聚類方法研究
    自適應確定K-means算法的聚類數(shù):以遙感圖像聚類為例
    社旗县| 赞皇县| 元氏县| 双辽市| 武乡县| 高淳县| 海南省| 城步| 峨眉山市| 乐都县| 永泰县| 成都市| 通渭县| 贺兰县| 鹿泉市| 比如县| 大方县| 泰兴市| 察哈| 肃宁县| 红安县| 上虞市| 天水市| 萝北县| 聊城市| 高陵县| 沙河市| 枣强县| 梅州市| SHOW| 高州市| 东乌珠穆沁旗| 肇源县| 吉林市| 纳雍县| 木里| 织金县| 灵宝市| 炉霍县| 漠河县| 山丹县|