蘇炯銘,劉寶宏,李 琦,馬宏緒
(國防科學技術大學a.機電工程與自動化學院;b.信息系統(tǒng)與管理學院,長沙410073)
基于觀點動力學的在線評分人數(shù)預測
蘇炯銘a,劉寶宏b,李 琦b,馬宏緒a
(國防科學技術大學a.機電工程與自動化學院;b.信息系統(tǒng)與管理學院,長沙410073)
多數(shù)觀點動力學研究采用基于Agent的建模和仿真方法,與現(xiàn)實社會現(xiàn)象嚴重脫節(jié)。針對該問題,利用現(xiàn)實社會在線評分的統(tǒng)計數(shù)據(jù)驗證和改進觀點動力學模型的解釋和預測能力。在評分過程中,個體的觀點受到自身初始觀點和群體觀點的共同影響,產生的最終觀點將決定個體是否加入評分群體,如果加入將產生評分行為,進而影響后續(xù)個體的觀點及行為。據(jù)此過程建立一個連續(xù)觀點動力學模型,對在線評分的人員數(shù)量進行預測。使用豆瓣網(wǎng)站的影片在線評分數(shù)據(jù)進行實驗,分析各評分觀點變化對在線評分數(shù)量的影響,結果表明,該模型能夠有效預測在線評分人數(shù);個體的最終觀點主要受群體差-中-好評分觀點的影響,而與自身初始觀點基本無關;泊松參數(shù)值偏離最優(yōu)值越遠,預測準確率越低。
在線評分;觀點動力學;模型預測;連續(xù)觀點;泊松分布;實驗驗證
在線評分包含了一個社會群體對某個事物的評價和看法,被廣泛應用于各個購物、消費以及點評網(wǎng)站,如國外的 Amazon,CellarTracker,RateBeer, BeerAdvocate,國內的淘寶、當當、卓越、京東、豆瓣、大眾點評網(wǎng)等網(wǎng)站。這些網(wǎng)站通過用戶對商品、服務、影片等進行在線打分與評論的回饋信息,來影響潛在的消費者的觀點傾向,輔助進行決策,從而使更多反饋信息加入,構成一個相互促進的良性循環(huán)。
觀點動力學,又稱為輿論動力學,是運用數(shù)學、物理以及計算機,特別是基于Agent的建模和仿真方法,研究群體觀點趨于一致或者產生聚類分離現(xiàn)象的演化過程和規(guī)則[1]。觀點動力學的研究對象非常廣泛,包括個體觀點演化、群體決策、一致性達成、少數(shù)觀點的幸存、極端主義、謠言的擴散與傳播、市場滲透等各種社會現(xiàn)象[2-3]。觀點是個體對待事物或議題的看法、選擇或者傾向。根據(jù)觀點的描述方式,可以將觀點動力學模型分為離散模型和連續(xù)模型。離散模型采用二元值或其他離散的整數(shù)值對觀點進行建模,如0和1,-1和+1,0和±1,就像現(xiàn)實世界中表示的買和賣、左和右、中立、支持和反對等一樣,包括 Ising模型[4]、Sznajd模型[5]、投票者模型(Voter Model)[6]和多數(shù)決定模型(Majority Rule Model)[7]及其擴展模型。連續(xù)模型采用介于一段區(qū)間的連續(xù)實數(shù)值來描述個體的觀點,主要包括基于有界信任假設的 Deffuant-Weisbuch(DW)模型[8]和Hegselmann-Krause(HK)模型[9]及其擴展模型。在早期研究中,個體社會結構主要集中在一維(環(huán))鏈、網(wǎng)格、規(guī)則網(wǎng)絡或者全連通網(wǎng)絡上。隨后研究者發(fā)現(xiàn)現(xiàn)實世界以及互聯(lián)網(wǎng)社區(qū)中的個體交互結構滿足復雜網(wǎng)絡的特征。因此,復雜網(wǎng)絡上,如小世界(有向)網(wǎng)絡[10-11]、無標度網(wǎng)絡[12-13]和包含社團的網(wǎng)絡[14]等,以及自適應復雜網(wǎng)絡[15]上的觀點動力學逐漸成為研究的熱點。
目前大部分觀點動力學研究采用基于Agent的建模和仿真方法,關注的是模型的理論性質,存在仿真模型與現(xiàn)實社會現(xiàn)象嚴重脫節(jié)的問題;模型的應用研究又普遍存在參數(shù)和規(guī)則設置的依據(jù)不足以及缺乏驗證的問題[16]?;诨ヂ?lián)網(wǎng)的虛擬社區(qū)上的觀點動力學成為其理論和仿真研究與實際應用的橋梁和紐帶。應用現(xiàn)實社會系統(tǒng)的統(tǒng)計數(shù)據(jù)可以驗證和改進觀點動力學模型的解釋和預測能力,而這方面的工作還不充分。Sznajd模型較好地模擬了政治競選過程,發(fā)現(xiàn)所有被選舉者的支持者滿足冪率關系,但模擬只是一個統(tǒng)計平均過程,并不能提前預測某次真實的政治競選的獲勝者[17]。文獻[18]根據(jù)在線點評模式的觀點傳播過程,基于DW和HK模型構建了在線點評模式下的觀點動力學模型,對淘寶評論中實際觀點演化過程進行了仿真實驗。
本文通過建立在線評分中個體觀點的影響模型,預測個體的觀點和行為,從而判斷其是否將加入評分群體,并采用互聯(lián)網(wǎng)豆瓣網(wǎng)站上的影片在線評分數(shù)據(jù)進行實驗驗證。
在線評分的觀點動力學模型與一般觀點動力學模型有所不同:一般觀點動力學模型研究的是一個固定數(shù)量的個體之間觀點相互影響而不斷演化,產生一致性或者聚類分離的現(xiàn)象。在線評分的觀點動力學模型中個體的數(shù)量不是固定的,而是隨著時間的推進不斷的增加,直到個體數(shù)量達到最大值,并且群體內同一個體的觀點發(fā)表以后也不會變化。而兩者的相同點在于,個體觀點都是受自身初始觀點和群體觀點的綜合影響。
在在線評分過程中,正在瀏覽評分信息、尚未加入評分群體的個體稱為瀏覽個體。瀏覽個體的觀點受到自身初始觀點和評分群體觀點偏好的共同影響,生成的最終觀點決定是否加入評分群體,如果加入將產生評分行為,進而影響后續(xù)瀏覽個體的觀點和行為。
瀏覽個體按照一定的時序關系閱讀在線評分信息,形成自己的觀點傾向來決定是否加入該群體。以影片的在線評分為例,瀏覽用戶通過觀察原有觀眾群對某部影片的在線評分,決定自己是否觀看,如果選擇觀看將進而對其進行在線評分。在線評分的觀點動力學模型將估計瀏覽個體的到達模式并計算他們的最終觀點,確定個體是否加入評分群體,實現(xiàn)對評分群體中個體數(shù)量的預測。
2.1 到達模式
假設瀏覽個體閱讀在線評分的時間間隔概率滿足泊松分布。這是一種常用的分布,很多系統(tǒng)的人員到達模式都滿足泊松分布。
在區(qū)間[a,a+m]內有l(wèi)個個體到來的概率與a無關,而只與m和l有關,此概率記為Pl(m):
其中,λ稱為泊松常數(shù)。在泊松分布中,個體到達的時間是完全隨機的,僅受到給定的平均到達率λ的限制,λ=n/m表示在單位時間m內平均將有n名瀏覽個體閱讀在線評分。
在第i個產生m個在線評分的時間內,共有n名瀏覽個體依次閱讀在線評分,他們閱讀的評分數(shù)間隔滿足泊松分布。這n名瀏覽個體的初始觀點p0為連續(xù)觀點,在區(qū)間[0,1]內隨機分布。每個瀏覽個體的最終觀點p根據(jù)觀點更新模型進行計算,并確定是否加入評分群體。最終有n′i(n′i≤n)名個體加入評論人群,產生評分行為。所以,在k個評分時間后,預測得到的評分數(shù)量N′k=∑kn′k,真實的評分數(shù)量為Nk=mk。整個預測過程如圖1所示。
圖1 觀點動力學模型對在線評分人數(shù)的預測過程
2.2 觀點更新模型
在產生第t(t>0)個評分時,某個瀏覽個體閱讀了所有的在線評分。此時,基于連續(xù)觀點動力學中的觀點更新理論,他的最終觀點p是所有他瀏覽的觀點(包括自身的觀點)的加權求和值,得到:
或者:
式(3)或式(4)是相互等價的,式(3)從群體平均觀點的角度考慮對觀點p0的影響,而式(4)為單個觀點對觀點p0的影響之和取平均值。式(3)和式(4)均可寫成式(1)的形式:
瀏覽個體的最終觀點p表達了其加入評分群體、進行在線評分的偏好。p∈[0,1],其值越大,表示瀏覽個體加入評分群體的意愿越強烈,加入的概率越大。p=0表示個體絕對不會加入,p=1表示其肯定加入。因此,假定瀏覽個體將以概率p加入評分人群。第k批次的n名瀏覽個體根據(jù)此模型判斷是否加入評分群體,初始時加入的人數(shù)n′k=0,隨著瀏覽個體加入評分,n′k不斷增加。t評分時刻瀏覽個體觀點的處理流程如圖2所示。其中,Rd為區(qū)間(0,1)上的隨機數(shù)。
圖2 t評分時刻瀏覽個體觀點的處理流程
在第k批次加入后的預測準確率rk為:
其中,kmax表示最大批次值。
觀點動力學預測模型采用Matlab 2012a實現(xiàn),泊松分布數(shù)由Matlab內的泊松分布函數(shù)產生。實驗數(shù)據(jù)來源于互聯(lián)網(wǎng)上豆瓣網(wǎng)站影片評分的在線數(shù)據(jù)。該網(wǎng)站上用戶對影片的評分分為1星~5星,映射至區(qū)間[0,1]后的觀點值分別為0.2,0.4,0.6,0.8和1.0。為便于模型分析,可以將1星~5星映射為差-中-好評:1星和2星為差評,3星為中評,4星和5星為好評。在差-中-好評分方法中,差評、中評和好評映射的觀點值分別為0,0.5和1。分別采用式(2)和式(5)對評分人數(shù)進行預測,通過對預測結果的比較分析,驗證和選擇評分方法和預測模型公式及其參數(shù)。
3.1 在線評分的觀點變化
在豆瓣網(wǎng)站影片評分數(shù)據(jù)庫中隨機選擇3組評分數(shù)較多的影片數(shù)據(jù),設定泊松分布參數(shù)m=400,最終時刻各組評分數(shù)如表1所示。
表1 典型數(shù)據(jù)
各組數(shù)據(jù)的觀點比例變化如圖3和圖4所示。
圖3 3組數(shù)據(jù)各觀點比例變化(1星~5星評分方法)
圖4 3組數(shù)據(jù)各觀點比例變化(差-中-好評分方法)
統(tǒng)計點分別為:m,2m,…,kmaxm??梢钥闯?這3組數(shù)據(jù)的評分都比較好,好評率比較高,能夠吸引大量的觀眾觀看影片,進而進行評分。影片的評分數(shù)越多,一般說明觀看該影片的觀眾越多。最大的評分數(shù)為16 400,最少的評分數(shù)為10 000,評分數(shù)的多寡受到影片的評分影響。因為人們一般傾向于觀看評分高的影片,觀看過后對影片進行評分,進而影響后續(xù)對此影片感興趣的瀏覽用戶的觀點和行為。
從1星~5星的評分方法來看,各個評分的比例隨著評分數(shù)的增加都在不斷變化,但變化幅度不斷減小,如圖3所示。從差-中-好評分方法來看,隨著N的增加,各評分比例變化的幅度更小,有趨于穩(wěn)定的趨勢,能更清楚地反映對評分數(shù)量的影響。因此,以下從差-中-好評分方法來進行解釋和說明:隨著評分人數(shù)增加,好評率緩慢增加,促進了更多的人觀看影片,進而評分。影片的好評率和觀看人數(shù)將相互促進。如果好評率都一直增加,則好評率高的觀影人數(shù)會更多,如第1組和第2組的比較結果所示;隨著評分人數(shù)增加,初始時好評率下降,中、差評率之和增加,這使得觀看人數(shù)增加后勁不足,雖然初始好評率較大。此時觀影人數(shù)反而不如初始好評率低于它的影片,如第2組和第3組的比較結果所示。這是因為初始出現(xiàn)的好評率較高,可能來自于商業(yè)宣傳和炒作,大批觀眾觀看后,影片真正的評分值逐漸出現(xiàn),進而影響后續(xù)的擬觀看人群的觀點。如果首批觀眾對影片反映良好,將吸引更多的觀眾關注,反之,則使得影片逐漸冷淡,人們對其逐漸失去觀看和評論的興趣。
3.2 模型預測
基于觀點動力學模型在評分數(shù)量點m,2m,…,kmaxm處對評分人數(shù)進行統(tǒng)計,將預測值與實際值進行比較得到預測的準確率rk。預測系統(tǒng)與真實系統(tǒng)同步運行,模型中個體進行觀點更新時所用的其他個體的觀點數(shù)據(jù)總是使用當前時刻的真實評分數(shù)據(jù),以提高預測的準確率。
在模型中,設平均每400次評分,隨機加入500個瀏覽個體,加入的時間間隔滿足泊松分布λ=1.25,初始觀點服從區(qū)間[0,1]上的隨機分布,即m=400,n= 500。個體的最終觀點選擇式(2)和式(5)分別進行計算。統(tǒng)計結果為100次實驗的平均值。圖5和圖6所示的是采用式(2)、式(5)的計算方法以及2種不同的評分統(tǒng)計方法的評分數(shù)量預測準確率??梢钥闯?采用相同的式(2)或式(5)進行計算,1星~5星評分方法的平均準確率的增長速度普遍來說都要略低于差-中-好評分方法。不同的是,采用式(2)平均準確率隨著N的增加達到峰值后趨于緩慢下降,而式(5)則是初始時迅速上升而后緩慢增加。在相同的評分方法下,式(2)的預測準確率大大優(yōu)于式(5),由此可見如果加大對個體初始觀點的權重將不利于觀點的預測,使得與實際情況不符。
圖5 采用式(2)時平均預測準確率隨N的變化
圖6 采用式(5)時平均預測準確率隨N的變化
由式(2)和式(5)的觀點計算方法所得到的結果進行比較,個體的初始觀點對其觀點的形成影響應該較小,主要是受到群體的平均觀點的影響。這也是符合實際的情況,因為一般來說,個體初始時對影片的認識比較模糊,不能確定其是否真正值得一看,所以主要通過閱讀其他已觀看該影片的人員的評分來輔助自己做出觀看與否的決定。在相同的觀點計算公式下,采用差-中-好評分方法計算得到的預測準確率普遍較1星~5星評分方法的高,可以更準確地預測實際個體的觀點和行為,這說明雖然1星~5星評分方法所包含的信息更多、更加詳細,但是在實際的決策過程中,人們對評分的粒度并不要求如此細致,只需了解差-中-好評分的數(shù)量,就可做出較為符合實際情況的決策。
綜合比較,式(2)的計算方法和差-中-好評分方法所對應的預測準確率較好,在較大范圍內保持了較高的準確率,如圖5(b)所示。雖然本文只有選擇3組數(shù)據(jù)進行研究,但是經過檢驗對其他的豆瓣影片在線評分數(shù)據(jù)都有相似的結果,采用式(2)和差-中-好評分方法,評分數(shù)的最終平均預測準確率均能達到0.9左右或以上。
3組數(shù)據(jù)最終的預測平均準確率及其總的均值隨泊松常數(shù)λ的變化規(guī)律如圖7所示,其中,取m= 400,n=350,400,450,500,550,600,650,即λ= 0.875,1.0,1.125,1.25,1.375,1.5,1.625??梢钥闯?平均準確率隨參數(shù)λ呈分段線性關系,每組數(shù)據(jù)都有一個最優(yōu)的λ值,在此最優(yōu)值前,準確率呈線性增長,此后呈線性下降,上升與下降的速率相當。這說明單位時間內,過多或者過少的瀏覽個體數(shù)量都不利于在線評分人員數(shù)量的預測,與最優(yōu)λ值相距越遠,預測準確率將越低。綜合3組數(shù)據(jù),對其準確率求平均值,可以得出最優(yōu)λ值為1.25左右,這也是在前面實驗中選擇λ=1.25的原因。
圖7 采用式(2)和差-中-好評分方法的最終平均預測準確率
各組評分比例的變化趨勢表明:影片的好評率和觀評分人數(shù)將相互促進,好評率緩慢增加,促進了更多的人觀看影片,進而評分。在同種變化趨勢下,好評率更高的影片的觀影人數(shù)會更多。但是如果初始時好評率下降,中評率和差評率之和增加,使得評分人數(shù)增加后勁不足,最終評分人數(shù)反而不如初始時好評率低于它而好評率一直上升的影片。
模型的實驗結果較為準確地預測了在線評分的人數(shù),說明個體的觀影以及在線評分行為傾向符合觀點動力學模型的假設。從預測的效果來看,采用式(2)即個體的觀點取所有群體觀點(包括自身觀點)的平均值以及差-中-好評分方法較好。這說明個體的觀點以及行為傾向受其初始觀點的影響很小,受群體平均觀點的影響較大。并且其關注的評分等級也只需3級,過于細致的評分反而不利于個體觀點和行為的預測,這也是許多評分網(wǎng)站將評價等級只需定為3級的原因。預測準確率受泊松常數(shù)λ的影響,存在最優(yōu)的參數(shù)值(1.25),偏離該值越遠預測準確率將越低。
本文通過建立在線評分觀點影響的動力學模型,同時考慮個體的初始觀點的重要性和評分的粒度影響,提出采用2種不同的觀點更新方式和評分方法對豆瓣網(wǎng)站的影片在線評分人數(shù)進行分析和預測。實驗結果表明,本文所提出的觀點動力學模型能夠對個體觀點進行準確預測,同時揭示了評分比例變化對在線評分人員數(shù)量影響的若干現(xiàn)象和規(guī)律,結論有利于加深對瀏覽個體在閱讀在線評分后的觀點和行為的理解。后續(xù)工作將考慮評分發(fā)布的具體時間序列因素以及個體對其他個體評分的評價信息,進一步對在線評分的觀點動力學進行研究。
[1] Xia Haoxiang,Wang Huili,Xuan Zhaoguo.Opinion Dynamics:A Multidisciplinary Review and Perspective on Future Research[J].InternationalJournalof Knowledge and Systems Science,2011,2(4):72-91.
[2] Castellano C,Fortunato S,Loreto V.Statistical Physics of Social Dynamics[J].Reviews of Modern Physics, 2009,81(2):591-646.
[3] 王 龍,伏 鋒,陳小杰,等.復雜網(wǎng)絡上的群體決策[J].智能系統(tǒng)學報,2008,3(2):95-108.
[4] Galam S,Gefen Y,Shapir Y.Sociophysics:A New Approach of Sociological Collective Behavior[J].The Journal of Mathematical Sociology,1982,9(1):1-13.
[5] Sznajd-Weron K,Sznajd J.Opinion Evolution in Closed Community[J].InternationalJournalofModern Physics C,2000,11(6):1157-1165.
[6] Holley R,Liggett T.Ergodic Theorems for Weakly Interacting Infinite Systems and the Voter Model[J]. Annals of Probability,1975,3(4):643-663.
[7] Galam S.Minority Opinion Spreading in Random Geometry[J].European Physical Journal B,2002, 25(4):403-406.
[8] Deffuant G,Neau D,Amblard F,et al.Mixing Beliefs Among Interacting Agents[J].Advances in Complex Systems,2000,3(1-4):87-98.
[9] Hegselmann R,Krause U.Opinion Dynamics and Bounded Confidence Models,Analysis,and Simulation [J].Journal of Artificial Societies and Social Simulation, 2002,5(3):1-8.
[10] Gandica Y,del Castillo-Mussot M,Vázquez G J,et al. Continuous Opinion Model in Small-world Directed Networks[J].Physica A,2010,389:5864-5870.
[11] Li Pingping,Zheng Dafang,Hui P M.Dynamics of Opinion Formation in a Small-world Network[J]. Physical Review E,2006,73.
[12] 羅 植,楊冠瓊,狄增如.具有空間因素的社會網(wǎng)絡上的輿論形成[J].物理學報,2012,61(19).
[13] 何敏華,張端明,王海艷,等.基于無標度網(wǎng)絡拓撲結構變化的輿論演化模型[J].物理學報,2010,59(8): 5175-5181.
[14] Wang Ru,Chi Liping,Cai Xu.Opinion Dynamics on Complex Networks with Communities[J].Chinese Physics Letters,2008,25(4):1502-1505.
[15] Fu Feng,Wang Long.CoevolutionaryDynamicsof Opinions and Networks:From Diversity to Uniformity [J].Physical Review E,2008,78.
[16] Sobkowicz P.Modelling Opinion Formation with Physics Tools:Call for Closer Link with Reality[J].Journal of Artificial Societies and Social Simulation,2009,12 (1):11.
[17] Bernardes A T,Stauffer D,Kertesz J.Election Results and the Sznajd Model on Barabasi Network[J]. European Physical Journal B,2002,25:123-127.
[18] 萬 巖,張 涵.在線點評模式下的輿論動力學模型研究[J].北京郵電大學學報:社會科學版,2012, 14(4):9-14.
編輯 金胡考
Number Prediction for Online Rating Based on Opinion Dynamics
SU Jiong-minga,LIU Bao-hongb,LI Qib,MA Hong-xua
(a.College of Mechatronics Engineering and Automation;b.College of Information System and Management, National University of Defense Technology,Changsha 410073,China)
Most studies of opinion dynamics adopt Agent-based modeling and simulation for theoretical research and have serious gap with the real social problems.Aiming at this problem,this paper verifies and improves the interpretation and forecasting capabilities of the model with social statistical data of online rating.On the process of online rating,the individual opinion is influenced by its initial opinion and the group’s opinions.The final opinion determines whether the individual to join the group and makes a rate or not.The rating of the individual affects the opinions and the behaviors of subsequent individuals.A simple dynamic model with continuous opinion based on this process is introduced to predict the number of personnel in online rating.It carries out experiments with the online rating data of film on the Internet website of Douban and analyses the effects of change of score proportion.Experimental results show that the model can effectively predict the number of online rating;Individual final opinion is mainly affected by the opinions of bad-normalgood in the group and almost has nothing to do with its initial opinion;The larger deviation of the Poisson parameter to optimum value leads to the lower accuracy of prediction.
online rating;opinion dynamics;model prediction;continuous opinion;Poisson distribution;experimental verification
1000-3428(2014)10-0155-06
A
TP18
10.3969/j.issn.1000-3428.2014.10.030
國家自然科學基金資助項目(61374185)。
蘇炯銘(1984-),男,博士,主研方向:人工智能,群決策支持系統(tǒng),觀點動力學;劉寶宏、李 琦,副教授、博士;馬宏緒,教授、博士、博士生導師。
2013-10-24
2013-12-16E-mail:sjm.nudt@gmail.com
中文引用格式:蘇炯銘,劉寶宏,李 琦,等.基于觀點動力學的在線評分人數(shù)預測[J].計算機工程,2014,40(10): 155-160,167.
英文引用格式:Su Jiongming,Liu Baohong,Li Qi,et al.Number Prediction for Online Rating Based on Opinion Dynamics[J].Computer Engineering,2014,40(10):155-160,167.