仇建平
(太原科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西太原030024)
在虛擬的互聯(lián)網(wǎng)世界中,實(shí)體經(jīng)濟(jì)中的“消費(fèi)者”轉(zhuǎn)換為虛擬經(jīng)濟(jì)中的“用戶”.“用戶”是一個(gè)主動(dòng)的概念[2],瀏覽網(wǎng)頁、聽音樂、看視頻、下載軟件等行為都是用戶根據(jù)自己的興趣主動(dòng)做出的,是一種自由意志支配下的消費(fèi)行為[3-4].隨著這些行為數(shù)據(jù)的爆發(fā)性增長,新的模型不斷涌現(xiàn).一般的建模方法是從某些假設(shè)出發(fā),引入變量,借助某些原理、定律,導(dǎo)出數(shù)學(xué)模型,再用數(shù)據(jù)來檢驗(yàn)其正確性,有了數(shù)學(xué)模型,系統(tǒng)控制的問題就變成了變量和參數(shù)的控制.但要建立這樣的數(shù)學(xué)模型有時(shí)非常困難,主要表現(xiàn)在:1)互聯(lián)網(wǎng)結(jié)構(gòu)復(fù)雜:節(jié)點(diǎn)數(shù)目巨大,網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)多種不同特征;2)互聯(lián)網(wǎng)的進(jìn)化:節(jié)點(diǎn)或鏈路會(huì)隨著時(shí)間的變化而產(chǎn)生或消失;3)互聯(lián)網(wǎng)鏈接的多樣性:節(jié)點(diǎn)之間的鏈路權(quán)重存在差異,且有可能存在方向性;4)多重復(fù)雜性融合:即以上多重復(fù)雜性相互影響,導(dǎo)致更為難以預(yù)料的結(jié)果.實(shí)際的網(wǎng)絡(luò)會(huì)受到多種因素的影響和作用,各種網(wǎng)絡(luò)之間密切的聯(lián)系也會(huì)使它們相互產(chǎn)生影響,從而加大對網(wǎng)絡(luò)分析的難度.
為了解決這些問題,人們轉(zhuǎn)換視角:把人看作是傳播的內(nèi)容,把信息資源看作是對象.同生態(tài)系統(tǒng)依賴能量流動(dòng),經(jīng)濟(jì)系統(tǒng)依賴貨幣流動(dòng)一樣,互聯(lián)網(wǎng)依賴關(guān)注力流動(dòng).互聯(lián)網(wǎng)上用戶的點(diǎn)擊行為實(shí)際上體現(xiàn)為關(guān)注力的流動(dòng),其中節(jié)點(diǎn)是信息資源,有權(quán)重的鏈路則指示著關(guān)注力的流動(dòng).這樣,從信息在用戶間的流動(dòng),轉(zhuǎn)換為用戶在信息間的流動(dòng),即把原來網(wǎng)絡(luò)的節(jié)點(diǎn)變成了鏈路,原來的鏈路變成了節(jié)點(diǎn).這一轉(zhuǎn)換的好處在于:1)網(wǎng)絡(luò)中的信息量是無限的,不易測量,而關(guān)注力相對于信息量來說卻是有限的,易測量;2)由于信息資源可以被無限地復(fù)制,同一類信息資源不同內(nèi)容與不同類信息資源,都是網(wǎng)絡(luò)上不同的節(jié)點(diǎn);3)用戶的關(guān)注力是一個(gè)嚴(yán)格的守恒量.總的關(guān)注力是稀缺的,可變的就是其在信息資源上的分配和流動(dòng).在這種思路下,互聯(lián)網(wǎng)可以被看作是一個(gè)人類集體關(guān)注力在信息資源之間分配和流動(dòng)的網(wǎng)絡(luò),即關(guān)注力流網(wǎng)絡(luò).關(guān)注力流按生成內(nèi)容可分為:1)UGC(user generated content)用戶生成內(nèi)容,生成網(wǎng)狀關(guān)注力流;2)non-UGC網(wǎng)站生成內(nèi)容,生成樹狀關(guān)注力流.無論是樹形結(jié)構(gòu)還是網(wǎng)狀結(jié)構(gòu),如果計(jì)算互聯(lián)網(wǎng)用戶關(guān)注力的分布,最后都會(huì)得到長尾分布[5-6].如圖1所示,消費(fèi)者的關(guān)注力在不同的區(qū)域相差很大,關(guān)注力集中的程度隨著顏色的加深而增加.
圖1 關(guān)注力區(qū)域的分布Fig.1 Distribution area of attention
1998 年 Watts[7]和 Strogatz[8]提出了小世界網(wǎng)絡(luò)模型.他們分析了具有“小世界特征”的社會(huì)網(wǎng)絡(luò)的演化過程,對小世界網(wǎng)絡(luò)的聚類系數(shù)和最短路長度等進(jìn)行了探討,發(fā)現(xiàn)小世界網(wǎng)絡(luò)模型的聚類系數(shù)比隨機(jī)圖模型要大得多,同時(shí)具有較小的平均最短路長度.2013 年 Barabasi[9]研究表明,目前互聯(lián)網(wǎng)大約有1萬億個(gè)文件,包括140億個(gè)頁面及其附帶的圖片、視頻和其他文件,但其中絕大多數(shù)與其他頁面或文件之間的聯(lián)系并不緊密,而互聯(lián)網(wǎng)中搜索引擎、門戶網(wǎng)站等少數(shù)網(wǎng)頁(主導(dǎo)節(jié)點(diǎn))具有非常大的鏈接數(shù).這些少數(shù)主導(dǎo)節(jié)點(diǎn)成為整個(gè)互聯(lián)網(wǎng)相互聯(lián)系的橋梁,從而使得用戶最多只需19次點(diǎn)擊即可到達(dá)任何一個(gè)網(wǎng)頁.Barabasi認(rèn)為,互聯(lián)網(wǎng)的這種“小世界”特性源于人性,即無論是在現(xiàn)實(shí)生活還是虛擬世界中,人類都喜歡群居.Barabasi從多種水平對網(wǎng)絡(luò)進(jìn)行了分析后發(fā)現(xiàn),無論規(guī)模有多大,“19次點(diǎn)擊”的規(guī)則仍然適用于互聯(lián)網(wǎng).
根據(jù)2011年底的CNNIC數(shù)據(jù)[10],我國互聯(lián)網(wǎng)用戶平均每周上網(wǎng)時(shí)間為18 h,平均每天上網(wǎng)時(shí)間為2.67 h,互聯(lián)網(wǎng)用戶在信息生產(chǎn)、交易和消費(fèi)的所有環(huán)節(jié)都留下了數(shù)據(jù)記錄,而且90%的互聯(lián)網(wǎng)用戶僅僅訪問網(wǎng)站,從不貢獻(xiàn)內(nèi)容,9%的互聯(lián)網(wǎng)用戶偶爾參與,只有1%的互聯(lián)網(wǎng)用戶生產(chǎn)絕大多數(shù)內(nèi)容,因此用戶關(guān)注力相對于信息量來說是稀缺、可跟蹤、可分析的.
本文中把互聯(lián)網(wǎng)用戶的關(guān)注力定義為關(guān)注某網(wǎng)站、同時(shí)忽略其他網(wǎng)站的選擇性關(guān)注.一個(gè)互聯(lián)網(wǎng)用戶的關(guān)注力X取決于網(wǎng)站內(nèi)容n,并隨著網(wǎng)站內(nèi)容n 線性變化,如式(1)所示[11].
式中:a是正的常量系數(shù),Y是均值為1的噪聲.
如果互聯(lián)網(wǎng)用戶的關(guān)注力超過了閾值θ,那么互聯(lián)網(wǎng)用戶將繼續(xù)關(guān)注該網(wǎng)站,θ為反映互聯(lián)網(wǎng)用戶個(gè)性化喜好的閾值,與網(wǎng)站內(nèi)容給互聯(lián)網(wǎng)用戶帶來的愉悅感、理想主義、歸屬感、增進(jìn)自己的社會(huì)地位等因素相關(guān).如果互聯(lián)網(wǎng)用戶的關(guān)注力小于θ,則互聯(lián)網(wǎng)用戶的關(guān)注力轉(zhuǎn)移到其他網(wǎng)站,其概率Pn如式(2)所示.
其中mA、mB代表兩個(gè)是三角形的頂點(diǎn),PA、PB代表兩者的質(zhì)心位置,min(mB-mA)·(PB-PA)指兩者頂點(diǎn)相距最小值在相對位置上的投影‖dt·(PB-PA)指兩者速度在相對位置上的投影。作為碰撞檢測時(shí)間范圍的回退信息處理,返回每一個(gè)回退點(diǎn)的位置信息和三角形面片信息,遍歷完所有的碰撞集合,分析比較每個(gè)相交信息中的碰撞檢測時(shí)間集合,最小值為該次檢測時(shí)間段內(nèi)的碰撞檢測時(shí)間,記為tc。
式中:aY/θ的累積分布函數(shù)為F,則網(wǎng)站最終獲得的關(guān)注力如式(3)所示:
式中:F'(0)為一常數(shù).
通過簡化和省略高次項(xiàng)后,式(3)可重寫為
取極限則可得式(4):
根據(jù)式(4)可得:
式中:Pn滿足長尾分布,可得:
式中:k>1,生成內(nèi)容越多,互聯(lián)網(wǎng)用戶的關(guān)注力轉(zhuǎn)移到其他網(wǎng)站的概率越低.用戶關(guān)注力轉(zhuǎn)移網(wǎng)絡(luò)如圖2所示.
圖2 關(guān)注力轉(zhuǎn)移網(wǎng)絡(luò)Fig.2 Network of transporting attention
圖2中實(shí)線圓環(huán)代表網(wǎng)站1到網(wǎng)站5,邊代表用戶關(guān)注力流,箭頭指向代表關(guān)注力流動(dòng)方向,邊的權(quán)重(邊上的數(shù)字)為從某網(wǎng)站轉(zhuǎn)移到另一網(wǎng)站的人數(shù),其轉(zhuǎn)移矩陣為
用戶的關(guān)注力在網(wǎng)絡(luò)上流動(dòng),由于關(guān)注力的守恒性,在模型中加入虛線圓環(huán)代表源節(jié)點(diǎn)和宿節(jié)點(diǎn),使每個(gè)節(jié)點(diǎn)的關(guān)注力的進(jìn)出相等,其用戶轉(zhuǎn)移矩陣擴(kuò)充為
設(shè)mij為用戶關(guān)注力由i站點(diǎn)流向j站點(diǎn)的概率,
式中:Xij為由i站點(diǎn)轉(zhuǎn)移到j(luò)站點(diǎn)的用戶關(guān)注力,在本文中簡化為轉(zhuǎn)移人數(shù),可得轉(zhuǎn)移概率矩陣:
網(wǎng)站i的流量Ai為
圖2對應(yīng)的uij為
以圖2網(wǎng)絡(luò)為例,運(yùn)算結(jié)果如圖3所示,圖中黑點(diǎn)為節(jié)點(diǎn)2的流量A2=60,關(guān)注力G2=125,通過最小二乘法獲得γ=1.45>1.
圖3 運(yùn)算結(jié)果Fig.3 Operation results
實(shí)驗(yàn)用到的數(shù)據(jù)是通過使用一個(gè)Python語言編寫的網(wǎng)絡(luò)爬蟲程序,從谷歌廣告計(jì)劃(Google ad planner)[12]上獲得世界排名前1 000的網(wǎng)站名單,使用Alexa分析這些網(wǎng)站間的關(guān)注流并構(gòu)建網(wǎng)絡(luò),調(diào)用AlchemyAPI偵測網(wǎng)站類型.通過該方法獲得的數(shù)據(jù)集比通過其他方法獲得的數(shù)據(jù)集更稠密,如圖4 所示[12].
圖4 相關(guān)數(shù)據(jù)Fig.4 Related data
圖5展示了世界流量排名前1 000的網(wǎng)站構(gòu)成的“關(guān)注力流”網(wǎng)絡(luò),其中圓形點(diǎn)代表網(wǎng)站,點(diǎn)的大小反映了取對數(shù)值后網(wǎng)站的日流量,點(diǎn)到中心的距離代表關(guān)注力的大小,即越靠近中心,則該點(diǎn)代表的網(wǎng)站受到的關(guān)注力越大.灰色圓形點(diǎn)表示W(wǎng)eb 2.0站點(diǎn),黑色圓形點(diǎn)表示W(wǎng)eb 1.0站點(diǎn).箭頭表示用戶的“關(guān)注力”在網(wǎng)站間的流動(dòng)方向,一共12 888條,從圖5可知,Web 2.0站點(diǎn)更受關(guān)注.
圖5 世界流量排名前1 000的網(wǎng)站構(gòu)成的“關(guān)注力流”網(wǎng)絡(luò)Fig.5 Attention network of the 1 000 most-visited sites on the web
如圖6所示,橫軸是取對數(shù)值后的網(wǎng)站流量Ai,縱軸為取對數(shù)值后的關(guān)注力Gi,γ=0.92,γ小于1表明用戶對網(wǎng)站的關(guān)注力增長小于流量增長,存在著“規(guī)模不經(jīng)濟(jì)”的現(xiàn)象.
圖6 世界流量排名前1 000的網(wǎng)站流量分布Fig.6 Attention stream of the 1 000 most-visited sites on the web
從流量來源來看,如圖7所示,縱軸表示來源網(wǎng)站的類型,分別是廣告網(wǎng)絡(luò)(Ad network)、垂直網(wǎng)絡(luò)(vertical niche)、門戶網(wǎng)站(portal)、搜索引擎(search engine)、廣告聯(lián)盟(affiliate network);橫軸表示某個(gè)流量來源關(guān)注力的變動(dòng)比例.黑色條塊越往右表示某種流量來源關(guān)注力的提升,反之則表示關(guān)注力越低,黑色條塊中的白線表示中位數(shù).從圖7中可以看出,搜索引擎和廣告聯(lián)盟所受的關(guān)注力較低,而廣告網(wǎng)絡(luò)和垂直網(wǎng)絡(luò)則較高.
圖7 流量來源分析Fig.7 Source analysis of stream
社會(huì)網(wǎng)絡(luò)的快速發(fā)展帶來了理論研究和實(shí)際應(yīng)用上的巨大挑戰(zhàn),數(shù)據(jù)產(chǎn)生、組織和流通方式產(chǎn)生了革命性的變化,這些數(shù)據(jù)背后潛藏著巨大的商業(yè)機(jī)會(huì).本文針對互聯(lián)網(wǎng)的新發(fā)展,通過搜集互聯(lián)網(wǎng)用戶行為數(shù)據(jù),推導(dǎo)了基于互聯(lián)網(wǎng)的關(guān)注力動(dòng)力模型,并通過實(shí)驗(yàn)進(jìn)行了驗(yàn)證分析.本文作為一個(gè)探索性工作,初步勾勒了全球互聯(lián)網(wǎng)用戶“關(guān)注力流”的概貌,為更深入地探討“虛擬經(jīng)濟(jì)”奠定了基礎(chǔ).
[1]蘇萌,柏林森,周濤.個(gè)性化:商業(yè)的未來[M].北京:機(jī)械工業(yè)出版社,2012:1-20.
[2]PAN W,AHARONYM N,PENTLAND A S.Composite social network for predicting mobile apps installation[C]//Proceedings of the 25th AAAI Conference on Artificial Intelligence.Cambridge,USA,2011:821-827.
[3]ZHANG C J,ZENG A.Behavior patterns of online users and the effect on information filtering[J].Physica A,2012,391:1822-1830.
[4]GUO S,WANG M,LESKOVEC J.The role of social networks in online shopping:information passing,price of trust,and consumer choice[C]//Proceedings of the 12th ACM Conference on Electronic Commerce.New York,USA,2011:157-166.
[5]HUBERMAN A,PIROLLI P L,PITKOW J E,et al.Strong regularities in world wide web surfing[J].Science,1998,280(5360):95-96.
[6]DENNIS M.WILKINSON.Strong regularities in online peer production[C]//Proceedings of the 9th ACM Conference on Electronic Commerce.Chicago,USA,2008:302-309.
[7]WATTS D.Network,dynamics,and the small-world phenomenon[J].Sociol,1999,105:2063-2064.
[8]STROGATZ S.The emerging science of spontaneous order[M].New York,USA:Hyperion press,2003:312-319.
[9]BARABASI A L.Network science[J].Philosophical Transactions of the Royal Society A,2013,371:1471-2962.
[10]孟凡新.互聯(lián)網(wǎng)時(shí)代的眼球經(jīng)濟(jì):中國網(wǎng)民注意力聚焦何處?[EB/OL].[2012-10-25].http://www.cnnic.cn/research/fxszl/fxswz/201207/t20120719_32346.html.
[11]ROBERTS J,HANN I H,SLAUGHTER S.Understanding the motivations,participation and performance of open source software developers:a longitudinal study of the apache projects[J].Management Science,2006,52(7):984-999.
[12]Google.The 1000 most-visited sites on the web[EB/OL].[2012-10-25].http://www.google.com/adplanner/static/top1000.