陳 燁,王 樂(lè),陳天雨,郭 勇
(1.華中師范大學(xué)信息管理學(xué)院,武漢430079;2.吉林大學(xué)管理學(xué)院,長(zhǎng)春130022)
社會(huì)化問(wèn)答平臺(tái)是指將傳統(tǒng)搜索式問(wèn)答功能與社交媒體功能相結(jié)合的知識(shí)共享虛擬社區(qū)[1]。在社會(huì)化問(wèn)答平臺(tái)中,用戶可以關(guān)注某些主題或用戶,搜索、瀏覽和提出自己感興趣的問(wèn)題,或以擅長(zhǎng)領(lǐng)域的知識(shí)技能參與回答和評(píng)論,達(dá)到直接或間接獲取所需信息或知識(shí)的目的[2]。因此,用戶互動(dòng)是社會(huì)化問(wèn)答平臺(tái)信息或知識(shí)交流的基礎(chǔ),穩(wěn)定的用戶互動(dòng)是社會(huì)化問(wèn)答平臺(tái)正常運(yùn)轉(zhuǎn)和持續(xù)發(fā)展的保障。通過(guò)了解用戶互動(dòng)行為特征(即用戶社交行為特征),平臺(tái)管理人員可掌握用戶的行為特點(diǎn)和規(guī)律,進(jìn)而制定用戶分類管理和個(gè)性化推薦策略,以改善用戶交流的質(zhì)量和效率,最終實(shí)現(xiàn)提升用戶體驗(yàn)的目的。
用戶畫像(user profile)是基于特定使用情境下的真實(shí)用戶數(shù)據(jù)所形成的描述用戶屬性及其特征的標(biāo)簽集合[3-5]。用戶畫像在預(yù)測(cè)用戶行為[6]、發(fā)現(xiàn)用戶潛在需求[7]等方面均發(fā)揮了重要作用,成為管理決策的有效依據(jù)。目前,社會(huì)化問(wèn)答平臺(tái)用戶畫像研究的側(cè)重點(diǎn)在于用戶畫像生成研究,用戶畫像生成過(guò)程可以歸納為三個(gè)主要環(huán)節(jié):用戶數(shù)據(jù)獲取、用戶特征挖掘和用戶特征表示。充足有效的用戶數(shù)據(jù)是生成用戶畫像的前提,由于各研究的目的存在差異,故研究選取的用戶數(shù)據(jù)范圍不盡相同。有的研究主要收集目標(biāo)用戶的個(gè)體用戶數(shù)據(jù)(如用戶基本信息、用戶問(wèn)答數(shù)量、用戶參與行為等),分析用戶行為動(dòng)機(jī)、用戶參與度和用戶發(fā)展趨勢(shì)等個(gè)體用戶特征[8-9];有的研究則收集目標(biāo)用戶群體的相關(guān)用戶數(shù)據(jù)(用戶關(guān)注內(nèi)容、用戶瀏覽行為、用戶評(píng)論等),分析用戶信息需求、用戶角色等群體用戶特征[3]。獲取用戶數(shù)據(jù)之后,根據(jù)用戶數(shù)據(jù)內(nèi)容和類型的特點(diǎn),采用統(tǒng)計(jì)分析、聚類、機(jī)器學(xué)習(xí)等方法挖掘用戶特征[9-12]。隨后,將用戶特征抽象成標(biāo)簽(詞匯、短語(yǔ)或概念等),并以詞云、表格和圖像等形式進(jìn)行可視化展示[3,13-16]。目前,許多關(guān)于社會(huì)化問(wèn)答平臺(tái)用戶畫像的研究將用戶從使用情景中抽離出來(lái),作為獨(dú)立個(gè)體進(jìn)行數(shù)據(jù)收集和特征挖掘,而忽略了用戶所在的社交群體及用戶相互之間的聯(lián)系。如何結(jié)合用戶所處的社交環(huán)境,生成揭示用戶社交行為特征的用戶畫像有待進(jìn)一步研究。
在社會(huì)化問(wèn)答平臺(tái)用戶社交行為研究中,社會(huì)網(wǎng)絡(luò)分析方法(social network analysis)被用于探究用戶網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特征,以及其對(duì)知識(shí)共享和信息傳播效果的影響,或是挖掘社會(huì)化問(wèn)答平臺(tái)專家領(lǐng)袖,助力在線共享社區(qū)的內(nèi)容質(zhì)量維護(hù),提高平臺(tái)信息的可信度[17-19]。實(shí)踐表明,社會(huì)網(wǎng)絡(luò)分析方法能夠刻畫社會(huì)化問(wèn)答平臺(tái)形成的社交網(wǎng)絡(luò)的整體特征,也能揭示網(wǎng)絡(luò)中個(gè)體之間的關(guān)系,但如何以管理問(wèn)題為導(dǎo)向組織和利用社會(huì)網(wǎng)絡(luò)分析的結(jié)論仍需進(jìn)一步探究。
因此,本文借鑒其他類型用戶畫像的構(gòu)建流程與方法,結(jié)合社會(huì)化問(wèn)答平臺(tái)用戶社交行為的特點(diǎn),開展基于社會(huì)網(wǎng)絡(luò)分析的社會(huì)化問(wèn)答平臺(tái)用戶畫像研究。研究選取在用戶數(shù)量、活躍程度和內(nèi)容質(zhì)量等方面具有典型性的社會(huì)化問(wèn)答平臺(tái)Quora為實(shí)驗(yàn)對(duì)象,獲取高血壓主題下的用戶社交行為數(shù)據(jù),運(yùn)用社會(huì)網(wǎng)絡(luò)分析方法分析用戶社交網(wǎng)絡(luò)結(jié)構(gòu)特征、用戶社交類型和特征,最后生成面向高血壓主題的用戶畫像。
用戶的問(wèn)答(問(wèn)題和回答)是社會(huì)化問(wèn)答平臺(tái)中最主要、最有價(jià)值的內(nèi)容。用戶常常圍繞特定主題展開討論,并且社會(huì)化問(wèn)答平臺(tái)通常以主題頁(yè)面的形式組織用戶的問(wèn)答。特定主題頁(yè)面下的用戶群體擁有相同的興趣主題,其最主要的社交行為包括提問(wèn)-回答、關(guān)注-被關(guān)注[20]。其中,提問(wèn)-回答反映了用戶之間的信息和知識(shí)交流;而關(guān)注-被關(guān)注反映了用戶之間社交關(guān)系的建立,相較于點(diǎn)贊、評(píng)論,關(guān)注-被關(guān)注的社交程度更深、社交關(guān)系更穩(wěn)固。因此,本文著重分析用戶問(wèn)答和關(guān)注行為特征,進(jìn)而生成揭示社交行為特征的用戶畫像。
Quora中特定主題下的用戶社交行為數(shù)據(jù)主要涉及問(wèn)題信息、回答信息和關(guān)注信息,如表1所示。根據(jù)問(wèn)題信息表和回答信息表可以建立用戶之間的提問(wèn)-回答關(guān)系,根據(jù)關(guān)注信息表可以建立用戶之間的關(guān)注-被關(guān)注關(guān)系,而用戶(用戶編號(hào))可以建立不同數(shù)據(jù)表之間的關(guān)聯(lián)。
表1 用戶社交行為數(shù)據(jù)類別
本研究利用網(wǎng)絡(luò)爬蟲采集Quora中高血壓主題下的用戶社交行為數(shù)據(jù),并對(duì)獲取的用戶社交行為數(shù)據(jù)進(jìn)行清洗,包括重復(fù)項(xiàng)合并、關(guān)鍵內(nèi)容提取和數(shù)據(jù)規(guī)范化。重復(fù)項(xiàng)合并指的是合并各個(gè)字段中的重復(fù)項(xiàng),如重復(fù)的問(wèn)題、回答等;關(guān)鍵內(nèi)容抽取指的是只保留各個(gè)字段中有意義的內(nèi)容,如從“post‐ed at DATE”中抽取DATE;數(shù)據(jù)規(guī)范化指的是將各個(gè)字段的數(shù)據(jù)表示為統(tǒng)一格式,如將時(shí)間統(tǒng)一表示為“MM-DD-YYYY”的格式。
在采集用戶社交行為數(shù)據(jù)過(guò)程中,Quora出于隱私保護(hù)的考慮,沒(méi)有直接提供表1問(wèn)題信息表中的提問(wèn)者信息,本研究采取了兩種策略獲取提問(wèn)者信息:一是利用邀請(qǐng)回答機(jī)制,二是通過(guò)反向追蹤機(jī)制。邀請(qǐng)回答機(jī)制指的是Quora平臺(tái)會(huì)根據(jù)問(wèn)題所屬主題,將問(wèn)題推薦可能具備相關(guān)知識(shí)的用戶,問(wèn)題的提問(wèn)者或?yàn)g覽者可以通過(guò)“邀請(qǐng)”功能向系統(tǒng)推薦的用戶發(fā)送“邀請(qǐng)回答”的郵件或通知,用戶接收到邀請(qǐng)后可以選擇接受邀請(qǐng)回答問(wèn)題或拒絕回答問(wèn)題。凡是通過(guò)邀請(qǐng)回答機(jī)制產(chǎn)生的回答的末尾都會(huì)出現(xiàn)“answer requested by USERNAME”的標(biāo)記,可以根據(jù)提問(wèn)時(shí)間進(jìn)一步判斷USERNAME是否為問(wèn)題的提問(wèn)者。反向追蹤機(jī)制指的是從用戶主頁(yè)中獲取用戶提出的問(wèn)題列表,將問(wèn)題列表與高血壓主題問(wèn)題列表進(jìn)行全文匹配或關(guān)鍵詞匹配,提取與高血壓相關(guān)的問(wèn)題,從而確定問(wèn)題的提問(wèn)者信息。
因此,本研究首先獲取了高血壓主題下的問(wèn)題列表和回答列表(含問(wèn)題2288個(gè)及其回答6298個(gè));其次,遍歷已獲取的問(wèn)題列表和回答列表,抽取所有包含“answer requested by USERNAME”標(biāo)識(shí)的問(wèn)題及邀請(qǐng)者,得到邀請(qǐng)者列表;再次,遍歷邀請(qǐng)者主頁(yè)中的問(wèn)題列表,通過(guò)全文匹配和關(guān)鍵詞匹配,定位與高血壓相關(guān)的問(wèn)題;最后,得到問(wèn)題的提問(wèn)者。利用邀請(qǐng)回答機(jī)制共獲取包含邀請(qǐng)標(biāo)簽的問(wèn)題490個(gè),通過(guò)反向追蹤機(jī)制定位了高血壓相關(guān)的問(wèn)題265個(gè)及其回答1027條。匯總上述問(wèn)題及其回答對(duì)應(yīng)的所有提問(wèn)者和回答者,最終定位了689位用戶,可作為實(shí)證研究的目標(biāo)用戶。
獲取用戶社交行為數(shù)據(jù)后,從689位目標(biāo)用戶的社交行為數(shù)據(jù)中,得到問(wèn)答關(guān)系850對(duì)和關(guān)注關(guān)系277對(duì)。將問(wèn)答關(guān)系數(shù)據(jù)和關(guān)注關(guān)系數(shù)據(jù)分別導(dǎo)入Gephi,構(gòu)建高血壓主題下的用戶問(wèn)答網(wǎng)絡(luò)和用戶關(guān)注網(wǎng)絡(luò),如圖1和圖2所示。
圖1 高血壓主題用戶問(wèn)答網(wǎng)絡(luò)
圖2 高血壓主題用戶關(guān)注網(wǎng)絡(luò)
在用戶問(wèn)答網(wǎng)絡(luò)中(圖1),節(jié)點(diǎn)顏色用于區(qū)分節(jié)點(diǎn)出度的差異,區(qū)域E中的灰色節(jié)點(diǎn)表示出度相對(duì)較大的用戶,且顏色越深出度越大;黑色節(jié)點(diǎn)表示出度相對(duì)較小的用戶,且顏色越深,出度越小。節(jié)點(diǎn)大小用于區(qū)分節(jié)點(diǎn)入度的差異,節(jié)點(diǎn)越大,入度越大;反之,則入度越小??梢园l(fā)現(xiàn),直徑較大的節(jié)點(diǎn)大多為黑色,說(shuō)明回答較多問(wèn)題的用戶大多較少提出問(wèn)題;而深灰色的節(jié)點(diǎn)大多直徑較小,說(shuō)明提出較多問(wèn)題的用戶大多較少回答問(wèn)題。這一現(xiàn)象與常識(shí)相符:在高血壓主題下,提出問(wèn)題的用戶往往是缺乏相關(guān)知識(shí)的患者或患者家屬,這類用戶往往難以回答其他用戶關(guān)于高血壓的問(wèn)題;而能夠回答一定數(shù)量問(wèn)題的用戶大多具備該領(lǐng)域較為充足的知識(shí),極有可能為相關(guān)行業(yè)從業(yè)人員或是“久病成醫(yī)”的患者或患者家屬,這類用戶由于有一定的知識(shí)儲(chǔ)備,關(guān)于高血壓的疑問(wèn)自然相對(duì)較少。
在用戶關(guān)注網(wǎng)絡(luò)中(圖2),同樣是通過(guò)節(jié)點(diǎn)顏色區(qū)分節(jié)點(diǎn)出度的差異,區(qū)域C中的深灰色節(jié)點(diǎn)表示出度相對(duì)較大的用戶,且顏色越深,出度越大;淺灰色節(jié)點(diǎn)表示出度相對(duì)較小的用戶,且顏色越深,出度越小。通過(guò)節(jié)點(diǎn)大小區(qū)分節(jié)點(diǎn)入度的差異,節(jié)點(diǎn)越大,入度越大;反之,則入度越小。有別于用戶問(wèn)答網(wǎng)絡(luò),用戶關(guān)注網(wǎng)絡(luò)中直徑大的節(jié)點(diǎn)大多為深灰色,僅有少數(shù)為淺灰色,這就說(shuō)明較多關(guān)注其他用戶的用戶相應(yīng)地獲得較多其他用戶的關(guān)注,形成了用戶聚集效應(yīng),即“馬太效應(yīng)”。
兩個(gè)用戶社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)如表2所示。首先,用戶問(wèn)答網(wǎng)絡(luò)包含689個(gè)節(jié)點(diǎn)和850對(duì)問(wèn)答關(guān)系,而這些用戶中只產(chǎn)生了277對(duì)關(guān)注關(guān)系,問(wèn)答關(guān)系是關(guān)注關(guān)系的3倍多。其次,用戶問(wèn)答網(wǎng)絡(luò)和用戶關(guān)注網(wǎng)絡(luò)的網(wǎng)絡(luò)直徑分別為3和10,平均距離分別為1.298和4.469。這說(shuō)明任意兩個(gè)用戶如果想進(jìn)行知識(shí)交流,平均需要1.3個(gè)用戶,最多只需經(jīng)過(guò)2個(gè)用戶就可以完成知識(shí)傳遞;而想搭建直接的關(guān)注關(guān)系,則平均需要4.5個(gè)用戶,最多需要經(jīng)過(guò)9個(gè)用戶才能完成關(guān)注關(guān)系構(gòu)建。最后,用戶問(wèn)答網(wǎng)絡(luò)中包含了54個(gè)連通片和22個(gè)孤立點(diǎn),而用戶關(guān)注網(wǎng)絡(luò)中包含了547個(gè)連通片和544個(gè)孤立點(diǎn),這說(shuō)明用戶問(wèn)答網(wǎng)絡(luò)的連通性遠(yuǎn)高于用戶關(guān)注網(wǎng)絡(luò)。由此可以看出,在高血壓主題下,相較于通過(guò)關(guān)注的方式,用戶更傾向于通過(guò)問(wèn)答的方式建立關(guān)聯(lián),即在社會(huì)化問(wèn)答平臺(tái)中,知識(shí)交流是其主要功能。
表2 用戶社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)
進(jìn)一步對(duì)兩個(gè)用戶社交網(wǎng)絡(luò)的子群結(jié)構(gòu)進(jìn)行分析,如表3所示。從表3中可以發(fā)現(xiàn),相較于用戶關(guān)注網(wǎng)絡(luò),用戶問(wèn)答網(wǎng)絡(luò)包含的連通片數(shù)量更多、類型更豐富并且連通片規(guī)模更大,而用戶關(guān)注網(wǎng)絡(luò)中孤立點(diǎn)所占的比例遠(yuǎn)遠(yuǎn)大于用戶問(wèn)答網(wǎng)絡(luò)。顯然,用戶之間問(wèn)答互動(dòng)的頻率和方式高(多)于關(guān)注互動(dòng),且問(wèn)答互動(dòng)的覆蓋率和延展性優(yōu)于關(guān)注互動(dòng)。當(dāng)聚焦兩個(gè)網(wǎng)絡(luò)中唯一的大型連通片,用戶問(wèn)答網(wǎng)絡(luò)最大子群的稀疏性低于用戶關(guān)注網(wǎng)絡(luò)、聚集性高于用戶關(guān)注網(wǎng)絡(luò)。再次印證,相較于通過(guò)關(guān)注的方式進(jìn)行單向或雙向聯(lián)系,高血壓主題下的用戶更加傾向通過(guò)知識(shí)交流方式構(gòu)建聯(lián)系。
表3 用戶社交網(wǎng)絡(luò)的子群結(jié)構(gòu)
構(gòu)建用戶問(wèn)答網(wǎng)絡(luò)和用戶關(guān)注網(wǎng)絡(luò)后,本文從連通性、稀疏性和凝聚性等方面刻畫了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特征和子群結(jié)構(gòu)特征。接下來(lái),本文將從表征用戶在網(wǎng)絡(luò)結(jié)構(gòu)中的連接作用的節(jié)點(diǎn)權(quán)力的角度分析用戶的社交類型。節(jié)點(diǎn)權(quán)力可以由節(jié)點(diǎn)中心性反映,本文從節(jié)點(diǎn)連接程度和節(jié)點(diǎn)中介作用兩個(gè)角度進(jìn)行分析,根據(jù)點(diǎn)度中心性和中介中心性的數(shù)值分布特征,將用戶劃分為不同的社交類型,并作為凝練用戶畫像標(biāo)簽的依據(jù)。
點(diǎn)度中心性是指節(jié)點(diǎn)的出度、入度,體現(xiàn)了節(jié)點(diǎn)之間連接的程度,可以根據(jù)出度、入度的相對(duì)大小將用戶劃分為不同社交類型。但點(diǎn)度中心性的相對(duì)大小的判斷標(biāo)準(zhǔn)是模糊的,因而,基于點(diǎn)度中心性的社交類型劃分的關(guān)鍵在于分界線的選擇。
點(diǎn)度中心性是離散型隨機(jī)變量,分布類型包括二項(xiàng)分布、泊松分布等。由于離散型變量和連續(xù)型變量可以在一定基礎(chǔ)上進(jìn)行轉(zhuǎn)化,因此,離散型變量也可能符合連續(xù)型變量的分布特征,包括正態(tài)分布、指數(shù)分布和冪律分布等。以電影演員合作網(wǎng)絡(luò)、萬(wàn)維網(wǎng)、電力網(wǎng)和科學(xué)引文網(wǎng)等為代表的許多大型真實(shí)網(wǎng)絡(luò)的出度和入度均服從冪律分布[21-22]。本文僅選取高血壓主題下的用戶作為網(wǎng)絡(luò)構(gòu)建的對(duì)象,與這些大型網(wǎng)絡(luò)在數(shù)量級(jí)上存在較大差距,用戶網(wǎng)絡(luò)的特征值分布符合何種分布需在實(shí)驗(yàn)基礎(chǔ)上作進(jìn)一步判斷,然后根據(jù)分布的特點(diǎn)尋找分界線。
特征值與目標(biāo)分布的擬合程度,可以通過(guò)觀察法和定量分析法進(jìn)行判定。觀察法通過(guò)觀察特征值分布曲線與目標(biāo)分布曲線的重疊程度判斷其分布類型;定量分析法通過(guò)Kolmogorov-Smirnov擬合優(yōu)度檢驗(yàn)(K-S檢驗(yàn)),判定特征值分布與目標(biāo)分布之間是否有顯著差異,即假設(shè)特征值分布符合目標(biāo)分布(H0),如果設(shè)定顯著性水平為0.1,那么當(dāng)p>0.1(單側(cè)檢驗(yàn))或p>0.05(雙側(cè)檢驗(yàn))時(shí),無(wú)法拒絕原假設(shè),特征值分布符合目標(biāo)分布。
在對(duì)特征值進(jìn)行冪律分布檢驗(yàn)之前,需要進(jìn)行如下模型估計(jì)過(guò)程[23]。
(1)模型假設(shè):將特征值設(shè)為離散/連續(xù)變量x,假設(shè)x的頻率符合冪律分布,則有
其中,α>1;C為歸一化常數(shù)。由于x→0時(shí),p(x)發(fā)散,故存在xmin>0,使X>xmin時(shí),x才能符合冪律分布。
因此,式(1)等價(jià)于
其中,?(α,xmin)為赫爾維茨Zeta函數(shù)。一般情況下,當(dāng)x為離散變量時(shí),xmin=1即符合冪律分布假設(shè)。
(2)模型參數(shù)估計(jì):使用最大似然法估計(jì)模型中的參數(shù)α。盡管特征值可能為離散變量,而離散變量分布對(duì)應(yīng)的參數(shù)無(wú)法直接使用最大似然法進(jìn)行估計(jì)。但對(duì)于符合冪律分布的整數(shù)序列,其頻率值可以近似地等同于連續(xù)變量取整時(shí)對(duì)應(yīng)的頻率值。因此,離散變量分布對(duì)應(yīng)的參數(shù)α的估計(jì)方式為
由于特征值的真實(shí)概率分布未知,根據(jù)統(tǒng)計(jì)學(xué)原理,以特征值的頻率表示真實(shí)概率,即f(x=xi)=n/N。其中,n表示特征值為xi的節(jié)點(diǎn)數(shù)量;N表示特征值為非零的節(jié)點(diǎn)總數(shù)。
對(duì)特征值分布類型進(jìn)行檢驗(yàn)后,如果特征值分布呈(近似)冪律分布,獲取特征值分布的累計(jì)概率函數(shù),基于“二八法則”尋找特征值分布的分界線:當(dāng)F(x≤x0)<0.8時(shí),選取x0作為分界線。如果特征值分布呈(近似)正態(tài)分布,參考(近似)正態(tài)分布曲線的3σ原則,尋找數(shù)值分布的分界線。3σ原 則 為:橫 軸 區(qū) 間(μ-σ,μ+σ)內(nèi) 的 面 積 為68.26%;橫 軸 區(qū) 間(μ-2σ,μ+2σ)內(nèi) 的 面 積 為95.44%;橫 軸 區(qū) 間(μ-3σ,μ+3σ)內(nèi) 的 面 積 為99.74%。選取x1=μ±σ或x2=μ±2σ作為分界線。
對(duì)兩個(gè)用戶社交網(wǎng)絡(luò)的節(jié)點(diǎn)點(diǎn)度中心性進(jìn)行分布擬合和檢驗(yàn),結(jié)果如圖3和圖4所示。從圖中可以看出,用戶問(wèn)答網(wǎng)絡(luò)和用戶關(guān)注網(wǎng)絡(luò)的節(jié)點(diǎn)點(diǎn)度中心性分布曲線均呈現(xiàn)“長(zhǎng)尾”特征,與冪律分布曲線能夠較好地?cái)M合。
通過(guò)K-S擬合優(yōu)度檢驗(yàn)方法,做進(jìn)一步檢驗(yàn)(雙側(cè)檢驗(yàn)),提出以下假設(shè):
H1:用戶問(wèn)答網(wǎng)絡(luò)的出度分布符合冪律分布;
H2:用戶問(wèn)答網(wǎng)絡(luò)的入度分布符合冪律分布;
H3:用戶關(guān)注網(wǎng)絡(luò)的出度分布符合冪律分布;
H4:用戶關(guān)注網(wǎng)絡(luò)的入度分布符合冪律分布。
設(shè)定顯著性水平為0.1,K-S檢驗(yàn)結(jié)果顯示:p1=0.76>0.05,p2=0.41>0.05,p3=0.14>0.05,p4=0.07>0.05。無(wú)法拒絕原假設(shè)H1至假設(shè)H4,說(shuō)明用戶問(wèn)答網(wǎng)絡(luò)和用戶關(guān)注網(wǎng)絡(luò)的節(jié)點(diǎn)點(diǎn)度中心性分布均符合冪律分布。
基于上述結(jié)論,獲取用戶網(wǎng)絡(luò)節(jié)點(diǎn)點(diǎn)度中心性分布的累計(jì)概率函數(shù),基于“二八法則”尋找數(shù)值分布的分界線,分界線以左為長(zhǎng)尾的“頭部”,分界線以右為長(zhǎng)尾的“尾部”,結(jié)果如圖5和圖6所示。
圖3 用戶問(wèn)答網(wǎng)絡(luò)節(jié)點(diǎn)點(diǎn)度中心性分布曲線
圖4 用戶關(guān)注網(wǎng)絡(luò)節(jié)點(diǎn)點(diǎn)度中心性分布曲線
圖5 用戶問(wèn)答網(wǎng)絡(luò)節(jié)點(diǎn)點(diǎn)度中心性累積分布曲線
根據(jù)節(jié)點(diǎn)點(diǎn)度中心性分布特征,本文將用戶劃分為不同社交類型,每種類型對(duì)應(yīng)的用戶數(shù)量如表4所示。在用戶問(wèn)答網(wǎng)絡(luò)中,當(dāng)節(jié)點(diǎn)的出度和入度相對(duì)較大時(shí),說(shuō)明該用戶既保持較高的提問(wèn)量也保持較高的回答量,屬于學(xué)習(xí)成長(zhǎng)型用戶;當(dāng)節(jié)點(diǎn)的出度相對(duì)較大、入度相對(duì)較小時(shí),說(shuō)明該用戶對(duì)該主題抱有極大的興趣,屬于善于思考型用戶;當(dāng)節(jié)點(diǎn)的出度相對(duì)較小、入度相對(duì)較大時(shí),說(shuō)明該用戶對(duì)該主題的知識(shí)具有一定的儲(chǔ)備,屬于樂(lè)于助人型用戶;當(dāng)節(jié)點(diǎn)的出度和入度相對(duì)較小時(shí),說(shuō)明該用戶該主題下參與的問(wèn)答活動(dòng)較少,屬于默默學(xué)習(xí)型用戶。
圖6 用戶關(guān)注網(wǎng)絡(luò)節(jié)點(diǎn)點(diǎn)度中心性累積分布曲線
在用戶關(guān)注網(wǎng)絡(luò)中,當(dāng)節(jié)點(diǎn)的出度和入度相對(duì)較大時(shí),說(shuō)明該用戶既保持較高的關(guān)注量也保持較高的被關(guān)注量,屬于社交達(dá)人型用戶;當(dāng)節(jié)點(diǎn)的出度相對(duì)較大、入度相對(duì)較小時(shí),說(shuō)明該用戶傾向于主動(dòng)尋找該主題的相關(guān)用戶,屬于社交主動(dòng)型用戶;當(dāng)節(jié)點(diǎn)的出度相對(duì)較小、入度相對(duì)較大時(shí),說(shuō)明該用戶在該主題中獲得了較高的關(guān)注度但較少關(guān)注他人,屬于社交被動(dòng)型用戶;當(dāng)節(jié)點(diǎn)的出度和入度相對(duì)較小時(shí),說(shuō)明該用戶該主題下參與的問(wèn)答活動(dòng)較少,屬于社交懶惰型用戶。
由表4可知,用戶問(wèn)答網(wǎng)絡(luò)中占比最大的為偏好不定型用戶(88.83%),其余由高到低依次為:默默學(xué)習(xí)型、善于思考型、樂(lè)于助人型和學(xué)習(xí)成長(zhǎng)型;而用戶關(guān)注網(wǎng)絡(luò)中占比最大的同樣為偏好不定型用戶(94.48%),其余由高到低依次為:社交懶惰型、社交被動(dòng)型、社交達(dá)人型和社交主動(dòng)型。
中介中心性表示節(jié)點(diǎn)處于其他節(jié)點(diǎn)對(duì)的最短路徑上的程度,中介節(jié)點(diǎn)是子群中連接各級(jí)子模塊的關(guān)鍵節(jié)點(diǎn),可以根據(jù)節(jié)點(diǎn)中介中心性的相對(duì)大小,將用戶劃分為不同社交類型。同樣地,中介中心性的相對(duì)大小的判斷標(biāo)準(zhǔn)也是模糊的,因此,基于中介中心性的社交類型劃分的關(guān)鍵也在于分界線的選擇。
對(duì)用戶社交網(wǎng)絡(luò)的節(jié)點(diǎn)中介中心性數(shù)值分布與目標(biāo)分布進(jìn)行擬合與檢驗(yàn),其過(guò)程不作展開論述。結(jié)果表明,用戶問(wèn)答網(wǎng)絡(luò)的節(jié)點(diǎn)中介中心性分布符合冪律分布(p5=0.99>0.05);而用戶關(guān)注網(wǎng)絡(luò)的節(jié)點(diǎn)中介中心性分布不符合冪律分布(p6=0.03<0.05),也不符合正態(tài)分布(p7=0.00<0.05)和泊松分布(p8=0.00<0.05)。于是,獲取用戶問(wèn)答網(wǎng)絡(luò)節(jié)點(diǎn)中介中心性分布的累計(jì)概率函數(shù),基于“二八法則”尋找數(shù)值分布的分界線,計(jì)算結(jié)果如圖7所示。用戶關(guān)注網(wǎng)絡(luò)節(jié)點(diǎn)中介中心性的分布無(wú)明顯特征,針對(duì)這種情況的分界線設(shè)定方法需要作進(jìn)一步的研究,本文暫且使用累積分布所得的分界線劃分用戶。
表4 用戶網(wǎng)絡(luò)用戶類型分布(度分布)
圖7 用戶問(wèn)答網(wǎng)絡(luò)和用戶關(guān)注網(wǎng)絡(luò)節(jié)點(diǎn)中介中心性累積分布曲線
根據(jù)節(jié)點(diǎn)中介中心性分布特征,將用戶劃分為不同社交類型,每種類型對(duì)應(yīng)的用戶數(shù)量如表5所示。用戶問(wèn)答網(wǎng)絡(luò)中的關(guān)鍵用戶僅1位,重要用戶4位,在整個(gè)用戶網(wǎng)絡(luò)中所占的比例較小,合計(jì)僅0.73%,其余用戶均為普通用戶;用戶關(guān)注網(wǎng)絡(luò)中的關(guān)鍵用戶6位,重要用戶16位,在整個(gè)用戶網(wǎng)絡(luò)中的占比為3.19%,其用戶余均為普通用戶。
在對(duì)用戶社交行為特征進(jìn)行分析的基礎(chǔ)上,進(jìn)一步將社會(huì)化問(wèn)答平臺(tái)的用戶社交概況和社交聯(lián)系表示為標(biāo)簽和短語(yǔ)的形式,將社交類型表示為標(biāo)簽和分布圖的形式,如圖8所示。整體而言,高血壓主題下的用戶更加傾向于通過(guò)問(wèn)答方式建立聯(lián)系,但無(wú)論是通過(guò)問(wèn)答還是關(guān)注方式建立聯(lián)系,形成的社交網(wǎng)絡(luò)的聚集性都相對(duì)較小。且無(wú)論是在用戶問(wèn)答網(wǎng)絡(luò)還是關(guān)注網(wǎng)絡(luò)中,偏好不定型用戶和普通用戶占比均為最大。
具體來(lái)看,在用戶問(wèn)答網(wǎng)絡(luò)中,按用戶占比由高到低依次為:偏好不定型、默默學(xué)習(xí)型、善于思考型、樂(lè)于助人型和學(xué)習(xí)成長(zhǎng)型;在用戶關(guān)注網(wǎng)絡(luò)中,按用戶占比由高到低依次為:偏好不定型、社交懶惰型、社交被動(dòng)型、社交達(dá)人型和社交主動(dòng)型。但在關(guān)鍵用戶和重要用戶數(shù)量上,用戶關(guān)注網(wǎng)絡(luò)明顯多于用戶問(wèn)答網(wǎng)絡(luò)。
面向高血壓主題的用戶畫像直觀明了地揭示了高血壓主題下用戶群體的社交網(wǎng)絡(luò)結(jié)構(gòu)和社交類型的特征,有助于平臺(tái)管理人員掌握該主題下的用戶社交情況和用戶社交類型,為用戶分類管理和個(gè)性化服務(wù)提供決策依據(jù)。由于高血壓主題下的用戶問(wèn)答網(wǎng)絡(luò)和關(guān)注網(wǎng)絡(luò)中普通用戶占比最高,關(guān)鍵用戶和重要用戶數(shù)量有限,這使得用戶關(guān)注網(wǎng)絡(luò)、問(wèn)答網(wǎng)絡(luò)過(guò)度依賴于某幾個(gè)少數(shù)用戶,網(wǎng)絡(luò)穩(wěn)定性較低。
因此,平臺(tái)管理人員可以采取一定措施改善用戶社交聯(lián)系,提升網(wǎng)絡(luò)的連通性和聚集性。對(duì)于關(guān)鍵用戶和重要用戶,平臺(tái)可以采取一定的保護(hù)措施,向其推送優(yōu)質(zhì)的相關(guān)問(wèn)答,形成良性循環(huán),提高用戶黏性;對(duì)于普通用戶,平臺(tái)可以施加一定激勵(lì)和引導(dǎo)措施,促使普通用戶轉(zhuǎn)化為關(guān)鍵用戶或重要用戶,提高社區(qū)中在信息交流過(guò)程中發(fā)揮重要作用的關(guān)鍵用戶數(shù)量,豐富平臺(tái)高質(zhì)量的知識(shí)資源,進(jìn)而形成穩(wěn)定化和多樣化的平臺(tái)。與此同時(shí),對(duì)于有明確問(wèn)答或關(guān)注偏好的用戶,平臺(tái)可以提供有針對(duì)性的個(gè)性化服務(wù)。例如,邀請(qǐng)學(xué)習(xí)成長(zhǎng)型和樂(lè)于助人型用戶回答問(wèn)題;向?qū)W習(xí)成長(zhǎng)型和善于思考型用戶推薦可能感興趣的問(wèn)答,刺激用戶產(chǎn)出更多專業(yè)優(yōu)質(zhì)的問(wèn)答內(nèi)容;將學(xué)習(xí)成長(zhǎng)型和樂(lè)于助人型用戶推薦給社交主動(dòng)型和社交達(dá)人型用戶,使學(xué)習(xí)成長(zhǎng)型和樂(lè)于助人型用戶獲取更高的關(guān)注度,提高用戶社交廣度和深度,提升用戶使用體驗(yàn);對(duì)于占比較大的偏好不定型用戶,平臺(tái)可以推薦高血壓主題的優(yōu)質(zhì)問(wèn)答,也可以推薦其他熱門主題的優(yōu)質(zhì)問(wèn)答,豐富用戶瀏覽內(nèi)容,激發(fā)用戶興趣。
表5 用戶網(wǎng)絡(luò)用戶類型分布(中心性)
圖8 面向高血壓主題的用戶畫像
本文考慮了社會(huì)化問(wèn)答平臺(tái)用戶所處的社交群體及用戶之間關(guān)聯(lián),運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù)和社會(huì)網(wǎng)絡(luò)分析方法,遵循用戶社交行為數(shù)據(jù)獲取、用戶社交行為特征分析、用戶畫像表示與生成的研究思路,實(shí)現(xiàn)了面向高血壓主題的用戶畫像。
研究結(jié)果表明,將社會(huì)網(wǎng)絡(luò)分析方法運(yùn)用到用戶畫像的研究中,能夠有效地挖掘、組織和表示用戶社交行為特征。而基于節(jié)點(diǎn)特征值分布的用戶分類方法,可以揭示用戶之間的關(guān)聯(lián),實(shí)現(xiàn)用戶細(xì)分。在社會(huì)網(wǎng)絡(luò)分析基礎(chǔ)上生成的用戶畫像,進(jìn)一步歸納和概括了用戶的社交行為特征,有助于平臺(tái)管理人員對(duì)用戶社交和分類管理形成更深層次的認(rèn)知。本文的研究結(jié)果為社會(huì)化問(wèn)答平臺(tái)用戶畫像實(shí)現(xiàn)提供了借鑒和參考,也為社會(huì)化問(wèn)答平臺(tái)用戶畫像應(yīng)用奠定了基礎(chǔ)。
另外,本研究也存在一定局限。首先,研究選取了問(wèn)答和關(guān)注兩類典型的社交行為,未來(lái)還可以考慮將更全面和豐富的社交行為囊括在內(nèi)進(jìn)行分析,挖掘用戶社交行為特征;其次,本研究分別構(gòu)建了用戶問(wèn)答和關(guān)注網(wǎng)絡(luò)挖掘用戶社交行為特征,尚未考慮不同社交行為之間的關(guān)聯(lián),進(jìn)而開展用戶畫像融合的研究;最后,本文僅通過(guò)實(shí)現(xiàn)社會(huì)化問(wèn)答平臺(tái)用戶畫像揭示用戶社交行為特征,但是如何揭示用戶其他方面的特征,并對(duì)用戶畫像進(jìn)行綜合應(yīng)用仍需進(jìn)一步探索。