石燕青 陳思 康樂樂
DOI.10.3969/j.issn.1008-0821.2021.12.006
[中圖分類號]G252.6 [文獻(xiàn)標(biāo)識碼]A [文章編號]1008-0821(2021)12-0060-09
在全球社會化進(jìn)程不斷加快的過程中,互聯(lián)網(wǎng)也迅速走向社交化,在線交流已經(jīng)成為一種重要的人際交往模式。作為Web2.0的典型應(yīng)用,在線問答平臺應(yīng)用戶需求而出現(xiàn),逐漸成為用戶溝通、交流、傳播、共享知識的重要渠道,并演變?yōu)橐环N具有超強(qiáng)影響力和傳播力的社會化媒體。隨著用戶參與程度不斷深化,在線問答已經(jīng)從簡單的提供答案轉(zhuǎn)變?yōu)橐环N社交屬性驅(qū)動的知識創(chuàng)造過程。在許多成熟的在線問答社區(qū)中,大部分用戶都具有很強(qiáng)的專業(yè)知識。因此,此類平臺上的信息除了能夠滿足用戶的信息需求之外,對于平臺以外更廣泛的用戶群體也往往具有比較持久的價值和影響力。因此,對在線問答社區(qū)的內(nèi)容質(zhì)量進(jìn)行研究具有重要意義。
目前,針對在線問答社區(qū)內(nèi)容質(zhì)量的研究主要包括用戶提供回答的意愿影響因素、回答內(nèi)容質(zhì)量的影響因素、對回答內(nèi)容質(zhì)量的評價等。其中,對于答案內(nèi)容質(zhì)量和有用性的研究角度較為全面,包括從答案特征和回答者特征角度,如回答及時性、答案的文本長度、用戶的信譽(yù)度、回答中是否包含社交元素等方面研究影響回答內(nèi)容質(zhì)量的影響因素;以及使用多種模型從內(nèi)容的情感傾向、用戶個人特征、內(nèi)容發(fā)布時間、內(nèi)容類型等多個角度進(jìn)行內(nèi)容質(zhì)量評價。如Kim S等從用戶角度,總結(jié)出情感認(rèn)同、內(nèi)容和有效性為用戶對最佳回答的主要評價和選擇標(biāo)準(zhǔn);Jeno J等從點(diǎn)擊次數(shù)、回答長度、回答者活躍等級等非文本特征來評估回答質(zhì)量;李明等從多維度構(gòu)建了知識可信度影響因素評估模型。用戶回答問題意愿的影響因素包括:通過問題答案獲得的成就感和聲譽(yù)的提高,以及互惠關(guān)系、社會關(guān)系和社區(qū)關(guān)系、用戶體驗、用戶自我效能等。此外,問題受到關(guān)注的程度和被回答的可能性,還會受到提問者和回答者之間的關(guān)系影響,如二者之間的熟悉程度、物理距離、社會相似性等。
可以看出,一方面,已有的研究大多基于答案相關(guān)特征來分析內(nèi)容質(zhì)量,而鮮少針對問題的特征和質(zhì)量進(jìn)行研究。目前,多數(shù)在線問答社區(qū)的內(nèi)容會通過搜索引擎進(jìn)行排名,因此,許多平臺將用戶投票和聲譽(yù)機(jī)制作為其系統(tǒng)設(shè)計的核心,以激勵用戶積極參與并生產(chǎn)高質(zhì)量的信息。然而,在系統(tǒng)中仍然有很大一部分問題沒有得到解答,即“問題饑餓現(xiàn)象”。優(yōu)質(zhì)的問題更容易獲得高質(zhì)量的回答,從而提高社區(qū)的服務(wù)質(zhì)量。因此,關(guān)注問題的質(zhì)量,以吸引更多用戶對問題的關(guān)注,對于提高問答社區(qū)的信息價值是至關(guān)重要的。另一方面,現(xiàn)有研究視角多集中在用戶方面,而在一個在線問答社區(qū)中,知識交流的驅(qū)動因素不僅僅是知識尋求者和知識提供者之間的關(guān)系,問題本身的特征、問題所處的環(huán)境、知識網(wǎng)絡(luò)的發(fā)展等也是重要的影響因素。因此,比起研究平臺上的答案是否能夠滿足用戶的即時信息需求,識別出有價值的內(nèi)容,分析其對于具有相似信息需求的用戶是否具有潛在的長期價值,似乎具有更加廣泛的意義。
為了更好地考察什么樣的問題更容易受到用戶青睞,本文以專業(yè)知識在線問答社——Stack O-verFlow作為研究對象,將研究視角從“知識尋求者一問題一知識提供者”關(guān)系轉(zhuǎn)向內(nèi)容中包含的知識,考察問題中包含的知識特征與問題質(zhì)量的關(guān)系。Stack Overflow向用戶提供信息資源的同時,也提供相應(yīng)的標(biāo)簽供用戶進(jìn)行資源標(biāo)記和分類。標(biāo)簽在對資源進(jìn)行有效組織的基礎(chǔ)上,也為進(jìn)一步考察系統(tǒng)的整體發(fā)展情況提供了外顯化的信息載體。因此,本文以標(biāo)簽作為知識的顯性化表示來開展量化研究。
1研究假設(shè)
已有研究表明,在線知識問答社區(qū)中,發(fā)布的問題數(shù)量會影響潛在知識提供者對問題的關(guān)注程度。問題數(shù)量的增加會提高同類問題集合的重要性,因此這類問題更有可能得到解決。當(dāng)一個問題中包含的標(biāo)簽使用頻次越高,表明社區(qū)內(nèi)同類問題越多。同時,也說明該知識在論壇內(nèi)的大眾化程度越高,此類知識大多是基礎(chǔ)性知識或近期關(guān)注度高的內(nèi)容,這類問題的解決會為論壇中大多數(shù)用戶提供參考,貢獻(xiàn)價值總量較大,因此這類問題更容易獲得較高的用戶評價。但是,隨著問題受關(guān)注程度增加,進(jìn)行評價的用戶也會增加,該問題的綜合評價達(dá)到一定程度時,可能會出現(xiàn)下降的趨勢。因此,提出以下假設(shè):
假設(shè)1:隨著標(biāo)簽使用頻次增加,問題得到的評價呈現(xiàn)先升后降的趨勢。
在開放性的在線知識社區(qū)中,用戶通過在線問答論壇發(fā)布內(nèi)容、獲取信息,本質(zhì)是一種知識交換行為。社會交換理論解釋了資源交換過程中的個體行為。具體地說,社會交換理論研究了個人為了從與其他人的接觸中獲得某些東西而相互交換資源的行為。公共產(chǎn)品理論認(rèn)為,如果消費(fèi)者能夠從公共產(chǎn)品中獲得更多利益時,他們會傾向于做出更多貢獻(xiàn)。當(dāng)問題中包含的標(biāo)簽之間相關(guān)性較高時,說明該問題的知識點(diǎn)比較集中。如果用戶擁有與之匹配的知識,用戶對于問題的理解和吸收能力會更強(qiáng),付出的時間成本更低,提供的答案質(zhì)量也會更高。因此,具備相應(yīng)知識的用戶會更傾向于回答這類問題,問題本身也更容易得到好評。故提出以下假設(shè):
假設(shè)2:標(biāo)簽問的關(guān)聯(lián)程度對于問題受到的評價具有正向影響作用。
認(rèn)知心理學(xué)領(lǐng)域的學(xué)者對選擇性注意理論的研究表明,除了問題所在的環(huán)境,如果一個問題具有較突出的特征,那么這個問題更有可能引起注意。當(dāng)一個問題中的標(biāo)簽來自不同的知識類群時,表明該問題涉及的知識多樣化程度更高,這類問題往往具有較高的創(chuàng)新性或挑戰(zhàn)性。Karim R L等對于開源軟件的研究表明,用戶解決這類問題時往往具有更強(qiáng)的內(nèi)在激勵作用和外在獎勵作用。回答這樣的問題對于回答者的聲譽(yù)也會有更大的提高,故用戶往往對這類問題具有較高的評價。因此,提出以下假設(shè):
假設(shè)3:標(biāo)簽的多樣化程度對于問題受到的評價具有正向影響作用。
組織學(xué)領(lǐng)域的學(xué)者認(rèn)為,問題所處的環(huán)境對于問題的受關(guān)注程度至關(guān)重要。當(dāng)問題中的標(biāo)簽在整個標(biāo)簽關(guān)聯(lián)網(wǎng)絡(luò)中處于重要位置時,相關(guān)知識的流通程度越高,該問題的受關(guān)注程度也會更高,因此隨著用戶評價越來越多,該問題的綜合分?jǐn)?shù)也可能會呈現(xiàn)出先升后降的趨勢。因此,提出以下假設(shè):
假設(shè)4:隨著標(biāo)簽網(wǎng)絡(luò)重要程度增加,問題得到的評價呈先升后降趨勢。
2數(shù)據(jù)來源與處理
為了驗證上文提出的理論假設(shè),本文收集了Stack Overflow從2008—2017年的數(shù)據(jù),其中包括6833276名用戶發(fā)布的42 134 619條問題和回答,以及48373個標(biāo)簽。根據(jù)標(biāo)簽使用的頻次設(shè)計不同的閾值,來觀察標(biāo)簽的比例和累計出現(xiàn)頻率情況,結(jié)果如表1所示。
從表1可以看出,在48373個標(biāo)簽中,有135個(0.28%)標(biāo)簽的使用頻次超過了35000次,即至少有35 000個問題中包含了這些標(biāo)簽,這些標(biāo)簽的累計使用頻次之和為19853664,超過了所有標(biāo)簽累計使用頻次之和的50%:而使用次數(shù)超過8855次的標(biāo)簽有566個,占標(biāo)簽總量的1.17%,這些標(biāo)簽出現(xiàn)的頻次之和接近所有標(biāo)簽使用次數(shù)之和的70%:使用次數(shù)超過811次的標(biāo)簽有4138個(8.55%),這些標(biāo)簽的使用次數(shù)累計之和超過了所有標(biāo)簽出現(xiàn)之和的90%:在第4組中,9033個標(biāo)簽的使用次數(shù)超過了246次,這9033個標(biāo)簽的使用次數(shù)之和占比超過了所有標(biāo)簽使用次數(shù)的95%:在最后一組中,標(biāo)簽的使用次數(shù)累計之和占到了系統(tǒng)中所有標(biāo)簽次數(shù)之和的99.73%。從第1組到第2組,每增加1%的標(biāo)簽數(shù)量,會導(dǎo)致標(biāo)簽累計次數(shù)增加20.56%;類似地,從第2組到第3組、第3組到第4組、第4組到第5組,標(biāo)簽數(shù)量每增加1%,相應(yīng)的標(biāo)簽累計使用次數(shù)之和分別增加2.9%、0.52%、0.09%。從標(biāo)簽數(shù)量占比和標(biāo)簽使用次數(shù)占比來看,除去第3組標(biāo)簽,系統(tǒng)中剩余標(biāo)簽的總使用次數(shù)占比不到10%,第3組的標(biāo)簽基本能夠滿足“用最少的標(biāo)簽數(shù)量最多程度地代表所有標(biāo)簽”的條件。因此,為了最大限度地減小計算復(fù)雜度,選擇第3組,即得到的4138個標(biāo)簽作為本文的研究數(shù)據(jù)。
本文關(guān)注的研究問題是:問題標(biāo)簽的特征是否會影響一個特定問題得到的評價。因此,將一個特定問題以及標(biāo)記該問題的標(biāo)簽作為一個研究單元,在此研究單元內(nèi)分別以問題的屬性和標(biāo)簽的屬性作為研究變量。通過表1中的4 138個標(biāo)簽來篩選相應(yīng)的問題,將不包含這4138個標(biāo)簽的問題過濾掉。通過對數(shù)據(jù)進(jìn)行清洗,包括刪除無效問題、刪除有空值的問題、刪除變量不完整的問題等操作,最終得到了超過2510445組“問題—標(biāo)簽”對,作為本文的研究數(shù)據(jù)。
3相關(guān)變量測度
3.1問題價值變量
為了研究標(biāo)簽的特性是否會對問題的價值產(chǎn)生影響,本研究從問題質(zhì)量方面對問題的價值進(jìn)行了量化。在社會化問答社區(qū)Stack Overflow中,用戶能夠?qū)γ恳粋€問題打分,問題的分?jǐn)?shù)代表該問題受到其他用戶的評價,能夠反映該問題的質(zhì)量。問題的得分較高,表明該問題具有價值,有更多的用戶希望或已經(jīng)從該問題中獲取知識,因此用問題的得分來表示問題的質(zhì)量。
問題得分的初始值為0,問題每得到一張贊成票,分?jǐn)?shù)增加1,每得到一個反對票,分?jǐn)?shù)減少1。該因變量可能是正整數(shù),也可能是負(fù)整數(shù)。
3.2知識特征變量
標(biāo)簽是該問題包含和涉及的知識點(diǎn)的濃縮和外化表達(dá)。本文研究的影響因素主要是標(biāo)簽特征,分別從以下幾個方面對于標(biāo)簽的特征進(jìn)行測度:
3.2.1標(biāo)簽的大眾化程度
標(biāo)簽在論壇中出現(xiàn)的頻次,即有多少個問題使用了此標(biāo)簽,表明了標(biāo)簽的大眾化程度。一個問題中包含多個標(biāo)簽,本文以一個問題及該問題包含的標(biāo)簽作為一個單元,取該問題下所有標(biāo)簽使用頻次的均值,作為該問題中標(biāo)簽的使用頻次。
3.2.2標(biāo)簽的關(guān)聯(lián)程度
一個問題中包含多個標(biāo)簽,這些標(biāo)簽之間的關(guān)聯(lián)性能夠反映出問題所涉及的知識之間的關(guān)聯(lián)性。為了測量該指標(biāo),使用逐點(diǎn)互信息法(PMI,Point-wise Mutual Information)來衡量標(biāo)簽之間的相關(guān)性。逐點(diǎn)互信息指標(biāo)的基本原理是計算標(biāo)簽之間共同出現(xiàn)的概率,相比于關(guān)注標(biāo)簽共同出現(xiàn)的次數(shù),關(guān)注共現(xiàn)概率能夠避免由于標(biāo)簽本身出現(xiàn)頻率差異而造成的誤差。逐點(diǎn)互信息的計算公式為:
3.2.3標(biāo)簽的多樣化程度
當(dāng)標(biāo)記一個問題的標(biāo)簽之間距離較遠(yuǎn)或標(biāo)簽來自不同的類群時,對于回答者來說,回答這類問題需要更加豐富的知識儲備。為了驗證假設(shè)3,通過測度標(biāo)簽的多樣化程度來反映問題所包含的知識多樣化程度。
首先,使用K-means聚類算法對4 138個目標(biāo)標(biāo)簽進(jìn)行分類。在此基礎(chǔ)上,使用Stirling A提出的多樣化分析框架,將多樣化程度看作系統(tǒng)中元素的一種分配方式,多樣化概念包含3種基本特性:多樣性、均衡性、差異性,每一種特性都是系統(tǒng)多樣化程度的必要但不充分條件,系統(tǒng)的多樣化程度由這3種基本特性共同決定。3種基本特性的內(nèi)涵如下:
1)多樣性。指系統(tǒng)中元素所在的類群數(shù)量,即系統(tǒng)中有多少種元素,例如,在生態(tài)學(xué)中用物種數(shù)量來表示,在經(jīng)濟(jì)學(xué)中用產(chǎn)品類別數(shù)量表示。在其他條件相同的情況下,多樣性指標(biāo)越大,系統(tǒng)的多樣化程度越大。
2)均衡性。指系統(tǒng)中的所有元素在各個類群中分布的均衡程度,即每個類群中分別包含了多少個系統(tǒng)元素,系統(tǒng)元素在每個類群中的占比可以用一組正分?jǐn)?shù)來表示,這些正分?jǐn)?shù)的和等于1。在其他條件都相同的情況下,系統(tǒng)元素在各個類群中的分布越均勻,系統(tǒng)的多樣化程度越大。
3)差異性。指元素間被區(qū)分的程度,是對元素問差異的測度指標(biāo)。該指標(biāo)對于系統(tǒng)多樣化程度的測度非常重要,因為元素間的差異化程度決定了系統(tǒng)中元素的分類,因此會直接影響多樣化指標(biāo)和均衡性指標(biāo)。在生物學(xué)和經(jīng)濟(jì)學(xué)中,該指標(biāo)通常基于某種形式的距離測量來表示。在其他條件都相同的情況下,元素間的差異化程度越大,系統(tǒng)的多樣化程度也越大。
在綜合考慮3種特性的基礎(chǔ)上,系統(tǒng)的多樣化程度D的測度公式為:
其中d表示系統(tǒng)中元素i和元素j的差異化程度,即差異性。在本研究中將標(biāo)簽作為系統(tǒng)元素,通過計算元素間的距離來表示元素間的差異。p和p分別是元素i和元素j在系統(tǒng)中所占的比例,即均衡性。對(N-N)/2對元素(i,j)構(gòu)成的矩陣求和,反映出了多樣性。
3.2.4標(biāo)簽的網(wǎng)絡(luò)重要程度
知識在網(wǎng)絡(luò)中的重要性對于其傳播能力有很大的影響。為了驗證假設(shè)4,用標(biāo)簽的網(wǎng)絡(luò)中心性表示該知識的網(wǎng)絡(luò)重要性。常用的網(wǎng)絡(luò)中心性測度指標(biāo)有3類:度中心性,表示與該節(jié)點(diǎn)直接相連的節(jié)點(diǎn)個數(shù):中間中心性,表示網(wǎng)絡(luò)中的一個節(jié)點(diǎn)控制其他節(jié)點(diǎn)交互的能力:接近中心性,表示網(wǎng)絡(luò)中一個節(jié)點(diǎn)與其他節(jié)點(diǎn)的接近程度。
本研究中,知識傳播的路徑是通過用戶節(jié)點(diǎn)而非標(biāo)簽節(jié)點(diǎn),因此,知識的傳播不涉及標(biāo)簽問的接近關(guān)系和控制關(guān)系,故計算標(biāo)簽的度中心性,即與該標(biāo)簽直接相連的標(biāo)簽數(shù)量,來表示標(biāo)簽在網(wǎng)絡(luò)中的重要性。在指標(biāo)計算時,通過計算一個問題下所有標(biāo)簽的度中心性均值,作為該問題的標(biāo)簽網(wǎng)絡(luò)重要性指標(biāo)。
3.3控制變量
在知識傳播的過程中,知識傳播的效果除了受到知識本身特性的影響之外,也會受到用戶的影響。例如,在知識共享系統(tǒng)中,如果一個問題由一個系統(tǒng)聲譽(yù)較高的用戶提出,那么該問題可能更容易受到其他用戶關(guān)注,并獲得好評。此外,提出時間更久的問題,暴露在社區(qū)中的時間更長,也會受到更多的關(guān)注。為了控制這些因素的影響,本文設(shè)置了以下指標(biāo):
3.3.1用戶聲譽(yù)
作為一個高效的專業(yè)在線問答網(wǎng)站,Stack O-verflow通過聲譽(yù)管理機(jī)制,根據(jù)用戶在網(wǎng)站上發(fā)布內(nèi)容的綜合價值,給予用戶聲譽(yù)值作為獎懲,旨在鼓勵用戶普遍參與到社區(qū)活動中,并激勵用戶產(chǎn)生高質(zhì)量的內(nèi)容。表2展示了用戶聲譽(yù)的管理機(jī)制。
3.3.2用戶被瀏覽次數(shù)
該指標(biāo)表示用戶在網(wǎng)站上發(fā)布的內(nèi)容(包括提問和回答)被查看和訪問的次數(shù),一方面,與用戶所發(fā)布內(nèi)容的熱門程度相關(guān):另一方面,也能反映出該用戶在網(wǎng)絡(luò)中的地位。
3.3.3問題創(chuàng)建時間
相比于發(fā)布時間短的問題,較早發(fā)布的問題會得到更多的回應(yīng),這會增加問題的累計得分和答案數(shù)量。因此,選擇2018年1月1日作為統(tǒng)一的時間節(jié)點(diǎn),以秒為單位計算問題發(fā)布時間與該時間節(jié)點(diǎn)的時間差,作為控制變量。
4研究結(jié)果及分析
在進(jìn)行數(shù)據(jù)分析前,由于用戶聲譽(yù)和用戶的被瀏覽次數(shù)的離散程度過大,為了減小模型擬合時的誤差,對這兩個指標(biāo)取對數(shù)。模型中變量的相關(guān)系數(shù)矩陣如表3所示??梢钥闯?,自變量問的相關(guān)系數(shù)都比較小。此外,對模型進(jìn)行方差膨脹因子檢驗,結(jié)果顯示方差膨脹因子的平均值為1.368,說明變量間不存在多重共線性。
由于本研究的因變量是計數(shù)數(shù)據(jù),因此計數(shù)模型進(jìn)行回歸分析。在計數(shù)模型中,泊松模型是使用范圍最廣的一種模型,該模型的假設(shè)條件是樣本的均值約等于方差,基于此假設(shè),對問題的得分進(jìn)行了K-S假設(shè)檢驗,檢驗結(jié)果中顯著性系數(shù)均小于0.05,拒絕原假設(shè),可知該變量不符合泊松分布。從其分布情況可以看出,問題得分是過度離散的,因此選擇負(fù)二項式回歸模型較為合適。負(fù)二項式模型可以被認(rèn)為是泊松模型的泛化,它具有與泊松回歸模型相同的均值結(jié)果,且其具有額外的參數(shù)來對過度離散的數(shù)據(jù)進(jìn)行建模,可以校正來自泊松模型的標(biāo)準(zhǔn)誤差偏移。
表4展示了4個標(biāo)簽特征對問題得分的影響作用結(jié)果。模型1是只包含控制變量的基準(zhǔn)模型,回歸結(jié)果顯示,3個控制變量的回歸系數(shù)均顯著,說明這3個變量對問題得分都有不同程度的影響作用。提問者的聲譽(yù)與問題的得分呈正相關(guān)關(guān)系。在實際情況中,提問者的聲譽(yù)越高,其在用戶網(wǎng)絡(luò)中的明星效應(yīng)越明顯,這類用戶的網(wǎng)絡(luò)影響力通常也較大,他們在社區(qū)發(fā)布的內(nèi)容一般能夠很快受到關(guān)注。另外,聲譽(yù)較高也能夠說明這些用戶發(fā)布的內(nèi)容質(zhì)量較高,他們往往是社區(qū)中知識較為豐富的專家型用戶,因此提出的問題一般更加專業(yè)和有價值。而與用戶的聲譽(yù)相反,用戶的被瀏覽次數(shù)對問題的得分具有抑制作用。創(chuàng)建時間更長的問題得到的好評相對更多一些。
模型2~模型5在基準(zhǔn)模型的基礎(chǔ)上逐步加入了4個自變量。在模型2中,加入了標(biāo)簽使用頻次的一次項和平方項來驗證假設(shè)1。結(jié)果顯示,標(biāo)簽使用頻次的一次項系數(shù)為正且顯著,其平方項系數(shù)為負(fù)且顯著,表明標(biāo)簽使用頻次與問題得分之間存在倒U形關(guān)系,即隨著標(biāo)簽使用頻次增加,問題得分呈現(xiàn)上升趨勢,但當(dāng)標(biāo)簽使用頻次超過一定程度時,問題得分逐漸呈現(xiàn)下降趨勢。
模型3、模型4分別對假設(shè)2、假設(shè)3進(jìn)行了驗證??梢钥闯?,自變量標(biāo)簽距離的系數(shù)顯著為正,而自變量標(biāo)簽多樣性的系數(shù)不顯著:表明標(biāo)簽距離有問題得分之間具有正相關(guān)關(guān)系,即一個問題下包含的標(biāo)簽相關(guān)性越高,該問題越有可能得到較高評價,假設(shè)2得到驗證:而標(biāo)簽問的多樣性程度對于問題得到的評價并沒有明顯的影響作用,假設(shè)3沒有得到驗證。
模型5中加入了標(biāo)簽網(wǎng)絡(luò)中心性的一次項和平方項來驗證假設(shè)4。結(jié)果顯示一次項系數(shù)顯著為正,二次項系數(shù)不顯著:說明標(biāo)簽網(wǎng)絡(luò)中心性與問題得分之間存在單調(diào)正相關(guān)關(guān)系,即標(biāo)簽在網(wǎng)絡(luò)中越重要,該問題的得分越高,且隨著標(biāo)簽網(wǎng)絡(luò)中心性的增加,問題得分不會出現(xiàn)下降趨勢。假設(shè)4僅得到部分驗證。該結(jié)論說明,當(dāng)一個問題在網(wǎng)絡(luò)中處于核心位置時,表明該問題的連通性更強(qiáng),是一個活躍的知識共享中心,具有較強(qiáng)的明星效應(yīng)。對于活躍程度高的明星問題,用戶更有可能從回答問題中獲得潛在的利益,如聲譽(yù)和互惠性的提高,因此對于該問題的評價也會越高。
為了對表4的回歸結(jié)果進(jìn)行進(jìn)一步驗證,采用逐步回歸篩選并剔除不合適的自變量,結(jié)果如表5所示。從表5可以看出,在包含所有自變量的模型7中,標(biāo)簽多樣性系數(shù)和標(biāo)簽網(wǎng)絡(luò)中心度的平方項系數(shù)未通過顯著性檢驗:通過逐步回歸自動去掉標(biāo)簽網(wǎng)絡(luò)中心度的平方項,逐步回歸分析中止,得到當(dāng)前最優(yōu)的模型8:模型8中的自變量系數(shù)的顯著性水平有所提高,但標(biāo)簽多樣性的顯著性水平仍然不理想,因此進(jìn)一步進(jìn)行逐步回歸分析的優(yōu)化:結(jié)果顯示,去掉標(biāo)簽多樣性后,AIC值增加幅度最小,因此得到去掉該自變量后的模型9,所有的變量系數(shù)均為顯著。該結(jié)果進(jìn)一步驗證了表4中的模型6。
在前文中,通過觀察標(biāo)簽使用頻次一次項系數(shù)和平方項系數(shù)的方向及顯著性,初步得出該自變量與因變量存在倒U形關(guān)系的結(jié)論。然而,Lind J T等指出,自變量系數(shù)的表現(xiàn)還不足以證明U形關(guān)系的存在。為了更加嚴(yán)格地驗證對此關(guān)系進(jìn)行驗證,本文使用Lind J T等提出的U形關(guān)系三步法進(jìn)行檢驗。
通過以上方法,得到自變量標(biāo)簽使用頻次的回歸系數(shù)結(jié)果如表6所示。
從結(jié)果中可以看出,自變量平方項的回歸系數(shù)為正,且在p<0.001的水平上顯著,滿足檢驗條件1。從表6中可以得到拐點(diǎn)為x=357 617.6,分別對拐點(diǎn)左右兩側(cè)的數(shù)據(jù)進(jìn)行線性回歸,結(jié)果如表7所示。
從表7中可以看出,拐點(diǎn)兩側(cè)的線性回歸結(jié)果滿足檢驗條件2。拐點(diǎn)x=357 617.6的95%置信區(qū)間為[329 318.4,400 342.2],自變量的數(shù)據(jù)范圍是[815.5,1 281518],顯然拐點(diǎn)及其95%置信區(qū)間都在自變量的數(shù)據(jù)范圍內(nèi),因此滿足檢驗條件3。
經(jīng)過檢驗,證明自變量標(biāo)簽使用頻次和因變量問題得分之間存在倒U形關(guān)系,即問題得分隨著標(biāo)簽使用頻次的增加,呈現(xiàn)出先升后降的趨勢。在一個在線問答系統(tǒng)中,標(biāo)簽是相關(guān)知識的代表和濃縮。標(biāo)簽的使用頻次高,表示該類知識在系統(tǒng)中的受關(guān)注程度較高,即有較多用戶提出了涉及該知識的問題,因此這類問題的解決能為系統(tǒng)用戶提供較高的價值,更容易受到用戶的認(rèn)可;隨著標(biāo)簽使用頻次的增加,問題在系統(tǒng)中的曝光程度也逐漸增加,越來越多的用戶評價會使問題得分呈現(xiàn)下降趨勢。
5總結(jié)與討論
社交媒體和網(wǎng)絡(luò)技術(shù)的發(fā)展導(dǎo)致信息爆炸的現(xiàn)象越來越嚴(yán)重,網(wǎng)絡(luò)平臺充斥著大量良莠混雜的信息。對于知識共享平臺來說,迫切需要明確什么樣的內(nèi)容更加能夠得到用戶的青睞,以便有價值的知識能夠得到有效的傳播和擴(kuò)散。本文以社會化知識問答社區(qū)Stack Ovemow為平臺,將研究重點(diǎn)放在問題本身的特征和所處的知識網(wǎng)絡(luò)環(huán)境,分析問題質(zhì)量的影響因素。研究發(fā)現(xiàn),知識的大眾化程度、知識的關(guān)聯(lián)程度以及知識的明星效應(yīng)都會對知識的受關(guān)注和擴(kuò)散程度產(chǎn)生影響。其中,知識的大眾化程度與問題質(zhì)量呈倒U形關(guān)系,當(dāng)知識之間的關(guān)系達(dá)到一個合適的值時,問題得到的評價最高:知識問的關(guān)聯(lián)度越高,問題越容易獲得較高的評價:問題中包含的知識在知識網(wǎng)絡(luò)中與更多的知識點(diǎn)之間建立關(guān)系,該問題越容易獲得高評價。
對于用戶來說,本研究的結(jié)論能夠更有效地指導(dǎo)提問者提出價值更高的問題,通過改變設(shè)置標(biāo)簽的技巧,使提出的問題具有更高的可見性和質(zhì)量,提高其在社區(qū)中的聲譽(yù)度。對于Staek Overflow這樣的專業(yè)型在線知識共享平臺而言,明確問題的傳播和評價受到哪些因素影響,可以進(jìn)一步幫助平臺制定針對用戶行為的獎懲機(jī)制,制定出更完善的平臺運(yùn)營機(jī)制。
然而,本研究仍然存在一些局限和不足之處。一方面,本研究的樣本選取具有一定的局限性:Stack Ovemow是一個專業(yè)的IT技術(shù)問答網(wǎng)站,內(nèi)容多集中在編程領(lǐng)域,具有較強(qiáng)的領(lǐng)域特征。在接下來的研究中,研究將擴(kuò)展到其他類型的在線知識共享系統(tǒng):另一方面,由于研究側(cè)重于知識特征的影響作用,僅將用戶因素作為控制變量,并沒有深入分析用戶和知識標(biāo)簽對問題的共同影響以及兩者之間的互動機(jī)制。實際上,社會化知識共享平臺區(qū)別于傳統(tǒng)網(wǎng)絡(luò)資源的一個重要特點(diǎn),是其包含豐富的用戶行為和用戶關(guān)系,基于用戶行為的系統(tǒng)研究是社會化網(wǎng)絡(luò)環(huán)境下知識組織和知識管理的熱點(diǎn)問題。如何同時從用戶和知識兩個維度出發(fā),建立完整、全面的社會化標(biāo)注知識共享模型和動態(tài)演化機(jī)制,是有待繼續(xù)深入研究的。