叢鈺汶
(成都信息工程大學(xué),成都 610000)
B 站原名嗶哩嗶哩,早期是一個(gè)ACG(動(dòng)畫(huà)、漫畫(huà)、游戲)內(nèi)容創(chuàng)作與分享的視頻網(wǎng)站。經(jīng)過(guò)十年多的發(fā)展,圍繞用戶、創(chuàng)作者和內(nèi)容,構(gòu)建了一個(gè)不斷產(chǎn)生優(yōu)質(zhì)內(nèi)容的生態(tài)系統(tǒng),近年來(lái)在B 站平臺(tái)上有大量的教育學(xué)習(xí)內(nèi)容涌入。據(jù)B 站統(tǒng)計(jì),2018 年教育直播內(nèi)容時(shí)長(zhǎng)達(dá)到驚人的146 萬(wàn)h,僅2019 年就有1 827 萬(wàn)用戶前往B 站進(jìn)行學(xué)習(xí),2021 年B 站知識(shí)類創(chuàng)作者數(shù)量激漲,涵蓋眾多專業(yè)領(lǐng)域,多所高校與專業(yè)學(xué)院入駐B站并進(jìn)行創(chuàng)作分享,與此同時(shí)B 站學(xué)習(xí)人數(shù)激增,突破了1.83 億。
學(xué)習(xí)類視頻作為在線學(xué)習(xí)的重要資源,對(duì)于知識(shí)傳播和教育發(fā)展具有重要意義[1],優(yōu)秀的學(xué)習(xí)類視頻對(duì)平臺(tái)和用戶的價(jià)值更大,視頻創(chuàng)作者更加期望深入地理解視頻制作,創(chuàng)作出更多更受歡迎的視頻。近年來(lái),許多的學(xué)者開(kāi)始關(guān)注視頻的特征和用戶行為,研究視頻本身的特征對(duì)用戶的影響和意義。湯志鵬[2]利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對(duì)用戶的長(zhǎng)期興趣進(jìn)行建模,在其研究中發(fā)現(xiàn),視頻的特征對(duì)用戶行為有著較為明顯的影響;另外,劉磊等[3]從視頻的受眾、內(nèi)容、營(yíng)銷(xiāo)等角度切入分析,研究高認(rèn)知度短視頻的特征;徐鵬宇等[4]則通過(guò)數(shù)據(jù)挖掘等分析方法,研究視頻中的標(biāo)簽等因素對(duì)于用戶評(píng)價(jià)和收藏的影響;楊陽(yáng)等[5]基于彈幕的用戶畫(huà)像描述了用戶的行為模式,有助于彈幕視頻平臺(tái)理解用戶的需求與偏好,針對(duì)性地改善平臺(tái)的內(nèi)容與服務(wù),以增強(qiáng)用戶參與度和忠誠(chéng)度。在視頻特征的研究方面,姜玲[6]研究圖書(shū)館短視頻特征,用內(nèi)容分析法對(duì)短視頻特征作總結(jié);高馨[7]調(diào)查研究圖書(shū)館抖音號(hào),分析了高傳播視頻的特點(diǎn)。他們的研究對(duì)推動(dòng)視頻制作更加符合用戶行為習(xí)慣起到了很好的作用,這些研究問(wèn)世以來(lái),幫助了視頻的推廣和質(zhì)量的提高,本文在這些研究的基礎(chǔ)上進(jìn)行進(jìn)一步細(xì)化,在細(xì)化視頻類別中進(jìn)行研究。
本文主要研究學(xué)習(xí)類視頻的收藏?cái)?shù),分析學(xué)習(xí)類視頻本身的特征對(duì)其收藏?cái)?shù)的影響,研究方法是采集學(xué)習(xí)類視頻的數(shù)據(jù),對(duì)這些視頻數(shù)據(jù)進(jìn)行學(xué)科分類,提取視頻的標(biāo)題信息,通過(guò)邏輯回歸模型,定性分析學(xué)習(xí)類視頻的收藏?cái)?shù)、影響因素,以及收藏?cái)?shù)和影響因素之間的關(guān)系。
本文數(shù)據(jù)來(lái)源于B 站學(xué)習(xí)類視頻的彈幕網(wǎng)[8-9],通過(guò)爬蟲(chóng)軟件爬取視頻信息,抓取時(shí)選取前1~50 頁(yè)的所有視頻共計(jì)2 945 條。對(duì)收集到的視頻信息進(jìn)行存儲(chǔ)整理,提取相關(guān)信息并分類,把這些視頻信息分為3 類,第一類是視頻和觀眾互動(dòng)程度的指標(biāo):播放量、彈幕總數(shù)、點(diǎn)贊數(shù)、分享數(shù);第二類是視頻自身的特性指標(biāo):視頻時(shí)長(zhǎng)、標(biāo)簽數(shù)量、視頻標(biāo)題;第三類是作者特性指標(biāo):發(fā)布者作品數(shù)量。其中:視頻中的硬幣數(shù)歸類為點(diǎn)贊數(shù),平臺(tái)為用戶設(shè)置了如果對(duì)視頻滿意可以投幣和點(diǎn)贊,標(biāo)簽數(shù)量包括發(fā)布者添加的描述性關(guān)鍵詞的數(shù)量,這些標(biāo)簽一般用于幫助用戶快速查找,也用于平臺(tái)自動(dòng)推薦和匹配用戶。對(duì)這些視頻的特征信息通過(guò)相關(guān)性建立數(shù)據(jù)關(guān)系,以視頻的收藏?cái)?shù)作為因變量,以視頻的其他各種信息特性指標(biāo)作為自變量,形成視頻信息研究的變量表見(jiàn)表1。
表1 視頻的特性指標(biāo)變量表
在進(jìn)行相關(guān)性分析前先對(duì)爬取的視頻數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)預(yù)處理包括刪除異常值和刪除缺失值。
在異常值處理和缺失值處理之后,首先對(duì)學(xué)習(xí)類視頻信息中的彈幕總數(shù)、投幣數(shù)、收藏?cái)?shù)、點(diǎn)贊數(shù)和分享數(shù)進(jìn)行描述性統(tǒng)計(jì)分析[10-11],繪制收藏?cái)?shù)和視頻數(shù)量的關(guān)系條形圖如圖1 所示。
圖1 收藏?cái)?shù)條形圖
通過(guò)分析收藏?cái)?shù)和視頻數(shù)量關(guān)系的條形圖能直觀發(fā)現(xiàn),收藏?cái)?shù)較高的視頻數(shù)量很少,只占整個(gè)數(shù)據(jù)集的小部分,大量的視頻的收藏?cái)?shù)很小,分析影響收藏?cái)?shù)的因素有很大的實(shí)用意義。因此,再來(lái)重點(diǎn)分析這些收藏?cái)?shù)很高的視頻有哪些特征,對(duì)這小部分獲得高收藏的視頻進(jìn)行分析,能了解學(xué)習(xí)類用戶的興趣特點(diǎn),能提出明確的對(duì)視頻制作的建議,而且這些建議能有效提高視頻被采用的效率。根據(jù)采集到的視頻數(shù)據(jù)計(jì)算,本文定義高收藏學(xué)習(xí)類視頻是指收藏?cái)?shù)高于平均水平(11 327.38)的學(xué)習(xí)視頻。
對(duì)高收藏學(xué)習(xí)類視頻的收藏?cái)?shù)按發(fā)布時(shí)間分別繪制箱線圖,如圖2 所示。其中發(fā)布時(shí)間按季度劃分,作為箱線圖的橫坐標(biāo),收藏?cái)?shù)為縱坐標(biāo)。
圖2 收藏?cái)?shù)和發(fā)布時(shí)間箱線圖
箱線圖顯示在7—9 月和10—12 月這2 個(gè)時(shí)間段內(nèi),視頻的收藏量普遍較高。分析這段時(shí)間里發(fā)布者和用戶的情況,發(fā)現(xiàn)這段時(shí)間是學(xué)校暑假和節(jié)假日,視頻創(chuàng)作者有更多的時(shí)間制作視頻,而且夏季和年末是學(xué)生放假和休假的時(shí)間,有更多的空閑時(shí)間來(lái)瀏覽和收藏視頻內(nèi)容,相比其他時(shí)間兩者的配合度會(huì)更高。
對(duì)視頻收藏?cái)?shù)和標(biāo)簽數(shù)的關(guān)系繪制散點(diǎn)圖,如圖3 所示。從圖3 中可以看出,收藏率高的視頻標(biāo)簽數(shù)量也維持在較高的范圍,說(shuō)明視頻的標(biāo)簽越多,就越容易被搜索到也就會(huì)有更高的收藏?cái)?shù),但是同樣發(fā)現(xiàn)有很多低收藏視頻具有較多的標(biāo)簽數(shù)量,只有高質(zhì)量的符合用戶需求的學(xué)習(xí)類視頻獲得了收藏。
圖3 不同標(biāo)簽數(shù)的收藏?cái)?shù)散點(diǎn)圖
在分析學(xué)習(xí)類視頻的關(guān)鍵特征時(shí),注意到學(xué)習(xí)類視頻的視頻學(xué)科分類很多[12],不同的視頻學(xué)科分類會(huì)吸引不同的受眾,因此需要分析不同視頻學(xué)科分類的視頻在收藏?cái)?shù)上的差異,在學(xué)科分類分析中,提取視頻信息采用TF-IDF 量化標(biāo)題傳達(dá)的信息量,得到每個(gè)視頻標(biāo)題信息得分。
首先,對(duì)視頻標(biāo)題進(jìn)行分詞和詞頻統(tǒng)計(jì),隨后,采用TF-IDF 技術(shù)[13]來(lái)量化分析視頻標(biāo)題的信息量。TF-IDF是一種文本處理技術(shù),用于計(jì)算一個(gè)詞在文本中的重要性程度。TF-IDF 的定義是:TF-IDF=TF×IDF。其中TF 是詞頻,表示某一詞匯在文檔中出現(xiàn)的頻率,IDF 是文本頻率,表示一個(gè)詞語(yǔ)重要性的度量。對(duì)每個(gè)標(biāo)題所含詞語(yǔ)的TF-IDF 值求和作為整個(gè)標(biāo)題的信息得分,分別選取信息分?jǐn)?shù)最高的6 個(gè)視頻標(biāo)題和最低的6 個(gè)視頻標(biāo)題進(jìn)行對(duì)比,見(jiàn)表2,可以明顯看出他們傳遞的信息差異。
表2 視頻標(biāo)題信息對(duì)比表
信息分?jǐn)?shù)高的視頻標(biāo)題能突出視頻的特點(diǎn)和優(yōu)勢(shì),比如提供學(xué)習(xí)和解決問(wèn)題的方案和方法,并使用了高頻詞匯和關(guān)鍵詞,能夠吸引觀眾的興趣和好奇心,從而提高視頻的收藏量。信息分?jǐn)?shù)最低的視頻標(biāo)題則因?yàn)闆](méi)有明確的特征,內(nèi)容相對(duì)較為簡(jiǎn)單,不能傳達(dá)明確的視頻主題和內(nèi)容,難以吸引觀眾的興趣和注意力。
根據(jù)LDA 主題模型[14]對(duì)視頻標(biāo)題進(jìn)行學(xué)科分類,在分類中如果分類主題數(shù)設(shè)置為5 時(shí),各個(gè)類別區(qū)分度較高。因此采用5 個(gè)分類類別,分類如圖4 所示,根據(jù)每個(gè)類別的高頻詞情況,將各個(gè)類別分別命名為“考研課程”“零基礎(chǔ)入門(mén)自學(xué)教程”“計(jì)算機(jī)相關(guān)教程”“藝體相關(guān)教程”“高中課程”。
圖4 詞云圖
邏輯回歸[15-16]是一種廣泛應(yīng)用于分類問(wèn)題的統(tǒng)計(jì)學(xué)習(xí)方法。二項(xiàng)邏輯回歸模型是如下的條件概率分布,式中:x 是輸入,也就是播放量、彈幕總數(shù)和點(diǎn)贊數(shù)等變量,Y 是輸出。
為了深入研究高收藏學(xué)習(xí)類視頻的特征,將所有視頻按照收藏?cái)?shù)是否超過(guò)11 327 次分成了低收藏和高收藏2 類,并將標(biāo)簽數(shù)、視頻數(shù)、發(fā)布時(shí)間以及視頻時(shí)長(zhǎng)、視頻學(xué)科分類和標(biāo)題信息得分作為自變量建立邏輯回歸模型,視頻學(xué)科分類變量使用LDA 主題模型分類結(jié)果,標(biāo)題信息得分使用TF-IDF 技術(shù)對(duì)標(biāo)題信息量進(jìn)行衡量。變量說(shuō)明見(jiàn)表3。
在視頻學(xué)科分類中以零基礎(chǔ)入門(mén)教程為基準(zhǔn)組,在發(fā)布時(shí)間分類中以發(fā)布時(shí)間1—3 月作為基準(zhǔn)組,在時(shí)間長(zhǎng)度上以時(shí)長(zhǎng)0.5 h 內(nèi)的視頻作為基準(zhǔn)組,構(gòu)建邏輯回歸模型?;貧w結(jié)果見(jiàn)表4。
表4 回歸分析表
通過(guò)分析研究影響視頻收藏?cái)?shù)的因素,對(duì)影響變量建立邏輯回歸模型,進(jìn)行統(tǒng)計(jì)分析,得到視頻學(xué)科分類、視頻時(shí)長(zhǎng)、視頻發(fā)布時(shí)間、標(biāo)題信息得分和視頻標(biāo)簽數(shù)量這5 個(gè)變量對(duì)收藏量影響顯著。得出如下結(jié)論:
1)不同學(xué)科視頻的收藏?cái)?shù)差異很大,計(jì)算機(jī)和藝體相關(guān)視頻收藏?cái)?shù)遠(yuǎn)遠(yuǎn)高于其他類別視頻。
2)在相同學(xué)科分類的視頻中,視頻時(shí)長(zhǎng)大于1 h后收藏?cái)?shù)就大大增加。
3)視頻發(fā)布時(shí)間對(duì)收藏?cái)?shù)有顯著影響。在7—9 月和10—12 月這2 個(gè)時(shí)間段發(fā)布的視頻獲得更多收藏。
4)視頻標(biāo)簽數(shù)量對(duì)收藏?cái)?shù)有顯著影響。
5)標(biāo)題信息得分對(duì)收藏?cái)?shù)有顯著影響。
根據(jù)以上結(jié)論發(fā)現(xiàn):計(jì)算機(jī)和藝體領(lǐng)域具有普遍的需求性,一些技術(shù)要點(diǎn)需要用戶反復(fù)觀看和模仿,因此這類視頻得到廣泛的收藏;長(zhǎng)時(shí)長(zhǎng)的視頻能夠提供更全面、詳細(xì)的內(nèi)容,滿足觀眾對(duì)深入學(xué)習(xí)和全面了解的需求,從而增加視頻的收藏和分享;7—9 和10—12 月,這些時(shí)間段剛好是學(xué)校假期和節(jié)日大假時(shí)間,有很多人在這段時(shí)間尋找相關(guān)學(xué)習(xí)內(nèi)容;在上傳視頻時(shí)添加大量標(biāo)簽,就容易被用戶查詢到,也能得到平臺(tái)的有效匹配,從而能獲得大量用戶的觀看和收藏;通過(guò)采用有吸引力、描述準(zhǔn)確的標(biāo)題,可以增加視頻的曝光度和吸引力,進(jìn)而增加視頻的收藏?cái)?shù)量。