封世龍,潘思宇,王嘉偉,王順曄
(廊坊師范學院計算機系,廊坊065000)
隨著新媒體技術的不斷發(fā)展,自媒體正以迅雷不及掩耳之勢影響著人們的生活,每個個體既是信息的生產者又是信息的傳播者,自媒體既有多媒體、交互性、傳播性的特點,又兼具個性化、碎片化、群體性的優(yōu)勢,逐漸成為大眾獲取知識及娛樂的主體。自媒體時代大眾不僅享有生活上的諸多便利,也擁有一個直觀便捷表達自身態(tài)度和意愿的渠道,大眾開始越來越多地利用自媒體行使自己的話語權與監(jiān)督管理權。
輿情是“輿論情況”的簡稱,是指圍繞社會事件的發(fā)生、發(fā)展和變化,群眾對社會、個人及其他各類組織等方面的取向和社會態(tài)度。它是較多群眾關于社會中各種現(xiàn)象、問題所表達的信念、態(tài)度、意見和情緒等表現(xiàn)的總和[1]。
現(xiàn)代社會對自媒體視頻平臺的關注度越來越高,政府也在開始通過自媒體平臺發(fā)布信息,以體現(xiàn)其透明性。但由于網民的受教育水平存在差異,對知識的判斷能力有限,生活水平不同,就會產生和傳播各類謠言,影響和動搖大眾的認知,各級各類的謠言粉碎機也應運而生,可見重視網絡輿情刻不容緩。
自媒體視頻一個新生的信息傳播媒介,對各國政府提出了很高的監(jiān)管要求。同時自媒體平臺的信息密集度高,信息更新速度快,信息聚集度高等特點也決定了研究人們對自媒體平臺的關注方向是有意義的,是必要的。由此可見,群眾在自媒體平臺中發(fā)表的內容在網絡輿情中的重要地位。
現(xiàn)代網絡已成為大眾生活不可或缺的一部分,而網絡短視頻、短評等能夠快速表達作者意愿的信息傳播方式最受大眾歡迎。除了信息的原作者,網友也可以在合法的范圍內自由發(fā)表言論。這些評論文本往往包含著用戶自身所表達的情感傾向性,且這些大量的包含用戶主觀情緒的文本已經成為決策支持的一個有價資源[2]。因此,如何有效地對其進行監(jiān)管和引導成為重要問題。由于自媒體輿論的隨意性、隱匿性和模糊性,傳統(tǒng)的監(jiān)管方法難以對自媒體輿論進行有效的監(jiān)管和引導。自媒體視頻平臺輿情分析會將大眾關注的信息內容和大眾討論較多的信息內容進行分析,進而實現(xiàn)管理部門對于輿情走向的準確判斷。為此,現(xiàn)代網絡主流自媒體視頻平臺輿情分析已成為各單位、各部門預測以及監(jiān)管的重要部分。
從用戶數量及用戶粘度的角度分析,以下兩個自媒體視頻平臺有足夠作為研究對象的意義,本文所選擇的視頻平臺:
(1)Bilibili:日均視頻播放量7.25 億,用戶日平均使用時長83 分鐘(截止到2019 年11 月19 日)。
(2)抖音:日活躍用戶4 億(數據來自鈦媒體,截止到2020 年1 月6 日)。
通過數據爬蟲的技術抓取用戶的評論,分析用戶的情感傾向,并利用分析的結果輔助用戶決策、為政府及商家提供反饋[3]。網絡爬蟲技術是一種按照一定的規(guī)則,自動地抓取萬維網信息的程序或者腳本。它可以模擬人類瀏覽網頁和網絡上的各種信息,同時還可以對信息進行篩選、統(tǒng)計和保存。其實現(xiàn)過程為:用戶指定搜索關鍵詞或URL,網絡爬蟲開始對指定范圍的信息進行爬取和保存,直到將所有信息爬取完畢。網絡爬蟲不同于人類,可以輕松準確完成這種循環(huán)的工作。通過以上過程,網絡爬蟲可以將所需數據爬取下來。
網絡爬蟲被廣泛應用于搜索引擎、信息平臺等地方。開發(fā)者利用網絡爬蟲可以快速準確獲取所需信息并進行發(fā)布,效率遠高于人工檢索信息。
網絡爬蟲的運行過程類似于瀏覽器,它模擬人類使用瀏覽器瀏覽網頁,并完成數據響應。以瀏覽某網站的視頻評論為例:網絡爬蟲首先對該網頁發(fā)起請求,網站服務器應答請求并將網頁文件返回給網絡爬蟲。網絡爬蟲對收到的網頁文件進行可視化解析,同時提取用戶指定的有效信息,最終將數據呈現(xiàn)在屏幕上。網絡爬蟲運行的具體步驟如下:
(1)第一步:用戶指定網絡爬蟲的范圍,以URL 和種子文件居多。
(2)第二步:網絡爬蟲模擬人類對相應服務器發(fā)起請求。
(3)第三步:網絡爬蟲收到服務器返回數據并解析數據。
(4)第四步:將收集到的數據進行整理并存儲。
(5)第五步:爬取下一條URL。循環(huán)爬取未爬取的URL。
圖1 網絡爬蟲工作原理
本案例分析中使用到的數據來自Bilibili 網頁端、抖音高熱度短視頻。其中我們提取了視頻的標簽、熱度(尤其是短時間熱度增長快速的視頻)、評論、彈幕、視頻分類等信息。
爬蟲爬取了Bilibili 視頻評論和標簽的對應代碼所在位置,如圖2 所示,利用Python 3 的BeautifulSoup 庫可以將對應的評論、標簽抓取并保存待后續(xù)處理及分析[4]。
圖2 Bilibili評論信息-網頁代碼
爬蟲從自媒體視頻平臺排行榜上爬取數據,爬取的排行榜周期性更新,從不同更新周期的排行榜可以獲得不同時期的數據,同理不同分區(qū)的排行榜也可以得到相應數據。本文采用的數據截止2019 年底。圖3是一部分爬蟲爬取下來出現(xiàn)較多的詞語,利用后續(xù)分析程序可以得到分析結果。
圖3 爬蟲爬取的部分信息
網絡爬蟲將所需的信息保存到本地后,由程序進行中文分詞。整理“連詞介詞詞庫”和“情感詞庫”,使用jieba 庫對爬到的數據進行分詞,編寫Python 程序比對停用詞庫,刪除停用詞,并刪除如帶廣告性質的評論信息和帶推廣的信息,清除數字英文字符和一些空文本,還需刪除必要的表情信息,最終只留下有含義和有情感趨向的詞語。
統(tǒng)計結果中的百分比數據僅代表該類型在全部熱詞中所占的比例。其中包含一個詞匯有多種類型或中性詞匯含義暫時無法劃分入統(tǒng)計結果。
隨后將這些詞語與情感類詞匯詞語庫中的詞語進行對比,若匹配度達到閾值,則將其統(tǒng)計歸類為該類型的感情詞語,最終得到了短視頻觀看用戶的情感趨向。不在詞匯庫中的詞語會被計算出現(xiàn)的頻次,如果頻次高于閾值則單獨列出,由人工進行資料收集并整理存入統(tǒng)計計劃中。對于有實際含義的詞,程序會將其直接進行搜索或經加工后再進行搜索。通過搜索結果中的關鍵詞可以得知該詞的實際含義及用法。最終通過人工檢查對統(tǒng)計的結果進行驗證,檢查統(tǒng)計結果中的明顯錯誤,并進行人工規(guī)避。
實際上部分詞語具有多重含義,如2019 年詞語“是個狼人”有驚訝、感嘆的含義。在統(tǒng)計時會將這類詞語按不同分類的匹配度進行權重劃分后再做統(tǒng)計,并總結出占比最高的3 種情感類型比例。
圖4 熱門詞匯情感分析統(tǒng)計
根據圖4 可以得出,樂觀、消極、中性這三個詞語占據了全部自媒體視頻平臺的信息內容和評論,樂觀最高為51%,其次為中性31%,最后為消極18%。
根據樂觀占比最高可以得出參與網絡交流的群眾更傾向于追求更好的生活,更喜歡觀看高質量、高水平、高幸福度的自媒體視頻。在這四個情感類型中,“家里有礦”、“檸檬精”、“社會”、“妙啊”等詞語出現(xiàn)頻率最高。如“家里有礦”、“檸檬精”被網友更多地應用于高檔餐廳住所、高檔旅游、高成本實踐類視頻中,網友們往往想表達視頻作者有錢和自己很羨慕的感情。“社會”這個詞往往出現(xiàn)在一些令人震驚的視頻中,多用于表達視頻主人公見過世面或做事很高調等情感。統(tǒng)計顯示,此類視頻相對更受歡迎?!懊畎 币辉~多用于對婦孺皆知的事提出了新的且清奇的看法或處理方式,從而達到讓觀眾耳目一新的視頻。
根據消極占比最低可知網民的主力軍青年人為追求美好生活而奮斗和生活壓力大等主要特征?!?96”、“禿”、“沖鴨”、“我太難了”等詞語出現(xiàn)頻率最高。其原因在于當前青年人工作壓力過大,且因工作或生活無法得到充足睡眠和保養(yǎng)。“996”這個詞寓指工作時間過長、工作時間計劃不合理等信息,該詞曾在無數網絡平臺引起熱議。而“禿”已成為網友的口頭禪,用以表達自己壓力過大,或用于自嘲。“沖鴨”原意為沖呀,該詞由諧音變換而來。沖鴨一詞不僅體現(xiàn)了激勵類視頻進入大眾的目光,也以可愛的方式鼓勵現(xiàn)代人積極進取。同時有關于鴨子的表情包也在網友之間流傳,多表達可愛地去做某事。“我太難了”一詞源自某視頻作者的一個視頻。因該視頻主人公語氣和表情十分到位,該詞已快速成為廣大網友的口頭禪。
其他類型中出現(xiàn)頻率最高的詞語有“硬核”、“陳獨秀”、“垃圾分類”、“AWSL”和“注入靈魂”?!坝埠恕?、“陳獨秀”皆表達了做事很強硬、很熟練甚至令人驚訝。“AWSL”是“啊,我死了”的拼音首字母縮寫,多用于表達可愛的事物令人著迷?!白⑷腱`魂”一詞多用于表達畫龍點睛之筆,寓意為一件事添加最重要的部分使其完整。
將當下網絡熱詞進行諧音分析,通過使用Python的第三方庫xpinyin 將詞語轉換為拼音,利用搜索引擎可以識別拼音并轉換為高頻率使用的漢字這一特點,將拼音字符串在網絡上拼音字符串的信息進行識別匹配。如果搜索結果中有高頻率出現(xiàn)的詞,則將該詞視為諧音詞。對于影視臺詞、歌詞、文章斷句類型的詞語,將其添加“出處”(一個空格代表隔離關鍵詞)字符串進行搜索,若搜索結果有高頻率出現(xiàn)的詞,則視之為影視臺詞、歌詞、文章斷句類型的詞語。
同時存在很多詞語有多種來源的情況,如“雨女無瓜”一次來自于影視作品,同時它也是“與你無關”的諧音詞,通過人工資料查證后確定其來源類型。
圖5 流行語傾向分析統(tǒng)計
由圖5 可知,一詞多義和諧音詞語的比例高達34%,許多熱門詞匯都被網友作為口頭禪使用,其比例達31%,有資料來源的詞語占42%。
在網絡熱詞中具有代表性的一詞多義和諧音的詞語有“陳獨秀”、“買橘子”、“正片開始”、“沖鴨”、“雨女無瓜”和“我可以”。從該類型詞語使用頻率的角度來看,當代網友更喜歡隱含地表達自己的情感,或出于交流簡便而使用含義較多的詞語。從詞語使用場景來看,“陳獨秀”一詞不僅僅指歷史上的人物陳獨秀,還寓指這個人的做法很“show-秀”,即令人驚奇的意思。“正片開始”一詞可指片頭廣告結束,正片即將開始,也可指視頻內容已結束,但結尾曲或結尾彩蛋令人注目?!坝昱疅o瓜”、“沖鴨”皆取自諧音,原意為“與你無關”、“沖呀”。利用諧音表達可降低語氣的強烈度,也可結合場景包含多層含義。
多被用于口頭禪的詞匯往往與生活密切相關。如“我太難了”、“盤他”、“皮”、“妙啊”等詞語就可簡單地表達日常生活中的感觸。詞語“盤他”出自相聲段子,意指不用管太多,做就行了。“皮”一詞意為很頑皮,可用于生活中被惡作劇后或視頻內容非常頑皮搞笑。
出自影視、歌曲或文章的詞語也常被用于口頭禪中。它在現(xiàn)代使用中更多地體現(xiàn)了一種另類的俏皮。如“涼涼”、“佩奇”、“橘子”等詞語被廣泛流傳和應用?!皼鰶觥背鲎愿枨稕鰶觥?,多被用于表達對象做的事注定失敗或已經失敗,同時該詞還有惋惜、同情之意?!芭迤妗币辉~出自《小豬佩奇》動畫片,但該詞是經過網友的改編后才流傳在網絡上。該詞全句為:小豬佩奇身上紋,掌聲送給社會人。意義同中“社會”一詞?!伴僮印币辉~出自朱自清的短篇散文《背影》。原句為:我買幾個橘子去。你就在此地,不要走動。該詞多被用于倫理中,有貶義。
綜上所述,自媒體視頻熱詞的使用往往與其出處有較大差別。但其包含的意義眾多,既可以隱含地表達個人的情感也可以用于復雜情感的表達。
自媒體視頻平臺輿情呈現(xiàn)出的感情色彩十分明顯[5]。從熱門詞匯來看,人們更加傾向于觀看令人耳目一新或非常有內涵的視頻。與此同時,人們對經典動畫作品和經典影視文學作品的關注也有所上升。因此當代網民更加關注對美好生活的追求,對休閑類事物的需求以及對高壓力工作的不滿與無奈。
與此同時,通過調查發(fā)現(xiàn)有很多視頻作者依靠斷章取義、故作聲勢的行為來吸引觀眾以牟取利益。正是自媒體視頻平臺的急速發(fā)展與低門檻和高自由度的視頻制作滋生了“低創(chuàng)視頻”,甚至是誤導大眾的視頻。而群眾對于種網絡媒體的辨識能力差異較大,誤信誤傳,影響網絡傳播環(huán)境。
近年來版權問題也備受網友關注。字體版權、商標問題、盜版軟件、盜版音樂等在大眾眼中還未形成正確的理解。2019 年商標搶注事件引起國家關注,也為群眾敲響了版權、知識產權保護意識的警鐘。作為視頻作者或自媒體平臺,應對各類權益問題加以重視。
自媒體視頻平臺的輿論監(jiān)管需要自媒體平臺和政府機構共同努力,努力創(chuàng)建以正確政治導向為主的輿論環(huán)境[6]。
對于自媒體網絡視頻平臺而言,積極響應國家號召,及時向政府文化管理部門匯報網絡輿情信息,對網民開通便捷的反饋通道,加強視頻的審核力度是有必要的。作為群眾與群眾,群眾與政府交流的橋梁,自媒體視頻平臺有義務維護群眾輿論與國家信息導向相符,凈化網絡環(huán)境。特別要重點關注低創(chuàng)作者、斷章取義作者和網絡水軍的動向,在平時對該類作者和人群加以培訓和引導,在輿論關鍵時期對其加以合理管控。對網絡謠言的創(chuàng)造者和傳播者,必要時需采取法律手段處理。
政府文化監(jiān)管部門應加強與群眾的交流,緊跟時代潮流以正確合理引導大眾輿論走向。一方面可以建立政府及文化監(jiān)管部門對群眾的便捷反饋通道,另一方面也要積極加入社交平臺對輿論進行合理的導向,并對監(jiān)管到的謠言及時用真相調查辟謠。例如“共青團中央”官方賬號在Bilibili 已擁有600 萬關注量,位列平臺前茅。同時政府工作人員也要緊跟民意,合理應對網絡輿情突發(fā)事件。文化管理部門的公信力也影響到了網絡輿情的管理。最后,必要時需要以立法的形式來規(guī)范網絡輿論行為或網絡不當行為。
基于自媒體視頻平臺的輿情分析,以自媒體輿情分析為核心,通過中文分詞分析自媒體視頻平臺的用戶評論的情感分析,獲取輿論傾向。本文結合網絡爬蟲、程序設計、大數據分析等機制,使現(xiàn)代網絡自媒體輿情的分析過程更加合理、快捷、準確、高效,自媒體視頻平臺與網絡爬蟲兩方面的有機結合,為現(xiàn)代網絡自媒體輿情的分析和政府監(jiān)控監(jiān)管提供了一種新的解決方案。