關(guān) 琳
(1.江蘇警官學(xué)院 公安管理系,江蘇 南京 210031;2.南京大學(xué) 中國(guó)智庫(kù)研究與評(píng)價(jià)中心,江蘇 南京 210093)
對(duì)“話語(yǔ)”的研究,一直是各相關(guān)學(xué)科共同關(guān)注的熱點(diǎn)領(lǐng)域。隨著計(jì)算機(jī)技術(shù)的發(fā)展,這一領(lǐng)域逐漸成了交叉研究融合的熱點(diǎn)。
人工智能時(shí)代,自然語(yǔ)言處理技術(shù)可以幫助計(jì)算機(jī)提升對(duì)“話語(yǔ)”的理解程度,而大數(shù)據(jù)文本技術(shù)可為研究者提供豐富的語(yǔ)料資源。二者的有機(jī)結(jié)合很好地輔助這項(xiàng)研究的實(shí)施。爬蟲(chóng)可以方便實(shí)時(shí)獲取固定格式的社交媒體文本內(nèi)容,以支撐“話語(yǔ)”輿情熱點(diǎn)研究。通過(guò)爬蟲(chóng)獲取英語(yǔ)國(guó)家Twitter“話語(yǔ)”,并以此為分析對(duì)象開(kāi)展輿情研究的成果在Web of Science中不勝枚舉。然而,“話語(yǔ)”的產(chǎn)生和表達(dá)與對(duì)象的文化、知識(shí)甚至是成長(zhǎng)背景密不可分。其“話語(yǔ)”表達(dá)的思想存在時(shí)空關(guān)聯(lián)性和場(chǎng)景特定性,無(wú)法追溯Twitter之外不同時(shí)空?qǐng)鼍皝?lái)源的“話語(yǔ)”是爬蟲(chóng)工具視角下歐美“話語(yǔ)”研究的短板。
由于各國(guó)社會(huì)文化背景的差異,“話語(yǔ)”的表達(dá)方式不盡相同。與歐美國(guó)家相比,東亞國(guó)家“話語(yǔ)”表達(dá)更為審慎和含蓄,“話語(yǔ)”傳播以正式渠道為主,更容易追溯歷史文本并開(kāi)展宏觀時(shí)空下的話語(yǔ)研究。當(dāng)下,隨著移動(dòng)互聯(lián)網(wǎng)的普及,社交媒體在“話語(yǔ)”宣傳中占有重要位置,如何將文本分析與爬蟲(chóng)工具相融合,是東亞“話語(yǔ)”研究的重要議題。
為整合東西方“話語(yǔ)”研究的數(shù)據(jù)資源,解決“話語(yǔ)”研究的共性問(wèn)題,本文擬提出一種建構(gòu)在數(shù)據(jù)庫(kù)基礎(chǔ)上的融合研究框架,探索建立基于時(shí)空?qǐng)鼍暗脑捳Z(yǔ)文本數(shù)據(jù)庫(kù),融合爬蟲(chóng)工具,拓展“話語(yǔ)”歷史文本與社交媒體文本內(nèi)容的融合研究。
國(guó)外收錄“話語(yǔ)”的數(shù)據(jù)庫(kù)工具較少,我國(guó)在這一方面資源相對(duì)豐富。這些數(shù)據(jù)庫(kù)工具的共同點(diǎn)是具備新聞發(fā)布、信息檢索、動(dòng)態(tài)交互、資料分享、手機(jī)閱讀等多重功能。作為我國(guó)“話語(yǔ)”面向公眾的傳播平臺(tái),這些數(shù)據(jù)庫(kù)的功能十分豐富實(shí)用。但是就“話語(yǔ)”研究而言,由于產(chǎn)品定位,從功能上看上述數(shù)據(jù)庫(kù)普遍缺乏基本的文本統(tǒng)計(jì)、計(jì)量、分析手段;從內(nèi)容上看,其收錄的講稿僅僅局限于十八大以來(lái)的若干篇重要講話;從信息的組織形式上看,也僅僅支持按照主題或時(shí)間的分類查詢。由于缺少文本語(yǔ)料庫(kù)的詞表、索引等關(guān)鍵組件,未來(lái)也無(wú)法滿足詞頻分析、文本挖掘等研究需要。因此,上述數(shù)據(jù)庫(kù)系統(tǒng)的功能與“話語(yǔ)”研究的實(shí)際需求相差甚遠(yuǎn),與本文探索建立的基于時(shí)空?qǐng)鼍暗脑捳Z(yǔ)文本數(shù)據(jù)庫(kù)存在著系統(tǒng)功能、數(shù)據(jù)內(nèi)容和數(shù)據(jù)組織形式上的顯著差異。
以重構(gòu)“話語(yǔ)”的數(shù)字語(yǔ)境為目標(biāo),“話語(yǔ)”文本數(shù)據(jù)庫(kù)應(yīng)主要包括3個(gè)方面的內(nèi)容:首先“話語(yǔ)”文獻(xiàn)是一類專題文獻(xiàn)要盡可能的擴(kuò)充文本資源;其次從數(shù)據(jù)挖掘提升機(jī)制的角度出發(fā)要設(shè)計(jì)合理的標(biāo)引策略;最后數(shù)據(jù)庫(kù)在設(shè)計(jì)過(guò)程中要引入時(shí)間、空間和場(chǎng)景向量,便于后續(xù)開(kāi)展計(jì)量研究。按照以上思路設(shè)計(jì),基于時(shí)空?qǐng)鼍暗脑捳Z(yǔ)文本數(shù)據(jù)庫(kù)系統(tǒng)如圖1所示。
圖1 基于時(shí)空?qǐng)鼍暗脑捳Z(yǔ)文本數(shù)據(jù)庫(kù)系統(tǒng)
“話語(yǔ)”文本存在形式具有多樣性特點(diǎn),按照“話語(yǔ)”文本收集(處理)—保存—利用的流程需求,基于時(shí)空?qǐng)鼍暗脑捳Z(yǔ)文本數(shù)據(jù)庫(kù)包括3個(gè)模塊。
收集(處理)模塊的主要功能為數(shù)據(jù)采集和處理?!霸捳Z(yǔ)”廣泛存在于各類專題庫(kù)、新聞報(bào)道和網(wǎng)絡(luò)媒體,數(shù)據(jù)采集層需要兼顧各種不同來(lái)源的“話語(yǔ)”采集需求。由于中西方“話語(yǔ)”傳播方式和渠道的差異,數(shù)據(jù)庫(kù)系統(tǒng)需要兼容爬蟲(chóng)和應(yīng)用程序編程接口(Application Programming Interface,API)多種采集方式,以便于開(kāi)展對(duì)包含社交媒體、新聞和專題庫(kù)數(shù)據(jù)的采集。對(duì)于收集到的所有網(wǎng)絡(luò)文獻(xiàn)需要將其文本化,即清洗網(wǎng)頁(yè)中的鏈接、圖片等冗余內(nèi)容只保留文本,這一步借助成熟的自動(dòng)化工具完成。對(duì)于收集到的紙質(zhì)文獻(xiàn)需要將其標(biāo)準(zhǔn)化,利用光學(xué)字符識(shí)別技術(shù)(Optical Character Recognition,OCR)識(shí)別文字內(nèi)容,將其電子化。
保存模塊的主要功能為數(shù)據(jù)保存和標(biāo)引。由數(shù)據(jù)采集層采集到的文本是經(jīng)過(guò)清洗和加工的標(biāo)準(zhǔn)化電子文本,需在數(shù)據(jù)保存層對(duì)其標(biāo)引。首先,建立以分類詞表為核心,其次,針對(duì)不同國(guó)籍和語(yǔ)種“話語(yǔ)”標(biāo)引規(guī)范。標(biāo)引工作以人工為主,抽詞標(biāo)引等自動(dòng)化方法為輔。通過(guò)數(shù)據(jù)保存層的標(biāo)引模塊,可以將文本打上時(shí)間、空間、主題、場(chǎng)景、來(lái)源、類型等信息標(biāo)簽,便于后續(xù)開(kāi)展研究。
應(yīng)用模塊的主要功能是數(shù)據(jù)展示。利用前期經(jīng)過(guò)文本清洗和標(biāo)引的電子文本,可在該模塊中開(kāi)展基于內(nèi)容分析法和文本計(jì)算法的定量研究,計(jì)量維度包括面向內(nèi)容分析的詞頻統(tǒng)計(jì)、面向交叉主題分析的時(shí)空?qǐng)鼍坝?jì)量等。應(yīng)用模塊的建立可為社會(huì)科學(xué)各相關(guān)領(lǐng)域的“話語(yǔ)”研究提供工具支撐。
新西蘭社會(huì)語(yǔ)言學(xué)家Janet Holmes[1]指出,在任意場(chǎng)景下參與者、話題、場(chǎng)景(社會(huì)情境)和功能這4項(xiàng)要素中至少有一個(gè)會(huì)對(duì)人們選擇語(yǔ)言造成影響?;跁r(shí)空?qǐng)鼍暗脑捳Z(yǔ)文本數(shù)據(jù)庫(kù)可支持多維度全時(shí)空的“話語(yǔ)”研究,采用該工具可以快速分析出“話語(yǔ)”的核心重點(diǎn)。
以新冠肺炎疫情場(chǎng)景下的“話語(yǔ)”為例,對(duì)待和處理新冠肺炎疫情,世界各國(guó)采取了不同的方式,得到了迥然不同的處理結(jié)果?!都~約時(shí)報(bào)》在2020年4月26日發(fā)表了一篇題為“260000 Worlds,F(xiàn)ull of Self-Praise,F(xiàn)rom Trump on the Virus”的文章,該文分析了自2020年3月9日新冠疫情在北美全面爆發(fā)以來(lái)的相關(guān)公開(kāi)語(yǔ)料,并將這些“話語(yǔ)”分為自我夸耀、同情受害者、指責(zé)他人和傳播錯(cuò)誤信息四大類,通過(guò)計(jì)量方法指出在總量約為26萬(wàn)詞的話語(yǔ)中,自我夸耀的話語(yǔ)達(dá)600余次[2]。
以基于時(shí)空?qǐng)鼍暗脑捳Z(yǔ)文本數(shù)據(jù)庫(kù)收錄的“話語(yǔ)”為研究對(duì)象[3],自2020年初新冠肺炎疫情暴發(fā)以來(lái),系統(tǒng)通過(guò)爬蟲(chóng)工具收集新華網(wǎng)報(bào)道關(guān)于疫情的“話語(yǔ)”文本共62篇。通過(guò)文本清洗、去除無(wú)意義高頻詞,開(kāi)展詞頻分析可以發(fā)現(xiàn),在抗擊新冠疫情期間,“人民”一詞共出現(xiàn)32次??梢?jiàn)在“話語(yǔ)”中反復(fù)提及的“人民”一詞無(wú)疑是我國(guó)抗擊新冠疫情“話語(yǔ)”的核心重點(diǎn)。通過(guò)“話語(yǔ)”對(duì)比研究,各國(guó)的抗疫主題略見(jiàn)一斑,并可以較好地解釋當(dāng)下各國(guó)疫情處理的現(xiàn)狀差異。
“話語(yǔ)”研究在國(guó)家政治、經(jīng)濟(jì)、外交等方面對(duì)政策的解讀有重要的意義。本文探索構(gòu)建的基于時(shí)空?qǐng)鼍暗脑捳Z(yǔ)文本數(shù)據(jù)庫(kù),為我國(guó)“話語(yǔ)”研究和宣傳提供了新的視角,可支撐人文社會(huì)科學(xué)各領(lǐng)域的基于時(shí)空?qǐng)鼍暗摹霸捳Z(yǔ)”研究,同時(shí)也促進(jìn)了我國(guó)“話語(yǔ)”的宣傳和傳播。