付海辰,朱 燕
(1. 唐山學(xué)院 計算機科學(xué)與技術(shù)系,河北 唐山 063000;2. 唐山師范學(xué)院 外語系,河北 唐山 063000)
語言學(xué)視角下河北官方微博特點及其應(yīng)用策略研究
付海辰1,朱 燕2
(1. 唐山學(xué)院 計算機科學(xué)與技術(shù)系,河北 唐山 063000;2. 唐山師范學(xué)院 外語系,河北 唐山 063000)
摘 要:立足于語言學(xué)視角,對河北省官方微博“微博河北”的原創(chuàng)微博文本進行了收集并建立“微博河北文本語料庫”。在詞匯層、句法層和符號學(xué)角度對“微博河北”進行解讀,提出“微博河北”在河北省建設(shè)中的應(yīng)用策略。
關(guān)鍵詞:微博河北;語料庫;政務(wù)微博;服務(wù)民生
微博起源于美國的推特(Twitter),初始階段服務(wù)僅限于向好友的手機發(fā)送文本信息。之后,推出集社交網(wǎng)絡(luò)和微博客服務(wù)的推特服務(wù),用戶可以將自己的最新動態(tài)和想法以短信息形式發(fā)布,但限制在140字符之內(nèi)。發(fā)布的信息被稱為“推文”,國內(nèi)則被稱為“微博”,它給世界范圍內(nèi)信息傳遞的方式帶來了革命性的變革。
根據(jù)上海交大輿情研究課題組調(diào)查數(shù)據(jù)顯示,截至2011年8月1日,僅在新浪微博中,政府機構(gòu)官方微博就達4 836個,政府官員微博達4 372個[1]。在某種程度上,這顯示了地方政府對微博的認可,希望通過多種渠道、不同形式對民眾進行政務(wù)公開和宣傳,并和民眾進行交流和溝通。微博也確實在很多方面發(fā)揮了積極的作用,如保證了普通民眾對法律政策和突發(fā)事件的知情權(quán)、民眾對政府部門的監(jiān)督權(quán)、民眾的發(fā)言權(quán)等。但也存在著一系列的問題,比如微博的更新和回應(yīng)速度、微博的權(quán)威性和公開性、如何有效利用微博為市政建設(shè)服務(wù)等。
本研究以河北省“微博河北”(河北外宣官方微博)為樣本,對自2011年4月創(chuàng)建以來的第一條微博,至2014年10月的所有原創(chuàng)微博文本進行收集,建立“微博河北文本語料庫”,運用相關(guān)軟件對語料庫中文本進行量化分析,為總結(jié)“微博河北”在語言運用層面的特點提供數(shù)據(jù)支持。在此基礎(chǔ)上進行實證研究,根據(jù)“經(jīng)濟建設(shè)、政治建設(shè)、文化建設(shè)、社會建設(shè)、生態(tài)文明建設(shè)”為特征的河北省“五位一體”建設(shè)提出改進建議
本研究抓取了新浪微博“政務(wù)廳”中河北省外宣官方微博“微博河北”自2011年4月14日建立至2014 年10月以來發(fā)布的共4 495條微博,經(jīng)過語料分類(微博正文、評論內(nèi)容、轉(zhuǎn)發(fā)內(nèi)容、微博表情符號等分類)、語料整理和去噪處理,分別建立了“微博河北綜合語料庫”“微博河北正文語料庫”“微博河北評論語料庫”“微博轉(zhuǎn)發(fā)評論數(shù)語料庫”和“微博表情符號語料庫”。
依據(jù)語體標記的提取原則,丁金國提出了228個語體標記,“這228個標記分布在三個層面,即語言平面、語義平面和語用平面。各個平面,再逐次分為不同的層級”[2]。課題在語言層面選取了詞匯層和句法層中的部分標記進行統(tǒng)計和分析,并對其特點進行了闡釋及分析。
1. 詞語層面數(shù)據(jù)分析
政務(wù)微博具備獨特的語言風(fēng)格。政務(wù)微博在統(tǒng)計學(xué)上的特征是根據(jù)微博語言表達中的不同語言特征在數(shù)量上的表現(xiàn)體現(xiàn)出來的。簡言之,政務(wù)微博的語言風(fēng)格在某種程度上體現(xiàn)在語言單位使用的頻次上。在計算語言學(xué)中,經(jīng)常使用詞的型例比可說明這一特征。詞的型例比(type and token ratio)計算公式是詞例數(shù)(type)和詞型數(shù)(token)之比。單詞使用的總次數(shù)是詞例數(shù),單詞的使用總數(shù)是詞型數(shù)。根據(jù)公式可以看出,詞的型例比越低,說明語料的詞語使用越豐富。
首先,經(jīng)統(tǒng)計,“微博河北”中的單詞總數(shù)為24 852,使用總次數(shù)為461 646,詞的型例比是46 164/24 852=18.58。根據(jù)相關(guān)研究,作為書面語體的口頭表達形式代表的《新聞聯(lián)播》,其詞型例比為2.962,而作為口語體典型代表的《實話實說》,其詞型例比為5.541 8[3]。張瑛在新浪政務(wù)微博隨機抓取的10個政務(wù)微博中各100篇的微博建立政務(wù)微博新聞?wù)Z料作為研究樣本,通過計算的詞型例比為5.557 1[4]。造成這種差距的原因可能在于,無論是《新聞聯(lián)播》《實話實說》還是這10個新浪政務(wù)微博,由于節(jié)目的性質(zhì)或者不同政務(wù)微博針對話題的不同,所以基本不存在話題重復(fù)的現(xiàn)象。但微博河北是河北省地方性的官方微博,由于其以地方話題為主的特點,因此相較于其他政務(wù)微博,詞的型例比過高。但另一方面也說明,“微博河北”正文的詞語使用還不夠豐富。微博河北評論語料庫的詞型例比為10.62,數(shù)值低于微博正文的詞型例比數(shù)。評論的詞匯豐富程度反倒高于微博正文,也說明網(wǎng)友在評論中使用詞匯豐富。
其次,微博正文中的分類單詞(純漢字詞+帶漢字詞)總數(shù)為27 887,分類使用總次數(shù)為443 012。1字詞和2字詞的使用頻率最高,排在三、四位的是324字詞。四者相加已達到了總使用率的98.961 8%。有研究表明,口語體中,小于或等于3音節(jié)數(shù)的詞匯平均使用頻率較書面語體高。比如,截取微博河北正文的一條,通過切詞分析得到下文:“【/w 河北/ns 推動/v 建立/v 京/jns 津/jns 冀/jns 創(chuàng)新/v 共同體/n合作/v 攻關(guān)/v 防治/v 大氣污染/ln 】/w “/w科學(xué)/n 治/v 霾/Ng 要/v 從/p 區(qū)域/n 的/u角度/n 來/v 考慮/v 。/w ”/w 省/n 科技廳/n 廳長/n 王/snr 志欣/nr 透露/v ,/w 我/r 省/n 將/d 積極/a 推動/v 建立/v 京/jns 津/jns 冀/jns 創(chuàng)新/v 共同體/n ,/w 開展/v 大氣污染/ln 防治/v 重大/a 科技/n 合作/v 攻關(guān)/v 。/w ”。整篇微博基本為三字及三字以下詞。
再次,因為名詞和動詞是可以獨立表達意思的詞類,微博的目的之一就是傳遞信息,因此這兩類詞的信息承載量最高。研究按詞頻為依據(jù),提取了名詞、動詞前50的高頻詞后,剔除了在各語域均為高頻詞的詞語,如是、有、為、要等。
微博河北正文中,承載重要信息的名詞,按使用頻率排序前25位分別為:微博、河北、河北省、石家莊、全省、活動、省委、企業(yè)、項目、中國、交通、社會、善行、網(wǎng)絡(luò)、人民、工程、群眾、會議、新聞、北京、保定、張家口、邯鄲、秦皇島和唐山。排序占前20位的動詞是:轉(zhuǎn)發(fā)、來自、評論、收藏、公布、服務(wù)、建設(shè)、進行、發(fā)展、開展、發(fā)布和實施。可見,微博河北主要的發(fā)布內(nèi)容仍集中于河北省和石家莊市的新聞和內(nèi)容,并在一定程度上輻射河北其他地區(qū)和中國。
通過對微博河北表情符號語料庫的統(tǒng)計可以發(fā)現(xiàn),共包括166種不同表情,使用總次數(shù)為2 034次。使用最多的表情符號為話筒(408次)、贊(130次)、圍觀(127次)、哈哈(97次)、心(95次)、嘻嘻(94次)、good(92次)。通過分析發(fā)現(xiàn),因為微博河北中很多政策發(fā)布等相關(guān)信息,因此話筒符號多為政策和消息發(fā)布前的固定符號;而其他符號多為網(wǎng)友在讀過博文后的評論中出現(xiàn),贊、圍觀等表情符號的出現(xiàn)說明了網(wǎng)友對微博河北發(fā)布信息的關(guān)注和支持。并且,在評論語料庫中可以發(fā)現(xiàn),網(wǎng)友大多用形容詞表達自己的感想和心情。因為評論詞中,二字詞居多,所以統(tǒng)計后發(fā)現(xiàn)占前五位的二字詞為安全、給力、幸福、快樂、不錯。這在一定程度上說明網(wǎng)友對河北微博發(fā)布的內(nèi)容是比較認可的。
2. 句子層面數(shù)據(jù)分析
首先,句長影響著信息傳播的經(jīng)濟性。長句多用于書面語體,且包含眾多修辭成分,便于清晰描述事件、陳述事實、表達感想;而短句結(jié)構(gòu)簡單,包含較少修辭成分,但是意思簡單明了,易懂且節(jié)奏明快,因此多用于口語語體。經(jīng)過研究統(tǒng)計,微博河北正文的句子總數(shù)是21 573,平均句長為32字。微博河北正文部分多為中等句長(30字至40字),這一結(jié)果與其他關(guān)于政務(wù)微博研究的統(tǒng)計結(jié)果相近,但仍略高。由于受字數(shù)限制,微博盡量使用有限的句子和句長來提供盡可能充足的新聞內(nèi)容,且從句子零散程度看,微博河北的句子介于書面語體和口語語體之間。但在微博河北的評論中,句子則更精于短小精悍,言簡意賅。
其次,按照所表達功能的不同,句子可以分為陳述句、感嘆句、疑問句和祈使句。通過對微博河北正文的分析可以發(fā)現(xiàn),陳述句所占比例最高,這也說明政務(wù)微博保證了現(xiàn)代信息傳播渠道的暢通,使普通民眾對政府和各種政策、措施、日常事物和和突發(fā)事件具備知情權(quán)。雖然感嘆句、疑問句和祈使句帶有較濃厚的感情色彩,不是非常符合新聞?wù)Z體對新聞客觀性的要求,但微博河北中也有一定量的使用。
再次,句子的破碎度在書面語體和口語語體中存在不同。破碎度是指“一句話中停頓次數(shù),即一句話的零散程度”。而點號在測算句子破碎度中具有重要作用。黃伯榮和廖序東區(qū)分了句末點號和句內(nèi)點號[5]。句末點號數(shù)量顯示了微博語料的總句數(shù),而句內(nèi)點號顯示了句中的停頓。句末點號主要包括“。”“?”和“!”,句內(nèi)點號主要包括“,”“、”“:”和“;”。句子破碎度的計算公式則是句子停頓總次數(shù)/語料中總句數(shù)。通過對微博河北的切分和計算,4 495條微博正文語料中總句數(shù)為21 578句,句子停頓總次數(shù)為42 835。因此,句子的破碎度為1.99。已有研究表明,書面語體破碎度為2.6,口語語體破碎度為2.9[6]。因此,微博河北從破碎度角度分析更接近書面語體的。這也在一定程度上證明,不管是在句長層面,還是從句子的破碎度上看,微博河北語體仍書面化,還應(yīng)更“接地氣”,避免過度官腔,脫離老百姓的實際生活。
3. 政務(wù)微博多模態(tài)分析
多模態(tài)話語是人類交流信息的一種方式。作為認知主體的人具有獲得交際信息的多種渠道(如視覺、聽覺、嗅覺、觸覺等),因此在現(xiàn)代媒介和技術(shù)的支持下,人類的交流可以通過語言、圖像、聲音、動作等多種符號資源來完成。多模態(tài)的話語分析模式整合了如圖像學(xué)、符號學(xué)、傳播學(xué)等領(lǐng)域的研究成果。交流不再是單純的語言文字系統(tǒng)。而在政務(wù)微博中,這一信息化的現(xiàn)代交流方式也充分整合了各種交流資源,以更多、更好地方式呈現(xiàn)給普通民眾相關(guān)信息。比如,在“微博河北”中有一條關(guān)于“河北29萬居民二代證今年到期、 二代證指紋開錄”信息,微博采用圖片的方式介紹給網(wǎng)友如何辦理二代身份證。又如,在介紹河北旅游景點時,附各種美景圖片進行相關(guān)介紹。經(jīng)過對所有數(shù)據(jù)的統(tǒng)計研究,發(fā)現(xiàn)“微博河北”較好地運用了多模態(tài)的信息傳遞方式,充分利用文字、圖片、音視頻等多種形式,進行相關(guān)信息的發(fā)布,實現(xiàn)了現(xiàn)代媒介技術(shù)下,多種交際符號的靈活運用,用普通百姓喜聞樂見的方式,傳遞信息并進行交流。
黨的十八大報告指出,建設(shè)中國特色社會主義,總布局是經(jīng)濟建設(shè)、政治建設(shè)、文化建設(shè)、社會建設(shè)、生態(tài)文明建設(shè)五位一體。根據(jù)中央精神,河北省政府在2012和2013年的工作報告中,指出了河北省今后的工作思路和目標,包括京津冀區(qū)域經(jīng)濟圈的建立、和諧河北和善行河北的建設(shè)、綠色低碳發(fā)展等等。
“微博河北”肩負著政務(wù)管理功能、公共平臺功能和服務(wù)民生功能。但作為河北省外宣官方微博的“微博河北”,仍存在一些不足之處,未能全面發(fā)揮其在河北省各項建設(shè)中的作用。本研究對“微博河北”建設(shè)中政務(wù)微博的發(fā)展策略進行研究和總結(jié),以期更有效地發(fā)揮其重要作用。
1.“微博河北”應(yīng)在“和諧河北”和“善行河北”建設(shè)中起到良好的宣傳作用
“和諧河北”和“善行河北”建設(shè)是河北省政府在新形勢下,為更好推進河北省經(jīng)濟、政治、文化、社會和生態(tài)文明等各方面的發(fā)展所做出的全方位的轉(zhuǎn)型建設(shè)。河北省政府對建設(shè)的整體規(guī)劃、發(fā)展思路、推進路徑、運作模式和可能存在問題等方面進行了多次的研究。作為河北省的重點建設(shè)內(nèi)容,對“和諧河北”和“善行河北”的宣傳和建設(shè)應(yīng)該作為政府官方微博的重要推廣內(nèi)容之一。但經(jīng)過對2011年4月建立至2014年10月以來發(fā)布的共4 495條微博的搜索,發(fā)現(xiàn)關(guān)于“和諧河北”的內(nèi)容只有33條,“善行河北”的提及312處,且很多還是在同一條微博中反復(fù)提到。關(guān)于京津冀的內(nèi)容不足200條,而目前河北省面臨的最嚴重、亟待解決的綠色低碳問題只有8條。這是河北政務(wù)微博建設(shè)中的需要逐步改進的重要部分。
2.“微博河北”應(yīng)在清晰、經(jīng)濟表達的同時,更豐富詞語的使用
通過對前文詞語層面的數(shù)據(jù)分析,可以發(fā)現(xiàn)“微博河北”主要的發(fā)布內(nèi)容仍集中于河北省內(nèi)新聞,并在一定程度上輻射中國,較關(guān)注新聞、文化、民生等內(nèi)容。這是其值得肯定的部分。但河北政務(wù)微博正文的詞語使用還不夠豐富(詞型例比為18.58),較其他省市政務(wù)微博(詞型例比為5.557 1)仍存在較大的差距。造成這一情況的原因主要有兩個方面:一是“微博河北”服務(wù)于本省,關(guān)注問題類型過分集中。微博內(nèi)容的集中、過度重復(fù)地使用相同的表達,容易讓微博用戶失去繼續(xù)閱讀的興趣。建議在關(guān)注本地熱點的同時,也擴大輻射范圍,關(guān)注國計民生;二是“微博河北”確實存在用詞豐富度不夠的問題,說明在文本的編輯上仍應(yīng)多下工夫。如何在有限的單篇文本里,使用有限的詞語數(shù)量的同時卻使用更豐富的詞型來簡明經(jīng)濟地表達,是其仍需改進的部分。
3.“微博河北”應(yīng)努力實現(xiàn)良性互動
筆者通過對句子層面的分析發(fā)現(xiàn),“微博河北”正文的平均句長是32字,在句子的運用和選擇上更接近于書面語體。同時,通過Excel建立的政務(wù)微博正文詞頻表,筆者統(tǒng)計了語氣詞和嘆詞的使用頻次共為1 446,總使用率達到了0.284 8。語氣詞和嘆詞是口語體的重要標志。通過對語氣詞和嘆詞的詞頻和使用率的統(tǒng)計發(fā)現(xiàn),“微博河北”正文中對語氣詞和嘆詞的使用遠遠高于其他同類文章中對此的分析數(shù)據(jù)。張瑛和趙雪在對官方微博新聞?wù)Z體與門戶網(wǎng)站新聞?wù)Z體的計量對比分析中得到數(shù)據(jù),官方微博中語氣詞和嘆詞的詞頻和使用率均為0,門戶網(wǎng)站中語氣詞和嘆詞的詞頻和使用率都只有0.001 1[7]。這說明,“微博河北”雖然在句子的使用上雖仍更接近于書面語體,但仍盡力使所發(fā)布的內(nèi)容更加口語化,更接地氣,以滿足普通民眾的需要。這一點是非常值得肯定的,但從語言的層面上,如何能達到句子和詞語使用的統(tǒng)一,仍是需要進一步研究的問題。
4. 河北政務(wù)微博在多模態(tài)運用應(yīng)更趨于完善
文字、圖片、音頻、視頻等多媒體傳播手段的結(jié)合,突破了傳統(tǒng)媒體單一表現(xiàn)手段的局限性,令微博報道更加具有挖掘空間,角度更加新穎多元化,內(nèi)容更加豐富且趣味化。這是政務(wù)微博應(yīng)該堅持的方面。但應(yīng)該注意的是,多模態(tài)的運用不是幾種表現(xiàn)手段的簡單疊加,更不是為了發(fā)圖片而發(fā)圖片,為了加視頻而加視頻。各種表現(xiàn)形式應(yīng)該服務(wù)于總體信息的傳遞。在對“微博河北”的研究中發(fā)現(xiàn),其多種信息傳遞方式的結(jié)合仍有“為了發(fā)布而發(fā)布”之嫌,沒有實現(xiàn)真正意義上的服務(wù)于傳遞信息功能的結(jié)合。并且,提倡多模態(tài)的運用,并不等于在各個微博信息中都一定要有多種表現(xiàn)形式,需要的就用,不需要的就不用,其原則是服務(wù)于信息的流暢、清晰的表達。
由河北省外宣辦建立的河北政務(wù)微博“微博河北”,對河北省各方面的建設(shè)起著重要的支持作用。在政務(wù)管理功能、公共平臺功能和服務(wù)民生功能等方面都做出了貢獻。本文建立“微博河北”語料庫并在語言學(xué)層面對其進行量化分析,對研究其語言層面的特點并在此基礎(chǔ)上進行改進具有重要意義,服務(wù)于河北省“五位一體”建設(shè)。
[參考文獻]
[1] 上海交通大學(xué)輿情研究課題組.我國政務(wù)微博的現(xiàn)狀問題與相關(guān)建議[J].科學(xué)發(fā)展,2011(11):46-50.
[2] 丁金國.基于語料庫的語體風(fēng)格研究——兼論量化與質(zhì)化的關(guān)系[J].煙臺大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2009(4):114-120.
[3] 黃偉,劉海濤.漢語語體的計量特征在文本聚類中的應(yīng)用[J].計算機工程與應(yīng)用,2009,45(29):25-27,33.
[4] 張瑛.政務(wù)微博新聞?wù)Z體計量分析[J].沈陽大學(xué)學(xué)報(社會科學(xué)版),2014(8):538-541.
[5] 黃伯榮,廖序東.現(xiàn)代漢語[M].北京:高等教育出版社, 2007:154
[6] 闞明剛.幾個語體參數(shù)的定量對比研究——以新聞報道和訪談對話為例[J].語文學(xué)刊,2011(9):46-54.
[7] 張瑛,趙雪.官方微博新聞?wù)Z體與門戶網(wǎng)站新聞?wù)Z體的計量對比分析[J].理論與現(xiàn)代化,2014(7):107-111.
(責任編輯、校對:韓立娟)
文學(xué)文化研究
The Features of Hebei Official Micro-Blog and Its Application from the Perspective of Linguistics
FU Hai-chen1, ZHU Yan2
(1. Department of Computer Science and Technology, Tangshan University, Tangshan 063000, China; 2. Department of Foreign Languages, Tangshan Normal University, Tangshan 063000, China)
Abstract:The original micro-blog texts of Hebei official micro-blog which is called “Micro-blog Hebei” are collected and the corresponding corpus is established based on the study of linguistics. The “Micro-blog Hebei” is analyzed from the perspectives of lexicon, syntax and semiology. And its applications in Hebei province construction are put forward.
Key Words:Micro-blog Hebei; corpus; political micro-blog; serve for citizen’s welfare
作者簡介:付海辰(1976-),男,河北唐山人,碩士,講師,研究方向為計算機編程。
收稿日期:2015-05-23
基金項目:河北省科技廳軟科學(xué)項目(14457669D)
DOI:10.3969/j.issn.1009-9115.2015.04.014
中圖分類號:H03
文獻標識碼:A
文章編號:1009-9115(2015)04-0056-04