王連喜 向杰益 黃錫軒 蔣盛益 趙 瑞
(1.廣州市非通用語種智能處理重點(diǎn)實(shí)驗(yàn)室 廣州 510006;2.廣東外語外貿(mào)大學(xué)信息科學(xué)與技術(shù)學(xué)院 廣州 510006)
涉華新聞是網(wǎng)絡(luò)空間國際輿情的重要載體,是中國了解國外社會(huì)對(duì)華態(tài)度的重要參考來源[1]。涉華輿情分析是指對(duì)海外媒體中出現(xiàn)的涉及中國的報(bào)道或論述進(jìn)行識(shí)別和計(jì)算的過程。
國內(nèi)、國際涉華輿情研究分別起始于20世紀(jì)90年代和21世紀(jì)初,其成果主要集中于中、美兩國[2]。當(dāng)前涉華輿情研究的重點(diǎn)主要圍繞其總體特征、發(fā)展態(tài)勢(shì)、對(duì)國家發(fā)展的影響、傳播渠道、情感偏好以及應(yīng)對(duì)策略等角度展開,其方法以定性分析為主[3]。在東盟涉華輿情研究方面,主要是采用文本分析法、定量分析法對(duì)相關(guān)媒體對(duì)華報(bào)道的輿情特征及其傾向性或主客觀性等進(jìn)行分析。在輿情特征分析方面,僅有少數(shù)學(xué)者進(jìn)行了針對(duì)性的探索,如羅奕等[4]對(duì)新加坡、馬來西亞(馬來)、印度尼西亞(印尼)、菲律賓、泰國和越南大眾媒體的涉華報(bào)道進(jìn)行輿情監(jiān)控,發(fā)現(xiàn)這些國家的報(bào)道存在一定偏差,但對(duì)中國優(yōu)化自我宣傳策略有很大的幫助。陳瑤雯等[5]對(duì)東盟各國的輿情合作、沖突等情感進(jìn)行計(jì)量分析發(fā)現(xiàn),人們對(duì)國際涉華輿論中的“不同見解”或負(fù)面消息容忍度較低。在傾向性分析方面,大部分成果是以東盟特定國家的代表性媒體為對(duì)象,其結(jié)論難以客觀反映出該國的整體對(duì)華狀態(tài)。吳德識(shí)[6]以內(nèi)容分析、案例研究等方法對(duì)越南媒體《人民報(bào)網(wǎng)》在2003-2012年的涉華報(bào)道進(jìn)行研究發(fā)現(xiàn),該報(bào)基本上采取客觀公正的態(tài)度,呈現(xiàn)出了積極友好的中國政治外交形象。張玉等[7]運(yùn)用內(nèi)容分析法研究了印尼兩大主流媒體的涉華新聞,發(fā)現(xiàn)其涉華報(bào)道以客觀中立傾向?yàn)橹?。吳君靜[8]以2018年馬來報(bào)紙《星洲日?qǐng)?bào)》為對(duì)象,不僅分析了馬來西亞涉華新聞的特點(diǎn),還以傳播學(xué)理論、信息計(jì)量方法得出華人社會(huì)對(duì)涉華新聞呈現(xiàn)出了立體式關(guān)注。吳超等[9]通過聚類方法對(duì)周邊國家的對(duì)華輿情進(jìn)行分析發(fā)現(xiàn),印尼、馬來西亞、菲律賓總體呈現(xiàn)出較為積極的輿情態(tài)勢(shì),而越南總體呈現(xiàn)負(fù)面的對(duì)華態(tài)勢(shì)。上述研究表明,東盟國家的早期涉華報(bào)道在一定程度上依然受到西方媒體的影響,總體呈現(xiàn)復(fù)雜的涉華輿情特征,但對(duì)于“一帶一路”倡議提出之后的涉華報(bào)道關(guān)注點(diǎn)及發(fā)展態(tài)勢(shì)尚未發(fā)現(xiàn)新的成果。
綜上,當(dāng)前針對(duì)東盟或特定成員國的涉華研究多以人工分析為主,其方法以統(tǒng)計(jì)學(xué)習(xí)為主,其對(duì)象多針對(duì)東盟的單個(gè)國家或部分區(qū)域,其數(shù)據(jù)來源較為單一、時(shí)間跨度較短且均為“一帶一路”倡議提出之前的。受已有工作啟發(fā),本文試圖通過對(duì)更大規(guī)模的數(shù)據(jù)進(jìn)行處理和分析,將“一帶一路”開局前五年(2014-2018年)的東盟主流英漢媒體新聞作為研究對(duì)象,在進(jìn)行語料標(biāo)注、模型構(gòu)建、結(jié)果預(yù)測(cè)等步驟后,對(duì)東盟輿情特征進(jìn)行挖掘,從而分析出東盟對(duì)中國社會(huì)的關(guān)注熱點(diǎn)及其變化趨勢(shì),為國內(nèi)外開展相關(guān)研究提供參考。
本文的基本問題為涉華新聞識(shí)別及輿情特征分析,即以東盟英漢媒體的涉華新聞?wù)Z料為對(duì)象,通過構(gòu)建分類學(xué)習(xí)模型識(shí)別并分析出涉華新聞報(bào)道的基本特征。具體要解決的問題如下:針對(duì)涉華新聞識(shí)別領(lǐng)域缺乏學(xué)習(xí)語料的問題,通過數(shù)據(jù)采集和人工標(biāo)引方式形成一定規(guī)模的高質(zhì)量訓(xùn)練語料;針對(duì)涉華新聞?lì)A(yù)測(cè)問題,通過構(gòu)建多種分類模型并選擇最適合該任務(wù)的模型完成全部數(shù)據(jù)的預(yù)測(cè);對(duì)比東盟英漢主流媒體對(duì)華關(guān)注的異同和報(bào)道特征。
本文的總體框架按照“語料獲取與標(biāo)注”→“數(shù)據(jù)預(yù)處理”→“模型構(gòu)建”→“結(jié)果分析”的思路開展研究,其過程如圖1所示。
圖1 研究框架
首先確定東盟的主流英漢媒體,并利用爬蟲算法獲取大規(guī)模的新聞?wù)Z料,然后在進(jìn)行語種識(shí)別、簡繁體轉(zhuǎn)換、數(shù)據(jù)過濾以及其他數(shù)據(jù)清洗操作之后,從獲取語料中隨機(jī)抽取少量語料進(jìn)行人工標(biāo)注并形成英漢涉華新聞分類的實(shí)驗(yàn)語料;接下來,選擇多種學(xué)習(xí)方法在實(shí)驗(yàn)語料上構(gòu)建涉華新聞識(shí)別模型,最后選擇具有最佳預(yù)測(cè)效果的模型對(duì)獲取的大規(guī)模新聞?wù)Z料進(jìn)行預(yù)測(cè),同時(shí)還通過統(tǒng)計(jì)分析和可視化方法對(duì)涉華報(bào)道的輿情特征及主題進(jìn)行呈現(xiàn)和分析。
文本分類是解決涉華新聞識(shí)別的常用方法之一。新聞文本分類的常用方法包括機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法,如決策樹、支持向量機(jī)、樸素貝葉斯、K近鄰、最大熵、卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)模型(RNN)、預(yù)訓(xùn)練語言模型等[10]。隨著預(yù)訓(xùn)練語言模型的發(fā)展,BERT(Bidirectional Encoder Representation from Transformers)模型成為了當(dāng)前最常用的文本分類方法之一,并在文獻(xiàn)學(xué)科識(shí)別任務(wù)上取得了較好的效果[11-12]。BERT是一個(gè)預(yù)訓(xùn)練的語言表征模型,它的關(guān)鍵在于Transformer模型的提出和應(yīng)用,該模型完全拋棄了RNN和CNN等常見的網(wǎng)絡(luò)結(jié)構(gòu),而是采用注意力機(jī)制對(duì)語言數(shù)據(jù)進(jìn)行建模。
BERT模型的結(jié)構(gòu)如圖2所示,其中,En表示字的文本輸入,Trm是Transformer編碼器對(duì)文本的向量化表示。事實(shí)上,Transformer的本質(zhì)上是一個(gè)基于Self-attention的Seq2seq模型。
圖2 BERT模型結(jié)構(gòu)
從結(jié)構(gòu)上看,BERT主要由Transformer編碼器堆疊而成,在每個(gè)Transformer層中加入Self-attention,使得每個(gè)Transformer層在對(duì)每個(gè)字進(jìn)行編碼時(shí)可以查看該字的前后信息。Self-attention主要是通過在Transformer中加入Query、Key、Value矩陣來實(shí)現(xiàn)的。BERT通過控制Transformer編碼器塊的堆疊層數(shù)、多頭注意力機(jī)制數(shù)目和各個(gè)隱藏層大小等參數(shù)即可配置預(yù)訓(xùn)練模型。從處理過程上看,基于BERT的文本分類工作主要包含預(yù)訓(xùn)練和模型微調(diào)兩個(gè)階段。
預(yù)訓(xùn)練階段主要包含MLM (Mask Language Model)和NSP(Next Sentence Prediction)兩個(gè)預(yù)訓(xùn)練任務(wù)。在MLM任務(wù)中,訓(xùn)練語料中token會(huì)被隨機(jī)替換成[MASK]字符串,隨后再通過BERT模型對(duì)[MASK]化后的token進(jìn)行預(yù)測(cè),其過程類似于英語學(xué)習(xí)者做完形填空的題型訓(xùn)練,這種自監(jiān)督的方式可使模型學(xué)到詞與詞之間的語義信息。而在NSP任務(wù)中,BERT模型會(huì)接收兩個(gè)句子,其任務(wù)是預(yù)測(cè)這兩個(gè)句子是否具有相鄰性的上下句關(guān)系。利用NSP可賦予BERT適應(yīng)于理解句子之間關(guān)系的下游任務(wù),如自然語言推理、自動(dòng)問答等。
BERT模型的微調(diào)階段主要是針對(duì)自然語言處理領(lǐng)域的下游任務(wù)的。具體而言,BERT在該階段提供了不同的輸入、輸出格式,以及不同訓(xùn)練參數(shù)來適配不同的任務(wù)類型。例如,在使用BERT進(jìn)行新聞文本分類任務(wù)時(shí),需要重點(diǎn)關(guān)注以下參數(shù)的設(shè)置:文本的最大長度;隱藏層的數(shù)量;學(xué)習(xí)率。
在收集東盟主流英漢媒體列表的基礎(chǔ)上,一方面參考中國新聞社與中國傳媒大學(xué)新聞學(xué)院聯(lián)合設(shè)計(jì)開發(fā)的世界華文傳媒新媒體數(shù)據(jù)庫系統(tǒng)( http://hmdb.chinanews.com)的結(jié)果,另一方面邀請(qǐng)國別與區(qū)域研究及從事東盟官方語種教學(xué)的專家進(jìn)行甄選,最終選定了44個(gè)英語類和25個(gè)漢語類新聞網(wǎng)站作為數(shù)據(jù)來源,媒體列表如表1所示??梢钥闯?,除文萊外,其他國家的英漢媒體數(shù)量相對(duì)較多、覆蓋面也相對(duì)較廣。由于受到社會(huì)經(jīng)濟(jì)發(fā)展水平和人口結(jié)構(gòu)的限制,老撾的華文媒體起步較晚,目前尚未形成有較大影響力的華文媒體和英文媒體。
表1 東盟英漢主流媒體
續(xù)表1 東盟英漢主流媒體
隨后,通過編寫網(wǎng)絡(luò)爬蟲算法對(duì)相關(guān)媒體進(jìn)行定制化采集,最終得到英漢新聞量分別為1 035 592篇和508 439篇。接下來,從獲取語料中抽取一定規(guī)模的新聞以人工方式進(jìn)行涉華與否判斷(“0”和“1”分別表示非涉華和涉華),最終形成英漢實(shí)驗(yàn)語料分別包括15 049個(gè)樣本和55 058個(gè)樣本。在語料中,其“0”和“1”的分布近似均衡。
為了得到較好的分類效果,選擇貝葉斯、邏輯回歸、決策樹、隨機(jī)森林、AdaBoost、K近鄰、支持向量機(jī)、多層感知機(jī)、TextCNN、BERT等10種傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn)效果對(duì)比,并利用TextRank算法提取涉華新聞中的關(guān)鍵詞集以進(jìn)行輿情特征分布分析和主題挖掘。在實(shí)驗(yàn)中,以7:1:2的比例將實(shí)驗(yàn)語料劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,并以Accuracy作為評(píng)價(jià)指標(biāo)。
BERT模型選用Google AI基于多語言開發(fā)的預(yù)訓(xùn)練語言模型作為中文和英文共有詞向量。本實(shí)驗(yàn)的超參數(shù)設(shè)置如表2所示。
表2 超參數(shù)設(shè)置
由表3可知,在選擇的10種模型中,BERT在兩種數(shù)據(jù)集上都得到了最高的分類準(zhǔn)確率,相比其他模型有較大的性能提升。因此,在后續(xù)大規(guī)模涉華新聞?lì)A(yù)測(cè)過程中,選擇BERT模型對(duì)采集的英漢媒體新聞進(jìn)行分類預(yù)測(cè)。
表3 基于多種學(xué)習(xí)模型的涉華新聞分類結(jié)果比較
利用BERT模型對(duì)采集的全部英漢新聞?wù)Z料進(jìn)行分類預(yù)測(cè),然后以國家、年份、媒體類型作為特征統(tǒng)計(jì),并計(jì)算東盟各成員國的涉華新聞報(bào)道率。涉華報(bào)道率是指某國家同類媒體的涉華報(bào)道量占該媒體類型的全部新聞報(bào)道量的比例。經(jīng)統(tǒng)計(jì)與計(jì)算,東盟國家的涉華報(bào)道率分布結(jié)果如表4所示。
表4 東盟涉華報(bào)道率統(tǒng)計(jì)結(jié)果分布
由表4可知,東盟的漢語媒體涉華報(bào)道率較英文媒體高出24.14%,其中英漢媒體分別以新加坡和菲律賓的涉華報(bào)道率為最高,但菲律賓的涉華報(bào)道輿論陣地明顯偏向于英語類媒體,而新加坡、泰國、緬甸等則在兩類媒體上均表現(xiàn)出了較高的對(duì)華關(guān)注度。盡管分析語料在媒體分布和語料規(guī)模上存在不均衡性,但由于所選擇的媒體是具有代表性的,可見上述結(jié)果是具備一定的客觀性的。
從具體媒體的涉華報(bào)道率上看,大于平均值的漢語類媒體主要來自《國際財(cái)經(jīng)日?qǐng)?bào)》(72.58%)、泰華網(wǎng)(67.5%)、《世界日?qǐng)?bào)》(59.41%)、緬華網(wǎng)(51.99%)、胞波網(wǎng)(58.27%)等5個(gè)媒體,而大于平均值的英語類媒體主要來自《每日快報(bào)》(29.03%)、《商業(yè)時(shí)報(bào)》(17.84%)、《新加坡政府指南》(12.63%)、《商業(yè)世界報(bào)》(10.35%)、Mizzima新聞網(wǎng)(9.7%)、《民族報(bào)》(8.53%)、《今日?qǐng)?bào)》(8.41%)、亞洲新聞網(wǎng)(8.00%)、《民族報(bào)》(7.96%)、《雅加達(dá)環(huán)球報(bào)》(7.69%)、《馬來西亞星報(bào)》(7.42%)、ABS-CBN新聞(5.91%)、《曼谷郵報(bào)》(5.62%)、《婆羅洲郵報(bào)》(5.44%)等14個(gè)媒體。由此可見,新加坡、菲律賓、印尼、馬來西亞、泰國、緬甸等國家的對(duì)華關(guān)注度較高,且他們涉及的媒體數(shù)量也相對(duì)較多。
由于不同國家、不同語種的新聞媒體數(shù)量和數(shù)據(jù)規(guī)模差異較大,所以僅從橫向比較難以客觀反映出東盟的對(duì)華關(guān)注度變化趨勢(shì)?;诖?,本文還從縱向視角比較了涉華報(bào)道率的變化趨勢(shì)。
圖3 漢語類媒體涉華新聞報(bào)道趨勢(shì)
由圖3所示結(jié)果可知,菲律賓、緬甸在漢語媒體上的涉華報(bào)道率均高于東盟的平均值,新加坡在2015年、2016年、2018年等年份均高于東盟相應(yīng)年份的平均值;印尼、越南、馬來的涉華報(bào)道趨勢(shì)與東盟的總體變化趨勢(shì)非常相近;泰國的對(duì)華關(guān)注度從2014年處于東盟的最高值,到后續(xù)逐步呈現(xiàn)遞減趨勢(shì),直到2018年才接近東盟均值。從變化趨勢(shì)上看,新加坡、越南在“一帶一路”開局5年的對(duì)華關(guān)注度表現(xiàn)平穩(wěn),印尼、越南呈現(xiàn)升降交替的“W”趨勢(shì),緬甸呈現(xiàn)“V”趨勢(shì)、菲律賓呈現(xiàn)倒“V”趨勢(shì)。從峰值上看,不同國家的最高涉華報(bào)道率出現(xiàn)年份不盡相同,泰國和新加坡分別出現(xiàn)在2014年和2015年,菲律賓、越南、馬來西亞出現(xiàn)于2016年,印尼出現(xiàn)在2017年,而緬甸和柬埔寨則形成于2018年。
圖4 英語類媒體涉華新聞報(bào)道趨勢(shì)
由圖4所示結(jié)果可知,新加坡、緬甸的英語涉華報(bào)道率均高于東盟平均值,且呈現(xiàn)“W”趨勢(shì);柬埔寨呈現(xiàn)不規(guī)則的“V”趨勢(shì),而文萊呈現(xiàn)不規(guī)則的倒“V”形狀。
越南、菲律賓、文萊的涉華報(bào)道率低于東盟的平均值,但菲律賓的對(duì)華關(guān)注趨勢(shì)表現(xiàn)平穩(wěn);除印尼外,其他國家的涉華報(bào)道率基本呈現(xiàn)逐年遞增或相對(duì)穩(wěn)定的發(fā)展趨勢(shì),且以新加坡對(duì)華關(guān)注度的遞增趨勢(shì)最為明顯。從峰值的出現(xiàn)時(shí)間上看,越南、印尼、緬甸出現(xiàn)在2016年,菲律賓、文萊出現(xiàn)在2017年,新加坡、馬來西亞、泰國、柬埔寨均出現(xiàn)在2018年。
綜合圖3和圖4的結(jié)果可以看出,每個(gè)國家在相同時(shí)間點(diǎn)的漢語媒體涉華報(bào)道率均高于英語媒體,這說明漢語媒體是東盟國家涉華新聞報(bào)道的主要陣地。另外,從華人華僑的分布角度看,菲律賓、越南、緬甸是華人華僑占比最低的三個(gè)國家(均低于3%),但是菲律賓和緬甸在英漢媒體上的涉華報(bào)道率均高于東盟平均值,甚至他們的對(duì)華關(guān)注度在特定類型媒體上出現(xiàn)了最高值。值得注意的是,越南在英漢媒體上的對(duì)華關(guān)注最高點(diǎn)均出現(xiàn)在2016年,而馬來西業(yè)、文萊等華人華僑占比相對(duì)較高的國家的對(duì)華關(guān)注度低于平均值,由此可說明華人華僑的占比不是影響東盟國家對(duì)華關(guān)注度的重要因素,其主要因素極有可能來自其他方面,例如政治、經(jīng)濟(jì)、文化等領(lǐng)域。
為了進(jìn)一步探析東盟對(duì)華關(guān)注主題的變化問題,本文通過TextRank算法[13]對(duì)東盟成員國的涉華新聞文本以年度為時(shí)間窗口進(jìn)行關(guān)鍵詞提取,最終形成的結(jié)果如表5和表6所示。
TextRank算法的基本思想來源于谷歌公司2003年提出的Pagerank算法,它通過把文本分割成若干組成單元(如單詞、句子),并通過他們之間的相鄰關(guān)系構(gòu)建網(wǎng)絡(luò),然后利用投票機(jī)制對(duì)文本中的重要成分進(jìn)行排序。與LDA、HMM等模型不同,TextRank不需要事先對(duì)多篇文檔進(jìn)行學(xué)習(xí)訓(xùn)練,僅利用單篇文檔本身的信息即可實(shí)現(xiàn)關(guān)鍵詞提取和自動(dòng)摘要生成,所以其應(yīng)用性更為廣泛。
表5 漢語媒體涉華新聞報(bào)道重要詞匯 (top 10)
續(xù)表5 漢語媒體涉華新聞報(bào)道重要詞匯 (top 10)
表6 英語媒體涉華新聞報(bào)道重要詞匯 (top 10)
續(xù)表6 英語媒體涉華新聞報(bào)道重要詞匯 (top 10)
根據(jù)表5和表6的結(jié)果以及關(guān)鍵詞之間的語義關(guān)系進(jìn)行歸納,可觀察到以下現(xiàn)象:
從媒體類型與報(bào)道主題的關(guān)系角度看,東盟國家在不同媒體上形成的重點(diǎn)關(guān)注主題存在明顯差異:a.在漢語媒體上,除越南外,其他國家都關(guān)注了“一帶一路”倡議及其合作情況,而這類主題在英語類媒體則是以很低的權(quán)重出現(xiàn)甚至未出現(xiàn)。b.除菲律賓和越南外,其他國家在漢語類媒體上較少關(guān)注中國國際政治問題,例如南海問題、中美貿(mào)易戰(zhàn)問題,但他們?cè)谟⒄Z類媒體中則是以非常大的權(quán)重出現(xiàn)。c.漢語類媒體中出現(xiàn)了較多與文化、娛樂等主題相關(guān)的關(guān)鍵詞,而在英語類媒體中則密集出現(xiàn)了馬中、泰華、柬華、香港、臺(tái)灣、特朗普等反映中國國際政治關(guān)系、中國內(nèi)政問題的政治類關(guān)鍵詞。
從主題分布角度看,不同國家的對(duì)華關(guān)注主題分布既存在共性,又存在獨(dú)特性:a.所有國家都非常關(guān)注中國的經(jīng)濟(jì)類和政治類主題,但漢語媒體更傾向于經(jīng)濟(jì)類主題,英語媒體對(duì)政治類主題更感興趣。b.在政治類主題方面,漢語類媒體多報(bào)道臺(tái)海關(guān)系、香港問題等中國內(nèi)政問題,而英語類媒體則持續(xù)關(guān)注南海問題、中美關(guān)系等中國國際政治關(guān)系問題。c.除政治類和經(jīng)濟(jì)類主題外,新加坡、印尼、馬來西亞、緬甸、泰國等在漢語媒體中表現(xiàn)出了對(duì)漢語學(xué)習(xí)、電影、美食等文化類主題的偏愛,泰國、越南則重點(diǎn)關(guān)注其與中國有著長期合作關(guān)系的旅游領(lǐng)域。d.在英語類媒體中,南海、香港、美國、特朗普以及對(duì)象國政府機(jī)構(gòu)名或官員名等政治類傾向明顯的主題詞在報(bào)道中占有重要地位。另外,新加坡、馬來西亞、菲律賓、文萊等馬來群島國家對(duì)中國的農(nóng)歷新年以及中國經(jīng)濟(jì)增長的關(guān)注度相對(duì)較大,其原因可能是因?yàn)槿A人占比較大,而與中國接壤的緬甸和泰國則較為重視旅游主題。e.部分國家在英漢媒體的報(bào)道傾向上有著非常明顯的差異,如越南和菲律賓在漢語媒體上分別對(duì)旅游和中國內(nèi)政問題的關(guān)注較多,但在英語媒體上則都對(duì)南海問題、中美貿(mào)易戰(zhàn)等中國國際政治問題更為關(guān)注。
此外,還可看出東盟涉華關(guān)注主題是隨著對(duì)象國與中國的關(guān)系以及中國國際關(guān)系的變化而產(chǎn)生變遷。盡管各個(gè)國家在不同類型的媒體上有出現(xiàn)主題的持續(xù)性關(guān)注趨勢(shì),但是縱向比較后可發(fā)現(xiàn)以下現(xiàn)象:a.漢語類媒體關(guān)注主題的變化趨勢(shì)大,英語類媒體關(guān)注主題的持續(xù)性強(qiáng)。例如,馬來西亞在漢語媒體上起初比較重視中馬關(guān)系、中國內(nèi)政問題和文化問題,而于2017年則開始重點(diǎn)轉(zhuǎn)向關(guān)注“一帶一路”倡議下的中馬合作問題;泰國于2014—2015年在英語類媒體上的關(guān)注主題以旅游類主題和中泰合作問題為主,但從2016年開始轉(zhuǎn)向了南海問題、中美貿(mào)易戰(zhàn)、中韓關(guān)系、中朝關(guān)系等主題。b.對(duì)于“一帶一路”主題而言,馬來、菲律賓、泰國、新加坡于2017—2018年形成了重點(diǎn)關(guān)注,而印尼和緬甸的關(guān)注時(shí)間點(diǎn)都是出現(xiàn)于2015年。c.與中國相關(guān)的重大事件容易得到東盟國家的關(guān)注,例如馬航MH370失聯(lián)、跨國電信詐騙案、薩德問題、南海爭(zhēng)端、中美貿(mào)易戰(zhàn)等事件在發(fā)生當(dāng)年甚至后續(xù)年份都有被持續(xù)關(guān)注。d.中美關(guān)系問題自特朗普2016年當(dāng)選為總統(tǒng)開始,便得到東盟各國的關(guān)注,然而他們重點(diǎn)關(guān)注的是特朗普政府與中國之間的關(guān)系,但基于歷史及現(xiàn)實(shí)利益的考慮,一直對(duì)中美博弈處于持續(xù)觀望狀態(tài)中。
本文以“一帶一路”開局前五年為時(shí)間窗口,通過語料標(biāo)注、模型構(gòu)建、分類預(yù)測(cè)、結(jié)果分析等步驟完成了面向東盟主流英漢媒體的涉華新聞識(shí)別和輿情特征分析,主要工作與結(jié)論如下:a.通過人工方式標(biāo)注了包含15 049個(gè)英語新聞樣本和55 058個(gè)漢語新聞樣本的實(shí)驗(yàn)語料;b.基于BERT模型預(yù)測(cè)出的英漢涉華新聞?wù)Z料分別為55 107篇和13 6624篇,其平均涉華報(bào)道率分別為5.22%和29.36%;c.新加坡、菲律賓、印尼、越南、泰國、緬甸等國家的對(duì)華關(guān)注度相對(duì)較高,馬來西亞、文萊等華人華僑占比相對(duì)較高的國家的對(duì)華關(guān)注低于東盟平均值;d.漢語類媒體多傾向于報(bào)道中國內(nèi)政、“一帶一路”、文化、旅游等政治類和經(jīng)濟(jì)類主題,而英語類媒體則重點(diǎn)關(guān)注中國國際政治關(guān)系問題;e.部分東盟成員國在不同類型媒體上出現(xiàn)了關(guān)注主題的變化。
受制于實(shí)驗(yàn)條件,本文的研究工作還有一些改進(jìn)空間:a.將探究更多傳統(tǒng)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型在涉華新聞分類任務(wù)上的表現(xiàn);b.對(duì)識(shí)別的涉華新聞?wù)Z料進(jìn)行更深層次的挖掘和分析,包括涉華新聞的細(xì)粒度主題識(shí)別、傾向性分析及觀點(diǎn)抽取等。