張 敏, 李 野
(西南民族大學(xué)外國(guó)語(yǔ)學(xué)院, 四川 成都 610041)
美國(guó)學(xué)者H·拉斯維爾在《傳播在社會(huì)中的結(jié)構(gòu)與功能》一文中[1],提出了構(gòu)成傳播過(guò)程的五種基本要素,形成了后來(lái)人們稱之“五W 模式”過(guò)程模式.這五個(gè)W 分別是英語(yǔ)中五個(gè)疑問(wèn)代詞的第一個(gè)字母,即: Who (誰(shuí))、 Says What (說(shuō)了什么)、 In Which Channel (通過(guò)什么渠道)、 To Whom (向誰(shuí)說(shuō))、 With What Effect (有什么效果). 目前為止,對(duì)少數(shù)民族文學(xué)對(duì)外傳播的研究,往往只注重前面兩個(gè)W,也就是注重選擇經(jīng)典的少數(shù)民族文學(xué)作品(Who),然后花大力氣將其翻譯后對(duì)外傳播(Says What). 對(duì)后面的三個(gè)W(In Which Channel,To Whom,With What Effect)也就是通過(guò)何種渠道何種方式對(duì)外傳播,對(duì)不同地區(qū)不同文化背景和不同宗教背景是否選擇合適的傳播途徑和傳播形式,尤其是傳播效果如何等等這些研究都關(guān)注較少.
目前大家更重視選擇少數(shù)民族文學(xué)作品和注重少數(shù)民族文學(xué)翻譯過(guò)程,但是作品在翻譯完成后是否達(dá)到預(yù)定的傳播效果,這方面的研究鮮有所見(jiàn). 如果不了解受眾的反饋信息就會(huì)導(dǎo)致自說(shuō)自話,達(dá)不到預(yù)定的目的也無(wú)從改進(jìn),因此關(guān)于受眾信息反饋需要進(jìn)一步深入研究.
本文擬通過(guò)網(wǎng)絡(luò)爬蟲(chóng)收集西方主要購(gòu)書網(wǎng)站和書評(píng)網(wǎng)站針對(duì)相關(guān)少數(shù)民族文學(xué)作品的評(píng)論數(shù)據(jù),并對(duì)這些評(píng)論數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和情感分析,以期找到少數(shù)民族文學(xué)對(duì)外傳播中的經(jīng)驗(yàn)和存在的問(wèn)題.
關(guān)于“少數(shù)民族文學(xué)”外譯相關(guān)研究:魏清光教授[2]指出少數(shù)民族文學(xué)作品對(duì)外翻譯的必要性性:少數(shù)民族文學(xué)作品更能代表中國(guó)的傳統(tǒng)價(jià)值觀,能夠向世界傳遞中國(guó)和平發(fā)展的意愿和能力.同時(shí)魏教授為如何系統(tǒng)的輸出少數(shù)民族典籍從多個(gè)方面進(jìn)行了規(guī)劃.通過(guò)魏教授研究我們可以知道少數(shù)民族文學(xué)對(duì)外傳播重點(diǎn)在功能路徑上[3],雖然向與中國(guó)關(guān)系不好的國(guó)家傳播中華文化難度較大,但如果能有效對(duì)向外譯介中國(guó)典籍文化可以起到緩和矛盾、沖突、誤解等的文化功能作用.魏教授這一研究也為本項(xiàng)目明確數(shù)據(jù)調(diào)查對(duì)象指明了方向,就是少數(shù)民族典籍對(duì)外傳播的主要對(duì)象是目前跟我們國(guó)家關(guān)系不太好但又在國(guó)際有影響力的大國(guó). 比如印度,印度是我們國(guó)家的重要鄰居,但也對(duì)我們國(guó)家充滿的敵意,如果能夠順利推動(dòng)少數(shù)民族經(jīng)典作品向印度普通民眾推廣,傳遞中華民族和平發(fā)展、互利共贏的理念對(duì)增進(jìn)彼此相互了解和溝通,從而對(duì)兩國(guó)和平共處起到促進(jìn)作用.
魏清光教授等[4]明確指出少數(shù)民族文學(xué)對(duì)外譯介存在“輸出渠道單一、輸出效能不理想”的問(wèn)題. 從該文獻(xiàn)可以知道,目前我們的少數(shù)民族文學(xué)對(duì)外譯介大多都依賴出版渠道,通過(guò)書籍的方式傳播,這種形式過(guò)于單一不便于推廣.曾路[5]指出少數(shù)民族文化對(duì)外傳播方面除了使用傳統(tǒng)的媒體外,也應(yīng)該通過(guò)新媒體技術(shù)“網(wǎng)絡(luò), 數(shù)字化視頻、 音頻媒介系統(tǒng),手機(jī)信息服務(wù), 桌面視窗、 觸摸媒介”促進(jìn)少數(shù)民族文化對(duì)外傳播.隨著科技的進(jìn)步,尤其是互聯(lián)網(wǎng)的發(fā)展,新媒體強(qiáng)勢(shì)崛起的背景下找到受眾國(guó)家民眾普遍使用且接受的傳播形式正是本項(xiàng)目重點(diǎn)解決的問(wèn)題之一.李敏杰[6]通過(guò)模因理論得出了民族典籍外譯經(jīng)歷同化、記憶、表達(dá)和傳播四個(gè)階段. 同時(shí)李教授根據(jù)模因理論指出少數(shù)民族文學(xué)作品對(duì)外譯介要注重“研究西方讀者的接受心理和閱讀趣味,了解他們的思想價(jià)值觀念、 讀譯作的目的、對(duì)譯作的評(píng)價(jià)等”,他同時(shí)指出只有譯者做到“知己知彼” ,才能使自己的譯作被他文化中的讀者所接受. 從李教授的研究可以得知,通過(guò)一定的方式收集和分析國(guó)外讀者態(tài)度和評(píng)價(jià)、意見(jiàn)和建議對(duì)有效推動(dòng)少數(shù)民族典籍對(duì)外傳播非常必要.
關(guān)于網(wǎng)絡(luò)爬蟲(chóng)相關(guān)研究:網(wǎng)絡(luò)爬蟲(chóng)又稱網(wǎng)絡(luò)蜘蛛,是指按照某種規(guī)則在網(wǎng)絡(luò)上爬取所需內(nèi)容的腳本程序.眾所周知,每個(gè)網(wǎng)頁(yè)通常包含其他網(wǎng)頁(yè)的入口,網(wǎng)絡(luò)爬蟲(chóng)則通過(guò)一個(gè)網(wǎng)址依次進(jìn)入其他網(wǎng)址獲取所需內(nèi)容.通過(guò)網(wǎng)絡(luò)爬蟲(chóng)分析網(wǎng)絡(luò)數(shù)據(jù)的相關(guān)研究非常多,例如[7]通過(guò)Python 編寫爬蟲(chóng)獲取微博評(píng)論,以此發(fā)現(xiàn)輿情演變規(guī)律和潛在風(fēng)險(xiǎn),為輿情引導(dǎo)提供決策支持.隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展和普及,如何在移動(dòng)互聯(lián)網(wǎng)環(huán)境下獲取數(shù)據(jù)也是網(wǎng)絡(luò)爬蟲(chóng)新的研究領(lǐng)域[8].介紹了一種系統(tǒng)將網(wǎng)絡(luò)爬蟲(chóng)技術(shù)和數(shù)據(jù)分析以及Android 相結(jié)合起來(lái)并利用現(xiàn)有的技術(shù)設(shè)計(jì)一種校園輿情分析的系統(tǒng).
Python 是一種開(kāi)發(fā)語(yǔ)言,在人工智能、數(shù)據(jù)分析、網(wǎng)絡(luò)爬蟲(chóng)等領(lǐng)域具有其他現(xiàn)有語(yǔ)言不可替代的優(yōu)勢(shì).基于Python 的網(wǎng)絡(luò)爬蟲(chóng)[9]由調(diào)度器、URL 管理器、下載器、網(wǎng)頁(yè)解析器、應(yīng)用程序五個(gè)部分組成,具體如圖1 所示. 調(diào)度器是爬蟲(chóng)程序的中樞系統(tǒng),主要負(fù)責(zé)其他四個(gè)部分的工作;URL 管理器包括所有的URL 地址,包括已經(jīng)爬取的地址和未爬取的地址便于調(diào)度器管理哪些地址已經(jīng)爬??;網(wǎng)頁(yè)下載器是下載未爬取的URL 地址網(wǎng)頁(yè),在Python 中的urllib2 已經(jīng)實(shí)現(xiàn)網(wǎng)頁(yè)下載器的部分功能;網(wǎng)頁(yè)解析器首先網(wǎng)頁(yè)下載器下載后得到的網(wǎng)頁(yè)字符串進(jìn)行解析,用戶可以根據(jù)需求提取出相關(guān)信息;各種應(yīng)用是指從網(wǎng)頁(yè)中提取的用戶想要數(shù)據(jù)的應(yīng)用程序.
圖1 基于Python 的網(wǎng)絡(luò)爬蟲(chóng)總體框架Fig.1 The general framework of web crawlers based on python
Scrapy 是一個(gè)應(yīng)用程序框架,可以實(shí)現(xiàn)遍歷爬行網(wǎng)站、分解獲取數(shù)據(jù). 其應(yīng)用非常廣泛,諸如數(shù)據(jù)挖掘、信息處理等等,具體如圖2 所示.
圖2 Scrapy 架構(gòu)圖Fig.2 The structure of Scrapy
Scrapy 執(zhí)行過(guò)程由執(zhí)行引擎完成控制,具體過(guò)程如下[10]:
①引擎從Spiders 中獲取到最初的要爬取的請(qǐng)求;
②引擎安排請(qǐng)求到調(diào)度器中,并向調(diào)度器請(qǐng)求下一個(gè)要爬取的請(qǐng)求;
③調(diào)度器返回下一個(gè)要爬取的請(qǐng)求給引擎;
④引擎將上步中得到的請(qǐng)求通過(guò)下載器中間件發(fā)送給下載器,這個(gè)過(guò)程中下載器中間件中的process_request()函數(shù)會(huì)被調(diào)用到;
⑤上一步完成后,下載器生成一個(gè)該頁(yè)面的Response,并將Response 通過(guò)下載中間件調(diào)用process_response()函數(shù),將Response 傳送給引擎;
⑥引擎得到Response 后,通過(guò)Spider 中間件調(diào)用process_spider_input()函數(shù)發(fā)送給Spider 處理;
⑦Spider 處理Response 請(qǐng)求,完成后通過(guò)Spider中間件返回爬取到Item 及新的請(qǐng)求給引擎;
⑧引擎將上步中Spider 爬取到的Item 給管道,將Spider 處理的請(qǐng)求發(fā)送給調(diào)度器,并向調(diào)度器請(qǐng)求可能存在的下一個(gè)要爬取的請(qǐng)求;
⑨重復(fù)執(zhí)行直到調(diào)度器中沒(méi)有更多的請(qǐng)求.
區(qū)別于靜態(tài)數(shù)據(jù),由于本文中涉及到的網(wǎng)絡(luò)留言是動(dòng)態(tài)數(shù)據(jù),需要找到一種工具能收集動(dòng)態(tài)頁(yè)面數(shù)據(jù),Selenium 就是其中較為杰出代表[11]. Selenium 是一個(gè)基于瀏覽器的自動(dòng)化工具,它提供了一種跨平臺(tái)、跨瀏覽器的端到端的web 自動(dòng)化解決方案. Selenium 測(cè)試直接運(yùn)行在瀏覽器中,就像真正的用戶在操作一樣,可以模擬瀏覽器進(jìn)行網(wǎng)頁(yè)加載,網(wǎng)絡(luò)爬蟲(chóng)工具下使用Selenium 針對(duì)動(dòng)態(tài)頁(yè)面非常有效.
在完成數(shù)據(jù)收集后,對(duì)數(shù)據(jù)有效分析也是關(guān)鍵問(wèn)題之一. 本文中收集到的數(shù)據(jù)可以依靠Pandas 工具[12],pandas 是基于NumPy 的一種工具,Pandas 納入了大量庫(kù)和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具.pandas 提供了大量能快速便捷地處理數(shù)據(jù)的函數(shù)和方法. 正是由于pandas 的存在,才能使Python 成為強(qiáng)大而高效的數(shù)據(jù)分析環(huán)境的重要因素之一,本文可以使用Pandas 對(duì)網(wǎng)絡(luò)爬蟲(chóng)收集到的數(shù)據(jù)進(jìn)行進(jìn)一步分析和處理.
在完成數(shù)據(jù)收集和分析之后,需要對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步挖掘[13-14],例如本文中的評(píng)論數(shù)據(jù),如何判斷該評(píng)論是正面還是負(fù)面,抑或是中性? 需要對(duì)收集到的文本進(jìn)行情感計(jì)算.又由于本文所收集的文本以英文為主,本文中使用Python 中的TextBlob 工具,該工具可以為本文在文本挖掘和分析上提供支撐. TextBlob工具是一個(gè)用Python 編寫的開(kāi)源的文本處理庫(kù).它可以用來(lái)執(zhí)行諸多自然語(yǔ)言尤其是英語(yǔ)的處理任務(wù).比如英文詞性標(biāo)注,英文名詞性成分的提取,英文文本情感的分析,英文文本翻譯等等強(qiáng)大功能. 本文中使用TextBlob 對(duì)英文進(jìn)行簡(jiǎn)單情感分析,以此來(lái)判斷讀者對(duì)翻譯文獻(xiàn)的評(píng)價(jià)和態(tài)度.
TextBlob 主要針對(duì)英文,如果要分析中文文本可以使用SnowNLP 工具.該工具與TextBlob 類似,方便處理中文文本的情感分析.
在本節(jié)中,我們將詳細(xì)介紹實(shí)驗(yàn)平臺(tái)搭建方案和具體實(shí)現(xiàn)流程.為下一步具體實(shí)施奠定基礎(chǔ). 由于亞馬遜評(píng)論詳情頁(yè)是動(dòng)態(tài)加載,本文擬通seleninum 進(jìn)行模擬用戶行為,爬取,然后用pandas 寫入csv 文件,解決亂碼和無(wú)序問(wèn)題.
操作系統(tǒng):Windows10.
開(kāi)發(fā)環(huán)境:PyCharm Community Edition.
開(kāi)發(fā)語(yǔ)言:Python2.7、pip 工具.
瀏覽器軟件:Firefox 瀏覽器(版本55. 0)以及Firefox 插件FirePath.
其他工具:selenium 3.7.0,scrapy 1.4.0,并通過(guò)pip 工具在scrapy 環(huán)境中安裝selenium.
3.2.1 獲取目標(biāo)網(wǎng)址
首先定位到需要分析的書所在網(wǎng)頁(yè),例如亞馬遜網(wǎng)站中著名藏族文學(xué)家阿來(lái)創(chuàng)作的《格薩爾王傳》,由著名漢學(xué)家葛浩文翻譯的英文版《The Song of King Gesar》.由于加載評(píng)論的頁(yè)面被封裝起來(lái),可以使用瀏覽器開(kāi)發(fā)者工具獲取保存評(píng)論的頁(yè)面,然后用正則表達(dá)式獲取有效數(shù)據(jù)內(nèi)容,去除無(wú)用部分.
3.2.2 爬蟲(chóng)框架的選用
選擇python 的scrapy 模塊爬取,同時(shí)需要加載上selenium 工具.具體步驟可以參考2.2 節(jié)所示.
3.3.1 數(shù)據(jù)存儲(chǔ)
將爬蟲(chóng)收集到的數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)庫(kù)對(duì)后面的數(shù)據(jù)分析和挖掘非常關(guān)鍵,由于本文中采集的數(shù)據(jù)量較少,數(shù)據(jù)庫(kù)可以選用mysql.
3.3.2 數(shù)據(jù)清洗
由于網(wǎng)絡(luò)爬蟲(chóng)收集到各種各樣數(shù)據(jù),并不一定是想要的,在此步驟需要通過(guò)正則表達(dá)式將數(shù)據(jù)進(jìn)行清理,刪除無(wú)效數(shù)據(jù),確保后面數(shù)據(jù)分析和數(shù)據(jù)挖掘的準(zhǔn)確性.
3.3.3 數(shù)據(jù)初步分析
在完成上述步驟后,利用TextBlob 對(duì)真實(shí)用戶文本數(shù)據(jù)進(jìn)行挖掘,初步判斷用戶對(duì)待各種作品的態(tài)度和評(píng)價(jià).
本文將少數(shù)民族文學(xué)作品外譯過(guò)程中用戶態(tài)度和評(píng)價(jià)作為研究目標(biāo).擬通過(guò)網(wǎng)絡(luò)爬蟲(chóng)對(duì)國(guó)外主要購(gòu)書網(wǎng)站和書評(píng)網(wǎng)站相關(guān)的評(píng)論數(shù)據(jù)進(jìn)行收集,然后對(duì)數(shù)據(jù)進(jìn)行處理后進(jìn)一步挖掘和情感分析,以期找到少數(shù)民族文學(xué)對(duì)外傳播中的經(jīng)驗(yàn)和存在的問(wèn)題.本文以亞馬遜網(wǎng)站為例,針對(duì)其特點(diǎn)重點(diǎn)介紹該類網(wǎng)站的網(wǎng)絡(luò)爬蟲(chóng)框架和具體實(shí)施步驟,下一步將對(duì)具體細(xì)節(jié)進(jìn)一步完善,將收集到的數(shù)據(jù)分析整理后,為少數(shù)民族文學(xué)作品對(duì)外譯介過(guò)程提供有價(jià)值的建議.