陶晨 白琳琳 金姝 徐蓉蓉 楊劍平
摘要: 針對絲綢文化演變的數(shù)字化觀測問題,文章探析大數(shù)據(jù)中的絲綢文化情感特征與構成,透視新時期絲綢文化的內(nèi)涵升級。利用主題網(wǎng)絡爬蟲技術采集得到絲綢文化情感的大數(shù)據(jù),對情感詞詞頻的統(tǒng)計展示了絲綢文化正、負情感在“一帶一路”倡議影響下的總體走向;對歷年絲綢文化情感來源的構成分析,發(fā)現(xiàn)了物質(zhì)性來源的下降趨勢、社會性和精神性來源的上升趨勢,揭示了“一帶一路”影響下絲綢文化主導形態(tài)的轉(zhuǎn)變和升級。研究結(jié)果表明,對于新時期絲綢文化發(fā)展狀態(tài)的評估、文化政策制定具有重要參考價值。
關鍵詞: 絲綢;情感;大數(shù)據(jù);文化計算;“一帶一路”倡議;詞頻
Abstract: Around the digital observation of silk culture evolution, this study is intended to explore the characteristics and composition of silk cultural emotions in big data, and reflect connotational upgrade of silk culture in the new era. Big data of silk cultural emotion was collected with topic-focused crawler technology, and emotional word frequency was counted to reflect the general trend of positive and negative silk cultural emotions under the impact of the Belt and Road initiative. Analysis was made on the composition of silk cultural emotion source over the years to reveal the decline of material sources and the rise of social and mental sources, as well as the transformation and upgrade of the dominant type of silk culture under the impact of the Belt and Road initiative. The findings have an important reference value for estimation and policy-making in the domain of silk culture in the new era.
Key words: silk; emotion; big data; culture computation; "the Belt and Road" initiative; word frequency
中國絲綢古往今來傳承數(shù)千年,品種與技藝繁多,同時也承載了勞動人民豐富的情感與信念,深刻地影響了民族個性和民族心理的形成。近年來“一帶一路”倡議的推行,賦予絲綢文化新的時代內(nèi)涵和發(fā)展動力,由此引發(fā)的絲綢文化情感的涌動和翻新,成為考察新時期絲綢文化演進和升級的獨特窗口。國內(nèi)已有許多學者探討新時期絲綢文化的演變和適應性發(fā)展,如討論絲綢文化的復興[1]、新時期文化共同體的形成[2]、新絲路歷史文化遺產(chǎn)的保護策略[3]、新時代背景下絲綢文化產(chǎn)業(yè)融合發(fā)展策略[4]等。該類研究采取社會調(diào)查、資料整理和觀點討論的傳統(tǒng)方法,主要成果形式為提出愿景或?qū)Σ?,而鮮有對絲綢文化現(xiàn)實狀態(tài)的數(shù)據(jù)實證。另一方面,隨著大數(shù)據(jù)技術應用的不斷深入,跨學科的“文化計算”應運而生,成為利用數(shù)據(jù)挖掘和文本處理進行文化與社會科學量化分析的前沿性領域[5]。文化計算源起哈佛大學的Aiden等[6]對谷歌數(shù)字圖書數(shù)據(jù)進行的研究,其通過海量文本中單詞或人名隨時間變化的頻率,推導出了一些重要歷史文化事件和趨勢,證明了利用大數(shù)據(jù)處理手段提取文化特征并進行量化分析的可行性;中國學者邵培仁等[7]對詞頻方法用于文化基因的提取做了探索,提出了利用文化計算方法進行中華文化基因庫建設的構想;龔為綱等[8]通過大數(shù)據(jù)詞頻分析,結(jié)合關系網(wǎng)絡與語義情感,考察了海上絲綢之路中絲綢產(chǎn)品的貿(mào)易格局和文化影響力;陶晨等[9]在詞頻統(tǒng)計基礎上分析了絲綢文化的特征分布及其背后的新時代內(nèi)涵,展示了絲綢文化在“一帶一路”倡議影響下的演化過程;Correia等[10]考察不同語言中各種動物名稱的頻率分布,通過實時監(jiān)測物種文化可見度的變化,揭示了公眾環(huán)保意識的縱深演化;Kozlowski等[11]利用詞向量模型研究社會階級結(jié)構,發(fā)現(xiàn)了社會階級的形成與轉(zhuǎn)化隨宏觀經(jīng)濟波動而周期性改變的規(guī)律。本研究將文化計算方法用于絲綢文化大數(shù)據(jù)中情感要素的挖掘和量化分析,透過情感變化觀照文化的演變,新時期絲綢文化的內(nèi)涵升級可見一斑。
1 數(shù)據(jù)采集與處理
文化即人的生存方式,絲綢文化是中國勞動人民養(yǎng)蠶、制絲、織綢的生活方式及在此之上衍生和沉淀的社會傳統(tǒng)、禮節(jié)習俗、民族情感、思維模式等。絲綢文化相關的文本可以通過人工方式從書籍、報紙、電視、網(wǎng)絡等媒體上搜集,當積累的數(shù)據(jù)達到一定的規(guī)模,能夠基本覆蓋人們在這一對象上產(chǎn)生的所有言論或觀點,即形成了絲綢文化的大數(shù)據(jù)。但人工采集方式耗時耗力,且難以保證數(shù)據(jù)的時效性,近年來逐漸讓位于自動化采集方式。
當今世界,互聯(lián)網(wǎng)已成為全球第一大媒體,特別是社交網(wǎng)絡的不斷滲透,人們?nèi)粘I钆c工作的所見所聞所想,幾乎立刻就會出現(xiàn)在互聯(lián)網(wǎng)上?;ヂ?lián)網(wǎng)不遺巨細地映射了人們社會生活的點滴,因此其蘊含的海量信息資源對于一定的社會文化對象具有解釋力。在基于互聯(lián)網(wǎng)的自動化采集方式中,以主題網(wǎng)絡爬蟲技術[12]的使用最為廣泛,可在短時間內(nèi)實現(xiàn)高效的數(shù)據(jù)采集。
本研究將“蠶絲”“絲織”“絲綢”等詞語作為關鍵詞,以百度網(wǎng)站的搜索結(jié)果頁面作為入口,利用主題網(wǎng)絡爬蟲進行多線程大規(guī)模文本采集,將網(wǎng)頁時間戳賦予相應文本對象的時間屬性,共爬取20 943個網(wǎng)站的570 120個有效網(wǎng)頁,獲取文本74 985 KB,時間上涵蓋2010—2019年共十年。這些文本涵蓋了絲綢文化的各方面,可認為是絲綢文化的大數(shù)據(jù),如圖1所示。
絲綢文化的文本大數(shù)據(jù)需要進行預處理,以便得到情感詞的序列。預處理的過程主要包括分詞、停用詞過濾和情感詞標記[13]三個步驟。分詞是中文文本處理的特有技術,通過分詞進行中文詞語的分割,將文本轉(zhuǎn)變?yōu)樵~語序列。此時序列中含有一定數(shù)量的量詞、連詞、介詞、語氣詞等意義不大的非實體詞語(稱為“停用詞”),借助中文停用詞表對詞語序列進行過濾,以析出實體詞。進一步地,通過調(diào)用中國知網(wǎng)Hownet情感詞庫,對序列中實體詞的情感色彩進行識別和標記。Hownet情感詞庫是目前使用最多的中文情感分類工具,包含中文正、負面情感詞8 000多個,其優(yōu)點是分類明確、檢索方便,能夠滿足絲綢文化應用的需要。經(jīng)過情感標記后,文本中的正、負面情感詞分別用記號P、N指示。
2 情感對象特征分析
利用詞語序列的時間標簽,可將文化大數(shù)據(jù)切分成一系列子集對應不同時間段。本研究將絲綢文化大數(shù)據(jù)劃分成十個子集,對應2010—2019年。對這十個子集分別進行詞頻統(tǒng)計,得到最近十年間正、負面情感詞在絲綢文化大數(shù)據(jù)中出現(xiàn)的頻率,其總體走向如圖2所示。
由圖2可見,近十年間絲綢文化中正面情感詞出現(xiàn)的頻率(以下簡稱“正面詞頻”)總體呈上升趨勢,負面情感詞頻率(以下簡稱“負面詞頻”)總體呈下降趨勢。在2013、2014年左右,正面詞頻與負面詞頻同時發(fā)生了一次大幅跳變(正面詞頻上升約30%、負面詞頻下降約23%),該時間點與“一帶一路”倡議提出的時間節(jié)點(2013年9月)基本吻合??梢姟耙粠б宦贰背h的提出,有力地推動了絲綢文化中正面情感的發(fā)揚,這對強化確立絲綢文化在中國優(yōu)秀傳統(tǒng)文化中的地位具有重要的作用。進一步,本研究考察絲綢文化情感對象的性質(zhì),列出了歷年頻率排名前五的情感詞,如表1所示。
根據(jù)有關“文化階層”的觀點[14],文化要素可分為物質(zhì)性要素(絲綢產(chǎn)品、技藝、工具等)、社會性要素(絲綢服飾的禮俗意義、絲綢貿(mào)易與絲綢產(chǎn)業(yè)的格局、新絲路上的國際政治角力等)、精神性要素(物質(zhì)性和社會性實踐中升華而來的理念和個性,如務實、友好等)三大類。三大類之下亦可再作細分,如社會性要素可細分為禮俗性要素、經(jīng)濟性要素、政治性要素等。
這里的情感對象是指情感所針對的絲綢文化要素。基于對絲綢文化一定的理解,可通過情感詞來判斷情感對象。如情感詞“高貴”“華麗”“舒適”“典雅”等一般是針對絲綢產(chǎn)品及其性能(即物質(zhì)性要素),故其情感對象具有物質(zhì)性,這類修飾詞占據(jù)了2010—2013年正面情感詞的大部分。相較之,2014—2019年正面情感詞中“復興”“包容”“合作”“共贏”之類的動詞比例攀升,這類動詞主要針對新時代背景下的社會政策和國際格局(即社會性要素),其情感對象具有社會相關性。這表明,絲綢文化正面情感對象有從物質(zhì)相關向社會相關轉(zhuǎn)變的趨勢。
負面情感詞的演變過程存在類似的分段特點。2010—2013年負面情感詞中“低端”“落后”“奢侈”“蕭條”等大多數(shù)針對絲綢產(chǎn)業(yè)和絲綢貿(mào)易(即社會性要素中的經(jīng)濟性要素),其情感對象具有經(jīng)濟相關性。而2014—2019年負面情感詞中“動蕩”“極端”“恐怖”“非法”等詞語比例攀升,主要針對新絲路上各種國際政治不利因素(即社會性要素中的政治性要素),其情感對象具有政治特征。這表明,絲綢文化負面情感對象有從經(jīng)濟相關向政治相關演變的趨勢。
3 情感來源構成分析
本研究發(fā)現(xiàn),情感詞的詞頻分布具有集中性特點。以2014年為例,其典型形式如圖3所示。
為析取高頻情感詞從而進行更有針對的分析,本研究將詞頻由小到大、間隔均勻地分為10個等級。圖2中,正、負面情感詞詞頻區(qū)間分別為0~0.31、0~0.09,故正、負面詞頻等級間隔分別為0.031、0.009。為統(tǒng)計每個等級上出現(xiàn)的情感詞數(shù)量,圖3給出了2014年絲綢文化情感詞的詞頻分布情況??梢钥闯?,正、負面情感詞的詞頻分布都具有指數(shù)分布的特征,即較高頻段為少數(shù)詞占據(jù),絕大多數(shù)情感詞集中在較低頻段。將10個詞頻等級按照其容納的情感詞數(shù)量進行聚類與分類,可將情感詞劃分為高頻、中頻和低頻,如圖4所示。
圖4給出對2014年正面情感詞詞頻等級聚類的結(jié)果,可見在圖中虛線位置上存在自然三分類,可據(jù)此將正面情感詞劃分為低頻(對應詞頻等級1,共284個詞語)、中頻(對應等級2,共105個詞語)和高頻(對應等級3~10,共182個詞語)。對于負面情感詞,亦可作類似的分類。
基于情感詞詞頻的集中分布特點,對其進行頻段的劃分后,可藉由部分高頻詞把握絲綢文化情感的主要來源。在絲綢文化大數(shù)據(jù)中定位高頻詞的位置,分析其上下文,可辨識其情感對象;通過對情感對象的梳理與整合,提取絲綢文化情感的來源,過程如圖5所示。
本研究對2010—2019年絲綢文化高頻情感詞(其中正面詞182個、涉及上下文142 672條,負面詞67個,涉及上下文35 362條)按照圖5步驟進行人工辨析、整合和匯總,總結(jié)正面情感來源項13條、負面情感來源項8條,如表2所示。
表2中,將情感來源按其對象性質(zhì)分為物質(zhì)性來源、社會性來源和精神性來源三種,正面情感來源包含上述三種,負面情感來源包含前二種(其在高頻區(qū)上不涉及精神性情感對象)。各情感來源項在絲綢文化情感中所占比重,可用其背后支撐的上下文條目數(shù)量(經(jīng)歸一化處理后)表征。進一步考察時間軸上絲綢文化各情感來源項的比重變化,如圖6所示。
圖6(a)為近十年絲綢文化正面情感來源的構成變化。總體上,物質(zhì)性來源的比重呈下降趨勢,社會性、精神性來源比重呈上升趨勢;物質(zhì)性來源內(nèi)部,僅PM04(現(xiàn)代絲綢產(chǎn)品的健康、綠色、環(huán)保特性)保持穩(wěn)定、略有上升,其余項均下降;社會性來源內(nèi)部,PS10(新時期絲綢文化的時代內(nèi)涵、感召力、活力、動力等)增幅最大,是推動社會性來源比重上升的主要因素;精神性來源項中,PP12(絲綢之路的和平、友好、開放、包容精神)增幅最大,是推動精神性來源比重上升的主要因素。
“絲綢”的本意昭示其物質(zhì)性,幾千年來中國勞動人民養(yǎng)蠶、剝繭、抽絲、紡紗、織綢,創(chuàng)造了豐富的物質(zhì)性文化;這種物質(zhì)性文化在生產(chǎn)實踐中培育了特定的社會群體(如蠶農(nóng)、綢商)及相應社會生活方式(如耕織、衣錦),給絲綢文化賦以社會性特征。從圖6(a)來看,2014年之前絲綢文化正面情感以物質(zhì)性來源為主導,絲綢文化主要表現(xiàn)為一種物質(zhì)性文化;2014年之后,社會性來源的比重逐年攀升,至2016年超越物質(zhì)性來源比重,此后維持在相對穩(wěn)定水平,這喻示了“一帶一路”倡議推動下絲綢文化由物質(zhì)性主導向社會性主導的轉(zhuǎn)變。
圖6(b)為近十年絲綢文化負面情感來源變化的情況。總體上,物質(zhì)性來源的比重逐年下降,社會性來源比重呈逐年上升趨勢;社會性來源項目中,NS08(對新絲路上貿(mào)易保護主義、單邊主義、零和思維、極端勢力、恐怖主義的憂慮)增幅最大,是推動社會性來源比重上升的主要因素。值得注意的是,近幾年來情感來源項NS08的凸顯,表明當今國際政治環(huán)境中的各種不利因素已成為新時期絲綢文化傳播、發(fā)揚和演進的主要障礙。
4 結(jié) 論
本研究在絲綢文化大數(shù)據(jù)上開展的統(tǒng)計與分析,展現(xiàn)了近十年絲綢文化中情感特征與構成,包括:絲綢文化中正面情感上升、負面情感下降的總趨勢;正面情感對象的社會性傾向和負面情感對象的政治性傾向;具體的絲綢文化正、負情感來源項共21條;絲綢文化情感來源中物質(zhì)性下降、社會性和精神性的上升的現(xiàn)象。這些發(fā)現(xiàn)反映了新時期絲綢文化在“一帶一路”倡議影響下的演變、升級及面臨的挑戰(zhàn),包括:絲綢文化主導形態(tài)的轉(zhuǎn)變,即從物質(zhì)性文化向社會性文化的升級;新時期絲綢文化發(fā)展和演進的主要障礙,來自國際政治中的貿(mào)易保護主義、單邊主義、零和思維等。
參考文獻:
[1]李希光. “一帶一路”文化建設與絲綢之路文化復興[J]. 新聞與傳播, 2015(6): 24-26.
LI Xiguang. Cultural construction and cultural revival of the silk road under "the Belt and Road" initiative[J]. Journalism & Communication, 2015(6): 24-26.
[2]江晉, 李潔. “一帶一路”背景下基于Wiki平臺絲綢文化學習共同體的構建[J]. 新西部, 2018(2): 40, 50.
JIANG Jin, LI Jie. Construction of silk cultural learning community based on Wiki platform under the background of "the Belt and Road"[J]. New West, 2018(2): 40, 50.
[3]李丕宇. “一帶一路”背景下“絲綢之路”歷史文化遺產(chǎn)研究的雙向視域[J]. 齊魯藝苑, 2017(2): 4-8.
LI Piyu. The bi-directional perspective for historical and cultural research on the heritage of the silk road under the background of "the Belt and Road" initiative[J]. Qilu Realm of Arts, 2017(2): 4-8.
[4]王俊鵬, 韓斌. 新時期“一帶一路”對民族文化傳播的影響及啟示[J]. 貴州民族研究, 2019, 40(1): 49-52.
WANG Junpeng, HAN Bin. "The Road and Belt" initiative in the new period of national culture dissemination and the influence of the enlightenment[J]. Guizhou Ethnic Studies, 2019, 40(1): 49-52.
[5]趙海英, 賈耕云, 潘志庚. 文化計算方法與應用綜述[J]. 計算機系統(tǒng)應用, 2016, 25(6): 1-8.
ZHAO Haiying, JIA Gengyun, PAN Zhigeng. Review on the methods and applications in cultural computing[J]. Computer System Application, 2016, 25(6): 1-8.
[6]MICHEL J B, SHEN Y K, AIDEN A P, et al. Quantitative analysis of culture using millions of digitized books[J]. Science, 2011, 331(6014): 176-182.
[7]邵培仁, 林群. 中華文化基因抽取與特征建模探索[J]. 江蘇師范大學學報: 哲學社會科學版, 2012, 38(2): 107-111.
SHAO Peiren, LIN Qun. Exploration of extracting chinese cultural genes and modeling its characteristics[J]. Journal of Jiangsu Normal University: Philosophy and Social Science Edition, 2012, 38(2): 107-111.
[8]龔為綱, 羅教講. 大數(shù)據(jù)視野下的19 世紀“海上絲綢之路”: 以絲綢、瓷器與茶葉的文化影響力為中心[J]. 學術論壇, 2015, 38(12): 82-91.
GONG Weigang, LUO Jiaojiang. The 19th century "maritime silk road" from the perspective of big data: centering on the cultural influence of silk, porcelain and tea[J]. Academic Forum, 2015, 38(12): 82-91.
[9]陶晨, 魯佳亮, 蘇淼, 等. 新時期絲綢文化演變的大數(shù)據(jù)解讀[J]. 絲綢, 2020, 57(12): 74-79.
TAO Chen, LU Jialiang, SU Miao, et al. Interpreting silk culture evolution in the new era with big data[J]. Journal of Silk, 2020, 57(12): 74-79.
[10]CORREIA R A, JEPSON P, MALLHADO A C M, et al. Internet scientific name frequency as an indicator of cultural salience of biodiversity[J]. Ecological Indicators, 2017(78): 549-555.
[11]KOZLOWSKI A C, TADDY M, EVANS J A. The geometry of culture: analyzing the meanings of class through word embeddings[J]. American Sociological Review, 2019, 84(5): 905-949.
[12]于娟, 劉強. 主題網(wǎng)絡爬蟲研究綜述[J]. 計算機工程與科學, 2015, 37(2): 231-237.
YU Juan, LIU Qiang. An overview of thematic web crawler[J]. Computer Engineering and Science, 2015, 37(2): 231-237.
[13]苗奪謙, 衛(wèi)志華, 張志飛. 中文信息處理原理及應用[M]. 北京: 清華大學出版社, 2015.
MIAO Duoqian, WEI Zhihua, ZHANG Zhifei. The Theory and Applications of Chinese Information Processing[M]. Beijing: Tsinghua University Press, 2015.
[14]錢穆. 文化學大義[M]. 北京: 九州出版社, 2011.
QIAN Mu. The Basics of Culture[M]. Beijing: Jiuzhou Press, 2011.