王雪蕊 侯為根 陳旬旬
摘要:為了預測未來世界語言的發(fā)展趨勢,將基于時間仿真模型與元胞自動機模型結合,進行時間和空間兩個維度的預測.首先進行指標選取,將算法與BP網絡結合,獲得關鍵參數(shù),最后進行模型擴展,以獲得更大時間跨度的研究內容.在此基礎上,構建元胞自動機模型,將大地坐標系轉化成笛卡爾坐標系,模擬離散空間變量,并使用維基百科提供的數(shù)據(jù),用Matlab軟件模擬得出結果.模擬結果表明,50年后,目前世界排名前十的語言中有四種語言將被替換.語言作為人類交流工具,與經濟發(fā)展、文化交流等有密切聯(lián)系,研究結果可用于預測未來經濟和文化發(fā)展趨勢.
關鍵詞:時間仿真模型;元胞自動機;語言發(fā)展
中圖分類號:TP391? 文獻標識碼:A? 文章編號:1673-260X(2019)07-0065-05
語言是人類交流的工具,目前世界上約有6900種語言,隨著全球化進程的不斷加快,語言也在不斷發(fā)展.語言交際與經濟貿易、國際政治活動有著密切關系[1],因此準確預測未來語言發(fā)展有著重大意義.人們研究語言往往是從它的起源開始研究,涉及的影響因素有地理、歷史、文化等,由感性研究得出的結論,往往缺少客觀性,得出的結論準確度不高.還存在一些方法,例如元胞自動機[2]的方法,支持向量機[3]的方法,均是只從空間角度來預測語言發(fā)展趨勢.本文除了運用元胞自動機的方法,還增加了時間仿真模型,將時間和空間兩個維度結合起來,基于BP網絡和Matlab仿真,引入?yún)?shù)推導出算法,更準確地預測了未來語言發(fā)展趨勢.
現(xiàn)今世界語言的分布不僅受到地區(qū)經濟發(fā)展狀況、歷史因素及人口遷移的影響,還與一個國家的政策開放程度等因素有關.人口出生和死亡必將影響各語言使用者總數(shù),由于戰(zhàn)爭、移民等導致的人口遷入和遷出也是影響因素,因為現(xiàn)代經濟發(fā)展的需求,各國人口在將本國語言作為母語的同時,還可能掌握一種或多種語言作為第二語言,所以語言之間的轉換現(xiàn)如今也成了影響因素之一.
時間仿真模型認為不同語言使用者的數(shù)量可以相互傳遞,語言使用者的總數(shù)只與出生率,死亡率,遷入率,遷出率和轉換率有關.語言使用者總數(shù)隨時間變化,隨著時間的推移獲得各種語言使用者的數(shù)量.元胞自動機模型將地球表面劃分為[-89,89]×[0,359]細胞,這與經度和緯度一致.在語言的初始值被選中后,它將遵循本文定義的規(guī)則.在模擬中,我們將得到每種語言在地理上的分布.本本文的模型使用維基百科提供的當前各種語言使用者數(shù)量[4]進行驗證.兩種模型模擬了2016年的數(shù)據(jù),并且得出的結果顯示了與2017年世界語言分布較為一致.因此,在此基礎上的擴展模型可以用來研究50年內的語言發(fā)展趨勢.
1 指標選取和解釋
本文選取了出生率、死亡率、遷入率、遷出率、語言轉換率五個指標作為影響因素,下面對它們做出詳細解釋.
1.1 出生率和死亡率
很顯然,出生和死亡帶來人口數(shù)量的變化,隨之帶來語言使用者數(shù)量的變化,
一般地,出生率有以下計算公式:
這里,S指的是各國人口出生總人數(shù),M為世界總人口數(shù),但由于地理環(huán)境、生活習慣、國家政策的不同,世界195個國家的出生率?琢和死亡率?茁也不盡相同,因此本文的?琢和?茁的計算均采用平均值計算公式:
在此,出生率和死亡率將是一個恒定的平均值,并且指的是日出生率和日死亡率,k=1,…,195指的是國家數(shù),?琢k指的是各國人口出生率,?茁k指的是各國人口死亡率,mk指的是各國人口數(shù),M指的是世界總人口數(shù).
1.2 遷入率和遷出率
毫無疑問,遷入人口對第二語言的沖擊力最大,由于遷入人口在遷入國的生存壓力或環(huán)境影響下將被迫或主動掌握該國家的語言,形成第二語言,且隨著時間的發(fā)展,遷入人口的后代將以極大概率把遷入國語言轉變?yōu)槟刚Z使用,因此,遷入人口的增加勢必會增加遷入國語言使用者的數(shù)量.因種族、文化、信仰、政策的不同,遷入率?酌和遷出率?啄也同樣會因為國家的不同而不同,所以本文對遷入率和遷出率同樣采用平均值算法:
在此,遷入率和遷出率將是一個恒定的平均值,并且指的是日遷入率和日遷出率,k=1,…,195指的是國家數(shù),?酌k指的是各國人口遷入率,?啄k指的是各國人口遷出率,mk指的是各國人口數(shù),M指的是世界總人口數(shù).
1.3 語言轉換率
語言轉換率為一種語言使用者學習另外一種語言,從而忘記其母語語言的概率.當一種語言很少被使用時,或者該語言本身較難學習時,一般而言會增加該國大部分人放棄學習該國語言的概率,并選擇學習一種較為簡單通用的語言以供交流,例如拉丁語[5]就是一種日??谡Z已經消亡的西方古典語言,今天一般只作為文獻語言以供研究.此外如果一個人很少說他的母語,那么他有很大可能不會與另一個說同樣語言的人結婚,因此,人們普遍認為,他們之間的對話將基于一種常用語言,他的孩子也將學習這種通用語言,那么一代代發(fā)展下去,此人的母語有很大可能被遺忘,例如長期生活在漢族地區(qū)的少數(shù)民族的人,他們將很大可能同漢族人結為夫妻,由于生活、工作和學習的原因,他們以及他們的后代將會使用漢語而不是少數(shù)民族語言.此外,當發(fā)生戰(zhàn)爭或信仰入侵,也會使語言之間互相轉換.社會壓力,政府推動以及文化群體的同化等也會導致語言之間發(fā)生轉換.
∈ij表示從語言i到j的轉換率.一般來說,它可以定義為:
這里,tij指的是語言i轉化為語言j的人數(shù),mi指的是語言i的使用者總數(shù),事實上,很難找到有多少人學習新語言并且忘記他們的母語,因此,我們決定將本文設計的算法與BP(背景傳播)神經網絡結合起來.根據(jù)聯(lián)合國教科文組織最新發(fā)布的世界瀕危語言圖譜[6]可知,全世界大約有7000種語言,其中一半以上的語言將在21世紀末消亡,80%—90%則在未來的200年內滅絕,基于語言的影響力,本文只選取當今世界排名前26名的語言進行研究,這26種語言分別是:漢語普通話、英語、印度語、西班牙語、阿拉伯語、馬來語、俄語、孟加拉語、法語、葡萄牙語、豪薩語、旁遮普語、日語、德語、波斯語、斯瓦希里語、泰盧固語、爪哇語、吳語、韓語、泰米爾語、馬拉提語、粵語、土耳其語、越南語、意大利語.將2016年語言排名前26的使用者人數(shù)作為初值,即p0,與2017年維基百科的數(shù)據(jù)形成鮮明對比.因此得到26輸入和26輸出的權重矩陣[7].圖1為BP網絡圖.
在此,p0指的是語言使用者數(shù)量初值,權重矩陣是∈ij矩陣.在網絡[8]中,有26個隱藏層和26個神經細胞.2016年各種語言的總使用者是輸入,而2017年各種語言的總使用者是輸出.在訓練網絡后,我們得到了∈矩陣.如圖2所示.
2 時間仿真模型
2.1 基本模型
在時間仿真模型中,將整個世界視為一個整體,分別考慮每種語言.而對于每種語言,使用者的總數(shù)只與出生率,死亡率和每種語言之間的轉換率有關,在這里,因為考慮的是時間維度,所以忽視遷入率和遷出率,偏向于出生率、死亡率和語言轉換率.關系如圖3所示.首先,我們只考慮兩種語言.在這個基本模型中,n表示天數(shù),從1月1日開始統(tǒng)計.
3 時空元胞自動機模型
由于世界各語言在不同地理位置上的分布是不同的,因而在考慮時間的同時,還應考慮空間因素,為此建立元胞自動機模型.該模型基于時間仿真模型,但更加復雜.元胞自動機(CA)是一種時間和空間都離散的動力系統(tǒng),其整體行為是在個體行為共同作用下實現(xiàn).本文在研究中采用二維CA,將整個笛卡爾坐標系平面看成是一張二維的規(guī)則格網,每一格網代表一個元胞,且在任意時刻都有自己的狀態(tài)值,即任意時刻的各語言使用者人數(shù),狀態(tài)的更新依賴于轉換規(guī)則函數(shù),即公式(1)(2)(3)(4)(5)(11),元胞下一時刻的狀態(tài)值是由上一時刻該元胞及其鄰域元胞狀態(tài)綜合決定的.
首先,我們將大地坐標系轉換[9]為笛卡爾坐標系.值得注意的是經度∈[-180,180],這意味著西經180°,東經180°.緯度∈[-90,90],這意味著南緯90°,北緯90°.另一個需要注意的是,坐標(4,88)并不表示它的經度是4°,緯度是88°.實際上,它表示該位置對應經度軸上的第4元胞和緯度軸上第88元胞.坐標(lo,la)代表元胞自動機在每一個小方格的位置,lo表示經度軸方向的坐標,la表示緯度軸方向的坐標.
圖5闡述了該模型的工作原理:
元胞自動機中每一個格子中的人數(shù)會隨著時間的推移(時間仿真模型)而改變,每個時間步長為一天.元胞自動機模型中,與時間仿真模型不同,此處進行的是空間分布研究,因此會更加關注遷入率?酌和遷出率?啄.
這里只考慮了3種語言,下面是具體實現(xiàn)過程:
(1)遷移方向和距離:對于每個元胞自動機,它只有四個方向可以遷移:向上,向下,向左和向右.在初始模型[10]中,遷移距離一次不應超過10個元胞自動機.由于每個元胞自動機只能移動一次,因此我們需要一種算法來確定方向和距離.實際上,我們定義任何方向具有相同的概率,即:
4 預測分析
4.1 第一部分
P0為26種語言使用者初值(單位:百萬):
P0=[1090 983 544? 527 422 281 267 261 229 229 150 148 129 129 121 107 92 84 80 77 75 74 72 71 68 66]
首先進行1年內26種語言的母語使用人數(shù)的預測,利用Matlab軟件[11]模擬,模擬365天后,我們得到了以下結果(單位:百萬):
在此,P0指的是語言使用者總數(shù),根據(jù)結果,第9種語言(葡萄牙語)成為第10種語言,而第10種語言(法語)成為第9種語言,并且漢語普通話[12]總數(shù)略有下降而英語使用者有所增加,但總體變化幅度不大.
4.2 第二部分
接下來繼續(xù)用matlab來執(zhí)行模擬,時間改為50年,即365×50天,得到以下結果,P0同上.
由圖8可見,50年的時間跨度內,語言發(fā)展趨勢變化明顯.觀察可得:(1)上升趨勢明顯型:英語、法語、吳語(上海話).(2)上升趨勢緩慢型:馬來語、日語、德語.(3)變化趨勢平穩(wěn)型:英語、西班牙語、阿拉伯語.(4)波動性下降較為顯著型:漢語普通話、阿拉伯語、俄語.另外,50年后,目前排名前十的名單中有四種語言被替換,它們分別是:西班牙語、俄語、孟加拉語和葡萄牙語,新進入排名前十的四種語言分別是:豪薩語、日語、德語和吳語(上海話).表2是現(xiàn)在世界排名前十的語言以及建模得出的五十年后世界排名前十的語言.
5 結語
世界在發(fā)展,語言也在不斷發(fā)展,通過建立時間仿真模型和元胞自動機模型,將時間和空間維度相結合,推算關鍵參數(shù)和算法,引入BP網絡,并運用Matlab仿真,得出以下結論.
5.1 50年后,目前排名前十的名單中有四種語言被替換,它們分別是西班牙語、俄語、孟加拉語和葡萄牙語,新進入排名前十的四種語言分別是豪薩語、日語、德語和吳語(上海話).
5.2 英語在50年后將會排名第一,其次是印度語,漢語當中有普通話和吳語兩種語言都在前十之列.即具有強烈影響力的語言,大多數(shù)國家更希望選擇它作為他們的第二語言,并且會更快地增加并且更廣泛地使用,這與世界經濟發(fā)展狀況有關.
本文使用的建模方法還可用于時間跨度更長的語言發(fā)展趨勢研究.但在參數(shù)選取方面,本文假設未來50年內世界處于平穩(wěn)發(fā)展狀態(tài),因此將一些參數(shù)考慮為恒定值,若考慮其為動態(tài)可變的,會使得結果準確度進一步提高.
參考文獻:
〔1〕袁俏玲.語言與經濟的關系探微[J].湖南科技學院學報,2007,28(5):107-109.
〔2〕汪榆淋.基于元胞自動機各語言人口分布分析[J].信息記錄材料,2018,19(10):56-57.
〔3〕佟凱文,汪超,劉超.基于支持向量機的世界語言發(fā)展趨勢研究[J].中國高新區(qū),2018,41(13):58-59.
〔4〕Wikipedia,the free encyclopedia.List of languages by number of native speakers[OL].2018.https://en.wikipedia.org/wiki/List_of_languages _by_number_of_native_speakers.
〔5〕羅建平.西方古文明與拉丁語的興亡——政治與語言的關系研究[J].海外英語,2011,9(3):204-205.
〔6〕聯(lián)合國教科文組織.全球瀕危語言地圖[OL].2018.360百科:https://baike.so.com /doc/668 6574-6900477.html.
〔7〕任謝楠.基于遺傳算法的BP神經網絡的優(yōu)化研究及MATLAB仿真[D].天津:天津師范大學計算機與信息工程學院,2014.
〔8〕熊少康,王凌川,章家?guī)r,郭許林,馮旭剛.基于BP神經網絡的車輛動態(tài)稱重技術[J].安徽工業(yè)大學學報,2014,31(1):76~79.
〔9〕張龍,汪新慶,劉岳,常力恒.一種MapGIS向ArcGIS地圖數(shù)據(jù)轉換的方法[J].測繪科學,2014,39(7):146-149.
〔10〕Jay Belanger et.al. Mathematical Modeling for the MCM/ICM Contests[J].Higher Education Press,2015,Volume 1:1-20.
〔11〕張志涌,楊祖櫻.Matlab教程[M].北京:航空航天大學出版社,2015.
〔12〕李娟,龍四古.人類語言發(fā)展與制度調適——兼評中國現(xiàn)行外語教育制度[J].太原師范學院學報,2007,6(1):43-46.