李宇明
( 首都師范大學(xué) 文學(xué)院,北京,100089 )
數(shù)據(jù)(data)是觀察客觀世界和人類社會(huì)得到的各種原始素材,通過(guò)對(duì)素材的加工處理獲取信息、建構(gòu)知識(shí)、生發(fā)思想。人類社會(huì)自形成以來(lái)就有數(shù)據(jù)存在,并為人類知識(shí)體系和思想觀念的形成發(fā)展不斷作出貢獻(xiàn)。隨著計(jì)算機(jī)的產(chǎn)生和發(fā)展,數(shù)據(jù)的作用更加重要,科學(xué)地位更加凸顯,社會(huì)也對(duì)其更加重視。在計(jì)算機(jī)科學(xué)中,所有能輸入計(jì)算機(jī)并被計(jì)算機(jī)程序處理的符號(hào),都可稱之為數(shù)據(jù),包括數(shù)字、文字、符號(hào)、語(yǔ)音、圖像、視頻,等等。計(jì)算機(jī)所形成的網(wǎng)絡(luò),為社會(huì)構(gòu)建了一個(gè)虛擬的網(wǎng)絡(luò)空間;計(jì)算機(jī)在數(shù)據(jù)收集、處理上表現(xiàn)出強(qiáng)大功能,特別是通過(guò)大數(shù)據(jù)學(xué)習(xí)而不斷挖掘知識(shí)、獲取智能,促進(jìn)人工智能的快速發(fā)展和廣泛的社會(huì)應(yīng)用,突出了數(shù)據(jù)的科學(xué)意義。2019年10月,黨的十九屆四中全會(huì)將數(shù)據(jù)與勞動(dòng)、資本、土地、知識(shí)、技術(shù)、管理并列為第七大生產(chǎn)要素,作為生產(chǎn)要素的數(shù)據(jù)可以通過(guò)市場(chǎng)“按貢獻(xiàn)取酬”。這是重大的理論創(chuàng)新,體現(xiàn)著對(duì)信息化社會(huì)的本質(zhì)認(rèn)識(shí),也是社會(huì)進(jìn)入“數(shù)據(jù)時(shí)代”的標(biāo)志。本文討論數(shù)據(jù)作為生產(chǎn)要素的意義、語(yǔ)言數(shù)據(jù)與生產(chǎn)要素的關(guān)系、語(yǔ)言智能與人類正在建造的“第三空間”、數(shù)據(jù)時(shí)代的語(yǔ)言產(chǎn)業(yè)問(wèn)題等。目的在于認(rèn)識(shí)語(yǔ)言數(shù)據(jù)在數(shù)字經(jīng)濟(jì)發(fā)展中的意義,語(yǔ)言學(xué)要以新文科的思路為數(shù)據(jù)時(shí)代培養(yǎng)人才。
數(shù)據(jù)的價(jià)值首先被科學(xué)家所認(rèn)識(shí),特別是被計(jì)算機(jī)專家和信息專家所認(rèn)識(shí)。計(jì)算機(jī)與信息科學(xué)是當(dāng)今的先鋒學(xué)科,對(duì)社會(huì)發(fā)展影響巨大,當(dāng)今政府常會(huì)關(guān)注這類學(xué)科的發(fā)展動(dòng)向,并及時(shí)利用公權(quán)力支持這些學(xué)科的發(fā)展,以便為本國(guó)的經(jīng)濟(jì)社會(huì)發(fā)展贏得機(jī)遇。因此,政府也會(huì)從這些學(xué)科領(lǐng)域認(rèn)識(shí)到數(shù)據(jù)的價(jià)值,數(shù)據(jù)的意義由此從科技領(lǐng)域轉(zhuǎn)入社會(huì)領(lǐng)域。
政府對(duì)于數(shù)據(jù)的認(rèn)識(shí),可以分為兩個(gè)層面:第一,推進(jìn)科學(xué)技術(shù)發(fā)展;第二,推進(jìn)經(jīng)濟(jì)社會(huì)發(fā)展。第一層認(rèn)識(shí)的結(jié)果是加大科技投入,改進(jìn)科技政策;第二層認(rèn)識(shí)會(huì)在第一層認(rèn)識(shí)和行動(dòng)的基礎(chǔ)上,進(jìn)而改進(jìn)經(jīng)濟(jì)發(fā)展政策和社會(huì)經(jīng)濟(jì)分配政策。政府的這兩個(gè)認(rèn)識(shí)層面,也代表著數(shù)據(jù)認(rèn)識(shí)的兩個(gè)階段。當(dāng)政府有了第二個(gè)層面的認(rèn)識(shí),看到數(shù)據(jù)的生產(chǎn)要素性質(zhì)時(shí),社會(huì)就進(jìn)入了“數(shù)據(jù)時(shí)代”。
在移動(dòng)網(wǎng)絡(luò)和人工智能快速發(fā)展的時(shí)代,各國(guó)政府都十分關(guān)注數(shù)據(jù)及其相關(guān)問(wèn)題,積極采取一系列與數(shù)據(jù)相關(guān)的政府行動(dòng)。有學(xué)者曾較為全面地介紹過(guò)這方面的情況(1)陸儉明:《順應(yīng)科技發(fā)展的大趨勢(shì)語(yǔ)言研究必須逐步走上數(shù)字化之路》,《外國(guó)語(yǔ)》2020年第4期。:
2017年3月,英國(guó)發(fā)布《英國(guó)數(shù)字化戰(zhàn)略》,提出要釋放數(shù)據(jù)在英國(guó)經(jīng)濟(jì)中的重要力量,提高公眾對(duì)數(shù)據(jù)使用的信心。2018年,英國(guó)又發(fā)布《數(shù)字憲章》《產(chǎn)業(yè)戰(zhàn)略:人工智能領(lǐng)域行動(dòng)》《國(guó)家計(jì)量戰(zhàn)略實(shí)施計(jì)劃》等。2018年,美國(guó)發(fā)布《數(shù)據(jù)科學(xué)戰(zhàn)略計(jì)劃》《美國(guó)國(guó)家網(wǎng)絡(luò)戰(zhàn)略》《美國(guó)先進(jìn)制造業(yè)領(lǐng)導(dǎo)力戰(zhàn)略》等;歐盟發(fā)布《歐盟人工智能戰(zhàn)略》《通用數(shù)據(jù)保護(hù)條例》《非個(gè)人數(shù)據(jù)在歐盟境內(nèi)自由流動(dòng)框架條例》《促進(jìn)人工智能在歐洲發(fā)展和應(yīng)用的協(xié)調(diào)行動(dòng)計(jì)劃》等;法國(guó)發(fā)布《法國(guó)人工智能發(fā)展戰(zhàn)略》《5G發(fā)展路線圖》《利用數(shù)字技術(shù)促進(jìn)工業(yè)轉(zhuǎn)型的方案》等;德國(guó)發(fā)布《聯(lián)邦政府人工智能戰(zhàn)略要點(diǎn)》《人工智能德國(guó)制造》《高技術(shù)戰(zhàn)略2025》等。
2015年7月,印度提出“數(shù)字印度”倡議,計(jì)劃以“印度制造”和“數(shù)字印度”兩駕馬車馱載國(guó)家未來(lái)。2017年7月,俄羅斯發(fā)布《俄羅斯聯(lián)邦數(shù)字經(jīng)濟(jì)規(guī)劃》。韓國(guó)早就提出要建設(shè)“數(shù)字政府”,要求管理網(wǎng)絡(luò)化、辦公自動(dòng)化、政務(wù)公開化、運(yùn)行程序優(yōu)化,從而使政府決策科學(xué)化、社會(huì)治理精準(zhǔn)化、公共服務(wù)高效化、政府治理民主化。2017年,韓國(guó)行政自治部和信息化振興院共同發(fā)布《2017年電子政府10大技術(shù)趨勢(shì)》,宣布將數(shù)字政府逐漸發(fā)展成為結(jié)合數(shù)據(jù)分析、機(jī)器人技術(shù)、提供更周到服務(wù)的“以數(shù)據(jù)為中心的政府”。2018年,日本發(fā)布《日本制造業(yè)白皮書》《綜合創(chuàng)新戰(zhàn)略》《集成創(chuàng)新戰(zhàn)略》《第2期戰(zhàn)略性創(chuàng)新推進(jìn)計(jì)劃(SIP)》等,詳細(xì)闡述了推動(dòng)數(shù)字科技和數(shù)字經(jīng)濟(jì)發(fā)展的行動(dòng)方案。這些行動(dòng)方案,充滿著“數(shù)據(jù)、數(shù)字、智能”等字眼。
前述各國(guó)政府的“數(shù)據(jù)行動(dòng)”,其認(rèn)識(shí)基本上還都在推進(jìn)科學(xué)技術(shù)發(fā)展的第一層面,但也開始觸及推進(jìn)經(jīng)濟(jì)社會(huì)發(fā)展的第二層面,但并未明確把數(shù)據(jù)列入生產(chǎn)要素。生產(chǎn)要素的認(rèn)定,與生產(chǎn)力發(fā)展水平和經(jīng)濟(jì)制度密切相關(guān),也與人們的思想認(rèn)識(shí)水平相關(guān)。一方面,數(shù)據(jù)具有生產(chǎn)要素的性質(zhì),只有信息化發(fā)展到一定階段才能成為現(xiàn)實(shí),才能被人認(rèn)識(shí);另一方面,只有對(duì)信息化社會(huì)經(jīng)濟(jì)發(fā)展形態(tài)具有洞察力的社會(huì)集團(tuán),才能率先認(rèn)識(shí),及早布局。
2017年12月8日,習(xí)近平同志在中共中央政治局第二次集體學(xué)習(xí)時(shí)提出:“要構(gòu)建以數(shù)據(jù)為關(guān)鍵要素的數(shù)字經(jīng)濟(jì)。建設(shè)現(xiàn)代化經(jīng)濟(jì)體系離不開大數(shù)據(jù)發(fā)展和應(yīng)用。我們要堅(jiān)持以供給側(cè)結(jié)構(gòu)性改革為主線,加快發(fā)展數(shù)字經(jīng)濟(jì),推動(dòng)實(shí)體經(jīng)濟(jì)和數(shù)字經(jīng)濟(jì)融合發(fā)展,推動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能同實(shí)體經(jīng)濟(jì)深度融合,繼續(xù)做好信息化和工業(yè)化深度融合這篇大文章,推動(dòng)制造業(yè)加速向數(shù)字化、網(wǎng)絡(luò)化、智能化發(fā)展。要深入實(shí)施工業(yè)互聯(lián)網(wǎng)創(chuàng)新發(fā)展戰(zhàn)略,系統(tǒng)推進(jìn)工業(yè)互聯(lián)網(wǎng)基礎(chǔ)設(shè)施和數(shù)據(jù)資源管理體系建設(shè),發(fā)揮數(shù)據(jù)的基礎(chǔ)資源作用和創(chuàng)新引擎作用,加快形成以創(chuàng)新為主要引領(lǐng)和支撐的數(shù)字經(jīng)濟(jì)。”(2)《習(xí)近平主持中共中央政治局第二次集體學(xué)習(xí)》,中華人民共和國(guó)中央人民政府網(wǎng)站:http://www.gov.cn/guowuyuan/2017-12/09/content_5245520.htm。這段話有兩層意思:第一,數(shù)據(jù)是數(shù)字經(jīng)濟(jì)的關(guān)鍵要素;第二,如何發(fā)展數(shù)字經(jīng)濟(jì)。這些論述已經(jīng)超越了為推進(jìn)科學(xué)技術(shù)發(fā)展而關(guān)注數(shù)據(jù),而是將數(shù)據(jù)問(wèn)題向經(jīng)濟(jì)制度方向引領(lǐng)。
2018年4月13日,“首屆數(shù)字中國(guó)建設(shè)峰會(huì)”的數(shù)字經(jīng)濟(jì)分論壇在福州召開。2018年5月26—29日,中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)在貴陽(yáng)舉行。2018年9月25日,江蘇互聯(lián)網(wǎng)大會(huì)在南京舉行。2019年12月10日,第六屆中國(guó)國(guó)際大數(shù)據(jù)大會(huì)在北京舉行。這些會(huì)議都突出了“數(shù)據(jù)是數(shù)字經(jīng)濟(jì)的關(guān)鍵要素”這一話題。特別是2018江蘇互聯(lián)網(wǎng)大會(huì),工業(yè)和信息化部總經(jīng)濟(jì)師王新哲到會(huì)致辭。王新哲在致辭中強(qiáng)調(diào):“以數(shù)據(jù)作為關(guān)鍵生產(chǎn)要素的數(shù)字經(jīng)濟(jì)正在成為繼農(nóng)業(yè)經(jīng)濟(jì)、工業(yè)經(jīng)濟(jì)之后的新型經(jīng)濟(jì)形態(tài)。”至此,人們確認(rèn)了兩個(gè)基本認(rèn)識(shí):第一,數(shù)字經(jīng)濟(jì)是繼農(nóng)業(yè)經(jīng)濟(jì)、工業(yè)經(jīng)濟(jì)之后的新型經(jīng)濟(jì)形態(tài);第二,數(shù)字經(jīng)濟(jì)的關(guān)鍵生產(chǎn)要素是數(shù)據(jù)。
2019年10月28—31日,黨的十九屆四中全會(huì)召開。全會(huì)提出,“健全勞動(dòng)、資本、土地、知識(shí)、技術(shù)、管理、數(shù)據(jù)等生產(chǎn)要素由市場(chǎng)評(píng)價(jià)貢獻(xiàn)、按貢獻(xiàn)決定報(bào)酬的機(jī)制”。這是對(duì)數(shù)據(jù)具有生產(chǎn)要素性質(zhì)的首次明確表述,把數(shù)據(jù)與勞動(dòng)、資本、土地、知識(shí)、技術(shù)、管理并列為第七大生產(chǎn)要素,可以通過(guò)市場(chǎng)按貢獻(xiàn)取酬。這是重大的理論創(chuàng)新,體現(xiàn)著對(duì)信息化社會(huì)的本質(zhì)認(rèn)識(shí),是在數(shù)字經(jīng)濟(jì)快速發(fā)展背景下經(jīng)濟(jì)制度的與時(shí)俱進(jìn)。
2020年3月30日,《中共中央國(guó)務(wù)院關(guān)于構(gòu)建更加完善的要素市場(chǎng)化配置體制機(jī)制的意見》(以下簡(jiǎn)稱《意見》)發(fā)布,主要對(duì)土地、勞動(dòng)力、資本、技術(shù)、數(shù)據(jù)等要素的市場(chǎng)配置提出了要求。(3)中共中央、國(guó)務(wù)院:《關(guān)于構(gòu)建更加完善的要素市場(chǎng)化配置體制機(jī)制的意見》,中華人民共和國(guó)中央人民政府網(wǎng)站:http://www.gov.cn/zhengce/2020-04/09/content_5500622.htm。在第六款“加快培育數(shù)據(jù)要素市場(chǎng)”中,《意見》提出了三條:“(二十)推進(jìn)政府?dāng)?shù)據(jù)開放共享?!薄?二十一)提升社會(huì)數(shù)據(jù)資源價(jià)值。培育數(shù)字經(jīng)濟(jì)新產(chǎn)業(yè)、新業(yè)態(tài)和新模式,支持構(gòu)建農(nóng)業(yè)、工業(yè)、交通、教育、安防、城市管理、公共資源交易等領(lǐng)域規(guī)范化數(shù)據(jù)開發(fā)利用的場(chǎng)景。發(fā)揮行業(yè)協(xié)會(huì)商會(huì)作用,推動(dòng)人工智能、可穿戴設(shè)備、車聯(lián)網(wǎng)、物聯(lián)網(wǎng)等領(lǐng)域數(shù)據(jù)采集標(biāo)準(zhǔn)化?!薄?二十二)加強(qiáng)數(shù)據(jù)資源整合和安全保護(hù)。探索建立統(tǒng)一規(guī)范的數(shù)據(jù)管理制度,提高數(shù)據(jù)質(zhì)量和規(guī)范性,豐富數(shù)據(jù)產(chǎn)品。研究根據(jù)數(shù)據(jù)性質(zhì)完善產(chǎn)權(quán)性質(zhì)。制定數(shù)據(jù)隱私保護(hù)制度和安全審查制度。推動(dòng)完善適用于大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分類分級(jí)安全保護(hù)制度,加強(qiáng)對(duì)政務(wù)數(shù)據(jù)、企業(yè)商業(yè)秘密和個(gè)人數(shù)據(jù)的保護(hù)?!钡谄呖畹诙鍡l規(guī)定,“充分體現(xiàn)技術(shù)、知識(shí)、管理、數(shù)據(jù)等要素的價(jià)值”;第八款第二十六條規(guī)定,“引導(dǎo)培育大數(shù)據(jù)交易市場(chǎng),依法合規(guī)開展數(shù)據(jù)交易”。
《意見》是在“數(shù)據(jù)是生產(chǎn)要素”的判斷之下作出的生產(chǎn)要素市場(chǎng)化的安排,不僅為數(shù)據(jù)作用的充分發(fā)揮創(chuàng)造了有利的市場(chǎng)配置的體制機(jī)制與環(huán)境,而且也加固、加深了“數(shù)據(jù)是生產(chǎn)要素”的認(rèn)識(shí)。
人類觀察世界所形成的數(shù)據(jù),可供計(jì)算機(jī)處理的數(shù)據(jù),80%都是語(yǔ)言數(shù)據(jù),故而語(yǔ)言數(shù)據(jù)是最為重要的數(shù)據(jù)。語(yǔ)言與其他生產(chǎn)要素,如勞動(dòng)、資本、知識(shí)、技術(shù)、管理等,也有密切關(guān)系。認(rèn)識(shí)語(yǔ)言與生產(chǎn)要素的關(guān)系,有利于在數(shù)據(jù)時(shí)代自覺(jué)地、最大限度地獲取語(yǔ)言紅利,對(duì)于語(yǔ)言學(xué)研究和語(yǔ)言學(xué)人才培養(yǎng)也具有重大意義。
數(shù)據(jù)是信息的表現(xiàn)形式,亦是信息載體。隨著科技與社會(huì)的進(jìn)步,數(shù)據(jù)的內(nèi)涵和外延都在發(fā)生變化,甚至是重大變化。但有一點(diǎn)可以肯定,那就是多數(shù)數(shù)據(jù)都是語(yǔ)言數(shù)據(jù)。語(yǔ)言數(shù)據(jù)主要包括如下4類內(nèi)容:1.語(yǔ)言的符號(hào)系統(tǒng)。包括:語(yǔ)音系統(tǒng)、語(yǔ)匯系統(tǒng)、語(yǔ)法系統(tǒng);文字系統(tǒng);標(biāo)點(diǎn)符號(hào);注音符號(hào)等。2.語(yǔ)言負(fù)載的信息。語(yǔ)言包括口語(yǔ)、書面語(yǔ)、語(yǔ)言參與的音頻、視頻文件等,它們記錄、負(fù)載各種信息。3.由語(yǔ)言延伸的各種符號(hào)與代碼。如盲文、聾啞人的手語(yǔ)、旗語(yǔ)、燈語(yǔ)、電報(bào)代碼等。4.生活、藝術(shù)與科學(xué)技術(shù)符號(hào)。如電話號(hào)碼、身份證編碼、銀行卡號(hào)碼、樂(lè)譜、數(shù)學(xué)符號(hào)、化學(xué)符號(hào)、公式、計(jì)算機(jī)編程語(yǔ)言等。其中,前兩項(xiàng)是自然語(yǔ)言數(shù)據(jù);后兩項(xiàng)是人工語(yǔ)言數(shù)據(jù)。人工語(yǔ)言有時(shí)單獨(dú)使用,有時(shí)與自然語(yǔ)言一同使用;它們或是自然語(yǔ)言的符號(hào)化,或是需要自然語(yǔ)言輔助理解,或是可以用自然語(yǔ)言進(jìn)行闡釋。
計(jì)算機(jī)所要處理的數(shù)據(jù),除語(yǔ)言數(shù)據(jù)外還有人面、人體動(dòng)作、聲音、氣味、顏色、物象等數(shù)據(jù),但毫無(wú)疑問(wèn),語(yǔ)言數(shù)據(jù)是最為重要的數(shù)據(jù)。其一,語(yǔ)言數(shù)據(jù)的數(shù)據(jù)量大;其二,語(yǔ)言數(shù)據(jù)與人類的關(guān)系較為密切;其三,語(yǔ)言是人類最常用、最能反映人類心智的符號(hào)系統(tǒng)。語(yǔ)言數(shù)據(jù)的計(jì)算機(jī)處理,較難也是最重要的是自然語(yǔ)言數(shù)據(jù)處理。計(jì)算機(jī)對(duì)語(yǔ)言數(shù)據(jù)的處理,如漢字識(shí)別、詞語(yǔ)檢索、自動(dòng)翻譯、自動(dòng)寫作、客戶的機(jī)器語(yǔ)言服務(wù)等,每前進(jìn)一步,就會(huì)產(chǎn)生新的語(yǔ)言產(chǎn)業(yè),推進(jìn)社會(huì)前進(jìn)一大步。
數(shù)據(jù)是生產(chǎn)要素,那么,語(yǔ)言數(shù)據(jù)是最為重要的數(shù)據(jù),也應(yīng)當(dāng)屬于生產(chǎn)要素范疇。2019年12月17日,“第二屆語(yǔ)言智能與社會(huì)發(fā)展論壇”在北京語(yǔ)言大學(xué)舉行,論壇主題為“智能寫作的社會(huì)影響及其倫理、法律問(wèn)題”。閉幕式上,筆者就曾談及“作為生產(chǎn)要素的語(yǔ)言數(shù)據(jù)”問(wèn)題。(4)北京語(yǔ)言大學(xué)語(yǔ)言資源高精尖創(chuàng)新中心:《推進(jìn)智能寫作健康發(fā)展宣言》,第二屆語(yǔ)言智能與社會(huì)發(fā)展論壇,2019年12月17日。2020年5月17日,那順烏日?qǐng)D領(lǐng)銜成立“東北亞語(yǔ)言資源數(shù)字化平臺(tái)”,筆者作為平臺(tái)學(xué)術(shù)委員會(huì)主任在“主任寄語(yǔ)”中指出:“語(yǔ)言數(shù)據(jù)是信息時(shí)代的生產(chǎn)要素,如同土地之于農(nóng)民,機(jī)器之于工人,計(jì)算機(jī)通過(guò)對(duì)語(yǔ)言數(shù)據(jù)的加工學(xué)習(xí)可以獲得知識(shí)與智能,從而去創(chuàng)造人類的新生活。”《光明日?qǐng)?bào)》2020年7月4日第12版,刊載李宇明《語(yǔ)言數(shù)據(jù)是信息時(shí)代的生產(chǎn)要素》一文,這是中國(guó)的重要媒體首次發(fā)表語(yǔ)言數(shù)據(jù)是生產(chǎn)要素的觀點(diǎn)。(5)李宇明:《語(yǔ)言數(shù)據(jù)是信息時(shí)代的生產(chǎn)要素》,《光明日?qǐng)?bào)》2020年7月4日。
語(yǔ)言是人類最為重要的交際工具和思維工具,是人類文化和信息的最為重要的負(fù)載者,同時(shí)也是文化最為重要的建構(gòu)者和闡釋者。所以,不僅語(yǔ)言數(shù)據(jù)是“數(shù)據(jù)”這一生產(chǎn)要素的組成部分,而且語(yǔ)言也與其他一些生產(chǎn)要素發(fā)生各種各樣的關(guān)系,發(fā)揮各種各樣的作用。
語(yǔ)言與勞動(dòng)、知識(shí)、技術(shù)、管理等生產(chǎn)要素的關(guān)系十分密切。語(yǔ)言經(jīng)濟(jì)學(xué)把語(yǔ)言看作人力資本,語(yǔ)言能力是重要的勞動(dòng)力,特別是智力為主的勞動(dòng)崗位,尤其是服務(wù)產(chǎn)業(yè),語(yǔ)言能力是比體力更為重要的勞動(dòng)力。(6)張衛(wèi)國(guó):《作為人力資本、公共產(chǎn)品和制度的語(yǔ)言:語(yǔ)言經(jīng)濟(jì)學(xué)的一個(gè)基本分析框架》,《經(jīng)濟(jì)研究》2008年第2期;王海蘭:《個(gè)體語(yǔ)言技能資本投資研究》,博士學(xué)位論文,山東大學(xué),2012年;王海蘭:《語(yǔ)言人力資本推動(dòng)經(jīng)濟(jì)增長(zhǎng)的作用機(jī)制研究》,《語(yǔ)言戰(zhàn)略研究》2018年第2期;趙穎:《語(yǔ)言能力對(duì)勞動(dòng)者收入貢獻(xiàn)的測(cè)度分析》,《經(jīng)濟(jì)學(xué)動(dòng)態(tài)》2016年第1期。語(yǔ)言能力薄弱或有語(yǔ)言障礙的人群,常常會(huì)形成社會(huì)貧困群體。
語(yǔ)言不僅是如索緒爾所說(shuō)的“符號(hào)系統(tǒng)”,語(yǔ)言也是“知識(shí)”的載體。(7)李宇明 :《中國(guó)語(yǔ)言資源的理論與實(shí)踐》,《語(yǔ)言戰(zhàn)略研究》2019年第3期。知識(shí)學(xué)習(xí)需要通過(guò)語(yǔ)言,知識(shí)儲(chǔ)備需要腦神經(jīng)語(yǔ)言系統(tǒng)的運(yùn)作,知識(shí)的運(yùn)用與創(chuàng)造也主要是通過(guò)語(yǔ)言。就技術(shù)而言,語(yǔ)言技術(shù)本身就是技術(shù)的一部分,特別是以信息化為主的現(xiàn)代語(yǔ)言技術(shù),在技術(shù)體系中的地位更為重要,越是智能化的技術(shù),越是與語(yǔ)言的關(guān)系密切;各技術(shù)門類的名詞術(shù)語(yǔ)、各個(gè)產(chǎn)業(yè)的技術(shù)規(guī)范,都是用語(yǔ)言制定、表現(xiàn)出來(lái)的,用語(yǔ)言進(jìn)行傳授的;語(yǔ)言對(duì)于技術(shù)的擴(kuò)散與創(chuàng)新,也具有很大影響。語(yǔ)言與“管理”的關(guān)系就更為密切,因?yàn)檎Z(yǔ)言能力是管理能力的重要組成部分,也是管理能力的體現(xiàn);管理的具體實(shí)施,幾乎離不開語(yǔ)言。
語(yǔ)言與“土地、資本”仿佛沒(méi)有多大關(guān)系。但是,張振興在2018年9月“世界語(yǔ)言資源保護(hù)大會(huì)”上所作的《漢語(yǔ)方言資源應(yīng)用隨想》報(bào)告,揭示了語(yǔ)言與資本流動(dòng)的關(guān)系,說(shuō)明語(yǔ)言也是一種投資環(huán)境(8)張振興:《漢語(yǔ)方言資源應(yīng)用隨想》,世界語(yǔ)言資源保護(hù)大會(huì)會(huì)議報(bào)告,2018年9月19-20日。:
1.據(jù)國(guó)家統(tǒng)計(jì)報(bào)告1987年數(shù)據(jù):香港地區(qū)投資內(nèi)地,65%資金流向珠江三角洲地區(qū),12%流向潮汕地區(qū);臺(tái)灣地區(qū)投資內(nèi)地,78.9%資金流向福建,閩南地區(qū)占其48%。
2.據(jù)《福建省統(tǒng)計(jì)年鑒2017》報(bào)告,福建省實(shí)際利用外資,2015年為768,339萬(wàn)美元,2016年為819,465萬(wàn)美元,其中來(lái)自臺(tái)灣、香港、印度尼西亞、新加坡的外資2015年占68.9%,2016年占64.5%。反向投資情況也大致如此,福建省對(duì)外投資,2015年是128,640萬(wàn)美元,其中投向印度尼西亞、新加坡等東南亞國(guó)家為72.43%。
3.據(jù)《2016年度中國(guó)對(duì)外直接投資統(tǒng)計(jì)公報(bào)》數(shù)據(jù):2016年,中國(guó)向亞洲地區(qū)直接投資流量為1302.7億美元,占當(dāng)年對(duì)外直接投資流量的66.4%;其中對(duì)香港的投資為1142.3億美元,占對(duì)亞洲投資的87.7%;對(duì)東盟10國(guó)的投資為102.8億美元,占對(duì)亞洲投資的7.9%。
張振興分析這些數(shù)字背后的語(yǔ)言原因:中國(guó)香港地區(qū)與珠江三角洲言語(yǔ)相通;中國(guó)臺(tái)灣地區(qū)與閩南地區(qū)同言同語(yǔ);東南亞地區(qū),尤其新加坡、印度尼西亞等地到處都有說(shuō)閩南話的華人華僑,福建人在那里做生意很少有語(yǔ)言障礙。
語(yǔ)言與各生產(chǎn)要素都有密切關(guān)系,既是多個(gè)生產(chǎn)要素的構(gòu)成部分,又是生產(chǎn)要素發(fā)揮作用的重要助力,甚至是基礎(chǔ)條件。隨著數(shù)字經(jīng)濟(jì)的發(fā)展和語(yǔ)言智能水平的不斷提高,語(yǔ)言數(shù)據(jù)的生產(chǎn)要素屬性會(huì)越來(lái)越清晰,語(yǔ)言對(duì)各生產(chǎn)要素的影響也會(huì)越來(lái)越顯著。
語(yǔ)言智能是人工智能的重要組成部分,是讓計(jì)算機(jī)擁有人類的語(yǔ)言智能。人工智能是對(duì)人類智能的模仿。人類智能主要表現(xiàn)在思維能力上。語(yǔ)言是人類思維活動(dòng)的憑借,是思維成果貯存、傳播的載體,故而語(yǔ)言能力決定著思維水平。人類自幼成長(zhǎng),通過(guò)獲取語(yǔ)言促進(jìn)思維發(fā)展,因各種原因而未能較好獲得自然語(yǔ)言者,如聾啞人,其思維水平便嚴(yán)重受限。人類的書面語(yǔ)學(xué)習(xí)和外語(yǔ)學(xué)習(xí),大大提升了思維品質(zhì),掌握了書面語(yǔ)、外語(yǔ)的人比文盲和單語(yǔ)者更具思維優(yōu)勢(shì)。盡管學(xué)界對(duì)思維與語(yǔ)言的關(guān)系還有不少爭(zhēng)論,但語(yǔ)言在思維中的重要地位不容否認(rèn)。語(yǔ)言智能是人類最為重要的智能,讓計(jì)算機(jī)獲取人類的語(yǔ)言智能是人工智能的重要任務(wù)。
人工語(yǔ)言智能(以下稱為“語(yǔ)言智能”)是人工智能皇冠上的明珠。20世紀(jì)50年代,人類進(jìn)行機(jī)器翻譯的嘗試,由此開始了訓(xùn)練機(jī)器進(jìn)行語(yǔ)言信息處理的進(jìn)程。中文信息處理經(jīng)過(guò)字處理、詞處理階段的艱難行進(jìn),現(xiàn)已順利步入句處理、篇章處理的話語(yǔ)處理階段,努力讓計(jì)算機(jī)具有語(yǔ)言智能。(9)劉云、肖辛格:《中文信息處理發(fā)展簡(jiǎn)史》,北京:科學(xué)出版社,2019年。這些語(yǔ)言信息技術(shù),促進(jìn)著信息檢索、自動(dòng)翻譯、機(jī)器寫作、作文自動(dòng)批改、人機(jī)對(duì)話等的快速發(fā)展。語(yǔ)言智能發(fā)展的水平,可以智能寫作為例窺其全貌。
智能寫作可細(xì)分為輔助寫作和自動(dòng)寫作兩類。輔助寫作是從素材收集、文章撰寫、文本檢校三個(gè)方面輔助人類寫作,提升寫作效率,如提供領(lǐng)域熱點(diǎn)事件、引文推薦、寫作潤(rùn)色、文本糾錯(cuò)、自動(dòng)摘要等。自動(dòng)寫作是機(jī)器自主完成文章寫作。2018年6月30日,中國(guó)智能寫作產(chǎn)業(yè)聯(lián)盟在北京成立,首批理事單位有中國(guó)聲谷、科大訊飛、金山軟件等17家。(10)張俊:《中國(guó)智能寫作產(chǎn)業(yè)聯(lián)盟成立》,《中國(guó)新聞》2018年6月30日,https://baijiahao.baidu.com/s?id=1604702204279770381&wfr=spider&for=pc。當(dāng)時(shí),幾乎所有互聯(lián)網(wǎng)和AI巨頭都投入智能寫作市場(chǎng)。據(jù)分析,智能寫作需求最強(qiáng)的有4大市場(chǎng):內(nèi)容資訊、金融財(cái)經(jīng)分析、數(shù)字營(yíng)銷、行政辦公。(11)北京恒州博智國(guó)際信息咨詢有限公司(QYResearch):《2020-2026中國(guó)人工智能寫作輔助軟件市場(chǎng)現(xiàn)狀及未來(lái)發(fā)展趨勢(shì)》,https://www.qyresearch.com.cn/reports/AI_Writing_Assistant_Software-p167680.html。下面,從6個(gè)方面來(lái)描述智能寫作的應(yīng)用情況:
1.新聞智能寫作
新聞智能寫作的軟件,有新華社的“快筆小新”、第一財(cái)經(jīng)的“DT稿王”、今日頭條的“張小明”、騰訊的“Dreamwriter”、創(chuàng)作大腦、Giiso、SoccerBot等。新聞智能寫作,不僅提供新聞寫作的智能機(jī)器人,而且結(jié)合多種技術(shù),在新聞生產(chǎn)的策劃、采編、發(fā)稿的全流程中為新聞從業(yè)者提供輔助支撐。新聞從業(yè)者結(jié)合機(jī)器撰稿的優(yōu)勢(shì),進(jìn)行更有創(chuàng)造力的工作。
2.應(yīng)用文智能寫作
應(yīng)用文智能寫作的范圍很廣,如通知通告、總結(jié)匯報(bào)、招投標(biāo)文件、專利文件、規(guī)范標(biāo)準(zhǔn)文件等。當(dāng)前主要的應(yīng)用文智能寫作軟件,有微軟、金山、搜狗等企業(yè)的產(chǎn)品,還有妙筆、世通亨奇、Giiso等。
3.詩(shī)歌智能創(chuàng)作
詩(shī)歌(包括對(duì)聯(lián))的創(chuàng)作需具備三大要素:情感表達(dá);字眼搜尋;文句表達(dá)。計(jì)算機(jī)與之對(duì)應(yīng)的技術(shù)是:情感計(jì)算;語(yǔ)義計(jì)算;文本生成。當(dāng)然還離不開一定規(guī)模的語(yǔ)料庫(kù)。當(dāng)前較為有名的寫詩(shī)能手有:清華九歌、微軟小冰、薇薇寫詩(shī)、小封詩(shī)歌、春聯(lián)機(jī)等。其中有寫古體詩(shī)的,有寫新詩(shī)的,有寫春聯(lián)的。詩(shī)歌智能創(chuàng)作仍處在模仿階段,但所寫詩(shī)歌常有出人意料之句。詩(shī)歌智能創(chuàng)作或?qū)⒋呱碌娜斯ぶ悄荛T類。
4.小說(shuō)智能創(chuàng)作
小說(shuō)智能創(chuàng)作的軟件有:壹寫作、星達(dá)、小蜜蜂、神碼AI、捏勺AI、《XXX》寫作神器、“狗屁不通”文章生成器等。2016年3月,日本公立函館未來(lái)大學(xué)的松原仁團(tuán)隊(duì),根據(jù)預(yù)設(shè)內(nèi)容自動(dòng)生成了小說(shuō)《機(jī)器寫小說(shuō)的那一天》。這部小說(shuō)參賽,竟然瞞過(guò)了當(dāng)時(shí)的人類評(píng)委,成功入圍第三屆日經(jīng)新聞社“星新一獎(jiǎng)”比賽?!肮菲ú煌ā蔽恼律善?,2019年竟然火遍網(wǎng)絡(luò)。
5.用戶評(píng)論
用戶評(píng)論也可歸入應(yīng)用文智能寫作,但因其在當(dāng)今網(wǎng)絡(luò)上使用廣泛,故可以單獨(dú)立目。這方面的軟件有:藍(lán)色光標(biāo)、Persado、Phrasee、返利機(jī)器人、vatti(華帝)小V等。用戶評(píng)論是應(yīng)用情感計(jì)算,批量生成可定制的評(píng)論,通過(guò)評(píng)論來(lái)塑造商品、企業(yè)、組織等形象的應(yīng)用。用戶評(píng)論往往不是真正的用戶發(fā)出的評(píng)論,這是一個(gè)灰色地帶,逐步形成灰色產(chǎn)業(yè),對(duì)社會(huì)生活存在威脅。(12)饒高琦:《給智能寫作的快馬套上科技倫理籠頭》,《光明日?qǐng)?bào)》2019年 12月24日。
6.社交機(jī)器人
社交機(jī)器人是具有智能寫作能力的社交網(wǎng)絡(luò)賬號(hào),以“人”的身份在社交網(wǎng)絡(luò)中活動(dòng),與人進(jìn)行商務(wù)、聊天等社交活動(dòng)。社交機(jī)器人是智能寫作技術(shù)在語(yǔ)言應(yīng)用上自主性最強(qiáng)的一種形式,目前集中用于商業(yè)營(yíng)銷、客戶服務(wù)、兒童教育等領(lǐng)域。值得注意的是,它也開始涉足政治宣傳,可能會(huì)影響到人類的政治生活,比如選舉態(tài)度等。
智能寫作受制于預(yù)設(shè)的算法和數(shù)據(jù)庫(kù),具有結(jié)構(gòu)化、模式化、同質(zhì)化的表現(xiàn)。其語(yǔ)言特點(diǎn)是:字句堆砌復(fù)疊,段落連接不暢;數(shù)據(jù)詳盡冗雜,常愛引經(jīng)據(jù)典,行文缺乏生活常識(shí),缺乏情感色彩;長(zhǎng)于場(chǎng)景描摹,拙于議論敘事,事實(shí)與觀點(diǎn)常出現(xiàn)邏輯錯(cuò)位。智能寫作盡管離人類寫作、閱讀習(xí)慣還有很大距離,但已經(jīng)呈現(xiàn)把人類從“筆耕口傳”、高創(chuàng)作成本、高傳播壁壘中解放出來(lái)的曙光。當(dāng)然,智能寫作技術(shù)在工商業(yè)、公共管理和文化傳承等領(lǐng)域不加限制地應(yīng)用,也將造成現(xiàn)實(shí)損失,產(chǎn)生倫理焦慮,因而必須直面智能寫作帶來(lái)的語(yǔ)言不規(guī)范、語(yǔ)言暴力、語(yǔ)言偏見、傳播虛假信息、擾亂日常生活乃至社會(huì)秩序等問(wèn)題。(13)北京語(yǔ)言大學(xué)語(yǔ)言資源高精尖創(chuàng)新中心:《推進(jìn)智能寫作健康發(fā)展宣言》,第二屆語(yǔ)言智能與社會(huì)發(fā)展論壇,2019年12月17日。
機(jī)器具有語(yǔ)言智能了嗎?這是較難回答的哲學(xué)層面的問(wèn)題。第一,何謂智能?第二,如何判定機(jī)器具有語(yǔ)言智能?依照?qǐng)D靈測(cè)試原理,會(huì)發(fā)現(xiàn)機(jī)器在許多語(yǔ)言行為上可以“蒙人過(guò)關(guān)”,達(dá)到圖靈測(cè)試的某種要求,比如機(jī)器寫的一些新聞、詩(shī)歌、小說(shuō)、用戶評(píng)論,機(jī)器翻譯的一些作品等。因此可以說(shuō),目前機(jī)器已經(jīng)具備了初步的語(yǔ)言智能,隨著人工智能技術(shù)的發(fā)展,機(jī)器的語(yǔ)言智能會(huì)逐步提升,不斷地接近人類。
語(yǔ)言是人類獨(dú)有的符號(hào)系統(tǒng),這是語(yǔ)言學(xué)家的經(jīng)典認(rèn)識(shí)。當(dāng)然,他也有關(guān)于動(dòng)物語(yǔ)言的研究,動(dòng)物界的確存在信息交換系統(tǒng),但與人類語(yǔ)言相比,可謂云泥之別。擱置動(dòng)物語(yǔ)言不論,可以說(shuō),語(yǔ)言信息處理之前的語(yǔ)言學(xué),皆把語(yǔ)言看作人類獨(dú)有的。但是語(yǔ)言智能的發(fā)展,使語(yǔ)言已為或?qū)槿祟惡蜋C(jī)器這兩個(gè)“物種”共同享有。
過(guò)去的語(yǔ)言生活,多數(shù)都是“人-人”交際,其間一般不使用交際工具。這種“裸裝備”的直接的“人-人”交際,現(xiàn)在還在應(yīng)用,但是重要的語(yǔ)言交際大都采用“人-機(jī)-人”交際。其實(shí),“人-機(jī)-人”交際是概括的說(shuō)法,其內(nèi)涵包括A、B兩大類4小類交際模式:
A.“人-機(jī)-機(jī)-人”交際;B1.“人-機(jī)”交際;B2.“機(jī)-機(jī)”交際;B3.“機(jī)-人”交際;A是B的混成,可以分解為“人-機(jī)”交際、“機(jī)-機(jī)”交際、“機(jī)-人”交際三個(gè)類型。這些交際都離不開具有語(yǔ)言智能的機(jī)器,如果這些機(jī)器是“人形機(jī)器人”,那么,機(jī)器擁有語(yǔ)言智能這一現(xiàn)象,就會(huì)看得更為明顯。故而,現(xiàn)代的語(yǔ)言學(xué)應(yīng)當(dāng)把語(yǔ)言看作人與機(jī)器兩個(gè)“物種”所有,是“雙物種”的語(yǔ)言學(xué)。這是語(yǔ)言學(xué)可以超越過(guò)往獲得大發(fā)展的學(xué)理基礎(chǔ)。
人類形成之前,世界就是自然界,只是一個(gè)物理空間。人類的形成與發(fā)展,在物理空間中生長(zhǎng)出一個(gè)社會(huì)空間。語(yǔ)言與社會(huì)空間一起成長(zhǎng),大約距今3—5萬(wàn)年前的舊石器時(shí)代,人類已有較成熟的口頭語(yǔ)言,口語(yǔ)的載體是聲波。大約距今5,000—5,500前,文字在兩河流域產(chǎn)生,語(yǔ)言有了新載體光波。20世紀(jì)20年代,廣播、電視相繼出現(xiàn),有聲媒體使語(yǔ)言有了第三大載體電波。20世紀(jì)末,互聯(lián)網(wǎng)商業(yè)化,語(yǔ)言信息處理出人意料地快速進(jìn)步,人類開始建構(gòu)一個(gè)新空間——網(wǎng)絡(luò)空間。(14)李宇明:《語(yǔ)言技術(shù)對(duì)語(yǔ)言生活及社會(huì)發(fā)展的影響》,《中國(guó)社會(huì)科學(xué)》2017年第2期。
網(wǎng)絡(luò)空間也常稱為“虛擬空間”“信息空間”。稱為虛擬空間,是強(qiáng)調(diào)其虛擬性質(zhì),網(wǎng)名可以再命,性別可以隱匿甚至更換,地點(diǎn)可以主觀臆擬。早期,虛擬空間與現(xiàn)實(shí)空間的確有較大不同,由實(shí)入虛,如同轉(zhuǎn)世,人的行為方式可以脫離現(xiàn)實(shí)空間再行塑造。但隨著網(wǎng)絡(luò)實(shí)名化措施的實(shí)施,隨著虛擬空間對(duì)現(xiàn)實(shí)空間的影響加大,虛擬空間與現(xiàn)實(shí)空間的關(guān)系越來(lái)越密切,故而有人覺(jué)得虛擬空間并不虛,不主張?jiān)俳刑摂M空間。稱為信息空間,是強(qiáng)調(diào)這個(gè)空間的特性是信息化的產(chǎn)物,主要是進(jìn)行信息的運(yùn)行與傳播,與信息化時(shí)代也很契合。也有專家認(rèn)為,信息不是某一空間所獨(dú)有,社會(huì)空間也依賴信息,甚至物理世界也需要信息交換,同類動(dòng)物之間、不同動(dòng)物之間都有信息交換,同類植物之間有信息,甚至天體之間也存在信息,所以也有專家認(rèn)為信息空間的名稱也不合適。
圖1 “三元空間”生成圖
圖2 三元空間的語(yǔ)言、信息關(guān)系圖
名稱之爭(zhēng)往往伴隨著對(duì)于“實(shí)”的認(rèn)識(shí)分歧。一個(gè)新事物的問(wèn)世常會(huì)伴有多個(gè)名稱,隨著事物的發(fā)展,隨著認(rèn)識(shí)的深化,名稱就會(huì)逐步約定俗成,固定下來(lái)。筆者也曾經(jīng)使用過(guò)虛擬空間等多個(gè)名稱,這里姑且從眾,稱之為信息空間。把信息空間獨(dú)立出人類的社會(huì)空間、與物理空間和人類社會(huì)并行而立,這便是人類正在生活的“三元空間”,如圖1所示。
首先提出三元空間的,就我所掌握的資料看是潘云鶴。2019年11月3日,潘云鶴在中國(guó)人民大學(xué)作《人工智能2.0與數(shù)字經(jīng)濟(jì)》報(bào)告,指出人類正由傳統(tǒng)的物理空間、人類社會(huì)二元空間,逐步進(jìn)入物理空間、人類社會(huì)、信息空間所構(gòu)成的三元空間。2019年12月,劉挺在“第二屆語(yǔ)言智能與社會(huì)發(fā)展論壇”上也闡述了信息空間的問(wèn)題。2020年5月,筆者也向趙沁平請(qǐng)教三元空間的問(wèn)題。對(duì)如何看待這個(gè)第三空間,趙沁平有他的看法。
總之,信息空間是一個(gè)正在發(fā)展的空間,其結(jié)構(gòu)和運(yùn)行機(jī)理還在被逐步認(rèn)識(shí)中,也還在被逐漸完善中。但有一點(diǎn)相對(duì)明確,那就是信息空間主要是被數(shù)字化、智能化了的語(yǔ)言空間;除卻語(yǔ)言,信息空間不可能存在,即使存在也無(wú)意義。語(yǔ)言過(guò)去是在社會(huì)空間中使用,如今是在社會(huì)空間、信息空間中使用。語(yǔ)言不僅具有雙物種性,而且還具有雙空間性。
就發(fā)展趨勢(shì)看,語(yǔ)言并不滿足于它的雙空間性,它還將跨入物理空間。物聯(lián)網(wǎng)和語(yǔ)言智能的進(jìn)一步發(fā)展,只要在需要驅(qū)動(dòng)的目的物上植入語(yǔ)言感應(yīng)器,人就可以通過(guò)具有語(yǔ)言智能的機(jī)器與萬(wàn)物關(guān)聯(lián)、與萬(wàn)物對(duì)話,使萬(wàn)物具有語(yǔ)言智能,如圖2所示。無(wú)人駕駛的汽車、輪船、飛機(jī),已經(jīng)展示了人與物對(duì)話的雛形。
筆者認(rèn)為,“語(yǔ)言產(chǎn)業(yè)是以生產(chǎn)和提供語(yǔ)言產(chǎn)品為主的行業(yè)。語(yǔ)言產(chǎn)品的形態(tài)、語(yǔ)言產(chǎn)業(yè)的業(yè)態(tài)決定著語(yǔ)言產(chǎn)業(yè)的基本面貌,是語(yǔ)言產(chǎn)業(yè)研究的基礎(chǔ)范疇”。當(dāng)時(shí),把語(yǔ)言產(chǎn)品的形態(tài)歸納為七種:語(yǔ)言、文字及相關(guān)符號(hào);語(yǔ)言知識(shí)產(chǎn)品;語(yǔ)言文字藝術(shù)產(chǎn)品;語(yǔ)言技術(shù)產(chǎn)品;語(yǔ)言醫(yī)療康復(fù)產(chǎn)品;語(yǔ)言咨詢培訓(xùn)服務(wù);語(yǔ)言人才。當(dāng)時(shí)也指出:“語(yǔ)言產(chǎn)品的形態(tài),還可以有其他描述方式。同時(shí),隨著時(shí)代的發(fā)展也可能還會(huì)出現(xiàn)新的語(yǔ)言產(chǎn)品形態(tài)。比如,信息化時(shí)代,語(yǔ)言數(shù)據(jù)顯得特別重要,機(jī)器翻譯需要大量的雙語(yǔ)數(shù)據(jù),機(jī)器語(yǔ)言理解需要大數(shù)據(jù)的訓(xùn)練等。語(yǔ)言數(shù)據(jù)也可能成為一種語(yǔ)言產(chǎn)品形態(tài)?!?15)李宇明:《語(yǔ)言產(chǎn)業(yè)研究的若干問(wèn)題》,《江蘇師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》2019年第2期?,F(xiàn)在看來(lái),的確應(yīng)有語(yǔ)言數(shù)據(jù)產(chǎn)品,應(yīng)有生產(chǎn)這種產(chǎn)品的語(yǔ)言數(shù)據(jù)行業(yè)。
語(yǔ)言數(shù)據(jù)產(chǎn)業(yè),是對(duì)語(yǔ)言數(shù)據(jù)進(jìn)行收集庫(kù)存、管理經(jīng)營(yíng)、加工應(yīng)用的行業(yè)。語(yǔ)言數(shù)據(jù)產(chǎn)業(yè)涉及許多業(yè)態(tài),如語(yǔ)言數(shù)據(jù)的收集、語(yǔ)言數(shù)據(jù)庫(kù)的建設(shè)、語(yǔ)言數(shù)據(jù)的云存儲(chǔ)、語(yǔ)言數(shù)據(jù)的計(jì)算機(jī)應(yīng)用、語(yǔ)言數(shù)據(jù)產(chǎn)品的營(yíng)銷、語(yǔ)言數(shù)據(jù)及其各種規(guī)范標(biāo)準(zhǔn)、語(yǔ)言數(shù)據(jù)產(chǎn)業(yè)人才的培養(yǎng)等。這些業(yè)態(tài)代表著對(duì)這一新興產(chǎn)業(yè)的當(dāng)下認(rèn)識(shí),其中蘊(yùn)含并催生著諸多語(yǔ)言數(shù)據(jù)的職業(yè),通過(guò)這些產(chǎn)業(yè)和職業(yè),可以生產(chǎn)出各種形態(tài)的語(yǔ)言信息產(chǎn)品。
語(yǔ)言數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,首先需要有語(yǔ)言意識(shí)。需從語(yǔ)言經(jīng)濟(jì)學(xué)、語(yǔ)言產(chǎn)業(yè)經(jīng)濟(jì)學(xué)等角度看待語(yǔ)言數(shù)據(jù)和語(yǔ)言產(chǎn)業(yè),看到語(yǔ)言數(shù)據(jù)、語(yǔ)言數(shù)據(jù)產(chǎn)業(yè)在數(shù)字經(jīng)濟(jì)發(fā)展中的重要作用。其次,需要市場(chǎng)驅(qū)動(dòng)。自動(dòng)翻譯及前述智能寫作的發(fā)展,便顯示出市場(chǎng)的作用;中共中央、國(guó)務(wù)院的《意見》也有許多制度安排。市場(chǎng)運(yùn)作需要對(duì)語(yǔ)言數(shù)據(jù)產(chǎn)品進(jìn)行分類與規(guī)范,以便將其貨幣化。通過(guò)市場(chǎng)滿足供求關(guān)系,實(shí)現(xiàn)語(yǔ)言數(shù)據(jù)作用的最大化和語(yǔ)言數(shù)據(jù)產(chǎn)業(yè)效益的最大化。
比如語(yǔ)料庫(kù),現(xiàn)在各有關(guān)研究單位幾乎都有語(yǔ)料庫(kù),甚至每個(gè)語(yǔ)言研究課題都有語(yǔ)料庫(kù),但是這些語(yǔ)料庫(kù)基本不能與同行分享,不能與社會(huì)共享。個(gè)中原因很多,最重要的原因有二:
第一,產(chǎn)權(quán)不好確定。語(yǔ)料庫(kù)收集的都是他人的“語(yǔ)言成品”,或是作家著作,或是網(wǎng)絡(luò)言論,或是發(fā)音合作人的話語(yǔ),或是使用某種軟件生成的語(yǔ)言數(shù)據(jù)等。語(yǔ)料庫(kù)制作者即便是免費(fèi)與同行或社會(huì)共享,也可能發(fā)生產(chǎn)權(quán)官司。
第二,沒(méi)有統(tǒng)一的語(yǔ)料庫(kù)標(biāo)注規(guī)范。比如語(yǔ)料庫(kù)應(yīng)有哪些元數(shù)據(jù)、字形規(guī)范、詞語(yǔ)切分規(guī)范、詞性標(biāo)注規(guī)范,等等。
一個(gè)像樣的語(yǔ)料庫(kù),其建構(gòu)成本巨大,但發(fā)揮作用有限,他人需要重復(fù)建設(shè),造成巨大浪費(fèi)。語(yǔ)料庫(kù)只是一例,語(yǔ)言數(shù)據(jù)產(chǎn)業(yè)此類問(wèn)題甚多,亟需研究解決。要建立語(yǔ)言數(shù)據(jù)產(chǎn)品名錄、語(yǔ)言數(shù)據(jù)產(chǎn)品規(guī)范、語(yǔ)言數(shù)據(jù)產(chǎn)業(yè)與市場(chǎng)的法規(guī)政策、語(yǔ)言數(shù)據(jù)職業(yè)規(guī)范及倫理道德等。社會(huì)已經(jīng)進(jìn)入信息時(shí)代,過(guò)去的很多規(guī)矩都是平面媒體時(shí)代的,需要與時(shí)俱進(jìn),需要有創(chuàng)新意識(shí)。創(chuàng)新與失誤是一根藤上的瓜,有創(chuàng)新意識(shí)還需有容錯(cuò)意識(shí),能夠容錯(cuò)才敢于創(chuàng)新。
語(yǔ)言數(shù)據(jù)適應(yīng)計(jì)算機(jī)應(yīng)用是重要的學(xué)術(shù)問(wèn)題。語(yǔ)言數(shù)據(jù)與計(jì)算機(jī)的接口是形式化,形式化是解決語(yǔ)言數(shù)據(jù)與計(jì)算機(jī)處理“最后一公里”的問(wèn)題。信息時(shí)代,網(wǎng)絡(luò)已經(jīng)是最為龐大的語(yǔ)言數(shù)據(jù)庫(kù),利用網(wǎng)絡(luò)獲取語(yǔ)言數(shù)據(jù)是可能的也是必要的。但是,網(wǎng)絡(luò)數(shù)據(jù)是不同時(shí)代、不同文化、不同領(lǐng)域的集聚,甚至還有機(jī)器生產(chǎn)的大量數(shù)據(jù)。要利用網(wǎng)絡(luò)數(shù)據(jù),就有一個(gè)“潔洗”的問(wèn)題,通過(guò)潔洗去除數(shù)據(jù)的意識(shí)形態(tài)偏見、文化偏見以及不良用語(yǔ)?,F(xiàn)在,許多數(shù)據(jù)公司都在數(shù)據(jù)潔洗方面花了不少功夫。
此外,需要明晰語(yǔ)言數(shù)據(jù)的知識(shí)產(chǎn)權(quán),保護(hù)語(yǔ)言數(shù)據(jù)涉及的各方權(quán)益。重視語(yǔ)言數(shù)據(jù)的隱私權(quán),妥善處理語(yǔ)言數(shù)據(jù)可能出現(xiàn)的隱私泄露問(wèn)題。
任何產(chǎn)業(yè)都有一定的業(yè)態(tài)。賀宏志、陳鵬《語(yǔ)言產(chǎn)業(yè)導(dǎo)論》是我國(guó)最早研究語(yǔ)言產(chǎn)業(yè)的著作,該書把語(yǔ)言產(chǎn)業(yè)劃分為九大業(yè)態(tài):(1)語(yǔ)言培訓(xùn)業(yè);(2)語(yǔ)言出版業(yè);(3)語(yǔ)言翻譯業(yè);(4)語(yǔ)言文字信息處理業(yè);(5)語(yǔ)言藝術(shù)業(yè);(6)語(yǔ)言康復(fù)業(yè);(7)語(yǔ)言會(huì)展業(yè);(8)語(yǔ)言創(chuàng)意業(yè);(9)語(yǔ)文能力測(cè)評(píng)業(yè)。(16)賀宏志、陳鵬:《語(yǔ)言產(chǎn)業(yè)導(dǎo)論》,北京:首都師范大學(xué)出版社,2012年。可以預(yù)見,在數(shù)據(jù)時(shí)代,這些語(yǔ)言產(chǎn)業(yè)也會(huì)有更濃厚的語(yǔ)言數(shù)據(jù)意識(shí)。
第一,更好地獲得語(yǔ)言數(shù)據(jù)。語(yǔ)言產(chǎn)業(yè)的生產(chǎn)往往離不開語(yǔ)言數(shù)據(jù),語(yǔ)言數(shù)據(jù)是許多語(yǔ)言產(chǎn)業(yè)的生產(chǎn)資料。比如,語(yǔ)言培訓(xùn)需要教材,教師需要參考資料;自動(dòng)語(yǔ)言翻譯需要雙語(yǔ)數(shù)據(jù)庫(kù);語(yǔ)言會(huì)展業(yè)展出的都是語(yǔ)言產(chǎn)品,其中包括語(yǔ)言數(shù)據(jù)、語(yǔ)言數(shù)據(jù)服務(wù)等。語(yǔ)言產(chǎn)業(yè)的發(fā)展,需要利用網(wǎng)絡(luò)、現(xiàn)代語(yǔ)言信息技術(shù)和語(yǔ)言數(shù)據(jù)市場(chǎng)去更及時(shí)、更便利地獲取最適合的語(yǔ)言數(shù)據(jù)。
第二,利用好自己產(chǎn)出的語(yǔ)言數(shù)據(jù)。語(yǔ)言產(chǎn)業(yè)生產(chǎn)的語(yǔ)言產(chǎn)品,有許多就是語(yǔ)言數(shù)據(jù)。比如辭書,看起來(lái)是在編纂一條條詞語(yǔ),其實(shí)每個(gè)詞條都是優(yōu)質(zhì)的語(yǔ)言數(shù)據(jù),詞條整合起來(lái)就是某一方面優(yōu)質(zhì)的知識(shí)系統(tǒng)。這些優(yōu)質(zhì)的語(yǔ)言數(shù)據(jù),辭書編輯反復(fù)加工過(guò),經(jīng)過(guò)最為嚴(yán)格的“潔洗”,是訓(xùn)練計(jì)算機(jī)提升智能的珍貴數(shù)據(jù),也是計(jì)算機(jī)進(jìn)行知識(shí)挖掘的珍貴數(shù)據(jù)。再如語(yǔ)言教學(xué)、語(yǔ)言測(cè)試等,都能生成有特殊作用的語(yǔ)言數(shù)據(jù),比如經(jīng)過(guò)批改的語(yǔ)言試卷,對(duì)于促進(jìn)機(jī)器獲取語(yǔ)言智能、促進(jìn)自動(dòng)評(píng)分技術(shù)的發(fā)展,都具有重要意義。但是,這些語(yǔ)言數(shù)據(jù)并沒(méi)有得到很好利用,甚至被丟入廢紙堆中。
瑞士語(yǔ)言產(chǎn)業(yè)對(duì)該國(guó)GDP的貢獻(xiàn)近10%;我國(guó)正值數(shù)據(jù)可以成為生產(chǎn)要素的時(shí)代,語(yǔ)言數(shù)據(jù)產(chǎn)業(yè)將有較大發(fā)展,其他語(yǔ)言產(chǎn)業(yè)亦可借數(shù)據(jù)之便,大幅提升經(jīng)濟(jì)能量??梢灶A(yù)測(cè),語(yǔ)言產(chǎn)業(yè)、語(yǔ)言職業(yè)將能夠創(chuàng)造更為顯著的經(jīng)濟(jì)成果,成為數(shù)字經(jīng)濟(jì)的一方重要支柱。
2018年12月19—21日,中央經(jīng)濟(jì)工作會(huì)議在北京舉行。會(huì)議重新定義了基礎(chǔ)設(shè)施建設(shè),把5G、人工智能、工業(yè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)定義為“新型基礎(chǔ)設(shè)施建設(shè)”,簡(jiǎn)稱“新基建”。此后,新基建的內(nèi)容不斷豐富,面貌也逐漸清晰。
在各種基礎(chǔ)設(shè)施建設(shè)中,重視信息網(wǎng)絡(luò)、數(shù)據(jù)中心的建設(shè),能夠讓數(shù)據(jù)像交流電、自來(lái)水、天然氣一樣在千家萬(wàn)戶奔流。但是,就三元空間的發(fā)展前景來(lái)看,新基建僅有“聯(lián)通”是不夠的,還需要智能;不僅做到“萬(wàn)物關(guān)聯(lián)”,還要向“萬(wàn)物關(guān)聯(lián)對(duì)話”的方向努力。也就是說(shuō),在新基建中,不僅重視“聯(lián)通”,還要重視“智能”,重視“對(duì)話”,亦即讓基建物具有“智能”,特別是應(yīng)當(dāng)具有語(yǔ)言智能,以便實(shí)現(xiàn)人與萬(wàn)物的關(guān)聯(lián)對(duì)話,構(gòu)建有智能的物聯(lián)網(wǎng)。
具有智能、特別是語(yǔ)言智能的基建,才是名副其實(shí)的新基建,為強(qiáng)調(diào)起見,或可稱為“智能新基建”。如果說(shuō)目前的“新基建”還主要是為數(shù)據(jù)、為智能鋪設(shè)通道,那么,“智能新基建”更看重的是讓基建物具有智能,促進(jìn)“人-機(jī)-物”三者的互動(dòng),特別是通過(guò)語(yǔ)言進(jìn)行互動(dòng)。語(yǔ)言交際由“人-人”交際、“人-機(jī)-人”交際進(jìn)一步發(fā)展為“人-機(jī)-物-人”的更為復(fù)雜的交際。在“智能新基建”的思維框架中,語(yǔ)言產(chǎn)業(yè)將發(fā)揮更為顯著的作用。
語(yǔ)言已經(jīng)不僅僅是人文現(xiàn)象,它是“具有聲光電三大媒介、為人類與機(jī)器兩個(gè)‘物種’共享、將應(yīng)用在社會(huì)、信息、物理三元空間中”的事物。語(yǔ)言學(xué)作為研究語(yǔ)言及其相關(guān)問(wèn)題的科學(xué),也應(yīng)當(dāng)是橫跨文理工的綜合學(xué)科,由此可以說(shuō),“語(yǔ)言學(xué)是一個(gè)學(xué)科群”(17)李宇明:《語(yǔ)言學(xué)是一個(gè)學(xué)科群》,《語(yǔ)言戰(zhàn)略研究》2018年第1期。。
2017年10月,美國(guó)希拉姆學(xué)院提出“新文科”的教育理念,對(duì)其29個(gè)專業(yè)實(shí)行重組,把新技術(shù)融入哲學(xué)、文學(xué)、語(yǔ)言等課程中。這反映了學(xué)科交叉融合的時(shí)代大趨勢(shì)。我國(guó)也在積極推進(jìn)“新工科、新醫(yī)科、新農(nóng)科、新文科”建設(shè),很多高校推進(jìn)“學(xué)部制”改革,在體制上實(shí)現(xiàn)學(xué)科交叉。根據(jù)語(yǔ)言的性質(zhì),就應(yīng)當(dāng)依照“新文科”的思路發(fā)展語(yǔ)言學(xué)。綜合、交叉、融入新技術(shù)的語(yǔ)言學(xué),能夠更好地適應(yīng)“數(shù)據(jù)是數(shù)字經(jīng)濟(jì)的關(guān)鍵生產(chǎn)要素”的時(shí)代命題和經(jīng)濟(jì)制度,促進(jìn)知識(shí)經(jīng)濟(jì)的發(fā)展,推進(jìn)智能化“新基建”的發(fā)展。
2020年7月29日,全國(guó)研究生教育視頻會(huì)議召開,部署新技術(shù)時(shí)代高端人才培養(yǎng)問(wèn)題。會(huì)后出臺(tái)文件,把交叉學(xué)科新增為第14個(gè)學(xué)科門類,說(shuō)明了對(duì)人才進(jìn)行大交叉、大融合培養(yǎng)的重要性和急迫性。語(yǔ)言智能是諸多學(xué)科的交叉,需要交叉學(xué)科培養(yǎng)出來(lái)的人才作支撐,而語(yǔ)言學(xué)人才培養(yǎng)方面存在的問(wèn)題不少,應(yīng)引起學(xué)界和學(xué)科規(guī)劃者的重視。當(dāng)然,新基建和知識(shí)經(jīng)濟(jì)的謀劃者,也應(yīng)當(dāng)充分重視語(yǔ)言和語(yǔ)言學(xué),獲取語(yǔ)言學(xué)的科學(xué)紅利和社會(huì)紅利。
由于數(shù)據(jù)是人工智能、數(shù)字經(jīng)濟(jì)的關(guān)鍵要素,近些年世界各國(guó)都在開展“數(shù)據(jù)行動(dòng)”。數(shù)據(jù)的重要性由科學(xué)家傳遞給政府,政府的數(shù)據(jù)意識(shí)由“推進(jìn)科學(xué)技術(shù)發(fā)展”到“推進(jìn)經(jīng)濟(jì)社會(huì)發(fā)展”,把數(shù)據(jù)看作可與勞動(dòng)、資本、土地、知識(shí)、技術(shù)、管理并列的生產(chǎn)要素。認(rèn)識(shí)到數(shù)據(jù)的生產(chǎn)要素性質(zhì),人類就開始進(jìn)入數(shù)據(jù)時(shí)代。
語(yǔ)言數(shù)據(jù)主要包括:語(yǔ)言的符號(hào)系統(tǒng);語(yǔ)言負(fù)載的信息;由語(yǔ)言延伸的各種符號(hào)與代碼;生活、藝術(shù)與科學(xué)技術(shù)符號(hào)。這些類型無(wú)論是量上還是質(zhì)上都是最為重要的數(shù)據(jù),故而也是重要的生產(chǎn)要素。語(yǔ)言還與勞動(dòng)、資本、知識(shí)、技術(shù)、管理等生產(chǎn)要素具有密切關(guān)系。語(yǔ)言及語(yǔ)言數(shù)據(jù)將成為數(shù)據(jù)時(shí)代的重要生產(chǎn)力。
過(guò)去,語(yǔ)言為人類一個(gè)物種所獨(dú)有。隨著語(yǔ)言智能的發(fā)展,機(jī)器逐漸在獲取人類的語(yǔ)言智能,“人-人”交際發(fā)展為“人-機(jī)-人”的混成交際,語(yǔ)言逐漸為人與機(jī)器兩個(gè)“物種”所有。在人類形成之前,世界就只有物理空間。人類的形成與發(fā)展,在物理空間中生長(zhǎng)出社會(huì)空間。而今,人類正在建造出第三空間——信息空間。語(yǔ)言過(guò)去只在社會(huì)空間中使用,現(xiàn)在是在社會(huì)空間、信息空間雙空間中使用。隨著語(yǔ)言智能和物聯(lián)網(wǎng)的發(fā)展,語(yǔ)言還將跨入物理空間,在三元空間中發(fā)揮信息交互作用。數(shù)據(jù)時(shí)代,由于語(yǔ)言數(shù)據(jù)的數(shù)據(jù)性質(zhì),由于語(yǔ)言與勞動(dòng)、資本、知識(shí)、技術(shù)、管理等生產(chǎn)要素的關(guān)系,語(yǔ)言產(chǎn)業(yè)會(huì)得到更大發(fā)展。首先發(fā)展的是對(duì)語(yǔ)言數(shù)據(jù)進(jìn)行收集庫(kù)存、管理經(jīng)營(yíng)、加工應(yīng)用的語(yǔ)言數(shù)據(jù)產(chǎn)業(yè),其他語(yǔ)言產(chǎn)業(yè)也會(huì)有更濃厚的語(yǔ)言數(shù)據(jù)意識(shí),更好地獲得語(yǔ)言數(shù)據(jù),更好地利用自己產(chǎn)出的語(yǔ)言數(shù)據(jù)。當(dāng)前的基本建設(shè)是“新基建”,為數(shù)據(jù)鋪設(shè)通道,促進(jìn)萬(wàn)物關(guān)聯(lián)。但僅重視“聯(lián)通”遠(yuǎn)遠(yuǎn)不夠,還要讓基建物具有“智能”,特別是應(yīng)當(dāng)具有語(yǔ)言智能,以便實(shí)現(xiàn)人與萬(wàn)物的關(guān)聯(lián)對(duì)話,促進(jìn)“人-機(jī)-物”三者的語(yǔ)言智能互動(dòng)。這種新基建是智能新基建,是新基建的發(fā)展方向。
語(yǔ)言學(xué)常常被看作是人文科學(xué),而且與“文學(xué)”組成一個(gè)一級(jí)學(xué)科。嚴(yán)格來(lái)講,語(yǔ)言學(xué)人才是在碩士階段才開始進(jìn)行專業(yè)培養(yǎng)的。在人工智能快速發(fā)展、語(yǔ)言數(shù)據(jù)成為重要生產(chǎn)要素的今天,在語(yǔ)言發(fā)展為人與機(jī)器“雙物種”所有,將在社會(huì)、信息、物理三空間中運(yùn)作的今天,為適應(yīng)語(yǔ)言智能、語(yǔ)言產(chǎn)業(yè)和智能新基建的發(fā)展,語(yǔ)言學(xué)必須樹立“新文科”意識(shí),通過(guò)學(xué)科交叉培養(yǎng)數(shù)據(jù)時(shí)代所需要的人才??梢灶A(yù)測(cè),語(yǔ)言產(chǎn)業(yè)、語(yǔ)言職業(yè)將能夠創(chuàng)造更為顯著的經(jīng)濟(jì)成果。語(yǔ)言學(xué)不僅要自覺(jué)適應(yīng)新形勢(shì),新基建和知識(shí)經(jīng)濟(jì)的謀劃者也應(yīng)當(dāng)加強(qiáng)語(yǔ)言意識(shí),像重視數(shù)據(jù)那樣重視語(yǔ)言和語(yǔ)言學(xué)問(wèn)題。
(本文寫作得到王海蘭、饒高琦的幫助,特此感謝)
山東師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2020年5期