大數(shù)據(jù)戰(zhàn)略重點實驗室 基于大數(shù)據(jù)的城市科學研究北京市重點實驗室
摘 要:大數(shù)據(jù)發(fā)展日新月異,新的應用需求和實踐問題層出不窮,社會各界越來越重視大數(shù)據(jù)的基礎研究。百科全書作為知識門類的概述性著作,是開展和推動基礎研究的重要載體。作為大數(shù)據(jù)知識傳播的工具,《大數(shù)據(jù)百科全書》不僅要有實用與新穎兼?zhèn)涞闹R內容,并且還應具備準確嚴謹與通暢易懂的專業(yè)化語言文字表達。其中,術語是《大數(shù)據(jù)百科全書》不可或缺的有機組成部分,文章總結大數(shù)據(jù)領域的術語特點,并以此提出《大數(shù)據(jù)百科全書》術語方面的收錄和處理原則。
關鍵詞:大數(shù)據(jù);百科全書;術語
中圖分類號:N04;TP39;H059文獻標識碼:A DOI:10.3969/j.issn.1673-8578.2019.02.011
Features, Collection and Treatment Principles of Terminology in the Big Data Encyclopedia//Key Laboratory of Big Data Strategy, Beijing Key Laboratory for Big-Data based Urban Science Research
Abstract: The big data development is changing with each passing day. New demands in application and practical issues emerge in endlessly, and all sectors of the society pay an increasing attention to the basic research on big data. The Big Data Encyclopedia is a vital carrier to implement and accelerate such basic research for its knowledge category classification and overview explanation. In addition, the Big Data Encyclopedia is a tool to spread big data knowledge, so its content should be practical and novel, and its expression should be professional, accurate and precise. Considering terminology is an indispensable organic component in the Big Data Encyclopedia, we discussed features of terminology in big data fields, and proposed collection and treatment principles.
Keywords:big data; encyclopedia; terminology
2017年5月,中國大數(shù)據(jù)領域第一部專業(yè)百科全書——《大數(shù)據(jù)百科全書》正式啟動編纂工作,該書將由大數(shù)據(jù)戰(zhàn)略重點實驗室負責研究編纂,并經(jīng)全國科學技術名詞審定委員會(以下簡稱“名詞委”)審定發(fā)布。該書將在科學方法論的指導下,以歷史和發(fā)展的眼光,對大數(shù)據(jù)知識體系進行全面梳理,覆蓋大數(shù)據(jù)理論、大數(shù)據(jù)戰(zhàn)略、大數(shù)據(jù)技術、數(shù)字經(jīng)濟、數(shù)字金融、數(shù)據(jù)治理、數(shù)據(jù)安全、數(shù)權法、大數(shù)據(jù)史九個方面,并以專業(yè)規(guī)范的百科全書語言的形式編纂成書,以期推動大數(shù)據(jù)領域的知識傳播和普及,并為深入研究大數(shù)據(jù)提供基礎性研究素材。
《大數(shù)據(jù)百科全書》以大數(shù)據(jù)領域內的豐富知識為主體,包括大數(shù)據(jù)領域的基本理論、重要事件、基本事實、基本概念、重要流派、重要機構組織、重要著作和出版物、重要人物、重要政策文本等內容。術語作為概念、理論的語言指稱,是《大數(shù)據(jù)百科全書》不可或缺的有機組成部分和研究重點,主要分布在百科全書的立目用詞和釋文用語。
一 術語是《大數(shù)據(jù)百科全書》的有機組成部分
1.術語是大數(shù)據(jù)領域主要的專業(yè)用語
隨著大數(shù)據(jù)的飛速發(fā)展,相關知識體系逐步完善,其領域詞匯越來越豐富,相關術語所占的比重越來越大。術語是特定領域學科中的專門用語,是構建學科體系的基本元素。根據(jù)詞匯使用范圍的不同,德國學者希爾默(A.Schirmer)將其分成通用詞和專業(yè)詞匯,專業(yè)詞匯由術語、專名①、行業(yè)用語等詞匯單位組成,其中術語是基本的專業(yè)詞匯單位[1]。與專名相比,術語稱謂的普通概念更具概括性,可以指稱客觀世界的一類客體,而專名往往處于概念體系的最底層,指稱客觀世界的唯一客體,包括人名、機構名等等。同時,術語與專名具有相通性,在某些情況下可以互相轉化。如“ENIAC”(Electronic Numerical Integrator and Computer),最初是指1946 年的第一臺電子計算機,屬于專名,但由其發(fā)展而來的“電子計算機”已經(jīng)成為計算機科學術語。與行業(yè)用語相比,術語和行業(yè)用語雖都用于專業(yè)領域,且稱謂某個專門的概念,但術語更具規(guī)范性,而行業(yè)用語中常用具有俚俗色彩的口頭語,修辭色彩更強。如計算機領域從事軟件開發(fā)的工作人員也常常自嘲為“碼農”。
2.術語是《大數(shù)據(jù)百科全書》的重要研究內容
術語不僅僅是專業(yè)領域內的語言交流的工具,還是對學科知識的凝練和濃縮,是科學理論的組成部分。術語既是語言單位,又是科學知識單位,術語符號與該知識領域的概念系統(tǒng)中的概念相互對應,它不僅是對專業(yè)領域內理論概念的語言指稱,還是對在認知過程中出現(xiàn)并完善的專業(yè)概念的形式化。它能夠概括、增加和傳遞科學知識,反映某一認知領域的發(fā)展階段和程度[2]?!洞髷?shù)據(jù)百科全書》在全面梳理大數(shù)據(jù)領域的基礎理論、知識門類與發(fā)展實踐的過程中,必然要對其領域的相關術語進行研究探索。以大數(shù)據(jù)領域概念為基礎的術語系統(tǒng),是歸納概括領域知識的符號系統(tǒng),在一定程度上體現(xiàn)了人們對大數(shù)據(jù)的知識系統(tǒng)的認識,也是《大數(shù)據(jù)百科全書》框架體系的重要參考依據(jù)。
3.術語符合《大數(shù)據(jù)百科全書》的語言要求
術語是科學語言,其科學性、簡明性以及中立性等特性與百科全書的語言要求相符,使得術語成為《大數(shù)據(jù)百科全書》的重要用語。首先,術語的科學性要求術語要與所稱謂的概念一致,準確傳遞概念內容。其次,術語的簡明性要求術語簡明扼要,易讀易記,術語一般不宜過長。各語言中超過7個字(或詞)的術語短語數(shù)量有限。冗長術語在使用時往往會被簡化,從而構成縮略形式。如“筆記本”(筆記本式計算機)、“微機”(微型計算機)等。最后,術語的修辭中立性是指術語不帶有修辭色彩、主觀情態(tài)性和其他表現(xiàn)力因素。在構詞時,避免使用方言或俗語詞匯[2]。這與百科全書準確、平實、簡明的用詞特征相符?!洞髷?shù)據(jù)百科全書》要為相關讀者釋疑解惑,就必須具備真實、準確、科學的大數(shù)據(jù)知識或信息。這不僅要求其內容是大數(shù)據(jù)領域的客觀真理或規(guī)律,符合客觀實際,經(jīng)得起推敲和邏輯推理;同時,作為內容載體的文本語言力求嚴謹顯真,客觀準確反映表達的內容。這就要求其用詞表意準確,選用恰當、最能反映事物或現(xiàn)象真諦和精髓的詞語入文,忠實地表達概念,多選擇具有科技語體色彩并且表意準確的書面用語,避免使用口語化或存在歧義的日常用語[3]。
二 大數(shù)據(jù)術語特點
《大數(shù)據(jù)百科全書》作為大數(shù)據(jù)領域的專業(yè)百科全書,應盡可能體現(xiàn)所有或者至少大多數(shù)大數(shù)據(jù)領域的專業(yè)詞匯單位。因此,《大數(shù)據(jù)百科全書》術語的范圍以大數(shù)據(jù)術語為主,此外《大數(shù)據(jù)百科全書》還包括一部分相鄰領域的相關術語。同時,大數(shù)據(jù)領域術語的一般規(guī)律和基本原則決定了《大數(shù)據(jù)百科全書》的術語特點,并深刻影響著《大數(shù)據(jù)百科全書》術語的收錄和處理。
1.前沿性
大數(shù)據(jù)作為近年出現(xiàn)的新興領域,相關新事物、新概念、新技術層出不窮,大數(shù)據(jù)領域術語更具有鮮明的時代性。大數(shù)據(jù)領域知識相比其他傳統(tǒng)學科更為年輕,該領域大部分科技術語較其他學科術語發(fā)展歷程較短。相關的概念作為新概念的期限一般不長,很快就進入使用階段。它們既是在某一段時期內科學技術領域的研究熱點,也是社會大眾關注焦點的科技名詞?!按髷?shù)據(jù)”一詞首次使用于1997年,20世紀末到21世紀初期,逐漸為學術界的研究者所關注。直到2014年,“大數(shù)據(jù)”作為我國科技新詞②之一,由全國科學技術名詞審定委員會正式對外發(fā)布試用。同時,大數(shù)據(jù)領域的新詞數(shù)量多,發(fā)展快,很多術語尚未形成共識和規(guī)范,這為大數(shù)據(jù)領域的術語整理提出挑戰(zhàn)。
2.跨學科性
大數(shù)據(jù)術語的跨學科性來源于大數(shù)據(jù)領域多學科交叉發(fā)展的特點。大數(shù)據(jù)與多門學科都有緊密聯(lián)系,其理論基礎來自多個不同的學科領域,包括計算機科學、統(tǒng)計學、信息科學等,其知識系統(tǒng)本身具有極高的復雜交叉性[4]。大數(shù)據(jù)領域固有術語③較少,大數(shù)據(jù)領域部分基礎詞匯來源于相鄰學科的術語混合,也存在受其他學科影響而獲得新義的術語。根據(jù)國家標準《GB∕T 35295—2017 信息技術 大數(shù)據(jù) 術語》,大數(shù)據(jù)術語中包含“數(shù)據(jù)、數(shù)據(jù)處理、數(shù)據(jù)管理、關系模型、關系數(shù)據(jù)庫”等與信息技術密切相關的通用術語。大數(shù)據(jù)術語的跨學科性對整理術語及術語集界限的確定造成了一定的困難。
3.融合性
隨著大數(shù)據(jù)與經(jīng)濟社會各領域進一步融合發(fā)展,大數(shù)據(jù)應用也向各細分領域延伸拓展,其領域詞匯也逐漸擴展到各細分的應用領域,并在相互作用時產生術語的混合體。2017年5月,名詞委聯(lián)合大數(shù)據(jù)戰(zhàn)略重點實驗室首次對外發(fā)布塊數(shù)據(jù)、主權區(qū)塊鏈、秩序互聯(lián)網(wǎng)、激活數(shù)據(jù)學、5G社會、數(shù)據(jù)鐵籠、數(shù)權法等大數(shù)據(jù)十大新名詞。這些新詞不僅反映大數(shù)據(jù)的創(chuàng)新與發(fā)展,更是大數(shù)據(jù)在各個領域融合應用的結果。融合術語集有的模糊不清,有的基本術語完全保留了原義,有的略有修改,有的經(jīng)過專業(yè)化后完全改變了原義,因其成分不純,這些術語界線的確定和系統(tǒng)化顯得更為復雜[5]。
三 《大數(shù)據(jù)百科全書》的術語收錄和使用原則
新聞出版總署等多部門曾明確發(fā)文要求“各編輯出版單位今后出版的有關書刊、文獻、資料,要求使用公布的名詞。特別是各種工具書,應把是否使用已公布的規(guī)范名詞作為衡量該書質量的標準之一”。大數(shù)據(jù)作為新興學科領域,相關術語規(guī)范標準尚未完善,部分大數(shù)據(jù)術語的規(guī)范和選擇還處于過程階段。《大數(shù)據(jù)百科全書》作為大數(shù)據(jù)知識傳播的重要載體,理應在整理、規(guī)范大數(shù)據(jù)術語方面承擔更大的責任,發(fā)揮更大的作用。
1.適量使用術語,在保證科學性的基礎上注意通俗性
《大數(shù)據(jù)百科全書》的讀者對象主要是政府的政策制定與執(zhí)行部門、研究機構、企事業(yè)單位中從事大數(shù)據(jù)相關研究和應用的人士。其中,既包括大數(shù)據(jù)領域的專業(yè)人士,也包括其他大數(shù)據(jù)領域的相關人士,受眾范圍相對寬泛。由于個人專業(yè)水平和文化素質等因素的影響,這些受眾對大數(shù)據(jù)的專業(yè)認知存在差異。為盡可能滿足每一位讀者的需要,《大數(shù)據(jù)百科全書》的語言運用要處理好通俗化的問題,總體控制相關術語的收錄數(shù)量、釋義篇幅、使用范疇,盡可能避免使用艱深晦澀的專業(yè)術語,使得其知識的縱深適合。具體注意事項有以下幾點:一是釋義時僅在必要的情況下使用術語,在可以不用術語時,要選用大眾熟知的表達方式;二是在使用過于艱深羞澀的術語時需對術語做出解釋和說明;三是根據(jù)語言經(jīng)濟原則,要盡可能避免術語套術語,忌循環(huán)使用術語解釋術語。
2.謹慎對待科技新詞,避免使用爭議詞
人們對大數(shù)據(jù)領域的認識有一個逐漸清晰的過程。在大數(shù)據(jù)相關概念產生和構建的過程中,部分詞匯的內涵有可能不夠明確,概念不夠穩(wěn)定,學界對其認識也有個過程,在此過程中出現(xiàn)了大量科技新詞。隨著時間的推移,有的科技新詞逐步穩(wěn)定,進入成熟的概念體系,而有的科技新詞會被更為規(guī)范的術語代替。
作為一部規(guī)范性的權威辭書,《大數(shù)據(jù)百科全書》具有可信的精確性、時代性以及相對的穩(wěn)定性的特點,其科技新詞和爭議詞的處理是積極但又比較謹慎的。對于這部分詞語收錄的意義不僅在于對其進行實錄和保留,更重要的是對其定型、規(guī)范釋義和傳播指導。一方面,《大數(shù)據(jù)百科全書》的科技新詞收錄標準是嚴格的,態(tài)度是慎重的。詞的理據(jù)④上,要求名詞合理,符合漢語的構詞規(guī)律,排除和限制不規(guī)范的詞語;詞的使用上,要求收錄具有生命力⑤和普遍性⑥的詞語。一些偶發(fā)詞⑦依賴于既有詞和特定語境,且復用率極低,其意義也是臨時性的,這類詞應當避免。另一方面,有些問題雖未最終穩(wěn)定下來,或者說尚未“蓋棺定論”,但已形成人們熟知的話題,形成穩(wěn)定下來的問題,也具有收錄的意義。諸如類術語、準術語、偽術語這類專業(yè)詞匯(見表1),它們是大數(shù)據(jù)術語發(fā)展過程的產物,是大數(shù)據(jù)領域概念的唯一稱謂,對于那些能夠反映重要研究成果、對大數(shù)據(jù)發(fā)展影響重大的關鍵性代表性的詞匯,在經(jīng)過認真篩選和審慎取舍后,應當和術語一同收入《大數(shù)據(jù)百科全書》條目表中,但在釋義中一般不推薦使用。對于這些專業(yè)詞匯的規(guī)范需要極為謹慎,以避免誤導讀者。
3.科學選擇術語,規(guī)范術語使用
對于經(jīng)過時間沉淀或已形成共識的術語,我們須以科學術語規(guī)范意識為引領,積極學習大數(shù)據(jù)相關的國家術語標準,關注名詞委的新詞發(fā)布,及時了解學界術語發(fā)展,不用已被淘汰的舊名稱或概念的非推薦名,如“3D打印”(以后應使用“三維打印”)。
在具體術語收錄時,綜合考慮以下因素進行取舍:術語的重要性、使用頻率、主體所屬、系統(tǒng)性、術語的構成能力、術語集收詞是否全面、時間因素和搭配特點等。對于已有規(guī)范的多領域交叉術語,不同學科術語標準參差不齊。大數(shù)據(jù)領域具有跨學科交叉的特點,其基礎學科相應術語的規(guī)范形成的時間不同,規(guī)范制定的專家和出發(fā)點不同,形成的標準也不盡相同。同時,同一個術語,由于使用的地域不同,術語常常發(fā)生分歧。例如,“程序”這個術語,美國為program,英國則為programme。在中文術語中,由于我國臺灣地區(qū)特殊的地理、歷史和政治因素的影響,許多術語與大陸不同。如海峽兩岸計算機科技術語中,兩岸不一致的約占40%以上[6]。對于以上情況,有兩個最基本的原則:一是遵循服從主學科的原則,即在以大數(shù)據(jù)為核心內容的前提下,篩選術語;二是擇善而從,考慮術語出現(xiàn)的時間先后,以及目前的使用頻率。同時,未選擇的術語的緣由應做相應的交代。
注釋
① 專名即專有名詞。
② 科技新詞指稱的是科技領域中近年出現(xiàn)的新概念,是新理論、新技術、新物質等的名詞。
③ 固有術語指本語言中早已存在或已構成的術語。
④ 詞的理據(jù)是指用某個詞稱呼某事物的理由和依據(jù)。
⑤ 新詞的生命力是指經(jīng)過時間的考驗,這個詞是否能流傳并穩(wěn)定下來。
⑥ 普遍性是指該詞是否能推廣并被大多數(shù)人共同理解。
⑦ 偶發(fā)詞是指為了某種修辭目的而臨時造出來的一種詞流,又可稱為翻造詞語或自鑄新詞。
參考文獻
[1]葉其松.術語學核心術語研究[D].哈爾濱:黑龍江大學博士論文,2010.
[2]劉青.中國術語學概論[M].北京:商務印書館,2015.
[3]袁暉,李熙宗.漢語語體概論[M].北京:商務印書館,2005.
[4]李國杰,程學旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域——大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J].中國科學院院刊,2012(6):647-657.
[5]格里尼奧夫.術語學[M].鄭述譜,吳麗坤,孟令霞,譯.北京:商務印書館,2011.
[6]張蕾,代曉明.交流兩岸名詞術語,促進科學文化繁榮:就海峽兩岸科技名詞交流對照工作訪全國人大常委會副委員長、中國科學院院長、全國科學技術名詞審定委員會主任路甬祥院士[J].中國科技術語,2009(4):5-7.