• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    CivDEAP土木工程學(xué)術(shù)英語語料庫的創(chuàng)建

    2020-07-02 10:36:08重慶交通大學(xué)章柏成
    語料庫語言學(xué) 2020年1期
    關(guān)鍵詞:語料語料庫學(xué)術(shù)

    重慶交通大學(xué) 章柏成 楊 玲

    提要:CivDEAP土木工程學(xué)術(shù)英語語料庫是DEAP學(xué)術(shù)英語語料庫的子庫之一。本文從建庫目標、建庫方案、文本采集、文本命名、文本清理、文本標注6個方面介紹該語料庫的創(chuàng)建過程,進而就CivDEAP在學(xué)術(shù)研究和課程教學(xué)中的應(yīng)用進行初步探討和前景展望,最后對該語料庫的后續(xù)擴容建設(shè)提出初步建議。

    1.引言

    語料庫是語言使用的實例匯集,根據(jù)建庫目的并按照相應(yīng)標準抽樣采集語料樣本,具有一定的代表性。20世紀50年代,美國結(jié)構(gòu)主義語言學(xué)家普遍通過收集語言實例開展語言學(xué)研究,“基于真實語料開展研究”的觀念應(yīng)運而生并迅速盛行起來。結(jié)構(gòu)主義語言學(xué)家們重視真實語料,致力于將其置于語言學(xué)研究的核心,是語料庫語言學(xué)的先驅(qū)(Leech 1992);20世紀50年代后期,用計算機處理真實語料并生成索引得以實現(xiàn)(Parrish 1962);20世紀70年代,語料處理與分析技術(shù)不斷進步,“語境中的關(guān)鍵詞”(KWIC)模式代替了原來的“目錄索引卡”,成為自動化主題分析的手段;20世紀80—90年代,語料庫技術(shù)高速發(fā)展,成為語言學(xué)家從事研究的得力工具(McCarthy & O’Keeffe 2010)。

    按建庫目的、語料特點等進行劃分,語料庫有不同類型,如通用語料庫、專用語料庫、共時語料庫、歷時語料庫、口語語料庫、筆語語料庫、本族語者語料庫、學(xué)習(xí)者語料庫、單語語料庫、平行語料庫/雙語和多語語料庫等(梁茂成、李文中、許家金 2010)。相對于大型通用語料庫而言,專用語料庫服務(wù)于特定研究目的,通常收集特定領(lǐng)域的語料樣本。學(xué)術(shù)英語語料庫是專用語料庫的一個子類,在學(xué)術(shù)英語特征及其應(yīng)用研究方面發(fā)揮了重要作用。國際上已建成并產(chǎn)生重要影響的學(xué)術(shù)英語語料庫主要有密歇根學(xué)術(shù)口語語料庫(MICASE)、英國學(xué)術(shù)口語語料庫(BASE)、密歇根大學(xué)高水平學(xué)生論文語料庫(MICUSP)、英國學(xué)術(shù)書面英語語料庫(BAWE)、魯汶英語本族語學(xué)生作文語料庫(LOCNESS),以及國際英語學(xué)習(xí)者語料庫(ICLE)等。在我國,代表性學(xué)術(shù)英語語料庫主要包括20世紀80年代建成的上海交通大學(xué)科技英語語料庫(JDEST),以及本世紀初建成的中國學(xué)習(xí)者英語語料庫(CLEC)、英語專業(yè)學(xué)習(xí)者語料庫(SWECCL)、中國學(xué)習(xí)者英語口語語料庫(COLSEC)等。中國外語教育基金DEAP專用英語語料庫建設(shè)項目于2016年啟動,將分若干批次投放,旨在建成總?cè)萘?億詞次以上,涉及人文社會科學(xué)及自然科學(xué)主要學(xué)科領(lǐng)域的學(xué)術(shù)英語語料庫。

    國內(nèi)工程領(lǐng)域的學(xué)術(shù)英語語料庫建設(shè)也初顯成效。中國知網(wǎng)(CNKI)檢索結(jié)果表明,該類語料庫建設(shè)與研究主要涉及機械工程英語語料庫(張亞峰 2019)、農(nóng)業(yè)工程英語語料庫(樊緒巖 2019;祁雨思 2019)、建筑工程英語語料庫(劉佳2016;張弛 2016)、交通運輸工程碩士論文英文摘要語料庫(齊琳琳 2017)、飛行器制造工程英語語料庫(王曉英 2015)等。在土木工程學(xué)術(shù)英語語料庫建設(shè)與應(yīng)用方面,劉國聰和高軍(2016)從中國知網(wǎng)和美國土木工程師學(xué)會數(shù)據(jù)庫各抽取120篇土木工程學(xué)術(shù)論文摘要,考察其語言特征;佟星和邱鵬程(2016)簡介了小型土木工程英語語料庫的創(chuàng)建及教學(xué)運用效果評估,但對該語料庫的指標數(shù)據(jù)沒有具體說明,也未見基于該庫的后續(xù)研究發(fā)表。有鑒于此,我們認為土木工程學(xué)術(shù)英語語料庫的建設(shè)十分必要。

    2.建庫目標

    根據(jù)中國外語教育基金專用英語語料庫建設(shè)項目——DEAP學(xué)術(shù)英語語料庫總庫的設(shè)計方案和基本要求,CivDEAP旨在覆蓋“土木工程”一級學(xué)科下的6個二級學(xué)科,選取24種高質(zhì)量英文學(xué)術(shù)期刊發(fā)表的研究論文、綜述論文和社論文章,建成庫容為500萬詞次且均衡性、代表性和時效性強的“土木工程學(xué)術(shù)英語語料庫”,服務(wù)于學(xué)術(shù)話語研究和課程教學(xué)實踐。

    3.建庫方案

    3.1 學(xué)科領(lǐng)域

    國務(wù)院學(xué)位委員會、教育部印發(fā)的《學(xué)位授予和人才培養(yǎng)學(xué)科目錄(2011年)》中,在“工學(xué)”門類(代碼08)下,“土木工程”(代碼0814)一級學(xué)科設(shè)立了6個二級學(xué)科,分別是巖土工程(代碼081401)、結(jié)構(gòu)工程(代碼081402)、市政工程(代碼081403)、供熱、供燃氣、通風(fēng)及空調(diào)工程(代碼081404)、防災(zāi)減災(zāi)工程及防護工程(代碼081405)、橋梁與遂道工程(代碼081406)。

    土木工程學(xué)術(shù)英語語料庫CivDEAP的語料文本覆蓋上述6個二級學(xué)科,均衡性好、代表性強。

    3.2 來源期刊

    通過文獻檢索,我們首先列出了“土木工程”一級學(xué)科下每個二級學(xué)科10種(共60種)備選高質(zhì)量國際學(xué)術(shù)期刊。然后,通過咨詢土木工程領(lǐng)域的相關(guān)專家、學(xué)者,初步選定了每個二級學(xué)科5種(共30種)期刊。最后,參考相關(guān)期刊的影響因子和分區(qū)信息,確定了每個二級學(xué)科4種(共24種)期刊作為CivDEAP語料收集的來源期刊(見表1)。

    表1 CivDEAP的語料來源期刊

    (待續(xù))

    (續(xù)表)

    3.3 文獻類型

    根據(jù)來源期刊特征,CivDEAP選取了24種學(xué)術(shù)期刊共有的3種文獻類型:研究論文、綜述論文和社論文章。參考上述期刊的發(fā)文情況,語料收集時大致平衡每個二級學(xué)科3類文獻的文本數(shù)量,研究論文占90%左右,綜述論文約占6%,社論約占4%。

    3.4 出版時間

    為保證語料的時效性,CivDEAP原則上選取2018年出版的文獻,但由于部分期刊在2018年刊發(fā)的綜述論文和社論文章數(shù)量較少,為了使各二級學(xué)科3類文獻的文本數(shù)大致均衡,我們補充收集了2019年(6篇)、2017年(1篇)和2015年(2篇)發(fā)表的綜述和社論。

    4.文本采集

    首先,在Web of Science數(shù)據(jù)庫里檢索選定的期刊名稱,得到該期刊的全部文獻列表。其次,將“出版年”設(shè)定為2018,并依次選擇“Article”“Review”和“Editorial material”,篩選出相關(guān)類型的文獻。最后,按“被引頻次”排序,從高到低選取一定數(shù)量的文本,研究論文35篇、綜述論文3篇、社論2篇,若文本數(shù)量不夠,則將“出版年”依次擴展到其他年份(2019年、2017年、2016年、2015年),直到文獻數(shù)量達到設(shè)定要求。

    具體采集文本時,考慮到土木工程學(xué)科的學(xué)術(shù)論文中大量圖表和公式給文本清理帶來巨大工作量,我們沒有采用下載PDF文檔后進行轉(zhuǎn)換的方法,而是先準備好Word文檔,然后從“Full Text from Publisher”獲得網(wǎng)頁格式的全文,并按文獻的內(nèi)部結(jié)構(gòu)順序,依次將文獻的標題、作者、摘要、關(guān)鍵詞、正文、致謝等復(fù)制并粘貼到準備好的Word文檔里(按照建庫方案,收集文本時刪除了參考文獻和附錄等部分)。

    第一階段,我們共收集960個文本(每個二級學(xué)科160個,每種期刊40個),容量為620多萬詞次;第二階段,按照“DEAP學(xué)術(shù)英語語料庫每個子庫容量500萬詞左右”的設(shè)計要求,我們嘗試刪除部分文本并統(tǒng)計語料規(guī)模,最終保留780個文本(每個二級學(xué)科130個,每種期刊30—35個),其中,研究論文文本712個,綜述論文42個,社論文章26個。未標注的CivDEAP容量為5,040,349詞次1,添加文本頭部信息和結(jié)構(gòu)信息后為庫容5,088,754詞,具體信息見表2。

    表2 CivDEAP學(xué)術(shù)英語語料庫概況

    5.文本命名

    CivDEAP土木工程學(xué)術(shù)英語語料庫采用“一級學(xué)科代碼+二級學(xué)科代碼+文獻類型代碼+文本編號”的方式對780個文本進行命名。一級學(xué)科“土木工程”(Civil Engineering)代碼為首字母C,6個二級學(xué)科代碼分別用學(xué)科名稱前兩個實詞的首字母表示(詳見表3);3種文獻類型中,研究論文用RA表示,綜述論文為RV,社論文章是ED;文本編號用三位數(shù)字表示,從001到780,先排列研究論文(001-712),其次是綜述論文(713-754),最后是社論文章(755-780)。例如,CBTRA001表示該文本為“土木工程”一級學(xué)科下“橋梁與隧道工程”二級學(xué)科的研究論文,是CivDEAP語料庫的第一個文本,而CSEED780則是“結(jié)構(gòu)工程”二級學(xué)科的社論文章,是CivDEAP的第780個文本。

    期刊信息沒有包含在CivDEAP的文本名中,而是在每個文本的頭部信息中,如表示該文本對應(yīng)的文獻發(fā)表在期刊Journal of Bridge Engineering(《橋梁工程雜志》)上。

    表3 土木工程各二級學(xué)科名稱、代碼及文本編號

    (待續(xù))

    (續(xù)表)

    6.文本清理

    文本清理分為兩個階段,分別對Word文檔和TXT文本進行清理。清理Word文檔時,我們首先采用查找和替換的方法,批量刪除換行符、多余空格以及大量的圖(保留圖標題);然后用Word的宏命令剔除所有表格及其內(nèi)容(保留表標題)2;最后將Word文檔轉(zhuǎn)換為TXT純文本,保存為UTF-8編碼格式。

    對TXT純文本進行清理時,我們采用了文本整理器(TextEditor)V3.0,設(shè)置批量整理方案,進一步處理段落首尾空格、段落間空行、標點符號全角轉(zhuǎn)半角、字母全角轉(zhuǎn)半角、修正局部亂碼等問題,然后采用“界限查找”和“替換”,批量刪除原圖標題下端所附的下載鏈接。

    經(jīng)過上述兩個階段的工作,我們完成了對CivDEAP語料庫780個文本的清理,為文本標注作好了準備。

    7.文本標注

    CivDEAP學(xué)術(shù)英語語料庫采用可擴展標記語言(extensible markup language,以下簡稱XML)進行文本標注。XML標注將相關(guān)內(nèi)容放在成對出現(xiàn)的起始標簽(標示一個特定區(qū)域的開始)和結(jié)束標簽(標示一個特定區(qū)域的結(jié)束)之間,起始標簽和結(jié)束標簽名稱分別置于一個小于號(<)和大于號(>)之內(nèi),結(jié)束標簽則在名稱前加上斜杠(/),如為該部分的結(jié)束標簽。

    本語料庫的文本標注包括文本頭部信息和文獻結(jié)構(gòu)信息兩個部分。

    7.1 頭部信息

    實際上,文本頭部信息的標注在首次采集文本時就開始了。我們采用XML格式,在每個空白Word文檔開頭預(yù)置了具體的頭部信息,以標簽結(jié)束(詳見表4)。在采集每一個文本時,將相關(guān)元信息復(fù)制并粘貼在相應(yīng)位置,如2018,等。

    表4 CivDEAP語料庫文本頭部信息標注對照表

    部分來源期刊出版的文獻只有“卷”(Volume),沒有“期”(Issue),還有部分期刊文獻只有文獻編號,沒有頁碼。對于缺失的期號和頁碼信息,我們均標記為“unknown”。CivDEAP語料庫中,525個文本對應(yīng)的文獻只有卷號,沒有期號;189個文本沒有頁碼信息;所有文本都有數(shù)字對象識別碼(DOI)等其他元信息。

    7.2 結(jié)構(gòu)信息

    文獻結(jié)構(gòu)信息也采用XML格式,在TXT純文本上進行標注。我們運用PowerGREP,在正則表達式檢索模式下,采用查找和替換的方法,批量添加相關(guān)文獻結(jié)構(gòu)信息3,然后進行人工檢查,更正標注錯誤。

    由于CivDEAP語料庫的文本涉及3種文獻類型,不同期刊的文獻體例或多或少存在差異,即便是同一種期刊出版的同類文獻,結(jié)構(gòu)也不盡相同,因此,我們僅對大多數(shù)文獻共有的結(jié)構(gòu)信息進行標注(見表5)。根據(jù)文獻在期刊發(fā)表的自然狀態(tài),我們標注的文獻結(jié)構(gòu)信息包括標題、作者、摘要、關(guān)鍵詞、引言、方法、結(jié)果與討論、結(jié)論、致謝等內(nèi)容。限于時間和精力,對于部分文獻中不屬于上述結(jié)構(gòu)部分的內(nèi)容,或一個部分包含幾個結(jié)構(gòu)類型的內(nèi)容,則沒有進行細致區(qū)分和標注。

    表5 CivDEAP語料庫文獻結(jié)構(gòu)信息標注對照表

    8.應(yīng)用展望

    CivDEAP土木工程學(xué)術(shù)英語語料庫的應(yīng)用主要體現(xiàn)在學(xué)術(shù)研究和課程教學(xué)兩個方面。

    學(xué)術(shù)研究方面,可利用該語料庫進行土木工程領(lǐng)域的學(xué)術(shù)話語特征研究,在詞匯、短語、句法、修辭、篇章等層面,考察土木工程學(xué)科學(xué)術(shù)話語特征。也可以在二級學(xué)科層面進行相關(guān)學(xué)術(shù)話語特征的比較研究,或在文獻類型層面進行學(xué)術(shù)話語特征比較研究。還可以在DEAP學(xué)術(shù)英語語料庫的各子庫間進行相關(guān)學(xué)科的學(xué)術(shù)話語比較研究。

    課程教學(xué)方面,CivDEAP學(xué)術(shù)英語語料庫可在“專門用途英語”“學(xué)術(shù)論文寫作”“話語分析”之類的本科生或研究生課程教學(xué)中使用,一方面可提供大量真實、規(guī)范的學(xué)術(shù)語言使用實例,使學(xué)生獲得土木工程學(xué)科學(xué)術(shù)話語特征的感性認識;另一方面,也可為本科生或研究生的學(xué)術(shù)寫作訓(xùn)練與國際發(fā)表實踐提供高質(zhì)量的范例。

    9.結(jié)語

    本文從建庫目標、建庫方案、文本采集、文本命名、文本清理、文本標注等方面回顧了CivDEAP土木工程學(xué)術(shù)英語語料庫的建設(shè)情況。作為DEAP學(xué)術(shù)英語語料庫的子庫之一,CivDEAP必將和其他子庫一起,在進一步促進專用學(xué)術(shù)語料庫建設(shè)、推動相關(guān)理論與應(yīng)用研究方面發(fā)揮重要作用。然而,語料庫建設(shè)與應(yīng)用研究并非一蹴而就,為了更加充分地發(fā)揮CivDEAP學(xué)術(shù)語料庫的作用,可以考慮后續(xù)擴容建設(shè)問題,具體而言,可以從以下思路開展后續(xù)建設(shè)工作。

    第一,從歷時的思路進行后續(xù)擴容建設(shè)??梢园凑宅F(xiàn)有語料收集方案,一方面回溯24種期刊2018年以前的文獻,采集上述期刊在相關(guān)年份發(fā)表的3類文獻,時間間隔為5年,即2013年、2008年、2003年、1998年、1993年等,依此類推,一直追溯到各期刊創(chuàng)刊初期的年份;另一方面,2018年以后的文獻,同樣每隔5年采集1次,即2023年、2028年等。如此,可建成時間跨度數(shù)十年的“土木工程學(xué)術(shù)英語歷時語料庫(CivDDEAP)”,便于在共時描寫的基礎(chǔ)上,開展歷時研究,考察相關(guān)學(xué)術(shù)話語特征的歷時變化。

    第二,從語種的思路進行后續(xù)擴容建設(shè)。可根據(jù)現(xiàn)有語料收集方案,選取國內(nèi)用中文出版的土木工程6個二級學(xué)科的相關(guān)學(xué)術(shù)期刊,采集3種文獻類型的文本,建成土木工程英漢雙語學(xué)術(shù)語料庫(CivBDAP),可用于對比研究,考察相關(guān)學(xué)術(shù)話語特征在國內(nèi)外學(xué)術(shù)期刊的異同。

    第三,從平行的思路進行后續(xù)擴容建設(shè)。在上述第二個思路所選定并收集的土木工程中文學(xué)術(shù)文獻中,采集每個文獻的標題和摘要部分的英譯,建成土木工程學(xué)術(shù)文獻標題摘要英漢平行語料庫(CivPDAP),便于考察學(xué)術(shù)文獻標題和摘要的翻譯策略、特征,同時也可以在翻譯和學(xué)術(shù)寫作類課程教學(xué)中使用。

    注 釋

    1.CivDEAP語料庫容量(詞數(shù))的具體數(shù)據(jù)均使用正則表達式[a-zA-Z0-9-]+在PowerGREP中獲得。

    2.感謝吉林師范大學(xué)李亮老師提供技術(shù)支持,編寫宏命令,批量刪除表格。

    3.感謝中國科學(xué)院大學(xué)彭工教授、北京外國語大學(xué)許家金教授和吉林師范大學(xué)李亮博士提供PowerGREP使用及正則表達式編寫等方面的支持和幫助。

    猜你喜歡
    語料語料庫學(xué)術(shù)
    《語料庫翻譯文體學(xué)》評介
    如何理解“Curator”:一個由翻譯引發(fā)的學(xué)術(shù)思考
    中國博物館(2019年2期)2019-12-07 05:40:44
    對學(xué)術(shù)造假重拳出擊
    商周刊(2019年2期)2019-02-20 01:14:22
    把課文的優(yōu)美表達存進語料庫
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
    基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    《苗防備覽》中的湘西語料
    國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
    學(xué)術(shù)
    怀柔区| 白朗县| 昔阳县| 桂平市| 永泰县| 施甸县| 通辽市| 临武县| 肥东县| 琼结县| 延吉市| 普宁市| 广宁县| 阳山县| 汉寿县| 武夷山市| 枣阳市| 宁德市| 江陵县| 罗山县| 禹城市| 荥阳市| 湖南省| 海宁市| 文登市| 开鲁县| 正阳县| 苏尼特右旗| 丹棱县| 石阡县| 郴州市| 聂荣县| 宁南县| 南江县| 渝北区| 连江县| 曲沃县| 公安县| 宜兰市| 镇远县| 隆回县|