• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    學術英語語料庫Beijing CARE簡介

    2020-07-02 10:36:08北京航空航天大學衛(wèi)乃興王冰昕
    語料庫語言學 2020年1期
    關鍵詞:語料語料庫學者

    北京航空航天大學 衛(wèi)乃興 王冰昕

    提要:Beijing CARE是一個大型可比學術英語語料庫,由中國學者子庫和西方學者子庫組成,分別涵蓋多個學科領域的期刊論文。本文介紹Beijing CARE語料庫的創(chuàng)建和應用概況。首先,說明Beijing CARE的創(chuàng)建目的和基本構成;其次,論述語料采集、文本命名、語料整理和標注等;最后,簡要介紹目前基于該庫的學術話語研究。

    1.引言

    Beijing CARE語料庫(全稱為Beijing Collection of Academic Research Essays)是北京航空航天大學語料庫語言學團隊承擔的國家社科基金項目“基于大型可比語料庫的中國學者(科學家)學術英語現(xiàn)狀研究”(13BYY074)1的成果,于2015年初步建成,并逐年持續(xù)更新至今。Beijing CARE的創(chuàng)建主要由北京航空航天大學語料庫語言學衛(wèi)乃興教授團隊完成。同時,華中科技大學潘璠教授、大連海事大學鄧耀臣教授、東華大學趙曉臨教授、李晶潔教授也對該庫的建設作出了重要貢獻。該庫基本信息如下。

    (1)規(guī)模。全庫共計收錄六千余篇學術論文,總庫容達3,000萬詞。規(guī)模遠大于BAWE、BASE等學術英語語料庫和BNC學術子庫2。

    (2)學科范圍。語料涵蓋自然科學、人文與社會科學等領域的23個學科門類。學科覆蓋面廣泛。

    (3)子庫構成。該庫包含兩個子庫,即中國學者語料庫和西方學者語料庫。兩個子庫分別涵蓋多個學科領域的論文,支持中西學者間、學科間等多層次、多視角的對比研究。

    (4)版本。該庫包括純文本語料庫和詞性賦碼語料庫兩個版本。

    Beijing CARE語料庫的建庫目的、語料構成、語料采集與命名、整理與標注以及應用情況如下。

    2.建庫目的

    Beijing CARE語料庫的創(chuàng)建目的主要如下。第一,為學術英語研究提供較大量的數(shù)據(jù)支持。具體而言,借助Beijing CARE語料庫,可考察學術文本的形式、意義與功能特征,以及探究學術作者,尤其是中國學者學術文本中采用的話語策略、意義方式、知識構建方式、態(tài)度資源等。第二,為跨文化、跨學科等學術話語對比研究提供數(shù)據(jù)資源。第三,為學術英語寫作與教學提供檢索與實例數(shù)據(jù)。

    3.語料構成

    Beijing CARE語料庫包括6,155個文本,總庫容為33,415,707形符。該庫由中國學者子庫和西方學者子庫組成,分別涵蓋航空航天科學技術、化學、計算機科學、經(jīng)濟學、醫(yī)學、社會學等23個學科門類的期刊論文。其中,中國學者子庫包含2,237個文本,總形符10,743,841詞次,各學科子庫庫容在459,110形符到495,085形符之間。西方學者子庫包含3,918個文本,總形符22,671,866詞次,各學科子庫庫容在975,649形符到998,532形符之間。Beijing CARE語料庫的具體信息見表1。

    表1 Beijing CARE語料庫基本信息

    (待續(xù))

    (續(xù)表)

    4.語料庫建設

    4.1 語料采集與命名

    Beijing CARE語料庫所采用的文本為2000—2017年間國際學術期刊上中國學者和西方國家學者發(fā)表的英語論文3,主要源自Elsevier Science學術論文數(shù)據(jù)庫。期刊論文的選取標準為:(1)期刊能夠反映學科特點且具有較高的影響因子;(2)論文為研究性論文,排除綜述性等其他類型論文;(3)中國學者子庫論文的第一作者來自中國大陸,西方學者子庫論文的第一作者來自英國、美國、加拿大、澳大利亞、新西蘭等英語國家,判別標準主要為作者姓名與工作單位。

    遵循以上標準,每個學科選取6種或6種以上國際期刊,總計150種。每種期刊中隨機抽取10—20篇符合標準的論文組成中國學者子庫,隨機抽取20—40篇組成西方學者子庫。如抽到同一作者的多篇論文,最多收取其中2篇,以保證語料的代表性。

    文件命名。西方學者子庫文本的文件名采用10位編碼方式,格式為“學科+期刊號+年份+流水號”。其中,學科名稱采用4位編碼,選取學科英語名稱的前4個字母(參見表1),其余信息均采用2位編碼(如期刊號02代表第2種期刊,年份13代表2013年)。例如,chem011001代表西方學者子庫化學學科第1種期刊2010年第1篇論文。中國學者子庫文本的文件名采用12位編碼方式,在西方學者子庫文件名10位編碼的基礎上,添加作者信息CH,代表Chinese,表明文本是中國學者撰寫的論文。如chem011005CH代表中國學者子庫化學學科第1種期刊2010年第5篇論文。

    4.2 語料整理與標注

    語料整理包括刪除txt文件中論文題目、作者信息、摘要、關鍵詞、致謝、參考文獻等部分,僅保留正文;同時,刪除正文中的圖、表、圖表名稱以及單獨成行的公式,并在原位置用@代替,以保證上下文的銜接。

    清理完成后進行篇首元信息標注。標注內(nèi)容包括論文標題、作者姓名、作者國籍、出版年份、期刊名和出版社。其中,論文標題、期刊名和出版社均為相應全稱。若論文有多位作者,只提供2到3位作者姓名。中國學者子庫的作者國籍為2位編碼,CH代表Chinese。西方學者子庫的作者國籍為1位編碼,選取作者國籍的首字母,即A 代表American(美國)、B代表British(英國)、C代表Canadian(加拿大)、U代表Australian(澳大利亞)、N代表New Zealander(新西蘭)。出版年份為2位編碼,格式同文本命名中的年份。

    經(jīng)以上步驟得到Beijing CARE純文本語料庫。另外,使用CLAWS(C7碼集)對純文本語料進行POS詞性標注,得到Beijing CARE詞性賦碼語料庫。純文本語料庫易于使用者檢索和觀察節(jié)點項的共選信息,賦碼語料庫則便于準確無遺地檢索語言形式的總體數(shù)據(jù)。

    5.Beijing CARE語料庫的應用

    基于Beijing CARE語料庫數(shù)據(jù),北京航空航天大學語料庫語言學團隊開展了一系列學術話語研究,探討了中國學者和國際學術話語社團學術文本中的話語策略、局部功能與局部語法特征、意義方式、知識構建方式等,具體如下。

    學術話語策略指學術話語社團為構建知識采用的方略和手段,主要包括準確表述策略(accurate presentation strategy)、聲言責任策略(claim commitment strategy)、追求共識策略(consensus-seeking strategy)和介入策略(involvement strategy)。準確表述策略指準確有效地提出研究問題、描述研究方法、報道數(shù)據(jù)結果等。實現(xiàn)形式通常為精確的數(shù)值、圖表呈現(xiàn),詳盡的方法、過程描述等。然而,由于客觀世界存在不確定性,研究方法、研究者的認知水平等可能有一定局限,模糊表達也是該策略的重要體現(xiàn)。此外,學者在表述個人研究時應承擔相應觀點或聲言的責任,即是聲言責任策略。在解釋或討論結果部分,學者多使用委婉詞語,以減輕責任,規(guī)避潛在的風險。另外,學術知識的構建也需學者有效地表達立場與態(tài)度,以勸服讀者接受其研究并推銷成果。追求共識策略則是實現(xiàn)這一交際目的的重要手段。學者在文本中援引他人,評述文獻,試圖與讀者達成共識,進而結成聯(lián)盟。另一手段是介入策略。作者與讀者互動協(xié)商,或將讀者拉入意義構建過程,或引導讀者跟隨文章思路,使其接受觀點或結論。研究發(fā)現(xiàn),中國學者在準確表述策略與追求共識策略方面與國際話語社團無明顯差異。然而,他們較少使用聲言責任策略和介入策略。也就是說,中國學者不善于表達主觀評價與態(tài)度意義。

    局部功能指有限類別文本或局部語境下頻繁發(fā)生的話語事件或行為方式。學術文本的局部功能即為學術文本這一有限類別文本中的具體話語行為。如“定義”“引述”“推斷”“例舉”“結論”等。這些并非一般語言的普通功能,而是僅在學術論文等類別的文本中高頻出現(xiàn)。通過探索特征性的詞語手段可考察學者群體在局部功能方面的使用趨勢。例如,中國學者論文中多“報道結果”“表述效果”“時間定位”等局部功能,“解釋數(shù)據(jù)”“推理/結論”“援引他人”等功能則遠少于國際話語社團論文。這說明中國學者趨于采用整體綜合的話語行為,而較忽略對結果或發(fā)現(xiàn)的細微分析。

    局部語法是一條嶄新的語法描寫路徑。它不同于普通語言學的通用語法描寫,而是針對有限類別文本,聚焦于一個特定的意義或功能,對其語法結構與功能成分進行結構化描寫。如學術論文的“評價局部語法”涵蓋實現(xiàn)評價功能的、最頻繁使用的結構形式,以及“評價對象”“評價范疇”“評價者”“鏈接語”“對象行為”等功能成分。通過局部語法路徑下的語料庫數(shù)據(jù)分析,可以發(fā)現(xiàn)中國學者與國際話語社團的話語行為與意義方式差異。例如,中國學者評價局部語法型式的使用頻數(shù)明顯低于國際話語社團,“評價對象”等功能成分的使用也呈現(xiàn)一定差異。就“評價范疇”而言,國際話語社團較多評價命題或事件的“重要性”和“似然性”,中國學者則更多評價其“難易度”和“確定性”。本質上說,上述關于局部功能與局部語法的研究體現(xiàn)了不同學者群體的不同意義方式。語言使用差異實質上是話語意義、認識狀態(tài)的差異。

    跨學科對比分析是探究學術話語行為與意義方式的另一重要研究方法。學術文本的知識構建與學科認識論、學科文化密切相關。我們從Beijing CARE語料庫中選取物理學、計算機科學、歷史學和教育學四個學科4,以分別代表純理型硬學科、應用型硬學科、純理型軟學科和應用型軟學科四大學科群落,探索不同學科類別話語行為與意義方式的異同。從研究客體、知識發(fā)展方式、獲取途徑與判別標準來看,各學科群落呈現(xiàn)出對比性特征,如物理現(xiàn)象:社會現(xiàn)象、原子型:整體型、線性累積式:反復迭代式、穩(wěn)定型:易變型、普適型:個體型等。研究發(fā)現(xiàn),知識特征、認識論與學科文化是學術話語行為的底層制約。其中,硬、軟學科的規(guī)律性制約較明顯。如硬學科學者多注重精確、詳盡地表述數(shù)據(jù)與研究過程,軟學科學者則更傾向于論證和闡釋個人觀點。硬學科學者多評價研究方法的有效性和數(shù)據(jù)結果的重要性,以突出研究對相關知識領域的貢獻,軟學科學者則因知識的主觀性與不確定性而多評價命題的似然性。相比之下,純理學科和應用學科的規(guī)律性制約僅大體可見,并不明顯。這可能是因為兩個學科群落的劃分并非涇渭分明,且隨著學科的發(fā)展以及學科間的交叉與融合,語言使用也在不斷變化,話語行為和意義方式更加多樣雜合。

    6.結語

    本文介紹了Beijing CARE語料庫的基本信息及其建設與應用。Beijing CARE語料庫庫容規(guī)模大,學科覆蓋面廣,支持跨文化、跨學科等多層次、多維度的對比研究。同時,其純文本與詞性賦碼“雙版本”的設計也為使用者提供了檢索與觀察的便利。目前,基于Beijing CARE語料庫的學術話語研究已取得一定成果,今后可繼續(xù)探究學術文本語言使用的特征與規(guī)律。此外,Beijing CARE語料庫也為學術英語寫作與教學提供了資源和工具,可借助該庫開展數(shù)據(jù)驅動等方式的學習與教學。

    注 釋

    1.該項目于2018年結題,并獲優(yōu)秀等級。

    2.BAWE和BASE語料庫庫容分別為6,506,995和1,644,942形符(參見 https://www.coventry.ac.uk/research/research-directories/current-projects/2015/britishacademic-written-english-corpus-bawe/和https://warwick.ac.uk/fac/soc/al/research/collections/base),BNC學術子庫庫容為15,331,668形符。

    3.本庫語料的版權歸原出版社所有,僅供學術研究與教學使用,請勿用于任何商業(yè)用途。

    4.該研究使用的是Beijing CARE語料庫的早期版本。最終版本已刪除歷史學子庫。

    猜你喜歡
    語料語料庫學者
    學者介紹
    管子學刊(2022年2期)2022-05-10 04:13:10
    學者簡介
    學者介紹
    管子學刊(2022年1期)2022-02-17 13:29:10
    《語料庫翻譯文體學》評介
    把課文的優(yōu)美表達存進語料庫
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    學者介紹
    華語電影作為真實語料在翻譯教學中的應用
    基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    《苗防備覽》中的湘西語料
    屯留县| 合水县| 丘北县| 定陶县| 乌拉特中旗| 米泉市| 绵阳市| 海口市| 定兴县| 武鸣县| 开江县| 阜新| 措勤县| 呼玛县| 石林| 抚顺市| 西林县| 沙雅县| 余干县| 门头沟区| 白河县| 朝阳市| 奉化市| 外汇| 南雄市| 通辽市| 明光市| 尉氏县| 呼图壁县| 温宿县| 怀远县| 思茅市| 曲松县| 嘉祥县| 达州市| 焉耆| 习水县| 莱西市| 锡林郭勒盟| 贺兰县| 岱山县|