周建設(shè) 張凱 羅茵 娜仁圖雅 張躍 劉小力
提 要 近些年,語(yǔ)言智能評(píng)測(cè)技術(shù)取得了重要突破并得到應(yīng)用推廣,拓展了中國(guó)語(yǔ)言產(chǎn)業(yè)發(fā)展的新領(lǐng)域。本文基于大數(shù)據(jù)背景,分析語(yǔ)言評(píng)測(cè)技術(shù)發(fā)展及相關(guān)理論模型,結(jié)合2017年“英語(yǔ)百萬(wàn)同題英語(yǔ)寫作”數(shù)據(jù),對(duì)比分析用戶行為、效果提升等情況,印證評(píng)測(cè)技術(shù)的有效性和發(fā)展語(yǔ)言智能評(píng)測(cè)產(chǎn)業(yè)的重要性。
關(guān)鍵詞 英語(yǔ)作文評(píng)測(cè);評(píng)測(cè)技術(shù);語(yǔ)言智能;語(yǔ)言產(chǎn)業(yè);人工智能
Abstract In recent years, the technology for language intelligent evaluation has made a significant breakthrough and has thus opened up a new area in the development of Chinas language industry. The paper first reviewed the development of language testing technology and related theoretical models in the context of big data. Furthermore, utilizing the English database containing millions of topics, it conducted comparative analysis of user behavior and effect promotion, etc. and verified the validity of the evaluation technology and the significance of developing language intelligent industry.
Key words English Automated Essay Scoring; Automated Essay Testing Techniques; language intelligence; language industry;
artificial intelligence
一、引 言
人工智能是引領(lǐng)未來(lái)的戰(zhàn)略性技術(shù),世界主要發(fā)達(dá)國(guó)家把發(fā)展人工智能作為提升國(guó)家競(jìng)爭(zhēng)力、維護(hù)國(guó)家安全的重大戰(zhàn)略,加緊出臺(tái)規(guī)劃和政策,圍繞核心技術(shù)、頂尖人才、標(biāo)準(zhǔn)規(guī)范等強(qiáng)化部署,力圖在新一輪國(guó)際科技競(jìng)爭(zhēng)中掌握主導(dǎo)權(quán)。語(yǔ)言智能“是人工智能皇冠上的明珠,如果語(yǔ)言智能能實(shí)現(xiàn)突破,跟它同屬認(rèn)知智能的知識(shí)和推理就會(huì)得到
長(zhǎng)足的發(fā)展,就能推動(dòng)整個(gè)人工智能體系,有更多的場(chǎng)景可以落地”①。語(yǔ)言問(wèn)題是人工智能研究需集中攻關(guān)的一大屏障,語(yǔ)言智能基礎(chǔ)理論與關(guān)鍵技術(shù)研究的突破對(duì)于實(shí)施人工智能國(guó)家戰(zhàn)略具有重大意義。
(一)語(yǔ)言智能發(fā)展的必然性
作為專門術(shù)語(yǔ),“語(yǔ)言智能”是語(yǔ)言信息的智能化,是運(yùn)用計(jì)算機(jī)信息技術(shù)模仿人類的智能、分析和處理人類語(yǔ)言的科學(xué)(周建設(shè)等 2017)。
人類已經(jīng)進(jìn)入智力集成時(shí)代,人機(jī)交互必將成為常態(tài)。語(yǔ)言智能將大幅度代替人類自然語(yǔ)言,實(shí)時(shí)進(jìn)行人機(jī)交流。這是人類社會(huì)科技進(jìn)步的重大標(biāo)志,也是人類科技發(fā)展的必然結(jié)果。
中國(guó)語(yǔ)言智能概念的提出雖然不算早,但是實(shí)質(zhì)性的語(yǔ)言智能研究卻具有明顯優(yōu)勢(shì)。清華大學(xué)、北京大學(xué)、中國(guó)科學(xué)院、哈爾濱工業(yè)大學(xué)、北京理工大學(xué)、科大訊飛等科研院所和企業(yè)已經(jīng)取得了輝煌業(yè)績(jī),諸多項(xiàng)目處于世界領(lǐng)先水平。國(guó)家、行業(yè)和地方相繼建立了語(yǔ)言智能研究平臺(tái)。2015年,北京市將語(yǔ)言智能納入高精尖創(chuàng)新中心建設(shè);2016年,國(guó)家語(yǔ)委批準(zhǔn)建立了首都師范大學(xué)中國(guó)語(yǔ)言智能研究中心,中國(guó)人工智能學(xué)會(huì)批準(zhǔn)成立了語(yǔ)言智能專業(yè)委員會(huì),教育部批準(zhǔn)在首都師范大學(xué)設(shè)立語(yǔ)言智能二級(jí)學(xué)科博士點(diǎn);2017年,中國(guó)人工智能學(xué)會(huì)與中國(guó)語(yǔ)言智能研究中心召開了第四屆中國(guó)語(yǔ)言智能大會(huì),中國(guó)計(jì)算機(jī)學(xué)會(huì)與中文信息學(xué)會(huì)聯(lián)合召開第二屆語(yǔ)言與智能高峰論壇。這標(biāo)志著中國(guó)語(yǔ)言智能研究與學(xué)科建設(shè)具備了一定的基礎(chǔ)。
(二)大數(shù)據(jù)為語(yǔ)言智能評(píng)測(cè)創(chuàng)造條件
大數(shù)據(jù)時(shí)代給社會(huì)帶來(lái)三大變革:思維變革、商業(yè)變革、管理變革。各行業(yè)將大數(shù)據(jù)納入日常配置已成必然之勢(shì)。大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),且非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越成為數(shù)據(jù)的主要部分。IDC的調(diào)查報(bào)告顯示:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增
長(zhǎng)60%②。
大數(shù)據(jù)為語(yǔ)言智能化發(fā)展創(chuàng)造了前提條件,這是因?yàn)榇髷?shù)據(jù)具有三個(gè)重要特征。一是“基因”的存儲(chǔ)性。每個(gè)數(shù)據(jù)都是事物屬性的記錄??荚嚦煽?jī)存儲(chǔ)著知識(shí)或技能的“基因”等。二是規(guī)律的蘊(yùn)含性。當(dāng)數(shù)據(jù)積累到一定數(shù)量級(jí)后,其事物變化規(guī)律則可以從數(shù)據(jù)變化中顯示出來(lái)。長(zhǎng)期記錄一個(gè)人的語(yǔ)言數(shù)據(jù),可以按其聲音分貝發(fā)現(xiàn)其聲高與情感表達(dá)的關(guān)系。三是趨勢(shì)的預(yù)測(cè)性。大數(shù)據(jù)存儲(chǔ)的事物“基因”反映事物的變化規(guī)律。因此,根據(jù)基因變化規(guī)律,可以預(yù)測(cè)事物未來(lái)的發(fā)展趨勢(shì)。大數(shù)據(jù)的特性使語(yǔ)言智能評(píng)測(cè)得以成為現(xiàn)實(shí)(周建設(shè)等 2015)。
二、語(yǔ)言智能評(píng)測(cè)基礎(chǔ)理論
人工智能范疇內(nèi)語(yǔ)言智能術(shù)語(yǔ)的提出,跟研究者長(zhǎng)期關(guān)注人腦語(yǔ)言的運(yùn)行機(jī)制密切相關(guān)③。這一思想醞釀、術(shù)語(yǔ)提出與概念形成大致經(jīng)歷了三個(gè)階段:(1)語(yǔ)言來(lái)源認(rèn)識(shí)階段,探究語(yǔ)言與思維的關(guān)系,從思維活動(dòng)的基本元素入手,認(rèn)識(shí)語(yǔ)言組織單位產(chǎn)生的根源及其在思維活動(dòng)中的依存地位;(2)語(yǔ)言結(jié)構(gòu)認(rèn)知階段,探索漢語(yǔ)詞項(xiàng)與言語(yǔ)生成的基本規(guī)律,構(gòu)擬漢語(yǔ)詞項(xiàng)生成模型與語(yǔ)句生成模型,揭示漢語(yǔ)表達(dá)結(jié)構(gòu)的組織原理;(3)語(yǔ)言智能實(shí)現(xiàn)階段,探討機(jī)器表達(dá)漢語(yǔ)的智能模型、全信息評(píng)測(cè)模型和情感分析四維模型,實(shí)現(xiàn)從言語(yǔ)智能生成到文章智能評(píng)測(cè)的計(jì)算機(jī)全自動(dòng)操作。
(一)語(yǔ)言智能評(píng)測(cè)研究現(xiàn)狀
語(yǔ)言智能評(píng)測(cè)指利用計(jì)算機(jī)評(píng)測(cè)文章(作文)。目前的基本思路是通過(guò)各種自然語(yǔ)言處理技術(shù),從待評(píng)測(cè)文章中提取文本特征,讓機(jī)器對(duì)文本特征與分?jǐn)?shù)之間的關(guān)系進(jìn)行學(xué)習(xí),通過(guò)所得文本特征與分?jǐn)?shù)之間的關(guān)系進(jìn)行自動(dòng)評(píng)分。這種方式采用一個(gè)整體回歸公式得到最終的評(píng)分結(jié)果。這樣得到的評(píng)分結(jié)果,往往存在與人工評(píng)分結(jié)果擬合度不高的問(wèn)題,要給出詳細(xì)的批改建議也很不容易。
語(yǔ)句相似度是評(píng)測(cè)的重點(diǎn),它研究如何制定語(yǔ)句之間相似度的衡量機(jī)制,根據(jù)不同的分類原則,可以按匹配單元分類、按分析深度分類(穗志方 1998),或者按動(dòng)態(tài)規(guī)劃的相似度計(jì)算方法分類(高思丹、袁春風(fēng) 2004)。計(jì)算相似度時(shí),基本上可分為相似程度計(jì)算和距離程度計(jì)算兩類。代表性的方法有:“切塊 + 匹配 + 重組”方法(Nirenburg et al. 1993)和同時(shí)依據(jù)句子的表層結(jié)構(gòu)和內(nèi)容計(jì)算相似度的方法(Lambros et al. 1994)。
(二)全信息語(yǔ)言智能評(píng)測(cè)模型
全信息語(yǔ)言智能評(píng)測(cè)模型基于文本語(yǔ)義離散度表示和多知識(shí)融合方法,構(gòu)建包含詞匯、句法、語(yǔ)義、篇章等多維度的全信息語(yǔ)言評(píng)測(cè)模型,實(shí)現(xiàn)詞匯級(jí)、句子級(jí)、段落級(jí)和篇章級(jí)等不同粒度的點(diǎn)評(píng)、建議和綜合評(píng)分,解決機(jī)器評(píng)測(cè)與人工評(píng)測(cè)擬合度不高的難題。
該模型首先對(duì)待評(píng)作文進(jìn)行詞匯分析、句子分析、篇章結(jié)構(gòu)分析和內(nèi)容分析,得到關(guān)于詞匯、句子、篇章結(jié)構(gòu)和內(nèi)容的子維度。每個(gè)維度與作文的最終評(píng)分結(jié)果具有線性相關(guān)性、單調(diào)性、獨(dú)立性、牽制性和平衡性。然后根據(jù)每一個(gè)維度,對(duì)待評(píng)分作文進(jìn)行評(píng)分計(jì)算,得到多個(gè)評(píng)分結(jié)果。接著對(duì)多個(gè)評(píng)分結(jié)果進(jìn)行加權(quán)處理,獲得待評(píng)分作文的最終評(píng)分結(jié)果。從每一個(gè)句子中提取語(yǔ)言點(diǎn),將這些語(yǔ)言點(diǎn)與語(yǔ)料庫(kù)中的語(yǔ)言點(diǎn)進(jìn)行匹配,給出針對(duì)句子中該語(yǔ)言點(diǎn)的點(diǎn)評(píng),根據(jù)多個(gè)句子的點(diǎn)評(píng)給出所屬段落的點(diǎn)評(píng),根據(jù)多個(gè)段落的點(diǎn)評(píng)給出整篇作文的點(diǎn)評(píng)。其中,語(yǔ)言點(diǎn)為作文中的一些相對(duì)穩(wěn)定的元素,如搭配、詞塊、句型模式等。通過(guò)這些相對(duì)穩(wěn)定的元素歸納出錯(cuò)誤語(yǔ)言點(diǎn)的基本類型,如單詞誤用、詞組模塊誤用、搭配不當(dāng)、固定搭配模式誤用等。語(yǔ)料庫(kù)中包括了所有文章的語(yǔ)言點(diǎn)和句段庫(kù),語(yǔ)料庫(kù)可以實(shí)時(shí)持續(xù)更新。當(dāng)給出最終評(píng)分結(jié)果時(shí),給出的相關(guān)點(diǎn)評(píng)(包括句評(píng)、段評(píng)和總評(píng))也實(shí)時(shí)持續(xù)更新,學(xué)習(xí)者可據(jù)此點(diǎn)評(píng)提高語(yǔ)言能力。
(三)主題聚合度計(jì)算理論
智能評(píng)測(cè)理論所說(shuō)的主題,主要是從外延意義上界定的。主題就是篇章指稱的對(duì)象。篇章涉及的對(duì)象有具體對(duì)象,也有抽象對(duì)象。具體對(duì)象,可以是個(gè)體對(duì)象,也可以是個(gè)體對(duì)象組成的類(集合)。當(dāng)一篇文章僅僅涉及一個(gè)對(duì)象時(shí),這個(gè)對(duì)象就是文章的主題;當(dāng)文章涉及一類對(duì)象時(shí),這個(gè)類就構(gòu)成文章論域(domain),這個(gè)論域?qū)嶋H上就是該類中諸多個(gè)體的上位概念,這個(gè)類、論域或上位概念,就是該篇文章的主題。抽象對(duì)象是指事物的屬性,包括事物的性質(zhì)、事物之間的關(guān)系。思想是抽象概念,可以成為篇章的對(duì)象,即篇章的主題。愛好是抽象概念,表示事物之間的關(guān)系,也可以成為篇章的對(duì)象,即篇章的主題。
主題聚合度理論是通過(guò)設(shè)計(jì)一種算法來(lái)綜合評(píng)價(jià)行文與文章主題之間關(guān)聯(lián)程度的理論。主題聚合度計(jì)算是北京語(yǔ)言智能協(xié)同研究院研究人員于2015年取得的機(jī)器評(píng)測(cè)作文的一項(xiàng)重大理論突破和關(guān)鍵技術(shù)突破。經(jīng)過(guò)60億字規(guī)模語(yǔ)料的檢測(cè),證實(shí)評(píng)測(cè)效果顯著,獲得國(guó)內(nèi)外同行高度評(píng)價(jià)。目前,篇章主題聚合度計(jì)算作為中國(guó)語(yǔ)言智能研究中心語(yǔ)言智能領(lǐng)域的一項(xiàng)核心產(chǎn)品已經(jīng)廣泛用于作文評(píng)測(cè)。
三、英語(yǔ)作文智能評(píng)測(cè)系統(tǒng)發(fā)展及規(guī)模
自20世紀(jì)60年代以來(lái),國(guó)外已開發(fā)出多個(gè)作文自動(dòng)評(píng)分系統(tǒng),并應(yīng)用于 GRE、GMAT 等大型考試中(Dikli 2006;Quellmalz & Pellegrino 2009;Williamson 2009)。國(guó)內(nèi),梁茂成(2011)和北京語(yǔ)言智能協(xié)同研究院分別研制了適合中國(guó)英語(yǔ)學(xué)習(xí)者的作文自動(dòng)評(píng)分系統(tǒng)并取得了良好的效果,其中首都師范大學(xué)主導(dǎo)研發(fā)的英語(yǔ)作文批改系統(tǒng)得到廣泛應(yīng)用。在翻譯領(lǐng)域,一些研究機(jī)構(gòu)也對(duì)學(xué)生漢譯英的自動(dòng)評(píng)分進(jìn)行了有益嘗試(王金銓、文秋芳 2009;王金銓 2010)。目前,針對(duì)英語(yǔ)作文的自動(dòng)評(píng)分研究已有一定的積累,相關(guān)產(chǎn)品也日趨成熟。
(一)同類型評(píng)測(cè)產(chǎn)品對(duì)比分析
歷史上第一個(gè)作文自動(dòng)評(píng)分系統(tǒng)是1966年研制的PEG(Page 2003)。20世紀(jì)90年代以后,IEA、E-rater、IntelliMetric、MY Access等系統(tǒng)相繼出現(xiàn)(Burstein 2003)。本文在江進(jìn)林(2013)研究的基礎(chǔ)上,進(jìn)一步豐富各類系統(tǒng)的特點(diǎn)形成表1,以對(duì)比并反映各類型自動(dòng)評(píng)測(cè)系統(tǒng)的相關(guān)情況?,F(xiàn)有作文自動(dòng)評(píng)分系統(tǒng)在評(píng)分步驟、主要技術(shù)和變量挖掘方面對(duì)機(jī)器自動(dòng)評(píng)分研究具有重要啟示作用。
(二)英語(yǔ)作文智能評(píng)測(cè)系統(tǒng)助力語(yǔ)言產(chǎn)業(yè)發(fā)展
促進(jìn)語(yǔ)言事業(yè)的發(fā)展,包括促進(jìn)語(yǔ)言產(chǎn)業(yè)的發(fā)展(賀宏志 2012)。廣州大學(xué)屈哨兵教授提出“語(yǔ)言產(chǎn)業(yè)、職業(yè)、行業(yè)、基業(yè):語(yǔ)言服務(wù)四業(yè)并論”。2010年,語(yǔ)言智能評(píng)測(cè)系統(tǒng)批改網(wǎng)上線試用,實(shí)現(xiàn)了英語(yǔ)作文在線快速批改。目前,批改網(wǎng)日均批改作文30余萬(wàn)篇,已經(jīng)積累形成了60億例句的地道英語(yǔ)大數(shù)據(jù)、3.42億篇中國(guó)學(xué)生作文語(yǔ)料庫(kù),并且定期更新美國(guó)英語(yǔ)作文、SCI摘要等17種英文類型庫(kù),形成了國(guó)內(nèi)最大的英語(yǔ)學(xué)習(xí)語(yǔ)料庫(kù),為中國(guó)語(yǔ)言產(chǎn)業(yè)拓展了新領(lǐng)域。
作文批改由智能化向教學(xué)過(guò)程的滲透,也觸動(dòng)了傳統(tǒng)教學(xué)模式,不少名校競(jìng)相與批改網(wǎng)合作,探討信息化時(shí)代教學(xué)模式的改革創(chuàng)新。2016年3月,中國(guó)人民大學(xué)附中主動(dòng)聯(lián)系批改網(wǎng),與其共同開展英語(yǔ)寫作創(chuàng)新教學(xué)活動(dòng);2017年3月,湖南省長(zhǎng)沙市教育科學(xué)研究院、長(zhǎng)郡中學(xué)主動(dòng)邀請(qǐng)批改網(wǎng)聯(lián)合舉辦長(zhǎng)沙市普通高中課堂教學(xué)改革優(yōu)秀課例展示研討活動(dòng)。此類“智能課堂”活動(dòng)在全國(guó)各地相繼展開,受到師生和教育主管部門的廣泛好評(píng)。
以2016年1月為例。北京市朝陽(yáng)區(qū)有52所中學(xué)使用批改網(wǎng),當(dāng)月教師布置作文題713個(gè),學(xué)生提交作文22 460篇,累計(jì)修改160 599次,平均每人每篇修改7.1次,63%的學(xué)生至少提交了2次作文,修改5次以上的學(xué)生約占25%,1.2%的學(xué)生修改次數(shù)超過(guò)50次。據(jù)統(tǒng)計(jì),使用批改網(wǎng)的朝陽(yáng)區(qū)農(nóng)村薄弱校,中考英語(yǔ)作文均分超過(guò)了朝陽(yáng)區(qū)均分。
(三)產(chǎn)業(yè)規(guī)模及效益分析
目前,英語(yǔ)批改網(wǎng)已服務(wù)2000多所高校、4000多所中小學(xué),其中清華大學(xué)、北京大學(xué)、南京大學(xué)等多數(shù)985高校已經(jīng)使用該服務(wù)。系統(tǒng)現(xiàn)已服務(wù)教師逾15萬(wàn)人、學(xué)生逾1700萬(wàn)人,基本覆蓋國(guó)內(nèi)英語(yǔ)作文智能評(píng)測(cè)市場(chǎng)。作文批改主要是公益服務(wù),若以批改作文的普通標(biāo)準(zhǔn)價(jià)格20元/篇計(jì)算,其惠民經(jīng)濟(jì)效益逾68億元。
中國(guó)港澳臺(tái)地區(qū)和日本、韓國(guó)、新加坡等國(guó)家已有部分大學(xué)付費(fèi)使用批改網(wǎng),顯示出國(guó)際市場(chǎng)拓展優(yōu)勢(shì)。計(jì)算機(jī)輔助的在線學(xué)習(xí)模式,打破了傳統(tǒng)課堂模式,實(shí)現(xiàn)隨處是課堂、隨時(shí)可學(xué)習(xí)。語(yǔ)言智能評(píng)測(cè)可快速找出學(xué)生薄弱點(diǎn),提高學(xué)習(xí)效率。清華大學(xué)給出如下評(píng)價(jià):(1)批改網(wǎng)的“形成性評(píng)估”模式可以提高學(xué)生自主學(xué)習(xí)能力;(2)輔助英語(yǔ)教學(xué),提高教師工作效率,充分體現(xiàn)教師價(jià)值;(3)傳統(tǒng)教育與現(xiàn)代技術(shù)結(jié)合,創(chuàng)新教學(xué)形式。南京大學(xué)的反饋報(bào)告說(shuō):近年來(lái)國(guó)外的自動(dòng)評(píng)分系統(tǒng)取得了實(shí)質(zhì)性的進(jìn)步,比如美國(guó)ETS的E-rater系統(tǒng)就應(yīng)用于GMAT等考試。但是國(guó)外的系統(tǒng)對(duì)于中國(guó)學(xué)生來(lái)說(shuō)有兩個(gè)缺點(diǎn):(1)主要側(cè)重于評(píng)分,沒(méi)有具體語(yǔ)言和內(nèi)容上的反饋;(2)主要針對(duì)英語(yǔ)本族語(yǔ)學(xué)習(xí)者,對(duì)外語(yǔ)學(xué)習(xí)者的寫作特點(diǎn)照顧不周。而批改網(wǎng)考慮并切實(shí)解決了上述難題。
四、大數(shù)據(jù)的產(chǎn)業(yè)數(shù)據(jù)挖掘
2014年開始的“百萬(wàn)同題英文寫作”活動(dòng),至今累計(jì)吸引全國(guó)9000多所學(xué)校,學(xué)段覆蓋大學(xué)、高職、高中、初中和小學(xué)高年級(jí),師生參與量累計(jì)超過(guò)450萬(wàn)人次,為中國(guó)英語(yǔ)教學(xué)與研究提供了大量真實(shí)語(yǔ)料數(shù)據(jù)①。
(一)用戶自主學(xué)習(xí)行為分析
在2017年“百萬(wàn)同題英文寫作”活動(dòng)中,全國(guó)32個(gè)省市地區(qū)提交了1 408 626篇作文,參與人數(shù)前三名的地區(qū)分別為四川省(140 840人)、廣東省(112 455人)和山東?。?07 301人)。不同學(xué)段的參與人數(shù)中,本科學(xué)生最多,占比達(dá)到89.61%。作文自動(dòng)評(píng)測(cè)技術(shù)不僅極大解放了教師的人工評(píng)閱壓力,也極大激發(fā)了學(xué)生自我學(xué)習(xí)的內(nèi)驅(qū)力。2017年的同題作文寫作,從數(shù)據(jù)反饋可以看出學(xué)生的自主學(xué)習(xí)行為改善主要表現(xiàn)在以下幾個(gè)方面:
1.修改行為
學(xué)生共提交作文1 408 626篇,累計(jì)修改提交作文11 222 309次,平均每人每篇作文修改7.97次,約75%的學(xué)生都對(duì)自己的文章進(jìn)行了多次修正,超過(guò)10%的學(xué)生修改作文達(dá)20次以上(詳見圖1),學(xué)生整體修改表現(xiàn)良好。
圖1和圖2反映了各類院校作文修改次數(shù)的分布情況。其中,985和211院校學(xué)生的自主修改比例最高,80.2%的學(xué)生都在寫作過(guò)程中進(jìn)行了自主修改;高職學(xué)生在未修改及修改20次以上區(qū)間內(nèi)占比較高,修改次數(shù)分布相對(duì)分散;而高中學(xué)生修改10次以上的占比在各類院校中最小,學(xué)生修改次數(shù)普遍相對(duì)集中。整體上來(lái)看,約75%的學(xué)生都對(duì)自己的作文進(jìn)行了自主學(xué)習(xí)及修正。
2. 分?jǐn)?shù)變化
從圖3我們可以看到學(xué)生作文在修改過(guò)程中有較為顯著的分?jǐn)?shù)提升。通過(guò)平均每人7.97次的修改,學(xué)生作文分?jǐn)?shù)在整體上由初版作文的74.59分上升到終版作文的79.07分,分?jǐn)?shù)提升了4.48分。在各類院校中,985及211院校學(xué)生在修改中分?jǐn)?shù)提升幅度最大,達(dá)到4.79分;其他各類院校也完成了有效的自主學(xué)習(xí),分?jǐn)?shù)有所提升。
3. 錯(cuò)誤修正
圖4顯示各類院校學(xué)生作文語(yǔ)法錯(cuò)誤修正率情況(不計(jì)書寫錯(cuò)誤)。學(xué)生累計(jì)修改錯(cuò)誤超過(guò)40%,各類院校作文錯(cuò)誤均有20%至60%的修正,其中985和211院校修正率最高,達(dá)到52.76%。
4.修改過(guò)程
這里從五個(gè)類型的學(xué)校各抽取10 000篇作文為樣本,對(duì)作文的第一版、第二版、中間版本、倒數(shù)第二版以及最終版進(jìn)行分析。通過(guò)版本間的數(shù)據(jù)變化,從中可以看出學(xué)生自主修改過(guò)程中的一些特點(diǎn)。
從表2可知,學(xué)生的修正大多集中在前半段修改過(guò)程中,特別是拼寫類錯(cuò)誤,前半段的修正率均高出后半段15%以上。部分院校對(duì)成分缺失、詞性誤用、搭配錯(cuò)誤的修正更多集中于修改過(guò)程的后半部分,大概與這幾類錯(cuò)誤修改難度相對(duì)較大有關(guān)系。985和211院校以及高中學(xué)生對(duì)于錯(cuò)誤的修正較明顯集中于前半段,語(yǔ)法自我修正的進(jìn)度較快,高職院校及初中對(duì)部分高頻錯(cuò)誤的修正相對(duì)集中于后半段,語(yǔ)法自我修正的進(jìn)度相對(duì)慢一些。綜上所述,可以得知,學(xué)生自學(xué)過(guò)程的前半段修改更為高效。學(xué)生修改過(guò)程前期主要進(jìn)行基礎(chǔ)語(yǔ)法錯(cuò)誤修正;修改過(guò)程后期,學(xué)生會(huì)對(duì)修改難度相對(duì)較大的句子結(jié)構(gòu)類錯(cuò)誤給予更多關(guān)注和修正;對(duì)詞匯與句型的調(diào)整會(huì)在整個(gè)自學(xué)過(guò)程中循序漸進(jìn)地進(jìn)行。
(二)語(yǔ)言寫作技能提升分析
自主修改過(guò)程中分?jǐn)?shù)出現(xiàn)一定提升的作文可稱有效修改作文。對(duì)有效修改作文進(jìn)行分析,有助于了解學(xué)生在英語(yǔ)人機(jī)互動(dòng)寫作中有效修改行為的特點(diǎn)。這里選取的數(shù)據(jù)樣本為各類院校隨機(jī)抽取的10 000篇作文中提升分?jǐn)?shù)達(dá)到5分以上的作文。
完成一篇作文需要30分鐘,修改一篇作文需要20分鐘,參與活動(dòng)的學(xué)生,平均一篇作文花了近3個(gè)小時(shí),作文分?jǐn)?shù)提升了約4.5分。
圖5和表3表明,各類院校學(xué)生有效修改作文的修改次數(shù)基本在20次以上,分?jǐn)?shù)提升基本在10分左右,修改行為較為頻繁且效果顯著。相較于整體作文的普遍修改情況,有效修改作文的初版作文分?jǐn)?shù)普遍較低。這說(shuō)明,基礎(chǔ)較差的學(xué)生也能夠通過(guò)人機(jī)互動(dòng)在自主學(xué)習(xí)過(guò)程中實(shí)現(xiàn)自我提升。從修改效果上看,中學(xué)生及高職學(xué)生有效修改效果與整體修改效果的差異較大,說(shuō)明該學(xué)段的學(xué)生通過(guò)人機(jī)互動(dòng)學(xué)習(xí),自我提升的空間更大。
五、未來(lái)發(fā)展趨勢(shì)及影響
(一)語(yǔ)言智能評(píng)測(cè)產(chǎn)業(yè)的未來(lái)發(fā)展趨勢(shì)
語(yǔ)言智能評(píng)測(cè)是教育產(chǎn)業(yè)對(duì)人工智能技術(shù)的必然要求。該評(píng)測(cè)領(lǐng)域未來(lái)發(fā)展將呈現(xiàn)如下趨勢(shì):
1. 應(yīng)用普及化
語(yǔ)言智能評(píng)測(cè)將成為一種常規(guī)的語(yǔ)言評(píng)測(cè)技術(shù)輔助手段并被應(yīng)用和普及。一方面,使用人群不再局限于在校全日制學(xué)生,也可以應(yīng)用到繼續(xù)教育領(lǐng)域,直至終身自我學(xué)習(xí);另一方面,評(píng)測(cè)內(nèi)容不再僅限于學(xué)校教學(xué)中的命題作文,還將應(yīng)用于所有篇章語(yǔ)言評(píng)測(cè)中。
2. 人機(jī)擬合同質(zhì)化
目前,精度最高的英語(yǔ)智能評(píng)測(cè)(批改網(wǎng))的人機(jī)擬合度超過(guò)90%,隨著技術(shù)進(jìn)步,擬合度將進(jìn)一步提高,甚至達(dá)到與人工評(píng)閱的準(zhǔn)確度基本一致。
3. 語(yǔ)種多樣化
國(guó)內(nèi)語(yǔ)言智能評(píng)測(cè)率先在英語(yǔ)測(cè)試中得到應(yīng)用并且已經(jīng)商業(yè)化,下一步將攻破漢語(yǔ)作為第二語(yǔ)言,甚至漢語(yǔ)為母語(yǔ)的評(píng)測(cè),以及國(guó)家重點(diǎn)戰(zhàn)略部署需要的其他語(yǔ)言,比如日語(yǔ)、法語(yǔ)以及“一帶一路”沿線國(guó)家的語(yǔ)言評(píng)測(cè)等。
4. 產(chǎn)業(yè)國(guó)際化
語(yǔ)言智能評(píng)測(cè)技術(shù)不僅僅服務(wù)于國(guó)內(nèi)需要,也可以進(jìn)一步服務(wù)于國(guó)際需要。目前批改網(wǎng)已經(jīng)在新加坡、馬來(lái)西亞、中國(guó)臺(tái)灣等國(guó)家和地區(qū)初步投放使用,國(guó)際合作有著更廣闊的空間。
(二)語(yǔ)言智能評(píng)測(cè)系統(tǒng)對(duì)教育領(lǐng)域的重要影響
語(yǔ)言智能評(píng)測(cè)系統(tǒng)以其評(píng)測(cè)擬合度高、反饋速度快且教育成本低等優(yōu)勢(shì)在母語(yǔ)學(xué)習(xí)和二語(yǔ)學(xué)習(xí)過(guò)程中對(duì)語(yǔ)言技能訓(xùn)練和語(yǔ)言能力提升起到重要作用,因而必然有廣闊的應(yīng)用前景。作為教育輔助技術(shù)手段,智能評(píng)測(cè)順應(yīng)時(shí)代要求,滿足省力、快速和精準(zhǔn)評(píng)測(cè)語(yǔ)言的需要,從而推動(dòng)教學(xué)內(nèi)容、教學(xué)方法、學(xué)習(xí)方法以及教育研究等一系列教育改革的深入。以“批改網(wǎng)”為關(guān)鍵詞搜索,2012年有6篇論文,到2017年7月已經(jīng)有201篇相關(guān)文獻(xiàn),遞增趨勢(shì)超乎想象。語(yǔ)言智能測(cè)評(píng)通過(guò)信息技術(shù)與教學(xué)服務(wù)、教學(xué)管理的融合,使優(yōu)質(zhì)教學(xué)資源和教師資源得到系統(tǒng)整合和深度開發(fā),促使教育質(zhì)量的最大提升,實(shí)現(xiàn)優(yōu)質(zhì)教育的均衡發(fā)展。
參考文獻(xiàn)
高思丹 袁春風(fēng) 2004 《語(yǔ)句相似度計(jì)算在主觀題自動(dòng)批改技術(shù)中的初步應(yīng)用》,《計(jì)算機(jī)工程與應(yīng)用》第14期。
賀宏志 2012 《發(fā)展語(yǔ)言產(chǎn)業(yè),創(chuàng)造語(yǔ)言紅利——語(yǔ)言產(chǎn)業(yè)研究綜述》,《語(yǔ)言文字應(yīng)用》第3期。
江進(jìn)林 2013 《近五十年來(lái)自動(dòng)評(píng)分研究綜述——兼論中國(guó)學(xué)生英譯漢機(jī)器評(píng)分系統(tǒng)的新探索》,《現(xiàn)代教育技術(shù)》第6期。
梁茂成 2011 《中國(guó)學(xué)生英語(yǔ)作文自動(dòng)評(píng)分模型的構(gòu)建》,北京:外語(yǔ)教學(xué)與研究出版社。
穗志方 1998 《語(yǔ)句相似度研究中的骨架依存分析法及應(yīng)用》,北京大學(xué)博士學(xué)位論文。
王金銓 2010 《中國(guó)學(xué)生漢譯英機(jī)助評(píng)分模型的研究與構(gòu)建》,北京:外語(yǔ)教學(xué)與研究出版社。
王金銓 文秋芳 2009 《中國(guó)學(xué)生大規(guī)模漢譯英測(cè)試機(jī)助評(píng)分模型的研究與構(gòu)建》,《現(xiàn)代外語(yǔ)》第4期。
周建設(shè) 呂學(xué)強(qiáng) 史金生 張 凱 2017 《語(yǔ)言智能研究漸成熱點(diǎn)2016年取得矚目成就》,《中國(guó)社會(huì)科學(xué)報(bào)》2月7日。
周建設(shè) 彭 琰 張 躍 2015 《基于大數(shù)據(jù)的漢語(yǔ)表達(dá)智能模型及其理論基礎(chǔ)》,《新華文摘》第1期。
Burstein, Jill. 2003. The E-rater Scoring Engine: Automated Essay Scoring with Natural Language Processing. In Mark D. Shermis and Jill Burstein (eds.), Automated Essay Scoring: A Cross-Disciplinary Perspective. London: Lawrence Erlbaum Associates Publishers.
Dikli, Semire. 2006. An Overview of Automated Scoring of
Essays. Journal of Technology, Learning, and Assessment 5 (1), 1-36.
Lambros, Cranias, Harris Papageorgiou, and Stelios Piperidis. 1994. A Matching Technique in Example-Based Machine Translation. In Proceedings of the Fifteenth International Conference on Computational Linguistics, 100-104.
Nirenburg, Sergei, Constantine Domashnev, and Dean J. Grannes. 1993. Two Approaches to Matching in Example-
Based Machine Translation. In Proceedings of the Fifth
International Conference on Theoretical and Methodological in Machine Translation of Natural Languages, 47-57.
Page, E. B. 2003 Automated Essay Scoring: A Cross-Dis?ciplinary Perspective. New Jersey: Lawrence Erlbaum Associates.
Quellmalz, Edys S. and James W. Pellegrino. 2009. Technology and Testing. Science 323, 75-79.
Williamson, David M. 2009. A Framework for Implementing Automated Scoring. Paper presented at the Annual Meeting of the American Educational Research Association and the National Council on Measurement in Education. San Diego, 13-17 Apr. 2009.
責(zé)任編輯:戴 燃