• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    人工智能輔助能力測量:寫作自動(dòng)化評分研究的核心問題

    2021-08-23 02:05:04楊麗萍辛濤
    關(guān)鍵詞:評估模型

    楊麗萍 辛濤

    摘要:寫作自動(dòng)化評分是目前智慧教育方興未艾的研究領(lǐng)域,為緩解人工作文評分中存在的經(jīng)濟(jì)與時(shí)間成本等巨大壓力提供了更加量化、及時(shí)和穩(wěn)健的方案。然而,當(dāng)前寫作自動(dòng)化評分模型大多是以特征值作為預(yù)測變量,擬合人工評分的分?jǐn)?shù)預(yù)測模型。為了使寫作自動(dòng)化評分與提高學(xué)生寫作能力的最終目標(biāo)相匹配,寫作自動(dòng)化評分體系的建構(gòu)需從能力測量視角出發(fā),厘清測量范疇,突破寫作自動(dòng)化評分向能力測量轉(zhuǎn)向的技術(shù)瓶頸。其中,需要解決的核心科學(xué)問題包括:(1)如何以寫作評價(jià)標(biāo)準(zhǔn)為依據(jù),建立具備解釋性的特征體系,解決自動(dòng)化評分與評價(jià)標(biāo)準(zhǔn)脫鉤的問題;(2)如何突破擬合人工評分的局限,從分?jǐn)?shù)預(yù)測模型拓展到能力測量模型,探索寫作各能力維度的評估模型;(3)如何在實(shí)際應(yīng)用中,在保證評分準(zhǔn)確性的基礎(chǔ)上,系統(tǒng)化論證寫作自動(dòng)化評分的信度與效度,強(qiáng)調(diào)跨子群體的公平性。為探索寫作自動(dòng)化評分的有效建構(gòu)與使用的合理路徑,今后的研究可以從自動(dòng)化評分與人工評分的結(jié)合應(yīng)用、寫作自動(dòng)化評分的穩(wěn)定性和泛化性的檢驗(yàn)、寫作能力發(fā)展的持續(xù)性以及測驗(yàn)成績的可比性等方面推進(jìn)。

    關(guān)鍵詞:寫作自動(dòng)化評分;能力測量;特征體系;評估模型;信度與效度

    中圖分類號:G434? ?文獻(xiàn)標(biāo)識碼:A? ? 文章編號:1009-5195(2021)04-0051-12? doi10.3969/j.issn.1009-5195.2021.04.006

    基金項(xiàng)目:國家自然科學(xué)基金聯(lián)合基金重點(diǎn)支持項(xiàng)目“基于‘天河二號超級計(jì)算機(jī)的教育系統(tǒng)化監(jiān)控評估、智能決策仿真與應(yīng)用研究”(U1911201);國家自然科學(xué)基金面上項(xiàng)目“中文寫作能力及其發(fā)展的自動(dòng)化診斷研究”(32071093)。

    作者簡介:楊麗萍,博士后,北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心(北京 100875);辛濤(通訊作者),博士,教授,博士生導(dǎo)師,北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心(北京 100875)。

    一、引言

    寫作是運(yùn)用書面語言文字進(jìn)行表達(dá)和交流思想感情的重要方式,是一種具有高度綜合性和創(chuàng)造性的言語能力。作文是評估學(xué)生寫作能力的重要載體。寫作自動(dòng)化評分(Automated Essay Scoring,AES )指采用計(jì)算機(jī)程序?qū)ψ魑倪M(jìn)行智能評分,最初目的是緩解人工評分的壓力。Page教授團(tuán)隊(duì)于上世紀(jì)60年代開發(fā)了第一個(gè)寫作自動(dòng)化評分系統(tǒng)PEG(Project Essay Grade)(Page,1966)。20世紀(jì)90年代以后,IEA(Intelligent Essay Assessor) (Landauer et al.,1998)、IntelliMetric(Elliot,2001)等寫作自動(dòng)化評分系統(tǒng)相繼出現(xiàn),并應(yīng)用于各類大型考試中。例如,美國教育考試服務(wù)中心(Educational Testing Service,ETS)開發(fā)的電子評分員(Electronic Essay Rater,簡稱e-rater) (Burstein et al.,1998)被用于美國大學(xué)入學(xué)考試(American College Testing, ACT)、研究生入學(xué)考試 (Graduate Record Examination, GRE)、學(xué)術(shù)能力評估測試(Scholastic Assessment Test, SAT)、國際交流英語考試(Test of English for International Communication, TOEIC)、培生學(xué)術(shù)英語考試 (Pearson Test of English,PTE)、面向母語非英語者的英語能力考試(Test of English as a Foreign Language,TOEFL)和經(jīng)企管理研究生入學(xué)考試(Graduate Management Admissions Test,GMAT) 等。在國內(nèi),梁茂成等(2007) 開發(fā)了面向英語二語學(xué)習(xí)者的作文評分系統(tǒng);彭恒利(2019)基于哈爾濱工業(yè)大學(xué)劉挺教授團(tuán)隊(duì)對中文寫作自動(dòng)化評分關(guān)鍵技術(shù)的研究,對“中國少數(shù)民族漢語水平等級考試”和“普通高等學(xué)校招生全國統(tǒng)一考試”的作文進(jìn)行了寫作自動(dòng)化評分與人工評分的對比研究。此外,一些寫作自動(dòng)化評分系統(tǒng),例如,MY Access!TM(Elliot et al.,2004)、批改網(wǎng)(石曉玲,2012)等也被應(yīng)用于低風(fēng)險(xiǎn)測驗(yàn)和課堂學(xué)習(xí)過程中,最終目標(biāo)是幫助學(xué)生提高寫作能力(Shermis et al., 2013)。

    盡管人工智能與信息技術(shù)在寫作評分中的積極作用得到了廣泛認(rèn)可,但在實(shí)踐中,尤其是在高利害考試中迫于自動(dòng)化評分解釋性與有效性備受質(zhì)疑,關(guān)于自動(dòng)化評分體系測量的實(shí)質(zhì)與合理性愈加成為學(xué)界關(guān)注的話題(Deane,2013; Attali,2015;Mayfield et al.,2020)。消除質(zhì)疑首先要回答的問題是:寫作自動(dòng)化評分究竟測量的是什么?雖然到目前為止學(xué)界就該問題的答案并未能達(dá)成共識,但是對AES的測量范疇,即構(gòu)念效度的評估是不可忽視的(Rupp,2018)。一方面,雖然有研究者對目前AES的特征與寫作構(gòu)念之間的關(guān)系進(jìn)行了歸納(Chen et al., 2018),但囿于各學(xué)科研究的價(jià)值取向差異,目前AES的建構(gòu)往往以取得較高的分?jǐn)?shù)預(yù)測準(zhǔn)確率為原則,或直接將寫作評價(jià)轉(zhuǎn)化為文本分類任務(wù),難以清晰地反映作文評價(jià)標(biāo)準(zhǔn)與特征體系之間的關(guān)系,這使我們進(jìn)一步有效評價(jià)寫作能力結(jié)構(gòu)與能力發(fā)展受阻。另一方面,由于人工評分存在的各種問題,例如,趨中效應(yīng)、評分環(huán)境與評分員對評分標(biāo)準(zhǔn)的理解差異等,人工評分本身的信度長久以來也備受質(zhì)疑(趙海燕等, 2018)。在此背景下,人工評分是否可以作為AES建構(gòu)與檢驗(yàn)的完美效標(biāo)是值得商榷的(Wolfe et al.,2018)。自從第一個(gè)AES系統(tǒng)提出以來,自動(dòng)化評分在預(yù)測作文分?jǐn)?shù)方面取得了巨大的進(jìn)展,但是研究對象與研究目的比較單一,研究結(jié)果零散,缺乏在能力測量框架下對寫作評價(jià)標(biāo)準(zhǔn)、特征體系與分?jǐn)?shù)預(yù)測建模的系統(tǒng)性研究。寫作自動(dòng)化評分到底測量了寫作能力的哪些部分、AES建構(gòu)的原則與依據(jù)是什么、在特征體系的構(gòu)造與評分模型構(gòu)建中有哪些關(guān)鍵技術(shù)亟待突破、能否實(shí)現(xiàn)有效且公平的測量等重要問題值得深入探討。

    寫作自動(dòng)化評分發(fā)展與應(yīng)用的瓶頸催生研究理念與研究框架的創(chuàng)新。隨著心理測量學(xué)、自然語言處理(Natural Language Processing,NLP)和人工智能技術(shù)等跨學(xué)科研究合作的不斷深化,寫作自動(dòng)化評分從評價(jià)表層文本質(zhì)量拓展到測量寫作能力迎來了新的發(fā)展契機(jī)。寫作自動(dòng)化評分應(yīng)當(dāng)以幫助學(xué)生提高寫作能力為最終目標(biāo),將人工智能新技術(shù)融入對學(xué)生寫作能力測量的完整教育評價(jià)框架中。自動(dòng)化評分應(yīng)明確寫作能力測量的范疇,既要實(shí)現(xiàn)對文本質(zhì)量的分?jǐn)?shù)預(yù)測,也要通過能力診斷推動(dòng)寫作進(jìn)階;評分特征既要對分?jǐn)?shù)預(yù)測有貢獻(xiàn),也要厘清其所涵蓋的寫作能力維度;評分結(jié)果既要保持與人工評分的一致性,也要避免人工評分中的偏誤,保證評分的公平性。本文基于寫作能力評價(jià)視角,從理論和實(shí)踐層面提出寫作自動(dòng)化評分研究的新框架,以促進(jìn)寫作自動(dòng)化評分范式的改進(jìn),推動(dòng)寫作自動(dòng)化評分向深層寫作能力診斷轉(zhuǎn)變,保證在大規(guī)模與多元化情境下科學(xué)合理地開展寫作自動(dòng)化評分。

    二、寫作能力測量視角下AES的研究框架

    1.AES測量的是什么

    寫作能力是學(xué)生在長期學(xué)習(xí)過程中形成的一種相對固化的潛在能力,涉及不同層面的復(fù)雜認(rèn)知過程和認(rèn)知成分(Deane,2013)。圖1展示了寫作過程涉及的多種認(rèn)知能力。縱軸標(biāo)簽為個(gè)體在寫作過程中需要處理的不同模式層面,從底層的語言層面(呈現(xiàn)、言語和語篇模式),上升到寫作背后隱含的想法層面(概念模式),這其中蘊(yùn)含著作者在特定寫作情境下對社會現(xiàn)實(shí)的理解、合理化處理以及期望與讀者交流的意圖(社會模式)。橫向標(biāo)簽是寫作過程中涉及的個(gè)體內(nèi)隱的認(rèn)知行為,包括解釋、考慮與產(chǎn)出。個(gè)體必須在寫作情境下形成自己的解釋體系,斟酌合理的寫作策略,運(yùn)用語言知識謀篇布局、選擇體裁,最后利用熟悉的語言形式產(chǎn)出作品。每個(gè)單元代表一種認(rèn)知能力元素,這些元素形成了一個(gè)單獨(dú)的連通的整體,即我們通常所說的寫作能力。個(gè)體在寫作過程中需要激活并協(xié)調(diào)這些能力元素。因此,合理的寫作評價(jià)應(yīng)盡可能的覆蓋這些元素,而不是將其中一個(gè)或幾個(gè)單獨(dú)分離的元素作為寫作能力的替代。目前,現(xiàn)有的AES對學(xué)生在“概念模式”與“社會模式”層次的寫作認(rèn)知過程測量很少,并且大多集中在寫作產(chǎn)出的言語或語篇層面(例如e-rater、 IntelliMetric、MY Access!TM等)。

    基于情境的大數(shù)據(jù)時(shí)代可以利用的信息越來越多元,將文本質(zhì)量評價(jià)結(jié)果與其他來源的證據(jù)(例如,眼動(dòng)、log日志、光標(biāo)與擊鍵記錄等過程性數(shù)據(jù))相結(jié)合已是大勢所趨(Sinharay et al.,2019;Zhang et al.,2019),甚至人工評分也可以作為寫作能力證據(jù)的一部分。在確認(rèn)想要評估的寫作能力范疇之后,需要更加細(xì)致的模型來測量寫作能力,而這些模型建構(gòu)的目標(biāo)甚至超越以人工評分為擬合對象的預(yù)測準(zhǔn)確率。Yang等(2020)將作文映射為語義空間下的概念圖,對作文主旨觀點(diǎn)表現(xiàn)水平進(jìn)行自動(dòng)化評分,是作文評分從“語篇模式”層次拓展到“概念模式”層次的初步探索。隨著多情境大數(shù)據(jù)、在線學(xué)習(xí)、信息技術(shù)環(huán)境在教育評價(jià)的應(yīng)用日趨成熟,寫作自動(dòng)化評分的研究范式應(yīng)從“文本證據(jù)”與“擬合評分”向“多元證據(jù)”與“能力診斷”逐漸轉(zhuǎn)變。

    2.AES建構(gòu)的依據(jù)、原則與過程

    傳統(tǒng)的AES以文本質(zhì)量為主要證據(jù)來源,教育和學(xué)科專家提出的 “作文評分規(guī)則”是目前AES建構(gòu)的主要依據(jù)。評分規(guī)則反映了作文質(zhì)量要評價(jià)的方面,描述了從哪些方面分幾個(gè)等級對作文進(jìn)行評分以及每個(gè)等級作文質(zhì)量的詳細(xì)說明。目前應(yīng)用最廣泛的是美國教育學(xué)家提出的“六要素評分模型”(Six-Trait Scoring Model)(Spandel et al.,1980),列舉了“優(yōu)秀作文”要具備的6個(gè)要素,包括想法(Ideas)、內(nèi)容 (Content)、語氣(Voice)、組織(Organization)、措詞(Word Choice)、句子流暢性(Sentence Fluency)和語言規(guī)范性(Convention),后來又增加了“呈現(xiàn)”(Presentation)要素,下文簡稱為“6+1模型”。該模型在美國、英國、法國等歐美國家應(yīng)用廣泛,GRE和托??荚噷懽鞑糠值脑u分規(guī)則也是基于這一模型發(fā)展而來。王鶴琰(2016)、劉悅( 2018)對“6+1模型”進(jìn)行了本土化的改編,但是中西方寫作評價(jià)標(biāo)準(zhǔn)存在不小的差異(王彥芳, 2015)。英語作文的寫作邏輯起點(diǎn)是“交際”,強(qiáng)調(diào)作文的邏輯性與流暢性;中文的作文評價(jià)更強(qiáng)調(diào)作者主觀意見表達(dá),需要審題與立意,“中心思想”往往是中文作文最重要的評價(jià)屬性(魏小娜, 2009)。因此,面向中文寫作的自動(dòng)化評分也應(yīng)避免完全復(fù)制面向英文的AES建構(gòu)方法。

    以往的AES研究范式是以追求與人工評分的最大一致性為原則來尋找文本特征的最佳組合方案,如圖 2?;诮y(tǒng)計(jì)擬合的方法訓(xùn)練模型,意味著在同一個(gè)測驗(yàn)下,AES對每個(gè)題目的評分標(biāo)準(zhǔn)可能并不相同。這一方面造成AES的特征方案并不穩(wěn)定,評分內(nèi)部一致性受到質(zhì)疑;另一方面,隨著分類模型的復(fù)雜度增加,模型的概化性與解釋性變?nèi)?。更重要的是,對特征效度的忽視偏離了寫作能力測量的本質(zhì),難以進(jìn)一步刻畫學(xué)生寫作能力的發(fā)展?fàn)顩r。

    上述問題的背后是寫作自動(dòng)化評價(jià)的研究視角與研究范式的局限。當(dāng)研究視角轉(zhuǎn)移到能力評價(jià)而不是分?jǐn)?shù)預(yù)測時(shí),寫作自動(dòng)化評分不再是一個(gè)封閉的評分系統(tǒng),而需要通過科學(xué)的能力測量設(shè)計(jì)實(shí)現(xiàn)自動(dòng)化評分的迭代與升級?;趯懽髂芰y量的自動(dòng)化評分體系建構(gòu)的基本思路是要厘清寫作能力的范疇,依據(jù)寫作能力評價(jià)標(biāo)準(zhǔn)策劃特征體系的建構(gòu)途徑,進(jìn)而建立可持續(xù)測量寫作能力的模型。

    在寫作能力測量視角下,寫作自動(dòng)化評分構(gòu)建的依據(jù)應(yīng)當(dāng)從“作文評分規(guī)則”轉(zhuǎn)化為“寫作能力評價(jià)標(biāo)準(zhǔn)”。寫作能力標(biāo)準(zhǔn)應(yīng)將寫作能力定義為能力測量框架下可以評估的結(jié)構(gòu)??茖W(xué)的AES設(shè)計(jì)原則應(yīng)以寫作能力評價(jià)標(biāo)準(zhǔn)為起點(diǎn),在保證自動(dòng)化評分與人工評分一致性的基礎(chǔ)上,厘清AES測量了寫作的哪些方面,并且對自動(dòng)化評分的信度與效度進(jìn)行全面檢驗(yàn),見圖 3。基于該原則, AES的研究框架與研究范式的突破應(yīng)包括以下三個(gè)核心問題:第一,如何建立具備解釋性的特征體系,解決自動(dòng)化評分與評價(jià)標(biāo)準(zhǔn)脫鉤的問題;第二,如何突破擬合人工評分的局限,從分?jǐn)?shù)預(yù)測模型拓展到能力測量模型;第三,如何超越檢驗(yàn)自動(dòng)化評分的準(zhǔn)確性,系統(tǒng)地論證自動(dòng)化評分的信度與效度,保證評分的公平性。下文,筆者將嘗試對研究轉(zhuǎn)向中的上述三個(gè)核心研究問題進(jìn)行梳理和論述。

    三、如何建構(gòu)可解釋性的特征體系

    計(jì)算機(jī)并不能像人一樣來理解文章。傳統(tǒng)AES是從寫作文本中抽取特征來近似計(jì)算作文質(zhì)量。采用計(jì)算語言特征預(yù)測作文總分(或某個(gè)特定評分維度分?jǐn)?shù))的過程是透明且靈活的,相較于人工評分策略的內(nèi)隱性,基于穩(wěn)定的計(jì)算語言的特征體系能更好地控制要評價(jià)的構(gòu)念 (Construct) (Bennett et al.,1998)。在一個(gè)AES系統(tǒng)中,特征之間建立起的組合與層級關(guān)系被稱為AES的特征體系,決定了AES對寫作能力測量的范圍與程度。

    1.特征體系的類型

    從教育測量的觀點(diǎn)出發(fā),對于同一個(gè)寫作評估項(xiàng)目,AES的建構(gòu)應(yīng)基于相同的作文評價(jià)標(biāo)準(zhǔn)并采用穩(wěn)定的特征體系,生成具有相近測量意義的分?jǐn)?shù)。特征設(shè)計(jì)與想要測量的技能具有清晰的結(jié)構(gòu)關(guān)系。當(dāng)以文本質(zhì)量為主要證據(jù)來源時(shí),以“6+1模型”的建構(gòu)依據(jù)為例,圖4是一個(gè)理想特征體系(Deane,2013)。然而,即使是在文本質(zhì)量評價(jià)層面,傳統(tǒng)AES中的特征大多根據(jù)與人工評分的統(tǒng)計(jì)擬合確定,這導(dǎo)致特征體系并不穩(wěn)定。當(dāng)我們需要提高模型的穩(wěn)定性與效度時(shí),如何以評價(jià)標(biāo)準(zhǔn)為依據(jù)來構(gòu)建穩(wěn)定的自動(dòng)化評分標(biāo)準(zhǔn)特征體系就顯得格外重要。大多數(shù)寫作自動(dòng)化評分系統(tǒng)與作文評分規(guī)則的關(guān)聯(lián)尚欠缺研究的證據(jù)支持,特征體系與評價(jià)標(biāo)準(zhǔn)相對分離。目前AES的評價(jià)內(nèi)容大都集中在作文的語言規(guī)范、語法特征、語言結(jié)構(gòu)和流暢性等語言形式層面。Crossley(2020)對于目前經(jīng)常使用的特征與作文質(zhì)量之間的關(guān)系進(jìn)行了詳細(xì)闡述。雖然一些AES能夠提供語義層面的分析,但往往由于語義粒度過細(xì)(如詞語搭配錯(cuò)誤)或過粗(如整篇文章詞語使用的相似度),難以捕捉作文的深層特質(zhì),也就無法向使用者提供更有利于改進(jìn)寫作能力的寫作策略或技巧的反饋(McNamara,2015)。

    根據(jù)特征體系的內(nèi)部結(jié)構(gòu),本文將目前常見的計(jì)算語言特征體系概括為三種類型:無結(jié)構(gòu)型、結(jié)構(gòu)型和基于深度學(xué)習(xí)的內(nèi)隱型,如圖 5所示。無結(jié)構(gòu)型的特征體系中,原始計(jì)算語言特征被作為預(yù)測變量直接進(jìn)入分?jǐn)?shù)預(yù)測模型,這種方式在AES中最為常見(陳一樂,2016;Zhao et al.,2017;莫慕貞,2018)。其存在的問題是:(1)某個(gè)特征可能在一個(gè)方案中很重要,而在另一個(gè)方案中并不存在,甚至是負(fù)向的,這些差異會對AES的效度造成威脅;(2)容易導(dǎo)致對某個(gè)單獨(dú)特征的依賴,例如在對作文中心思想或內(nèi)容進(jìn)行打分時(shí),我們并不希望過多依賴于“字?jǐn)?shù)”這個(gè)特征來判斷作文的質(zhì)量,雖然作文的長度與分?jǐn)?shù)之間通常存在高相關(guān),但它與要測量的屬性可能相關(guān)也可能完全無關(guān) (Deane,2013)。鑒于無結(jié)構(gòu)型特征體系的缺陷,研究者嘗試對某些相似意義的特征進(jìn)行組合,找到直接影響作文質(zhì)量或?qū)懽髂骋粚傩员憩F(xiàn)水平的“高級特征”,同時(shí)構(gòu)建出原始特征與高級特征之間的層級關(guān)系,形成結(jié)構(gòu)型特征體系。例如,e-rater(V.2.0)是典型的結(jié)構(gòu)型特征體系(Attali et al.,2005),與e-rater (V.1.0) (Burstein et al.,1998)相比,最大的區(qū)別是使用了一組少量但有直觀測量意義的高級特征來預(yù)測作文分?jǐn)?shù)。近年來,一些深度學(xué)習(xí)模型被直接用于AES領(lǐng)域以實(shí)現(xiàn)端到端的自動(dòng)化評分。這類模型通常以文本為輸入,特征抽取過程完全內(nèi)化,經(jīng)過多次復(fù)雜變換后直接輸出作文分?jǐn)?shù)或分類,形成基于深度學(xué)習(xí)的內(nèi)隱型特征體系(Nadeem et al.,2019; Mayfield et al.,2020)。這類端到端 (End-to-End)模型雖然在一些任務(wù)中能取得較高的與人工評分的一致率(Mayfield et al.,2020),但評分過程與分?jǐn)?shù)意義難以解釋與檢驗(yàn)。目前采用深度學(xué)習(xí)模型對作文進(jìn)行端到端的自動(dòng)化評分的實(shí)際應(yīng)用非常少,研究也未形成延續(xù)性。

    基于上述分析,無論從計(jì)算語言特征體系對寫作能力的覆蓋程度來看,還是從特征體系的穩(wěn)定性來看,結(jié)構(gòu)型特征體系都更適合發(fā)展出理想的特征體系。高級特征與評分標(biāo)準(zhǔn)中的屬性聯(lián)系更加緊密,有利于降低由于個(gè)別原始特征變化造成預(yù)測分?jǐn)?shù)波動(dòng)的可能,增強(qiáng)AES的穩(wěn)定性。在實(shí)際運(yùn)用中,結(jié)構(gòu)型特征體系更適合于原始文本特征、高級特征以及寫作屬性之間的關(guān)系容易辨識的情況,例如“某個(gè)語言錯(cuò)誤—語法錯(cuò)誤—語言規(guī)范性”的關(guān)系比“某原始文本特征—中心思想”的關(guān)系更容易確定,后者需要大量研究支持。

    隨著AES特征體系從作文語言表層特征向內(nèi)容與思想等深層屬性不斷深化,特征與能力各潛在維度或潛在屬性的關(guān)系結(jié)構(gòu)更加復(fù)雜化。Chen等人(2018)總結(jié)了目前AES中采用的特征與寫作能力的各方面(類似于高級特征)之間的關(guān)系,發(fā)現(xiàn)從作文文本中抽取的原始計(jì)算語言特征對作文質(zhì)量的影響是間接的,且粒度較細(xì),一般不具有明顯的測量意義(例如“詞語搭配錯(cuò)誤”);一些原始計(jì)算語言特征經(jīng)過加權(quán)組合計(jì)算得到的“高級特征”通常有較為明確的測量意義(例如“語法錯(cuò)誤”),與寫作潛在屬性的對應(yīng)關(guān)系也更加明確(例如“語法錯(cuò)誤”對應(yīng)“語言規(guī)范性”屬性)。與容易受到寫作任務(wù)影響的淺層語言特征相比,這些潛在屬性能夠始終如一的描述寫作能力,揭示寫作活動(dòng)中個(gè)體的寫作策略與心理特征?;跐撛趯傩詫懽髂芰Φ脑u價(jià)是一種普適性的客觀評價(jià),是基于能力層面而非題目層面的通用評價(jià)(Attali et al.,2013)。

    2.特征的構(gòu)造方法

    盡管大多數(shù)AES系統(tǒng)的細(xì)節(jié)并未公開,但從已發(fā)表的研究可以推斷,AES頗受爭議的一個(gè)重要原因是對作文質(zhì)量的測量仍以語法和語義內(nèi)容為主。目前最先進(jìn)的AES系統(tǒng)或相關(guān)研究中,對語言規(guī)范、措辭等基于語言形式的測量較為成熟(Yoon et al.,2018),對流暢性、議論文的組織和結(jié)構(gòu)有一定程度的測量(Limpo et al.,2017;Zupanc et al.,2017),對思想、立意、創(chuàng)新性等深層屬性的測量還遠(yuǎn)遠(yuǎn)不夠。

    在語義方面,潛在語義分析(Latent Semantic Analysis,LSA) 和內(nèi)容向量分析 (Content Vector Analysis,CVA)常被用來測量作文與高分作文的相似度(曹亦薇等,2007;Hao et al.,2014; Sakti et al.,2016)或識別作文是否“跑題”(Sakti et al.,2016;Liu,2017)。近年來有研究者采用開放信息抽取 (Open Information Extraction,OIE) 來判別作文中語義的關(guān)系信息 (Zupanc et al., 2017),能夠比較準(zhǔn)確地判斷常識與語言邏輯的正誤。廣義潛在語義分析 (Generalized Latent Semantic Analysis,GLSA)、語義網(wǎng)絡(luò) (Semantic Networks,SN)、模糊邏輯 (Fuzzy Logic,F(xiàn)L) 和描述邏輯 (Description Logic,DL) 等分析技術(shù)也被用來拓展作文中語義分析的結(jié)果 (Xu et al.,2017)。在主題研究中,潛在狄利克雷分布 (Latent Dirichlet Allocation,LDA)模型能夠?qū)ξ谋镜膬?nèi)容進(jìn)行無監(jiān)督聚類。作文內(nèi)容的一致性與連貫性一般通過相鄰句子或段落之間實(shí)體詞的重疊或基于LSA或CVA語義相似度來計(jì)算(Shermis et al., 2013;Stab et al.,2014;Rahimi et al.,2015)?;谡撟C挖掘?qū)ψh論文論點(diǎn)清晰度(Persing et al., 2013;Wachsmuth et al.,2016)、論證說服力(Persing et al.,2015;Wachsmuth et al.,2016)與作文的總分(Nguyen et al.,2018;Ke,2019)進(jìn)行預(yù)測也是AES研究的熱點(diǎn)。隨著基于情境的大數(shù)據(jù)時(shí)代來臨,研究者認(rèn)為基于過程性數(shù)據(jù)挖掘(劉紅云,2020)能得到更豐富的能力證據(jù)。近年來一種基于圖的作文表征方法被用于寫作評價(jià)中,通過將作文中出現(xiàn)的各種思想和概念表征為圖結(jié)構(gòu),形象、直觀地呈現(xiàn)出學(xué)生在寫作過程中的語義認(rèn)知結(jié)構(gòu) (Nafa et al., 2016;陳志鵬,2017;Zupanc et al., 2017;高京堅(jiān)等,2018; Maharjan et al.,2019)。該方法還能夠評估作者想法的發(fā)展(Somasundaran et al., 2016)。辛濤等(2020)將概念圖的全局結(jié)構(gòu)與Word2Vec的局部語義信息進(jìn)行融合,構(gòu)造了評價(jià)中文作文主旨觀點(diǎn)與創(chuàng)新性的特征,表明基于復(fù)雜網(wǎng)絡(luò)(Ke et al.,2016)或概念圖(Maharjan et al., 2019)的特征能夠有效地預(yù)測文本的整體質(zhì)量??偟膩碚f,現(xiàn)有研究中構(gòu)造的特征較為零散,基于圖的深層特性與寫作能力之間的關(guān)系仍有待持續(xù)深入研究。

    不可忽視的是,由于語言特性差異,在英文作文評價(jià)中占很大比重的基于語言形式的屬性(例如,語言規(guī)范、語法等)對中文作文質(zhì)量的影響較為有限。面向中文寫作的自動(dòng)化評分從最早基于字頻與詞頻的統(tǒng)計(jì)特征 (張晉軍等,2004)發(fā)展到識別作文中的修辭手法(鞏捷甫,2016; 付瑞吉等,2018)和篇章主題(劉明楊,2015)等方面的特征。吳恩慈和田俊華(2019) 對漢語寫作自動(dòng)化評分中采用的關(guān)鍵自然語言處理技術(shù)與問題進(jìn)行了詳細(xì)回顧;彭恒利(2019)總結(jié)了國內(nèi)自動(dòng)化評分技術(shù)在高利害考試中應(yīng)用的情況與問題。面向中文的AES特征構(gòu)造方法應(yīng)根據(jù)中文語言特性,探索能夠捕捉中文寫作能力水平差異的多元特征的構(gòu)造途徑與計(jì)算方法。

    四、如何構(gòu)建能力測量模型,突破擬合人工評分的局限

    1.常見的分?jǐn)?shù)預(yù)測模型與構(gòu)建

    目前AES評分模型大多是以特征值作為預(yù)測變量,擬合人工評分的分?jǐn)?shù)預(yù)測模型。普遍的構(gòu)建方法是將經(jīng)過人工評分的作文分為訓(xùn)練集與測試集,在訓(xùn)練集上訓(xùn)練模型參數(shù),獲得特征的最優(yōu)權(quán)重,接著在測試集上預(yù)測作文分?jǐn)?shù)。這個(gè)過程中采用的統(tǒng)計(jì)方法和訓(xùn)練程序都影響著AES的實(shí)踐應(yīng)用效果。

    基于構(gòu)建好的特征體系,特征的權(quán)重計(jì)算可以由多種方式來實(shí)現(xiàn),最簡單的就是特征的加權(quán)平均,權(quán)重反映了特征對于分?jǐn)?shù)預(yù)測的重要性。AES分?jǐn)?shù)預(yù)測中最常見的統(tǒng)計(jì)模型是多元線性回歸模型。多元線性回歸是一種順序量表,得到的連續(xù)分?jǐn)?shù)能夠反映作文質(zhì)量的高低。國內(nèi)針對大型考試的中文寫作自動(dòng)化評分研究也大多采用多元線性回歸模型(陳一樂,2016)或經(jīng)過優(yōu)化的回歸模型(Yao et al.,2019)。隨機(jī)森林 (Radom Forest)、支持向量機(jī) (Support Vector Machines) 等常見的機(jī)器學(xué)習(xí)模型也被應(yīng)用于作文評分任務(wù)中來提高作文分類準(zhǔn)確率。深度學(xué)習(xí)模型往往能夠整合特征抽取與分?jǐn)?shù)合成,輸入文本后直接輸出預(yù)測分?jǐn)?shù) (Zhao et al.,2017; Mayfield et al.,2020),準(zhǔn)確率較高但解釋性弱。

    在分?jǐn)?shù)預(yù)測模型的參數(shù)確定后,自動(dòng)化評分不會隨著時(shí)間變化而發(fā)生改變,即重測信度為1。這時(shí)應(yīng)檢驗(yàn)?zāi)P涂珙}目時(shí)特征權(quán)重的一致性與合理性。同一個(gè)測驗(yàn)下,在多個(gè)寫作任務(wù)中表現(xiàn)不穩(wěn)定或不合理的特征權(quán)重會導(dǎo)致難以控制和解釋AES產(chǎn)出分?jǐn)?shù)的意義。值得注意的是,由于計(jì)算機(jī)至少目前還不能真正模仿人工評分員在評分時(shí)的心理認(rèn)知過程,基于各種數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)方法獲得的最優(yōu)權(quán)重并不一定能反映評分員在評分過程中對作文特征的關(guān)注程度,因此,一些并不單一追求與人工評分一致性的特征權(quán)重賦值方法,例如專家事先標(biāo)定、等權(quán)重、因素分析和信度最大化方法(Attali,2015)也會被用于非高利害考試或無事先標(biāo)定分?jǐn)?shù)的評分任務(wù)中。

    在分?jǐn)?shù)預(yù)測模型的建構(gòu)中,訓(xùn)練集中的作文組成決定了AES可以合理地推廣到哪些人群和寫作任務(wù)上。訓(xùn)練集中的作文必須來自AES要使用的目標(biāo)群體,根據(jù)訓(xùn)練集中作文組成來源可以將分?jǐn)?shù)預(yù)測模型分為題目模型與通用模型。如果在同一測驗(yàn)中有多個(gè)不同版本的平行作文題目,那么,在評分的初期可以專門針對某個(gè)題目進(jìn)行建模,抽取每個(gè)題目下500~2000篇作文構(gòu)造特定題目的分?jǐn)?shù)預(yù)測模型,這種模型稱為“題目模型”。相對地,從全部題目下的作文中抽取樣本構(gòu)建的是“通用模型”。這時(shí),同一個(gè)測驗(yàn)中的所有作文題目都統(tǒng)一采用通用模型進(jìn)行評分,提高了評分內(nèi)部一致性,生成的分?jǐn)?shù)具有相對穩(wěn)定的解釋意義。Ramineni等(2013)認(rèn)為“通用模型”增強(qiáng)了自動(dòng)化評分的標(biāo)準(zhǔn)化程度與可接受性,但是,當(dāng)有新的題目加入時(shí),需要重新訓(xùn)練通用模型或?qū)ES系統(tǒng)進(jìn)行調(diào)整。

    2.寫作能力測量模型的構(gòu)建與發(fā)展方向

    隨著心理測量與計(jì)算機(jī)等相關(guān)學(xué)科合作的不斷深化,寫作自動(dòng)化評分的作用不應(yīng)局限于評分上,而是要拓展到對學(xué)生的寫作能力水平進(jìn)行評估或診斷上。

    (1)能力的整體評價(jià)與分項(xiàng)評價(jià)

    目前中文寫作評價(jià)中,單獨(dú)評價(jià)寫作能力某個(gè)特定方面的研究相對較少,大多數(shù)研究并未檢驗(yàn)寫作分?jǐn)?shù)與寫作能力之間的關(guān)系。大規(guī)模考試中,基于作文評分規(guī)則對作文打出總分,可看作是對寫作能力的整體估計(jì)。在另一些情境下,專門針對寫作能力的不同方面(例如,“中心思想”“創(chuàng)造性”等維度)制定評分標(biāo)準(zhǔn)并單獨(dú)評分屬于對寫作能力的分項(xiàng)評價(jià)。比如,Zedelius等人 (2019)通過一些客觀的計(jì)算語言特征來測量作文的創(chuàng)造性;徐建平等(2020)對學(xué)生寫作中的發(fā)散思維進(jìn)行了自動(dòng)化評分;Yang等(2020)基于概念圖的特征對中國8年級學(xué)生的作文主旨觀點(diǎn)的組織水平進(jìn)行了自動(dòng)化評價(jià)研究。針對作文某個(gè)特定維度的自動(dòng)化評分能夠?yàn)閷W(xué)生改進(jìn)寫作指明方向,是寫作評分發(fā)展的新趨勢。

    為了揭示寫作能力的結(jié)構(gòu)與發(fā)展,寫作自動(dòng)化評分應(yīng)當(dāng)對寫作某個(gè)維度(或?qū)傩裕┑臏y量從基于語言形式的表層屬性逐漸拓展到與寫作認(rèn)知過程聯(lián)系更緊密的深層屬性上,給學(xué)生提供更有價(jià)值的反饋。AES研究應(yīng)注重寫作能力各維度發(fā)展水平的測量,建構(gòu)更加精細(xì)化和更具針對性的能力測量模型,提供潛在特質(zhì)或?qū)傩缘脑u分或反饋,幫助改進(jìn)寫作教學(xué)質(zhì)量。

    (2)寫作能力測量模型的構(gòu)建

    當(dāng)聚焦于測量寫作能力的發(fā)展水平而不是作文文本之間的橫向?qū)Ρ龋ɡ纾称魑氖? 或8 年級水平,而不是3分還是6分)時(shí),應(yīng)當(dāng)使AES估計(jì)的能力分?jǐn)?shù)標(biāo)定在一個(gè)跨題目的標(biāo)準(zhǔn)化寫作發(fā)展量表(Standardized Writing Development Scales)上,這個(gè)量表上分?jǐn)?shù)的高低應(yīng)當(dāng)反映學(xué)生寫作能力水平,從而對學(xué)生寫作能力進(jìn)行可持續(xù)的測量與診斷。

    寫作能力測量模型構(gòu)建的研究目前剛剛起步。Raquel等(2014)采用一套診斷性英語語言追蹤系統(tǒng)評估一項(xiàng)大規(guī)模英語語言測驗(yàn)的寫作部分,定期評估學(xué)生寫作水平;莫慕貞(2018)采用多面Rasch模型得到校準(zhǔn)后的人工評分,采用多元線性回歸模型預(yù)測校準(zhǔn)后的學(xué)生能力分?jǐn)?shù),回歸模型的解釋率R2為0.47;Uto等(2020)基于BERT預(yù)測IRT模型估計(jì)的學(xué)生寫作能力值,R2為0.56。由于寫作能力的發(fā)展在不同時(shí)期的進(jìn)度并不相同,即使同為相差1分,在不同分?jǐn)?shù)區(qū)間上所代表的寫作能力的差異很有可能并不相同。例如學(xué)生從1分上升到2分要比從5分上升到6分容易得多。因此,能力測量模型應(yīng)建立等距量表,基于特征體系建立能力分?jǐn)?shù)的測量模型。這個(gè)過程有兩個(gè)重要步驟:首先應(yīng)當(dāng)將不同評分員的打分標(biāo)定在同一個(gè)能力量表上,從而減小人工評分的偏誤;其次,采用合理的特征體系中得到的特征值來估計(jì)寫作能力,建立能力測量模型。在這個(gè)能力量尺上,分?jǐn)?shù)越高表明寫作能力越高,并且可以與其他測驗(yàn)的能力分?jǐn)?shù)進(jìn)行鏈接。這方面的研究具有非常廣闊的探索空間與應(yīng)用潛力。

    五、如何論證AES的信度與效度

    教育測量界不斷更新的信度與效度概念深深地影響著自動(dòng)化測評工具的開發(fā)與應(yīng)用。隨著人工智能技術(shù)的快速更新與迭代,各種自動(dòng)化測評工具的信效度也被賦予融合時(shí)代特色的新含義。對于寫作自動(dòng)化評分工具來說,信度與效度的論證應(yīng)該包含一套完整的邏輯,僅僅呈現(xiàn)自動(dòng)化評分與人工評分的相關(guān)是遠(yuǎn)遠(yuǎn)不夠的,需要更充分的研究來論證自動(dòng)化評分與學(xué)生寫作能力之間的潛在關(guān)系,其意涵超越了對人工評分的復(fù)制,增強(qiáng)了自動(dòng)化評分結(jié)果的合理性與解釋性。Attali等人 (2013) 提出了基于作文質(zhì)量評價(jià)的AES信度與效度評價(jià)框架,該框架將AES的評估從預(yù)測準(zhǔn)確性拓展到對AES中所采用特征的檢驗(yàn)、自動(dòng)化評分與人工評分的關(guān)系、跨樣本的穩(wěn)定性以及AES與其他測驗(yàn)的關(guān)系四個(gè)方面,見圖 6?;趯懽髂芰y量與評價(jià)的視角,寫作自動(dòng)化評分體系中所采用的特征的意義、AES與人工評分的關(guān)系以及跨樣本的穩(wěn)定性是最重要的信效度問題,分別對應(yīng)著AES的測量構(gòu)念、AES的有效性與公平性,是影響AES推廣與應(yīng)用的關(guān)鍵問題。

    1.特征的意義

    作為對人工評分的補(bǔ)充或者替代,AES要能從建構(gòu)原理上清楚地反映出是測量寫作能力的哪些方面。因此,當(dāng)AES中引入一個(gè)新特征時(shí),一個(gè)基本問題就是要考慮特征的解釋性。計(jì)算語言特征應(yīng)呈現(xiàn)與我們預(yù)期相符的意義。

    特征意義的證據(jù)應(yīng)當(dāng)來源于計(jì)算語言學(xué)等相關(guān)領(lǐng)域的基礎(chǔ)研究,或來源于語言學(xué)和認(rèn)知研究中對于經(jīng)典文學(xué)作品的分析。例如,第二語言習(xí)得的研究中,研究者發(fā)現(xiàn)了測量連貫性、詞匯和句法復(fù)雜性等多種計(jì)算語言特征( Jiang et al.,2019;解月,2020)。還有研究發(fā)現(xiàn),TTR (Type-Token Ratio, 作文中相同的詞和所有詞的比例)指數(shù)反映了詞匯的復(fù)雜性和多樣性。特征之間的相關(guān)模式也為從原始文本特征合成高級特征的解釋性提供了一定支持,因素分析也可以用于考查AES特征體系的內(nèi)部結(jié)構(gòu)。如Attali等(2009)對e-rater得到的作文特征分?jǐn)?shù)進(jìn)行了探索性因素分析,結(jié)果表明e-rater的特征覆蓋了語言規(guī)范、語篇與措辭三個(gè)寫作評價(jià)維度。需要指出的是,在一些情境下有用的特征不一定適合于所有作文評分的情境。例如,閱讀可讀性指數(shù)雖然能有效估計(jì)閱讀難度,但是對預(yù)測作文評分的貢獻(xiàn)就很小(Zupanc et al., 2017)。語言特征與作文分?jǐn)?shù)的相關(guān)也能在一定程度上辨識出特征對評分的貢獻(xiàn),但需要同時(shí)考慮相關(guān)系數(shù)和偏相關(guān)系數(shù),尤其是要將作文長度的影響納入分析。例如,“平均句子長度的負(fù)對數(shù)”與人工評分的相關(guān)為0.16,但在控制了作文長度后,與人工評分的相關(guān)為 -0.01(Attali, 2015)。

    2.AES與人工評分的關(guān)系

    傳統(tǒng)AES的準(zhǔn)確性是通過自動(dòng)化評分與人工評分的一致性來衡量。表 1呈現(xiàn)了目前AES需要滿足的與人工評分一致性的基本要求(Ramineni et al.,2013)。需要注意的是:首先,該標(biāo)準(zhǔn)依賴于人工評分的質(zhì)量。如果人工評分的內(nèi)部相關(guān)小于0.70,則對AES的建構(gòu)更加不利,人工評分的低信度會影響AES的準(zhǔn)確性。其次,由于自動(dòng)化評分往往表現(xiàn)出比人工評分更小的變異(Bridgeman et al.,2017),這暗示著自動(dòng)化評分很可能與人工評分員對作文的考慮并不相同。在實(shí)踐中應(yīng)盡量保證自動(dòng)化評分與人工評分者具有相同的變異度。

    3.跨樣本的穩(wěn)定性

    作為一種自動(dòng)化評價(jià)工具,AES跨樣本評分的穩(wěn)定性以及對不同子群體的公平性風(fēng)險(xiǎn)不可忽視。例如,托??荚囍?,亞洲學(xué)生在“組織”上得分更高,語法和措辭得分較低,特征的相對權(quán)重方案將對不同種族群體的作文分?jǐn)?shù)產(chǎn)生差異化的影響(Breyer et al., 2017; Kusner et al.,2017)。AES在不同子群體上評分準(zhǔn)確性往往是有差異的(Attali et al., 2005;Bridgeman et al.,2012),這些差異可能會導(dǎo)致對某些子群體不公平(Ramineni et al.,2013)。在大規(guī)模高利害的考試中,尤其需要謹(jǐn)慎檢驗(yàn)AES跨群體的評分穩(wěn)定性。例如,使用“標(biāo)準(zhǔn)化的平均分差別”來衡量不同子群體之間的準(zhǔn)確性的差別,如果差異超過0.10或0.15個(gè)標(biāo)準(zhǔn)差則被標(biāo)記為可能存在公平性問題(Ramineni et al.,2013)。

    AES信度與效度的研究應(yīng)當(dāng)是比開發(fā)自動(dòng)化評分系統(tǒng)更長久且更重要的工作。在信息環(huán)境與人工智能的輔助下,AES信度與效度的論證可以考慮更豐富的數(shù)據(jù)與試驗(yàn)研究。例如,當(dāng)寫作自動(dòng)化評分的分?jǐn)?shù)與外部測驗(yàn)的相關(guān)相較人工評分與外部測驗(yàn)的相關(guān)呈現(xiàn)出明顯不同的相關(guān)關(guān)系時(shí)(Attali,2015),意味著人工評分員和自動(dòng)化評分系統(tǒng)評價(jià)的內(nèi)容很可能存在較大差異,需要進(jìn)一步分析差異來判斷評分的合理性。

    六、寫作自動(dòng)化評分的推進(jìn)方向

    令人鼓舞的是,當(dāng)不以預(yù)測準(zhǔn)確率為研究的方向時(shí),在寫作能力測量的視閾下,AES所采用的特征不僅能夠?yàn)閷懽髂芰Φ认嚓P(guān)研究提供客觀量化的證據(jù),同時(shí)也能為其他教育評價(jià)研究提供支持。AES從開發(fā)到使用并不是簡單的一蹴而就,而是科學(xué)與實(shí)踐在現(xiàn)實(shí)中互相促進(jìn)與完善的長期過程。AES的研究同樣需要遵循這樣的推進(jìn)路徑,同時(shí)需要權(quán)衡科學(xué)創(chuàng)新性與實(shí)踐滯后性的矛盾。為探索寫作自動(dòng)化評分的有效建構(gòu)與使用的合理路徑,今后的研究應(yīng)注意:

    第一,自動(dòng)化評分與人工評分的結(jié)合應(yīng)用。AES可以在人工評分的過程中對人工評分的質(zhì)量進(jìn)行監(jiān)控,或者作為一個(gè)特別的維度分?jǐn)?shù),為人工評分提供一個(gè)穩(wěn)定且量化的參考分?jǐn)?shù)。

    第二,寫作自動(dòng)化評分的穩(wěn)定性和泛化性的檢驗(yàn)。公平性一直是教育測量領(lǐng)域的重要概念,需要通過在不同寫作任務(wù)與不同學(xué)生樣本上的應(yīng)用來完善與更新AES體系,為AES的使用提供更多的證據(jù)支持與合理的使用建議。

    第三,寫作能力發(fā)展的持續(xù)性研究。合理的寫作能力測量模型能夠?yàn)閷W(xué)生的寫作能力以及潛在屬性發(fā)展提供追蹤研究的證據(jù),揭示寫作能力的發(fā)展規(guī)律與不同子群體的寫作能力發(fā)展差異。

    第四,測驗(yàn)成績的可比性研究。當(dāng)寫作能力與寫作題目參數(shù)被標(biāo)定在同一量尺上時(shí),通過題目參數(shù)的鏈接,能夠進(jìn)一步建立寫作能力與其他語言能力(如閱讀)之間的關(guān)系。在大規(guī)??荚囍?,常常因評分員的背景與培訓(xùn)差異導(dǎo)致對作文評分標(biāo)準(zhǔn)的把握不完全一致,而AES的優(yōu)勢在于,一旦建構(gòu)好模型,它的評分結(jié)果不會隨著時(shí)間或地點(diǎn)的改變而波動(dòng)。在此基礎(chǔ)上,能夠進(jìn)行一些大膽的探索。例如,當(dāng)寫作能力被標(biāo)定在一個(gè)通用的寫作能力發(fā)展量尺上時(shí),利用特征體系中比較穩(wěn)定的特征作為“錨”對人工評分的結(jié)果進(jìn)行監(jiān)督或者矯正,或當(dāng)AES用于不同測驗(yàn)時(shí),探索通過穩(wěn)定的特征對不同的寫作測驗(yàn)分?jǐn)?shù)進(jìn)行鏈接的可能性。

    七、結(jié)語

    在教育評價(jià)領(lǐng)域,隨著人工智能在寫作教學(xué)與評價(jià)中日益廣泛的應(yīng)用,寫作自動(dòng)化評分的建構(gòu)途徑與技術(shù)方法應(yīng)當(dāng)被納入能力測量的科學(xué)框架。本研究對寫作自動(dòng)化評分測量的范疇和依據(jù)、特征體系與評分模型構(gòu)建等重要問題進(jìn)行闡述,有助于相關(guān)研究者在理解其研究價(jià)值的基礎(chǔ)上開展有針對性的創(chuàng)新與應(yīng)用??梢钥闯觯山逃蜏y量學(xué)專家提出的寫作能力評價(jià)標(biāo)準(zhǔn)是AES建構(gòu)的依據(jù),在保證自動(dòng)化評分與人工評分一致性的基礎(chǔ)上,以寫作全過程中多元化數(shù)據(jù)為證據(jù)來源,AES的特征體系應(yīng)最大程度地覆蓋寫作能力的范疇。需要指出的是,AES的研究重點(diǎn)應(yīng)當(dāng)逐漸從分?jǐn)?shù)預(yù)測的準(zhǔn)確性轉(zhuǎn)向?qū)懽髂芰y量的合理性上。對于AES跨題目的信度、跨群體的穩(wěn)定性以及由此產(chǎn)生的公平性等問題需要基于真實(shí)數(shù)據(jù)的大量研究與檢驗(yàn)。作為大規(guī)??荚囍袑懽髯詣?dòng)化評分體系建構(gòu)項(xiàng)目的參與者,筆者深刻感受到,當(dāng)前的寫作自動(dòng)化評分距離“寫作能力自動(dòng)評價(jià)”的目標(biāo)仍有較大差距,該領(lǐng)域的研究仍處于探索階段,存在儲多挑戰(zhàn)。面向未來的大數(shù)據(jù)情境,AES的研究應(yīng)重視計(jì)算機(jī)技術(shù)與教育測量研究的融合,同時(shí)注重與寫作能力發(fā)展等相關(guān)研究的相互促進(jìn)與支持整合。

    參考文獻(xiàn):

    [1]曹亦薇,楊晨(2007).使用潛語義分析的漢語作文自動(dòng)評分研究[J].考試研究, (1):63-71.

    [2]陳一樂(2016).基于回歸分析的中文作文自動(dòng)評分技術(shù)研究 [D].哈爾濱:哈爾濱工業(yè)大學(xué).

    [3]陳志鵬(2017).基于詞分布的文本表示研究 [D].蘇州:蘇州大學(xué).

    [4]付瑞吉,王棟,王士進(jìn)(2018).面向作文自動(dòng)評分的優(yōu)美句識別[J].中文信息學(xué)報(bào), 32(6):88-97.

    [5]高京堅(jiān),張文彥,張凱(2018).句法謂詞的主題表現(xiàn)力研究[J].語言文字應(yīng)用,(1):71-80.

    [6]鞏捷甫(2016).面向語文作文自動(dòng)評閱的修辭手法識別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué).

    [7]梁茂成,文秋芳(2007).國外作文自動(dòng)評分系統(tǒng)評述及啟示[J].外語電化教學(xué),(5):18-24.

    [8]劉紅云(2020).基于過程數(shù)據(jù)的合作問題解決能力測量模型的構(gòu)建[Z]. 2020全球人工智能與教育大數(shù)據(jù)大會(北京).

    [9]劉明楊(2015).高考作文自動(dòng)評分關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué).

    [10]劉悅(2018).作文診斷量表的啟示研究[J].課程教育研究,(15):181-182.

    [11]莫慕貞(2018).中文作文自動(dòng)評分研究[Z].第十三屆海峽兩岸心理與教育測驗(yàn)學(xué)術(shù)研討會(臺北).

    [12]彭恒利(2019).計(jì)算機(jī)自動(dòng)評分技術(shù)在高利害考試中應(yīng)用的前景分析[J].內(nèi)蒙古教育,(2):4-6,28.

    [13]石曉玲(2012).在線寫作自動(dòng)評改系統(tǒng)在大學(xué)英語寫作教學(xué)中的應(yīng)用研究——以句酷批改網(wǎng)為例[J].現(xiàn)代教育技術(shù),(10):67-71.

    [14]王鶴琰(2016).基于“要素評價(jià)量表”的寫作教學(xué)內(nèi)容研究——以上海市X學(xué)校為例[D].上海:上海師范大學(xué).

    [15]王彥芳(2015).中美作文命題與評分準(zhǔn)則的比較[J].文學(xué)教育(上),(10):73-74.

    [16]魏小娜(2009).中美作文評價(jià)標(biāo)準(zhǔn)比較[J].語文教學(xué)通訊,(1):59-60.

    [17]吳恩慈,田俊華(2019).漢語作文自動(dòng)評價(jià)及其關(guān)鍵技術(shù)——來自作文自動(dòng)評價(jià)(AEE)的經(jīng)驗(yàn)[J].教育測量與評價(jià),(8):45-54.

    [18]解月(2020).二語寫作連貫研究綜述和展望[J].山東外語教學(xué),(6):20-30.

    [19]辛濤,楊麗萍(2020).基于概念圖的作文自動(dòng)化評分探索[Z].2020全球人工智能與教育大數(shù)據(jù)大會(北京).

    [20]趙海燕,辛濤,田偉(2018).主觀題評分中的評分者漂移及其傳統(tǒng)檢測方法[J].中國考試,(8):20-27.

    [21]徐建平,段海燕,李露(2020).發(fā)散思維測驗(yàn)的機(jī)器評分[Z]. 2020全球人工智能與教育大數(shù)據(jù)大會(北京).

    [22]張晉軍,任杰(2004).漢語測試電子評分員實(shí)驗(yàn)研究報(bào)告[J].中國考試,(10):27-32.

    [23]Attali, Y., & Burstein, J. (2005). Automated Essay Scoring with e-rater? V.2[J/OL]. [2020-02-10]. https://files.eric.ed.gov/fulltext/EJ843852.pdf.

    [24]Attali, Y. (2015). Reliability-Based Feature Weighting for Automated Essay Scoring[J]. Applied Psychological Measurement, 39(4):303-313.

    [25]Attali, Y., Lewis, W., & Steier, M. (2013). Scoring with the Computer: Alternative Procedures for Improving the Reliability of Holistic Essay Scoring[J]. Language Testing, 30(1):125-141.

    [26]Attali, Y., & Powers, D. (2009). Validity of Scores for a Developmental Writing Scale Based on Automated Scoring[J]. Educational and Psychological Measurement, 69(6):978-993.

    [27]Bennett, D., & Parry, G. (1998). The Accuracy of Reformulation in Cognitive Analytic Therapy: A Validation Study[J]. Psychotherapy Research, 8(1):84-103.

    [28]Breyer, F. J., Rupp, A. A., & Bridgeman, B. (2017). Implementing a Contributory Scoring Approach for the GRE? Analytical Witing Section: A Comprehensive Empirical Investigation(ETS Research Report No. RR-17-14)[R]. NJ: Princeton: Educational Testing Service.

    [29]Bridgeman, B., & Ramineni, C. (2017). Design and Evaluation of Automated Qriting Evaluation Models: Relationships with Writing in Naturalistic Settings[J]. Assessing Writing, 34:62-71.

    [30]Bridgeman, B., Trapani, C., & Attali, Y. (2012). Comparison of Human and Machine Scoring of Essays: Differences by Gender, Ethnicity, and Country[J]. Applied Measurement in Education, 25(1):27-40.

    [31]Burstein, J. C., Kukich, K., & Wolff, S. et al. (1998). Computer Analysis of Essays[Z]// Paper Presented at the Annual Meeting of the National Council of Measurement in Education. IL: San Diego.

    [32]Chen, L, Tao, J., & Ghaffarzadegan, S. et al. (2018). End-to-End Neural Network Based Automated Speech Scoring[C]// Proceedings of the International Conference on Acoustics, Speech, and Signal Processing. IL: Calgary.

    [33]Crossley, S. (2020). Linguistic Features in Writing Quality and Development: An Overview[J]. Journal of Writing Research, 11(3):415-443.

    [34]Deane, P. (2013). On the Relation Between Automated Essay Scoring and Modern Views of the Writing Construct[J]. Assessing Writing, 18(1):7-24.

    [35]Elliot, S. M. (2001). IntelliMetric: From Here to Validity[Z]// Paper Presented at the Annual Meeting of the American Educational Research Association. IL: Seattle.

    [36]Elliot, S., M., & Mikulua, C. (2004). The Impact of MY Access!TM Use on Student Writing Performance: A Technology Overview and Four Studies[Z]// Paper Presented at the Annual Meeting of the American Educational Research Association (AERA). IL: San Diego.

    [37]Hao, S., Xu, Y., & Peng, H. et al. (2014). Automated Chinese Essay Scoring From Topic Perspective Using Regularized Latent Semantic Indexing[Z]// Paper Presented at the 22nd International Conference on Pattern Recognition. IL: Calgary.

    [38]Jiang, J., Bi, P., & Liu, H. (2019). Syntactic Complexity Development in the Writings of EFL Learners: Insights From a Dependency Syntactically-Annotated Corpus[J]. Journal of Second Language Writing, 46. doi:10.1016/j.jslw.2019.100666.

    [39]Ke, X., Zeng, Y., & Luo, H. (2016). Autoscoring Essays Based on Complex Networks[J]. Journal of Educational Measurement, 53(4):478-497.

    [40]Ke, Z. (2019). Automated Essay Scoring: Argument Persuasiveness[D]. Richardson: The University of Texas at Dallas.

    [41]Kusner, M. J., Loftus, J., & Russell, C. et al. (2017). Counterfactual Fairness[M]// Guyon, U., von Luxburg, S., & Bengio, H. M. et al. (Eds.). Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems. IL: Long Beach.

    [42]Landauer, T. K., Foltz, P. W., & Laham, D. (1998). Introduction to Latent Semantic Analysis[J]. Discourse Processes, 25:259-284.

    [43]Limpo, T., Alves, R. A., & Connelly, V. (2017). Examining the Transcription-Writing Link: Effects of Handwriting Fluency and Spelling Accuracy on Writing Performance via Planning and Translating in Middle Grades[J]. Learning and Individual Differences, 53:26-36.

    [44]Liu, L. (2017). A Comparative Study of Different Text Similarity Measures for Identification of Off-Topic Student Essays[J]. Boletin Tecnico/Technical Bulletin, 55(11):602-606.

    [45]Maharjan N., & Rus V. (2019). A Concept Map Based Assessment of Free Student Answers in Tutorial Dialogues[M]// Isotani, S., Millán, E., & Ogan, A. et al. (Eds). Artifificial Intelligence in Education(AIED 2019). Lecture Notes in Computer Science, vol. 11625, Cham: Springer:244-257.

    [46]Mayfield, E., & Black, A. (2020). Should You Fine-Tune BERT for Automated Essay Scoring?[C]//? Proceedings of the Fifteenth Workshop on Innovative Use of NLP for Building Educational Applications. IL: Seattle.

    [47]McNamara, D. S. (2015). The Tool for the Automatic Analysis of Text Cohesion (TAACO): Automatic Assessment of Local, Global, and Text Cohesion[J]. Behavior Research Methods, 48(4):1227-1237.

    [48]Nadeem F., Nguyen H., & Liu Y. et al. (2019). Automated Essay Scoring with Discourse-Aware Neural Models[C]// Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications. IL:Florence.

    [49]Nafa, F., Khan, J. I., & Othman, S. et al. (2016). Discovering Bloom Taxonomic Relationships Between Knowledge Units Using Semantic Graph Triangularity Mining[C]// Proceedings of the 2016 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery. IL: Chengdu.

    [50]Nguyen, H., & Litman D. (2018). Argument Mining for Improving the Automated Scoring of Persuasive Essays[C]// Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence. IL:New Orleans.

    [51]Page, E. B. (1966). The Imminence of Grading Essays by Computer[J]. Phi Delta Kappan, 48:238-243.

    [52]Persing, I., & Ng, V. (2013). Modeling Thesis Clarity in Student Essays[C]// Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. IL: Sofia.

    [53]Persing, I., & Ng, V. (2015). Modeling Argument Strength in Student Essays[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. IL: Beijing.

    [54]Rahimi, E., Van den Berg, J., & Veen, W. (2015). Facilitating Student-Driven Constructing of Learning Environments Using Web 2.0 Personal Learning Environments[J]. Computers & Education, 81:235-246.

    [55]Raquel, M., Lockwood, J., & Hamp-Lyons, L. (2014). Exploring the Use of an Automated Essay Scoring System for a Diagnostic Writing Test[C]// Proceedings of the 36th Language Testing Research Colloquium. IL: Amsterdam.

    [56]Ramineni, C., & Williamson, D. M. (2013). Automated Essay Scoring: Psychometric Guidelines and Practices[J]. Assessing Writing, 18(1):25-39.

    [57]Rupp, A. A. (2018). Designing, Evaluating, and Deploying Automated Scoring Systems with Validity in Mind: Methodological Design Decisions[J]. Applied Measurement in Education, 3:191-214.

    [58]Sakti, E., & Fauzi, M. A. (2016). Comparative Analysis of String Similarity and Corpus-Based Similarity for Automatic Essay Scoring System on e-Learning Gamification[C]// Proceedings of the International Conference on Advanced Computer Science & Information Systems. IL: San Diego.

    [59]Shermis, M. D., & Burstein, J. (2013). Handbook of Automated Essay Evaluation: Current Applications and New Directions[M]. London and New York: Routledge:1-12.

    [60]Sinharay, S., Zhang, M., & Deane, P. (2019). Prediction of Essay Scores From Writing Process and Product Features Using Data Mining Methods[J]. Applied Measurement in Education, 32:116-137.

    [61]Somasundaran, S., Riordan, B., & Gyawali, B. et al. (2016). Evaluating Argumentative and Narrative Essays Using Graphs[C]// Proceedings of the 26th International Conference on Computational Linguistics: Technical Papers. IL: Osaka.

    [62]Spandel, V., & Stiggins, R. J. (1980). Direct Measures of Writing Skill: Issues and Applications[M]. Eugene, OR: Northwest Regional Educational Laboratory.

    [63]Stab, D., Strobelt, H., & Rohrdantz, C. et al. (2014). Comparative Exploration of Document Collections: A Visual Analytics Approach[J]. Computer Graphics Forum, 33(3):201-210.

    [64]Uto, M., & Okano, M. (2020). Robust Neural Automated Essay Scoring Using Item Response Theory[C]// Proceedings of the Artificial Intelligence in Education, 21st International Conference. IL: Morocco.

    [65]Wachsmuth, H., Khatib, K., & Stein, B. (2016). Using Argument Mining to Assess the Argumentation Quality of Essays[C]// Proceedings of the 26th International Conference on Computational Linguistics. IL: Osaka.

    [66]Wolfe, E. W., Ng, D., & Baird, J. A. (2018). A Conceptual Framework for Examining the Human Essay Rating Process[C]// Paper Presented at the Annual Meeting of the National Council on Measurement in Education. IL: New York.

    [67]Xu, Y., Ke, D., & Su, K. (2017). Contextualized Latent Semantic Indexing: A New Approach to Automated Chinese Essay Scoring[J]. Journal of Intelligent Systems, 26(2):263-285.

    [68]Yang, L., Xin, T., & Cao, C. (2020). Predicting Evaluations of Essay by Computational Graph-Based Features[J]. Frontiers in Psychology. 11. doi:10.3389/fpsyg.2020.531262.

    [69]Yao, L, Haberman, S., & Zhang, M. (2019). Penalized Best Linear Prediction of True Test Scores[J]. Psychometrika, 84:186-211.

    [70]Yoon, S.-Y., & Bhat, S. (2018). A Comparison of Grammatical Proficiency Measures in the Automated Assessment of Spontaneous Speech[J]. Speed Communication, 99:221-230.

    [71]Zedelius, C. M., Mills, C., & Schooler, J. W. (2019). Beyond Subjective Judgments: Predicting Evaluations of Creative Writing from Computational Linguistic Features[J]. Behavior Research Methods, 51(2):879-894.

    [72]Zhang, M., Zhu, M., & Deane, P. et al. (2019). Analyzing Editing Behaviors in Writing Using Keystroke Logs[C]// Proceedings of the 83th Annual Meeting of the Psychometric Society. IL: New York.

    [73]Zhao, S., Zhang, Y., & Xiong, X. et al. (2017). A Memory-Augmented Neural Model for Automated Grading[C]//? Proceedings of the Fourth ACM Conference on Learning Scale. IL: Cambridge.

    [74]Zupanc, K., & Bosni?, Z. (2017). Automated Essay Evaluation with Semantic Analysis[J]. Knowledge-Based Systems, 120:118-132.

    收稿日期 2020-12-25責(zé)任編輯 汪燕

    Aided Ability Measurement by Artificial Intelligence:

    The Core Problems of Automatic Writing Scoring Research

    YANG Liping, XIN Tao

    Abstract: The automatic scoring of writing is an emerging research field in the current intelligent education, providing a more quantitative, real-time and robust scheme to alleviate the enormous pressure of economy and time cost in human rating. However, most current automatic writing scoring models take features as predictors to fit the measurement model of manual scoring. To match automatic essay scoring with the ultimate goal of improving students writing ability, the automatic scoring system should be constructed from the perspective of writing ability measurement, to clarify the range of measurement and break through the technical bottleneck of the shift from automatic essay scoring to ability evaluating. The core scientific problems that need to be addressed include: (1) How to establish an explicable feature system based on writing evaluation criteria, in order to solve the problem of decoupling between the automatic scoring and the evaluation standard; (2) How to break through the limitation of fitting for human scores to expand the score-prediction model to the ability-measurement model, and explore the evaluation model for each dimension of writing ability; (3) How to systematically demonstrate the reliability and validity of automatic writing scoring and emphasize the fairness across subgroups based on ensuring the accuracy of scoring in practice. In order to explore the effective construction and the reasonable path of using automatic writing scoring, future research can be advanced from such aspects as the combination of automatic scoring and manual scoring, the test of the stability and generalization of automatic writing scoring, the sustainability of writing ability development and the comparability of test scores.

    Keywords: Automatic Writing Scoring; Ability Measurement; Feature System; Evaluation Model; Reliability and Validity

    猜你喜歡
    評估模型
    建立氣象災(zāi)害評估機(jī)制 降低農(nóng)業(yè)經(jīng)濟(jì)損失
    試驗(yàn)靶場無線通信系統(tǒng)綜合效能評估方法
    基于支持向量回歸機(jī)的電能質(zhì)量評估
    信息安全管理體系在大型企業(yè)的應(yīng)用
    信息安全技術(shù)風(fēng)險(xiǎn)評估的理論與方法
    通信運(yùn)營企業(yè)基于客戶效益的業(yè)財(cái)融合研究及應(yīng)用
    建筑電氣工程建設(shè)中能源節(jié)能技術(shù)的應(yīng)用探討
    中國城市治理評估模型的建構(gòu)與應(yīng)用*
    江淮論壇(2015年6期)2016-03-09 23:08:09
    并購溢價(jià)率評估模型中控制權(quán)因素研究
    土地一級開發(fā)項(xiàng)目政府違約風(fēng)險(xiǎn)評估分析
    大冶市| 崇义县| 古蔺县| 铁岭县| 长丰县| 都昌县| 泰来县| 汶川县| 宣化县| 普安县| 乌苏市| 怀来县| 吉安市| 岑溪市| 肃宁县| 庆城县| 淮阳县| 金乡县| 北海市| 洞头县| 福清市| 清原| 泰州市| 芜湖县| 科技| 合江县| 交城县| 富顺县| 石城县| 江安县| 阳信县| 呈贡县| 泰顺县| 湖南省| 平湖市| 孟州市| 全椒县| 师宗县| 任丘市| 阳山县| 沙湾县|