魏揚(yáng)威, 黃萱菁
?
結(jié)合語(yǔ)言學(xué)特征和自編碼器的英語(yǔ)作文自動(dòng)評(píng)分①
魏揚(yáng)威, 黃萱菁
(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 上海 201203) (復(fù)旦大學(xué)上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室, 上海 201203)
近年來(lái), 越來(lái)越多的大規(guī)模英語(yǔ)考試采用了自動(dòng)評(píng)分系統(tǒng). 因此, 對(duì)英語(yǔ)作文自動(dòng)評(píng)分的研究有著非常重要的價(jià)值. 我們先依據(jù)英語(yǔ)作文寫作技巧提取了大量語(yǔ)言學(xué)特征, 再分別使用自編碼器, 特征值離散化方法對(duì)特征進(jìn)行重構(gòu), 最后我們使用分層多項(xiàng)模型來(lái)輸出文章的最終得分. 實(shí)驗(yàn)表明, 該方法能取得很好的預(yù)測(cè)效果, 而且面對(duì)不同主題的作文進(jìn)行預(yù)測(cè)時(shí)也能顯示出較好的魯棒性. 相比于傳統(tǒng)自動(dòng)評(píng)分方法皮爾森相關(guān)系數(shù)高出9.7%, 具有良好的實(shí)際應(yīng)用價(jià)值.
自動(dòng)評(píng)分; 自編碼器; 離散化; 文本特征提取
英語(yǔ)作文自動(dòng)評(píng)分使用自然語(yǔ)言處理相關(guān)技術(shù), 讓計(jì)算機(jī)系統(tǒng)對(duì)于目標(biāo)文章給出合適的得分. 隨著很多英語(yǔ)等級(jí)認(rèn)證考試報(bào)名人數(shù)的增加和計(jì)算技術(shù)的發(fā)展, 一些自動(dòng)評(píng)分的軟件已經(jīng)正式被使用. 國(guó)外最有代表性的自動(dòng)評(píng)分系統(tǒng)有: Project Essay Grade(PEG), 于1966年由美國(guó)的杜克大學(xué)(University of Duke)的Ellis Page等人開發(fā)[1]; intelligent Essay Assessor(IEA), 由美國(guó)科羅拉多大學(xué)(University of Colorado)開發(fā)[2]. e-rater評(píng)分系統(tǒng), 已經(jīng)正式被用來(lái)評(píng)測(cè)TOEFL和GRE考試中文章的質(zhì)量[3]. 性能優(yōu)異的自動(dòng)評(píng)分系統(tǒng)結(jié)合文本糾錯(cuò)的功能[4,5]能減少人的工作量, 極大地節(jié)約人力物力資源.
英語(yǔ)作文自動(dòng)評(píng)分的方法研究一直是一項(xiàng)具有挑戰(zhàn)性的, 且不斷被完善的任務(wù). 1996年Arthor Daigon通過對(duì)文章語(yǔ)言形式的考察進(jìn)行文章質(zhì)量評(píng)測(cè)[6]; 1998年, Leah S. Larkey使用了基于文本分類的方法取得了性能的提升[7]; 2011-2014年, Isaac Persing和Vincent Ng等人發(fā)表了一系列的文章, 使用了回歸方法分別從文章的組織結(jié)構(gòu)[8], 文章和對(duì)應(yīng)主題的相關(guān)性[9], 還有文章表達(dá)的清晰度方面[10]對(duì)文章質(zhì)量進(jìn)行評(píng)估; 2013年, Hongbo Chen和Ben He使用了排序的方法, 通過先對(duì)文章質(zhì)量進(jìn)行排序再進(jìn)行劃分等級(jí)來(lái)對(duì)文章評(píng)分[11].
自編碼器(autoencoder)是人工神經(jīng)網(wǎng)絡(luò)的一種, 通常用來(lái)學(xué)習(xí)特征的有效編碼. 2006年Hinton發(fā)表在science上的文章[17]提出了自編碼器, 引發(fā)了這幾年科學(xué)界對(duì)人工神經(jīng)網(wǎng)絡(luò)研究的熱潮. Hinton在文中使用了自編碼器對(duì)圖像的特征矩陣進(jìn)行壓縮編碼. 自編碼器也可以用于我們的英語(yǔ)自動(dòng)評(píng)分任務(wù), 一方面可以降低特征的維數(shù), 另一方面可以通過重構(gòu)捕捉到原始特征中最重要的信息.
一篇英語(yǔ)作文的原始特征直接用來(lái)進(jìn)行分類或者回歸, 往往很難得到很好的評(píng)分預(yù)測(cè)結(jié)果. 我們可以先使用自編碼器對(duì)原始特征進(jìn)行重編碼, 再使用編碼結(jié)果來(lái)對(duì)文章的評(píng)分進(jìn)行預(yù)測(cè).
自編碼器主要是學(xué)習(xí)一個(gè)近似等式:
這里的X表示輸入矩陣, w表示權(quán)重矩陣, b表示偏置. 自編碼器包括編碼和解碼的兩層結(jié)構(gòu). 通過編碼可以得到特征的另外一種表示方式, 再通過解碼將編碼結(jié)果還原出來(lái). 如果最終輸出的還原結(jié)果和輸入非常接近, 那么編碼結(jié)果就可以看成是輸入的近似代替.
自編碼器的意義不在于還原輸入數(shù)據(jù), 而是體現(xiàn)在對(duì)隱層神經(jīng)元的限制. 如圖1所示, 為了進(jìn)行壓縮編碼, 我們將隱層神經(jīng)元的數(shù)量設(shè)置為2, 這樣就可以將輸入的5維特征壓縮到2維. 當(dāng)隱層神經(jīng)元的數(shù)量大于輸入特征的維度時(shí), 可以得到特征的高維稀疏編碼結(jié)果.
顯然, 自編碼器的目標(biāo)函數(shù)是輸出結(jié)果和輸入之間的重構(gòu)誤差盡可能小. 其計(jì)算公式如式(2)所示:
當(dāng)然, 為了避免系統(tǒng)的過擬合, 我們還要加入一個(gè)正則化項(xiàng)來(lái)控制模型的復(fù)雜度增長(zhǎng):
(3)
如果我們訓(xùn)練的是稀疏自編碼器, 需要在目標(biāo)函數(shù)中再增加一個(gè)約束項(xiàng), 控制模型的稀疏性. 這里引入激活的概念, 如果最后傳遞函數(shù)的輸出結(jié)果非常接近于0, 那么我們認(rèn)為該神經(jīng)元沒有被激活. 而如果最后傳遞函數(shù)輸出的結(jié)果接近于1, 那么該神經(jīng)元被激活了. 通常來(lái)說, 傳遞函數(shù)為sigmoid函數(shù):
或者是:
(5)
再引入稀疏性參考, 通常是一個(gè)非常接近于0的值, 比如0.05. 然后計(jì)算和的信息增益, 用來(lái)描述這兩者之間分布的差別.
(7)
其中, S2表示隱層中神經(jīng)元的總數(shù), j是對(duì)隱層神經(jīng)元的索引. 對(duì)于稀疏編碼, 我們將上式的信息增益也作為懲罰項(xiàng)加入目標(biāo)函數(shù)中. 因此對(duì)于稀疏自編碼器, 其目標(biāo)函數(shù)為式(8)所示. 其中是一個(gè)系數(shù), 表示對(duì)稀疏性懲罰的力度, 這個(gè)值越大表示對(duì)稀疏性要求越高.
在有了壓縮編碼和稀疏編碼自編碼器的目標(biāo)函數(shù)之后, 我們可以進(jìn)一步利用優(yōu)化算法, 如梯度下降法, 來(lái)對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化以得到最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu). 在英語(yǔ)作文自動(dòng)評(píng)分任務(wù)中, 對(duì)于提取的原始特征, 我們可以進(jìn)一步使用自編碼器進(jìn)行重構(gòu). 通過控制隱層神經(jīng)元的數(shù)量, 一方面壓縮編碼進(jìn)行特征壓縮, 另一方面稀疏編碼將特征重構(gòu)到高維.
機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行數(shù)據(jù)訓(xùn)練時(shí), 有時(shí)候會(huì)遇到少量的異常樣本. 比如英語(yǔ)作文自動(dòng)評(píng)分任務(wù), 其中一維特征是平均每句話中第一人稱代詞所占的比例. 這個(gè)比例不會(huì)太高, 一般來(lái)說低于0.25, 一些異常學(xué)生作文在該維取值可能達(dá)到了0.8, 0.9或者更高. 為了削弱這些異常樣本的影響, 我們可以使用不同的區(qū)間來(lái)對(duì)特征值進(jìn)行分段. 比如這里我們可以取0~0.1, 0.1~0.2, 0.2~0.3, 0.3~0.4和0.4~1這幾個(gè)區(qū)間. 不論異常作文在該維度的取值是0.8還是0.9統(tǒng)統(tǒng)歸到0.4~1這個(gè)區(qū)間中, 其本身的特征值并不會(huì)加入系統(tǒng)訓(xùn)練. 這樣可以大大減少異常樣本對(duì)系統(tǒng)整體性能的干擾.
特征離散化關(guān)鍵問題就在于分割區(qū)間的選擇[18], 不同的分割區(qū)間直接影響到系統(tǒng)的性能. 我們首先將所有樣本都?xì)w為一個(gè)區(qū)間中, 使用信息增益的方式, 來(lái)決定是否進(jìn)一步分割區(qū)間, 再遞歸地分割其每個(gè)子區(qū)間. 首先是特征對(duì)應(yīng)的熵, 如式(9)所示:
其中是特征對(duì)應(yīng)的取值的集合,是上取值F對(duì)應(yīng)的比例. 下面我們使用分割邊界對(duì)特征劃分, 劃分之后其熵值計(jì)算方法為:
(10)
其中1和2分別是集合對(duì)應(yīng)分割邊界的兩個(gè)子集. 因此信息增益為:
當(dāng)然我們不能無(wú)限對(duì)特征值區(qū)間進(jìn)行分割, 因此, 我們需要增加一個(gè)停止分割條件[19]:
(12)
其中,是集合中的元素個(gè)數(shù), 使用以下公式進(jìn)行計(jì)算:
其中表示中元素的個(gè)數(shù),1和2分別表示1和2中元素的個(gè)數(shù). 有了上述條件之后, 我們?cè)趯?duì)連續(xù)特征進(jìn)行分割的時(shí)候就會(huì)逐漸收斂, 最終停止得到最優(yōu)的分割結(jié)果.
離散化能夠進(jìn)一步提升特征值的表達(dá)能力, 離散化之后的多維特征, 每個(gè)特征都可以有不同的權(quán)重, 因此特征的表達(dá)能力得到進(jìn)一步提升, 系統(tǒng)更加穩(wěn)定. 我們?cè)谶M(jìn)行自動(dòng)評(píng)分時(shí), 可以對(duì)于提取到的原始特征首先進(jìn)行離散化, 離散化后的高維特征再使用自編碼器重編碼. 重構(gòu)的特征最后分別使用支持向量機(jī)進(jìn)行回歸或者分層多項(xiàng)模型進(jìn)行分類, 以輸出一篇學(xué)生作文的最終得分.
一般地, 對(duì)英語(yǔ)作文的評(píng)價(jià)主要基于三個(gè)大的方面: 詞匯的使用, 即詞匯使用是否正確, 詞匯量是否豐富, 是否高級(jí)優(yōu)美; 語(yǔ)法的使用, 即語(yǔ)法結(jié)構(gòu)是否正確, 語(yǔ)法結(jié)構(gòu)是否復(fù)雜(不能過于單一), 句子是否通順; 話語(yǔ)的長(zhǎng)短和連貫性, 即句子和句子之間結(jié)構(gòu)是否緊湊.
2002年Eli Hinkel研究了母語(yǔ)是英語(yǔ)的學(xué)習(xí)者和母語(yǔ)非英語(yǔ)的學(xué)習(xí)者的英語(yǔ)寫作在詞法、從句和句子間關(guān)系三個(gè)方面應(yīng)用的差異, 提供了指導(dǎo)英語(yǔ)寫作的一些技巧[12]. 我們認(rèn)為這些差異和技巧能反映英語(yǔ)學(xué)習(xí)者的文章質(zhì)量, 因此從這些角度出發(fā), 提取了一些語(yǔ)言學(xué)特征. 大多數(shù)現(xiàn)有的評(píng)分系統(tǒng)往往給出的只是簡(jiǎn)單的特征, 如文章長(zhǎng)度, 句子長(zhǎng)度, 停用詞的個(gè)數(shù). 但是這些特征都不能直接反應(yīng)文章的寫作水平, 我們這里提取的特征, 每一項(xiàng)都旨在考察文章的表述能力和語(yǔ)言的運(yùn)用能力, 更加細(xì)致地考察了作者的寫作功底. 因此, 我們的特征能更好地完成作文評(píng)分的任務(wù).
3.1 詞法特征
詞法特征是對(duì)于英語(yǔ)寫作水平最基本的考察, 詞法的特征能反應(yīng)文章作者對(duì)于詞匯和短語(yǔ)的掌握能力. 如表1所示, 其中列舉類、語(yǔ)言活動(dòng)類、分析類、結(jié)果類和模糊類等是作者表述中常用的關(guān)鍵性名詞詞匯; 動(dòng)詞的不同時(shí)態(tài)以及動(dòng)詞不定式和動(dòng)名詞能夠考察作者對(duì)于動(dòng)詞形式變換的熟練程度; 形容詞和副詞在句法中常用作修飾成分, 能考察作者對(duì)于不同修飾詞其修飾程度的把握. 學(xué)生英語(yǔ)作文中詞匯量不能過于狹窄, 不能僅僅使用某一類的詞.
表1 詞法特征
3.2 從句特征
傳統(tǒng)的特征提取往往只有詞匯級(jí)別的考察. 但是僅僅考察作者對(duì)于詞法使用的能力是不夠的, 假如一篇作文通篇堆砌高級(jí)的詞匯或者精美的短語(yǔ), 可是全部使用單一的簡(jiǎn)單句、短句子, 按照作文評(píng)測(cè)的標(biāo)準(zhǔn)不能給予高分. 另一方面, 如果只考察詞匯, 系統(tǒng)很容易被學(xué)生作文刻意使用一些詞匯所欺騙[20]. 從句的特征考察的正是作者運(yùn)用復(fù)雜句式的能力, 如果文章中使用的詞匯優(yōu)美準(zhǔn)確, 而且能夠很好地運(yùn)用各類從句使句法不再單一, 這樣的文章是有理由給予較高分?jǐn)?shù)的.
表2 從句級(jí)別的特征
3.3 句子間關(guān)系
如果作者的文章中對(duì)于詞匯和從句已經(jīng)能夠很好的掌握, 可是句子和句子之間不連貫沒有邏輯, 我們顯然不能給予這篇文章很高的得分. 因此我們加入了句子間關(guān)系的特征, 用來(lái)考察作者文章對(duì)于前后句子連貫性句子間邏輯性的掌握. 如表3所示, 主要考察前后句的并列, 平行, 遞進(jìn), 因果, 轉(zhuǎn)折關(guān)系, 以及后一句是否是對(duì)前一句的說明或者限制. 以上就是我們?nèi)康恼Z(yǔ)言學(xué)特征. 首先從詞法方面, 考察了英語(yǔ)作文中對(duì)各類詞匯的掌握情況, 每類詞匯都有其特定的表達(dá)含義和語(yǔ)氣. 同時(shí)還考察了動(dòng)詞和形容詞的詞法活用, 反映了學(xué)生對(duì)于基本的語(yǔ)法知識(shí)、句子成分的理解. 然后我們考察了英語(yǔ)作文中從句的使用情況, 各類從句運(yùn)用得是否恰當(dāng)能極大地反映英語(yǔ)寫作水平的高低. 最后考察的是句子的前后關(guān)系, 我們認(rèn)為好的文章不僅要能有好的詞匯表達(dá), 好的從句使用, 還要在文章的組織結(jié)構(gòu)上要有一定的邏輯性, 連貫性. 其中從句級(jí)別特征和句子間關(guān)系特征在提取的時(shí)候, 我們先使用Stanford parser進(jìn)行句法分析[13], 再?gòu)木浞ǚ治鰳渖线M(jìn)行匹配.
表3 句子間關(guān)系的特征
本項(xiàng)研究的數(shù)據(jù)集在kaggle上公開, kaggle是一個(gè)機(jī)器學(xué)習(xí)比賽的公共平臺(tái), 我們可以免費(fèi)注冊(cè)賬號(hào)下載其舉辦的比賽的訓(xùn)練數(shù)據(jù). 該數(shù)據(jù)集是7-10年級(jí)的第一語(yǔ)言學(xué)習(xí)者的英語(yǔ)作文, 一共包含8個(gè)子集, 每個(gè)子集都是獨(dú)立的數(shù)據(jù), 獨(dú)立的主題, 平均文章長(zhǎng)度都不同. 數(shù)據(jù)集概況見表1, 其中數(shù)據(jù)子集2在kaggle中給出了2項(xiàng)評(píng)分, 我們?cè)谶@里選取了第1項(xiàng)評(píng)分, 即寫作應(yīng)用項(xiàng)作為其最終得分.
表4 數(shù)據(jù)集
如表4中所示, 文章類型主要是論述類、敘事類、說明類和回答問題類. 論述文、敘事文或者說明文要求作者的文章描述一個(gè)故事或者新聞. 而回答問題類則要求作者先閱讀一段材料, 再根據(jù)閱讀材料最后給出的問題和要求寫一篇文章. 8個(gè)數(shù)據(jù)子集的主題各自不同, 其中, 子集1要求談?wù)撚?jì)算機(jī)對(duì)生活帶來(lái)的影響; 子集2是談?wù)搱D書館是否需要對(duì)圖書內(nèi)容進(jìn)行審查; 子集3-6是先閱讀材料再根據(jù)提示寫作文, 4篇材料也都不同; 子集7要求寫一篇關(guān)于耐心的故事; 子集8說明笑是人際關(guān)系中的一個(gè)重要元素, 要求寫一篇關(guān)于笑的文章.
5.1 實(shí)驗(yàn)評(píng)測(cè)
(15)
(16)
其中A,E分別表示第篇文章的人工評(píng)分和系統(tǒng)評(píng)分,表示文章的總數(shù). 皮爾森相關(guān)系數(shù)用來(lái)反映系統(tǒng)評(píng)分和人工評(píng)分的線性相關(guān)程度, 取值范圍在[-1,1]之間, 值越大說明相關(guān)性越高. 接近于0表示人工評(píng)分和系統(tǒng)評(píng)分幾乎沒有相關(guān)性, 接近于1表示人工評(píng)分和系統(tǒng)評(píng)分幾乎一致, 而小于0則表示人工評(píng)分和系統(tǒng)評(píng)分負(fù)相關(guān).表示系統(tǒng)得分和人工得分之間的平均偏差,表示系統(tǒng)得分和人工得分之間的均方偏差. 相關(guān)系數(shù)用來(lái)作為最主要的評(píng)測(cè)指標(biāo), 平均偏差和均方偏差作為參考. 我們進(jìn)行5折交叉驗(yàn)證, 對(duì)于每個(gè)數(shù)據(jù)子集, 隨機(jī)切分成5份, 每次使用其中3份訓(xùn)練, 在第4份上調(diào)整參數(shù), 在最后1份上進(jìn)行測(cè)試.
為了進(jìn)行對(duì)比我們分別引入了兩個(gè)baseline系統(tǒng), 其中baseline1系統(tǒng)是kaggle在該比賽中用的baseline, 使用文章的單詞數(shù)和文章的字符個(gè)數(shù)對(duì)文章的得分進(jìn)行預(yù)測(cè). 對(duì)于baseline2系統(tǒng)我們提取了一些目前系統(tǒng)中常用的特征, 文章的字符長(zhǎng)度, 文章的單詞長(zhǎng)度, 文章中疑問句和感嘆句個(gè)數(shù), 高級(jí)詞匯個(gè)數(shù), 拼寫錯(cuò)誤個(gè)數(shù), 停用詞個(gè)數(shù), n-gram和POS n-gram等特征, 并且結(jié)合Hongbo Chen于2012年發(fā)表在IEEE上的文章[16]中使用的特征, 來(lái)進(jìn)行評(píng)分.
5.2 特征效果對(duì)比
我們首先使用最簡(jiǎn)單的方法來(lái)對(duì)比不同特征對(duì)于系統(tǒng)的影響, 直接用支持向量機(jī)(SVM)對(duì)于提取的特征進(jìn)行回歸[14]. 具體使用的是libsvm[15].
表5 實(shí)驗(yàn)結(jié)果
如表5中所示, 我們的語(yǔ)言學(xué)特征在這8個(gè)子集中的7個(gè)子集上取得了最高的人機(jī)評(píng)測(cè)相關(guān)系數(shù). 下面我們看一下這8個(gè)子集上的整體評(píng)測(cè)效果, 因?yàn)槊總€(gè)子集的評(píng)分區(qū)間不同, 所以我們先對(duì)得分區(qū)間進(jìn)行歸一化, 其公式如式(17)所示.
其中,表示文章的得分, max()表示所在子集的最高分, min()表示所在子集的最低分.
歸一化之后, 我們?cè)賮?lái)看8個(gè)子集上的整體效果. 從全部數(shù)據(jù)結(jié)果來(lái)看, 相比于baseline1系統(tǒng)和baseline2系統(tǒng), 語(yǔ)言學(xué)特征系統(tǒng)評(píng)分在相關(guān)系數(shù)方面分別取得了14.1%和5.4%的性能提升.
表6 8個(gè)子集整體效果
5.3 自編碼器
下面我們使用編碼器對(duì)于提取到的特征進(jìn)行重構(gòu), 語(yǔ)言學(xué)特征系統(tǒng)提取到的原始特征總共194維, 我們分別進(jìn)行壓縮編碼和稀疏編碼, 實(shí)驗(yàn)效果如表7所示.
表7 自編碼器特征重構(gòu)
表7中20維~140維是使用自編碼器進(jìn)行特征的壓縮編碼, 200維~2000維是使用自編碼器進(jìn)行特征的稀疏編碼. 其中特征壓縮到100維時(shí), 此時(shí)的相關(guān)系數(shù)達(dá)到0.787, 比直接使用支持向量機(jī)進(jìn)行回歸效果提升了3.4%.
5.4 特征值離散化
我們?cè)俳Y(jié)合特征值的離散化, 先使用基于于信息增益的方法, 將連續(xù)特征離散化到高維的二值特征. 再使用自編碼器來(lái)進(jìn)行特征壓縮. 其實(shí)驗(yàn)效果如表8所示. 使用特征值離散化后, 原始特征194維擴(kuò)展到了15800維二值的0,1特征. 我們?cè)偈褂米跃幋a器對(duì)這15800維特征進(jìn)行壓縮重編碼. 如表8所示, 當(dāng)自編碼器將特征維數(shù)壓縮到1000維時(shí)相關(guān)系數(shù)達(dá)到0.803, 相比于未經(jīng)過特征值離散化效果提升了2.0%.
表8 特征離散化后的特征重編碼
5.5 分層多項(xiàng)模型
考慮到我們使用支持向量機(jī)進(jìn)行回歸的輸出結(jié)果是連續(xù)性的值, 而人工評(píng)分給出的是離散化的得分值, 因此我們可以嘗試使用分類的方法進(jìn)行自動(dòng)評(píng)分. 然而一般的分類方式其類別和類別之間沒有嵌套或者大小的關(guān)系, 這和我們的任務(wù)相違背. 這里我們使用分層多項(xiàng)模型(Hierarchical Multinomial Model)來(lái)進(jìn)行分類, 在該模型中, 類別和類別之間有嵌套包含的關(guān)系,這和我們自動(dòng)評(píng)分任務(wù)中得分和得分之間的關(guān)系非常吻合.具體使用的是matlab實(shí)現(xiàn)的機(jī)器學(xué)習(xí)工具包[1]http://cn.mathworks.com/help/stats/index.html. 為了進(jìn)行對(duì)比, 我們同樣將支持向量機(jī)的評(píng)分結(jié)
表9 回歸和分類結(jié)果對(duì)比
如表9所示, 支持向量機(jī)回歸輸出的是離散的值, 其對(duì)作文評(píng)分的結(jié)果在規(guī)整到人工評(píng)測(cè)的邊界之后, 人機(jī)相關(guān)系數(shù)從0.803下降到0.774. 相比之下, 分層多項(xiàng)模型雖然給出的人機(jī)相關(guān)系數(shù)是0.792, 但是因?yàn)槭欠诸惖慕Y(jié)果所以不需要進(jìn)一步規(guī)整, 相比于支持向量機(jī)的結(jié)果顯然更優(yōu).
我們對(duì)于baseline1和baseline2同樣加入了自編碼器, 特征離散化, 分層多項(xiàng)模型進(jìn)行測(cè)試. 結(jié)合語(yǔ)言學(xué)特征模型, 這三組系統(tǒng)的實(shí)驗(yàn)效果如圖2所示. 縱向比較來(lái)看, 無(wú)論哪一組實(shí)驗(yàn), 我們的語(yǔ)言學(xué)特征系統(tǒng)和兩個(gè)baseline比較, 均能取得最優(yōu)的效果. 橫向來(lái)看, 相比于最原始的支持向量機(jī)回歸, 我們的自編碼器, 特征值離散化的使用均能使得系統(tǒng)的性能得到進(jìn)一步提高. 因?yàn)榛貧w得出的結(jié)果是連續(xù)性數(shù)值, 輸出得分在規(guī)整之后系統(tǒng)性能必然會(huì)有所下降. 最后我們使用分層多項(xiàng)模型進(jìn)行分類, 直接給與一篇作文輸出離散的得分結(jié)果, 這相比于回歸之后再規(guī)整的結(jié)果人機(jī)相關(guān)系數(shù)更高.
5.6 主題無(wú)關(guān)性
最后我們從主題依賴性的角度出發(fā)來(lái)考察這3組系統(tǒng). 因?yàn)閿?shù)據(jù)集包含8個(gè)子集, 因此我們將全部數(shù)據(jù)按主題的不同分成5份進(jìn)行交叉驗(yàn)證, 使得訓(xùn)練用的作文和測(cè)試作文之間沒有主題交叉. 其實(shí)驗(yàn)效果如下表所示. 可以看出, 兩個(gè)baseline系統(tǒng), 特別是baseline2系統(tǒng)中引入了大量n-gram等和文章主題相關(guān)的特征. 這直接導(dǎo)致了在預(yù)測(cè)其他主題作文時(shí)系統(tǒng)性能的下降. 而我們的語(yǔ)言學(xué)特征系統(tǒng)使用的都是主題無(wú)關(guān)特征, 在面對(duì)不同主題的測(cè)試樣本時(shí), 依然能保持很好的魯棒性.
表10 8個(gè)子集間相互進(jìn)行交叉驗(yàn)證
本文依據(jù)英文寫作的技巧, 提取了大量的主題無(wú)關(guān)特征. 然后通過特征離散化減少異常樣本對(duì)系統(tǒng)的干擾, 自編碼器對(duì)特征進(jìn)一步重構(gòu)以提高特征表達(dá)能力. 最后我們分析了作文評(píng)分任務(wù)的特點(diǎn)使用分層多項(xiàng)模型來(lái)輸出文章的最終得分. 實(shí)驗(yàn)表明, 一方面我們的模型和特征要顯著優(yōu)于傳統(tǒng)的方法, 另一方面我們的系統(tǒng)在測(cè)試不同主題的作文時(shí)顯示出了良好的主題無(wú)關(guān)性.
1 梁茂成,文秋芳.國(guó)外作文自動(dòng)評(píng)分系統(tǒng)評(píng)述及啟示.外語(yǔ)電化教學(xué),1997:18–24.
2 Attali Y, Burstein J. Automated essay scoring with e-rater?V. 2. The Journal of Technology, Learning and Assessment, 2006, 4(3): 3–30.
3 Daigon A. Computer grading of English composition. The English Journal, 1966, 55(1): 46–52.
4 Landauer TK. Automatic essay assessment. Assessment in education: Principles, policy & practice, 2003, 10(3): 295–308.
5 Dale R, Anisimoff I, Narroway G. HOO 2012: A report on the preposition and determiner error correction shared task. The 7th Workshop on the Innovative Use of NLP for Building Educational Applications. June 3-8, 2012. 54–62.
6 Ng HT, Wu SM, Wu Y, et al. The CoNLL-2013 shared task on grammatical error correction. Proc. of the Seventeenth Conference on Computational Natural Language Learning. August 8–9, 2013.1–12.
7 Larkey LS. Automatic essay grading using text categorization techniques. Proc. of the 21st annual international ACM SIGIR conference on Research and development in information retrival. 1998. 90–95.
8 Persing I, Davis A, Ng V. Modeling organization in student essays. Proc. of the 2010 Conference on Empirical Methods in Natural Language Processing. 2010. 229–239.
9 Persing I, Ng V. Modeling prompt adherence in student essays. Proc. of the 52nd Annual Meeting of the Association for Computational Linguistics(ACL). June 2014. 1534–1543.
10 Persing I, Ng V. Modeling thesis clarity in student essays. Proc. of the 51st Annual Meeting of the Association for Computational Linguistics. August4-9, 2013. 260–269.
11 Chen H, He B. Automatic essay scoring by maximizing human-machine agreement. Proc. of the 2013 conference on Empirical Methods in Natural Language Processing. 2013. 1741–1752.
12 Hinkel E. Second language writers’ text: Linguistic and rhetorical features. Routledge, 2002.
13 Marneffe MCD, Cartney BM, Manning CD. Generating typed dependency parses from phrase structure parses. Proc. of Language Resources and Evaluation Conference. 2006.
14 Burges CJC. A tutorial on support vector machines for pattern recognition. Data mining and knowledge discovery, 1998, 2(2): 121–167.
15 Chang CC, Lin CJ. LIBSVM: A library for support vector machines. ACM Trans. on Intelligent Systems and Technology. April, 2011.
16 Chen H, He B, Luo TJ, et al. A ranked-based learning approach to automated essay scoring. Second International Conference on Cloud and Green Computing. 2012.
17 Hinton GE, Salakhutdinov RR. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504–507.
18 Dougherty J, Kohavi R, Sahami M. Supervised and unsupervised discretization of continuous features. Machine learning: Proc. of the Twelfth International Conference. 1995. 12. 194–202.
19 Dougherty J, Kohavi R, Sahami M. Supervised and unsupervised discretization of continuous features. Machine Learning: Proc. of the 12th International Conference. San Mateo. Morgan Kaufmann Publishers. 1995. 194–202.
20 葛詩(shī)利.面向大學(xué)英語(yǔ)教學(xué)的通用計(jì)算機(jī)作文評(píng)分和反饋方法研究[博士學(xué)位論文].北京:北京語(yǔ)言大學(xué),2008.
Automatic Essay Scoring Using Linguistic Features and Autoencoder
WEI Yang-Wei, HUANG Xuan-Jing
(School of Computer Science, Fudan University, Shanghai 201303, China) (Shanghai Key Laboratory of Intelligent Information Processing, Fudan University, Shanghai 201303, China)
In recent years, more and more large-scale English tests begin to use the automatic scoring system. Therefore, the research of this system is of great value. In this paper, we first extract a lot of features according to English writing guide. Then we use autoencoder and discretization algorithm to learn a different representation of features. Finally, we use a hierarchical multinomial model to output the final scores of articles. Experimental results indicate that this method not only achieves great performance for those essays of the same topic, but also shows good robustness when predicts essays of different topics. Compared with the traditional automatic score method, our approach achieves higher than 9.7% in term of Pearson Correlation Coefficient, with good practical values.
automatic essay scoring; autoencoder; discretization; textual feature extraction
國(guó)家自然科學(xué)基金(61472088)
2016-04-22;收到修改稿時(shí)間:2016-05-23
[10.15888/j.cnki.csa.005535]