摘 要:以HSK動(dòng)態(tài)作文語料庫中56篇蒙古國漢語學(xué)習(xí)者的作文語料為研究對象,使用語料庫調(diào)查法,數(shù)據(jù)分析法和多元線性回歸法,考察了詞匯、文字、語法3個(gè)特征對蒙古國漢語學(xué)習(xí)者作文質(zhì)量的影響.研究結(jié)果發(fā)現(xiàn):詞匯、文字、語法都能影響學(xué)習(xí)者的作文質(zhì)量,其中詞匯特征對作文質(zhì)量影響最大;不同分?jǐn)?shù)段的作文中各特征的影響不均衡;經(jīng)過回歸診斷,選取詞數(shù)、詞種數(shù)、中級詞數(shù)、高級詞數(shù)4個(gè)指標(biāo)構(gòu)建多元線性回歸模型,檢驗(yàn)出對自動(dòng)評分最顯著有效的參考指標(biāo)是詞匯特征的下轄指標(biāo)詞數(shù).
關(guān)鍵詞:漢語二語學(xué)習(xí)者;蒙古國漢語學(xué)習(xí)者;作文質(zhì)量;影響因素
中圖分類號:O212;H030 文獻(xiàn)標(biāo)志碼:A文章編號:1000-2367(2025)03-0112-09
學(xué)界對漢語二語學(xué)習(xí)者書面語輸出質(zhì)量影響因素的研究較多,主要涉及語言特征和內(nèi)容質(zhì)量兩部分[1],其中語言特征包括作文長度、語法、詞匯特征等內(nèi)容[2],詞匯特征指標(biāo)主要涉及詞種數(shù)和高級詞種數(shù)[3],詞匯復(fù)雜性和詞匯準(zhǔn)確性[4]等內(nèi)容.針對蒙古國漢語學(xué)習(xí)者作文質(zhì)量影響因素的研究多集中在單個(gè)語言特征研究方面,將不同語言特征綜合對比的研究不多.本文選取了詞匯、文字、語法3個(gè)一級指標(biāo)及其下轄的16個(gè)二級指標(biāo),分別考察這些語言特征對蒙古國漢語學(xué)習(xí)者作文質(zhì)量的影響.
1 研究設(shè)計(jì)
1.1 研究問題
研究問題包括以下幾個(gè)方面:1)詞匯、文字、語法是否影響蒙古國漢語學(xué)習(xí)者作文質(zhì)量?2)3個(gè)特征中哪個(gè)特征對蒙古國漢語學(xué)習(xí)者總體作文質(zhì)量影響最大?3)不同分?jǐn)?shù)段的作文,其質(zhì)量受詞匯、文字、語法的影響是否不同?4)16個(gè)二級指標(biāo)中,哪個(gè)是最顯著的評分參考指標(biāo)?
1.2 語料來源及處理步驟
本文從北京語言大學(xué)HSK動(dòng)態(tài)作文語料庫中檢索到56篇蒙古國漢語學(xué)習(xí)者作文語料,按照56篇的作文分?jǐn)?shù)劃分為3個(gè)階段,即A[80,90]、B(60,80)、C[50,60].
語料處理步驟如下:首先將作文語料導(dǎo)出并整理成電子文本,使用Corpus Word Parser語料庫分詞和詞性標(biāo)注程序①統(tǒng)計(jì)詞數(shù)、詞種數(shù)等指標(biāo);其次利用漢語考試服務(wù)網(wǎng)②中的《國際中文教育中文水平等級標(biāo)準(zhǔn)》(2021)進(jìn)行詞匯的等級統(tǒng)計(jì)和詞性統(tǒng)計(jì);最后將統(tǒng)計(jì)數(shù)據(jù)按照作文分?jǐn)?shù)從高到低排列,導(dǎo)入SPSS數(shù)據(jù)軟件分析結(jié)果.
1.3 研究指標(biāo)的選取與分析
本研究首先建立作文分?jǐn)?shù)為因變量,自變量為詞數(shù)由于語篇中有超綱詞出現(xiàn),本文選取自變量初級詞、中級詞、高級詞,不統(tǒng)計(jì)超綱詞的數(shù)量,因此還需單列出詞數(shù)這一總指標(biāo)進(jìn)行統(tǒng)計(jì).、詞種數(shù)、初級詞數(shù)、中級詞數(shù)、高級詞數(shù)、總字?jǐn)?shù)本研究總字?jǐn)?shù)指標(biāo)作為語料篇幅長度的統(tǒng)計(jì),與文字特征下轄二級指標(biāo)并列統(tǒng)計(jì)說明.、錯(cuò)字?jǐn)?shù)、別字?jǐn)?shù)、漏字?jǐn)?shù)、多字?jǐn)?shù)、關(guān)聯(lián)詞語數(shù)、人稱代詞數(shù)、連詞數(shù)、副詞數(shù)、助詞數(shù)、介詞數(shù)的數(shù)據(jù)集.被試者均為蒙古國漢語學(xué)習(xí)者,按照作文分?jǐn)?shù)劃分為3個(gè)分?jǐn)?shù)段,分別是高分段[80,90]、中分段(60,80)和低分段[50,60],高分段作文11篇,中分段作文30篇,低分段作文15篇,另外高分段和低分段的分?jǐn)?shù)都是10分的差距,只有中分段的作文有20分的差距.
其次,在詞匯、文字、語法3個(gè)特征下,細(xì)分為16個(gè)具體指標(biāo).運(yùn)用數(shù)理統(tǒng)計(jì)法,統(tǒng)計(jì)作文語料的自變量,將蒙古國漢語學(xué)習(xí)者的56篇作文語料按照詞匯、文字和語法3個(gè)特征統(tǒng)計(jì)為3個(gè)工作表,并對每個(gè)特征下所含的具體指標(biāo)進(jìn)行詳細(xì)分析,方便導(dǎo)入SPSS數(shù)據(jù)分析軟件研究數(shù)據(jù)結(jié)果.
詞匯特征按照詞匯量、詞匯等級和詞匯豐富性劃分為詞數(shù)、詞種數(shù)、初級詞數(shù)、中級詞數(shù)和高級詞數(shù)5個(gè)指標(biāo);文字特征按照HSK字處理“HSK動(dòng)態(tài)作文語料庫”http://hsk.blcu.edu.cn/語料標(biāo)注及代碼說明.劃分指標(biāo)進(jìn)行分類,即[C]錯(cuò)字?jǐn)?shù)、[B]別字?jǐn)?shù)、[L]漏字?jǐn)?shù)、[D]多字?jǐn)?shù)和總字?jǐn)?shù)5個(gè)指標(biāo);語法特征在前人研究基礎(chǔ)上選取在語篇中最值得關(guān)注的指標(biāo),即關(guān)聯(lián)詞語數(shù)、人稱代詞數(shù)、連詞數(shù)、助詞數(shù)、副詞數(shù)和介詞數(shù)6個(gè)指標(biāo).連詞是關(guān)聯(lián)詞語的一種,但本研究發(fā)現(xiàn)蒙古國漢語學(xué)習(xí)者作文語料中除連詞之外,關(guān)聯(lián)詞語的使用較為顯著,因此分開考察這兩個(gè)指標(biāo).
最后,通過語料庫分詞和詞性標(biāo)注程序?qū)⒆魑恼Z料的電子文本進(jìn)行切分,統(tǒng)計(jì)作文的總字?jǐn)?shù)、總詞數(shù)和詞匯種類數(shù)量,在漢語考試服務(wù)網(wǎng)中查詢切分出來的詞匯的等級并統(tǒng)計(jì).通過詞性標(biāo)注統(tǒng)計(jì)關(guān)聯(lián)詞語、人稱代詞、連詞、助詞、副詞、介詞的數(shù)量.
2 數(shù)據(jù)分析
2.1 描述性統(tǒng)計(jì)結(jié)果
2.1.1 數(shù)據(jù)集各變量描述分析
本文對數(shù)據(jù)集中各變量的分布情況進(jìn)行了數(shù)據(jù)統(tǒng)計(jì),蒙古國漢語學(xué)習(xí)者的56篇作文語料的作文分?jǐn)?shù)均值為68.13分,表明作文分?jǐn)?shù)整體在合格以上,作文質(zhì)量有待整體提高.字?jǐn)?shù)的均值為349.64字,詞數(shù)的均值在236左右.HSK(高等)寫作評分標(biāo)準(zhǔn)[5]中對篇幅長度的要求為400~600字,因此蒙古國漢語學(xué)習(xí)者56篇作文語料的篇幅長度為中等水平.由作文分?jǐn)?shù)和篇幅長度的均值可知,蒙古國漢語學(xué)習(xí)者整體上的作文質(zhì)量為中等,有很大的提升空間.詞匯等級中初級詞數(shù)遠(yuǎn)大于中級詞數(shù)和高級詞數(shù),人稱代詞數(shù)、助詞數(shù)、副詞數(shù)的分布均值相差不大,由此可知,教師應(yīng)在寫作教學(xué)中著重強(qiáng)調(diào)中級詞和高級詞.
2.1.2 高分段語料描述性分析
本研究共收集蒙古國漢語學(xué)習(xí)者高分段作文語料11篇,其中最高分為90分,最低分為80分,作文字?jǐn)?shù)均值達(dá)到420字,符合HSK高等作文評分標(biāo)準(zhǔn)中對篇幅長度的要求.詞種數(shù)在3個(gè)分?jǐn)?shù)段中分布最多.但是,與中分段和低分段作文語料相比,高分段作文中初級詞數(shù)均值高于中分段和低分段;中級詞數(shù)均值高于低分段,低于中分段;高級詞數(shù)均值低于中分段和低分段.詞匯等級分布結(jié)果顯示詞匯特征在3個(gè)分?jǐn)?shù)段中的影響程度有待進(jìn)一步探究.
2.1.3 中分段語料描述性分析
中分段作文語料數(shù)量較多,一共有30篇.中分段作文最高分為75分,最低分為65分,作文總字?jǐn)?shù)均值約為368字.與高分段相比,中分段作文錯(cuò)字?jǐn)?shù)、別字?jǐn)?shù)、多字?jǐn)?shù)均值較高,而漏字?jǐn)?shù)均值遠(yuǎn)低于高分段作文;與低分段相比,中分段作文的漏字?jǐn)?shù)均值與其相等,錯(cuò)字?jǐn)?shù)和別字?jǐn)?shù)均值較低,反而多字?jǐn)?shù)均值高于低分段作文.由此可知,教師在教學(xué)中要關(guān)注高分段學(xué)習(xí)者作文寫作中存在的漏字現(xiàn)象;注重引導(dǎo)中分段學(xué)生寫作中多字的寫作偏誤;對低分段學(xué)生應(yīng)打好漢字識記基礎(chǔ),避免錯(cuò)別字的出現(xiàn).
2.1.4 低分段語料描述性分析
低分段作文共有15篇,其中最高分為60分,最低分為50分,作文總字?jǐn)?shù)均值約為268字,與中、高分?jǐn)?shù)段作文篇幅長度相比,低分段作文篇幅長度預(yù)測作用較強(qiáng).低分段作文與高分段作文和中分段作文在詞匯特征和文字特征的各個(gè)指標(biāo)上呈現(xiàn)不同程度的差別,在語法特征的6個(gè)指標(biāo)中,低分段作文的均值都低于中分段和高分段作文,由此可見,低分段作文學(xué)習(xí)者的寫作弱勢體現(xiàn)在語法特征方面.特別是人稱代詞和助詞方面,在教學(xué)中,應(yīng)該著重提醒學(xué)生人稱代詞的使用和助詞的區(qū)分.
2.2 相關(guān)與回歸分析結(jié)果
2.2.1 3個(gè)特征與作文質(zhì)量回歸分析
詞匯、文字、語法3個(gè)特征對作文質(zhì)量的預(yù)測作用歸納在回歸分析中,結(jié)果如表1所示.
模型2.文字特征預(yù)測變量為(常量),多字?jǐn)?shù)D,漏字?jǐn)?shù)L,總字?jǐn)?shù),錯(cuò)字?jǐn)?shù)C,別字?jǐn)?shù)B.
模型3.語法特征預(yù)測變量為(常量),介詞數(shù),關(guān)聯(lián)詞語數(shù),人稱代詞數(shù),助詞數(shù),副詞數(shù),連詞數(shù).
因變量為作文分?jǐn)?shù).
詞匯特征與作文質(zhì)量回歸模型顯示,詞匯特征5個(gè)指標(biāo)能夠解釋作文質(zhì)量56.0%的變異(r2=0.560),即本研究選取的詞數(shù)、詞種數(shù)、初級詞數(shù)、中級詞數(shù)、高級詞數(shù)5個(gè)指標(biāo)對作文質(zhì)量的影響程度為56.0%.對于一篇作文來說,詞匯特征的影響占到一半以上的比例,說明詞匯指標(biāo)對蒙古國漢語學(xué)習(xí)者作文質(zhì)量的影響是顯著的.
文字特征與作文質(zhì)量回歸模型結(jié)果顯示,文字特征能夠解釋作文質(zhì)量61.3%的變異(r2=0.613).本文按照HSK動(dòng)態(tài)作文語料庫字處理方法選取了文字特征的5個(gè)指標(biāo),即總字?jǐn)?shù)、錯(cuò)字?jǐn)?shù)、別字?jǐn)?shù)、漏字?jǐn)?shù)和多字?jǐn)?shù),結(jié)果表明,這些指標(biāo)對作文質(zhì)量的影響是顯著的,按照效應(yīng)量比較,詞匯和文字特征對作文質(zhì)量的解釋力都在50.0%以上,占到預(yù)測作用的一半,由此可見,詞匯和文字特征對作文質(zhì)量的預(yù)測貢獻(xiàn)最大.
語法特征與作文質(zhì)量回歸模型顯示,語法特征中關(guān)聯(lián)詞語數(shù)、人稱代詞數(shù)、連詞數(shù)、助詞數(shù)、副詞數(shù)和介詞數(shù)6個(gè)指標(biāo)能夠解釋作文質(zhì)量48.4%的變異(r2=0.484).結(jié)果表明,與詞匯特征和文字特征相比,語法特征對作文質(zhì)量的影響程度次之.
2.2.2 3個(gè)特征下轄的指標(biāo)與作文質(zhì)量相關(guān)分析
本研究對詞匯、文字、語法下轄的各指標(biāo)與作文質(zhì)量進(jìn)行了相關(guān)分析注:**在0.01水平(雙側(cè))上顯著相關(guān),*在0.05水平(雙側(cè))上顯著相關(guān).,數(shù)據(jù)結(jié)果相關(guān)系數(shù)r滿足:當(dāng)|r|≥0.5時(shí),認(rèn)為A和B有強(qiáng)的相關(guān)性;當(dāng)0.3≤|r|<0.5時(shí),可以認(rèn)為有弱的相關(guān)性;當(dāng)|r|<0.3時(shí),認(rèn)為沒有相關(guān)性.數(shù)值的正負(fù)代表相關(guān)是正向相關(guān)或者負(fù)向相關(guān).見表2.
由表2可知,詞匯特征內(nèi)部的5個(gè)指標(biāo)中,詞數(shù)和初級詞數(shù)與作文質(zhì)量相關(guān)性強(qiáng)(r=0.758;r=0.686;p<0.01).詞種數(shù)、高級詞數(shù)和中級詞數(shù)與作文質(zhì)量的相關(guān)性不明顯,且依次遞減.
在文字特征內(nèi)部,只有總字?jǐn)?shù)即篇幅長度這一個(gè)指標(biāo)與作文質(zhì)量相關(guān)性強(qiáng)(r=0.703;p<0.01).而錯(cuò)字?jǐn)?shù)與作文質(zhì)量呈較弱的負(fù)相關(guān),剩下3個(gè)指標(biāo)與作文質(zhì)量的相關(guān)性不明顯,別字、漏字、多字現(xiàn)象的出現(xiàn)有時(shí)不會(huì)影響語篇的整體閱讀和意思的表達(dá),因此相關(guān)系數(shù)非常小且可能為正相關(guān).
在語法特征內(nèi)部6個(gè)指標(biāo)中,其中5個(gè)指標(biāo)與作文質(zhì)量相關(guān)性較為均衡且一般,相關(guān)性從強(qiáng)到弱依次為助詞數(shù)、人稱代詞數(shù)、副詞數(shù)、關(guān)聯(lián)詞語數(shù)、介詞數(shù)(r=0.640;r=0.550;r=0.497;r=0.451;r=0.444;p<0.01).
由以上分析可知,詞匯、文字、語法3個(gè)特征下轄的二級指標(biāo)對作文質(zhì)量的影響顯著性不同,其中詞匯特征中詞數(shù)、初級詞數(shù)與作文質(zhì)量強(qiáng)相關(guān)(r=0.758;r=0.686;p<0.01),文字特征中總字?jǐn)?shù)與作文質(zhì)量強(qiáng)相關(guān)(r=0.703;p<0.01),語法特征中助詞數(shù)、人稱代詞數(shù)、副詞數(shù)、關(guān)聯(lián)詞語數(shù)、介詞數(shù)與作文質(zhì)量呈現(xiàn)由強(qiáng)到弱的相關(guān)性(r=0.640;r=0.550;r=0.497;r=0.451;r=0.444;p<0.01).其余指標(biāo)與蒙古國漢語學(xué)習(xí)者作文質(zhì)量的相關(guān)性不強(qiáng).
以上相關(guān)與回歸分析結(jié)果顯示,詞匯、文字、語法對蒙古國漢語學(xué)習(xí)者作文質(zhì)量存在影響,但詞匯、文字、語法3個(gè)特征下轄的二級指標(biāo)對作文質(zhì)量的影響程度不均衡,其中詞匯特征下轄的詞數(shù)指標(biāo)因其系數(shù)最大,所以相關(guān)性最強(qiáng).
2.2.3 3個(gè)分?jǐn)?shù)段語料各變量相關(guān)分析
本研究對3個(gè)分?jǐn)?shù)段的作文語料進(jìn)行區(qū)分后,分析不同分?jǐn)?shù)段作文語料各變量的相關(guān)性,變量間Pearson相關(guān)系數(shù)有顯著的變化,凸顯了3個(gè)分?jǐn)?shù)段中各二級指標(biāo)對作文質(zhì)量的影響有明顯的不同,呈現(xiàn)出不同程度的預(yù)測作用.
高分段11篇語料中,變量間Pearson相關(guān)系數(shù)有明顯的變化.高分段作文中各特征具體指標(biāo)與作文質(zhì)量呈強(qiáng)相關(guān)的排列為助詞數(shù)、別字?jǐn)?shù)、多字?jǐn)?shù)、高級詞數(shù)(r=0.981;r=0.979;r=0.944;r=0.858);相關(guān)性次之的排列為詞種數(shù)、初級詞數(shù)、中級詞數(shù)(r=0.765;r=0.675;r=0.667),總字?jǐn)?shù)、人稱代詞數(shù)、詞數(shù)(r=0.648;r=0.640;r=0.544).其余指標(biāo)與作文質(zhì)量顯著相關(guān)性較弱.
中分段30篇語料中變量間相關(guān)分析結(jié)果表明,Pearson相關(guān)系數(shù)有明顯的變化.各特征具體指標(biāo)與作文質(zhì)量呈強(qiáng)相關(guān)的排列為中級詞數(shù)、錯(cuò)字?jǐn)?shù)、高級詞數(shù)、別字?jǐn)?shù)、副詞數(shù)和連詞數(shù)(r=0.897;r=0.726;r=0.654;r=0.652;r=0.518;r=0.514).
低分段15篇語料變量間Pearson相關(guān)系數(shù)有明顯的變化.各特征具體指標(biāo)與作文質(zhì)量呈強(qiáng)相關(guān)性的排列為人稱代詞數(shù)、助詞數(shù)、詞種數(shù)(r=0.989;r=0.971;r=0.818),顯著相關(guān)性次之的排列為中級詞數(shù)、高級詞數(shù)、別字?jǐn)?shù)、錯(cuò)字?jǐn)?shù)(r=0.672;r=0.640;r=0.587;r=0.453).
由此可知,不同分?jǐn)?shù)段的作文質(zhì)量,其影響因素相關(guān)性有顯著的差異.高分段中詞匯特征中的5個(gè)指標(biāo)都與作文質(zhì)量強(qiáng)相關(guān),語法特征中的助詞數(shù)與作文質(zhì)量的相關(guān)性最強(qiáng),其次是文字特征中的別字?jǐn)?shù)和多字?jǐn)?shù).中分段中詞匯、文字、語法特征中均有兩個(gè)指標(biāo)與作文質(zhì)量強(qiáng)相關(guān),其中詞匯特征中的中級詞數(shù)相關(guān)系數(shù)最高,文字特征中的錯(cuò)字?jǐn)?shù)次之.低分段中語法特征中的人稱代詞數(shù)和助詞數(shù)指標(biāo)與作文質(zhì)量強(qiáng)相關(guān),詞匯特征中的詞種數(shù)與作文質(zhì)量同樣強(qiáng)相關(guān).
2.3 回歸診斷分析結(jié)果
2.3.1 變量間多重共線性檢驗(yàn)
在回歸分析結(jié)果中,詞匯、文字和語法3個(gè)特征都能夠影響作文質(zhì)量,但要解決16個(gè)二級指標(biāo)中哪個(gè)是最顯著的評分參考因素的問題,還需要使用多元線性回歸方法構(gòu)建評分模型,為確保模型解釋變量間不存在高度共線性,研究計(jì)算了所有因子的方差膨脹系數(shù)(variance inflation factor,VIF),當(dāng)因子VIF值大于10時(shí),認(rèn)為因子間存在嚴(yán)重共線性,這些因子不被同時(shí)加入模型中.結(jié)果見表3.
由表3可知,詞數(shù)VIF值是58.025,初級詞數(shù)VIF值是52.704,總字?jǐn)?shù)VIF值是37.817,反映了3個(gè)變量間存在多重共線性問題.由于總字?jǐn)?shù)和初級詞數(shù)相關(guān)性較強(qiáng)(r=0.703;r=0.686),因此逐一刪除存在嚴(yán)重共線性問題的自變量總字?jǐn)?shù)和初級詞數(shù)之后,剩余14個(gè)自變量之間不存在多重共線性問題,排除了干擾回歸模型構(gòu)建結(jié)果不穩(wěn)定的因素,可構(gòu)建線性模型.對自變量中異常值和離群點(diǎn)的處理,本文采用均值代替的方法,以確保作文語篇樣本數(shù)量的不變.共線性問題解決之后對自變量進(jìn)行主成分因子分析,剔除不重要的變量,以確保回歸模型的準(zhǔn)確性和可靠性.
2.3.2 變量間主成分因子分析
本研究的降維方法主要采用主成分因子分析,將不存在共線性問題的14個(gè)自變量帶入主成分分析,采取最大方差法進(jìn)行因子旋轉(zhuǎn),進(jìn)一步明晰因子結(jié)構(gòu)并且找出因子和14個(gè)自變量的對應(yīng)關(guān)系,方便后續(xù)提取顯著性的指標(biāo)進(jìn)行回歸模型的構(gòu)建,一般來說特征值大于1的因子都是值得關(guān)注的指標(biāo).因子分析一共提取出3個(gè)因子,特征根值均大于1,旋轉(zhuǎn)后的方差解釋率分別是29.067%、12.417%、12.000%,旋轉(zhuǎn)后累積方差解釋率為53.483%.最大方差旋轉(zhuǎn)法提取出的3個(gè)因子與14個(gè)自變量有一定的對應(yīng)關(guān)系,進(jìn)一步研究因子對于自變量的提取情況,結(jié)果如表4.
從表4可知,除了別字?jǐn)?shù)、漏字?jǐn)?shù)和多字?jǐn)?shù)3個(gè)自變量,剩余自變量的公因子方差均高于0.4,表明剩余11個(gè)自變量與3個(gè)因子之間有著較強(qiáng)的關(guān)聯(lián)性,因子可以有效提取出信息,由上可以得出成分(C)公式如下:
C=(0.291/0.535)×C1+(0.124/0.535)×C2+(0.12/0.535)×C3=0.544×C1+0.232×C2+0.224×C3.
通過上述公式可知,C1(成分1)的權(quán)重為54.4%、C2(成分2)的權(quán)重為23.2%、C3(成分3)的權(quán)重為22.4%,由此本文提取的顯著性變量為成分1中的詞數(shù)、成分2中的中級詞數(shù)和高級詞數(shù)、成分3中的詞種數(shù),共4個(gè)變量作為建立回歸模型的指標(biāo).
3 評分模型構(gòu)建與檢驗(yàn)
經(jīng)過回歸診斷分析后,本文選取詞數(shù)、詞種數(shù)、中級詞數(shù)和高級詞數(shù)4個(gè)指標(biāo)構(gòu)建評分預(yù)測模型.由于因變量作文分?jǐn)?shù)與自變量詞匯特征間存在關(guān)系顯著的線性關(guān)系,因此本研究探討自變量與因變量之間的關(guān)系時(shí)選擇多元線性回歸模型.多元線性回歸方法[6]可以通過確認(rèn)因變量和自變量的關(guān)系,擬合出預(yù)測模型,目前廣泛用于作文自動(dòng)評分系統(tǒng)中,如作文局部連貫評價(jià)模型的構(gòu)建[7].本文參考自動(dòng)評分系統(tǒng)模型,選擇多元逐步回歸法,將提取出的與作文質(zhì)量有顯著相關(guān)的自變量進(jìn)行顯著性檢驗(yàn),運(yùn)用逐步法逐個(gè)引入或剔除自變量,得到最優(yōu)的回歸方程.
3.1 逐步線性回歸模型構(gòu)建
研究將提取出的詞數(shù)、詞種數(shù)、中級詞數(shù)和高級詞數(shù)4個(gè)變量中存在的異常值和離群點(diǎn)進(jìn)行檢驗(yàn)和處理,之后將其導(dǎo)入 SPSS進(jìn)行逐步回歸模型構(gòu)建,使用逐步線性回歸對變量進(jìn)行分析,將不顯著的指標(biāo)剔除在模型外.全模型公式如下:
y=β0+β1X1+β2X2+β3X3+β4X4+ε,(1)
其中,y是因變量作文分?jǐn)?shù),β0為截距(表示當(dāng)自變量為0時(shí),因變量的值),X1、X2、X3和X4分別為詞數(shù)、詞種數(shù)、中級詞數(shù)和高級詞數(shù)4個(gè)特征變量指標(biāo),βi(i=1,2,3,4)均為常數(shù)且代表各特征變量對分?jǐn)?shù)y的正或負(fù)效應(yīng)量,ε為隨機(jī)誤差.
剔除不顯著的指標(biāo)后,詞數(shù)這一具體指標(biāo)與作文質(zhì)量顯著相關(guān).模型的復(fù)相關(guān)系數(shù)r=0.707,決定系數(shù)r2=0.500,調(diào)整后決定系數(shù)r2=0.491,說明進(jìn)入模型的變量能解釋人工評分的50.0%的變異,即詞數(shù)指標(biāo)能夠解釋作文質(zhì)量50.0%的變異,具有統(tǒng)計(jì)學(xué)意義.此模型對作文質(zhì)量的解釋程度較明顯,但顯著性指標(biāo)存在數(shù)量較少,這與本研究選取指標(biāo)有限和作文語料偏少有關(guān),有待增加變量進(jìn)一步分析.確認(rèn)上述模型具有統(tǒng)計(jì)學(xué)意義之后,本文對逐步線性回歸模型進(jìn)行顯著性檢驗(yàn),結(jié)果顯示各指標(biāo)的Sig值均小于 0.05,可以認(rèn)為模擬出的回歸方程中,自變量與因變量存在線性關(guān)系,方程中的系數(shù)皆具有顯著性,是有效的參考指標(biāo).
根據(jù)線性回歸預(yù)測模型,因變量作文分?jǐn)?shù)與自變量詞數(shù)的對應(yīng)的最優(yōu)回歸方程公式如下:
y=40.365+0.117X1,(2)
其中,y為因變量作文分?jǐn)?shù),40.365為常量,0.117是常數(shù)且代表詞數(shù)這一特征變量對作文分?jǐn)?shù)的正效應(yīng)量,X1為作文語篇中的詞數(shù)指標(biāo).
從表5可知,Sig值小于0.05,說明該模型自變量與因變量之間存在顯著的線性關(guān)系.為檢驗(yàn)詞數(shù)與作文分?jǐn)?shù)間是否存在非線性關(guān)系,向線性模型中加入詞數(shù)的二次項(xiàng).該二次項(xiàng)結(jié)果不顯著(系數(shù)為-1.052 8,p=0.181),因此詞數(shù)與作文質(zhì)量間非線性關(guān)系不顯著.
3.2 預(yù)測模型效度檢驗(yàn)
預(yù)測模型有效性分析主要通過觀察回歸預(yù)測模型的殘差圖和散點(diǎn)圖,一方面觀察殘差圖變量的分布是否正態(tài)、是否左右偏離和存在異常值點(diǎn),可用以協(xié)助觀察模型是否擬合原成績.另一方面觀察殘差正態(tài) P-P 圖,分析預(yù)測模型是否呈正態(tài)分布,若 P-P 圖的數(shù)據(jù)點(diǎn)排列趨向直線,則表明正態(tài)性較強(qiáng),否則表明正態(tài)性較弱[8].
由圖1可知,預(yù)測模型生成的直方圖與 P-P 圖顯示,該模型中直方圖高峰只有一個(gè),峰值較為居中,標(biāo)準(zhǔn)化殘差絕對值小于等于3,并未觀測到異常值點(diǎn).觀察P-P 圖,可以發(fā)現(xiàn)散點(diǎn)較為接近直線,擬合度較高.因此該模型經(jīng)過檢驗(yàn)對于解釋作文質(zhì)量的變異有效值較高.
3.3 預(yù)測模型精度檢驗(yàn)
對于模型精度的檢驗(yàn),本文考慮到作文語篇數(shù)量的有限性,以及本研究不具備采用人工評分進(jìn)行輔助驗(yàn)證作文分?jǐn)?shù)的條件,因此采用SPSS數(shù)據(jù)分析軟件隨機(jī)抽取數(shù)據(jù)集的部分?jǐn)?shù)據(jù)作為驗(yàn)證集,即按照隨機(jī)原則從總體中抽取一部分單位進(jìn)行觀察,并運(yùn)用數(shù)理統(tǒng)計(jì)的原理,以被抽取的那部分單位的數(shù)量特征為代表,代入模型中確保對模型性能的準(zhǔn)確評估[9].魏培文等[10]將220項(xiàng)數(shù)據(jù)中的190項(xiàng)即86.0%的數(shù)據(jù)作為訓(xùn)練樣本,剩余的30項(xiàng)即約為14.0%的數(shù)據(jù)作為測試樣本進(jìn)行仿真測試,驗(yàn)證預(yù)測模型分類結(jié)果.因此為避免誤差過大,本研究從已知的56篇作文語料中隨機(jī)抽取15.0%的作文語料作為數(shù)據(jù)驗(yàn)證集,代入預(yù)測模型回歸方程式觀察作文分?jǐn)?shù)的分布情況,并檢測原始作文分?jǐn)?shù)與預(yù)測作文分?jǐn)?shù)之間是否存在Pearson相關(guān)性,并對Pearson相關(guān)系數(shù)進(jìn)行解釋說明,檢驗(yàn)預(yù)測模型能夠多大程度解釋作文的質(zhì)量.檢驗(yàn)結(jié)果表明,原始作文分?jǐn)?shù)與預(yù)測作文分?jǐn)?shù)Pearson 相關(guān)性系數(shù)為0.852,大于0.5,且顯著性(雙側(cè))小于0.05,說明測試集數(shù)據(jù)與驗(yàn)證集數(shù)據(jù)高度相關(guān),相關(guān)性達(dá)到85.2%,本研究的預(yù)測模型通過精度檢驗(yàn),擬合度較高.
通過構(gòu)建多元線性回歸模型,本文選取的16個(gè)指標(biāo)中對作文評分最顯著有效的參考標(biāo)準(zhǔn)為詞數(shù)變量,本研究選取的指標(biāo)有數(shù)據(jù)支撐,并能夠證明其有效性.
4 研究結(jié)果
本研究從詞匯、文字、語法3個(gè)角度考察了蒙古國漢語學(xué)習(xí)者作文質(zhì)量的影響因素,研究結(jié)果表明:詞匯、文字、語法3個(gè)特征均可以在一定程度上預(yù)測蒙古國漢語學(xué)習(xí)者的作文質(zhì)量,其中詞匯特征對作文質(zhì)量影響最大,3個(gè)特征及其下轄的二級指標(biāo)對不同分?jǐn)?shù)段的作文質(zhì)量影響程度不同,16個(gè)二級指標(biāo)中最顯著的評分參考指標(biāo)是詞數(shù).
4.1 詞匯、文字、語法3個(gè)特征均能影響學(xué)習(xí)者的作文質(zhì)量
詞匯、文字、語法都對蒙古國漢語學(xué)習(xí)者的作文質(zhì)量有影響,但影響程度不均衡.蒙古國漢語學(xué)習(xí)者整體上的作文質(zhì)量為中等.按照詞匯、文字、語法3個(gè)特征與作文質(zhì)量的回歸分析結(jié)果顯示,詞匯特征下轄的5個(gè)指標(biāo)對蒙古國漢語學(xué)習(xí)者作文質(zhì)量的預(yù)測能夠達(dá)到56.0%,文字特征下轄的5個(gè)指標(biāo)的預(yù)測率能夠達(dá)到61.3%,而語法特征下轄的6個(gè)指標(biāo)的預(yù)測率只有48.4%.由此可見,詞匯、文字、語法3個(gè)特征都能夠影響作文質(zhì)量,且影響的程度不均衡.通過將3個(gè)特征及其下轄的16個(gè)二級指標(biāo)與作文質(zhì)量進(jìn)行相關(guān)分析,結(jié)果顯示文字特征中只有總字?jǐn)?shù)與作文質(zhì)量強(qiáng)相關(guān),這主要是因?yàn)樵贖SK評分標(biāo)準(zhǔn)中作文字?jǐn)?shù)是評定作文等級的重要參考因素.
4.2 詞匯特征對蒙古國漢語學(xué)習(xí)者作文質(zhì)量影響最大
雖然詞匯、文字、語法3個(gè)特征與作文質(zhì)量的回歸分析結(jié)果顯示文字特征對蒙古國漢語學(xué)習(xí)者作文質(zhì)量的預(yù)測效應(yīng)量最大,但隨著研究的深入,在對3個(gè)特征及其下轄的16個(gè)二級指標(biāo)與作文質(zhì)量進(jìn)行相關(guān)性分析時(shí),研究發(fā)現(xiàn),詞匯特征下轄的5個(gè)指標(biāo)中,詞數(shù)和初級詞數(shù)與作文質(zhì)量相關(guān)性強(qiáng)(r=0.758;r=0.686;p<0.01),文字特征下轄的5個(gè)指標(biāo)中,只有總字?jǐn)?shù)這1個(gè)指標(biāo)與作文質(zhì)量相關(guān)性強(qiáng)(r=0.703;p<0.01),語法特征下轄的6個(gè)指標(biāo)與作文質(zhì)量相關(guān)性一般.由此可見,文字特征中與作文質(zhì)量強(qiáng)相關(guān)的二級指標(biāo)數(shù)最少,而且相關(guān)系數(shù)比詞匯特征下轄的二級指標(biāo)詞數(shù)的相關(guān)系數(shù)小.文字特征和語法特征下轄的各指標(biāo)與作文質(zhì)量的相關(guān)性不如詞匯特征下轄的二級指標(biāo),這3個(gè)特征對作文質(zhì)量的影響是不均衡的,其中詞匯特征對蒙古國漢語學(xué)習(xí)者作文質(zhì)量影響最大.
4.3 3個(gè)特征及其下轄的二級指標(biāo)對不同分?jǐn)?shù)段的作文質(zhì)量影響程度不同
按照作文成績將蒙古國漢語學(xué)習(xí)者的作文分為高分段、中分段和低分段3個(gè)分?jǐn)?shù)段.研究結(jié)果表明,3個(gè)特征及其下轄的二級指標(biāo)在不同分?jǐn)?shù)段中的影響程度不同.具體來說,與高分段、中分段和低分段作文質(zhì)量強(qiáng)相關(guān)的指標(biāo)分別是語法特征下轄的助詞數(shù),詞匯特征下轄的中級詞數(shù)和語法特征下轄的人稱代詞數(shù).與不同分?jǐn)?shù)段作文質(zhì)量強(qiáng)相關(guān)的二級指標(biāo)不同,主要集中在詞匯特征和語法特征,這也再次印證了文字特征不是最為顯著的作文評分變量.不同分?jǐn)?shù)段的作文質(zhì)量,其影響因素相關(guān)性有顯著的差異.高分段中詞匯特征下轄的5個(gè)指標(biāo)都與作文質(zhì)量強(qiáng)相關(guān),語法特征中的助詞數(shù)與作文質(zhì)量的相關(guān)性最強(qiáng),文字特征中的別字?jǐn)?shù)和多字?jǐn)?shù)與作文質(zhì)量相關(guān)性較強(qiáng).中分段中詞匯、文字、語法特征中均有兩個(gè)指標(biāo)與作文質(zhì)量強(qiáng)相關(guān),其中詞匯特征中的中級詞數(shù)相關(guān)系數(shù)最高,文字特征中的錯(cuò)字?jǐn)?shù)次之.低分段中語法特征中的人稱代詞數(shù)和助詞數(shù)指標(biāo)與作文質(zhì)量強(qiáng)相關(guān),詞匯特征中的詞種數(shù)與作文質(zhì)量強(qiáng)相關(guān).針對不同分?jǐn)?shù)段的作文,3個(gè)特征下轄的各二級指標(biāo)具有可分析性和顯著性,在寫作教學(xué)中可有針對性地?fù)P長避短,提高作文質(zhì)量.
4.4 詞匯特征下轄指標(biāo)詞數(shù)是最顯著的評分參考因素
在描述性分析中,詞數(shù)的均值在236個(gè)詞左右,因此蒙古漢語學(xué)習(xí)者56篇作文語料的篇幅長度為中等水平.在相關(guān)性分析中,詞匯特征下轄指標(biāo)詞數(shù)和初級詞數(shù)與作文質(zhì)量相關(guān)性強(qiáng)(r=0.758;r=0.686;p<0.01).在回歸性分析中,詞匯特征5個(gè)指標(biāo)能夠解釋作文質(zhì)量56.0%的變異(r2=0.560),即詞數(shù)、詞種數(shù)、初級詞數(shù)、中級詞數(shù)、高級詞數(shù)5個(gè)指標(biāo)對作文質(zhì)量的影響程度為56.0%.不同分?jǐn)?shù)段中,詞數(shù)這一指標(biāo)同樣具有顯著性.運(yùn)用多元線性逐步回歸法構(gòu)建評分模型,數(shù)據(jù)顯示詞數(shù)是進(jìn)入模型的唯一變量,能夠解釋人工評分50.0%的變異.經(jīng)過回歸診斷后提取出影響顯著的4個(gè)指標(biāo)構(gòu)建回歸模型,通過分析多元線性回歸方程的殘差圖和散點(diǎn)圖,分析了回歸模型的有效性,通過驗(yàn)證集和原始測試集的相關(guān)系數(shù)分析,檢驗(yàn)了回歸模型的精度,結(jié)果顯示詞數(shù)指標(biāo)是最顯著的評分參考因素.
總的來說,蒙古國漢語學(xué)習(xí)者作文中3個(gè)特征的具體指標(biāo)均有預(yù)測作用,在評分時(shí)應(yīng)該全面考慮,寫作教學(xué)時(shí)應(yīng)該對不同分?jǐn)?shù)段的學(xué)習(xí)者有針對性地調(diào)整教學(xué)重難點(diǎn).
5 結(jié)論與建議
本研究發(fā)現(xiàn),蒙古國漢語學(xué)習(xí)者的作文質(zhì)量受詞匯、文字、語法3個(gè)客觀指標(biāo)的影響是可預(yù)測的.據(jù)多元線性回歸模型,檢驗(yàn)出對自動(dòng)評分最顯著有效的參考指標(biāo)是詞匯特征的二級指標(biāo)詞數(shù),但詞匯、文字、語法3個(gè)特征在評分標(biāo)準(zhǔn)中應(yīng)受到同等重視.
基于以上研究結(jié)果,對漢語二語學(xué)習(xí)者寫作教學(xué)的建議是,教師應(yīng)在確保學(xué)生書寫文字正確性的基礎(chǔ)上,強(qiáng)調(diào)詞匯學(xué)習(xí)的重要性,采用創(chuàng)新性教學(xué)方法,擴(kuò)大學(xué)生中、高級詞在寫作時(shí)的產(chǎn)出量,另外還要引導(dǎo)學(xué)習(xí)者注重不同體裁作文語篇連貫[11],在語篇銜接和內(nèi)容邏輯方面加強(qiáng)訓(xùn)練,提高連詞成句的準(zhǔn)確度及成段表達(dá)的熟練度.總之,在寫作教學(xué)時(shí),教師應(yīng)注重語言特征詞匯、文字、語法的綜合運(yùn)用,三者是相互關(guān)聯(lián)的,詞匯更是最顯著的影響因素,在提高文字特征正確率的基礎(chǔ)上,運(yùn)用豐富的詞匯,形成正確的語法表達(dá),提高作文整體質(zhì)量.
參 考 文 獻(xiàn)
[1] 吳繼峰,周蔚,盧達(dá)威.韓語母語者漢語二語寫作質(zhì)量評估研究:以語言特征和內(nèi)容質(zhì)量為測量維度[J].世界漢語教學(xué),2019,33(1):130-144.
WU J F,ZHOU W,LU D W.Assessing Chinese L2 writing quality on basis of language features and content quality[J].Chinese Teaching in the World,2019,33(1):130-144.
[2]任春艷.HSK作文評分客觀化探討[J].漢語學(xué)習(xí),2004(6):58-67.
REN C Y.Exploratory research on objective scoring of HSK composition[J].Chinese Language Learning,2004(6):58-67.
[3]王浩學(xué),程勇,胡曉清.基于詞匯特征與語法模式的漢語二語寫作質(zhì)量動(dòng)態(tài)發(fā)展研究[J].華文教學(xué)與研究,2022(2):20-31.
WANG H X,CHENG Y,HU X Q.A dynamic development study of CSL writing quality based on lexical features and grammatical patterns[J].TCSOL Studies,2022(2):20-31.
[4]吳佩,邢紅兵.內(nèi)容、詞匯、篇章特征對漢語學(xué)習(xí)者二語作文質(zhì)量的影響研究[J].語言教學(xué)與研究,2020(2):24-32.
WU P,XING H B.The influence of content,lexical and discourse features on the quality of CSL learners' L2 writing[J].Language Teaching and Linguistic Studies,2020(2):24-32.
[5]聶丹.漢語水平考試(HSK)寫作評分標(biāo)準(zhǔn)發(fā)展概述[J].云南師范大學(xué)學(xué)報(bào)(對外漢語教學(xué)與研究版),2009,7(6):15-20.
NIE D.A historical account of the assessment criteria for HSK writing[J].Journal of Yunnan Normal University(Teaching and Research on Chinese as a Foreign Language Edition),2009,7(6):15-20.
[6]黃曉玉,王蘭會(huì).SPSS 24.0統(tǒng)計(jì)分析:在語言研究中的應(yīng)用[M].北京:中國人民大學(xué)出版社,2021.
[7]劉國兵.基于WordNet語義知識庫的英語學(xué)習(xí)者作文局部連貫自動(dòng)評價(jià)[J].河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,44(6):149-158.
LIU G B.Automatic evaluation of local coherence in Chinese EFL learners' essays with WordNet[J].Journal of Henan Normal University(Natural Science Edition),2016,44(6):149-158.
[8]付強(qiáng),楊壯,董鎖成,等.河南省國家級傳統(tǒng)村落空間可達(dá)性及影響因素研究[J].河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,49(6):82-90.
FU Q,YANG Z,DONG S C,et al.Research on spatial accessibility and influencing factors of national traditional villages in Henan Province[J].Journal of Henan Normal University(Natural Science Edition),2021,49(6):82-90.
[9]李潔明,祁新娥.統(tǒng)計(jì)學(xué)原理[M].6版.上海:復(fù)旦大學(xué)出版社,2014:244-248.
[10]魏培文,朱珂,葉海智,等.基于BP神經(jīng)網(wǎng)絡(luò)的高校教師精準(zhǔn)教學(xué)能力評價(jià)模型構(gòu)建[J].河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,52(5):108-116.
WEI P W,ZHU K,YE H Z,et al.Construction of precision teaching ability evaluation model for college teachers based on BP neural network[J].Journal of Henan Normal University(Natural Science Edition),2024,52(5):108-116.
[11]劉國兵,常芳玲.向心理論應(yīng)用于英語學(xué)習(xí)者書面語語篇局部連貫評價(jià)的有效性研究[J].河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,48(4):19-28.
LIU G B,CHANG F L.A study on the efficiency of centering theory in evaluating local coherence of English learners'written language[J].Journal of Henan Normal University(Natural Science Edition),2020,48(4):19-28.
A study on the influencing factors of the composition quality learners of Chinese second language
Liu Zhifang, Ma Tingfang
(College of Liberal Arts, Henan Normal University, Xinxiang 453007, China)
Abstract: Taking 56 compositions of Chinese language learners in Mongolia from the HSK dynamic composition corpus as the research object, this paper uses corpus investigation method, data analysis method and multiple linear regression method to investigate the influence of three features of vocabulary, characters and grammar on the composition quality of Chinese language learners in Mongolia. The results show that the three features of vocabulary, characters and grammar can affect the composition quality of learners, among which vocabulary" has the greatest impact on composition quality. The influence of various features in the compositions with different score segments is uneven. After the regression diagnosis, the multiple linear regression model is constructed by selecting four indexes:word number, word type number, intermediate word number and advanced word number, and the most significant and effective reference index for automatic scoring is the index word number under lexical features.
Keywords: Chinese second language learner; Chinese language learners in Mongolia; composition quality; influence factor
[責(zé)任編校 劉洋 楊浦]
河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2025年3期