[中圖分類號]G424.74[文獻標識碼]A [文章編號] 1673—1654(2025)04—011—011
一、引言
命題、施測和評分是口語測試的主要環(huán)節(jié),其中“評分方法和評分員決定了口語測試的信度,從而對測試的效度具有重要影響\"。隨著人工智能(AI)語言信息加工技術的日益成熟和大數(shù)據(jù)思維的發(fā)展,二語口語客觀性評價研究成為學界研究的熱點[2。選擇合適的指標及指標組合,并借助恰當?shù)亩嘣治瞿P吞剿骺谡Z評價的準確性問題一直是二語者口語水平(OralProficiency)測評研究的核心問題之一。
復雜度、準確度與流利度(Complexity,AccuracyandFluency,簡稱CAF)作為測量學習者口語表現(xiàn)的三個重要維度,在第二語言習得與測試研究中已有相當長的歷史,但由于研究樣本規(guī)模、指標量化標準等方面的分歧,現(xiàn)有研究在指標的選擇、界定與量化指標體系的構建等方面均未達成共識[4-5]。在研究方法上,國內(nèi)外的學者們主要采用多元線性回歸(MultipleLinearRegression)方法構建評價模型[6-7],此方法雖然相對穩(wěn)定,但考慮到口語評價存在主觀性且測驗數(shù)據(jù)規(guī)模大、價值密度低,與多元線性回歸方法的數(shù)據(jù)要求仍存在適配性問題,嘗試基于大數(shù)據(jù)挖掘的口語評價方法現(xiàn)已成為研究熱點。作為一種高效的統(tǒng)計判別和分組技術,判別分析(DiscriminantAnalysis)在數(shù)據(jù)挖掘領域發(fā)揮著重要作用,在教育評價、作文評分等領域具有重要的價值8,同時在二語口語評價研究中也具有較高的實踐意義。
鑒于此,本研究基于中國漢語水平考試(HSK[高等])實測大數(shù)據(jù),分別采用復雜度指標(C)、準確度指標(A)、流利度指標(F)及上述三類指標的二維和三維組合(CA、CF、AF、CAF)等7組指標對3個不同容量的樣本進行判別分析,依據(jù)判別分析結果與專家評分的一致性程度篩選指標,構建出具有較高效度和信度的評價體系,為漢語二語口語能力評價模型的構建提供新的方法,為漢語口語自動評分系統(tǒng)的開發(fā)提供參考。
二、研究設計
(一)研究問題
本研究重點關注以下三個問題:
1.驗證判別分析方法在漢語作為第二語言的口語能力評價研究中具備可行性
2.在方法可行的基礎上,通過對比C、A、F指標
及指標間的二維和三維組合在3個不同容量樣本的等級判別結果與專家評分的一致性,考察各項口語能力評價指標的效度。
3.篩選有效指標構建口語能力評價模型,并以HSK(高等)口語考試實測數(shù)據(jù)對模型的效度進行檢驗。
(二)研究被試
從參加2010年4月HSK(高等)口語考試的2404名韓國考生中隨機抽取了300名考生的口語測試錄音作為研究對象,其中男生語料為129份,女生語料為171份。根據(jù)口語考試成績和獲得的口語等級,將考生的口語水平由高到低劃分為A、B、C三個等級,每個等級間隔5分,各等級的考生分布情況如表1所示。
(三)研究材料
中國漢語水平考試(HSK)是為測試母語非漢語者漢語水平而設計的大規(guī)模國家級標準化考試[9-10],考試題目及測驗分數(shù)均具有較高的信度和效度;HSK口語考試作為大型考試中限時獨立完成的表達任務,能夠有效反映出學習者的語言水平,保證了研究的客觀性;口語表達部分的兩道題目體裁不同(第一題為說明文,第二題為議論文),為了排除體裁變量的影響,保證研究材料的連貫性和主題的一致性,僅采用第一題“請你給中老年人介紹一個保養(yǎng)身體、延年益壽的養(yǎng)生方法”的口語錄音作為研究材料。
(四)研究指標
為了使研究結果更具代表性,基于以往研究對復雜度、準確度、流利度的操作性定義及本研究語料的特點,最終確定了11個測量指標。
1.口語復雜度指標
復雜度是“進行言語任務時語言產(chǎn)出的復雜和多樣化程度\"],關于口語復雜度的評價主要集中在詞匯復雜度和句法復雜度,選取4個典型特征作為初始指標體系進行相關研究,具體指標及計算方法見表2。
在詞匯維度上,考慮文本篇幅長短不一,采用Guiraud指標來量化詞匯表達的多樣性,并依照《漢語水平詞匯與漢字等級大綱》以下簡稱“大綱”)將“復雜詞比例”操作性定義為乙級詞、內(nèi)級詞、丁級詞和超綱詞的使用比例。在句法維度上,遵循Foster(2000)[]提出的劃分原則,AS-unit(AnalysisofSpeechunit,簡稱“AS單位\")可以清楚地區(qū)分不成功的開始、重復和自我糾正,在以往研究中使用頻率較高且更適用于口語研究。因此,選取AS單位作為言語劃分單元。因不同水平學習者的口語表達篇幅長短不一,將句法復雜度指標定為每50詞內(nèi)的AS單位數(shù)量,并計算每個AS單位內(nèi)的詞語數(shù)量①。
2.口語準確度指標
語言準確度是CAF研究體系中最穩(wěn)定的考察指標,其信度、效度得到了研究者們的一致認可。依據(jù)語言的構成要素,準確度具體包括語音準確度、詞匯準確度和句法準確度。本研究中對各指標的操作性定義如表3所示。
參考陳默[13-14]的研究方法,語音準確度可以進一步細化為聲母準確度、韻母準確度和聲調(diào)準確度,但因本研究所選取語料數(shù)量較多,標注難度較大,最終將其定義為廣義上的語音準確度,即只要聲母、韻母、聲調(diào)其中之一出現(xiàn)錯誤即標注為語音錯誤。詞匯準確度主要通過詞匯錯誤來測量,包括詞匯搭配錯誤、詞性誤用、詞匯遺漏、詞匯多余、生造詞等,不計算語料轉錄造成的字形錯誤。句法錯誤的類型主要借鑒了漢語中介語語料庫中對句法錯誤的分類方式,口語中不影響文章語義表達的字詞類的錯誤不再重新計人句法錯誤。
3.口語流利度指標
流利度是衡量第二語言學習者口語水平高低的重要維度之一。與復雜度、準確度維度不同,學習者口語表達中的停頓、重復、自我糾正等是口語流利度的重點考察指標。通過對口語語料的預處理,發(fā)現(xiàn)時長約為300毫秒的停頓分布范圍最廣,總次數(shù)相對較多,且在許多漢語口語研究中均采用了這一停頓標準。因此,本研究將停頓界定為時長大于等于300毫秒的無聲停頓及填充停頓,并對相應的口語流利度評價指標進行了操作性定義,具體內(nèi)容如表4所示。
為便于各項指標的標注與統(tǒng)計,對語料進行預處理。首先,借助科大訊飛股份有限公司研發(fā)的“訊飛聽見\"軟件對300份語料進行語碼轉錄,并人工校對轉錄結果。在此基礎上,根據(jù)各項指標的操作性定義,對轉錄文本進行復雜度、準確度指標的標注和數(shù)據(jù)統(tǒng)計。利用AdobeAudition音頻編輯軟件標注、收集流利度指標的數(shù)據(jù)信息。通過上述標注方式,共采集了300名被試的11項口語能力評價指標的描
述性統(tǒng)計數(shù)據(jù),詳見表5。
(五)數(shù)據(jù)預處理
通過對11項口語復雜度、準確度和流利度指標的界定與采集,初步掌握了不同水平的漢語學習者在口語能力上的特征表現(xiàn)。但因研究選取的樣本量有限,數(shù)據(jù)量大小和區(qū)別特征的有效性等因素均會導致判別模型的評價或預測效果存在差異。為了驗證CAF指標的口語能力評價效度及判別分析方法的可行性,需要對數(shù)據(jù)制定不同規(guī)模樣本的抽樣方案,并進行判別分析的適用性檢驗
1.制定抽樣方案
為了確保研究樣本的代表性,采用分層隨機抽樣的方法。首先,以HSK(高等)口語考試成績和獲得的口語等級作為專家參照,將300名被試的口語水平由高到低劃分為A、B、C三個等級;接著,為了減少因樣本量分配不均衡對分析結果的影響,采取等數(shù)分配法確定從各等級中抽取樣本單位的數(shù)量,即每一類都分配同樣的個體數(shù);最后,采用簡單隨機抽樣的方法從各等級中抽取樣本。
依據(jù)上述方法,利用SPSS25.0完成了分層隨機抽樣,共抽取了容量為50、100、150的三個訓練樣本,各等級的被試樣本抽樣情況如表6所示。
分析不同樣本量下的判別正確率有助于驗證11項口語復雜度、準確度、流利度指標對口語等級的區(qū)分及預測效度,完善口語能力評價體系。
2.判別分析的適用性檢驗
在分析11項口語復雜度、準確度和流利度指標對口語等級的區(qū)分及預測效度之前,需要驗證判別分析方法對所選取樣本具備可行性,以確保口語能力評價結果的可靠性。本研究根據(jù)被試的口語成績與等級將樣本分為A、B、C三個類別,在進行判別分析之前首先對11項口語能力判別指標在A、B、C三組中的均值是否存在差異進行檢驗,若某兩個總體的均值檢驗結果不存在顯著差異,則由此建立的判別函數(shù)也是不可靠的。組均值的同等檢驗結果如表7所示。
由表7可知,所選取的11項口語能力評價指標在不同等級的被試樣本間均存在顯著差異( Δplt;Δ 0.05)。因此,這11項量化指標對口語能力等級的判斷均具有一定作用,滿足鑒別變量在各組間存在顯著差異這一前提。
在300份被試語料中隨機抽取容量為50、100、150的三個樣本,所選樣本均來自同一總體,此時各組樣本的協(xié)方差矩陣應具有同質性,這時檢驗的原假設 (H0) 為:各組因變量的協(xié)方差矩陣不存在顯著差異。對三組樣本總體方差是否具有同質性分別進行 Box′M 檢驗,樣本容量為50 1=50 時, Box′M 檢驗結果如表8所示。
樣本容量為100( N=100 時, Box′M 檢驗結果如表9所示。
樣本容量為150( N=150 )時, Box′M 檢驗結果如表10所示。
由檢驗結果可知,三個研究樣本均無法拒絕原假設( ),滿足組間協(xié)方差矩陣相等這一前提?;诖?,認為樣本數(shù)據(jù)滿足判別分析的適用條件,通過SPSS25.0得到的判別分析結果是有意義的。
三、研究結果與分析
驗證了判別分析在口語能力評價研究中具備可行性后,進一步對不同判別變量及不同樣本容量下的等級判別結果與專家評分的一致性進行比較和分析,以考察各項口語能力評價指標的效度。
(一)不同樣本容量下的判別分析結果
1.以單一維度指標作為判別變量的判別結果
以復雜度(復雜詞比例、Guiraud指標、每50詞AS單位數(shù)量和單元詞語數(shù)量)、準確度(語音準確度、詞匯準確度和句法準確度)和流利度(語速、發(fā)音時間比、平均語流長度和百音節(jié)更改次數(shù))指標作為判別變量,分別對容量為50、100、150的三組樣本進行判別分析,共得到9個分類結果。為了更加直觀地考察口語復雜度指標在不同樣本量下完成判別分析的效度,將判別結果進行匯總,具體結果如表11所示。
由表11可知,當僅以口語復雜度指標作為判別變量時,判別的總正確率隨著樣本容量的增加呈現(xiàn)出了上升的趨勢,其中A等級和B等級樣本的判別正確率隨著樣本容量的增加而增加,而C等級樣本則完全相反,判別正確率呈現(xiàn)出下降趨勢。在50、100、150三個樣本容量下,只有C等級樣本的判別正確率均達到了 70% 及以上,判別效果較為理想。當僅以口語準確度指標作為判別變量時,判別分析的總正確率及A ?,B,C 三個等級樣本的正確率均隨著樣本容量的增加呈現(xiàn)出先上升后下降的趨勢,在樣本容量為100時正確率最高。只有樣本容量為50、100和150時的C等級樣本,以及樣本容量為100時的A等級樣本的判別正確率達到了 70% 及以上,其余條件下樣本的判別結果均不理想。當僅以口語流利度指標作為判別變量時,判別分析總正確率大多隨著樣本容量的增加呈現(xiàn)出了上升的趨勢,其中A等級和C等級樣本隨著樣本容量的增加其正確率先下降后上升,相較而言,C等級樣本的正確率最高且波動較小,B等級樣本的判別正確率隨著樣本量增加而上升,但其判別效果始終不理想。
可見,以單一維度指標作為判別變量時,增加樣本容量并不能有效提升判別分析的正確率。這表明單一維度指標對于口語等級的判別雖有一定貢獻,但僅由單一維度指標提供的信息無法有效地建立穩(wěn)定的評分(分類)模型。
2.以多維度指標作為判別變量的判別結果
以復雜度與準確度(CA),復雜度與流利度(CF),準確度與流利度(AF),以及復雜度、準確度與流利度(CAF四組指標作為判別變量,分別對容量為50、100、150的三組樣本進行判別分析,其結果如表12所示。
可以看出,以CA、CF、AF作為判別變量時,判別的總正確率隨著樣本容量的增加呈現(xiàn)上升的趨勢,在樣本容量為150時判別效果最好。當同時以復雜度和準確度指標作為判別變量時,總正確率最高達到 76% ,A等級樣本的判別正確率隨著樣本容量的增加呈現(xiàn)出先上升后下降的趨勢,B等級樣本的判別正確率隨著樣本容量的增加而提高,C等級樣本的判別正確率變化則與A等級相反,隨著樣本容量的增加其正確率先下降而后上升??偟膩砜?,C等級和A等級樣本的判別結果較為理想,而B等級樣本的判別效果仍有提升空間。
當同時以口語復雜度和流利度指標作為判別變量時,A等級樣本的判別準確率隨著樣本容量的增加呈現(xiàn)出下降趨勢,B等級和C等級樣本則隨著樣本容量的增加正確率先上升后下降。相對而言,C等級樣本的判別結果較為理想,而A等級和B等級樣本的判別正確率仍有待提升。
當同時以準確度和流利度指標作為判別變量時,判別的總正確率和各等級樣本的正確率均隨著樣本容量的增加呈現(xiàn)了上升的趨勢,在樣本容量為150時判別效果最好。總的來看,各等級樣本的判別總正確率均高于 50% ,較上述各維度的判別正確率的表現(xiàn)更加穩(wěn)定。
當同時以口語復雜度、準確度和流利度指標作為判別變量時,判別效果整體較好,三個樣本容量下的總正確率均在 70% 以上,且隨著樣本容量的增加呈現(xiàn)出上升的趨勢,在樣本容量為150時總正確率最高達到 81.3% 。其中,A等級樣本的判別正確率隨著樣本容量的增加呈現(xiàn)出先下降后上升的趨勢,B等級樣本的判別正確率隨著樣本容量的增加而提高,C等級樣本的判別正確率變化則與A等級相反,隨著樣本容量的增加其正確率先上升而后下降??傮w而言,以口語復雜度、準確度和流利度指標共同作為判別變量時,判別分析的總正確率和各等級判別正確率表現(xiàn)均比較理想,可以由此構建穩(wěn)定的評分(分類)模型。
(二)判別模型的構建
根據(jù)上述分析可知,當樣本容量為150時由CAF多維度指標共同作為判別變量的判別模型效果最好。據(jù)此,可以得到相應的判別函數(shù),用以預測考生的口語等級。Fisher線性判別分類函數(shù)系數(shù)表如下所示。
依據(jù)此表,由口語準確度(A1、A2、A3)復雜度(C1、C2、C3、C4)及流利度(F1、F2、F3、F4)對應指標,在A、B、C三個口語等級的判別上,分別建立如下三個判別函數(shù)式:
基于上述判別函數(shù),以每名考生的11項口語復雜度、準確度及流利度指標的量化數(shù)據(jù)為基礎可獲得相應的判別值,其中分值最大的等級即可作為每名考生的口語能力預測級別。
(三)判別模型的效度檢驗
為了驗證所獲得的判別模型的預測效度,在各等級未參與分層隨機抽樣的語料中分別隨機抽取了5份語料,以15份語料作為待判樣本組,通過檢驗其判別結果與專家評分之間的一致性,考察以口語復雜度、準確度和流利度作為判別變量時對學生口語成績的預測表現(xiàn)。在SPSS25.0中運行判別分析后得到的判別結果如表14所示。
表14中第一列為判別分析的預測結果,第二列為專家評分結果,Dis1_1和Dis2_1為Fisher判別(典則判別)函數(shù)值(綜合指標),Dis1_2、Dis2_2、Dis3_2為Bayes判別(分類函數(shù))中屬于各類的后驗概率。可以發(fā)現(xiàn),C等級中有2個樣本被誤判為B等級,B等級樣本中有1個被誤判為A等級,A等級的判別結果與專家評分一致性均達到了 100% ,總正確率達到80% ,判別效果較為理想。這些數(shù)據(jù)說明以口語復雜度、準確度和流利度框架下的11項指標作為判別變量的判別模型能夠有效區(qū)分被試樣本。
四、綜合討論
選取有效指標及最佳組合是實現(xiàn)口語評分自動化的關鍵。本研究界定和采集了11項口語復雜度、準確度和流利度評價指標,在參加HSK(高等)口語考試的2404名韓國考生中隨機抽樣得到了50、100、150三個被試樣本,采用判別分析方法,分別在不同樣本量下依次探討了口語復雜度、準確度、流利度指標及多維度指標,對韓國漢語學習者口語等級的區(qū)分及預測效度,在此基礎上建立了韓國學生口語水平評價模型,并對模型的效度進行了驗證。
(一)不同維度判別變量與口語評分的關系
總的來看,在口語復雜度、準確度、流利度和多維度指標等4個維度、7組判別變量的判別結果中,多維度指標的判別效果較單一維度指標更為理想,判別的總正確率大多在 70% 以上。相比之下,以單一維度作為判別變量時預測效果均不理想,其中口語流利度指標的判別總正確率僅在 46%-58% 。相關研究表明,評分員在完成口語評價時更加注重口語交際任務的完成情況及交際結果,即注重交際的整體有效性,良好的內(nèi)容質量可以在一定程度上彌補語言上的不足[15-16],這可能是影響流利度判別效果的原因之一。此外,作為口語能力評價的直觀性指標,本研究在初步篩選流利度指標時也曾選取了發(fā)音速度、重復表達比例、修正表達比例、正確發(fā)音占比、平均C單位(剔除后)長度等指標,但均未通過Box'M檢驗,不滿足判別分析的適用條件。推斷在HSK考試評分過程中,評分員基于二語口語能力測驗這一主題考慮,可能會在主觀上降低對于語音物理屬性(如語速、語音正確性)的規(guī)范性要求,進而對部分指標的信度和效度產(chǎn)生了一定影響。
(二)不同樣本容量對判別效果的影響
在構建口語能力評價模型的過程中,隨著樣本量增加,考生的區(qū)別性特征能夠被更加完整地提取,對考生樣本的預測正確率也能隨之提升,增加訓練集的樣本量能夠在一定程度上提高模型的性能。本研究中在同一組判別變量下,隨著樣本容量的不斷增加,判別分析的總正確率總體呈現(xiàn)出上升趨勢,當樣本容量為150時總體判別正確率最高。對于各等級樣本而言,樣本容量的增加并未能使得同一組判別變量下各等級樣本的判別正確率逐漸提高,但A、B等級樣本的正確率大體上呈現(xiàn)出波動上升的趨勢,而C等級樣本在不同條件下判別結果均較為理想,樣本量增加對其判別正確率的影響并不十分明確。原因可能包括兩個方面。一方面可能是由于本研究的樣本量有限,僅選取了50、100和150三個樣本容量,未能詳盡地反映出樣本量增加時不同等級樣本的變化趨勢。另一方面可能與學習者本身有關,由于參加HSK(高等)考試的考生口語平均水平較高,A等級考生與B等級考生之間的差距相較于C等級考生與A、B等級考生之間的差距要小很多,因此C等級樣本的判別正確率相對較好,而本研究選取的C等級被試數(shù)目較少僅有60人,在抽樣中不可避免地重復出現(xiàn)在不同樣本組中,這就使得增加樣本量對于C等級樣本的作用十分有限,在一定程度上影響了不同樣本容量下C等級樣本的判別正確率變化趨勢。
(三)判別分析在口語評價研究中的應用
根據(jù)7組判別變量的判別情況,同時以口語復雜度、準確度及流利度這3個維度的11項指標作為判別變量,當樣本容量為150時判別函數(shù)的正確率最高達到 81.3% ,此時A、B、C三個等級樣本的判別正確率均在 70% 以上,判別效果較為理想。相應地,由該條件下的分類函數(shù)系數(shù)可以構建出韓國學生口語能力評價判別模型,經(jīng)HSK(高等)口語考試實測口語樣本檢驗,判別模型的正確率達到了 80% 。這一結果表明,復雜詞比例、Guiraud指標、每50詞AS單位數(shù)量、單元詞語數(shù)量、語音準確度、詞匯準確度、句法準確度、語速、發(fā)音時間比、平均語流長度和百音節(jié)更改次數(shù)等11項口語CAF指標,對口語等級具有較好的區(qū)分及預測效度,有助于口語能力評價體系的建設與完善。
五、結語
本研究以韓國漢語學習者的HSK(高等)口語考試語料為研究材料,在語料轉寫、校對和采集指標形成自建數(shù)據(jù)庫的基礎上,進行了判別分析。實證研究得到如下結論:
(一)在判別分析的過程中,隨著樣本容量的增加,判別的總正確率呈上升趨勢,且以多維度指標作為判別變量時的判別效果較單一維度更為理想。這說明判別分析方法在口語能力評價研究中具備較高的可行性,可以較好地預測考生的口語水平。
(二)在復雜度、準確度和流利度三個維度中,復雜詞比例、Guiraud指標、每50詞AS單位數(shù)量、單元詞語數(shù)量、語音準確度、詞匯準確度、句法準確度、語速、發(fā)音時間比、平均語流長度和百音節(jié)更改次數(shù)等11項指標,對考生的口語水平具有較好的區(qū)分及預測效度。當樣本容量為150時,以11項指標作為判別變量的判別正確率最高達到 81.3% ,說明在對韓國高級漢語水平考生的二語口語水平進行評價時,有必要多維度提取特征。
(三)根據(jù)判別結果,以11項評價指標作為判別變量構建了口語能力評價模型,經(jīng)HSK(高等)實測數(shù)據(jù)驗證,判別模型的預測準確率達到了 80% ,具有良好的預測效度。
采用判別分析法來擬合口語復雜度、準確度及流利度評價指標和專家評分的關系,從而構建的評價模型,預測準確性相對較高,能夠較好地實現(xiàn)對考生口語等級的分類,在大規(guī)??谡Z能力評價中具有較好的應用潛力。由于指標處理難度較大,本研究選取的樣本量和評價維度有限,在今后的研究中如果能夠豐富被試的母語背景、擴大樣本量、增加指標維度及數(shù)量,并嘗試使用更加復雜精準的判別分析方法,研究結果將具有更高的價值,有助于推進口語能力評價體系的建設及口語自動評分系統(tǒng)的完善。
參考文獻:
[1]王佶旻.第二語言口語考試評分方法述評[J].華文教學與研
究,2007,(1):24-31.
[2]熊敦禮,陳玉紅,劉澤華,等.大學英語大規(guī)模錄音口語測試
研究[J].外語教學與研究,2002,(34):283-287.
[3]Norris JM,Ortega L.Towards an Organic Approach to
Investigating CAF in Instructed SLA:The Case of Complexity [J].
[6]黃志娥,謝佳莉,荀恩東.HSK自動作文評分的特征選取研究[J].計算機工程與應用,2014,(6):118-122+126.
[7]湯國春.對外漢語看圖說話題自動評分模型的構建研究[D].南京師范大學碩士學位論文,2019.
[8]陳偉,夏清泉.判別分析法及其在教育評估中的應用[J].研究生教育研究,2010,(5):65-67+76.
[9]柴省三.漢語水平口試信度的理論與實證研究[J].語言教學與研究,2003,(4):69-77.
[10]柴省三.漢語作為第二語言習得的關鍵期假設研究[J].外語教學與研究,2013,(5):692-706+799-800.
[11]Elis,R.Task-based LanguageLearningand Teaching[M].Oxforduniversity press,2003:5-16.
[12]FosterP,Tonkyn A,Wigglesworth G.Measuring SpokenLanguage:A Unit for All Reasons[J].Applied linguistics,20oO,21(3):354-375.
[13]陳默.漢語作為第二語言的朗讀流利度和準確度的實驗研究[J].漢語應用語言學研究,2015,(00):123-138.
[14]陳默.漢語作為第二語言自然口語產(chǎn)出的復雜度、準確度和流利度研究[J].語言教學與研究,2015,(3):1-10.
[15]吳繼峰,趙曉娜.初中級漢語水平二語者口語產(chǎn)出質量評估研究[J].語言文字應用,2020,(1):76-86.
[16]SatoT,McNamara T.WhatCountsin Second Language OralCommunication Ability? The Perspective of Linguistic Laypersons [J].AppliedLinguistics,2019,40(6):894-916.
A Study on the Assessment of Second Language Oral Proficiency in Chinese Based on Discriminant Analysis
Zhang Manli' Yu Jiahui2 Chai Xingsan2 1 Party School of Shenyang Municipal Committee,Shenyang,Liaoning,110167 2 Beijing Language and Culture University,Beijing,100083
Abstract:Taking HSK(higher)speaking test recordingsas the object of this study,using the consistency of thegradediscrimination results of seven sets of discriminant variables,including complexity,accuracy,fluency, and two dimensional and three-dimensional combinations of the above three types of indexes,three samples of differentcapacities compared with theratings of theexpertsare examined tosee how thevalidityof each of the speaking proficiency evaluationindicators.The results show that 11indicators,including theproportion of complex words,Guiraud's index,the number of AS units per 5O words,the number of unit words,phonological accuracy,lexical accuracy,syntacticaccuracy,speed of speech,articulation timeratio,average stream length,and the number of hundred-syllable changes,have good discriminating and predictive validity for the candidates‘oral proficiency.Itis necessary to extract features in multiple dimensions and increase the sample size when evaluating the oral proficiency of candidates learning Chinese as second language.
Key Words:Chinese Speaking Assessment,Complexity,Accuracy,F(xiàn)luency,Discriminant Analysis
(責任編輯:吳茫)