陳紅燕
(合肥學院中文系,合肥 230061)
從“人機共生”看PSC智能語音測試系統(tǒng)的信度、效度與影響
陳紅燕
(合肥學院中文系,合肥 230061)
2007年后PSC智能語音測試系統(tǒng)逐步推行,在各個方面取得了較大改善。但伴隨推行范圍進一步加大,其智能性、準確性與社會影響越來越激發(fā)業(yè)內深層思考??陀^評價PSC智能語音測試系統(tǒng);創(chuàng)造“人機共生”環(huán)境,人工參與語音測試,盡可能確保各級語音評測的精準度;普及漢語口語標準度和規(guī)范度的社會共識;建立動態(tài)發(fā)展的大容量語料庫以資評分參考,不斷提高母語測試系統(tǒng)的信度與效度,是完善漢語標準語語音測試系統(tǒng)的必經(jīng)之路。
人機共生;智能語音;信度;語域;效度;動態(tài)語料庫
1.“人機共生”概念與研究現(xiàn)狀
20世紀50年代,計算機開始被用于智能研究。1960年,美國科學家立克里德指出:“人機共生是人與電子計算機之間合作性交互被期盼的發(fā)展。它將涉及伙伴關系中人與電子成員之間非常密切的耦合?!迸c立克里德對人機交互關系的樂觀態(tài)度相反,1960年,Bar-Hillel對理論基礎項目強烈不滿,特別是那些研究中間語的方法,他還證明了全自動高質量翻譯(FAHQT)在原則上的不可行性。他拒絕所謂的FAHQT這樣的理想目標,提倡開發(fā)基于計算機的翻譯系統(tǒng),為人類譯員提供幫助,即所謂的“人機共生”環(huán)境,將機器發(fā)展為人工的最佳助手。
“人機共生”概念從出現(xiàn)至今,相關研究充分證明了Bar-Hillel主張的人工為主導、計算機為輔助這一觀點的正確性和現(xiàn)實意義。立克里德盼望的人機之間密切耦合遠未實現(xiàn)。以機器翻譯為例,上世紀50年代和60年代,機器翻譯研究者碰到的語言問題比他們預想的要多得多,研究結果令人失望。1966年美國語言自動處理咨詢委員會建議有關FAHQT的機器翻譯研究應該停止,研究人員的注意力應該轉向為翻譯人員提供水平比原來所定的高目標要低一些的輔助系統(tǒng)。上世紀90年代至今,機器翻譯得到改善,但除天氣預報、旅游等窄領域外,通用意義上的機器翻譯產品仍不實用,譯文質量遠不能達標。目前,國內外自然語言翻譯公司多數(shù)仍以人工翻譯為主,機器為輔。
2O世紀末,語言測試越來越多地使用計算機技術,語言測試的方法和手段發(fā)生了根本性變化,計算機輔助教學以及電腦化測試手段開始逐步普及,并使得語言學習和語言測試的許多方面都得到了發(fā)展。計算機在語言測試中的應用主要體現(xiàn)在題庫建設、計算機輔助語言測試以及計算機自適應語言測試等方面。然而,鑒于現(xiàn)階段技術瓶頸,計算機給出的測評結果僅供參考,不能作為語言能力測評的唯一標準。
“人機共生”研究與應用,體現(xiàn)研究者致力于實現(xiàn)計算機技術的最大輔助功能、不斷縮小人機之間差距的努力。自上世紀50、60年代以來,研究者和使用者對其應用價值的審視越來越客觀,不再過度理想化設定目標,而是致力于人機交互應用性與科學性研究,研究的應用價值由誤差率大小和使用者對誤差的容忍度來決定。
2.PSC智能語音測試系統(tǒng)與應用現(xiàn)狀
2004年11月安徽中科大訊飛信息科技有限公司承擔“智能語音技術在普通話輔助學習中的應用研究”項目,研究目標為在普通話水平測試規(guī)程的指導下,建立實用化的計算機輔助智能測評系統(tǒng),將計算機輔助測試和語言學習系統(tǒng)結合起來,初步建立比較完善的智能普通話口語學習系統(tǒng),2006年1月18日項目通過國家鑒定。2007年普通話計算機智能化測試系統(tǒng)(以下簡稱“機測”)開始使用并逐步推行。以2010年為例,全年參加機測的人數(shù)逾160萬人次,占當年測試總人數(shù)的50%以上。
機測系統(tǒng)承續(xù)了人工測試時期的目標,旨在以測促推,從測試過程、測試結果、成績發(fā)布等各個方面試圖以其高效、公正、客觀促進普通話推廣。“機測的推行使得普通話測試逐漸從繁重的人工勞動中解脫出來,從報名、評測到歸檔均大大提高了效率。機測也使得測試的公平性得到了極大保證,一定程度上也保證了結果的準確性。科大訊飛公司經(jīng)過一年多的技術攻關,項目研究取得了突破性的進展,在全國主要方言區(qū)進行的現(xiàn)場人機測試對比結果表明,計算機測試的結果在分數(shù)和等級上已經(jīng)達到了和高水平測試員高度一致的水平。 ”
機測從2007年推行至今,其成果有目共睹,但也存在許多值得業(yè)界探討的問題。本文有鑒于PSC機測系統(tǒng)的應用與發(fā)展,從“人機共生”的角度分析該系統(tǒng)的信度、效度與深層影響。無論是人工還是機測時期,高校在校生都是受測主體,高校生的測試數(shù)據(jù)具有一定代表性,因而本文數(shù)據(jù)主要采用安徽某高校的大學生測試數(shù)據(jù)。
2005年Bachman提出的 “評價使用論證”是測試學界非常有影響力的理論模式。 Bachman認為,有用性是測試的重要性質,包括信度、效度、真實性、交互作用、影響、可實踐性六大屬性。
1.信度與PSC智能語音測試系統(tǒng)
信度是指測試結果受隨機誤差影響程度的指標。高信度是高效度的前提。
目前,學界對PSC智能語音測試系統(tǒng)中高分段的機測結果存在較大爭議,主要體現(xiàn)在:(1)等級越高,測試差異越大;(2)機測前三項對自然度、貼合度、表現(xiàn)力沒有評價;(3)前三項與第四項評分割裂,導致第四項評分容易過細過嚴。這些因素都會直接導致一級以上的通過率很低。
筆者(國家語委普通話培訓測試中心核定成績?yōu)橐患壖椎龋┰?jīng)上機測試前三項,機器給予的分數(shù)只有55分左右,如果結合第四項評分,最終成績至多達到一級乙等中低分段?!皬?008年11月到2009年2月期間,對該系統(tǒng)做過多次試驗:請不同時期、不同年齡段、以及不同性別的已經(jīng)獲得過國家語委普通話培訓測試中心認定的一級甲等成績人員來進行試驗測試。”“同時為了減少其他因素的影響,試驗人員事先全部都對測試試卷前3題的正確讀音進行過正音。結果前3題測試完之后,機器打出的分數(shù)最高的為57.2分,最低的為53.8分。按照這樣的結果,即使應試人最后一題只扣一分,最終成績都達不到一級甲等。”
由于測試結果與實際聽感差異大,考生對考試結果質疑也越來越大。以表一、表二為例,無論是否接受過培訓,一級乙等以上的通過率都極低。一級通過率嚴重影響應測者普通話學習的積極性,對普通話的使用和進一步推廣很不利。
2.效度與PSC智能語音測試系統(tǒng)
效度是 “對測驗分數(shù)所做的特定推論在恰當、有意義以及有實際實用價值幾個方面的程度”。在語言測試領域,效度比較多地被理解為測量理論、構成和分數(shù)有效。
PSC智能語音測試系統(tǒng)重點測評受測人的語言標準度,涉及字音準、詞音準、句音準、語篇音準。機測系統(tǒng)不僅測評音準,對詞匯、語法、語用能力也有一定的要求。
PSC智能語音測試系統(tǒng)的效度主要體現(xiàn)在對受測人口語測驗的分數(shù)推論較為妥當,在語言使用能力上也具有一定的促進作用。但值得斟酌探討的是,當話語表達發(fā)展到語篇階段時,語篇的語域風格與說話人的表達策略使得語流出現(xiàn)多種音變,停頓、重音、語氣、連貫等均對音節(jié)音準產生較大影響。以第三項朗讀的語篇為例,機器只能標注出顯性音變,而對于因語域風格與表達策略造成的隱性音變不可能也無法處處設定評測標準。第四項說話題的語料則由于過于開放,機器無法完成評測,只能交給人工,而由于人工與機器測評的連貫性被切斷,對有限語料的獨立評測(說話項時長3分鐘)容易造成評分過苛,影響總分的客觀性。
3.真實性、交互作用與PSC智能語音測試系統(tǒng)
語言測試中的真實性是指受試者在測試中使用目標語完成測試任務與其在現(xiàn)實生活中使用語言進行交際活動的相似程度,也就是語言測試與語言交際的統(tǒng)一程度。交互作用是指受試者與測試內容和過程的關系。最主要的是受試者的語言能力、專門知識和情緒。
以PSC智能語音測試系統(tǒng)第四項評測為例,第四項主要測試完全獨立的話題性單向口語表達,其特點為:單向表達、無人工引導與提示、圍繞選定話題展開表述、表達流暢自然。以上與日常生活中的口語表達差異甚大。日??谡Z基本是雙向或是多向交流,話題可以散漫無拘束,表達無需流暢性,達意即可。因而,評測出現(xiàn)以下幾種現(xiàn)象:一是因不了解、不適應這種表達方式,受測人在第四項中會出現(xiàn)諸如缺語、重復、語言表現(xiàn)僵硬呆板等諸多問題,有些受測人因此錯誤使用背稿、朗誦、讀秒等應試方式。二是受測內容與受測人日常交際口語內容相去甚遠,受測人對語言標準與語言應用能力概念的認知與掌握存在較大差距。因此,近些年很多受測者表現(xiàn)出口語篇章能力薄弱,話題渙散、框架紊亂、詞匯貧乏、言之無物。三是由于機測評分體系已經(jīng)智能化,全程只由程序提醒受測人測試內容,受測人在測試過程中缺乏心理調適與語言引導,情緒容易緊張,不少測試點出現(xiàn)過很多受測人遲遲不能進入系統(tǒng)進行測試的情況。四是受測人因不了解評測方式,在各項中出現(xiàn)不同的問題。
4.影響、可實踐性與PSC智能語音測試系統(tǒng)
“影響”指對社會、教育制度以及個人的影響。“可實踐性”指測試付諸實施的方法。
PSC智能語音測試系統(tǒng)實施影響上文提及高效、公平、客觀等積極效用,“系統(tǒng)基于國家普通話水平測試大綱,可準確地對考生命題說話之外的所有測試題型進行自動評測,并可以自動檢測發(fā)音者存在的語音錯誤和缺陷,對使用者高效提升普通話口語水平具有積極的指導意義。該系統(tǒng)應用于國家普通話水平測試當中,不僅可以提高普通話水平測試效率、降低測試成本和組織難度,同時也可以開展目前無法開展的考前模擬測試,為考生提供針對性的考前指導?!?/p>
除卻積極效用外,PSC智能語音測試系統(tǒng)也存在一些負面影響:
(1)評測研究趨弱,評測專家流失。一是機測前三項不需要測試員評分,使得第四項人工評分缺乏前后比對依據(jù)。二是測試員獨立聽測,又不能占有考生語料,因而無法就一個語料展開評測交流。三是因語料匱乏、研討稀少,測試員尤其是專家測試員流失相當嚴重,對普通話測試研究是極大的損失。
(2)母語標準模糊,應試趨于功利。機測時期高校受測者語言標準度較人工測試時期明顯提高。為便于考生參考,各省市級語言文字管理部門的網(wǎng)頁上都對考試流程做了比較詳細的說明。因而,主測單位、考生、考生所屬單位都普遍認為考前培訓并不重要。以安徽省某高校09年受測情況分析為例:
表一:受測總人數(shù)324人,教育系,未經(jīng)考前培訓
數(shù)據(jù)顯示,在校大學生即使未經(jīng)普通話培訓,拿到合格證書也并非難事。因此,普通話培訓工作難以得到考生重視,很多考生對標準母語的認知很模糊,僅憑語感應考。
Bachman提出“反濺作用”,指測試對教育、主管部門、社會評價及個人等的反作用力,比如以考試為準繩制定教育策略與評價標準等。由于機測系統(tǒng)測評語言標準化,對連續(xù)語流中的隱性音變無法逐一標注,語音的語用效果不能在成績上有效體現(xiàn),因而,部分受測人會放棄語用效果,刻意強調音準,追求分數(shù)最大化,部分受測人也會因追求表達的流暢、話題的完整性而背稿應試,這種現(xiàn)象屢禁而不能止。
近年來,市場在不斷提高對人才能力的需求,在校大學生對語言溝通能力的重視程度也越來越高;考生也認識到普通話測試等級與語言能力并不構成正比關系,拿到了較好的普通話成績,不一定就具備良好的自我表達和溝通能力。既然普通話考試并不能代表實際語言使用能力,受測者參考目的僅為獲得證書,迎合體制,這種功利性應考趨勢嚴重限制甚至削弱了普通話測試的社會影響力。
鑒于上文對PSC信度、效度以及影響的分析,本文認為,理性評價PSC智能語音測試系統(tǒng),建構“人機共生”測試環(huán)境,機測與人工相互輔助,是PSC測評系統(tǒng)進一步完善的必要途徑。建構良好的“人機共生”環(huán)境,可由以下策略實現(xiàn):
1.機測與人工分級并行。囿于現(xiàn)有技術水平,機測中高分段的測評結果存在較大爭議,而在中低分段的爭議較少。實行分級評測,高分段恢復人工測評,既彌補機測評分之不足,也可進一步完善考試體系。中低分段評分相對準確、高效,使用機測。因此,如考生已經(jīng)取得二級甲等以上的證書,可以自己選擇是否參加高分段的人工測評。分級測試可以進一步鼓勵并促進普通話的高水平發(fā)展,培養(yǎng)更多的語言愛好者;分級測試也利于專家隊伍建設,能夠評測高分段的測試專家,不僅語言標準度高,還具有較高的語言專業(yè)分析與研究能力,專家隊伍的建設可以進一步促進語言測試的發(fā)展,中高分段出現(xiàn)的存疑語料研討也可以進一步豐富測試研究。因此,分級測試高分段人工測試可以彌補機測評分弱點,使考試機制進一步完善,實現(xiàn)更大的社會價值。
2.專家團隊普及標準認識?,F(xiàn)階段母語標準度普遍提高,即使標準度很好,表達能力也未見得好。受測者認為普通話測試只是完成測試工作,對普通話水平測試的應試熱情并不高。由于上文提及的諸多原因,目前高校對普通話培訓重視程度很不夠。但通過下表可見,經(jīng)過相關課程培訓后的考生,二級乙等以上的通過率合格率獲得極大提高。
表二:培訓后(2010年教育系整體受測情況,總培訓34課時)
上表體現(xiàn),一是總達標率為97%,較未培訓前的92.8%有明顯上升;二是二甲合格率達到了57.2%,大大高于未培訓前的21.4%;三是培訓后,二甲57.2%的比例大大高于38.5%的二乙比例。經(jīng)過培訓,語言質量得到了很大的提高。
因此,各省測試中心應存有高水平測試員組成的培訓隊伍,普及對標準母語規(guī)范的認識,端正考試目的,強調語言應用。指出并分析高分段考生的語言表達問題,在專業(yè)層面上做有針對性的指導,不僅可使高分段的受測者進一步提高普通話水平,還能糾正這類人群對普通話測試體系的錯誤認識,能夠培養(yǎng)更多高分段高質量的語言愛好者。但普通話考試僅提供母語標準度的測試,不可能解決受測者語言交際問題。在語言標準度已經(jīng)達到順暢交流的基礎上,受測者應進一步發(fā)展自身的語用能力。如無特殊目的(如志在向傳媒業(yè)發(fā)展或將語言作為職業(yè)能力等),則不必將普通話高分段作為考試目標。
3.軟件開發(fā)與語言專家合作,動態(tài)推進語料庫的建設。現(xiàn)階段機測前三項的封閉式評分與第四項的開放式評分既需要動態(tài)熟語料庫,也需要測評者對動態(tài)的測評理論的把握,以及對語言動態(tài)發(fā)展的觀察和正確評價。
機測封閉式評測軟件所需的熟語料,還需要標注的進一步細化。動態(tài)語流中的隱性音變標注,尤其是第三項朗讀語篇的處理,其標準需要與語言專家合作、研討,不斷細化、修正。只有如此,才能做到前三項對語音的語用能力的體現(xiàn)。
對第四項說話題的開放式語料的評分,則需要評測團隊自身建立對語言發(fā)展與語言規(guī)范的動態(tài)認識。
首先是現(xiàn)時期語言規(guī)范中還存在大量需要細化并落實的工作。如書面語語篇的語域規(guī)范、語句銜接的規(guī)范、字詞規(guī)范的動態(tài)考察等,輔助語言學習的工具如語音標注的方式也有待進一步嚴格界定、甄別,分屬不同語域文本的語音標注(如普通話教材、兒童讀物、漢語對外推廣讀物等)使用嚴式標音還是寬式標音,輕聲、兒化、一和不等音變情況標注是否在同一文本注音中做到統(tǒng)一,編者是否要做出語域說明以更正確地指導言語發(fā)聲等等。以上都需要評測者有一定的認識和評析能力。
其次是評判說話題中的言語規(guī)范需要建立以下兩個認識:
一是分清“公眾言語語域”和“個體言語語域”。本文把在考量公眾接受度的前提下對語言的準確性、生動性、典雅性作出一定的調整的語域稱為“公眾言語語域”,說話題的語域趨于“公眾言語語域”。相對的是“個體言語語域”,較多的語言表達者只存在非公眾公開平臺下的個體交際言語觀念。個體言語只追求語用效果的最大化,私屬領域里的言語交際往往不過度追求準確、生動、典雅,允許出現(xiàn)語用失當,其語域風格常常親切、隨和甚至使用俚俗。說話題項目的絕大多數(shù)語料處于“公眾言語語域”和“個體言語語域”中間狀態(tài),如何評價并給出合理的分值,需要細心謹慎。
二是尊重并科學對待語言創(chuàng)新?!罢Z言建立維持社會規(guī)則,包括由語言本身造成的交際角色……通過此功能……社會團體被劃分,個人也得到識別與強調,因為通過人們之間的語言互動,自身人格得到了表達和發(fā)展?!闭Z言創(chuàng)新突破交際常規(guī),因其新穎而獲得傾聽、關注,因其語用效果良好而獲得社會認同、贊賞,是凸顯社會自我能力的標志之一。動態(tài)的語言創(chuàng)新既是語言發(fā)展的基礎、語言發(fā)展的常態(tài),也是語言發(fā)展的動力。語言創(chuàng)新的目的旨在凸顯,為達到凸顯的目的,言語主體往往突破常態(tài)表達,追求即時語境下的準確、生動的傳達,使用創(chuàng)造新詞新語、曲變慣用句式、悖逆慣常邏輯、違反語用常規(guī)等手段。
鑒別創(chuàng)新與謬誤,需要樹立說話題的良好樣本。好樣本不僅語音自然標準,有效傳遞語碼信息,還能體現(xiàn)良好的語用效果,同時也遵循倫理規(guī)約。
標準與規(guī)范的認識、評價與執(zhí)行為的是樹立語言典范,提高全民的語言素質,構建良好的社會語境,這也是PSC智能語音測試系統(tǒng)推行的最終目的。
機測雖已實現(xiàn)極大的社會價值,節(jié)約了成本,提高了效益,實現(xiàn)了公平與透明,但也要理性地認識到,機測作為新興測試系統(tǒng),必然有自身的不足。部分不足可以通過自身完善補足,部分不足是目前技術能力無法實現(xiàn)而不可避免的缺陷。由于自然語音往往基于語境和語域靈活而又隨機地處理,使得現(xiàn)階段智能語音測試的目標過于理想。
機測單一推行以來所體現(xiàn)出來的利弊,凸顯了人工參與測評、完善測試體系的重要意義?!叭藱C共生”的研究歷史證明了,那些以小樣本為基礎,在最初實驗中取得成功的新理論,最終都被證實存在一些問題。為了解決這些問題,必須檢驗一切有希望的方法并鼓勵修正。因此,本文結論如下:
1.理性思考Bar-Hillel主張的人工主導、計算機輔助這一觀點的正確性和現(xiàn)實意義,承認現(xiàn)階段計算機對自然開放語言評測的不確定性,建立“人機共生”的PSC測試智能與人工并軌機制,實現(xiàn)對高分段、低分段語音測試的人工參與,從而彌補缺憾,提高標準母語的質量與社會影響。
2.通過專家團隊普及對母語標準的認識,培養(yǎng)更多的語言愛好者。
3.軟件開發(fā)與語言專家合作,動態(tài)推進語料庫的建設,不斷細化、修正機測封閉式評測軟件所需熟語料。前三項的評測是進一步體現(xiàn)對語用能力的鼓勵。
4.評測團隊需要建立對語言規(guī)范的動態(tài)認識,尊重并科學對待語言創(chuàng)新,推動良好的社會語境,樹立語言典范,提高全民的語言素質。
[1]Licklider,J.C.R.Man 2 Computer Symbiosis[J]. IRETranscations on Human Factors in Electroincs. Volume HFE 21 March.1960:4-11.
[2]胡壯麟.語言學教程[M].北京:北京大學出版社,2002:245,9.
[3]渾潔絮.基于語義語言的英漢機器翻譯研究[D].大連:大連理工大學博士論文,2011:2.
[4]姚喜雙.普通話水平測試概況[M].北京:高等教育出版社,2011:49.
[5]科大迅飛信息科技有限公司.計算機輔助普通話水平測試系統(tǒng)技術手冊[M].安徽:科大迅飛信息科技有限公司,2008:2,3.
[6]張凱.語言測試理論與漢語測試研究[M].北京:商務印書館,2006:3,203,4.
[7]雷峻.計算機輔助普通話測試的問題思考及技術對策 [J].武漢:武漢理工大學學報,2010,(7):160-163.
[8]曹靜嫻.基于語料庫的詞語搭配民族文化性分析[J].中國海洋大學學報(社科版),2012,(5):119-123.
(責任編輯 吳 勇)
H01
:A
:1001-862X(2013)06-0188-005
陳紅燕(1976—),女,安徽巢湖人,安徽省合肥學院中文系講師。主要研究方向:現(xiàn)代漢語、對外漢語教學。