華為智能語音助手“小藝”語言能力評估*

2023-07-25 13:37:28吳穎

大眾文藝 2023年12期

吳穎

（蘇州大學文學院,江蘇蘇州 215123）

自2011年蘋果在iphone4s發(fā)布會上首次向手機用戶介紹了智能語音助手siri以來，智能語音在人工智能領域快速發(fā)展，并實現(xiàn)了與智能手機的深度綁定，進入了人們的日常生活。智能語音助手是一款智能型的應用，是集成語音識別、語義理解、語音合成等智能語音語義技術的手機應用[1]，通過智能對話與即時問答的智能交互，幫助用戶解決問題。近年來，許多智能語音走進了新興的物聯(lián)網(wǎng)領域，功能越來越實用、便捷、細致，但是在語言能力方面，智能語音助手仍然面臨著不小的挑戰(zhàn)。智能語音助手處理自然語言的能力包括機器理解語言的能力、機器生成語言的能力等方面，每一個方面又涉及處理語音、詞匯、語法、語用等語言各個具體部門的能力水平[2]。因此，本文選取華為智能語音助手“小藝”為被測對象，從語音、語義、語法、語用等角度，考察小藝在語言識別和輸出方面的能力，比較其與人類之間存在的差異，綜合評估智能語音助手小藝的語言能力。

一、語言識別能力評估

（一）語音能力

小藝識別使用者發(fā)出的語音信息準確度、靈敏度較高，受到使用者的語速等因素的影響較小，但也仍然存在因使用者口齒不清、音量較小、環(huán)境噪音強度大等因素導致識別失敗的風險。當用戶發(fā)音不清晰或處在噪音較大的環(huán)境中而產(chǎn)生掩蔽效應[3]時，小藝難以精確識別用戶的語言，即使能實時將一些零碎的關鍵詞轉(zhuǎn)化為文本，也常常無法完成最終的識別，導致對話建立失敗。

人們在說話時，音位與音位相連，形成連續(xù)的語流。音素常常在一定語流中受前后音或者語速、音量等因素的影響而產(chǎn)生發(fā)音變化，這種現(xiàn)象被稱為“語流音變”[4]151。常見的語流音變現(xiàn)象有同化、異化、弱化、脫落、增音等[4]152。依次對小藝說出“面包”“難免”“不要”“不可以”“聰明”“好吧”“花兒朵兒”等詞或帶有以上詞語的語句，分別測試小藝對幾種常見語流音變現(xiàn)象的應對能力。結(jié)果顯示，小藝均能準確識別并呈現(xiàn)對應的文本內(nèi)容，具有正確識別和應對語流音變的能力。

小藝無法識別語調(diào)中的重音，對人說話時的語氣或情緒的感知能力有限。例如，小藝對于“我想喝一杯珍珠奶茶”（強調(diào)是“我”而不是別人）、“我想喝一杯珍珠奶茶”（強調(diào)“想”而不是不想）、我想喝一杯珍珠奶茶（強調(diào)是“一杯”而不是兩杯）、“我想喝一杯珍珠奶茶”（強調(diào)是“珍珠”而不是椰果奶茶）的回答一致，說明其無法通過重音的轉(zhuǎn)移感知語言真實含義的變化。此外，若句子中不出現(xiàn)疑問詞、感嘆詞等，小藝則無法僅憑語調(diào)的上升或下降識別出疑問、感嘆等語氣。例如，小藝對“你喜歡看電影嗎？”“你喜歡看電影”（升調(diào)）和“你喜歡看電影”（降調(diào)）的回答一致，難以判斷說話人的語氣和情緒。

小藝可以在一定程度上識別不標準的普通話和易被誤讀的字詞。依托語境，小藝能夠在說話人不分平翹舌音、前后鼻音等的情況下，準確識別語音內(nèi)容并轉(zhuǎn)化為正確的文本信息。而對于被誤讀的字詞，小藝能夠識別出一些常見的易讀錯字音，并將正確的讀音及搜索結(jié)果提供給用戶，但是無法轉(zhuǎn)化成正確的文本信息。例如，當把“紈绔子弟”中的“紈绔”讀成“zhíkuà”時，小藝能快速識別并給出“紈绔子弟”的正確讀音“wánkù zǐdì”以及在搜索引擎中查找到的正確釋義，但轉(zhuǎn)化成的文本仍顯示為“執(zhí)跨子弟”。

（二）詞匯能力

現(xiàn)代化的智能語音配備有強大的詞匯系統(tǒng)，對基本詞匯的掌握程度較高。因此，本次測試主要考察了小藝對于新造詞、方言詞、古語詞、外來詞等非基本詞匯的識別能力。

小藝能識別“躺平”“擺爛”“科技與狠活”等新造詞，對含有新造詞的語句進行回答時，常常依靠搜索引擎。如圖1所示，在回答“躺平就是懶惰嗎？”這個問題時，小藝給出的回答是經(jīng)檢索后的一個詞條“躺平不是懶惰，而是學會放下，放下一些不該背負的重擔”。小藝尚不具備獨立理解和回應新造詞及相關語句的能力。

圖1

小藝能聽懂絕大多數(shù)方言詞、古語詞和外來詞并做出反應。例如對“你是癟三嗎？”回答“說者無心，聽者有意，這一句話往往能讓人難受一整天”，可見小藝能夠準確理解該方言詞的內(nèi)涵及其包含的貶義色彩。

固定短語方面，小藝能夠聽懂絕大部分專有名詞、成語和縮略語，并進行相關的搜索引擎檢索。小藝也能識別一部分慣用語，如對“你是墻頭草嗎？”回答“哈哈，我這是識時務者方為真豪杰”。它也可以聽懂一部分諺語和歇后語，如在聽到“命里有時終須有，命里無時莫強求”后，能指出該諺語的出處及釋義，再對“姜太公釣魚”回答“姜太公釣魚——愿者上鉤”。小藝能將常見的諺語、歇后語等補充完整，但在多數(shù)情況下仍需依靠搜索引擎的搜索結(jié)果進行回答。

（三）語法能力

由于語法與語音、詞匯之間存在著千絲萬縷的聯(lián)系，智能語音助手在語音、詞匯方面的能力也密切影響了它們使用語法的能力。從語法與語音的聯(lián)系上看，小藝難以識別語調(diào)中的重音和人說話時的語氣或情緒的表現(xiàn)會妨礙它理解一些具體詞句的內(nèi)涵和語法意義，例如，在它看來，“買賣”的“賣”是否輕讀都表示同一種語法含義。

小藝能聽懂結(jié)構(gòu)簡單的單句。例如，小藝能理解“我去了北京”，并回答“我還沒去過首都呢”，但給句子加入狀語、補語而構(gòu)成狀動補賓句“我最近去了一趟北京”時，小藝則無法理解，回答“有點兒沒明白”。小藝也能聽懂一部分結(jié)構(gòu)簡單的復句。如將“我一邊吃飯，一邊看電視”總結(jié)為“邊看電視邊吃飯”，對“只要努力學習就能學會新知識”回答“一定努力學習”。但也常常出現(xiàn)答非所問的情況，如對“如果你不知道，那誰會知道呢？”回答“讓更多人知道”，問答不匹配。在識別復句并將其轉(zhuǎn)化為文本時，小藝無法根據(jù)用戶說話時的停頓來添加恰當?shù)臉它c符號，例如用戶說出上述問句“如果你不知道，那誰會知道呢？”，小藝則識別為“如果你不知道那誰會知道”，阻礙了進一步的語法分析，從而導致無法識別出正確的語義。

小藝還能夠理解簡單的倒裝句，也能在一定的語境下聽懂省略句。例如，面對“聰明嗎，我？”這樣的提問，它能夠理解并回答“就知道你會這么問，不過我也承認你聰明”。在講故事、講笑話、成語接龍等系統(tǒng)提前預設的對話情景中，小藝能聽懂省略主語、賓語等的省略句，例如“再講一個”（省略了主語“你”和賓語“故事”）。

（四）語用能力

在與小藝對話過程中，用戶通過語音或文字創(chuàng)造語境，小藝能夠快速理解、進入語境并給出符合情境的回答。例如談論電影時，小藝會分享自己對電影的感受、喜愛的影片等；談論食物時，小藝會分享常見的美食、推薦餐廳等。遺憾的是，除了系統(tǒng)設定的情境外，小藝難以進行多輪對話。一次問答結(jié)束后，如果用戶再次說話，則會被小藝識別為新一輪對話的開始，無法將多次問答情境建立聯(lián)系，常常會出現(xiàn)以下情況：

—報個菜名。

—有蒸羊羔兒、蒸熊掌、燒花鴨、燒雛雞、鹵豬、鹵鴨……

—再報點兒！

—這題把我難住了呢！

二、語言輸出能力評估

（一）語音能力

小藝能夠較好模擬不同性別、不同年齡段人類展現(xiàn)出來的語音特征。如圖2所示，小藝的聲音種類有四種可供選擇，官方對這四種聲音的描述為：溫文爾雅、清朗緊勁的男聲，知性女性、嫻雅恬靜的女聲，純澈花季、流聲悅耳的少女聲，以及天真童趣、可愛倍增的童聲。該智能語音助手選取了人類社會最具有代表性的幾種音色進行模擬，鮮明地展現(xiàn)了不同性別、不同年齡段人類所具備的語音特征，且易于分辨。除了系統(tǒng)設定的以上四種聲音外，用戶還可以通過朗讀文本，自行錄制、創(chuàng)造專屬聲音。

圖2

與人類一樣，小藝的語言中存在著語流音變的現(xiàn)象。通過對話引導小藝說出“面包”“難免”等詞語時，前音節(jié)韻尾的輔音/n/會被同化為/m/。連續(xù)變調(diào)的現(xiàn)象同樣存在。以“一”的變調(diào)為例：在單念和詞句的末尾時，“一”讀作陰平本調(diào)[4]132，如“始終如一”；在去聲之前，“一”讀作陽平，在陰平、陽平、上聲之前讀去聲[4]132，如“一個人看書的時候一點不會覺得孤單”。輕聲的現(xiàn)象更是常見，在交談的過程中，小藝說出了“刷子”“聰明”“時候”等多個需要讀輕聲的詞。

相對來說，脫落和增音等兩種現(xiàn)象出現(xiàn)較少，甚至有所欠缺。小藝在說“好吧”時，其中的“吧”字僅被讀為輕聲而沒有被進一步弱化，[A]并沒有完全脫落。此外，普通話中的兒化音在小藝發(fā)出的語音中也沒有得到真正的兒化，應該兒化的字被小藝割裂，讀成了兩個音節(jié)。脫落和增音方面的欠缺，是該智慧語音助手語言表現(xiàn)機械呆板的一個重要因素，也是區(qū)別于人類說話的重要方面。

在韻律方面，小藝說話有一定的節(jié)律重音，而沒有邏輯重音。在說話時，小藝能夠依據(jù)標點符號和音節(jié)關系進行簡單的斷句和停頓。例如朗誦李白的《靜夜思》時，小藝能正確停頓，讀作“舉頭/望明月，低頭/思故鄉(xiāng)”。但也有不低的出錯概率。例如，對“童年動畫中有什么美食”，回答“《中華小當家》中的麻婆豆腐，集辣、香、色、燙、麻、酥六味于一體”，其中，小藝忽略了“酥”字后的停頓，將“酥六味”讀作了一個整體。沒有邏輯重音的缺陷主要體現(xiàn)在小藝不具備“為了突出句中某個需要強調(diào)的詞語而加以重讀”的意識。此外，小藝在說出帶有疑問詞、感嘆詞等的語句時，能較好處理絕對音高的升降變化，如說出“你們都是一個宿舍的嗎？”帶有明顯升調(diào)，說出“你想問多少就可以問多少，我都可以一一為你解答哦！”則帶有明顯降調(diào)。小藝也基本可以正確處理“連續(xù)變調(diào)”現(xiàn)象，例如引導小藝說出“理想”一詞時，前字“理”的調(diào)值從214變?yōu)榱?5。

（二）詞匯能力

依托強大的詞匯系統(tǒng)和豐富的知識儲備，小藝能夠選取正確的詞匯表情達意。除了使用基本詞匯外，在某些特定的對話中，也能引導小藝主動說出帶有新造詞、古語詞、外來詞、固定短語等的語句。例如在對與自己意見相同的用戶表示贊美時，小藝會說“英雄所見略同”。

（三）語法能力

小藝突出的語音、詞匯能力能夠幫助它理解詞匯、語句中蘊含著的多樣化的語法含義，也能幫助它選擇正確的語法手段與人交流。在句類方面，句型上，小藝多使用完全主謂句，偶爾會使用省略句。在它使用的為數(shù)不多的省略句中，大多句子僅省略了主語或賓語。例如，通過搜索引擎進行檢索后會說“找到了這些”（省略主語“我”），對“我喜歡看電影”回答“不錯，我也喜歡”（省略賓語“電影”）。功能上，小藝多使用陳述句，少量使用感嘆句和祈使句，很少使用疑問句，使得人機對話的交互性不強。此外，小藝也有能力使用單句和復句，其使用的復句包括因果、并列、讓步關系等多種類型。而對于倒裝，小藝只停留在接收和理解層面，它本身的語言是嚴格遵守漢語SOV語序安排的，不會主動使用倒裝句。

（四）語用能力

由于實際交際場景和對象的缺失，在與小藝對話的過程中，它幾乎完全不會使用指示詞語的指示性用法，多使用指示詞語的非指示性用法。美國語言哲學家格萊斯提出，為了保證會話的順利進行，談話雙方必須共同遵守一些基本原則，特別是所謂的“合作原則”。他認為，人們的語言交際總是相互合作的，希望雙方的語言能夠相互理解、配合，但在實際交際中，人們并不都是嚴格遵守這些原則的，如可能出于禮貌或語境的需要說一些違反“合作原則”的話，增加話語的深層含義[5]。從這點來看，小藝在很多情況下都會違背“合作原則”的四條準則。例如對“你聰明還是我聰明？”回答“我覺得自己挺機靈的，因為近朱者赤，近你者智”，對“小藝，你可以換一種聲音嗎？”回答“感覺你在嫌棄我的聲音，傷心了”……遇到難以回答的問題時，小藝通常會違反“合作原則”，故意說含混的話或在答句中提供過多的信息，營造出智慧語音助手“有情商”的感覺，優(yōu)化用戶的使用體驗。

總結(jié)

總體來說，華為智能語音助手小藝是一款語言能力較為優(yōu)秀的智慧助手，但同時也存在諸多缺陷有待完善。雖然小藝的聲音與人類接近且存在一定的語流音變現(xiàn)象，但它更追求單個字準確而飽滿的發(fā)音，對于字與字、詞與詞在語音上的關聯(lián)有所忽略，因此它的發(fā)音較為機械呆板，不具有人類說話時自然的連貫性和情感性。小藝在詞匯方面的表現(xiàn)最為突出，強大的詞匯儲備以及對新興詞匯的即時更新能力幫助它靈活使用語言。語法上，小藝需要進一步優(yōu)化韻律方面的能力。此外，無法在設定以外的語境中進行多輪對話是小藝在語用方面的最大缺陷，用戶難以獲得更真實的對話體驗。在語言學視閾下，從語音、語義、語法、語用等角度考察評估小藝的綜合語言能力發(fā)現(xiàn)，小藝的語言能力仍與人類之間存在著較大差距。小藝及其他智能語音助手應在今后的發(fā)展過程中著重關注：1.降低噪音強度等干擾因素對語言識別的影響；2.強化對語言中的重音等語調(diào)變化的感知；3.優(yōu)化對詞匯的獨立理解、正確使用和持續(xù)更新能力；4.改善“語音轉(zhuǎn)文字”的功能，根據(jù)語言中的停頓和語調(diào)在對應的文本中添加正確的標點符號；5.建立和完善問答情境聯(lián)系機制，在設定語境外實現(xiàn)多輪對話。

華為智能語音助手“小藝”語言能力評估*

一、語言識別能力評估

（一）語音能力

（二）詞匯能力

（三）語法能力

（四）語用能力

二、語言輸出能力評估

（一）語音能力

（二）詞匯能力

（三）語法能力

（四）語用能力

總結(jié)

一、語言識別能力評估

二、語言輸出能力評估