摘要:目的:隨著我國老齡化程度的加深,老齡化人群聽覺功能障礙成為不可忽視的社會(huì)議題。聽力損失不僅損害老年人的感知能力,更會(huì)對(duì)其身心健康和社會(huì)參與造成嚴(yán)重影響。文章以老年聽障人群為研究對(duì)象,探究以深度學(xué)習(xí)聲音識(shí)別技術(shù)促進(jìn)老年聽障人群無障礙交互的可行性,探究無障礙交互產(chǎn)品設(shè)計(jì)策略。方法:基于無障礙設(shè)計(jì)理論、老年聽障人群特征,研究深度學(xué)習(xí)聲音識(shí)別技術(shù)在輔聽軟件中的作用。通過聲音識(shí)別和音頻分類技術(shù),實(shí)現(xiàn)對(duì)語言信息和關(guān)鍵環(huán)境聲(如門鈴聲、警報(bào)聲、嬰兒哭聲等)的監(jiān)測(cè)、判斷與提醒,幫助聽障用戶通過感官代償?shù)姆绞皆谌粘I钪屑皶r(shí)獲取聲音的重要信息。結(jié)果:文章歸納了基于深度學(xué)習(xí)聲音識(shí)別技術(shù)的無障礙交互產(chǎn)品設(shè)計(jì)策略,并討論實(shí)現(xiàn)過程中面臨的技術(shù)難點(diǎn),提出優(yōu)化建議。圍繞感官代償、簡(jiǎn)化操作、安全隱私及情感化界面,設(shè)計(jì)適合老年聽障用戶的交互界面和多模態(tài)提醒方式,改善老年聽障人群的聽力狀態(tài),幫助他們更好地生活。結(jié)論:深度學(xué)習(xí)聲音識(shí)別技術(shù)為無障礙交互產(chǎn)品設(shè)計(jì)提供了新的可能,使手機(jī)輔聽軟件可以切實(shí)為老年聽障人群這一特殊群體提供幫助,進(jìn)而推動(dòng)社會(huì)包容與人文關(guān)懷設(shè)計(jì)的發(fā)展。
關(guān)鍵詞:深度學(xué)習(xí)聲音識(shí)別技術(shù);老年聽障人群;無障礙交互產(chǎn)品;交互設(shè)計(jì);輔聽軟件
中圖分類號(hào):TP311.5 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1004-9436(2024)16-0-03
0 引言
隨著我國老年人口的不斷增加,社會(huì)將進(jìn)入深度老齡化階段。據(jù)《中國聽力健康報(bào)告(2021)》藍(lán)皮書,我國老年聽障患者約占老齡人口的30%,60歲以上的老年人患聽力障礙的比例為11.4%[1]。由于進(jìn)口助聽器價(jià)格高昂、輔聽設(shè)備較少、輔聽?wèi)?yīng)用難以普及、人們對(duì)老年聽障危害的認(rèn)知水平不足等,許多聽障老年人默默忍受著失去聲音的世界。目前,聽障交互領(lǐng)域的研究缺乏對(duì)聽障人群的界定與細(xì)分,對(duì)老年聽障人群的關(guān)注嚴(yán)重不足。但隨著手機(jī)在老年人中的普及以及AI深度學(xué)習(xí)聲音識(shí)別技術(shù)的進(jìn)步,通過無障礙交互設(shè)計(jì)的方法構(gòu)建滿足實(shí)用性與情感體驗(yàn)的無障礙交互產(chǎn)品,利用技術(shù)手段幫助老年聽障人群克服在聲音信息接收轉(zhuǎn)換方面遇到的困難,對(duì)促進(jìn)老年聽力健康發(fā)展、構(gòu)建老年友好型社會(huì)有重要的參考意義。
1 研究背景
習(xí)近平總書記強(qiáng)調(diào),“有效應(yīng)對(duì)我國人口老齡化,事關(guān)國家發(fā)展全局,事關(guān)億萬百姓福祉”[2]。面對(duì)老齡化社會(huì)的到來,將深度學(xué)習(xí)聲音識(shí)別技術(shù)應(yīng)用于無障礙交互產(chǎn)品設(shè)計(jì),提高老年聽障人群在社交、生活中獲取信息的能力,增強(qiáng)他們的社會(huì)參與感,能為其他特殊群體的交互設(shè)計(jì)提供借鑒,推動(dòng)人機(jī)交互技術(shù)在銀發(fā)健康領(lǐng)域發(fā)展。
1.1 老年聽障人群現(xiàn)狀
老年聽力損失是指60歲以上老年人因年齡增長(zhǎng)、耳科疾病、遺傳因素、噪聲損傷、耳毒性藥物、代謝性疾病和不良生活習(xí)慣等出現(xiàn)的聽覺功能下降的情況[3],通常也被描述為“耳背”或者“老年性耳聾”。聽障是一種常見的感官障礙,隨著年齡的增長(zhǎng),聽覺器官逐漸衰退,加上疾病、環(huán)境等因素的影響,許多老年人面臨不同程度的聽力損失。研究表明,超過60歲,聽力損失及聽力殘疾患病率升高;在80歲以上的人群中,超過90%的人有一定程度的聽力損失,超過50%的人有中度到完全的聽力損失。這不僅影響老年人的日常生活,還限制了他們對(duì)現(xiàn)代科技產(chǎn)品的使用,使他們?cè)谛畔@取方面處于劣勢(shì)。
1.2 老年聽障人群特征
聽力正常的人可以聽到20 Hz~20000 Hz的聲音,國際衛(wèi)生組織判定平均聽力閾值≥20 dBHL為存在聽力損失。老年性聾是與年齡相關(guān)的聽力損失累積的病理生理變化,其特征是進(jìn)行性、不可逆[4]。它主要由耳蝸內(nèi)的毛細(xì)胞或聽神經(jīng)的退化引起,主要特征為高頻聽力損失,即對(duì)2000 Hz以上的高頻聲音的感知減弱。因此,老年人難以聽清較尖細(xì)或高音調(diào)的聲音,如兒童的說話聲、鳥鳴聲、電話鈴聲以及火警警報(bào)聲等。聽力損失不僅影響聲音的接收,還會(huì)影響老年人對(duì)言語的理解能力。即便可以聽到聲音,也難以分辨單詞和句子的細(xì)節(jié)。例如,對(duì)“s”“f”“th”等輔音分辨困難。即便聲音足夠響亮,也可能難以分辨內(nèi)容,還可能對(duì)噪聲更加敏感。
2 理論與技術(shù)基礎(chǔ)
2.1 深度學(xué)習(xí)聲音識(shí)別技術(shù)
深度學(xué)習(xí)聲音識(shí)別技術(shù)是指通過移動(dòng)端集成麥克風(fēng)收集音頻數(shù)據(jù),根據(jù)AI機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)分析音頻數(shù)據(jù),將音頻信號(hào)分為預(yù)定義類別的技術(shù)。區(qū)別于傳統(tǒng)的識(shí)別技術(shù),AI的應(yīng)用使語音識(shí)別技術(shù)的速度與精度大幅提升,深度學(xué)習(xí)在語音處理領(lǐng)域取得了顯著進(jìn)展。在機(jī)器學(xué)習(xí)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)是一種屬于深度學(xué)習(xí)網(wǎng)絡(luò)范疇的前饋人工神經(jīng)網(wǎng)絡(luò),非常適合應(yīng)用于語音信號(hào)識(shí)別分析[5]。卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等深度學(xué)習(xí)算法通過識(shí)別不同的聲音,如人聲、環(huán)境聲、噪聲等,能夠自動(dòng)學(xué)習(xí)特征,大大提高語音分類的性能。隨著計(jì)算能力的提升和數(shù)據(jù)量的增加,深度學(xué)習(xí)聲音識(shí)別技術(shù)應(yīng)用于聽障老年人的交互系統(tǒng)設(shè)計(jì)中大有可為,將為他們提供聲音輔助,如支持方言語音識(shí)別、提供聲音事件檢測(cè)提示等。
2.2 無障礙交互設(shè)計(jì)案例
國內(nèi)智能手機(jī)聽力輔助App主要有“訊飛聽見”和“音書”?!耙魰笔且豢顬槁犝先巳捍蛟斓臏贤ń涣鬈浖?,無障礙溝通和語音訓(xùn)練是其主要的兩大功能[6]。“訊飛聽見”主要適用于會(huì)議與記錄,配合助聽耳機(jī)使用,對(duì)于聽障用戶可免費(fèi)轉(zhuǎn)錄。
谷歌的實(shí)時(shí)字幕和微軟的直播字幕等服務(wù)能為口語提供實(shí)時(shí)字幕,使聽力障礙者能夠在視頻通話或現(xiàn)場(chǎng)活動(dòng)期間跟蹤對(duì)話。蘋果、華為等各大手機(jī)生產(chǎn)公司也在輔助服務(wù)中配備了無障礙功能,包括語音轉(zhuǎn)文字、實(shí)時(shí)字幕、聲道融合、助聽器鏈接以及聲音提醒等。但無障礙功能一般隱藏較深,老年聽障人群對(duì)該功能了解甚少,也很少有人能充分使用智能手機(jī)的無障礙功能。
3 無障礙交互產(chǎn)品設(shè)計(jì)策略
3.1 設(shè)計(jì)原理
無障礙交互設(shè)計(jì)/信息無障礙設(shè)計(jì)原理(Information Accessibility Design)是在無障礙的基礎(chǔ)上,引入信息時(shí)代背景形成的相關(guān)概念。其認(rèn)為設(shè)計(jì)不僅要為健全人服務(wù),還要為殘障人士服務(wù);不僅要為人服務(wù),還要考慮環(huán)境與資源問題[7]。要利用科學(xué)技術(shù)減少殘障人士在信息獲取、接收過程中的阻礙。
以用戶為中心的設(shè)計(jì)原理是要通過對(duì)用戶的深刻了解,根據(jù)用戶需求設(shè)計(jì),并且通過用戶驗(yàn)證[8],強(qiáng)調(diào)在設(shè)計(jì)過程中充分考慮使用者的需求、能力、偏好等因素。針對(duì)老年聽障人群進(jìn)行無障礙交互產(chǎn)品設(shè)計(jì),意味著要深入了解他們的聽力狀況、認(rèn)知能力、使用習(xí)慣等,以確保設(shè)計(jì)出的交互系統(tǒng)符合其實(shí)際需求。
感官代償交互設(shè)計(jì)原理指利用通感的方式對(duì)有損失的感官進(jìn)行代償??梢岳靡曈X代償聽覺的方式進(jìn)行老年聽障人群輔聽軟件設(shè)計(jì)。采用多模態(tài)的交互方式,如用視覺、觸覺等反饋方式將聲音信息轉(zhuǎn)換為文字或者圖形語音。在信息傳遞過程中,以視覺的形式來表現(xiàn),輔之以頻閃呈現(xiàn),對(duì)吸引老年人的注意力有良好的效果。
3.2 針對(duì)老年聽障人群特征的設(shè)計(jì)策略
老年聽障人群除了聽力損失,還可能伴隨視力下降。同時(shí),他們對(duì)自身的聽力損傷存在一定的抵觸心理,對(duì)新事物的接受程度較低。輔聽軟件應(yīng)考慮老年聽障人群的身心特征,簡(jiǎn)化交互流程,減少跳轉(zhuǎn)層級(jí),增強(qiáng)交互的便捷性,并設(shè)計(jì)清楚直觀的交互界面和學(xué)習(xí)指引,便于他們使用,還需要在提供錄音功能的同時(shí),保障個(gè)人隱私不被泄露。
4 交互設(shè)計(jì)實(shí)踐
本次設(shè)計(jì)實(shí)踐將基于深度學(xué)習(xí)聲音識(shí)別技術(shù)為老年聽障人群設(shè)計(jì)一款簡(jiǎn)單易用的聲音提醒App。以上文提出的設(shè)計(jì)策略為基礎(chǔ),探究如何利用移動(dòng)應(yīng)用幫助老年聽障人群克服聲音接收?qǐng)鼍爸杏龅降睦щy。通過訪問調(diào)研與問卷調(diào)查發(fā)現(xiàn),老年聽障群體主要在聲音接收、分辨、對(duì)話等方面存在困難??紤]到現(xiàn)有設(shè)備對(duì)噪聲環(huán)境識(shí)別不佳、移動(dòng)設(shè)備續(xù)航等問題,因此將App的使用場(chǎng)景確定為室內(nèi)聲音接收判定并通過感官代償方式提醒老年人。
4.1 聲音監(jiān)聽
聲音監(jiān)聽功能可幫助用戶在不便直接聽到聲音的情況下獲得提醒,能捕捉打招呼聲、門鈴聲、鬧鐘聲、警報(bào)聲、小孩哭聲等重要聲音,并給予提醒。
需要注意的是,在嘈雜的環(huán)境中,音頻分類的準(zhǔn)確性容易受到干擾。可利用先進(jìn)的去噪算法,如譜減法和自適應(yīng)濾波器,將背景噪聲從音頻信號(hào)中分離出來,保留關(guān)鍵聲音信息。在模型訓(xùn)練中引入不同噪聲場(chǎng)景的音頻數(shù)據(jù)進(jìn)行增強(qiáng),提升模型的抗噪性。在實(shí)時(shí)檢測(cè)中進(jìn)行降噪處理,可以通過濾波或自適應(yīng)降噪算法去除不必要的背景音,從而提高重要聲音的識(shí)別率。
利用深度學(xué)習(xí)聲音識(shí)別技術(shù),對(duì)采集的聲音進(jìn)行分類。由于個(gè)人居家環(huán)境聲音比較固定,可以利用公開的大規(guī)模音頻數(shù)據(jù)集,在目標(biāo)數(shù)據(jù)較少的情況下,通過遷移學(xué)習(xí)對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),輸入符合自己需求的環(huán)境聲音和人聲標(biāo)注,構(gòu)建更加精準(zhǔn)的音頻分類模型。
4.2 聲音提示
識(shí)別聲音后,需要區(qū)分語音和非語音信號(hào),以便決定開啟對(duì)話輔助還是聲音提醒模式。需要對(duì)提醒做到情境化聲音識(shí)別,通過情境化的聲音捕捉和自定義提醒設(shè)定,實(shí)現(xiàn)對(duì)特定聲音的監(jiān)控,減少干擾性提示。考慮到老年用戶可能存在不同的感知偏好,應(yīng)設(shè)計(jì)多種提醒方式,如振動(dòng)、閃爍光效、屏幕提示等,確保提醒效果明顯。輔聽App的界面設(shè)計(jì)和交互風(fēng)格應(yīng)更加人性化,增強(qiáng)情感關(guān)懷。核心界面可以設(shè)計(jì)成溫暖柔和的色調(diào),采用大字體、友好的圖標(biāo)風(fēng)格,讓用戶產(chǎn)生親近感。界面配色應(yīng)柔和,增強(qiáng)視覺舒適性,符合老年用戶的審美傾向(見圖1)。
語音轉(zhuǎn)文字功能旨在幫助用戶快速獲取他人的言語內(nèi)容,適用于交流場(chǎng)景?;诶夏暧脩舻男枨?,使用大字號(hào)和高對(duì)比度的文字,確保用戶能輕松獲取文字信息(見圖2)。
5 結(jié)語
基于深度學(xué)習(xí)聲音識(shí)別技術(shù)為老年聽障人群的無障礙交互產(chǎn)品設(shè)計(jì)提供了新的可能。設(shè)計(jì)以聲音監(jiān)聽和聲音提醒這兩項(xiàng)功能為核心的輔聽?wèi)?yīng)用,可以有效提升老年聽障人群對(duì)語言和非語言信息的接收能力。雖然深度學(xué)習(xí)聲音識(shí)別技術(shù)在輔聽App中的應(yīng)用有巨大的潛力,但手機(jī)麥克風(fēng)在嘈雜環(huán)境中的分辨能力較弱,模型訓(xùn)練難度大,續(xù)航時(shí)間短,在數(shù)據(jù)隱私保護(hù)等方面仍面臨巨大挑戰(zhàn)。老年聽障人群的社會(huì)問題也不單是技術(shù)層面可以解決的,政府與社會(huì)需要共同努力,提高全社會(huì)對(duì)老年人聽力健康問題的重視度。
參考文獻(xiàn):
[1] 中國聽力健康報(bào)告.中國聽力醫(yī)學(xué)發(fā)展基金會(huì)研創(chuàng)[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2021:73-75.
[2] 馬曉偉.全力推進(jìn)新時(shí)代老齡工作高質(zhì)量發(fā)展[N].人民日?qǐng)?bào),2021-12-24(10).
[3] 全國防聾治聾技術(shù)指導(dǎo)組,中華醫(yī)學(xué)會(huì)耳鼻咽喉頭頸外科學(xué)分會(huì),中華耳鼻咽喉頭頸外科雜志編輯委員會(huì),等.老年聽力損失診斷與干預(yù)專家共識(shí)[J].中華耳鼻咽喉頭頸外科雜志,2019,54(3):166-173.
[4] 賀祖宏,李明,鄒圣宇,等.老年性聾的發(fā)病機(jī)制及干預(yù)研究進(jìn)展[J].中華耳鼻咽喉頭頸外科雜志,2020,55(11):1105-1110.
[5] 邵娜,李曉坤,劉磊,等.基于深度學(xué)習(xí)的語音識(shí)別方法研究[J].智能計(jì)算機(jī)與應(yīng)用,2019,9(2):135-142.
[6] 王翀,周龍飛,張祖耀.基于活動(dòng)理論的聽障騎手AI語音交互產(chǎn)品設(shè)計(jì)[J].設(shè)計(jì),2023,36(9):138-141.
[7] 帕帕奈克·維克多.為真實(shí)的世界設(shè)計(jì)[M].北京:生活·讀書·新知三聯(lián)書店,2002:7.
[8] 董建明,傅利民,饒培倫.人機(jī)交互:以用戶為中心的設(shè)計(jì)和評(píng)估[M]. 4版.北京:清華大學(xué)出版社,2013:5.
基金項(xiàng)目:本論文為2024年度江蘇省研究生實(shí)踐創(chuàng)新計(jì)劃人文社科項(xiàng)目“針對(duì)中老年聽障人群的無障礙交互設(shè)計(jì)研究”成果,項(xiàng)目編號(hào):SJCX24_1846
作者簡(jiǎn)介:江雪瑩 (1996—) ,女,研究方向:數(shù)字媒體藝術(shù)、交互;邵斌 (1969—) ,男,副教授,系本文通訊作者,研究方向:數(shù)字媒體藝術(shù)、影視動(dòng)畫。