摘要: 移動(dòng)互聯(lián)網(wǎng)信息無障礙(mobile Internet information accessibility, MIIA)旨在確保移動(dòng)應(yīng)用內(nèi)容對(duì)所有用戶(包括視障人士等)都能平等、 便捷、 無障礙地獲取和使用. 系統(tǒng)綜述移動(dòng)互聯(lián)網(wǎng)信息無障礙領(lǐng)域的最新研究進(jìn)展, 重點(diǎn)分析總結(jié)移動(dòng)端GUI(graphical user interface)語義表征與理解、 無障礙檢測(cè)以及布局修復(fù)等方面的研究成果. 分析表明, 從傳統(tǒng)啟發(fā)式規(guī)則方法到深度學(xué)習(xí)驅(qū)動(dòng)的自動(dòng)化工具, 相關(guān)技術(shù)逐漸提升了檢測(cè)的精度和適應(yīng)性, 同時(shí)也揭示了在應(yīng)對(duì)復(fù)雜動(dòng)態(tài)交互和多樣化用戶需求方面的挑戰(zhàn), 并對(duì)未來研究方向進(jìn)行了展望. 移動(dòng)互聯(lián)網(wǎng)信息無障礙技術(shù)已顯著改善了視障用戶的數(shù)字體驗(yàn), 但仍需不斷創(chuàng)新與優(yōu)化, 以實(shí)現(xiàn)真正普惠與包容的數(shù)字社會(huì).
關(guān)鍵詞: 移動(dòng)互聯(lián)網(wǎng); 信息無障礙; 視障用戶; 圖形用戶界面
中圖分類號(hào): TP311" 文獻(xiàn)標(biāo)志碼: A" 文章編號(hào): 1671-5489(2025)01-0124-15
Review of Mobile Internet Information Accessibility Research
LIU Huaxiao, YU Jinyan, SONG Shenning, ZHANG Mengxi
(College of Computer Science and Technology, Jilin University, Changchun 130012, China)
Abstract: The purpose of mobile Internet information accessibility (MIIA) was to ensure that mobile application content was equally accessible, convenient, and barrier-free for all use
rs, including those with visual impairments." We systematically review the latest research progress in the field of mobile Internet information accessibility, focusing on the analysis and summary of research achievements in
semantic representation and understanding of mobile GUI, accessibility detection and layout repair. The analysis shows that from traditional heuristic rule methods to deep learning-driven automated tools,
related technologies have gradually improved detection accuracy and adaptability, while also revealing challenges in addressing complex dynamic interactions and diverse user needs.
We have provided an outlook on" future research directions." MIIA technologies have significantly improved" the digital experience for visually impaired users, but they still need continuous innovation and
optimization" to achieve a truly inclusive digital society.
Keywords: mobile Internet; information accessibility; visually impaired users; graphical user interface
收稿日期: 2024-12-02.
第一作者簡(jiǎn)介:" 劉華虓(1986—), 男, 漢族, 博士, 副教授, 博士生導(dǎo)師, 從事智能化軟件工程、 數(shù)據(jù)挖掘和人機(jī)交互的研究, E-mail: liuhuaxiao@jlu.edu.cn.
通信作者簡(jiǎn)介: 宋申苧(2000—), 男, 漢族, 碩士研究生, 從事軟件工程的研究, E-mail: sunning2118@gmail.com.
基金項(xiàng)目: 吉林省自然科學(xué)基金(批準(zhǔn)號(hào): 20230101070JC).
0 引 言
移動(dòng)互聯(lián)網(wǎng)信息無障礙(mobile Internet information accessibility, MIIA)主要指移動(dòng)應(yīng)用(App)內(nèi)容對(duì)任何人(無論是健全人還是殘疾人、 老年人)在任何情況下
都能平等、 方便、 無障礙地獲取、 交互和使用[1-4]. 目前, 移動(dòng)互聯(lián)網(wǎng)逐漸成為公民獲取政治、 教育、 體育等信息的主要來源, 這對(duì)移動(dòng)互聯(lián)網(wǎng)信息的可訪問性提出
了更高的要求. 因此, 在移動(dòng)應(yīng)用發(fā)展過程中, 不僅要迎合市場(chǎng)需求, 還應(yīng)兼顧不同人群信息獲取能力的差異, 致力于為所有用戶提供一個(gè)平等、 開放的數(shù)字空間, 促使信息的共享和獲取更普惠.
視障人群指患有視力障礙, 包括完全失明或部分失明的群體. 該群體可能依賴非視覺方法(如盲杖、 導(dǎo)盲犬、 聲音提示等)或輔助技術(shù)彌補(bǔ)視覺上的缺失, 以更好地適應(yīng)
并參與日常生活、 工作和社會(huì)活動(dòng). 視障用戶在使用互聯(lián)網(wǎng)獲取信息時(shí)通常需要特殊設(shè)計(jì)和功能, 以確保他們有與健全用戶相當(dāng)?shù)捏w驗(yàn)和信息獲取能力, 從而需要在移動(dòng)互聯(lián)網(wǎng)開發(fā)
中采取措施, 使應(yīng)用內(nèi)容對(duì)視障用戶更友好且易于訪問. 1999年, 萬維網(wǎng)聯(lián)盟(world wide Web consortium, W3C)發(fā)起了網(wǎng)絡(luò)無障礙計(jì)劃(Web accessibility initiative,
WAI)[5], 以改善網(wǎng)絡(luò)的可訪問性. WAI倡議負(fù)責(zé)制定一套重要的可訪問性指南, 稱為網(wǎng)絡(luò)內(nèi)容可訪問性指南(Web content accessibility guideline, WCAG)[6]
. 移動(dòng)互聯(lián)網(wǎng)信息無障礙為視障用戶帶來了巨大便利, 使他們能更自主地獲取信息、 參與社交和獨(dú)立生活. 通過語音輔助技術(shù), 他們可以訪問新聞、 電子書等資源, 豐富知識(shí)并
促進(jìn)個(gè)人發(fā)展; 使用社交媒體和通訊應(yīng)用, 參與線上溝通; 借助無障礙設(shè)計(jì)的導(dǎo)航應(yīng)用, 更安全地出行. 移動(dòng)互聯(lián)網(wǎng)信息無障礙技術(shù)的進(jìn)步顯著提升了視障用戶的生活質(zhì)量和幸福感
. 根據(jù)《柳葉刀》最新調(diào)查顯示[7], 中國(guó)是世界上視障人群占比最高的國(guó)家, 視障群體約有5 928萬人. 此外, 中國(guó)60歲及以上老年人超過2.9億, 社會(huì)對(duì)無障礙環(huán)境的需求廣泛
而迫切. 如何為視障人群打開新“視”界, 成為目前消除“數(shù)字鴻溝”, 推進(jìn)互聯(lián)網(wǎng)信息無障礙化建設(shè)[8-9], 實(shí)現(xiàn)我國(guó)“十四五”規(guī)劃愿景的重點(diǎn)工作之一[10-11].
但互聯(lián)網(wǎng)開發(fā)人員在設(shè)計(jì)和實(shí)現(xiàn)移動(dòng)應(yīng)用時(shí)常會(huì)忽略產(chǎn)品的無障礙需求, 只為追求移動(dòng)應(yīng)用美觀的視覺效果, 缺乏對(duì)視障用戶使用體驗(yàn)的關(guān)注. 這種單一視角的設(shè)計(jì)理念可能
導(dǎo)致視障用戶無法實(shí)現(xiàn)信息的順利獲取, 大幅度降低他們與互聯(lián)網(wǎng)的交互流暢度, 限制視障用戶在數(shù)字環(huán)境中的平等參與. Bi等[12]于2021年從從業(yè)者的角度和不同的軟件開發(fā)
階段進(jìn)行分析, 發(fā)現(xiàn)可訪問性并沒有正確地集成到通用軟件項(xiàng)目中. 同時(shí)大多數(shù)的開發(fā)者沒有相關(guān)的技能和知識(shí), 團(tuán)隊(duì)資源、 公司能支持的專業(yè)知識(shí)和時(shí)間預(yù)算等也影響了實(shí)踐
中的可訪問性設(shè)計(jì)與開發(fā). 根據(jù)在線調(diào)查[13]和實(shí)地半結(jié)構(gòu)化訪談[14]了解到, 僅有10%的受訪者對(duì)當(dāng)前App表示滿意, 而超過80%的受訪者在使用App時(shí)會(huì)遇到諸多不
便, 其中尤以圖形用戶界面(GUI)組件外觀不合理、 組件導(dǎo)航順序混亂、 反饋提示不一致, 以及移動(dòng)應(yīng)用中的GUI關(guān)鍵操作路徑邏輯不自洽最突出, 這些現(xiàn)象導(dǎo)致GUI組件難
以準(zhǔn)確識(shí)別和操作、 視障用戶易在應(yīng)用中迷失方向、 難以建立穩(wěn)定的操作模式等問題, 嚴(yán)重影響了視障用戶對(duì)移動(dòng)應(yīng)用的整體可用性和友好性, 給視障用戶在使用移動(dòng)應(yīng)用時(shí)帶來了困
擾和不確定感. Fok等[15]于2022年分析了312個(gè)安卓應(yīng)用程序在16個(gè)月中存在的缺失標(biāo)簽的可訪問性問題, 發(fā)現(xiàn)應(yīng)用程序存在的無障礙問題不會(huì)隨下載次數(shù)的增加而改善,
也并不與開發(fā)公司的規(guī)模相關(guān).
移動(dòng)互聯(lián)網(wǎng)信息無障礙這一主題在移動(dòng)互聯(lián)網(wǎng)開發(fā)過程中的關(guān)注和優(yōu)化能幫助視障人群進(jìn)一步平等、 方便地使用互聯(lián)網(wǎng). 例如: 盲人用戶在使用移動(dòng)端訪問互聯(lián)網(wǎng)內(nèi)容時(shí)常會(huì)借助
于屏幕閱讀軟件, 而屏幕閱讀軟件僅關(guān)注頁面中的文本信息而無法將頁面中的布局、 顏色等其他信息呈現(xiàn)給盲人用戶. 因此, 一些布局欠佳的頁面常會(huì)阻礙盲人用戶對(duì)頁面關(guān)鍵內(nèi)
容的理解. 在移動(dòng)互聯(lián)網(wǎng)信息無障礙的實(shí)踐過程中, 可通過對(duì)頁面進(jìn)行檢測(cè)提出合理的檢測(cè)結(jié)果, 以供互聯(lián)網(wǎng)開發(fā)人員調(diào)整界面設(shè)計(jì), 使頁面對(duì)盲人用戶更友好. 進(jìn)一步, 對(duì)于
屏幕閱讀軟件無法呈現(xiàn)的圖片, 可對(duì)圖片中的內(nèi)容生成替代文本(Alt-Text), 使盲人用戶了解除頁面中文本外更豐富的信息. 但互聯(lián)網(wǎng)信息無障礙的研究也面臨諸多嚴(yán)峻挑
戰(zhàn): 首先, 互聯(lián)網(wǎng)信息的形式多種多樣, 包括文字、 圖片、 音頻、 視頻、 圖表等, 每種形式對(duì)無障礙的設(shè)計(jì)要求均有不同, 要提供完備的無障礙支持, 顯著增加了設(shè)計(jì)方案的復(fù)
雜性; 其次, 在對(duì)無障礙設(shè)計(jì)進(jìn)行評(píng)估時(shí)需從視障人群的真實(shí)需求出發(fā)進(jìn)行評(píng)估, 難以有統(tǒng)一的評(píng)估標(biāo)準(zhǔn)且因人而異; 最后, 互聯(lián)網(wǎng)技術(shù)和用戶界面設(shè)計(jì)快速發(fā)展, 涌現(xiàn)出新的
信息展現(xiàn)形式和交互模式, 例如虛擬現(xiàn)實(shí)、 增強(qiáng)現(xiàn)實(shí)等, 互聯(lián)網(wǎng)無障礙無法快速涵蓋新技術(shù)并保持同步.
互聯(lián)網(wǎng)無障礙的研究工作最早可追溯到互聯(lián)網(wǎng)成立之初, 通過W3C和WAI推動(dòng)了無障礙標(biāo)準(zhǔn)的確立, 為全球的互聯(lián)網(wǎng)無障礙研究奠定了基礎(chǔ). 目前, 如何改善視障用戶使用互聯(lián)網(wǎng)的可訪問性體驗(yàn)已成為
國(guó)內(nèi)外工業(yè)界和學(xué)術(shù)界的研究熱點(diǎn). 近年來, 騰訊、 阿里、 谷歌、 蘋果、 字節(jié)跳動(dòng)等大型互聯(lián)網(wǎng)公司不斷對(duì)產(chǎn)品進(jìn)行無障礙優(yōu)化, 以增強(qiáng)產(chǎn)品面向視障用戶的可訪問性.
目前, 互聯(lián)網(wǎng)無障礙研究已取得許多成果[16-28]. Chen等[27]借助無障礙測(cè)試框架, 構(gòu)建了名為XBot的GUI可訪問性檢測(cè)工具, 通過設(shè)計(jì)大量判定規(guī)則實(shí)現(xiàn)對(duì)可訪問性問題更全面的覆蓋. Zhang
等[28]于2024年針對(duì)GUI(graphical user interface)布局中的低視力可訪問性問題, 包括組件尺寸小、 間隔窄以及顏色對(duì)比度低, 借助關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)并實(shí)現(xiàn)了名為AccessFix
er的工具, 能準(zhǔn)確且有效地為這些可訪問性問題提供修復(fù)方案. 在網(wǎng)頁信息無障礙方面, 李玉聰?shù)龋?9]于2024年針對(duì)多樣化網(wǎng)頁上視障用戶導(dǎo)航的難題, 通過設(shè)計(jì)啟
發(fā)式規(guī)則采用決策樹二分類算法, 提出了一種自動(dòng)標(biāo)識(shí)導(dǎo)航欄地標(biāo)的方法, 顯著提升了網(wǎng)站的無障礙性能, 并改善了視障用戶的使用體驗(yàn). Gleason等[30]
提出了一個(gè)瀏覽器擴(kuò)展工具Twitter A11y, 可通過6種方法在Twitter網(wǎng)站上為用戶發(fā)布的圖像提供高質(zhì)量的自動(dòng)描述, 優(yōu)化了視障用戶對(duì)社交媒體平臺(tái)的無障礙訪問. 為對(duì)互聯(lián)網(wǎng)信
息無障礙目前已有的研究工作進(jìn)行系統(tǒng)分析總結(jié), 本文確定了Internet Information Accessibility,Web Accessibility,Blind Users等關(guān)鍵詞,
并基于Web of Science中的搜索引擎對(duì)已有研究結(jié)果按年份進(jìn)行統(tǒng)計(jì), 結(jié)果如圖1所示. 由圖1可見, 從2019年開始, 針對(duì)移動(dòng)互聯(lián)網(wǎng)信息無障礙的研究逐漸受到關(guān)注, 僅2023年, 相關(guān)的研究工作論文數(shù)量便突破250篇.
盡管現(xiàn)有研究從多角度探討了移動(dòng)互聯(lián)網(wǎng)的無障礙化問題, 但尚缺乏系統(tǒng)性的綜述對(duì)這些研究成果進(jìn)行全面的總結(jié)和分析. 因此, 本文系統(tǒng)地分析總結(jié)了移動(dòng)互聯(lián)網(wǎng)信息無障礙的研究進(jìn)展和實(shí)踐成果, 并分析了
現(xiàn)有移動(dòng)應(yīng)用和服務(wù)在無障礙設(shè)計(jì)方面的優(yōu)勢(shì)與不足, 以有助于研究人員進(jìn)一步提升視障用戶的使用體驗(yàn).
1 移動(dòng)端無障礙研究
隨著移動(dòng)設(shè)備和移動(dòng)應(yīng)用的普及, 智能手機(jī)和平板電腦已成為人們?nèi)粘I钪胁豢苫蛉钡墓ぞ? 根據(jù)國(guó)際電信聯(lián)盟的統(tǒng)計(jì), 截至2020年, 全球移動(dòng)電話用戶已超過78億, 幾乎覆蓋了全
球人口[31]. 但對(duì)有視覺障礙的用戶以及老年人群體 , 移動(dòng)設(shè)備的使用仍存在諸多障礙. 因此, 移動(dòng)端無障礙成為確保視障人群和老年用戶平等訪問信息和服務(wù)的關(guān)
鍵因素, 也成為人機(jī)交互和軟件工程領(lǐng)域的重要研究方向. 移動(dòng)設(shè)備因其特性(如觸摸交互、 屏幕尺寸限制和多種傳感器)在無障礙設(shè)計(jì)上面臨獨(dú)特的挑戰(zhàn), 移動(dòng)端無障礙設(shè)計(jì)的目標(biāo)
是減少或消除視覺以及認(rèn)知障礙用戶在使用移動(dòng)設(shè)備時(shí)所面臨的困難.
1.1 移動(dòng)端GUI的語義表征與理解
移動(dòng)端GUI的語義表征與理解是GUI可訪問性工作的基礎(chǔ). 例如, 視覺障礙用戶在使用屏幕閱讀器時(shí), 依賴于界面元素的語義標(biāo)簽理解各控件的功能. 若無準(zhǔn)確的語義信息, 屏幕
閱讀器只能簡(jiǎn)單朗讀“按鈕”或“圖片”, 而無法傳達(dá)具體的功能或內(nèi)容, 導(dǎo)致用戶操作體驗(yàn)受阻. 因此, 通過語義表征界面元素能清晰地描述其功能和交互邏輯, 為無障礙用戶提供
準(zhǔn)確的使用信息. 但移動(dòng)端GUI的結(jié)構(gòu)、 功能模塊和交互模式日趨豐富和復(fù)雜化, 為移動(dòng)端GUI的語義表征與理解提出了嚴(yán)峻挑戰(zhàn). 例如, 應(yīng)用中嵌入了更多動(dòng)態(tài)內(nèi)容、 多媒體
元素以及復(fù)雜的交互邏輯, 這些都增加了GUI語義理解的難度.
早期傳統(tǒng)的啟發(fā)式規(guī)則方法在移動(dòng)端GUI的語義表征與理解中占有重要地位. 基于啟發(fā)式規(guī)則的方法依賴于預(yù)定義的經(jīng)驗(yàn)規(guī)則集分析和解讀移動(dòng)端GUI中的元素特征. 這些規(guī)則通常
基于開發(fā)者和設(shè)計(jì)人員的實(shí)踐經(jīng)驗(yàn), 包含了一系列面向不同控件的可訪問性指導(dǎo). 例如, 一個(gè)啟發(fā)式規(guī)則可能會(huì)規(guī)定: 所有具有“Button”標(biāo)簽的控件在無障礙工具中應(yīng)被識(shí)別為可
點(diǎn)擊的按鈕; 具有特定顏色或?qū)Ρ榷鹊奈谋驹匦枰邆涮囟ǖ念伾珮?biāo)準(zhǔn), 以確保視覺可讀性, 使界面在一定程度上能滿足無障礙需求. 但基于規(guī)則的方法存在擴(kuò)展性差和適應(yīng)
性不足的問題. 當(dāng)面對(duì)設(shè)計(jì)風(fēng)格多樣、 元素復(fù)雜的界面時(shí), 規(guī)則的編制和維護(hù)成本較高. 此外, 規(guī)則通常依賴于特定的領(lǐng)域或應(yīng)用, 難以通用化. 隨著深度學(xué)習(xí)和圖像識(shí)別技術(shù)的發(fā)
展, 基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)模型逐漸成為替代啟發(fā)式規(guī)則的方法. 深度學(xué)習(xí)能自動(dòng)學(xué)習(xí)控件的視覺特征和語義信息, 避免了啟發(fā)式規(guī)則對(duì)預(yù)定義規(guī)則的依賴, 并且在動(dòng)態(tài)內(nèi)容和自定義控件識(shí)別上有顯著優(yōu)勢(shì).
在語義表征方面, 本文團(tuán)隊(duì)結(jié)合GUI截圖和對(duì)應(yīng)的布局結(jié)構(gòu)文件, 提出一種將GUI轉(zhuǎn)換為GUI拓?fù)鋱D結(jié)構(gòu)的方法, 有效表征了GUI內(nèi)各組件的屬性特征、 層次關(guān)系和位置關(guān)系[28
,32]. Chen等[33]提出了一個(gè)深度學(xué)習(xí)模型LabelDroid, 通過圖像識(shí)別和自然語言生成技術(shù), 自動(dòng)為移動(dòng)應(yīng)用中基于圖像的按鈕生成內(nèi)容描述, 這是首個(gè)專門用于解決
GUI元素標(biāo)簽缺失問題的自動(dòng)化模型. LabelDroid模型采用了卷積神經(jīng)網(wǎng)絡(luò)(CNN)與Transformer模型相結(jié)合的編碼-解碼架構(gòu), 用于自動(dòng)提取圖像特征并生成自然語言標(biāo)簽. 這種架構(gòu)不僅
適合圖像特征提取, 還具備處理長(zhǎng)序列文本生成的能力, 有助于提升標(biāo)簽生成的準(zhǔn)確性和多樣性. 此外, 研究人員構(gòu)建了一個(gè)大規(guī)模的無障礙性數(shù)據(jù)集, 包含來自上萬種應(yīng)用的圖像按
鈕及其高質(zhì)量的內(nèi)容描述. 實(shí)驗(yàn)結(jié)果表明, LabelDroid模型在預(yù)測(cè)標(biāo)簽的準(zhǔn)確性上優(yōu)于傳統(tǒng)的啟發(fā)式方法和現(xiàn)有的基準(zhǔn)模型, 可減少互聯(lián)網(wǎng)開發(fā)人員在應(yīng)用開發(fā)中需要理解和遵循無障礙指南的工
作量. Mehralian等[34]在分析了相同圖標(biāo)可能有不同語義的情況對(duì)LabelDroid模型的影響后提出了一種上下文感知的標(biāo)簽生成方法COALA, 在生成準(zhǔn)確標(biāo)簽時(shí)綜合考慮了來
自圖標(biāo)的多種信息源. COALA采用了預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型ResNet進(jìn)行圖像編碼, 并使用熱編碼器和單詞嵌入模型GloVe進(jìn)行上下文編碼. 然后使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)進(jìn)行
解碼, 使其能逐個(gè)迭代地生成標(biāo)簽. Li等[35]提出了Screen2Vec, 一種生成移動(dòng)端GUI屏幕和組件語義嵌入的自監(jiān)督方法. 通過訓(xùn)練模型預(yù)測(cè)屏幕和組件在用
戶交互軌跡中的位置關(guān)系, 生成GUI屏幕和組件的語義嵌入. Screen2Vec借鑒了Word2Vec[36]的思路, 利用連續(xù)詞袋模型(CBOW)預(yù)測(cè)屏幕和組件上下文, 以捕捉GUI元
素的語義關(guān)系. Screen2Vec將文本內(nèi)容、 視覺布局和應(yīng)用元數(shù)據(jù)(如應(yīng)用商店描述)整合進(jìn)模型的語義嵌入中. 這種多模態(tài)表征能捕捉更豐富的語義信息, 使模型在處理視覺相似
但語義不同的屏幕時(shí)表現(xiàn)更優(yōu). 通過多種下游任務(wù)展示了Screen2Vec的實(shí)用性, 包括相似界面檢索、 嵌入組合和任務(wù)嵌入.
Zhang等[37]提出了一種利用像素圖像直接推斷移動(dòng)應(yīng)用界面元素
的無障礙元數(shù)據(jù)方法, 無需依賴應(yīng)用開發(fā)者提供的無障礙描述. 該方法可以為無障礙工具(如屏幕閱讀器)生成并補(bǔ)充缺失的元數(shù)據(jù), 從而提高了現(xiàn)有應(yīng)用的無障礙性. 其通過構(gòu)
建一個(gè)高效、 內(nèi)存友好的對(duì)象檢測(cè)模型并結(jié)合啟發(fā)式規(guī)則設(shè)備端實(shí)時(shí)檢測(cè)GUI元素. 模型能在iPhone上運(yùn)行, 僅需約10 ms的推理時(shí)間, 使得它可以在用戶設(shè)備上直接執(zhí)行而無需云
端計(jì)算. Xie等[38]提出了一種基于心理學(xué)啟發(fā)的無監(jiān)督方法, 該方法首次在GUI感知分組中系統(tǒng)應(yīng)用了Gestalt心理學(xué)原則, 包括連接性、 相似性、 鄰近性和連續(xù)性等原
則. 這些原則解釋了人類如何基于視覺線索(如相似性和接近性)將元素分組, 從而幫助系統(tǒng)自動(dòng)化地識(shí)別出人類在視覺上具有相似感知控件集合, 如列表、 卡片、 菜單等. 這種心
理學(xué)啟發(fā)的分組方式不同于傳統(tǒng)的啟發(fā)式方法, 它不依賴于預(yù)定義規(guī)則, 而是通過無監(jiān)督方式實(shí)現(xiàn)高層次的GUI元素分組. 此外, 研究人員分析了感知分組在GUI設(shè)計(jì)搜索、 模塊化GUI
代碼生成和UI自動(dòng)化測(cè)試中的應(yīng)用潛力. 例如, 在GUI設(shè)計(jì)搜索中, 該方法可幫助開發(fā)者基于GUI結(jié)構(gòu)而非僅視覺相似性找到相似設(shè)計(jì), 顯著提升了設(shè)計(jì)搜索的精度. 此外, 通過模
塊化感知分組信息的生成, 該方法支持更少冗余、 可重用性強(qiáng)的GUI代碼生成, 有助于實(shí)現(xiàn)快速的界面迭代和優(yōu)化.
自然語言處理(NLP)技術(shù)在GUI語義理解中也發(fā)揮著重要作用. 通過對(duì)界面中的文本內(nèi)容進(jìn)行分析, 可獲取元素的功能描述、 提示信息和用戶輸入等語義信息. Fu等[39]提
出了“像素詞到屏幕句” (pixel-words to screen-sentence, PW2SS) 框架, 創(chuàng)新性地將GUI理解中的基本單位定義為“像素詞”(pixel-words), 并將它們聚合成“屏幕句子”(s
creen-sentence). 基于BERT結(jié)構(gòu)的屏幕Transformer, 用于建模像素詞之間的關(guān)系, 以實(shí)現(xiàn)屏幕的整體理解. 這種方法在視覺基礎(chǔ)上完成了GUI理解, 不再依賴屏幕元數(shù)據(jù), 解決了
傳統(tǒng)方法中元數(shù)據(jù)噪聲大、 獲取困難等問題. 除針對(duì)移動(dòng)端GUI頁面進(jìn)行分析外, 研究人員還對(duì)反饋的GUI問題報(bào)告進(jìn)行了分析. GUI的視頻錯(cuò)誤報(bào)告是指用戶或測(cè)試人員通過錄制屏
幕視頻的方式, 記錄下在移動(dòng)端GUI遇到的錯(cuò)誤或異常情況. 這種報(bào)告形式不同于傳統(tǒng)的文字描述, 提供了更直觀的視覺信息, 使開發(fā)人員可以清楚地看到錯(cuò)誤是如何出現(xiàn)的、 出現(xiàn)在
哪些交互步驟之后, 這種報(bào)告在移動(dòng)端GUI開發(fā)中越來越常用. Yan等[40] 提出了一種自動(dòng)化識(shí)別這些重復(fù)的視頻錯(cuò)誤報(bào)告方法Janus, 它針對(duì)開發(fā)者在面對(duì)大量視頻錯(cuò)誤報(bào)
告時(shí)遇到的繁瑣和重復(fù)性問題, 通過自動(dòng)化檢測(cè)相似的視頻以顯著減少冗余工作. 為實(shí)現(xiàn)對(duì)視頻中GUI場(chǎng)景的精準(zhǔn)理解, Janus將視頻中的視覺信息、 文本信息以及視頻幀的順序
結(jié)合在一起, 從多種信息源進(jìn)行全面分析, 可幫助開發(fā)者快速找到已知問題的重復(fù)報(bào)告, 提升了錯(cuò)誤修復(fù)和管理效率. 這種方法和技術(shù)能用于開發(fā)自動(dòng)化無障礙檢測(cè)工具, 從而提高無障礙性問題的檢測(cè)和分析效率.
大語言模型(large language models, LLMs)[41]是基于深度學(xué)習(xí)技術(shù)的自然語言處理模型, 它通過在大規(guī)模文本數(shù)據(jù)上進(jìn)行訓(xùn)練, 具有強(qiáng)大的語言理解、 生成和推理能
力. 近年來, 大語言模型(如OpenAI的GPT系列、 Meta的LLaMA等)備受關(guān)注, 并迅速擴(kuò)展到多模態(tài)領(lǐng)域, 結(jié)合圖像、 音頻等數(shù)據(jù)能處理跨越文本和視覺的任務(wù). 這種多模態(tài)能力
進(jìn)一步推動(dòng)了模型在各應(yīng)用場(chǎng)景中的使用, 包括用戶界面無障礙設(shè)計(jì). Nong等[42]提出了一個(gè)專為移動(dòng)應(yīng)用GUI代理設(shè)計(jì)的多模態(tài)大型語言模型MobileFlow. 它采
用混合視覺編碼器動(dòng)態(tài)調(diào)整輸入分辨率, 以捕捉GUI界面的細(xì)節(jié)信息. 這種能力對(duì)無障礙設(shè)計(jì)非常關(guān)鍵, 因?yàn)樗梢詼?zhǔn)確識(shí)別和描述界面元素的位置、 大小和相對(duì)關(guān)系, 從而為
視力受限的用戶提供清晰的界面導(dǎo)航描述. 通過自然語言和視覺信息的融合, MobileFlow可以根據(jù)用戶指令生成適當(dāng)?shù)慕换バ袨椋?如點(diǎn)擊、 滑動(dòng)或輸入. 此外, 傳統(tǒng)的GUI代理通常
需要通過系統(tǒng)API調(diào)用獲取界面布局信息, 可能帶來隱私風(fēng)險(xiǎn). MobileFlow通過純視覺感知的方法, 能在不調(diào)用系統(tǒng)API的情況下解析界面布局, 從而既保護(hù)了用戶隱私, 又可以為無障礙功能提供可靠的界面解析能力.
表1列出了移動(dòng)端GUI的語義表征與理解.
由表1可見, 現(xiàn)有的移動(dòng)端GUI語義表征與理解方法各有優(yōu)劣. 基于啟發(fā)式規(guī)則的方法簡(jiǎn)單直觀, 適用于一般性界面元素的識(shí)別, 但在處理復(fù)雜、 多樣化的動(dòng)態(tài)GUI時(shí), 擴(kuò)展性和適應(yīng)性較差.
深度學(xué)習(xí)方法通過自動(dòng)學(xué)習(xí)控件的視覺特征和語義信息, 能更準(zhǔn)確地理解界面元素, 避免了對(duì)預(yù)定義規(guī)則的依賴, 但也面臨訓(xùn)練數(shù)據(jù)不足、 模型復(fù)雜度高和泛化
能力有限的挑戰(zhàn). 心理學(xué)啟發(fā)的方法利用人類視覺感知原理, 提升了GUI元素分組和理解的準(zhǔn)確性. 大語言模型(如MobileFlow)的引入, 融合了視覺和語言信息, 增強(qiáng)了對(duì)界面元素
的語義理解. 但這些方法在模型復(fù)雜度、 計(jì)算資源需求和實(shí)際部署方面仍存在困難. 未來, 增強(qiáng)移動(dòng)端GUI的語義表征與理解, 可以通過開發(fā)高效的模型結(jié)構(gòu), 提高模型的泛化
能力和資源友好性, 以構(gòu)建更全面的GUI語義理解模型, 進(jìn)一步幫助開發(fā)人員更有效地進(jìn)行移動(dòng)互聯(lián)網(wǎng)的無障礙化改造, 提升檢測(cè)和修復(fù)任務(wù)的效率, 促進(jìn)無障礙技術(shù)的發(fā)展.
1.2 移動(dòng)端GUI可訪問性問題檢測(cè)方法
確保移動(dòng)端GUI對(duì)視覺障礙用戶的可訪問性, 不僅是實(shí)現(xiàn)信息平等的重要方法, 也是各國(guó)法律法規(guī)的要求. 例如, 美國(guó)的《殘疾人法案》(ADA)[43]和歐洲的《歐洲無障礙
法案》(EAA)[44]都對(duì)數(shù)字產(chǎn)品的可訪問性提出了明確規(guī)定, 要求企業(yè)和組織需要確保其網(wǎng)站和數(shù)字產(chǎn)品具有可感知性、 可操作性、 可理解性. 因此, 檢測(cè)移動(dòng)端GUI的
可訪問性對(duì)開發(fā)者和企業(yè)都具有重要意義. 通過積極識(shí)別并解決可訪問性問題, 企業(yè)不僅能確保符合法律法規(guī), 避免潛在的法律風(fēng)險(xiǎn), 還能提升產(chǎn)品質(zhì)量, 獲得競(jìng)爭(zhēng)優(yōu)勢(shì), 實(shí)現(xiàn)商業(yè)與社會(huì)責(zé)任的雙贏.
早期針對(duì)移動(dòng)端GUI的可訪問性檢測(cè)大多數(shù)都基于人工制定的啟發(fā)式規(guī)則, 這種方法依賴于預(yù)先定義的可訪問性標(biāo)準(zhǔn)和指南, 如萬維網(wǎng)聯(lián)盟(W3C)發(fā)布的《移動(dòng)網(wǎng)頁最佳實(shí)踐》(MWBP)
[45]和《網(wǎng)絡(luò)內(nèi)容可訪問性指南》(WCAG)[6]. 通過檢查移動(dòng)應(yīng)用的GUI是否符合這些規(guī)則識(shí)別潛在的可訪問性問題. 最初的無障礙檢測(cè)可以通過靜態(tài)代碼分析
工具或在自動(dòng)化測(cè)試框架下編寫測(cè)試用例的方法進(jìn)行. 2011年, Android Studio提出了一個(gè)名為L(zhǎng)int[46]的靜態(tài)代碼檢測(cè)工具, 通過對(duì)Android工程的源文件進(jìn)行掃描, 可以
檢查并報(bào)告安卓項(xiàng)目中的可訪問性問題. 在動(dòng)態(tài)檢測(cè)方面, 有自動(dòng)化檢測(cè)工具, 如Espresso[47]." 開發(fā)人員通過運(yùn)行Espresso檢測(cè)組件是否符合W3C定義的可訪問性問題, 需要手動(dòng)指定測(cè)
試用例, 并將特定的API嵌入到應(yīng)用程序中. 2015年, IBM公司開發(fā)了Mobile Accessibility Checker(MAC)[48], 這是一個(gè)面向移動(dòng)應(yīng)用的無障礙檢測(cè)工具, 幫助開發(fā)人員檢
查移動(dòng)端GUI是否符合無障礙設(shè)計(jì)標(biāo)準(zhǔn). MAC可以自動(dòng)檢測(cè)界面組件、 色彩對(duì)比度、 觸控目標(biāo)大小、 屏幕閱讀器兼容性等問題. MAC的自動(dòng)化檢測(cè)極大提高了效率, 尤其是針對(duì)大型
項(xiàng)目時(shí), 可以快速發(fā)現(xiàn)潛在的問題. 此外, MAC允許開發(fā)人員在應(yīng)用開發(fā)的不同階段, 實(shí)時(shí)檢測(cè)無障礙問題, 并提供具體的修復(fù)建議. 該方法有助于減少開發(fā)后期的返工量, 并
提升產(chǎn)品的無障礙質(zhì)量. MAC支持iOS和Android平臺(tái), 使開發(fā)者能在不同平臺(tái)上優(yōu)化其應(yīng)用的無障礙體驗(yàn). 但隨著GUI設(shè)計(jì)的不斷發(fā)展以及應(yīng)用功能的多元化, MAC原有的啟發(fā)式
規(guī)則逐漸難以滿足新興的設(shè)計(jì)和功能需求. MAC的檢測(cè)能力在面對(duì)當(dāng)代GUI和交互設(shè)計(jì)需求時(shí)明顯下降, 無法為開發(fā)者提供足夠全面的無障礙優(yōu)化建議.
Google公司相繼推出了兩個(gè)面向安卓移動(dòng)端無障礙檢測(cè)的工具ATFA(accessibility test framework for Android)[49]和AS(accessibility scanner)[50]. AT
FA是一個(gè)用于自動(dòng)化測(cè)試移動(dòng)端GUI可訪問性的庫(kù), 可以直接集成到開發(fā)者的測(cè)試代碼中, 幫助開發(fā)者在應(yīng)用的開發(fā)和測(cè)試階段通過自動(dòng)化方式檢測(cè)無障礙問題. AS是一個(gè)面向
安卓移動(dòng)設(shè)備的可訪問性檢測(cè)應(yīng)用, 允許開發(fā)者直接在設(shè)備上對(duì)應(yīng)用進(jìn)行無障礙掃描, 適合于非技術(shù)用戶和開發(fā)者在非自動(dòng)化流程中快速檢測(cè)無障礙問題. 這兩個(gè)工具為安卓移動(dòng)端開發(fā)提
供了重要的無障礙檢測(cè)輔助, 前者更適用于開發(fā)和測(cè)試階段, 更好地在前期保證移動(dòng)端GUI的無障礙質(zhì)量, 可以大幅度減少應(yīng)用上線后的修改需求. 后者更適用于開發(fā)的后期階段,
或在產(chǎn)品即將發(fā)布前設(shè)計(jì)師和測(cè)試用戶進(jìn)行無障礙檢查. 這兩個(gè)基于啟發(fā)式規(guī)則的可訪問性檢測(cè)工具雖然能覆蓋常見的無障礙問題, 但在檢測(cè)復(fù)雜、 動(dòng)態(tài)內(nèi)容或語義問題上存在
局限性, 它們?nèi)狈?duì)語義信息的深入檢測(cè). 例如, 移動(dòng)端GUI中的圖像、 按鈕等的用途有時(shí)難以通過工具自動(dòng)識(shí)別, 難以判斷移動(dòng)端GUI中是否提供了足夠的描述性文本或語義信息.
此外, 在復(fù)雜的移動(dòng)應(yīng)用中, 仍需手動(dòng)測(cè)試覆蓋無法自動(dòng)檢測(cè)的無障礙問題.
根據(jù)對(duì)大量安卓App的GUI進(jìn)行可訪問性的實(shí)證研究[51], 研究人員發(fā)現(xiàn)仍有大量的移動(dòng)端GUI由于開發(fā)人員缺乏對(duì)視障用戶或老年用戶無障礙的認(rèn)知而導(dǎo)致可訪問性問題. 在
學(xué)術(shù)界, 研究人員不斷改進(jìn)對(duì)移動(dòng)端GUI的檢測(cè)方案. 基于圖卷積神經(jīng)網(wǎng)絡(luò)模型提出的檢測(cè)方法ALVIN[32], 能結(jié)合組件屬性和位置關(guān)系, 通過多分類任務(wù)完
成對(duì)GUI內(nèi)可訪問性問題的有效測(cè)試, 具有較高的準(zhǔn)確率和良好的可擴(kuò)展性. Eler等[52]提出了Mobile Accessibility Testing(MATE)用于自動(dòng)化移動(dòng)應(yīng)用
的可訪問性測(cè)試. MATE無需依賴現(xiàn)有測(cè)試用例, 通過自動(dòng)生成測(cè)試探索應(yīng)用程序行為, 不再依賴開發(fā)者已有的測(cè)試套件, 它不僅檢測(cè)缺失的內(nèi)容描述和低對(duì)比度等常見問題, 還針對(duì)不
同的視覺和運(yùn)動(dòng)障礙提供多種優(yōu)化檢測(cè), 例如觸摸區(qū)域大小不合規(guī)、 點(diǎn)擊區(qū)域重復(fù)、 可點(diǎn)擊文本不可訪問等, 使可訪問性檢測(cè)更廣泛. 此外, MATE引入狀態(tài)抽象, 避免重復(fù)檢測(cè)相
同組件, 采用圖模型自動(dòng)構(gòu)建用戶界面狀態(tài), 從而減少不必要的計(jì)算以提高運(yùn)行效率. Chen等[27]提出了XBot, 能高效地自動(dòng)化探索用戶界面. 與傳統(tǒng)工具相比,
XBot在頁面覆蓋率和問題檢測(cè)方面性能更優(yōu). 但XBot在應(yīng)對(duì)GUI的動(dòng)態(tài)生成和狀態(tài)變化時(shí), 可能會(huì)出現(xiàn)冗余標(biāo)記或遺漏問題, 難以全面覆蓋動(dòng)態(tài)加載的內(nèi)容和交互狀態(tài). 基于啟發(fā)
式規(guī)則提出的無障礙檢測(cè)工具通常無法適應(yīng)日新月異的移動(dòng)端GUI設(shè)計(jì)頁面. 檢測(cè)結(jié)果的滯后性在很大程度上影響了開發(fā)人員使用這些工具的積極性.
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展, 尤其是基于數(shù)據(jù)驅(qū)動(dòng)的模型在圖像和自然語言處理等領(lǐng)域的應(yīng)用取得了顯著進(jìn)展. 與啟發(fā)式規(guī)則相比, 深度學(xué)習(xí)在移動(dòng)端GUI可訪問性檢測(cè)上表現(xiàn)出更
大的潛力. Liu等[53]提出了一個(gè)名為OwlEye的深度學(xué)習(xí)框架, 基于卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別移動(dòng)端應(yīng)用GUI可訪問性問題. 這是首次將深度學(xué)習(xí)用于GUI無障礙問題
檢測(cè), 模型通過模擬人眼識(shí)別視覺異常的能力, 能更準(zhǔn)確地發(fā)現(xiàn)無障礙問題. OwlEye使用梯度加權(quán)類激活映射技術(shù)(Grad-CAM)實(shí)現(xiàn)GUI顯示問題的定位. OwlEye不僅可以檢測(cè)到移動(dòng)
端GUI截圖中的顯示問題, 還可以精確定位問題區(qū)域, 為開發(fā)人員提供可視化反饋, 從而更高效地進(jìn)行問題修復(fù). 與其他13種傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法相比, OwlEye在UI顯示
問題檢測(cè)的召回率和精確率上分別提升了17%和50%, 并達(dá)到85%的檢測(cè)精度和84%的召回率. 同時(shí), 用戶研究顯示, OwlEye在移動(dòng)端GUI中的問題定位精確度達(dá)90%. Salehnamadi等
[54]提出了一個(gè)高保真、 場(chǎng)景驅(qū)動(dòng)的自動(dòng)化安卓無障礙自動(dòng)化測(cè)試框架Latte, 該框架借助圖像識(shí)別和輔助技術(shù), 如安卓的TalkBack和SwitchAccess, 以模擬無障礙用戶
的交互過程. 工具會(huì)自動(dòng)執(zhí)行使用場(chǎng)景中的各項(xiàng)操作, 并分析輔助服務(wù)在交互過程中的性能, 識(shí)別在輔助服務(wù)模式下的可訪問性缺陷. Latte在多種實(shí)驗(yàn)和實(shí)測(cè)中顯示出識(shí)別復(fù)雜問題
的能力, 如動(dòng)態(tài)布局變化、 導(dǎo)航循環(huán)、 非標(biāo)準(zhǔn)UI實(shí)現(xiàn)等, 這些問題會(huì)影響無障礙用戶的正常操作, 卻難以通過傳統(tǒng)的靜態(tài)規(guī)則檢測(cè). 與Google公司的AS可訪問性檢測(cè)應(yīng)用
相比, Latte減少了不相關(guān)警告的數(shù)量, 并提供了高保真度的使用場(chǎng)景分析.
表2列出了移動(dòng)端GUI可訪問性問題檢測(cè)方法.
由表2可見, 現(xiàn)有的移動(dòng)端GUI無障礙檢測(cè)方法各有優(yōu)勢(shì)與不足. 基于啟發(fā)式規(guī)則的方法能快速檢測(cè)常見的無障礙問題, 但面對(duì)復(fù)雜、 動(dòng)態(tài)和語義信息不足的界面時(shí)存在局限. 基
于深度學(xué)習(xí)的方法通過引入機(jī)器學(xué)習(xí)和圖像識(shí)別技術(shù), 提高了檢測(cè)的準(zhǔn)確性和覆蓋范圍, 但仍面臨模型訓(xùn)練數(shù)據(jù)不足和泛化能力的挑戰(zhàn). 未來的研究工作可能對(duì)多模態(tài)數(shù)據(jù)進(jìn)行融合,
以及利用更先進(jìn)的深度學(xué)習(xí)模型, 提高對(duì)復(fù)雜無障礙問題的識(shí)別能力. 對(duì)于移動(dòng)端互聯(lián)網(wǎng)開發(fā)人員, 這些工具的進(jìn)步將有助于更高效地檢測(cè)無障礙問題, 并將其清晰地反饋給移動(dòng)互聯(lián)網(wǎng)開發(fā)人員.
1.3 移動(dòng)端GUI布局的無障礙修復(fù)方法
GUI布局是移動(dòng)端應(yīng)用程序的骨架, 決定了界面元素的組織方式和交互流程. 移動(dòng)端GUI布局的修復(fù)在移動(dòng)端無障礙中扮演至關(guān)重要的角色, GUI布局直接影響視障用戶與應(yīng)用的交互
方式, 優(yōu)化GUI布局可顯著提升他們的使用體驗(yàn). 良好的移動(dòng)端GUI布局包括兩方面: 元素順序的邏輯性和層級(jí)結(jié)構(gòu)的清晰性. 首先, 視障用戶通常依賴屏幕閱讀器線性地瀏覽界
面, 如果布局順序混亂, 則屏幕閱讀器的朗讀順序也會(huì)混亂, 導(dǎo)致視障用戶無法建立正確的心智模型; 其次, 明確的界面層級(jí)有助于用戶理解應(yīng)用的功能結(jié)構(gòu), 方便視障用戶導(dǎo)航和操作.
早期的GUI布局設(shè)計(jì)主要依賴設(shè)計(jì)師的經(jīng)驗(yàn)和一系列經(jīng)驗(yàn)法則, 例如“界面中信息不使用超過4種顏色”等[55]. 這些經(jīng)驗(yàn)法則源于對(duì)人類視覺認(rèn)知規(guī)律的觀察和總結(jié), 設(shè)
計(jì)師通過這些原則控制界面的復(fù)雜性, 避免用戶在視覺上產(chǎn)生混淆或認(rèn)知負(fù)擔(dān). 此外, 基于網(wǎng)格的移動(dòng)端GUI布局設(shè)計(jì)策略[56]是通過將頁面劃分為若干列和行組織界面元
素, 以確保內(nèi)容排列有序且一致. 這種布局方法有助于用戶在不同的頁面中快速定位常見元素, 特別是對(duì)視覺障礙或老年用戶, 網(wǎng)格結(jié)構(gòu)帶來的內(nèi)容整齊、 對(duì)齊和一致性,
能有效減少他們的認(rèn)知負(fù)擔(dān), 使導(dǎo)航更簡(jiǎn)便. 但網(wǎng)格布局在無障礙應(yīng)用場(chǎng)景中也存在顯著的局限性. 由于其以固定的行列比例為基礎(chǔ), 通常缺乏對(duì)個(gè)性化需求和動(dòng)態(tài)內(nèi)容的適應(yīng)
性. 例如, 視障用戶通常依賴屏幕閱讀器逐行讀取界面內(nèi)容, 而網(wǎng)格布局的固定順序可能不符合他們的實(shí)際需求, 導(dǎo)致屏幕閱讀器不能優(yōu)先朗讀關(guān)鍵信息. 同時(shí), 對(duì)于低視力用戶, 固
定的網(wǎng)格布局在適配字體放大或高對(duì)比度模式時(shí), 可能導(dǎo)致元素錯(cuò)位、 重疊或信息截?cái)啵?進(jìn)一步影響可讀性.
Zeidler等[57]從互聯(lián)網(wǎng)開發(fā)人員的角度出發(fā)提出了一個(gè)名為Auckland Layout Editor(ALE)的新型GUI布局編輯器, 顯著簡(jiǎn)化了基于約束的布局創(chuàng)建和編輯
過程. ALE的一個(gè)重要特點(diǎn)是自動(dòng)生成并管理非重疊約束, 以確保無論布局尺寸如何變化, 組件都不會(huì)互相重疊. 在布局操作中, 該工具能自動(dòng)保持組件的對(duì)齊, 避免了手動(dòng)調(diào)整對(duì)齊的
繁瑣過程, 確保了界面元素的視覺整潔. ALE使用一種矩形網(wǎng)格分塊技術(shù)管理布局空白區(qū)域和組件間的間距, 以確保布局的最小尺寸和最大尺寸一致且合理. 這些對(duì)用戶界面的
可讀性和可理解性非常有益, 有利于滿足視覺障礙用戶的需求. UI Automator Viewer[58]是一個(gè)用于分析和檢查Android應(yīng)用程序界面布局的工具, 幫助開發(fā)和測(cè)
試人員了解應(yīng)用的GUI結(jié)構(gòu)并執(zhí)行可用性和無障礙性檢查. 它提供了一種視覺化的方式查看應(yīng)用的GUI層次結(jié)構(gòu), 并可顯示每個(gè)組件的詳細(xì)屬性. Patil等[59]對(duì)UI Auto
mator Viewer工具進(jìn)行改進(jìn), 使其更有效地支持移動(dòng)端Android應(yīng)用程序的無障礙性檢測(cè). 改進(jìn)后的UI Automator Viewer引入了“捕獲與播放”功能, 支持在工具的截圖上執(zhí)行觸摸
事件和按鍵事件. 這允許開發(fā)者模擬用戶與應(yīng)用程序的交互, 并自動(dòng)捕獲后續(xù)活動(dòng)的界面. 這種功能為應(yīng)用無障礙測(cè)試提供了更真實(shí)的用戶交互模擬, 幫助開發(fā)者檢測(cè)GUI的交互問題.
為幫助開發(fā)人員檢測(cè)并修復(fù)視覺設(shè)計(jì)中的顏色對(duì)比問題, 工具增加了顏色對(duì)比功能. 它可以將捕獲的屏幕截圖轉(zhuǎn)換為灰度圖像, 幫助開發(fā)人員確保文本與背景之間有足夠的對(duì)比度,
以便低視力或色盲用戶能更輕松地訪問應(yīng)用. 這項(xiàng)功能對(duì)修復(fù)無障礙布局的可視性和可讀性具有重要意義.
在傳統(tǒng)方法的基礎(chǔ)上, Oulasvirta等[60]首次系統(tǒng)性地將組合優(yōu)化方法引入到GUI設(shè)計(jì)領(lǐng)域, 將GUI設(shè)計(jì)問題數(shù)學(xué)化為整數(shù)規(guī)劃任務(wù). 這種方法允許識(shí)別問題類型, 分析
其復(fù)雜性, 并利用已知的算法解決方案, 提供了在GUI設(shè)計(jì)中進(jìn)行結(jié)構(gòu)化和優(yōu)化的有效方法. 他們提出了如何將人因相關(guān)的設(shè)計(jì)目標(biāo)(如用戶性能、 視覺識(shí)別、 運(yùn)動(dòng)控制等)整合為
評(píng)估函數(shù), 以幫助優(yōu)化設(shè)計(jì)輸出. 這種方法對(duì)如何將用戶需求和交互行為納入優(yōu)化過程提供了重要的實(shí)踐指導(dǎo). 相比于傳統(tǒng)基于經(jīng)驗(yàn)法則的設(shè)計(jì)方式, 這種優(yōu)化方法具有更高的靈活性
, 允許直接控制設(shè)計(jì)輸出, 并且能在設(shè)計(jì)工具中作為輔助設(shè)計(jì)師的交互式工具. 適應(yīng)性設(shè)計(jì)方法可以將用戶的特定需求納入優(yōu)化目標(biāo)中, 該方法可以應(yīng)用于移動(dòng)端無
障礙GUI布局設(shè)計(jì)中, 通過根據(jù)視障用戶或行動(dòng)受限用戶的需求調(diào)整界面元素位置、 大小等, 以提供個(gè)性化的無障礙體驗(yàn). OR-約束(or-constraints, ORC)[61]是一種高
級(jí)約束機(jī)制, 用于GUI布局中, 旨在提高布局的靈活性和自適應(yīng)性. 它是指在布局時(shí)允許多個(gè)候選約束條件中只有一個(gè)必須被滿足, 從而在調(diào)整時(shí)提供更多的排列選擇. OR-約束的使
用場(chǎng)景廣泛, 例如, 在界面空間不足時(shí), OR-約束可用于決定哪些小部件可以隱藏或被替代. OR-約束與 GUI 布局的無障礙設(shè)計(jì)密切相關(guān), 它通過提供靈活、 自適應(yīng)的布局
, 幫助界面更好地適應(yīng)各種設(shè)備和用戶需求, 特別是在優(yōu)化無障礙特性方面. Jiang等[62]提出了一個(gè)OR-約束的自適應(yīng)GUI布局的高效求解器ORCSolver, ORCSolver
是首個(gè)能在近乎交互速度下解決復(fù)雜GUI布局的求解器, 其結(jié)合了線性約束和流布局, 從而解決了傳統(tǒng)布局模型在處理設(shè)備多樣性和不同屏幕尺寸時(shí)的限制, 有助于確保用戶界面在各種移
動(dòng)設(shè)備上都能保持可用性和可訪問性, 方便視障用戶在不同屏幕條件下都能方便地使用應(yīng)用程序. ORCSolver可以在界面布局變化時(shí)(如從橫屏到豎屏)自動(dòng)調(diào)整組件的位置和大小,
避免界面元素重疊或超出屏幕范圍. 這種功能有助于提高界面的可訪問性, 確保界面元素始終清晰可見. 該求解器簡(jiǎn)化了復(fù)雜布局的管理, 使開發(fā)者能更輕松地創(chuàng)建無障礙友好界面
, 而不需要為每種設(shè)備或屏幕設(shè)置獨(dú)立的布局規(guī)范. 從而鼓勵(lì)更多開發(fā)人員在設(shè)計(jì)移動(dòng)應(yīng)用時(shí)考慮無障礙要求, 進(jìn)而提高整體用戶體驗(yàn).
本文團(tuán)隊(duì)在GUI無障礙化優(yōu)化方面也開展了針對(duì)性研究. 針對(duì)GUI中組件尺寸過小、 組件間隔過窄以及顏色對(duì)比度不足這3類可訪問性問題, 采用關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)(R-GCN)模型提
出了修復(fù)方法, 為開發(fā)人員提供詳細(xì)的屬性調(diào)整策略, 有效降低了GUI的可訪問性障礙, 顯著提升了用戶體驗(yàn)[28]. 同時(shí), 面向視障用戶在GUI導(dǎo)航中遇到的可訪問性問題,
借助格式塔心理學(xué)中的接近律和相似律對(duì)GUI內(nèi)組件進(jìn)行邏輯分組, 并在分組結(jié)果的基礎(chǔ)上重新規(guī)劃導(dǎo)航順序, 使導(dǎo)航流程更符合視障用戶的操作習(xí)慣和行為感知[63]. 此外
, 還針對(duì)網(wǎng)頁端可擴(kuò)展向量圖形(scalable vector graphics, SVG)缺少替代文本的問題, 設(shè)計(jì)了通過特征模板和匹配規(guī)則自動(dòng)生成替代文本的方案, 為提升網(wǎng)頁可訪問性提供
了有力的技術(shù)支持[64]. Zhang等[19]提出了一種創(chuàng)新的顏色選擇方法Iris, 是首個(gè)專門用于修復(fù)Android應(yīng)用中顏色相關(guān)可訪問性問題的自動(dòng)化方法. Iris采用一種
上下文感知的修復(fù)技術(shù), 能在保持原始UI設(shè)計(jì)風(fēng)格一致的前提下, 修復(fù)文本對(duì)比和圖像對(duì)比問題. 通過構(gòu)建顏色參考數(shù)據(jù)庫(kù)確保設(shè)計(jì)風(fēng)格的一致性. 參考數(shù)據(jù)庫(kù)包含了9 978個(gè)
應(yīng)用中沒有可訪問性問題的顏色對(duì), 這些顏色已經(jīng)過設(shè)計(jì)者認(rèn)可, 因此確保了修復(fù)后的顏色與原始設(shè)計(jì)風(fēng)格協(xié)調(diào). 此外, Iris通過靜態(tài)分析技術(shù)準(zhǔn)確識(shí)別需要修復(fù)的UI組件及其屬性.
該技術(shù)克服了現(xiàn)有工具在修復(fù)過程中定位不準(zhǔn)確的問題, 確保了修復(fù)的有效性和精確性.
表3列出了移動(dòng)端GUI布局的無障礙修復(fù)方法.
由表3可見, 現(xiàn)有移動(dòng)端GUI布局修復(fù)方法各有優(yōu)缺點(diǎn). 早期的經(jīng)驗(yàn)法則和基于網(wǎng)格的布局策略提供了直觀且簡(jiǎn)單的設(shè)計(jì)框架, 但在應(yīng)對(duì)個(gè)性化需求和動(dòng)態(tài)內(nèi)容
時(shí)存在一定的局限性. 如Auckland Layout Editor(ALE)和改進(jìn)版UI Automator Viewer等新型工具通過自動(dòng)生成和管理約束, 簡(jiǎn)化了布局創(chuàng)建和無障礙檢測(cè)的過程, 但在處理復(fù)雜布局和動(dòng)態(tài)變
化時(shí)仍面臨挑戰(zhàn). 引入組合優(yōu)化方法及OR-約束和ORCSolver的應(yīng)用, 提高了布局設(shè)計(jì)的靈活性和自適應(yīng)性, 有助于滿足不同用戶的無障礙需求, 但這些方法通常需要較高的計(jì)算資源
和專業(yè)技能支持. 類似Iris的自動(dòng)化顏色修復(fù)工具專注于解決特定的無障礙問題, 提供了高效的解決方案, 但可能無法涵蓋所有布局缺陷. 未來的研究方向可聚焦于將人工智能與用戶
模型相結(jié)合, 開發(fā)出自適應(yīng)的GUI布局修復(fù)方法, 能根據(jù)用戶需求和設(shè)備特性實(shí)時(shí)優(yōu)化界面布局, 同時(shí)構(gòu)建大規(guī)模的無障礙布局?jǐn)?shù)據(jù)集, 以提升模型的泛化能力和實(shí)用性.
2 未來研究方向
綜合以上多方面的研究工作, 移動(dòng)互聯(lián)網(wǎng)信息無障礙的研究可以進(jìn)一步拓展. 首先, 多模態(tài)融合技術(shù)的發(fā)展為無障礙設(shè)計(jì)提供了新的可能性. 目前的研究大多數(shù)集中于單一模態(tài)的信
息處理(如文本或圖像), 而未來則可以通過融合文本、 圖像、 音頻及用戶行為數(shù)據(jù)等多模態(tài)信息, 開發(fā)更智能的無障礙檢測(cè)與修復(fù)工具, 以更好地理解并優(yōu)化復(fù)雜的移動(dòng)界面. 從而
顯著增強(qiáng)無障礙方案的適應(yīng)性, 更有效地滿足多樣化的用戶需求. 其次, 個(gè)性化與自適應(yīng)設(shè)計(jì)是未來研究的重要方向之一. 不同用戶的無障礙需求存在顯著差異, 未來研究可以重點(diǎn)
開發(fā)基于深度學(xué)習(xí)和用戶行為分析的個(gè)性化、 自適應(yīng)的無障礙解決方案. 這樣的系統(tǒng)能根據(jù)用戶的視覺障礙程度、 認(rèn)知能力及使用習(xí)慣, 實(shí)時(shí)優(yōu)化用戶界面布局、 交互方式與信息
呈現(xiàn)方式, 以更好地服務(wù)特殊需求群體, 提高系統(tǒng)的適應(yīng)性, 從而為視障用戶帶來更人性化、 包容性的使用體驗(yàn).
人工智能與大規(guī)模數(shù)據(jù)集的結(jié)合也將成為未來研究的關(guān)鍵領(lǐng)域. 當(dāng)前的深度學(xué)習(xí)模型在無障礙檢測(cè)中雖性能優(yōu)異, 但其效果高度依賴于高質(zhì)量的大規(guī)模數(shù)據(jù)集. 因此, 未來研
究需要集中構(gòu)建多樣化、 無偏見的大規(guī)模無障礙數(shù)據(jù)集, 以提高模型的訓(xùn)練質(zhì)量和泛化能力. 此外, 研究還需關(guān)注如何開發(fā)資源友好型的模型結(jié)構(gòu), 降低計(jì)算資源需求, 使其能在移
動(dòng)設(shè)備上實(shí)現(xiàn)實(shí)時(shí)響應(yīng), 尤其在計(jì)算資源有限的環(huán)境中, 實(shí)現(xiàn)更高效的無障礙支持. 同時(shí), 新興交互模式的無障礙研究也值得深入關(guān)注. 隨著虛擬現(xiàn)實(shí)(VR)、 增強(qiáng)現(xiàn)實(shí)(AR)等
新興技術(shù)的迅速發(fā)展, 如何確保這些復(fù)雜的交互模式同樣對(duì)視障用戶友好, 成為未來的挑戰(zhàn)與機(jī)遇. 針對(duì)這些新興交互方式的無障礙支持研究, 能確保視障用戶平等地訪問和體驗(yàn)這些
前沿技術(shù), 真正實(shí)現(xiàn)數(shù)字世界的普惠與包容.
此外, 人機(jī)協(xié)同優(yōu)化也是無障礙設(shè)計(jì)未來的發(fā)展方向之一. 當(dāng)前的無障礙設(shè)計(jì)工具在自動(dòng)化方面仍存在局限, 未來可以通過設(shè)計(jì)師與人工智能的合作, 形成高效的人機(jī)協(xié)同設(shè)計(jì)模式.
人工智能能快速識(shí)別并修復(fù)無障礙問題, 而設(shè)計(jì)師則在提升設(shè)計(jì)的用戶體驗(yàn)和合理性方面具有優(yōu)勢(shì), 二者結(jié)合將極大提高無障礙設(shè)計(jì)的效率與質(zhì)量. 最后, 標(biāo)準(zhǔn)化與實(shí)踐推廣是未來不
可忽視的重要方面. 盡管已有的無障礙標(biāo)準(zhǔn)(如WCAG)為設(shè)計(jì)提供了基本參考, 但這些標(biāo)準(zhǔn)在移動(dòng)端應(yīng)用中的適用性和細(xì)化程度仍需進(jìn)一步提升. 未來研究應(yīng)致力于制定更具針對(duì)性和
系統(tǒng)化的無障礙標(biāo)準(zhǔn), 涵蓋新興的交互模式, 并推動(dòng)這些標(biāo)準(zhǔn)在工業(yè)界的應(yīng)用與推廣, 從而使開發(fā)者更易于將無障礙設(shè)計(jì)融入到開發(fā)流程中, 降低實(shí)現(xiàn)難度, 提升普及程度.
3 結(jié) 論
移動(dòng)互聯(lián)網(wǎng)信息無障礙能顯著提升視障用戶在數(shù)字環(huán)境中的體驗(yàn), 減少他們?cè)谑褂眠^程中遇到的障礙. 但由于開發(fā)人員在項(xiàng)目時(shí)間緊張、 缺乏無障礙設(shè)計(jì)經(jīng)驗(yàn), 或者對(duì)無障礙設(shè)
計(jì)的重視不足等原因, 常導(dǎo)致移動(dòng)應(yīng)用在無障礙設(shè)計(jì)上的缺失、 不足或不符合用戶需求的情況. 因此, 移動(dòng)應(yīng)用無障礙的深入研究和實(shí)踐推廣成為解決這些問題的有效方法, 也
是當(dāng)前人機(jī)交互和軟件工程領(lǐng)域的重要應(yīng)用場(chǎng)景之一. 同時(shí), 針對(duì)移動(dòng)應(yīng)用無障礙的研究, 具有重要的社會(huì)公平價(jià)值和商業(yè)應(yīng)用前景. 目前, 該問題在移動(dòng)互聯(lián)網(wǎng)開發(fā)領(lǐng)域仍是一個(gè)亟
待解決的開放性研究課題. 本文系統(tǒng)地總結(jié)了該領(lǐng)域的研究現(xiàn)狀與實(shí)踐成果, 深入探討了現(xiàn)有方法的優(yōu)勢(shì)和不足, 以便研究人員更好地了解移動(dòng)互聯(lián)網(wǎng)信息無障礙的最新研究進(jìn)展. 移
動(dòng)互聯(lián)網(wǎng)信息無障礙技術(shù)的不斷發(fā)展顯著改善了視障用戶及其他特殊需求群體的數(shù)字體驗(yàn), 但仍面臨諸多挑戰(zhàn).
首先, 在可訪問性檢測(cè)方面, 傳統(tǒng)的基于啟發(fā)式規(guī)則的方法雖然在發(fā)現(xiàn)常見的無障礙問題上表現(xiàn)良好, 尤其是針對(duì)靜態(tài)的界面元素, 但在面對(duì)復(fù)雜的動(dòng)態(tài)交互及語義理解時(shí)明顯不足.
近年來, 深度學(xué)習(xí)技術(shù)的發(fā)展為可訪問性檢測(cè)帶來了突破性進(jìn)展, 通過卷積神經(jīng)網(wǎng)絡(luò)等模型自動(dòng)學(xué)習(xí)界面元素特征, 提高了檢測(cè)的精確度和覆蓋面. 特別是像OwlEye這樣
結(jié)合Grad-CAM可視化技術(shù)的方法, 能更直觀地展示檢測(cè)結(jié)果, 幫助開發(fā)人員快速修復(fù)問題. 但深度學(xué)習(xí)模型在訓(xùn)練數(shù)據(jù)、 泛化能力等方面仍面臨挑戰(zhàn), 模型的計(jì)算復(fù)雜
度及對(duì)大規(guī)模數(shù)據(jù)的需求也在一定程度上影響了其在移動(dòng)設(shè)備上的應(yīng)用效率. 其次, 在移動(dòng)端GUI語義表征與理解方面, 本文分析了從啟發(fā)式規(guī)則到深度學(xué)習(xí)模型的演變過程. 傳統(tǒng)方
法通過預(yù)定義的規(guī)則集識(shí)別界面元素的語義特征, 而深度學(xué)習(xí)則通過自監(jiān)督學(xué)習(xí)等方法實(shí)現(xiàn)了對(duì)圖像、 文本等多模態(tài)信息的有效融合, 進(jìn)一步提高了對(duì)界面元素語義的理解深度.
例如, LabelDroid和Screen2Vec等方法通過圖像特征提取與語義嵌入的結(jié)合, 不僅增強(qiáng)了語義識(shí)別的準(zhǔn)確性, 還減輕了開發(fā)人員在標(biāo)簽生成方面的負(fù)擔(dān). 但這些方法仍需應(yīng)對(duì)動(dòng)態(tài)
交互、 復(fù)雜語義關(guān)系及模型部署等方面的難題, 尤其是在有限計(jì)算資源的移動(dòng)設(shè)備上, 如何實(shí)現(xiàn)高效而精確的界面語義理解, 仍需深入探索. 最后, 在GUI布局修復(fù)方面, 傳統(tǒng)的基
于經(jīng)驗(yàn)法則與網(wǎng)格布局的設(shè)計(jì)方法為移動(dòng)界面設(shè)計(jì)提供了基礎(chǔ)的規(guī)范, 但難以應(yīng)對(duì)個(gè)性化需求及動(dòng)態(tài)內(nèi)容的多樣化需求. 現(xiàn)代的布局修復(fù)工具如Auckland Layout Editor (ALE)和UI
Automator Viewer等, 通過自動(dòng)化的方式生成布局約束, 簡(jiǎn)化了開發(fā)過程, 提高了布局的一致性和無障礙性能. 基于組合優(yōu)化的OR-約束與求解器ORCSolver則為GUI布局的靈活性
與適應(yīng)性提供了更系統(tǒng)化的解決方案, 能在不同屏幕條件下保證布局的一致性. 但這些方法在實(shí)現(xiàn)過程中可能需要較高的計(jì)算資源, 開發(fā)成本也較昂貴. 自動(dòng)化布局修
復(fù)工具如Iris則通過上下文感知的修復(fù)方法, 幫助解決顏色對(duì)比度問題, 增強(qiáng)了低視力用戶的可讀性和使用體驗(yàn).
綜上, 移動(dòng)互聯(lián)網(wǎng)信息無障礙的研究已經(jīng)取得了一定的進(jìn)展, 并在視障用戶的數(shù)字生活中發(fā)揮了重要作用, 但仍面臨諸多挑戰(zhàn)與機(jī)遇. 未來的研究需要結(jié)合多模態(tài)數(shù)據(jù)、 人工智能
、 用戶行為建模等先進(jìn)技術(shù), 通過持續(xù)的創(chuàng)新和優(yōu)化, 推動(dòng)無障礙技術(shù)的深入發(fā)展, 為所有用戶提供更公平和優(yōu)質(zhì)的數(shù)字體驗(yàn), 真正實(shí)現(xiàn)數(shù)字社會(huì)的普惠與包容.
參考文獻(xiàn)
[1] 中國(guó)信息通信研究院, 深圳市信息無障礙研究會(huì). 中國(guó)信息無障礙白皮書 [EB/OL]. (2019-07) [2024-11-20]. http://m.caict.ac.cn. (CHINA ACADEMY OF INFORMATION A
ND COMMUNICATIONS TECHNOLOGY, SHENZHEN INFORMATION ACCESSIBILITY RESEARCH ASSOCIATION. China Information Accessibility White Paper [EB/OL]. (2019-07)[2024-11-20]. http://m.caict.ac.cn.)
[2] 中國(guó)信息無障礙產(chǎn)品聯(lián)盟. 中國(guó)互聯(lián)網(wǎng)視障用戶基本情況報(bào)告 [EB/OL]. (2016-03)[2024-11-20]. https://www.siaa.org.cn/. (CHINA INFORMATION ACCESSIBILITY PROD
UCT ALLIANCE. Basic Situation Report of Internet Visually Impaired Users in China [EB/OL]. (2016-03)[2024-11-20]. https://www.siaa.org.cn/.)
[3] 人民網(wǎng). 信息無障礙建設(shè)概覽 [EB/OL]. (2020-05-22)[2024-11-20]. http://w
za.people.com.cn/wza2013/a/xinwensudi/2020/0521/3267.html.(PEOPLE’S DAILY. Overview of Information Accessibility Construction [EB/OL]. (2020-05-22)[2024
-11-20]. http://wza.people.com.cn/wza2013/a/xinwensudi/2020/0521/3267.html.)
[4] BALLANTYNE M, JHA A, JACOBSEN A, et al. Study of Accessibility Guidelines of Mobile Applications [C]//Proceedings of the 17th
International Conference on Mobile and Ubiquitous Multimedia. New York: ACM, 2018: 305-315.
[5] 萬維網(wǎng)聯(lián)盟. W3C移動(dòng)端無障礙 [EB/OL]. (2018-01)[2024-11-20]. https://www.w3.org/WAI/standards-guidelines/mobile/zh-hans. (WORLD WIDE WEB CONSORTIUM.
W3C Mobile Accessibility [EB/OL]. (2018-01)[2024-11-20]. https://www.w3.org/WAI/standards-guidelines/mobile/zh-hans.)
[6] 萬維網(wǎng)聯(lián)盟. W3C網(wǎng)絡(luò)內(nèi)容可訪問性指南 [EB/OL]. (2024-03-01)[2024-11-20]. https://www.w3.org/WAI/standards-guidelines/wcag/. (WORLD WIDE WEB CONSORTIUM. W3C
Web Content Accessibility Guidelines [EB/OL]. (2024-03-01)[2024-11-20]. https://www.w3.org/WAI/standards-guidelines/wcag/.)
[7] XU T L, WANG B S, LIU H, et al. Prevalence and Causes of Vision Loss in China from 1990 to 2019: Findings from the Global Burden of Di
sease Study 2019 [J]. The Lancet Public Health, 2020, 5(12): e682-e691.
[8] 工業(yè)和信息化部, 中國(guó)殘疾人聯(lián)合會(huì). 中國(guó)殘聯(lián)關(guān)于推進(jìn)信息無障礙的指導(dǎo)意見 [EB/OL]. (2020-09-11)[2024-11-20]. http://www.scio.gov
.cn/xwfbh/xwbfbh/wqfbh/42311/44021/xgzc44027/Document/1690214/1690214.htm. (MINISTRY OF INDUSTRY AND INFORMATION TECHNOLOGY, CHINA DISABLED PERSONS’ FEDERATIO
N. Guiding Opinions on Promoting Information Accessibility by CDPF [EB/OL]. (2020-09-11)[2024-11-20]. http://www.scio.gov.cn/xwfbh/xwbfbh/wqfbh/42311/44021/xgzc44027/Document/1690214/1690214.htm.)
[9] 工業(yè)和信息化部. 工業(yè)和信息化部關(guān)于印發(fā)《互聯(lián)網(wǎng)應(yīng)用適老化及無障礙改造專項(xiàng)行動(dòng)方案》的通知 [EB/OL]. (2020-12-24)[2024-11-20]. ht
tp://www.gov.cn/zhengce/zhengceku/2020-12/26/content_5573472.htm. (MINISTRY OF INDUSTRY AND INFORMATION TECHNOLOGY. Notice on Issuing the Special Action Plan
for Aging and Accessibility Transformation of Internet Applications [EB/OL]. (2020-12-24)[2024-11-20]. http://www.gov.cn/zhengce/zhengceku/2020-12/26/content_5573472.htm.)
[10] 中華人民共和國(guó)國(guó)家發(fā)展和改革委員會(huì). 關(guān)于印發(fā)《“十四五”公共服務(wù)規(guī)劃》的通知 [EB/OL]. (2021-01-10)[2024-11-20]. https://www.ndrc.gov.cn/xxgk/zcfb/ghw
b/202201/t20220110_1311622.html?code=amp;state=123. (NATIONAL DEVELOPMENT AND REFORM COMMISSION OF THE PEOPLE’S REPUBLIC OF CHINA. Notice on Issuing the “14th F
ive Year Plan for Public Services” [EB/OL]. (2021-01-10)[2024-11-20]. https://www.ndrc.gov.cn/xxgk/zcfb/ghwb/202201/t20220110_1311622.html?code=amp;state=123.)
[11] 國(guó)務(wù)院. 國(guó)務(wù)院關(guān)于印發(fā)“十四五”殘疾人保障和發(fā)展規(guī)劃的通知 [EB/OL]. (2021-07-08)[2024-11-20]. http://www.gov.cn/zhengce/content/2021-07/21/conten
t_5626391.htm. (STATE COUNCIL. Notice on Printing and Distributing the “14th Five-Year” Plan for the Guarantee and Development of Disabled Persons [EB/OL]
. (2021-07-08)[2024-11-20]. http://www.gov.cn/zhengce/content/2021-07/21/content_5626391.htm.)
[12] BI T T, XIA X, LO D, et al. Accessibility in Software Practice: A Practitioner’s Perspective [J]. ACM Transactions on Software Engineering and Methodology (TOSEM), 2022, 31(4): 1-26.
[13] LIU H X. Some Interviews of Low-Vision Users on Using Mobile Apps. Zenodo [EB/OL]. (2022-03)[2024-11-20]. https://doi.org/10.5281/zenodo.6331279.
[14] PAUL T C, ROBERT W, ALI S A, et al. Automatically Detecting Reflow Accessibility Issues in Responsive Web Pages [C]//
Proceedings of the 2024 IEEE/ACM 46th International Conference on Software Engineering (ICSE). New York: ACM, 2024: 147-1-147-13.
[15] FOK R, ZHONG M, ROSS A S, et al. A Large-Scale Longitudinal Analysis of Missing Label Accessibility Failures in Android Apps [C]//Proceedings of the 2022
CHI Conference on Human Factors in Computing Systems. New York: ACM, 2022: 461-1-461-16.
[16] HZ Z Y, SYED F H, SAM M. “I Tend to View Ads Almost Like a Pestilence”: On the Accessibility Implications of Mobile Ads for Blind Users [C]//Proceedings
of the 2024 IEEE/ACM 46th International Conference on Software Engineering (ICSE). New York: ACM, 2024: 197-1-197-13.
[17] ARUN K V, MANSUR S M H, JOSE J, et al. MotorEase: Automated Detection of Motor Impairment A
ccessibility Issues in Mobile App UIs [C]//Proceedings of the 2024 IEEE/ACM 46th International Conference on Software Engineering (ICSE). New York: ACM, 2024: 209-1-209-13.
[18] BAJAMMAL M, MESBAH A. Semantic Web Accessibility Testing via Hierarchical Visu
al Analysis [C]//Proceedings of the 2021 IEEE/ACM 43rd International Conference on Software Engineering (ICSE). Piscataway, NJ: IEEE, 2021: 1610-1621.
[19] ZHANG Y X, CHEN S, FAN L L, et al. Automated and Context-Aware Repair of Color-R
elated Accessibility Issues for Android Apps [C]//Proceedings of the 31st ACM Joint European Software Engineering Conference and Symposium on
the Foundations of Software Engineering. New York: ACM, 2023: 1255-1267.
[20] SALEHNAMADI N, MEHRALIAN F, MALEK S. Groundhog: An Automated Accessibility Crawler for Mobile Apps [C]//Proceedings of the 37th IEE
E/ACM International Conference on Automated Software Engineering. New York: ACM, 2022: 50-1-50-12.
[21] ZHANG M R, ZHONG M, WOBBROCK J O. Ga11y: An Automated GIF Annotation System for Visually Impaired Users [C]//Proceedings of the
2022 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2022: 197-1-197-16.
[22] ISLAM M T, PORTER D E, BILLAH S M. A Probabilistic Model and Metrics for Estimating Perceived Accessibility of Desktop Applications in
Keystroke-Based Non-visual Interactions [C]//Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2023: 43-1-43-20.
[23] DAS M, McHUGH T B, PIPER A M, et al. Co11ab:
Augmenting Accessibility in Synchronous Collaborative Writing for People with Vision Impairments [C]//Proceedings of the 2022 CHI
Conference on Human Factors in Computing Systems. New York: ACM, 2022: 196-1-196-18.
[24] WANG R, CHEN Z, ZHANG M R, et al. Revamp: Enhancing Accessible Information See
king Experience of Online Shopping for Blind or Low Vision Users [C]//Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2021: 494-1-494-14.
[25] LIU X, CARRINGTON P, CHEN X A, et al. What Makes Videos Accessible to Blind and Visually Impaired People? [C]//
Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2021: 272-1-272-14.
[26] LIU Z, CHEN C Y, WANG J J, et al. Unblind Text Inputs: Predicting Hint-Text of Text Input in Mobile Apps via LLM [C]//
Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2024: 51-1-51-20.
[27] CHEN S, CHEN C Y, FAN L L, et al. Accessible or Not? An Empirical Investigation of
Android App Accessibility [J]. IEEE Transactions on Software Engineering, 2021, 48(10): 3954-3968.
[28] ZHANG M X, LIU H X, CHEN C Y, et al. AccessFixer: Enhancing GUI Accessibility for Low Vision Users with R-GCN Model [J]. IEEE Tran
sactions on Software Engineering, 2024, 50(2): 173-189.
[29] 李玉聰, 汪士欽, 張夢(mèng)璽, 等. 基于WAI-ARIA的網(wǎng)頁導(dǎo)航欄地標(biāo)屬性的標(biāo)識(shí)方法 [J]. 吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2024, 62(3): 697-703. (LI Y C, WANG S Q, ZHANG M X,
et al. Identification Method of Landmark Attributes for Web Navigation Bar Based on WAI-ARIA [J]. Journal of Jilin University (Science Edition), 2024, 62(3): 697-703.)
[30] GLEASON C, PAVEL A, McCAMEY E, et al. Twitter A11y: A Browser Extension to Make Twitter Images
Accessible [C]//Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2020: 1-12.
[31] INTERNATIONAL TELECOMMUNICATION UNION. Measuring Digital Development: Facts an
d Figures 2020 [EB/OL]. (2020-12-13)[2024-11-20]. https://www.itu.int/en/ITU-D/Statistics/Documents/facts/FactsFigures2020.pdf.
[32] ZHANG M X, LIU H X, SONG S N, et al. Are Your Apps Accessible? A GCN-Based Accessib
ility Checker for Low Vision Users [J]. Information and Software Technology, 2024, 174: 107518-1-107518-16.
[33] CHEN J S, CHEN C Y, XING Z C, et al. Unblind Your Apps: Predicting Natural-Language
Labels for Mobile GUI Components by Deep Learning [C]//Proceedings of the ACM/IEEE 42nd International Conference on Software Engineering. New York: ACM, 2020: 322-334.
[34] MEHRALIAN F, SALEHNAMADI N, MALEK S. Data-Driven Accessibility Repair Revisit
ed: On the Effectiveness of Generating Labels for Icons in Android Apps [C]//Proceedings of the 29th ACM Joint Meeting o
n European Software Engineering Conference and Symposium on the Foundations of Software Engineering. New York: ACM, 2021: 107-118.
[35] LI T J J, POPOWSKI L, MITCHELL T, et al. Screen2vec: Semantic Embedding of GUI Screens and GUI Components [C]//Proceeding
s of the 2021 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2021: 578-1-578-15.
[36] MIKOLOV T. Efficient Estimation of Word Representations in Vector Space [EB/OL]. (2013-01-13)[2024-11-20].
https://arxiv.org/abs/1301.3781.
[37] ZHANG X Y, DE GREEF L, SWEARNGIN A, et al. Screen Recognition: Creating Accessi
bility Metadata for Mobile Applications from Pixels [C]//Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2021: 275-1-275-15.
[38] XIE M L, XING Z C, FENG S D, et al. Psychologically-Inspired, Unsupervised Inferenc
e of Perceptual Groups of GUI Widgets from GUI Images [C]//Proceedings of the 30th ACM Joint European Software Engineering Conference and
Symposium on the Foundations of Software Engineering. New York: ACM, 2022: 332-343.
[39] FU J W, ZHANG X Y, WANG Y W, et al. Understanding Mobile GUI: From Pixel-Words to Screen-Sentences [J]. Neurocomputing, 2024, 601: 128200-1-128200-11.
[40] YAN Y F, COOPER N, CHAPARRO O, et al. Semantic GUI Scene Learning and Video Alig
nment for Detecting Duplicate Video-Based Bug Reports [C]//Proceedings of the IEEE/ACM 46th International Conference on Software Engineering. New York: ACM, 2024: 232-1-232-13.
[41] ZHAO W X, ZHOU K, LI J Y, et al. A Survey of Large Language Models [EB/OL]. (2023-03-31)[2024-11-01].
https://arxiv.org/abs/2303.18223.
[42] NONG S Q, ZHU J L, WU R, et al. Mobileflow: A Multimodal LLM for Mobile GUI Agent [EB/OL].
(2024-07-15)[2024-11-10]. https://arxiv.org/abs/2407.04346.
[43] BISHOP P C, JONES A J. Implementing the Americans with Disabilities Act of 1990: Assessing the Variables of Success [J]. Public
Administration Review, 1993, 53(2): 121-128.
[44] EUROPEAN UNION. European Accessibility Act [EB/OL]. (2019-01-01)[2024-11-20]. https://www.europarl.europa.eu/RegPata/etudes/BRIE/2017/603973.
[45] W3C. Mobile Web Best Practices [EB/OL]. (2007-02-01) [2024-11-19]. https://www.w3.org/2007/02/mwbp_flip_cards.pdf.
[46] GOOGLE. Lint [EB/OL]. (2011-01-01)[2024-11-20]. https://developer.android.com/studio/write/lint.html.
[47] GOOGLE. Espresso [EB/OL]. (2013-11-01)[2024-11-20]. https://developer.android.com/training/testing/espresso.
[48] IBM. Mobile Accessibility Checker [EB/OL]. (2016-10-12)[2024-11-19].
https://www.ibm.com/blogs/age-and-ability/2016/10/12/ibm-strengthens-mobile-app-accessibility-and-usability/.
[49] GOOGLE. Accessibility Test Framework [EB/OL]. (2022-03-01)[2024-11-20]. https://github.com/google/AccessibilityTest-Framework-for-Android.
[50] GOOGLE. Google Accessibility Scanner [EB/OL]. (2019-04-24)[2024-11-20]. https://support.google.com/accessibility/android/faq/6376582?hl=en.
[51] ROSS A S, ZHANG X, FOGARTY J, et al. Examining Image-Based Button Labeling for Accessibility in Android Apps through Large-Scale Analysis [C]//
Proceedings of the 20th International ACM SIGACCESS Conference on Computers and Accessibility. New York: ACM, 2018: 119-130.
[52] ELER M M, ROJAS J M, GE Y, et al. Automated Accessibility Testing of Mobile Apps [C]//Proceedings of the 2018 IEEE 11th Internation
al Conference on Software Testing, Verification and Validation (ICST). Piscataway, NJ: IEEE, 2018: 116-126.
[53] LIU Z, CHEN C Y, WANG J J, et al. Owl Eyes: Spotting UI Display Issues via Visual Understanding [C]//Proceedings of th
e 35th IEEE/ACM International Conference on Automated Software Engineering. New York: ACM, 2020: 398-409.
[54] SALEHNAMADI N, ALSHAYBAN A, LIN J W, et al. Latte: Use-Case and Assistive-Service Driven Automated Accessibility Testing Framework
for Android [C]//Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2021:" 274-1-274-11.
[55] GALITZ W O. The Essential Guide to User Interface Design: An Introduction to G
UI Design Principles and Techniques [M]. Hoboken, NJ: John Wiley and Sons, 2007: 1-896.
[56] FEINER S K. A Grid-Based Approach to Automating Di
splay Layout [M]. [S.l.]: Morgan Kaufmann Publishers Inc, 1998: 249-254.
[57] ZEIDLER C, LUTTEROTH C, STURZLINGER W, et al. The Auckland Layout Editor: An Improved GUI Layout Specification Process [C]//
Proceedings of the 26th Annual ACM Symposium on User Interface Software and Technology. New York: ACM, 2013: 343-352.
[58] ALEXAL L. UI-Automator-Viewer [EB/OL]. (2020-10-09)[2024-11-20]. https
://github.com/alexal1/Insomniac/wiki/UI-Automator-Viewer:-What-Is-It-And-How-To-Use-It.
[59] PATIL N, BHOLE D, SHETE P. Enhanced UI Automator Viewer with Improved Android Accessibility Evaluation Features [C]//2016 Internati
onal Conference on Automatic Control and Dynamic Optimization Techniques (ICACDOT). Piscataway, NJ: IEEE, 2016: 977-983.
[60] OULASVIRTA A, DAYAMA N R, SHIRIPOUR M, et al. Combinatorial Optimization of Graphical User Interface Designs [J]. Proceedings of th
e IEEE, 2020, 108(3): 434-464.
[61] JIANG Y, DU R F, LUTTEROTH C, et al. ORC Layout: Ad
aptive GUI Layout with OR-Constraints [C]//Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2019: 413-1-413-12.
[62] JIANG Y, STUERZLINGER W, ZWICKER M, et al. ORCSolver:" An Efficient Solver for
Adaptive GUI Layout with OR-Constraints [C]//Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2020: 1-14.
[63] ZHANG M X, LIU H X, ZHOU Y H, et al. Don’t Confuse! Redrawing GUI Navigation Flow in Mobile Apps for Visually Impaired Users
[C]//IEEE Transactions on Software Engineering. Piscataway, NJ: IEEE, 2024: 1-18.
[64] ZHANG M X, ZHANG Y, GAO G Y, et al. Enhancing Accessibility of Web-Based SVG Buttons: An
Optimization Method and Best Practices [J]. Expert Systems with Applications, 2023, 238: 121883-1-121883-17.
(責(zé)任編輯: 韓 嘯)