楊晨希,喬 棟,牛 怡,崔 磊,馮 筠
(1.西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,陜西 西安 710127;2.運(yùn)城市中心醫(yī)院,山西 運(yùn)城 044000)
近年來,受國民健康意識加強(qiáng)、人口結(jié)構(gòu)老齡化、診斷成像技術(shù)復(fù)雜度不斷增加等因素影響,放射科醫(yī)生日常工作負(fù)擔(dān)加重。為影像科醫(yī)生減輕閱片負(fù)擔(dān),幫助其更有效率地進(jìn)行影像診斷推理與決策已成為各界關(guān)注的熱點(diǎn),具有重大的社會意義與臨床應(yīng)用價值。隨著數(shù)字成像技術(shù)、計(jì)算機(jī)技術(shù)與網(wǎng)絡(luò)技術(shù)的進(jìn)一步發(fā)展,20世紀(jì)80年代醫(yī)學(xué)影像存檔與通信系統(tǒng)(picture archiving and communication system,PACS)這一概念被正式提出。PACS系統(tǒng)主要提供醫(yī)學(xué)影像數(shù)據(jù)數(shù)字化、處理與傳輸?shù)裙δ?在一定程度上幫助醫(yī)生提高了診斷效率和準(zhǔn)確率。如今數(shù)字化閱片方式已廣泛應(yīng)用于各級醫(yī)院影像科室中,相比于傳統(tǒng)的燈箱膠片式閱片,數(shù)字化閱片方式為醫(yī)生增加了“洞察力”,幫助其提高了閱片效率及準(zhǔn)確率。
近年來,人機(jī)關(guān)系發(fā)生重大變革,人機(jī)交互理念逐漸從以機(jī)器為中心向以人為中心轉(zhuǎn)變,從單一顯式的用戶動作表達(dá)向隱式機(jī)器智能推理與顯式用戶表達(dá)融合的方向發(fā)展[1]。使計(jì)算機(jī)系統(tǒng)感知用戶人機(jī)交互過程中的意圖,分析其潛在的、隱藏的需求,已成為人機(jī)交互研究領(lǐng)域必然的發(fā)展趨勢。影像閱片任務(wù)幾乎都需要醫(yī)生執(zhí)行一系列操作及判斷,如果閱片系統(tǒng)能夠感知、預(yù)測用戶交互意圖,提前做好準(zhǔn)備并在正確的時間傳遞正確的信息,則可以通過提供自適應(yīng)輔助工具、優(yōu)化界面等方式改善用戶交互體驗(yàn)、優(yōu)化用戶整體人機(jī)交互過程,進(jìn)一步融合醫(yī)生智慧與機(jī)器智能的互補(bǔ)優(yōu)勢,更好地助力醫(yī)生進(jìn)行影像閱片診斷。
隨著人機(jī)交互技術(shù)的發(fā)展進(jìn)步,用戶可以通過多種方式與計(jì)算機(jī)進(jìn)行交互。為了更多地了解用戶交互行為,提高人機(jī)交互體驗(yàn),已有相關(guān)研究試圖對用戶的交互意圖進(jìn)行識別及預(yù)測。例如,Cronin等人通過用戶語音輸入、手勢輸入、眼動輸入實(shí)現(xiàn)了4種Clutching(激活和取消對系統(tǒng)的控制)技術(shù),以識別用戶何時與系統(tǒng)交互,解決醫(yī)生在無菌環(huán)境下使用非接觸式PACS系統(tǒng)時可能出現(xiàn)的誤觸問題[2]。Zhao等人通過腦電信號及眼動信號對用戶在模擬飛行任務(wù)中的交互意圖進(jìn)行識別,在信號采集后進(jìn)行特征提取,并對兩種信號特征分別使用SVM進(jìn)行意圖分類,最后通過決策級融合得到意圖識別結(jié)果[3]。該項(xiàng)研究旨在對自適應(yīng)飛行器人機(jī)交互系統(tǒng)設(shè)計(jì)提供理論依據(jù)和技術(shù)支持。Soleymani等人收集了參與者的鼠標(biāo)鍵盤隱式交互數(shù)據(jù)、眼動跟蹤數(shù)據(jù)、面部表情及肌電信號,對用戶搜索多媒體內(nèi)容過程中的交互意圖進(jìn)行預(yù)測[4]。結(jié)果表明,用戶的眼球凝視和隱式鼠標(biāo)移動、擊鍵數(shù)據(jù)具有最豐富的信息量,證明了部署此類方法來改進(jìn)多媒體檢索平臺的可行性。除了基于上述交互技術(shù)的相關(guān)研究外,其他傳感技術(shù)在各個領(lǐng)域的人機(jī)交互研究中也展現(xiàn)出巨大的發(fā)展?jié)摿5-6]。然而,就現(xiàn)階段而言,大多新型交互技術(shù)因受價格、部署環(huán)境等問題的限制,整體應(yīng)用范圍較局限,只能在小眾的專業(yè)領(lǐng)域發(fā)揮效果。
鼠標(biāo)輸入目前仍為醫(yī)生進(jìn)行醫(yī)學(xué)影像閱片最主要的交互方式,同時,鼠標(biāo)交互數(shù)據(jù)的采集可以輕松地通過軟件部署實(shí)現(xiàn),且采集過程隱秘,不干擾用戶正常工作。在最近的一項(xiàng)研究中,Vosshenrich等人對一名放射科住院醫(yī)師使用電子閱片系統(tǒng)時的鼠標(biāo)運(yùn)動軌跡進(jìn)行記錄,發(fā)現(xiàn)在8 h工作時間內(nèi)其鼠標(biāo)共進(jìn)行了10 778次點(diǎn)擊操作,移動總距離達(dá)到2.2 km[7]。大量的數(shù)字影像閱片任務(wù)可產(chǎn)生極為豐富且有價值的鼠標(biāo)交互數(shù)據(jù),但出于醫(yī)學(xué)數(shù)據(jù)隱私、研究領(lǐng)域隔離等問題,數(shù)字影像閱片過程中的鼠標(biāo)交互數(shù)據(jù)目前還未得到充分研究與利用。對此類交互數(shù)據(jù)進(jìn)行分析與挖掘可以進(jìn)一步得到數(shù)字影像閱片過程中潛在有用的信息與知識,以應(yīng)用于人機(jī)交互領(lǐng)域、計(jì)算機(jī)輔助診斷領(lǐng)域的研究中。鼠標(biāo)交互數(shù)據(jù)是一種典型的同時具有時間維度屬性和空間維度屬性的生物行為數(shù)據(jù)[8],可以從不同的粒度、層面和視角記錄人機(jī)交互過程中用戶的活動信息,還可以隱式和動態(tài)地提供有關(guān)用戶心理狀態(tài)、體驗(yàn)感受和交互系統(tǒng)可用性等有用信息,現(xiàn)已被廣泛應(yīng)用于用戶網(wǎng)頁搜索行為預(yù)測[9-12]、人機(jī)身份認(rèn)證[13-14]、用戶情感狀態(tài)理解[15-17]、用戶參與度度量[18]等諸多人機(jī)交互領(lǐng)域的研究中。
基于上述背景,本文旨在根據(jù)鼠標(biāo)交互軌跡實(shí)現(xiàn)醫(yī)學(xué)影像閱片交互意圖識別的目的。在本文中,用戶交互意圖被定義為用戶在使用系統(tǒng)閱片過程中所進(jìn)行的交互行為,例如點(diǎn)擊按鈕、瀏覽圖像區(qū)域等。由于缺乏對醫(yī)學(xué)影像閱片系統(tǒng)使用過程中的用戶鼠標(biāo)交互數(shù)據(jù)進(jìn)行研究的相關(guān)工作,因此缺少此類數(shù)據(jù)的公開數(shù)據(jù)集。首先,為了獲取實(shí)驗(yàn)所需的鼠標(biāo)交互數(shù)據(jù)以及用戶交互行為標(biāo)簽,本文建立了鼠標(biāo)交互數(shù)據(jù)集構(gòu)建框架?;诖丝蚣?在自定義的CXR輔助閱片原型系統(tǒng)上對用戶交互過程中的鼠標(biāo)跟蹤數(shù)據(jù)及交互行為語義標(biāo)簽進(jìn)行收集。其次,提出了一種基于鼠標(biāo)軌跡語義理解的醫(yī)學(xué)影像閱片交互意圖識別方法,通過對原始鼠標(biāo)交互數(shù)據(jù)進(jìn)行軌跡分段及語義注釋識別軌跡語義,實(shí)現(xiàn)用戶交互意圖的理解。最后,在所構(gòu)建的數(shù)據(jù)集上通過實(shí)驗(yàn)驗(yàn)證了本文方法的可行性及有效性。
鼠標(biāo)光標(biāo)可以充當(dāng)用戶注視活動的弱代理[19],提供一個用于深層次理解用戶人機(jī)交互行為的方案。有研究表明,用戶不僅在做出決策后移動鼠標(biāo)進(jìn)行交互,在決策過程中同樣會使用鼠標(biāo)幫助其進(jìn)行任務(wù)處理,鼠標(biāo)移動可以作為用戶思維的“實(shí)時運(yùn)動軌跡”[16]。
目前,對鼠標(biāo)交互數(shù)據(jù)進(jìn)行建模分析的研究主要可分為兩類:建模軌跡運(yùn)動特征和建模軌跡時序特征。建模鼠標(biāo)軌跡運(yùn)動特征的研究主要包含特征提取及模型分類等步驟。例如,Lu等人面向人機(jī)身份認(rèn)證問題,對機(jī)器滑動軌跡數(shù)據(jù)的攻擊方式進(jìn)行分析后提取軌跡特征,再利用特征重要性分?jǐn)?shù)及特征相關(guān)系數(shù)分析進(jìn)行特征選擇,最后,使用XGBoost進(jìn)行人機(jī)身份分類識別,實(shí)驗(yàn)結(jié)果表明該方法獲得了99.09%的準(zhǔn)確率及99.88%的召回率[14]。Liu等人收集用戶編程過程中的鼠標(biāo)及鍵盤交互數(shù)據(jù),通過特征提取與分類對用戶編程過程中積極、消極與中性3種情感狀態(tài)進(jìn)行識別,為用戶通過電子平臺學(xué)習(xí)編程的過程提供更好地反饋及體驗(yàn)[15]。Fernández-Fontelo等人對網(wǎng)絡(luò)調(diào)查任務(wù)中受訪者的鼠標(biāo)行為數(shù)據(jù)進(jìn)行特征提取后分類,用于預(yù)測所調(diào)查問題對于用戶的難易程度[20]。建模鼠標(biāo)軌跡時序特征的研究主要考慮鼠標(biāo)交互動作發(fā)生的時序性。例如,Zhang等人基于貝葉斯模型結(jié)合用戶的鼠標(biāo)鍵盤交互動作序列及注視行為特征對用戶進(jìn)行文本格式化任務(wù)過程中的交互意圖進(jìn)行預(yù)測,實(shí)驗(yàn)結(jié)果表明,使用從鼠標(biāo)鍵盤日志中提取出的先前鼠標(biāo)交互動作序列進(jìn)行預(yù)測的性能明顯優(yōu)于僅從注視行為中提取特征[21]。Kwok等人基于長短時記憶網(wǎng)絡(luò)模型建模用戶歷史交互活動及鼠標(biāo)交互特征,實(shí)現(xiàn)用戶下一交互活動預(yù)測及非意圖鼠標(biāo)點(diǎn)擊檢測[22]。
在大多數(shù)現(xiàn)有的相關(guān)研究中,常將整段軌跡數(shù)據(jù)作為整體分析建模。然而,就本研究而言,鼠標(biāo)交互數(shù)據(jù)在不同時段常常蘊(yùn)含有不同的用戶交互語義信息。軌跡語義理解是對時空數(shù)據(jù)進(jìn)行分析的一種手段,指在融合多源信息的基礎(chǔ)上,通過邏輯推理和知識發(fā)現(xiàn)等方法,以理解時空數(shù)據(jù)產(chǎn)生過程中所反映出的用戶行為、狀態(tài)和偏好等語義信息[23]。對時空軌跡進(jìn)行語義理解可以為原本簡單的地理坐標(biāo)數(shù)據(jù)賦予內(nèi)涵,對深度挖掘數(shù)據(jù)的多方面價值具有關(guān)鍵作用[24-26]。
綜上,本文提出基于鼠標(biāo)軌跡語義理解的交互意圖識別方法,通過軌跡分段和軌跡語義注釋獲取軌跡的局部語義,實(shí)現(xiàn)識別用戶醫(yī)學(xué)影像閱片交互意圖的目的。
本文主要涉及到的概念及定義具體如下,文中符號總結(jié)說明如表1所示。
表1 符號總結(jié)Tab.1 Symbol summary
定義1鼠標(biāo)交互讀數(shù)γ。一個鼠標(biāo)交互讀數(shù)γ為一個15元組,對應(yīng)一個鼠標(biāo)交互事件,表示為γ=(x,y,t,p1,p2,…,pm)。其中:t為該鼠標(biāo)交互事件發(fā)生的時間戳;(x,y)表示交互坐標(biāo);pi代表鼠標(biāo)交互事件的其余屬性信息,并有i∈[1,m],m為其余屬性的個數(shù)。
定義2鼠標(biāo)交互軌跡Ttra。鼠標(biāo)交互軌跡被定義為一個以時間增序排序的鼠標(biāo)交互讀數(shù)序列,以記錄交互過程中鼠標(biāo)交互信息,表示為Ttra={γ1,γ2,…,γn}。其中:γi為鼠標(biāo)交互讀數(shù);n為Ttra的序列長度。
定義3軌跡子序列Tsub。給定一條鼠標(biāo)交互軌跡Ttra={γ1,γ2,…,γn},其子序列定義為Tsub={γi,γi+1,…,γi+l-1}。其中,1≤i≤i+l-1≤n,l為子序列長度。
定義4鼠標(biāo)結(jié)構(gòu)軌跡Tstr。鼠標(biāo)結(jié)構(gòu)軌跡Tstr是對鼠標(biāo)交互軌跡Ttra經(jīng)軌跡分段后得到的,由多個軌跡子序列Tsub組成,每段子序列具有相似的屬性特征,令Tstr={
定義5鼠標(biāo)語義軌跡Tsem。鼠標(biāo)語義軌跡Tsem是帶有附加語義信息的鼠標(biāo)結(jié)構(gòu)軌跡Tstr。在本文中,語義信息表現(xiàn)為每段鼠標(biāo)軌跡子序列所對應(yīng)的用戶交互行為類別標(biāo)簽。令Tsem={Tsub,bfine>},其中,bfine為用戶細(xì)粒度交互行為類型標(biāo)簽。
定義6系統(tǒng)響應(yīng)行為與非系統(tǒng)響應(yīng)行為。系統(tǒng)響應(yīng)行為即為軟件系統(tǒng)可以識別為特定指令并作出相應(yīng)反應(yīng)的鼠標(biāo)交互行為,如點(diǎn)擊按鈕。非系統(tǒng)響應(yīng)行為即為無法被軟件系統(tǒng)識別為明確指令的鼠標(biāo)交互行為,如瀏覽行為。
定義7背景行為與活躍行為。對于系統(tǒng)無法識別為明確指令的鼠標(biāo)行為,用戶可能借助鼠標(biāo)光標(biāo)幫助其進(jìn)行認(rèn)知信息處理的此類鼠標(biāo)動作為活躍行為。與之相對,用戶交互過程中只為了移向某個區(qū)域、或無意識的鼠標(biāo)動作為背景行為。
由于缺乏用戶使用醫(yī)學(xué)影像閱片系統(tǒng)的公開鼠標(biāo)交互數(shù)據(jù)集,為了獲得鼠標(biāo)交互數(shù)據(jù)及相應(yīng)的用戶交互行為標(biāo)簽,以幫助建立鼠標(biāo)交互軌跡語義注釋模型并驗(yàn)證其性能,本文首先提出了一個鼠標(biāo)交互數(shù)據(jù)集構(gòu)建框架。如圖1所示,該框架主要由數(shù)據(jù)收集、數(shù)據(jù)劃分和數(shù)據(jù)預(yù)處理3個模塊組成。數(shù)據(jù)收集模塊收集用戶與系統(tǒng)交互過程中的鼠標(biāo)交互跟蹤數(shù)據(jù)與交互行為標(biāo)簽信息;數(shù)據(jù)劃分模塊將原始日志文件劃分為原始數(shù)據(jù)和交互行為標(biāo)簽,其中,交互行為標(biāo)簽在后文用于訓(xùn)練基于監(jiān)督學(xué)習(xí)的鼠標(biāo)軌跡語義注釋模型,并驗(yàn)證其性能;數(shù)據(jù)預(yù)處理模塊對原始數(shù)據(jù)集進(jìn)行格式處理及屬性添加。
圖1 鼠標(biāo)交互數(shù)據(jù)集構(gòu)建框架Fig.1 Construction framework of mouse interaction dataset
1)數(shù)據(jù)收集模塊。本文數(shù)據(jù)收集模塊用于采集用戶與系統(tǒng)交互過程中的3類數(shù)據(jù):鼠標(biāo)交互數(shù)據(jù)、交互行為標(biāo)簽標(biāo)記(marker)和屏幕錄制視頻。此模塊主要由屏幕記錄器和系統(tǒng)日志記錄器2個部件組成。在本文中,系統(tǒng)日志記錄器使用Python中的Logging模塊及PyQt5鼠標(biāo)監(jiān)聽模塊實(shí)現(xiàn),用于捕獲用戶與系統(tǒng)交互過程中的鼠標(biāo)跟蹤數(shù)據(jù)與系統(tǒng)界面參數(shù)。其中,所采集的系統(tǒng)參數(shù)是根據(jù)所使用原型系統(tǒng)的實(shí)際界面布局和功能設(shè)計(jì)的。為了獲得準(zhǔn)確的用戶交互行為標(biāo)簽信息,同時,最大程度上減少參與者在數(shù)據(jù)收集過程中所需進(jìn)行的額外標(biāo)記動作、避免影響正常交互流程,本文進(jìn)行如下設(shè)置:參與者在開始一個交互行為前單擊某特定熱鍵,此時系統(tǒng)日志記錄器會自動記錄一個標(biāo)記到日志文件中,該標(biāo)記在后續(xù)用于輔助研究人員補(bǔ)充行為標(biāo)簽數(shù)據(jù)信息。屏幕記錄器與日志記錄器都運(yùn)行在系統(tǒng)后臺,不會影響用戶正常使用過程。由于PyQt5中控件存在不支持部分鼠標(biāo)監(jiān)聽事件的情況,本文通過重寫控件類以實(shí)現(xiàn)一個允許完全系統(tǒng)界面鼠標(biāo)跟蹤的自定義服務(wù)。
2)數(shù)據(jù)劃分模塊。首先,由研究人員結(jié)合錄屏與交互行為標(biāo)簽標(biāo)記為日志文件補(bǔ)充交互行為標(biāo)簽信息;然后,通過程序自動將日志文件分離為原始數(shù)據(jù)集和交互行為標(biāo)簽集。標(biāo)簽數(shù)據(jù)以JSON格式保存,每個標(biāo)簽數(shù)據(jù)包含1個用戶1次閱片交互過程的總時間、鼠標(biāo)交互數(shù)據(jù)總長度、交互行為個數(shù),以及其中每個交互行為的類型、起始時間、起始讀數(shù)索引。
3)數(shù)據(jù)預(yù)處理模塊。首先,對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)格式處理,對于數(shù)據(jù)中的日期屬性,將其轉(zhuǎn)換為時間戳的形式。其次,本文還在原始數(shù)據(jù)的基礎(chǔ)上增加了兩個附加屬性:①時間間隔屬性,表示相鄰鼠標(biāo)交互讀數(shù)γ(定義1)的時間間隔;②感興趣區(qū)域(areas of interest,AOI)屬性[27],依據(jù)所用原型系統(tǒng)的功能區(qū)域分布劃分AOI,以覆蓋系統(tǒng)界面的功能元素,并根據(jù)交互讀數(shù)的坐標(biāo)和系統(tǒng)參數(shù)將其映射到對應(yīng)的AOI上。
基于該框架構(gòu)建所得鼠標(biāo)交互數(shù)據(jù)集由多個鼠標(biāo)交互數(shù)據(jù)文件組成,每個文件記錄了用戶1次閱片交互過程完整的鼠標(biāo)交互軌跡Ttra(定義2)。
為了采集數(shù)據(jù),本文創(chuàng)建了一個自定義的醫(yī)學(xué)影像輔助閱片系統(tǒng)。該系統(tǒng)使用PyQt5開發(fā),用于協(xié)助用戶進(jìn)行胸部X光片(chest X-ray,CXR)的讀取和診斷。該系統(tǒng)具備基本的交互式圖像查看功能(如放大/縮小等),還嵌入了基于人工智能的輔助診斷工具,用戶可以使用這些工具輔助閱片。針對該交互系統(tǒng),共定義了15個AOI區(qū)域、20種粗粒度的交互行為及213種細(xì)粒度的交互行為,這些交互行為即為用戶交互意圖。
基于鼠標(biāo)交互數(shù)據(jù)集構(gòu)建框架,本文對用戶使用醫(yī)學(xué)影像閱片系統(tǒng)過程中的交互數(shù)據(jù)進(jìn)行了收集與處理,以建立相關(guān)數(shù)據(jù)集。數(shù)據(jù)采集過程共涉及8名影像科醫(yī)生,均熟悉計(jì)算機(jī)使用,我們?yōu)槊總€參與者創(chuàng)建獨(dú)立的賬號,以方便區(qū)分不同用戶的交互記錄。一位研究人員在開始進(jìn)行數(shù)據(jù)收集前對整體實(shí)驗(yàn)流程及該系統(tǒng)的具體功能進(jìn)行介紹。參與者可以自由探索系統(tǒng),直到他們清楚地表明已準(zhǔn)備好開始進(jìn)行數(shù)據(jù)收集過程。在此之后,參與者通過單擊錄制按鈕開始數(shù)據(jù)收集過程。在數(shù)據(jù)收集過程中,每位參與者未被告知如何具體執(zhí)行某個診斷交互行為(例如速度和持續(xù)時間),參與者根據(jù)自己的偏好與系統(tǒng)進(jìn)行交互。
每個參與者被要求對6張CXR影像(3張正常和3張異常)進(jìn)行閱片,篩選后共收集得到47張影像閱片過程中的鼠標(biāo)交互數(shù)據(jù),即47條鼠標(biāo)交互軌跡Ttra,平均時長約為204 s。數(shù)據(jù)集總計(jì)包含580 083個鼠標(biāo)交互讀數(shù)γ及1 580個粗粒度交互行為語義標(biāo)簽,鼠標(biāo)交互讀數(shù)γ的具體字段說明如表2所示。
表2 鼠標(biāo)交互讀數(shù)屬性字段Tab.2 Mouse interaction reading properties
本文提出一種基于鼠標(biāo)交互軌跡語義理解的用戶交互意圖識別方法,通過對鼠標(biāo)交互數(shù)據(jù)進(jìn)行軌跡語義理解,挖掘鼠標(biāo)交互數(shù)據(jù)背后所表示的用戶交互行為語義信息。如圖2所示,本文提出的鼠標(biāo)交互軌跡語義理解框架主要分為3層:第1層輸入鼠標(biāo)交互軌跡Ttra;第2層進(jìn)行軌跡分段,根據(jù)鼠標(biāo)交互讀數(shù)屬性將Ttra劃分多個軌跡子序列Tsub(定義3),獲得鼠標(biāo)結(jié)構(gòu)軌跡Tstr(定義4);第3層對鼠標(biāo)結(jié)構(gòu)軌跡Tstr進(jìn)行語義注釋后輸出鼠標(biāo)語義軌跡Tsem(定義5),實(shí)現(xiàn)交互意圖的識別。
圖2 鼠標(biāo)交互軌跡語義理解框架Fig.2 Framework of semantic understanding for mouse interaction trajectory
軌跡分段為時空數(shù)據(jù)分析的基本步驟,常見的軌跡分段方法主要有:基于連續(xù)讀數(shù)的時間間隔分段、基于停留點(diǎn)分段、基于感興趣區(qū)域分段等。其中,基于感興趣區(qū)域的分段方法通常以某興趣點(diǎn)(point of interest,POI)為中心半徑劃出一個范圍區(qū)域,凡是落在該區(qū)域內(nèi)的軌跡點(diǎn)都由該興趣點(diǎn)來表示,劃分后的軌跡則可按照從一個興趣點(diǎn)到下一個興趣點(diǎn)的順序依次表示出來[28]。由于本文面向的研究對象為人機(jī)交互系統(tǒng),在大多軟件系統(tǒng)中,特定的系統(tǒng)功能只能發(fā)生于界面中特定的功能區(qū)域內(nèi),同時在同一功能區(qū)域內(nèi),根據(jù)鼠標(biāo)交互類型的不同也可能實(shí)現(xiàn)不同的功能。如在本文設(shè)計(jì)使用的原型系統(tǒng)中,鼠標(biāo)單擊圖像視圖區(qū)域不會引發(fā)系統(tǒng)響應(yīng),而雙擊該區(qū)域則會調(diào)用系統(tǒng)視圖切換功能。因此,本文先根據(jù)鼠標(biāo)交互讀數(shù)γ中的AOI屬性對軌跡進(jìn)行初步分段,在此基礎(chǔ)上再使用讀數(shù)的Mouse Event Type屬性進(jìn)一步將鼠標(biāo)交互軌跡Ttra劃分為多個連續(xù)子序列,每個子序列內(nèi)讀數(shù)的AOI屬性及Mouse Event Type屬性相同。經(jīng)此步驟,鼠標(biāo)交互軌跡Ttra轉(zhuǎn)換為鼠標(biāo)結(jié)構(gòu)軌跡Tstr,如圖3所示為本文數(shù)據(jù)集中一條鼠標(biāo)交互軌跡的分段示例。
圖3 軌跡分段Fig.3 Trajectory segmentation
經(jīng)過軌跡分段,鼠標(biāo)交互軌跡轉(zhuǎn)換為鼠標(biāo)結(jié)構(gòu)軌跡Tstr={〈Tsub〉},由一系列軌跡子序列Tsub組成。本節(jié)通過對Tsub進(jìn)行語義注釋,獲得Tsub的細(xì)粒度交互行為語義標(biāo)簽bfine,實(shí)現(xiàn)鼠標(biāo)結(jié)構(gòu)軌跡Tstr到鼠標(biāo)語義軌跡Tsem={〈Tsub,bfine〉}的轉(zhuǎn)換。
針對鼠標(biāo)交互軌跡的語義注釋流程概覽如圖4所示。首先,結(jié)合邏輯推理與監(jiān)督模型分步實(shí)現(xiàn)軌跡的系統(tǒng)響應(yīng)行為及非系統(tǒng)響應(yīng)行為(定義6)語義注釋,得到粗粒度交互行為語義標(biāo)簽bcoarse。之后,對粗粒度標(biāo)簽進(jìn)行注釋細(xì)化,得到細(xì)粒度交互行為語義注釋標(biāo)簽bfine,獲得用戶交互意圖的識別結(jié)果。其中,粗粒度交互行為語義注釋的具體過程如下:依據(jù)軌跡子序列Tsub的交互讀數(shù)屬性對鼠標(biāo)結(jié)構(gòu)軌跡Tstr={〈Tsub〉}中各子序列語義進(jìn)行邏輯推理判斷,若為系統(tǒng)響應(yīng)行為則將其劃分為預(yù)定義的響應(yīng)類別,否則進(jìn)行下一步非系統(tǒng)響應(yīng)行為注釋。對于未被注釋為系統(tǒng)響應(yīng)行為的鼠標(biāo)軌跡,先通過邏輯推理將其劃分為具體的軌跡語義注釋任務(wù),再基于監(jiān)督學(xué)習(xí)軌跡語義注釋模型對軌跡子序列Tsub進(jìn)行背景行為/活躍行為(定義7)判別,若為活躍行為則匹配獲得Tsub的非系統(tǒng)響應(yīng)行為類別。系統(tǒng)響應(yīng)行為與非系統(tǒng)響應(yīng)行為均為注釋所得軌跡的粗粒度交互行為語義bcoarse。
圖4 鼠標(biāo)交互軌跡語義注釋設(shè)計(jì)概覽Fig.4 The overview design of mouse interactiontrajectory semantic annotation
3.3.1 鼠標(biāo)交互特征提取
本文從描述活躍行為軌跡與背景行為軌跡差異性的角度提取鼠標(biāo)交互特征,用于鼠標(biāo)軌跡的非系統(tǒng)響應(yīng)行為語義注釋任務(wù)中。文中共涉及4類活躍行為,如圖5所示為4種活躍行為軌跡及背景行為軌跡的示例。
圖5 交互行為軌跡可視化示例Fig.5 Visualization example of interaction behavior trajectory
從圖5可以觀察到,4類活躍行為軌跡與背景行為軌跡間具有較大差異。相較于活躍行為軌跡,背景行為移動軌跡中直線運(yùn)動較多,移動方向轉(zhuǎn)變次數(shù)較少,但轉(zhuǎn)變角度較大,呈現(xiàn)較為簡單的運(yùn)動軌跡?;谏鲜鲆?guī)律,本文提取了鼠標(biāo)運(yùn)動的軌跡輪廓特征及角度特征,以識別背景行為與活躍行為所具有的不同輪廓屬性。同時,考慮到鼠標(biāo)運(yùn)動與用戶思維處理過程的相關(guān)性以及人的認(rèn)知處理過程特性,還提取了鼠標(biāo)運(yùn)動速度相關(guān)特征。除此之外,停留點(diǎn)表示用戶軌跡中在某一段時間內(nèi)保持相對靜止的位置,通常由數(shù)個軌跡點(diǎn)組成。在眼動信號處理領(lǐng)域,眼動軌跡在一個區(qū)域內(nèi)運(yùn)動的停頓被識別為注視點(diǎn)(fixation),通常這些停頓持續(xù)時間在100~600 ms之間[29]。注視點(diǎn)常被用于計(jì)算各類可反映用戶人機(jī)交互過程的眼動指標(biāo)。受上述概念啟發(fā),本文使用(100 ms,30像素)及(300 ms,30像素)作為兩組時間、距離閾值對鼠標(biāo)運(yùn)動軌跡進(jìn)行停留點(diǎn)檢測,并將停留點(diǎn)個數(shù)、停留總時間作為額外特征。圖6為使用300 ms時間閾值得到的停留點(diǎn)軌跡示例。
圖6 停留點(diǎn)檢測Fig.6 Stay points detection
本文共提取30個特征用于監(jiān)督學(xué)習(xí)鼠標(biāo)軌跡語義注釋,具體特征如表3所示。
3.3.2 基于貪婪策略的序列前向特征選擇算法
在活躍行為軌跡與背景行為軌跡具有差異的同時,不同的活躍行為表示用戶不同的認(rèn)知處理過程,其軌跡也具有較為不同的特性。因此,為了降低冗余和不相關(guān)特征對軌跡識別過程的影響,本文對所提取的全部軌跡特征、速度特征和角度特征進(jìn)行特征選擇,采用序列前向選擇的方式從原始特征集中尋找最優(yōu)特征子集,并在選擇過程中使用貪心策略,每次選擇重要性最高且可使得模型性能提升的特征。
表3 鼠標(biāo)交互特征Tab.3 Mouse interaction features
特征選擇的具體流程如圖7所示。
圖7 特征選擇流程圖Fig.7 Feature selection flow chart
(1)
式中:P表示精準(zhǔn)率;R表示召回率。
3.3.3 基于監(jiān)督學(xué)習(xí)的鼠標(biāo)軌跡語義注釋
本文使用監(jiān)督學(xué)習(xí)模型對軌跡進(jìn)行非系統(tǒng)響應(yīng)行為語義注釋,由于經(jīng)分段后所得鼠標(biāo)結(jié)構(gòu)軌跡由長度不等的軌跡子序列Tsub組成,在此,文中采用保留標(biāo)簽的滑動窗口策略,通過滑動窗口從Tsub中采樣固定長度的窗口序列,每個窗口序列的標(biāo)簽與其所屬Tsub的交互行為類別標(biāo)簽一致。
給定一個長度為l的軌跡子序列Tsub{γi,γi+1,…,γi+l-1},經(jīng)滑動窗口采樣及交互特征提取,可得到n個特征向量,表示為Mat=(V1,V2,…,Vn)T。其中:Vi=(v1,v2,…,vj)為每個窗口序列的特征向量,j為最優(yōu)特征子集長度;n=(l-w)/s+1為窗口序列的個數(shù),w為滑動窗口長度,s為滑動步長。
鼠標(biāo)軌跡語義注釋模型對一段軌跡子序列Tsub中的n個窗口序列進(jìn)行語義識別,獲得n個窗口序列的識別結(jié)果,則此段軌跡子序列Tsub的注釋結(jié)果最終由窗口序列多數(shù)標(biāo)簽決定,即
(2)
式中:lactive為多個窗口序列中活躍行為標(biāo)簽的個數(shù);lbackground為背景行為標(biāo)簽個數(shù)。根據(jù)注釋結(jié)果獲得此段軌跡子序列的粗粒度語義標(biāo)簽bcoarse。
3.3.4 注釋細(xì)化
通過軌跡語義注釋,已為鼠標(biāo)交互軌跡注釋粗粒度交互行為語義標(biāo)簽。接著,通過鼠標(biāo)交互讀數(shù)γ的系統(tǒng)界面屬性將交互行為進(jìn)一步劃分為更細(xì)粒度的類別,以表示更細(xì)粒度的用戶交互意圖。為了對識別得到的與圖像操作相關(guān)的行為進(jìn)行細(xì)化,對用于實(shí)驗(yàn)的CXR影像進(jìn)行手動標(biāo)注。如圖8所示,為每張影像標(biāo)注5個解剖區(qū)域邊界框,包括“左肺”“右肺”“氣管”“上縱隔”與“心影”,每個邊界框由其在原始CXR圖像坐標(biāo)系中的左上角點(diǎn)(X1,Y1)和右下角點(diǎn)(X2,Y2)描述。結(jié)合此補(bǔ)充數(shù)據(jù),可以將相對于系統(tǒng)界面坐標(biāo)系的原始鼠標(biāo)坐標(biāo)數(shù)據(jù)映射到CXR影像坐標(biāo)系上,從而實(shí)現(xiàn)諸如“瀏覽圖像”行為到“瀏覽圖像心影區(qū)域”行為的細(xì)化。
圖8 CXR解剖邊界框標(biāo)注示例Fig.8 Sample CXR case with overlaying anatomical bounding boxes
經(jīng)軌跡語義理解,鼠標(biāo)交互軌跡Ttra豐富化為帶有交互行為語義信息的鼠標(biāo)語義軌跡Tsem。接著,將類型相同且時間間隔小于2 s的行為標(biāo)簽進(jìn)行合并,最終得到交互行為語義標(biāo)簽序列bseq={〈bi〉}。每個標(biāo)簽bi由4個屬性值描述,可表示為bi={bfine,bcoarse,Tstart,Tend}。其中,各屬性分別代表該標(biāo)簽的細(xì)粒度交互行為類型、所屬粗粒度交互行為類型、起始時間及結(jié)束時間。該標(biāo)簽序列則表示用戶交互過程中各階段的交互意圖。
為了驗(yàn)證所提方法的有效性,本文在構(gòu)建的鼠標(biāo)交互數(shù)據(jù)集上分別進(jìn)行了監(jiān)督模型語義注釋實(shí)驗(yàn)及交互意圖識別實(shí)驗(yàn)。
對于監(jiān)督模型語義注釋實(shí)驗(yàn),對軌跡子序列進(jìn)行等長滑動采樣后進(jìn)行軌跡識別。共涉及4類活躍行為,故針對每類活躍行為建立相應(yīng)的活躍行為/背景行為語義注釋模型。具體實(shí)驗(yàn)數(shù)據(jù)如表4所示,所有實(shí)驗(yàn)均采用7∶3的訓(xùn)練集/測試集劃分。
表4 基于監(jiān)督學(xué)習(xí)的軌跡語義注釋實(shí)驗(yàn)數(shù)據(jù)說明Tab.4 Experiment data description of trajectory semantic annotation based on supervised learning
對于交互意圖識別實(shí)驗(yàn),收集所得的1 580個粗粒度交互行為標(biāo)簽作為真實(shí)標(biāo)簽(ground truth),對意圖識別結(jié)果進(jìn)行評價。
4.2.1 評價指標(biāo)
由于本文立足的長期目標(biāo)為研究以用戶為中心、能感知用戶交互意圖從而提供自適應(yīng)輔助干預(yù)的智能計(jì)算機(jī)系統(tǒng),系統(tǒng)能盡可能全面地識別出用戶交互意圖是提供自適應(yīng)幫助的前提,但同時還需保證用戶的使用體驗(yàn),避免在不恰當(dāng)?shù)臅r候提供冗余信息。保證用戶交互意圖的識別率即為對召回率進(jìn)行要求,保證用戶交互體驗(yàn)即為對精準(zhǔn)率進(jìn)行要求。綜上,本文使用準(zhǔn)確率、召回率、精準(zhǔn)率及F均值作為基于監(jiān)督學(xué)習(xí)的軌跡語義注釋部分的評價指標(biāo),其中,活躍行為軌跡作為正例,背景行為軌跡作為負(fù)例。
4.2.2 實(shí)驗(yàn)結(jié)果
本文使用w=120,s=30及w=60,s=30兩組滑動窗口采樣參數(shù)對軌跡子序列進(jìn)行等長滑動采樣,之后對各窗口序列采用決策樹、邏輯回歸、支持向量機(jī)、隨機(jī)森林和XGBoost 5種方法進(jìn)行4類活躍行為/背景行為語義識別任務(wù)。
表5為使用原始特征集所得的語義注釋結(jié)果,可以看到,本文提取的特征可以有效地實(shí)現(xiàn)軌跡識別。4類語義注釋任務(wù)的最優(yōu)結(jié)果(表5中加黑標(biāo)注)均為使用長度為120的滑動窗口所得,說明相比于長度為60的滑動窗口,使用長度為120的滑動窗口采樣時得到的識別結(jié)果更好。滑動窗口的選擇對于識別性能具有影響,當(dāng)滑動窗口過小時可能無法較好地提取到局部軌跡所具有的特征信息。集成模型可以更好地發(fā)現(xiàn)有效的特征和特征組合,識別性能普遍較好,其中,3類任務(wù)使用隨機(jī)森林模型獲得最優(yōu)結(jié)果,1類任務(wù)使用XGBoost模型獲得最優(yōu)結(jié)果。
表5 基于監(jiān)督學(xué)習(xí)的軌跡語義注釋評價結(jié)果Tab.5 Evaluation result of trajectory semantic annotation based on supervised learningz
表6為經(jīng)特征選擇后所得語義注釋結(jié)果,其中,4類語義注釋任務(wù)的最優(yōu)模型分別選擇了15、24、7及11個特征。其中,加黑標(biāo)注的為每類任務(wù)的最優(yōu)模型??梢园l(fā)現(xiàn),通過特征選擇,模型的識別能力得到一定提升?!盀g覽結(jié)果列表”行為的識別可能受到數(shù)據(jù)量影響,初步識別效果較差,但經(jīng)過特征選擇,模型對其識別的能力提升較大,并獲得了較高的評價分?jǐn)?shù)。相比而言,“瀏覽工具箱”行為的識別效果低于其他3者,可能由于此類行為的鼠標(biāo)交互軌跡中各局部軌跡的區(qū)別較大,導(dǎo)致窗口序列間特征具有較大差異。同樣,可以從實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn),在使用原始特征集進(jìn)行軌跡語義注釋時,隨機(jī)森林模型的識別性能相對而言較好,而通過特征選擇,XGBoost模型的識別性能得到較大幅度的提升,在3類注釋任務(wù)中取得了最高的評價分?jǐn)?shù),并且在“瀏覽工具箱”行為識別中獲得97.5%的F均值,僅略低于表6中隨機(jī)森林模型97.9%的最佳分?jǐn)?shù)。
綜上所述,本文所提取的特征可以有效實(shí)現(xiàn)軌跡識別。不同的活躍行為軌跡間存在差異,通過特征選擇,可以為不同的語義注釋任務(wù)選擇更合適、區(qū)分度更高的特征,從而能夠進(jìn)一步提升模型的軌跡識別能力,同時,還可減少相關(guān)計(jì)算量。交互行為在不同時段具有差異,XGBoost模型通過集成策略可以更好地學(xué)習(xí)交互行為軌跡中各窗口序列特征,具備較強(qiáng)的識別注釋能力。
在得到各組最優(yōu)特征子集的基礎(chǔ)上,本文對輔助特征組性能進(jìn)行實(shí)驗(yàn)驗(yàn)證。結(jié)果表明停留點(diǎn)特征對不同類別的活躍行為注釋任務(wù)也具有不同的影響。對于“瀏覽圖像”行為注釋,加入輔助特征組進(jìn)一步提升了模型識別能力;對于“瀏覽工具箱”行為反而影響了模型性能;對于其他兩類行為的識別未有較大影響。
表6 經(jīng)特征選擇的軌跡語義注釋評價結(jié)果Tab.6 Evaluation result of trajectory semantic annotation after feature selection
基于鼠標(biāo)軌跡語義理解的交互意圖識別實(shí)驗(yàn)仍采用召回率、精準(zhǔn)率及F均值作為評價指標(biāo)。由于部分交互行為在段時間內(nèi)持續(xù)進(jìn)行,為了能夠驗(yàn)證所提方法識別結(jié)果的時間精度,在此對真實(shí)標(biāo)簽時間窗口與本文識別所得標(biāo)簽時間窗口進(jìn)行時間交并比(time-intersection over union,TIoU)計(jì)算,當(dāng)且僅當(dāng)二者標(biāo)簽類型相同且TIoU大于閾值時判斷識別結(jié)果正確。
選擇每類監(jiān)督模型語義注釋任務(wù)中最優(yōu)模型用于識別軌跡語義,面向所構(gòu)建的包含1 580個粗粒度交互行為的鼠標(biāo)交互數(shù)據(jù)集,本文方法共識別1 647個粗粒度交互行為。實(shí)驗(yàn)結(jié)果如表7所示,在[0.3∶0.8∶0.1]的TIoU閾值設(shè)定下,該方法平均識別召回率、精確率、F均值分別為86.7%、83.1%及85.4%,表明該方法可以在保證識別精準(zhǔn)率的情況下獲得較高召回率,同時,意味著面向日后開發(fā)新一代智能閱片系統(tǒng)的任務(wù),該方法可以在保證用戶使用體驗(yàn)的基礎(chǔ)上有效理解、識別用戶交互意圖,為實(shí)現(xiàn)用戶交互意圖預(yù)測奠定基礎(chǔ)。
表7 交互意圖識別評價結(jié)果Tab.7 Evaluation result of interaction intention recognition
面向目前醫(yī)學(xué)影像閱片診斷領(lǐng)域中對用戶人機(jī)交互過程相關(guān)研究缺失、數(shù)字醫(yī)學(xué)影像閱片任務(wù)中產(chǎn)生的大量鼠標(biāo)交互數(shù)據(jù)未得到充分利用的背景,本文探索了鼠標(biāo)交互數(shù)據(jù)在醫(yī)學(xué)影像閱片領(lǐng)域中的應(yīng)用?;谠撗芯磕繕?biāo)建立了鼠標(biāo)交互數(shù)據(jù)集構(gòu)建框架,并基于該框架對用戶鼠標(biāo)交互數(shù)據(jù)進(jìn)行收集。針對傳統(tǒng)鼠標(biāo)軌跡相關(guān)研究缺乏對軌跡局部性分析理解的問題,本文提出鼠標(biāo)交互軌跡語義理解框架,對用戶鼠標(biāo)交互軌跡進(jìn)行軌跡分段及交互行為語義注釋,以挖掘用戶影像閱片交互意圖。通過實(shí)驗(yàn)驗(yàn)證了根據(jù)鼠標(biāo)交互軌跡實(shí)現(xiàn)用戶交互意圖識別的可行性以及鼠標(biāo)交互軌跡語義理解方法的有效性。本文的工作可為開發(fā)以用戶為中心的新一代人機(jī)協(xié)同式智能影像閱片系統(tǒng)提供研究思路與基礎(chǔ)框架,同時,可能激勵相關(guān)研究人群進(jìn)一步探索鼠標(biāo)交互數(shù)據(jù)在醫(yī)學(xué)影像閱片診斷中的應(yīng)用價值。
雖然本文的長期研究目標(biāo)為輔助開發(fā)新型影像閱片系統(tǒng),主要的研究內(nèi)容為面向鼠標(biāo)交互數(shù)據(jù)實(shí)現(xiàn)用戶交互意圖識別,但本文所提出的鼠標(biāo)交互數(shù)據(jù)集構(gòu)建框架及鼠標(biāo)交互軌跡語義理解框架對于其他相關(guān)研究領(lǐng)域同樣具有價值。例如鼠標(biāo)交互數(shù)據(jù)可以用于還原用戶與系統(tǒng)交互的軌跡,通過軌跡及交互熱區(qū)分析(見圖9),可為建模用戶使用偏好、輔助計(jì)算機(jī)系統(tǒng)設(shè)計(jì)與優(yōu)化提供大量準(zhǔn)確、直觀的數(shù)據(jù)。醫(yī)學(xué)影像閱片交互數(shù)據(jù)還可用于獲取醫(yī)生閱片過程中對影像的注意力分布。如圖10所示,本文將識別得到的“瀏覽圖像”行為軌跡通過正則化處理,映射到該軌跡對應(yīng)的CXR上,以獲取用戶一次閱片過程中對該影像完整的瀏覽軌跡數(shù)據(jù),針對該軌跡數(shù)據(jù)同樣可以生成熱圖及掃視圖。此類交互數(shù)據(jù)蘊(yùn)涵在醫(yī)生日常工作中,可作為先驗(yàn)知識幫助深度學(xué)習(xí)算法性能優(yōu)化及提高模型可解釋性[30]。
圖9 系統(tǒng)使用鼠標(biāo)交互熱圖Fig.9 Mouse interaction heatmap during system usage
圖10 瀏覽影像鼠標(biāo)交互熱圖Fig.10 Mouse interaction heatmap during image browsing
由于本文工作為此方向的一項(xiàng)初步研究,未來將從以下方面對本文工作進(jìn)行拓展和改進(jìn):①基于本文交互意圖識別結(jié)果實(shí)現(xiàn)用戶交互意圖的預(yù)測;②目前本文實(shí)驗(yàn)在小樣本量下實(shí)現(xiàn),未來擬擴(kuò)大數(shù)據(jù)采集規(guī)模,以獲得更具泛化性的模型及研究結(jié)果;③擬通過設(shè)計(jì)與實(shí)驗(yàn)驗(yàn)證此類鼠標(biāo)交互數(shù)據(jù)作為先驗(yàn)知識在輔助醫(yī)學(xué)影像人工智能診斷算法訓(xùn)練中的可用性。