王寧致 黃碧玲 鄭敏儀
摘 要:用戶反饋,是指使用某一產(chǎn)品的用戶對(duì)其產(chǎn)品所提出的有關(guān)于產(chǎn)品的情況反饋。用戶反饋采集有利于公司優(yōu)化其產(chǎn)品,為用戶提供更好的服務(wù)。傳統(tǒng)的用戶反饋采集方法如跨站跟蹤、Cookie跟蹤或觀察流量信息,僅反饋用戶瀏覽行為的信息,而忽略了用戶的潛在興趣?;诒砬榉治龊脱矍蛞暰€追蹤技術(shù)的用戶反饋采集核心技術(shù)能夠反映用戶在網(wǎng)頁頁面瀏覽時(shí),無意識(shí)狀態(tài)下自然流露的潛在興趣。研究采用基于類Haar特征的面部檢測(cè)的Adaboost算法,及基于深度學(xué)習(xí)的面部情感識(shí)別技術(shù),使人類面部情感識(shí)別的正確率可達(dá)90%。同時(shí)使用深度學(xué)習(xí)方法,在沒有高精度且昂貴的儀器條件下,僅借助筆記本電腦前置攝像頭實(shí)現(xiàn)視線追蹤的效果。測(cè)試比較3種不同的深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)視線追蹤的準(zhǔn)確率,其中效果最佳的一種網(wǎng)絡(luò)結(jié)構(gòu)的準(zhǔn)確率可達(dá)49.60%。
關(guān)鍵詞: 用戶反饋采集;視線追蹤;表情分析;深度學(xué)習(xí)
文章編號(hào): 2095-2163(2019)03-0063-06?中圖分類號(hào): TP311.5?文獻(xiàn)標(biāo)志碼: A
0?引?言
企業(yè)對(duì)用戶評(píng)價(jià)的引導(dǎo)、跟蹤與采集,成為用戶反饋采集的重要來源。本文研究的是,如何利用深度學(xué)習(xí)技術(shù)在網(wǎng)頁頁面瀏覽時(shí)實(shí)現(xiàn)高效的用戶反饋采集。目前,傳統(tǒng)的用戶反饋采集方法有2種,即:利用跨站跟蹤和Cookie跟蹤等手段采集用戶網(wǎng)絡(luò)行為數(shù)據(jù);通過分析網(wǎng)站頁面流量和各分界面流量來進(jìn)行頁面整改。前者只反饋用戶關(guān)注的特定方面的信息,而沒有幫助用戶發(fā)現(xiàn)潛在的感興趣內(nèi)容;而后者效率低,反饋整改流程時(shí)間過長(zhǎng)。
因此,本文提出了基于情感識(shí)別和視線追蹤技術(shù)的用戶反饋采集核心技術(shù)。通過收集表情數(shù)據(jù)結(jié)合定位視線落點(diǎn),來判斷用戶對(duì)屏幕上某塊區(qū)域的內(nèi)容的感興趣程度,作為用戶反饋數(shù)據(jù)。這種反饋數(shù)據(jù)不僅能反映用戶理性關(guān)注的焦點(diǎn),還能幫助用戶發(fā)現(xiàn)潛在感興趣的內(nèi)容,而且反饋整改流程時(shí)間也較快,甚至可以做到實(shí)時(shí)反饋。
1?表情分析技術(shù)
面部情感識(shí)別主要有3個(gè)環(huán)節(jié),分別是:面部檢測(cè)、情感特征提取和情感分類。為了進(jìn)行面部情感分析,先要抓取前置快照,并預(yù)處理圖像中的面部數(shù)據(jù),包括定位、矯正尺寸等工作。而后從矯正好的面部圖像中提取情感特征,提取特征的質(zhì)量直接關(guān)系到下一步分辨的準(zhǔn)確程度。最后就是面部情感分類。根據(jù)表情特征性質(zhì)對(duì)所屬情感類別進(jìn)行劃定。本文采用由美國(guó)心理學(xué)家Friesen和Ekman定義的6種基本情感分類:高興、驚喜、悲傷、厭惡、生氣和恐懼(1970)。
1.1?表情分析技術(shù)的研究和實(shí)現(xiàn)
表情分析是計(jì)算機(jī)將提取到的面部特征數(shù)據(jù)輸入分類器,完成分類識(shí)別,使計(jì)算機(jī)能夠判定下一步程序的過程。主要分為2個(gè)部分。首先是機(jī)器學(xué)習(xí),提取面部圖像的Haar特征,用Adaboost算法,即采用一種基于級(jí)聯(lián)分類模型的分類器來訓(xùn)練模型。這部分研究旨在獲取僅含面部的圖像。其次,是深度學(xué)習(xí),把前述部分獲取的表情輸入深度學(xué)習(xí)網(wǎng)絡(luò),從而判斷情感類別。這個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)是采用Cohn-Kanade數(shù)據(jù)庫作為訓(xùn)練集進(jìn)行訓(xùn)練的,6種情感平均識(shí)別率可達(dá)90%。
1.2?面部檢測(cè)技術(shù)的研究
基于Haar特征的Adaboost算法由于其速率遠(yuǎn)高于基于像素識(shí)別的算法,可以達(dá)到實(shí)時(shí)識(shí)別情感的目的。檢測(cè)面部后,將獲取的面部特征輸入深度學(xué)習(xí)網(wǎng)絡(luò)。這個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)是參考了《基于深度學(xué)習(xí)的情感識(shí)別方法研究》。研究得到該網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
本文采用Cohn-Kanade數(shù)據(jù)庫訓(xùn)練這個(gè)網(wǎng)絡(luò)。該數(shù)據(jù)庫于2010年發(fā)布,其數(shù)據(jù)量較大、且數(shù)據(jù)質(zhì)量較高。這個(gè)數(shù)據(jù)庫一共有593張面部圖像,本文用總量的75%作為訓(xùn)練集進(jìn)行訓(xùn)練,即高興、生氣、驚喜、恐懼、厭惡和悲傷六種情感各74張,合計(jì)444張圖像。用其余149張圖像作為測(cè)試集進(jìn)行測(cè)試。測(cè)試的結(jié)果見表1。
表1給出了每種情感的正確識(shí)別率,其中對(duì)角線的數(shù)據(jù)就是6種情感分別對(duì)應(yīng)的正確識(shí)別率。從實(shí)驗(yàn)結(jié)果可知,生氣、驚喜和悲傷三種情感的識(shí)別結(jié)果較為理想,其正確識(shí)別率都超過了92%,而高興、恐懼和厭惡三種情感的正確識(shí)別率略低,分別為86.10%、87.50%和88.76%。主要原因是高興與驚喜、恐懼與厭惡相互之間容易產(chǎn)生混淆。
2?視線追蹤技術(shù)
眼睛是人類獲取外界刺激信息的重要視覺器官,大腦中約有80%的知識(shí)和記憶都是通過眼睛獲取。視線反饋了人類感興趣的對(duì)象、目標(biāo)和需求,具備輸入輸出雙向性特點(diǎn)。在用戶瀏覽頁面時(shí)追蹤用戶視線能獲取人機(jī)交互的信息,可以采集更多即時(shí)的用戶反饋,有利于改善傳統(tǒng)用戶反饋采集的滯后性等缺點(diǎn)。
視線追蹤技術(shù)是指利用特殊的外接掃描設(shè)備獲取視線聚焦點(diǎn)的位置和眼球相對(duì)于頭部位置的運(yùn)動(dòng),并分析注視時(shí)間、注視次數(shù)、注視順序和眼眺距離等相關(guān)數(shù)據(jù)?通過終端設(shè)備進(jìn)行處理、計(jì)算、分析,最終構(gòu)建出一個(gè)注視點(diǎn)的參考平面圖。其技術(shù)原理是通過圖像傳感器采集的角膜反射模式和其他信息,計(jì)算出眼球的位置和注視方向。
基于視線追蹤技術(shù),市面上已有視線追蹤器,或稱眼動(dòng)儀。但眼動(dòng)儀存在著以下不足:
(1)價(jià)格高昂。以瑞典Tobii公司為例,最基礎(chǔ)的一款Tobii X2 眼動(dòng)儀報(bào)價(jià)硬件和軟件共31萬人民幣。
(2)使用不便。以瑞典Tobii公司為例,若要追蹤用戶視線,用戶需額外購買專門的硬件設(shè)備和軟件程序,使用過程還需要佩戴專門的眼鏡。
眼動(dòng)儀等高成本、需要定制或侵入式硬件以及現(xiàn)實(shí)世界中的不準(zhǔn)確性等這些因素使得眼動(dòng)追蹤無法成為普通技術(shù)。在本文設(shè)計(jì)中,則擬將使用合理的相機(jī),如智能手機(jī)的前置鏡頭或平板電腦的攝像頭,研究一種更物美價(jià)廉的視線追蹤技術(shù),推廣至民用商用,便民利民。
判斷情感分析情緒后仍未能得到有效的用戶反饋信息。所以結(jié)合視線追蹤技術(shù)繼續(xù)收集用戶的反饋信息,并綜合分析這2種信息。本文中,研發(fā)構(gòu)建3種不同的深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練數(shù)據(jù)集,測(cè)試比較并尋求效果最好的網(wǎng)絡(luò)結(jié)構(gòu)。
2.1?實(shí)驗(yàn)數(shù)據(jù)集
在本次研究中,使用的是來自論文TabletGaze: dataset and analysis for unconstrained appearance-based gaze estimation in mobile tablets中公開的數(shù)據(jù)集??甲C該論文后可知,論文中使用了長(zhǎng)22.62 cm、寬14.14 cm的屏幕。共有35個(gè)注視點(diǎn)在平板屏幕上均勻分布,排列成5行、7列,垂直間隔3.42 cm,左右間隔3.41 cm。平板屏幕上的注視模式的示例圖像即如圖2所示。
此時(shí)如圖3所示,即將顯示區(qū)域劃分成35個(gè)區(qū)域。原始數(shù)據(jù)是通過平板電腦在景觀模式的前置攝像頭拍攝受試者的視頻得到的,視頻采用1 280×720像素的圖像分辨率。受試者在平板屏幕上觀察點(diǎn)出現(xiàn)的位置。有35個(gè)點(diǎn)(5×7)分布在平板電腦屏幕上。在每一個(gè)視頻里,一個(gè)點(diǎn)一次只出現(xiàn)在在一個(gè)位置,點(diǎn)的位置在35個(gè)點(diǎn)之間是隨機(jī)的,然后隨機(jī)移動(dòng)到下一個(gè)地方,直到點(diǎn)在所有35個(gè)位置各出現(xiàn)一次,結(jié)束一個(gè)視頻錄制。具體的觀察點(diǎn)將遵照?qǐng)D3中的數(shù)字順序從小到大依次顯示。受試者事先并不知道觀察點(diǎn)的顯示順序。
該數(shù)據(jù)集中共有51名受試者,12名女性和39名男性參與了數(shù)據(jù)收集,其中26人戴著眼鏡;28名受試者是白種人,其余23人是亞洲人。受試者的年齡大約在20~40歲之間。每輪數(shù)據(jù)采集期間,受試者分別用4種不同的身體姿勢(shì)(站、坐,葛優(yōu)癱或躺,如圖4所示)之一,錄制一個(gè)視頻序列。每個(gè)主題需要為4個(gè)身體姿勢(shì)中的每一個(gè)進(jìn)行4次記錄,因此每個(gè)主題總共收集了16個(gè)視頻序列。
為了使得實(shí)驗(yàn)結(jié)果有對(duì)比性、參考性和可重復(fù)性,采用公開的實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行視線追蹤技術(shù)的研究。每個(gè)視頻中每12幀截一次圖,共取得143 360張帶面部的截圖。將每人每種身體姿勢(shì)的70%的截圖,共100 352張截圖作為訓(xùn)練集訓(xùn)練本文采用的深度學(xué)習(xí)網(wǎng)絡(luò),其余43 008張作為測(cè)試集檢測(cè)深度學(xué)習(xí)網(wǎng)絡(luò)。
2.2?視線落點(diǎn)定位深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)一
本文使用深度學(xué)習(xí)定位視覺落點(diǎn)。研究中使用的第一種深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5中各變量的解釋見表2。在此基礎(chǔ)上,對(duì)該種設(shè)計(jì)可做研究闡釋如下。
(1)輸入初始圖像。注入初始圖像的訓(xùn)練結(jié)果如圖6所示。其中,藍(lán)色線描述的準(zhǔn)確率最后只穩(wěn)定在33.65%,紅色線描述的訓(xùn)練集在模型中的預(yù)測(cè)結(jié)果與真實(shí)結(jié)果的誤差較大。測(cè)試結(jié)果僅能得知預(yù)測(cè)的視線落定是否精準(zhǔn)定位在測(cè)試區(qū)域,但無法得到通過深度學(xué)習(xí)預(yù)測(cè)的視線落點(diǎn)距離測(cè)試區(qū)域有多遠(yuǎn)。于是通過計(jì)算所有49 115個(gè)預(yù)測(cè)點(diǎn)和原點(diǎn)的距離差及其平均值,即2.015個(gè)單位。鑒于本文所采用的屏幕僅有5×7個(gè)單位,相差2.015個(gè)單位的測(cè)試結(jié)果較不理想。
(2)輸入處理后的圖像。由于第一種網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練效果并不理想,其中面部特征提取也不好,而且出現(xiàn)了重大偏差。盡管第一種設(shè)計(jì)的中間步驟有互相獨(dú)立的2個(gè)分支分別進(jìn)行了2輪卷積和多項(xiàng)式乘法、標(biāo)準(zhǔn)化等處理,但導(dǎo)致最終視線落點(diǎn)定位結(jié)果未臻至理想的原因可能是因?yàn)樵诔跏茧A段輸入的圖像過于龐大,在未能精準(zhǔn)分辨面部位置情況下便把第一輪卷積和多項(xiàng)式乘法等處理的結(jié)果作為初始元送入后續(xù)處理?;诖?,本文做出些許調(diào)整,在原本的網(wǎng)絡(luò)結(jié)構(gòu)不變的情況下將原本的input1換成input2,input2是處理后僅有人眼睛的圖像,由此得到的處理后的測(cè)試結(jié)果如圖7所示。
藍(lán)色線描述的采用處理后的圖像的準(zhǔn)確率最后只穩(wěn)定在33.44%,紅色線訓(xùn)練集在模型中的預(yù)測(cè)結(jié)果與真實(shí)結(jié)果的誤差也佐證這個(gè)網(wǎng)絡(luò)設(shè)計(jì)的測(cè)試結(jié)果并不理想。通過計(jì)算所有49 115個(gè)預(yù)測(cè)點(diǎn)和原點(diǎn)的距離差及其平均值,即2.045個(gè)單位。鑒于本文所采用的屏幕僅有5×7個(gè)單位,相差2.045個(gè)單位的測(cè)試結(jié)果也較不理想。
2.3?視線落點(diǎn)定位深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)二
由于前兩次網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練效果并不理想。究其原因可知,第一次輸入的是原圖,背景中可能產(chǎn)生很多影響因素,導(dǎo)致面部識(shí)別產(chǎn)生偏差,進(jìn)而使得視線落點(diǎn)定位出現(xiàn)重大偏差;第二次輸入僅有眼睛的圖像,降低了面部識(shí)別誤差的同時(shí),卻損失了人眼相對(duì)于面部的位置信息和面部相對(duì)于環(huán)境的位置信息。所以視線落點(diǎn)定位效果依然不夠理想。綜合考慮后將前文論述網(wǎng)絡(luò)結(jié)構(gòu)做出些許調(diào)整,在原本的僅有一個(gè)輸入的情況下增加一個(gè)新的圖像輸入input2,input1、input2分別是原圖和裁剪后僅有眼睛的圖像。此外,為確保input2的特征提取不受input1的干擾,這2個(gè)圖像分別各自進(jìn)行了卷積和多項(xiàng)式乘法、標(biāo)準(zhǔn)化等處理,待特征值處理后再進(jìn)行全連通深度學(xué)習(xí)。綜合前述分析后可知,本文研究使用的第二種深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。由此得到的第二種網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練結(jié)果如圖9所示。
由圖9可以清楚看到測(cè)試集的準(zhǔn)確率能達(dá)到49.60%,這個(gè)結(jié)果比前述可供對(duì)比的網(wǎng)絡(luò)結(jié)構(gòu)的準(zhǔn)確率分別高15.95%和16.16%。而且圖9的測(cè)試結(jié)果僅能得知預(yù)測(cè)的視線落定是否精準(zhǔn)定位在測(cè)試區(qū)域,但無法得到通過深度學(xué)習(xí)預(yù)測(cè)的視線落點(diǎn)距離測(cè)試區(qū)域有多遠(yuǎn)。為此研究查看了訓(xùn)練后的預(yù)測(cè)數(shù)據(jù),并計(jì)算了所有49 115個(gè)預(yù)測(cè)點(diǎn)和原點(diǎn)的距離差及其平均值,即1.602個(gè)單位。鑒于本文所采用的屏幕有5×7個(gè)單位,在未采用高精度儀器追蹤視線的情況下,相差1.602個(gè)單位的測(cè)試結(jié)果較為理想。
3?用戶反饋流程
首先在某一分區(qū)投放一個(gè)產(chǎn)品如廣告等,不妨假設(shè)在第n分區(qū)(具體位置見圖10)。用戶反饋收集流程如圖11所示。啟動(dòng)筆記本電腦的前置鏡頭拍攝畫面,用迭代檢測(cè)面部是否在畫面中。若在這個(gè)畫面中沒有面部則返回上一步,即用前置鏡頭繼續(xù)拍攝畫面;若有面部存在,則用深度學(xué)習(xí)檢測(cè)畫面中人的視角落點(diǎn)區(qū)域。若該人的視角落點(diǎn)并未落在第n分區(qū)則返回上一步,即用深度學(xué)習(xí)檢測(cè)畫面中人的視角落點(diǎn)區(qū)域;若該人的視角落點(diǎn)位于第n分區(qū),則識(shí)別該人的情感判斷其人此時(shí)的情感,并計(jì)算其凝視第n分區(qū)的時(shí)長(zhǎng)。把該人表現(xiàn)出的情感和凝視第n分區(qū)的時(shí)長(zhǎng)作為用戶對(duì)產(chǎn)品的反饋信息輸出。
4?結(jié)束語
基于情感識(shí)別和視線追蹤的用戶反饋采集是一個(gè)極具發(fā)展?jié)摿蜕虡I(yè)價(jià)值的新興課題。本文設(shè)計(jì)的研究創(chuàng)新主要可表述如下。
(1)通過對(duì)國(guó)內(nèi)外相關(guān)文獻(xiàn)資料的廣泛調(diào)研及查閱,本文建立了一個(gè)可以實(shí)現(xiàn)面部情感識(shí)別的網(wǎng)站。
(2)在沒有高精度儀器采集面部圖像、且沒有光學(xué)設(shè)備獲得較為準(zhǔn)確的眼動(dòng)數(shù)據(jù)的情況下,通過深度學(xué)習(xí)實(shí)現(xiàn)準(zhǔn)確率達(dá)49.60%的視線追蹤。
此外,面部情感識(shí)別和視線追蹤技術(shù)均是多學(xué)科交叉的學(xué)界熱點(diǎn)研究?jī)?nèi)容。其中,情感識(shí)別目前雖然已經(jīng)陸續(xù)推出了很多不同的算法模型,取得了不錯(cuò)的識(shí)別效果,但卻仍未能完全達(dá)到在實(shí)際環(huán)境中完美應(yīng)用的要求。迄今為止,這也還是一個(gè)頗具挑戰(zhàn)性的課題;而基于深度學(xué)習(xí)的視線追蹤技術(shù)的視線落點(diǎn)定位準(zhǔn)確率仍然偏低,故而亟需通過改善網(wǎng)絡(luò)結(jié)構(gòu)等方法提高視線落點(diǎn)定位準(zhǔn)確率。期待本文工作能夠?yàn)榻窈蟮纳钊胩接懷芯刻峁┯幸娼梃b。
參考文獻(xiàn)
[1]高峰. 基于二維Gabor變換與支持向量機(jī)的人臉表情識(shí)別研究[D]. 天津:天津大學(xué),2008.
[2]? 施徐敢. 基于深度學(xué)習(xí)的人臉表情識(shí)別[D]. 杭州:浙江理工大學(xué),2015.
[3]??邱玉. 基于動(dòng)態(tài)表情識(shí)別的情感計(jì)算技術(shù)[D]. 寧波:寧波大學(xué),2015.
[4]??程曦. 基于深度學(xué)習(xí)的情感識(shí)別方法研究[D]. 長(zhǎng)春:長(zhǎng)春工業(yè)大學(xué),2017.
[5]?金輝,高文. 人臉面部混合表情識(shí)別系統(tǒng)[J]. 計(jì)算機(jī)學(xué)報(bào),2000,23(6):602-608.
[6]?馮成志,沈模衛(wèi). 視線跟蹤技術(shù)及其在人機(jī)交互中的應(yīng)用[J]. 浙江大學(xué)學(xué)報(bào)(理學(xué)版), 2002, 29(2):225-232.
[7]?KOTSIA I, ZAFEIRIOU S, PITAS L. Texture and shape information fusion for facial expression and facial action unit recognition [J]. Pattern Recognition, 2008,41(3):833-851.
[8]?LUCEY P, COHN J F , KANADE T, et al. The extended Cohn-Kanade dataset(CK+):A complete dataset for action unit and emotion-specified expression[C]//Proceedings of the 3rd IEEE Workshop on CVPR for Human Communicative Behavior Analysis (CVPR4HB), CVPR 2010.San Francisco, CA, USA:IEEE, 2010: 94-101.
[9]?HUANG Qiong, VEERARAGHAVAN A, SABHARWAL A. TabletGaze: Dataset and analysis for unconstrained appearance-based gaze estimation in mobile tablets[J]. Machine Vision and Applications, 2017, 28(5-6):1-17.