侯雄文
摘 要 智能手機的使用既給人們帶來了巨大的自由與快樂,也造成了人們對于手機的依賴與孤獨感。有鑒于此,為了減少用戶在使用手機的過程中的情感孤獨,研究提出一種基于智能手機情感識別與調(diào)節(jié)的模型。
關(guān)鍵詞 手機 情感 調(diào)節(jié)
中圖分類號:TP399 文獻標(biāo)識碼:A
手機作為“準(zhǔn)第五媒體”,已經(jīng)越來越多地融入到人們的日常生活。但是,手機的使用越來越使的人們變得孤獨。為了使手機能夠更好的服務(wù)于大眾,我們提出一種基于智能手機情感識別與調(diào)節(jié)模型。利用手機使用過程中對人們語氣、語速、某種感情色彩的詞匯使用頻率的檢測,通過對應(yīng)的數(shù)據(jù)匹配,從而高概率的判定手機用戶當(dāng)下的心情指數(shù),通過對心情指數(shù)的直觀識別,智能手機為用戶提供人文關(guān)懷,如可以通過發(fā)送一些對應(yīng)心情的圖片、一些表示安慰或激勵的句子,最終實現(xiàn)模型的目的。
1情感概述與人臉識別
情感是人對客觀事物是否滿足自己的需要而產(chǎn)生的態(tài)度體驗。情緒感受有喜、怒、憂、思、悲、恐、驚等。情緒不同時人的面部、聲音等會有不同的表現(xiàn)。
人臉表情識別 (facial expression recognition,F(xiàn)ER)中 感情表露=7 %的言詞+38%的聲音+55%的面部表情。在智能手機中,我們可以采取下面的步驟, 建立一個FER系統(tǒng),首先需要對人臉進行檢測與定位;其次從人臉圖像或圖像序列中提取能夠表征輸入表情本質(zhì)的信息,在提取特征數(shù)據(jù)的過程中,需要特征降維、特征分解等進一步處理;最后分析特征之間的關(guān)系,將輸入的人臉表情分類到相應(yīng)的基本情感類別。在此,表情特征提取的方法是FER系統(tǒng)中最重要的部分,好的表情特征提取結(jié)果應(yīng)該具備一下幾個條件:
(1)完整的表示出人臉表情的本質(zhì)特征;
(2)去除噪聲、光照及其他與表情無關(guān)的干擾信息;
(3)數(shù)據(jù)表示形式緊湊,避免過高的維數(shù);
(4)不同類別表情的特征之間有較好的區(qū)分性。
表情特征提取的步驟如下:
利用某種形式的信息來獲得表情的原始特征,如特征形狀與幾何關(guān)系,局部紋理,光流場等,這一步驟成為原始特征獲取。這些原始特征一般都存在信息冗余,維數(shù)過高,區(qū)分性不夠等問題。所以需要對原始特征數(shù)據(jù)進行一些后處理,如特征降維和提取,特征分解等,以降低維數(shù),去除干擾因素,得到對分類更為有利的特征數(shù)據(jù)。
常用的方法有:主元分析(PCA),線性判別分析(LDA),ICA等。
(1)PCA提取了最有代表性的特征,可以有效地消除冗余,降低維數(shù),但沒有考慮不同類別數(shù)據(jù)之間的區(qū)分性。
(2) LDA通過最大化數(shù)據(jù)的類間離散度和最小化類內(nèi)離散度來選擇合適的投影方向,側(cè)重于尋找具有最大分辨力的方向。
(3) 適用最廣泛的是CMU的Cohn-Kanade數(shù)據(jù)庫,算法比較標(biāo)準(zhǔn)。另外日本ATR的女性表情數(shù)據(jù)庫(JAFFE)也得到較多適用。
某些表情易于識別,而某些表情不易識別,心理學(xué)方面的研究認(rèn)為,最容易辨認(rèn)的表情是快樂、痛苦,較難辨認(rèn)的是恐懼、悲哀,更難辨認(rèn)的是懷疑、憐憫,在FER系統(tǒng)中也面臨著對某些類別的表情識別率偏低的情況。
目前的研究大多數(shù)都針對特定條件下采集的圖像或者圖像序列,但要做到對任意采集的圖像或圖像序列都不適應(yīng),還需要人臉檢測等其他領(lǐng)域的發(fā)展。
2語音識別
語音識別主要包括以下內(nèi)容:
2.1發(fā)音長度
通常,歡快、憤怒、驚奇的發(fā)音長度較短,平靜發(fā)音長度居中,而悲傷的發(fā)音長度則稍長。
2.2語速
(1)從語速上看,歡快、憤怒、驚奇的語速較快,平靜發(fā)音相語速居中,而悲傷則較慢。
(2)對于漢語而言,一個漢字即為一個音節(jié),所以用總音節(jié)數(shù)除以持續(xù)時間即得到語速。
2.3音量
語音作為一種能量有限的信號,音量特征是其最重要的特征之一。 從人們的直觀感覺中就可感受到語音信號的音量特征與情感具有較強的相關(guān)性,如當(dāng)人們憤怒時,發(fā)音的音量往往變大;而悲傷時,往往聲音較低。
在語音識別環(huán)節(jié)主要包括:預(yù)處理、特征提取和情感分類。
2.3.1預(yù)處理
主要包括采樣量化、預(yù)加重、端點檢測、分幀加窗。
2.3.2 特征提取
特征提取的任務(wù)是從輸入的語音信號中提取能夠區(qū)分不同情感的參數(shù)序列。
2.3.3模式分類
(1)在訓(xùn)練時用反映情感特征的參數(shù)序列,為每種情感建立相應(yīng)的情感模型。
(2)在測試或識別時根據(jù)所得到的待識別語音信號的特征參數(shù)序列,由系統(tǒng)對這些參數(shù)和已知情感模型之間的相似程度進行評估,并根據(jù)評估的結(jié)果判斷輸入語音信號的情感歸屬通過前面的處理以后,選擇合適的算法也是一項重要工作,當(dāng)前比較流行的算法有基于概率生成模型的方法和基于判別模型的方法兩種。分別對應(yīng)隱馬爾可夫模型(HMM)、高斯混合模型(GMM)和支持向量機(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)。
3推送過程
前面的步驟完成以后,便是讓智能手機將該模型識別了的情感模式推送給用戶。其工作過程為:根據(jù)情感構(gòu)造推送消息,后臺服務(wù)器進行一些必要的處理工作(包括壓縮、協(xié)議轉(zhuǎn)換、安全認(rèn)證等)。具體來說:如高興時推送肯定、支持類的內(nèi)容,以求錦上添花。如生活美好、感恩性質(zhì)的圖片、文字、鈴聲;憂傷時推送安慰、鼓勵類的內(nèi)容,特別在憂傷時未來還考慮可以在原有功能上再增加一個后臺服務(wù),向親人(GF or BF)主動發(fā)提醒短信,提示對方給該用戶打慰問電話。
然后通過將推送內(nèi)容傳送給客戶端。客戶端收到推送消息后,根據(jù)消息內(nèi)容和服務(wù)類型同用戶進行交互。用戶可根據(jù)自身意愿、服務(wù)指示選擇是否加載使用推送的相關(guān)服務(wù)。
4結(jié)語
當(dāng)前,社會生活越來越多樣化,工作壓力也愈加突出,利用好智能手機不僅可以方便我們的社會生活,也能夠使得智能手機的服務(wù)更加人性化,因此,基于智能手機的用戶識別與調(diào)節(jié)模型的研究也更有實際意義。
參考文獻
[1] Xu M&C Xu,etal.Hierarchical affective content analysis in arousal and valence dimensions.Singal Processing,2012.
[2] 趙力.語音信號處理[M].北京:機械工業(yè)出版社, 2009.
[3] 陳佳.語音信號情感識別[D].長沙:中南大學(xué), 2008.endprint