陳 丹
(四川省大數(shù)據(jù)中心,四川 成都610000)
2012年5月,日本公司Seraku在移動(dòng)設(shè)備世博會(huì)上推出了一款基于Android系統(tǒng)的智能鏡子顯示器[1],鏡面屏幕可顯示每日天氣、體重、筆記等信息。該顯示器包含一個(gè)半透明反射鏡和一個(gè)能夠檢測(cè)用戶手勢(shì)的射頻距離傳感器。智能鏡子是運(yùn)行應(yīng)用程序的智能終端,擁有獨(dú)立的應(yīng)用商店,支持人臉識(shí)別、語(yǔ)音識(shí)別、手勢(shì)識(shí)別、多點(diǎn)觸控等交互方式,可以為多個(gè)用戶提供豐富的功能。智能鏡具有半透明反射面和內(nèi)置射頻距離傳感器,可檢測(cè)用戶的手勢(shì)操作。智能鏡子就是一個(gè)智能自助中心,可以成為用戶生活和工作的小助手。智能家居鏡面屏通??梢燥@示每日天氣、熱點(diǎn)新聞、路況、時(shí)刻表、穿衣線索、健康保健等內(nèi)容。
目前,智能鏡子市場(chǎng)有很多概念產(chǎn)品,在家庭生活、酒店、醫(yī)療、服裝和美容等領(lǐng)域進(jìn)行了測(cè)試,但智能鏡子市場(chǎng)尚未完全開放?,F(xiàn)階段,智能鏡子的發(fā)展面臨兩大難題。一是價(jià)格高。智能鏡子聚合了很多功能,增加了很多高科技設(shè)備,一些智能鏡子使用更復(fù)雜的平面屏幕,價(jià)格往往讓用戶望而卻步。二是實(shí)用性有待驗(yàn)證。智能鏡子的許多在線功能都可以用平板電腦代替。更重要的是,平板電腦還具有移動(dòng)、方便、靈活的優(yōu)勢(shì)。各大智能鏡像公司不斷開發(fā)很多功能來豐富和規(guī)?;煌瑘?chǎng)景下的應(yīng)用,但是其中一些場(chǎng)景功能應(yīng)用是否實(shí)用可行,這是一個(gè)需要參與企業(yè)去驗(yàn)證和調(diào)查的問題。智能鏡子作為一個(gè)新的家居產(chǎn)品品類,市場(chǎng)份額尚未擴(kuò)大。
經(jīng)過多年的發(fā)展,智能鏡子在服裝消費(fèi)、醫(yī)療健康、智能家居等領(lǐng)域得到了應(yīng)用。
1) 服裝消費(fèi)領(lǐng)域[2]。半導(dǎo)體顯示龍頭京東方(BOE)在2014 FPDChina展會(huì)上推出了一款A(yù)I換裝智能鏡子。在看似正常的試衣鏡前輕輕一點(diǎn),即可看到鏡子上的顯示界面。通過點(diǎn)擊界面圖標(biāo),用戶可以一邊看著鏡子里的自己,一邊看到穿衣搭配的效果,找到不同的領(lǐng)帶打法。這款“智能鏡子”是京東方原創(chuàng)研發(fā)的觸控鏡面顯示屏。通過在屏幕表面采用半透明/半反射結(jié)構(gòu),增強(qiáng)了光的反射效果,反射率為60%,色域高達(dá)72%,居業(yè)內(nèi)領(lǐng)先水平。同時(shí),采用京東方獨(dú)創(chuàng)的ADSDS超硬屏技術(shù),“智能鏡面”具備上下左右178度超廣角,納米觸控多點(diǎn)觸控功能和Wi-Fi功能。
2) 醫(yī)療健康領(lǐng)域。深圳銳智能科技有限公司基于大數(shù)據(jù)、云計(jì)算、智能傳感技術(shù),研發(fā)制造了智能健康魔鏡。通過人臉分析、舌苔分析、狀態(tài)問答等一系列檢測(cè),可以有效反映人體的實(shí)時(shí)狀態(tài),同時(shí)將外部環(huán)境和大數(shù)據(jù)運(yùn)算相結(jié)合,檢測(cè)人體健康。在此基礎(chǔ)上,給出醫(yī)療計(jì)劃和保健計(jì)劃。
3) 智能家居領(lǐng)域。微軟于2016年推出了一款名為“魔鏡”的智能鏡子。它不僅可以用來梳妝打扮,還可以為用戶提供他們需要的信息,例如時(shí)間、天氣和線路等。此外,智能鏡子還可以識(shí)別用戶的情緒?!澳хR”是一面單面鏡子,鏡面下方有一塊23.6英寸的液晶屏顯示信息,同時(shí)還有隱藏的面部識(shí)別攝像頭。該設(shè)備運(yùn)行在RaspberryPi3微型計(jì)算機(jī)上,使用Windows Hello生物識(shí)別技術(shù)進(jìn)行人臉識(shí)別,可以識(shí)別憤怒、喜悅和驚訝等八種不同的情緒。微軟的人臉API識(shí)別服務(wù)允許人臉匹配個(gè)人資料,允許智能鏡子顯示與用戶情緒相關(guān)的信息。面部識(shí)別還允許廣告商實(shí)時(shí)查看用戶對(duì)Smart Mirror廣告的反應(yīng)。
目前,智能鏡子作為一種新型家居產(chǎn)品,市場(chǎng)份額尚未擴(kuò)大。隨著智能鏡子功能的逐步完善和消費(fèi)者認(rèn)知度的不斷提高,智能鏡子銷售空間將逐漸打開,購(gòu)買智能鏡子的消費(fèi)者數(shù)量將不斷增長(zhǎng)。
隨著人工智能技術(shù)的不斷發(fā)展,智能鏡子也引入了智能識(shí)別、AR、體感、語(yǔ)音識(shí)別等技術(shù),以此提高智能鏡子的科技感和娛樂性,配合使用物聯(lián)網(wǎng)、納米觸控、熱成像等技術(shù),可以讓智能鏡子更加實(shí)用。
1) 人臉識(shí)別技術(shù)。人臉是表征不同個(gè)體的顯著特征之一。人臉識(shí)別技術(shù)相對(duì)成熟,是智能鏡子的必備功能。智能鏡子需要人臉關(guān)鍵點(diǎn)檢測(cè)、身份識(shí)別、人臉遮擋檢測(cè)等技術(shù)特性。
2) 目標(biāo)識(shí)別技術(shù)。智能鏡子通常配備至少一個(gè)攝像頭,用于捕捉鏡子前的圖像。用戶往往有特定的目標(biāo)識(shí)別、目標(biāo)變化檢測(cè)、場(chǎng)景識(shí)別等視覺分析和理解需求。因此,目標(biāo)識(shí)別技術(shù)是智能鏡子的必備功能。
3) 智能語(yǔ)音技術(shù)。語(yǔ)音是用戶與智能鏡子交互的一種信息。用戶可以通過語(yǔ)音控制智能鏡子功能的選擇和操作,智能鏡子通過語(yǔ)音向用戶傳達(dá)信息、提示、警報(bào)等信息。因此,智能鏡子需要語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音對(duì)話等傳統(tǒng)技術(shù)特征。
4) 體感技術(shù)。體感技術(shù)常用于用戶與智能鏡子的交互控制過程中。用戶通過手部動(dòng)作、身體動(dòng)作等向智能鏡子發(fā)送指令信息,智能鏡子分析相應(yīng)動(dòng)作并提供進(jìn)一步反饋。
5) 物聯(lián)網(wǎng)技術(shù)。智能鏡子本身是一種物聯(lián)網(wǎng)設(shè)備,在5G等通信技術(shù)的支持下,通過物聯(lián)網(wǎng)技術(shù)可以連接其它智能設(shè)備,從而豐富應(yīng)用場(chǎng)景。
6) 邊緣計(jì)算技術(shù)。智能鏡子是物聯(lián)網(wǎng)設(shè)備的一部分。如果用戶只使用端到端計(jì)算,計(jì)算資源非常有限,功耗也非常有限。我們需要提高物聯(lián)網(wǎng)邊緣設(shè)備的計(jì)算能力。邊緣計(jì)算是繼分布式計(jì)算、網(wǎng)格計(jì)算、云計(jì)算之后的一種新型計(jì)算模式。它是以云計(jì)算為核心,以最新的通信網(wǎng)絡(luò)為途徑,以大型智能終端為前沿,集云、網(wǎng)、端、智能于一體的新型一體化計(jì)算模式。
7) 多通道人機(jī)交互信息融合。目前智能鏡子已經(jīng)向多通道[3]人機(jī)交互信息融合技術(shù)發(fā)展,人工智能技術(shù)正在迅速提升單通道認(rèn)知感知技術(shù)的性能,計(jì)算機(jī)能夠更好地理解用戶的單通道行為。然而在多通道移動(dòng)交互和自然交互條件下,智能鏡子需要準(zhǔn)確地判斷用戶“在做什么”和“要做什么”,才可能對(duì)用戶行為進(jìn)行準(zhǔn)確反饋。多通道人機(jī)交互中用戶意圖的準(zhǔn)確理解是交互自然與否的關(guān)鍵,而如何根據(jù)不同通道信號(hào)進(jìn)行有效融合是準(zhǔn)確理解用戶意圖的重要手段。
OpenPose人體姿態(tài)識(shí)別項(xiàng)目是美國(guó)卡耐基梅隆大學(xué)(CMU)基于卷積神經(jīng)網(wǎng)絡(luò)和監(jiān)督學(xué)習(xí)并以caffe為框架開發(fā)的開源庫(kù),可以實(shí)現(xiàn)人體動(dòng)作、面部表情、手指運(yùn)動(dòng)等姿態(tài)估計(jì),適用于單人和多人,具有極好的魯棒性,是世界上首個(gè)基于深度學(xué)習(xí)的實(shí)時(shí)多人二維姿態(tài)估計(jì)應(yīng)用。人體姿態(tài)估計(jì)技術(shù)在運(yùn)動(dòng)健身、運(yùn)動(dòng)采集、3D擬合和輿情監(jiān)測(cè)等領(lǐng)域具有廣泛的潛在應(yīng)用。OpenPose利用卷積神經(jīng)網(wǎng)絡(luò)和監(jiān)督學(xué)習(xí)來實(shí)現(xiàn)人體姿勢(shì)評(píng)估算法。它的主要優(yōu)點(diǎn)是適用于多人開源模型的2D準(zhǔn)確快速識(shí)別。
本文將基于OpenPose實(shí)現(xiàn)智能鏡子的人體姿態(tài)識(shí)別,通過智能鏡子的前置攝像頭獲取圖像信息,利用VGG-19網(wǎng)絡(luò)的前10層對(duì)圖像進(jìn)行處理,得到圖片的特征F,特征F通過一個(gè)連續(xù)的多階網(wǎng)絡(luò)進(jìn)行處理,網(wǎng)絡(luò)的每個(gè)階段(t)包含了兩個(gè)分支,其中輸入結(jié)果為St(PartConfiendceMap)和Lt(PartAffinityMap)。其中,St得到頭部、胳膊肘等關(guān)節(jié)信息。Lt得到肢體軀干信息,在Lt的幫助下,把St的坐標(biāo)點(diǎn)連接起來,形成人的姿勢(shì)骨架。
圖1 姿勢(shì)識(shí)別詳細(xì)流程
本文使用反復(fù)迭代的CNN網(wǎng)絡(luò)進(jìn)行檢測(cè),每個(gè)CNN網(wǎng)絡(luò)都有兩個(gè)分支:CNN_S和CNN_L,如圖1所示。本文所使用的網(wǎng)絡(luò)是一個(gè)不斷迭代的網(wǎng)絡(luò)連接,第一階段和后續(xù)階段的網(wǎng)絡(luò)在形態(tài)上有所區(qū)別。每個(gè)階段的兩個(gè)網(wǎng)絡(luò)分支分別用于計(jì)算部位置信圖(PartConfiendceMap,關(guān)節(jié)點(diǎn))和部位親和域(PartAffinityMap,肢體軀干),網(wǎng)絡(luò)的第一個(gè)階段接收的輸入是F,經(jīng)過網(wǎng)絡(luò)的處理后分別得到S1和L1。從第2個(gè)階段開始,階段t網(wǎng)絡(luò)的輸入包括三部分:St-1、Lt-1、F。每個(gè)階段網(wǎng)絡(luò)的輸入為:St=ρt(F,St-1,Lt-1),?t≥2;Lt=?t(F,St-1,Lt-1),?t≥2。這樣反復(fù)迭代,直到網(wǎng)絡(luò)變得收斂。通過這種順序迭代的網(wǎng)絡(luò)架構(gòu),可以提高檢測(cè)精度,同時(shí)每個(gè)階段都有損失函數(shù),避免了梯度消失的問題。
本文對(duì)智能鏡子的發(fā)展情況、應(yīng)用情況以及使用的主要技術(shù)進(jìn)行了分析,結(jié)合智能鏡子的實(shí)際應(yīng)用場(chǎng)景,使用OpenPose對(duì)人體姿態(tài)進(jìn)行識(shí)別,通過對(duì)人體關(guān)節(jié)點(diǎn)以及肢體軀干信息的識(shí)別,判斷出人體的當(dāng)前姿態(tài),以此提高智能鏡子的應(yīng)用效果。