崔 震,魯衛(wèi)華,李 鵬,韓 涵,陳 文
(中國電子工程設(shè)計院有限公司 健康與養(yǎng)老研究所,北京 100142)
近年來,老齡化問題日趨嚴(yán)峻,現(xiàn)有的住宅環(huán)境并未系統(tǒng)地考慮老年人日常起居的各種適老性需求,老年人生活中存在諸多不便,甚至存在不同程度的安全隱患,從而影響到老年人的生活品質(zhì)和健康質(zhì)量。針對此類問題,王羽等搭建了國內(nèi)首個適老建筑參數(shù)實驗室,在老年人臥室設(shè)計、輪椅回轉(zhuǎn)半徑、老年人起居室照度、適老住宅開關(guān)插座高度、廚房衛(wèi)生間空間適老性等方面進行了大量實驗,并初步提出了各項適老化改造規(guī)范[1-5]。但尚未從老年人實際個人需求出發(fā),制定各改造項的改造規(guī)則。
本文擬從老年人實際個人狀況出發(fā),利用多標(biāo)簽機器學(xué)習(xí)算法研究老年人能力與適老改造項之間的關(guān)聯(lián)性,并給出個性化推薦方案。
本文主要針對居家環(huán)境的適老化改造,利用電子問卷的方式對居家老人完成數(shù)據(jù)采集,內(nèi)容包括21項老人能力項及15項適老改造項。用D表示數(shù)據(jù)集,D={(Xi,Yi)|i=1,2,…,m},其中:Xi是第i個老人樣本的能力特征向量;Yi表示第i個樣本的適老改造項有序相關(guān)標(biāo)簽集合。有序多標(biāo)簽數(shù)據(jù)集的樣例,如表1所示。
表1 有序多標(biāo)簽數(shù)據(jù)集樣例
為了學(xué)習(xí)適老改造項標(biāo)簽的順序,本文在校準(zhǔn)標(biāo)簽排序算法的基礎(chǔ)上引入了ML-kNN算法,在學(xué)習(xí)過程中將標(biāo)簽排序問題轉(zhuǎn)換成多標(biāo)簽分類問題,Dtrain和Dtest分別表示訓(xùn)練集和測試集。
傳統(tǒng)的成對比較排序法是利用One VS One策略將標(biāo)簽排序問題轉(zhuǎn)換成標(biāo)簽分類問題,將兩兩標(biāo)簽對的排序進行比較,如式1所示。
根據(jù)One VS One策略,需遍歷n*(n-1)/2次即可完整表述所有標(biāo)簽對之間的關(guān)系,n為標(biāo)簽總個數(shù),對每個標(biāo)簽對構(gòu)建分類器,給定一個未知樣本,對每個分類器的預(yù)測值進行投票,通過閾值法將排序后的投票結(jié)果劃分為該樣本的相關(guān)標(biāo)簽和不相關(guān)標(biāo)簽,然后根據(jù)投票結(jié)果對相關(guān)標(biāo)簽進行排序[6]。該方法的主要難點在于:如何確定閾值來盡可能正確地估計樣本所屬的類別標(biāo)簽集合。因此校準(zhǔn)標(biāo)簽排序算法引入了校準(zhǔn)標(biāo)簽yv,將其作為每個樣本的相關(guān)標(biāo)簽和不相關(guān)標(biāo)簽的一個自然劃分點;在每個標(biāo)簽相互成對比較的同時,也要將每個標(biāo)記與校準(zhǔn)標(biāo)簽進行成對比較。對于給定的未知樣本,將所有分類器的預(yù)測結(jié)果進行投票,將投票次數(shù)大于校準(zhǔn)標(biāo)簽yv的類別標(biāo)記看成該樣本的相關(guān)標(biāo)簽,并根據(jù)投票結(jié)果進行排序[7-8]。問題轉(zhuǎn)換過程如圖1所示。
校準(zhǔn)標(biāo)簽排序問題轉(zhuǎn)換過程:
圖1 校準(zhǔn)標(biāo)簽排序問題轉(zhuǎn)換
通過校準(zhǔn)標(biāo)簽排序問題轉(zhuǎn)換后,將問題轉(zhuǎn)換為無相關(guān)的多標(biāo)簽分類問題,其特點是標(biāo)簽維度多,分布雜亂且有交叉,因此本文引入了多標(biāo)簽k近鄰(Multi-label K Nearest Neighbors,ML-kNN)算法。ML-kNN算法是在kNN框架下處理多標(biāo)簽分類問題的算法,具有效率高,且對標(biāo)簽域有交叉重疊的分類效果較好等特點[8]。ML-kNN算法在輸入測試數(shù)據(jù)后,用kNN算法根據(jù)老人能力項確定相應(yīng)的鄰域標(biāo)簽信息,如式2所示。利用先驗概率與后驗概率通過最大后驗概率準(zhǔn)則和貝葉斯準(zhǔn)則計算得到預(yù)測樣本的標(biāo)簽對關(guān)系集合,如式3所示。
ML-kNN算法流程:
(2)確定數(shù)據(jù)鄰域N(xi),i∈{1,…,n*(n+1)/2}。
(3)forlfrom 1 toq//q為類標(biāo)個數(shù)即n*(n+1)/2。
(5)fori∈{0,1,…,n}。
(6)forj∈{0,1,…,k}。
(7)確定測試數(shù)據(jù)的鄰域N(t)。
(8)forlfrom 1 toq。
(9)將分類問題反變換回到排序問題,得到測試數(shù)據(jù)標(biāo)簽排序Zt。
根據(jù)矩陣對稱的特點,重構(gòu)標(biāo)簽對關(guān)系矩陣,并進行投票統(tǒng)計,將投票次數(shù)大于校準(zhǔn)標(biāo)簽yv的類別標(biāo)記看成該樣本的相關(guān)標(biāo)簽,并對相關(guān)標(biāo)簽按照投票結(jié)果排序,如圖1所示。
本文在前期進行了大量的數(shù)據(jù)采集工作,采集方式主要為電子問卷的方式,數(shù)據(jù)內(nèi)容包括兩部分:能力項和適老改造項,其中能力項包括進食能力、梳洗能力、如廁能力、排便能力、自由移動能力、自主洗浴能力、記憶力衰退、抑郁癥、跌倒、噎食、高血壓、糖尿病、帕金森、老年癡呆、通風(fēng)、肢體骨折、眼疾、失聰?shù)?,每個能力項根據(jù)嚴(yán)重程度分為4個等級(0分、3分、5分、10分),分值越高,能力越差;適老改造項包括選用照度高的燈具、清除房間地面高差、選用防滑地面、降低開關(guān)位置、爐灶自動斷火、水溫調(diào)節(jié)、操作臺添加輪椅空間、安全扶手、洗手盆下方留空、洗浴區(qū)助浴椅、玄關(guān)鞋柜及穿鞋凳、發(fā)光門鈴、馬桶扶手及安裝緊急呼叫器等。每位老人根據(jù)個人實際狀況勾選能力項并根據(jù)個人意愿對適老改造項進行篩選并按照需求進行排序。
由于采集對象為老年人,消費觀念和身體重視程度差異較大,因此需要進行數(shù)據(jù)清洗,刪除個人能力項和改造項為空集的樣本,并對相鄰重復(fù)的樣本進行了適當(dāng)?shù)膭h減,最終獲得的老人樣本數(shù)為257個。為了提高學(xué)習(xí)器的準(zhǔn)確性,對數(shù)據(jù)進行了歸一化處理并對數(shù)據(jù)的能力項特征進行主成分分析(Principal Component Analysis,PCA)處理,刪除冗余的能力項信息,最終保留了15項作為能力項的屬性特征。對樣本集做隨機抽樣,選取205個樣本作為訓(xùn)練集Dtrain,52個樣本作為測試集Dtest。
本文采用3個評測指標(biāo)對算法性能進行評價。對于一個樣本Xi,用Zi表示學(xué)習(xí)器給出的Xi所屬的標(biāo)簽集,Yi表示老人自選改造項集,ri(y)表示標(biāo)簽y在預(yù)測出來標(biāo)簽中的排序位置,y'表示預(yù)測出來的標(biāo)簽。
漢明損失Hamming Loss:該指標(biāo)度量的是預(yù)測標(biāo)簽與真實標(biāo)簽集之間的差異性,及相關(guān)的標(biāo)簽不包含在真實結(jié)果中或不相關(guān)標(biāo)簽包含在真實結(jié)果中。該指標(biāo)值越小說明與真實標(biāo)簽集越吻合。
其中ZiΔYi表示對稱差集長度;Zi∪Yi表示并集長度。
(2)1-錯誤率One-Error:該指標(biāo)度量的是學(xué)習(xí)器對每個樣本的預(yù)測標(biāo)簽集合中,排序最靠前的標(biāo)簽不屬于該樣本實際標(biāo)簽集合的情況。該指標(biāo)值越小說明預(yù)測效果越好。
其中arg miny∈Yri(y)表示預(yù)測排位最靠前的標(biāo)簽,當(dāng)arg miny∈Yri(y)∈Yi時,δ(y)=0;否則δ(y)=1。
平均精度AvgPrec:該指標(biāo)反映了所有樣本的預(yù)測標(biāo)簽排序中,標(biāo)簽排序值比真實結(jié)果集中的某一個標(biāo)簽大的標(biāo)簽個數(shù),該值越大表明預(yù)測結(jié)果越好。
本文選擇傳統(tǒng)的成對比較排序法(Ranking by Pairwise Comparison,RPC)與校準(zhǔn)標(biāo)簽排序算法(Calibrated Label Ranking,CLR)作為對比方法進行試驗,兩種算法都屬于問題轉(zhuǎn)換方法且均采用支持向量機(Support Vector Machine,SVM)作為基分類器。實驗結(jié)果如表2所示,可以直觀地看出CLR+ML-kNN算法的漢明損失更低,準(zhǔn)確率更高,因為SVM在處理分布不均的類標(biāo)集時容易陷入過擬合。從1-錯誤率與平均精度來看CLR+SVM和CLR+ML-kNN效果更佳,這是因為校準(zhǔn)標(biāo)簽的引入,過濾了部分非相關(guān)標(biāo)簽,使得排序精度更高,效果更好。
表2 3種算法在各評測指標(biāo)上的結(jié)果
隨著社會老齡化日趨嚴(yán)重,居家養(yǎng)老的適老化改造逐漸成為社會的熱點研究問題。然而大多數(shù)都是趨于某個改造項的參數(shù)研究,缺少將改造項整合的個性化方案研究。本文根據(jù)老年人改造需求的排序,提出了基于多標(biāo)簽機器學(xué)習(xí)的環(huán)境適老化改造算法,引入CLR與ML-kNN,經(jīng)測試表明,相比傳統(tǒng)的RPC與CLR效果更佳,適合進行環(huán)境適老化改造個性化的方案推薦。
[參考文獻]
[1]王羽,王朝霞,王辛,等.適老建筑實驗室[J].住區(qū),2015(1):103-109,102.
[2]貴晨,王羽,王辛,等.適老臥室實驗[J].住區(qū),2015(2):115-125,114.
[3]王朝霞,王羽,王辛,等.老年人居住建筑設(shè)計規(guī)范系列論證(一)—老年人輪椅回轉(zhuǎn)空間基礎(chǔ)實驗[J].住區(qū),2015(1):145-151.
[4]鄧超,王羽,郝俊紅.適老住宅開關(guān)插座高度實驗[J].住區(qū),2015(5):82-88.
[5]HüLLERMEIER E,F(xiàn)üRNKRANZ J,CHENG WW,et al.Label ranking by learning pairwise preferences[J].Artificial Intelligence,2008(16):1897-1916.
[6]FüRNKRANZ J,HüLLERMEIER E,MENCíA EL,et al.Multilabel classification via calibrated label ranking[J].Machine Learning,2008(2):133-153.
[7]WANG M,LIU M,F(xiàn)ENG S,et al.A novel calibrated label ranking based method for multiple emotions detection in Chinese microblogs[J].Communications in Computer & Information Science,2014(496):238-250.
[8]ZHANG M L,ZHOU Z H.ML-KNN:a lazy learning approach to multi-label learning[J].Pattern Recognition,2007(7):2038-2048.