張航空 閆致穎
中國人民大學人口與發(fā)展研究中心 北京 100872
隨著我國人口老齡化程度的加深,老年健康問題將日益凸顯,而科學有效的健康評估是老齡公共衛(wèi)生政策制定的基礎。評估老年人健康時,自評健康指標被廣泛使用。在大型的特別是針對老年人的社會調(diào)查中,使用自評健康指標測量健康狀況具有其他測量工具難以企及的優(yōu)勢。與此同時,關于其有效性的爭議也一直存在。實證數(shù)據(jù)分析發(fā)現(xiàn),其主觀性較強,易受到被訪者個體特征的影響,當其用于研究整體健康狀況評估、跨區(qū)域或跨群體健康比較等問題時,容易低估或高估實際的健康水平,進而造成健康不平等問題。[1]在我國老年人健康評估中對這一問題探討較少,進行這一研究能填補我國老年人自評健康指標研究的不足,加深我們對于這一指標的了解,把握其存在的缺陷和實際運用中可能產(chǎn)生的問題,并探索減少偏誤的方法和改進這一健康評估體系,進一步完善我國老齡科學研究理論體系。
自評健康容易受到被訪者社會經(jīng)濟地位和人口特征等因素的影響,甚至會產(chǎn)生系統(tǒng)性的回答結果偏誤。老年人的自評健康受到相關因素的影響,擁有健康的生活,如睡眠時長適中[2]、定期鍛煉[3]、適當?shù)娘嬀?、主動獲取醫(yī)療保健知識和服務、家庭關系和睦[4]、積極參與社會生活[5]、東部地區(qū)[6]和擁有足夠認知社會資本[7]的老人健康自評良好的可能性更大。
不同群體特征會導致自評健康指標水平的隨機誤差,更重要的是不同的人對于自評健康問題有不同的理解,并且人們在回答時總是由于種種原因給出不同于實際情況的回答,這將會造成系統(tǒng)性的報告異質性。[1,8]國內(nèi)外學者通過實證研究發(fā)現(xiàn),大多數(shù)社會經(jīng)濟和人口特征,如年齡、性別[9]、受教育程度[10-11]、收入、居住地區(qū)[12-13]等都會導致自評健康指標的回答和報告偏誤。一般而言,高齡、女性、低收入和受教育程度較低的人傾向于有一個較低的健康切點,即更可能認為自身的健康狀況較好,而受教育程度和收入水平高的人更可能準確地報告自己的健康狀況。[14-17]
對于這種偏誤帶來的影響也存在分歧,部分研究認為自評健康存在較為復雜的回答偏誤問題,受不同社會人口特征和經(jīng)濟地位群體關于健康的評價標準、期望與認知差異的影響,其結果在不同人群中的可比性值得商榷。[18-19]在關于健康不平等問題的研究中,如果考慮到報告異質性,自評健康狀況的跨國差異會大大減少,各國在人口健康方面的順序也會發(fā)生很大變化,而忽視這種偏誤采用自評健康指標可能會低估或高估健康不平等程度。[20-22]但有學者通過實證分析發(fā)現(xiàn)自評健康的系統(tǒng)報告的異質性規(guī)模相對較小,在衡量健康的社會經(jīng)濟不平等問題上沒有實質性影響,通過增加自評健康的測量維度可以進一步消除這種異質性。[23]
自評健康指標可能本身存在某種系統(tǒng)性偏誤,但關于這種偏誤產(chǎn)生的原因尚未得出一致的結論,社會人口特征對自評健康的影響在不同研究中不盡相同。一方面,增齡及其伴隨的身體退行性變化會削弱老年人的實際健康水平,使得其傾向于認為自身健康狀況較差;另一方面,根據(jù)社會情緒選擇理論,這種變化可能使得老年人降低對自身的健康期望,傾向于認為其健康狀況較好。國內(nèi)外學者研究群體特征對自評健康的影響時多采用全人群數(shù)據(jù),由于老年人樣本量不多而較少針對老年人對這一問題進行詳細探究,對老齡調(diào)查數(shù)據(jù)中自評健康指標有效性的研究較為罕見。另外,國內(nèi)關于自評健康指標影響因素的作用機制及其原理的研究較少,值得進一步探索。
考慮到數(shù)據(jù)質量,本研究使用中國健康與養(yǎng)老追蹤調(diào)查(CHARLS)2011年的基線調(diào)查數(shù)據(jù)。CHARLS是由北京大學國家發(fā)展研究院主持、北京大學中國社會科學調(diào)查中心與北京大學團委共同執(zhí)行的大型跨學科調(diào)查項目,旨在收集一套代表中國45歲及以上中老年人家庭和個人的高質量微觀數(shù)據(jù)。CHARLS的訪問應答率和數(shù)據(jù)質量在世界同類項目中位居前列,數(shù)據(jù)在學術界得到了廣泛的應用和認可。
本文主要的因變量是自評健康,由問卷中的問題“您覺得您的健康狀況怎么樣?”來測量。本次調(diào)查隨機地將調(diào)查對象分成兩部分,分別給出兩組不同答案選項“極好、很好、好、一般、不好”和“很好、好、一般、不好、很不好”。在問卷設計時,將詞語描述差異的測量內(nèi)置在此次調(diào)查中,在詢問自評健康問題時,隨機地將被訪者分成兩個子群體,分別回答選項描述略有不同的兩個自評健康問題。若是將兩個問題的結果分別當作兩個因變量,納入模型分析的樣本將大大減少,將會導致樣本分布的分散問題,降低模型的擬合度,可能會忽略潛在的系統(tǒng)變異。因此,本文中刪去了兩個極端的描述“很差”和“極好”,將兩組樣本合并,得到最終作為因變量的自評健康指標。
切點或閾值是指當人們被詢問某一定序問題時,區(qū)分不同等級的答案所采用的分界點,如回答自評健康問題時,區(qū)分“差/一般”時所采用的分界點就是切點(閾值)1,區(qū)分“一般/好”時所采用的分界點就是切點(閾值)2,區(qū)分“好/很好”時所采用的分界點就是切點(閾值)3。自評健康的報告異質性是指不同個體在同等水平的“真實”健康狀況下,其報告的自評健康結果卻不同,即落入不同的區(qū)間內(nèi)。本研究關注的是切點偏移,即由于個人可能以系統(tǒng)的不同方式理解和使用序數(shù)反應量,造成回答行為異質性,此時閾值受到回答行為的不同影響,導致閾值的相對位置發(fā)生變化。[24]
表1 變量基本情況
為了準確地衡量自評健康效度,本研究采用WHO在2000年《世界衛(wèi)生報告》中提出的結合自評健康資料和健康情景的分層序次probit模型。有研究中也將其稱為錨定法,該模型加入了新的外部信息,使得切點受其他變量影響而造成的改變得以被考察。這一方法要求回答者對被測量的概念進行自我評估,同時在相同的尺度上對幾個簡短的假定情景中的個體進行評估,通過使用情景問題評估的答案來創(chuàng)建人際間可比測量,這些答案代表對每個受訪者都相同的變量的實際(但未報告)水平,以此調(diào)整自我評估。[8]
錨定法通過情景問題對定序問題的回答進行修正,減少其報告異質性時,需要滿足兩個假設:情景等效假設和回答一致性假設。情景等效假設是指除了隨機測量誤差之外,所有受訪者都以相同的方式在相同的一維尺度上感知任何情景的可變水平,或者說情景問題喚起了受訪者對潛在結構的相同印象?;卮鹨恢滦约僭O是指每個人在提供自我評估時,都會以這種方式使用特定調(diào)查問題的回答類別,就像評估情景中的每個假設人物一樣,即被訪者以相同的回答方式對自身和情景人物進行評估。[8]如果情景等效假設被拒絕,則情景描述引發(fā)的結構感知可能會隨著影響報告方式的因素而變化,就不能將情景評分的系統(tǒng)性變化歸因于報告異質性。如果回答一致性假設被拒絕,從情景回答中獲得的信息不能提高回答的可比性。
但在實際運用中,上述兩個假設往往被拒絕,國外學者運用英國老齡化縱向研究數(shù)據(jù)研究發(fā)現(xiàn),這兩個假設在用于修正英國老年人的認知和身體功能自評時都被拒絕了。[25]國內(nèi)學者研究發(fā)現(xiàn)健康情景問題具有不穩(wěn)定性,增齡、日常活動障礙、社會經(jīng)濟地位等因素都會使其評價標準在不同年齡組中呈現(xiàn)不穩(wěn)定的現(xiàn)象,間接拒絕了情景等效假設。[26]而客觀健康指標有統(tǒng)一明確的評價標準,老年人對其評價很少會受到其他因素的影響,能明確反映老年人在該方面的健康狀況,如果用其替代情景問題可以很好的滿足暈影等效假設,雖然回答一致性假設是否被滿足需要進一步探索,但提高自評健康回答的可比性并不是本文的重點,暫不作深入探討。CHARLS調(diào)查問卷中并未包含自評健康指標的情景問題,醫(yī)生診斷、身心功能狀況、經(jīng)歷的疾病感覺和癥狀等因素會影響老年人健康概念的構成。因此,本研究最終用客觀健康指標替代健康情景問題納入模型進行分析,具體思路如下:
其實上述現(xiàn)象我們認為這是人的心理認知機制決定的。我們生活中,會無時無處都處在各種各樣的活動之中,日久天長,我們形成了各種各樣的意象圖式,說話時,我們組織語言就應按照“主謂賓”這順序來組織語言,定義“手指”時我們會提及“手”?!癆了(嘞)個B”式網(wǎng)絡語我們根據(jù)舊有的語法經(jīng)驗和語言知識的積累可以明白其準確的含義,排除了不規(guī)則的邏輯和語法帶給我們的干擾性。
(yj*)為老年人的真實健康水平,為連續(xù)隨機的潛在變量,而自評健康(yj)則為(yj*)的粗糙測量,將(yj*)劃分為分成自評健康(yj)的4個序次響應類別,τk表示自評健康指標的3個切點,τ0<τ1<…<τ4,τ0=-∞,τ4=∞,
yj=k,ifτk-1≤yj*<τk,k=1,…,4
(3)
將潛在的真實健康狀況(yj*)表示為客觀健康測量指標(yj0)的函數(shù),(yj*)也可以隨著個體特征變量(X)的變化而變化;
yj*=f(yj0;X)
(4)
HOPIT模型中允許切點τk隨著個體的社會人口特征和經(jīng)濟地位(X)的變動而變動,即:
τk=ci(X·βk),i=1,…,k-1
(5)
合并式(4)和式(5)就得到了HOPIT模型的公式,即式(6)
yj=kifck-1(X;βk-1) (6) 為了便于計算參數(shù)和使得模型可以被擬合,假設(yj0)反映了真實健康狀況導致的自評健康測量結果差異,自評健康的其他殘差都是由被訪者的回答行為異質性引起的,這些異質性可以由個體特征來預測和解釋。改進后的HOPIT模型簡化式為式(7)。 yj=kifck-1(X;βk-1) (7) 真實健康代理變量均是顯著的,滿足進行切點分析的前提條件。本研究擬合了HOPIT模型對這種偏誤進行估計,可以看到,對于第一次自評健康而言,所有真實健康代理變量的系數(shù)都十分顯著,并且影響方向一致;對于第二次自評健康而言,睡眠時間的系數(shù)顯著性水平有明顯的提高,所有代理變量的系數(shù)都十分顯著,這說明選取的客觀健康信息能很好地反映潛在真實健康狀況,控制了被訪者的健康水平差異。 為了分析自評健康的效度,本文引入健康的評價過程模型,該模型認為將自評健康的本質理解為一種主觀的、有背景的自我評估和一種客觀的身體和精神狀態(tài)的指標。自評健康源于一個積極的認知過程,是“關于健康的許多方面(主觀的和客觀的)在被訪者個體的感知框架內(nèi)結合方式的總結性陳述”。模型區(qū)分自我評估過程中的不同階段:首先,個人必須認識到“健康”的含義,并確定“我的健康狀況”組成部分,包括醫(yī)療診斷信息、功能狀態(tài)觀測、經(jīng)歷過的身體感覺和癥狀、疾病的正式信號等,此階段評估背景框架主要包括隨文化和歷史變化的健康概念;第二,評價我的健康時要考慮年齡、所了解的其他人的情況、健康預期發(fā)展等,此階段的評估的背景框架主要包括早期的健康經(jīng)歷、樂觀或者悲觀的傾向、是否抑郁等;最后,決定預設范圍內(nèi)的哪個級別能最好地概括我的健康,此階段評估的背景框架主要包括表達積極和消極觀點以及使用量表的文化習俗。[27] 第一,具備相關社會經(jīng)濟特征的老年人在自評健康時會出現(xiàn)偏差,造成自評健康評價結果趨中,自評健康指標在中國老年人口健康評估中的有效性受到一定的挑戰(zhàn)。從本文的分析結果來看,真實健康代理變量比較契合健康的評價過程第一階段,第二階段和第三階段能夠很好的契合社會人口特征對自評健康切點位置的影響。模型1呈現(xiàn)了老年人第一次自評健康的HOPIT回歸結果,婚姻、受教育程度、經(jīng)濟自評和生活滿意度都會影響老年人的自評健康切點位置,使自評健康指標在衡量他們的健康狀況時出現(xiàn)一定的偏差,自評健康指標在衡量具備這些特征老年人口的健康時有效性遇到挑戰(zhàn)。 教育會對老年人自評健康評價切點產(chǎn)生影響,出現(xiàn)自評健康評價結果趨中現(xiàn)象。具體來看,受教育程度為小學的老年人在切點1上的回歸系數(shù)顯著,這部分老年人在區(qū)分“差/一般”的健康狀態(tài)時所采用的切點更低,更可能選擇“一般”而不是“差”去衡量自己的健康狀態(tài);受教育程度為小學和初中的老年人在切點2上的回歸系數(shù)也很顯著,這部分老年人在區(qū)分“一般/好”的健康狀態(tài)時所采用的切點更高,更可能選擇“一般”而不是“好”去衡量自己的健康狀態(tài)。從上面的分析可以看到,部分老年人使用“差”、“一般”和“好”來衡量自己的健康狀態(tài)時,更有可能選擇“一般”。已有研究也發(fā)現(xiàn),現(xiàn)實社會中人們對某一問題的態(tài)度、看法、評價等等,客觀上是會存在中間狀態(tài)的。[28] 經(jīng)濟自評和生活滿意度會對老年人自評健康評價切點產(chǎn)生影響,造成自評健康評價結果趨中。當客觀健康狀況相同時,面對給定的切點1,經(jīng)濟自評為“中等”、對生活“滿意”的老年人更可能選擇“一般”而不是“差”去衡量自己的健康狀態(tài);面對給定的切點2,經(jīng)濟自評為“中等”的老年人更可能選擇“一般”而不是“好”去衡量自己的健康狀態(tài);面對給定的切點3,經(jīng)濟自評為“中等”的老年人更可能選擇“好”而不是“很好”去衡量自己的健康狀態(tài)。也就是說,老年人在對自己的健康進行評價時,會考慮與他人進行比較,進而做出判斷,比較契合健康的評價過程第二階段。 表2 中老年人自評健康指標切點偏移影響因素模型 婚姻會對老年人自評健康評價切點產(chǎn)生影響,造成自評健康評價結果趨中。面對給定的切點1,在婚的老年人更可能選擇“差”而不是“一般”去衡量自己的健康狀態(tài),也就是說不在婚的老年人更可能選擇“一般”而不是“差”去衡量自己的健康狀態(tài)。以往的研究認為婚姻對于健康有兩種效應,在婚有配偶狀態(tài)能夠對老年人健康起保護作用,從而促進老年人健康長壽,即婚姻的保護效應;理性的人們更愿意與身體健康者結婚,從而導致健康者比不健康者更容易找到配偶,最終的結果是結婚的人群中大都是健康者,而那些沒有配偶的人當中不健康者居多,即婚姻的選擇效應。[29]對于老年人來說,婚姻對于健康的影響更多的表現(xiàn)為保護效應,看似本文的結果與保護效應是矛盾的,這里除了要注意不同研究中健康的衡量指標,還要注意樣本的選擇性。對于老年人來說,婚姻固然影響健康,同時,健康也會反過來影響婚姻狀態(tài)。在婚的老年人更可能選擇“差”而不是“一般”去衡量自己的健康狀態(tài),一種可能的解釋是在婚的老年人健康固然“差”,不在婚的老年人尤其是喪偶的老年人因為健康不“差”而存活并接受調(diào)查。 第二,切點偏移會導致使用自評健康作為指標的研究出現(xiàn)偏誤。切點偏移會帶來什么樣的影響呢?接下來以經(jīng)濟自評為例進行說明。由于超過第一個閾值(切點)的系數(shù)都依賴于以前的閾值,并且涉及系數(shù)的冪運算,很難直接解釋。因此,展示閾值的組間差異或模型系數(shù)預測的閾值相對位置是最直觀的呈現(xiàn)方式。[12]本研究通過將模型1中的切點預測系數(shù)運用于被分析的樣本中計算得到了經(jīng)濟自評影響下三個切點的相對位置??刂破渌兞康挠绊懀米兞康幕貧w系數(shù)乘以所選變量的取值和截距項(即切點)加總,得到切點位置的相對位置。不同經(jīng)濟自評造成的切點偏移程度也不相同,經(jīng)濟自評較高的老年人在切點1上的偏離程度較大,而在切點2和切點3上的偏離程度較小。這時用自評健康來分析經(jīng)濟自評和健康之間的關系時,會擴大經(jīng)濟自評較高的老年人和經(jīng)濟自評一般的老年人之間的差異,造成偏誤。 第三,老年人自評健康切點偏移程度要大大弱于中年人。為了進一步衡量老年人自評健康切點偏移的程度,本文還分別擬合了老年人和中年人第二次自評健康的HOPIT模型。在客觀健康信息的采集之后,模型2中健康代理變量都很顯著,并且指標切點偏移程度有所下降,因此,依靠第二次自評健康的回歸結果進行對比分析結果更穩(wěn)定可靠。相比于模型1,模型2中的一些參數(shù)發(fā)生了改變。對于給定的切點1,受教育程度的影響變得不顯著,經(jīng)濟自評為“偏上和非常高”的影響變得顯著。對于給定的切點2,受教育程度、經(jīng)濟自評的影響變得不顯著;對于給定的切點3,經(jīng)濟自評的影響變得不顯著。模型3是中年人第二次自評健康的HOPIT回歸結果,所有的客觀健康變量控制效果良好,相比于老年人,對于給定的切點1,受教育程度和社會參與的影響顯著,而婚姻的影響不顯著;對于給定的切點2,性別、受教育程度和經(jīng)濟自評的影響顯著;對于給定的切點3,受教育程度和經(jīng)濟自評的影響顯著。對比模型2和模型3,可知老年人自評健康切點偏移程度要大大弱于中年人。 本研究選取了國內(nèi)具有代表性的CHARLS基期數(shù)據(jù),根據(jù)健康評估的過程模型,運用分層序次probit模型,對我國老年人自評健康的有效性進行了探討,研究的主要結果如下: 第一,自評健康指標在我國老年人中效度較好。本文借鑒以往研究的方法,在擬合了HOPIT模型后對切點偏移及其影響因素進行了探討,結果顯示,老年人的社會人口特征、社會經(jīng)濟地位使其發(fā)生系統(tǒng)性的切點偏移。相較于老年人第一次自評健康結果,老年人第二次自評健康結果的切點偏移程度減弱了很多,這說明在回顧了自身客觀健康信息之后,由群體特征造成的回答行為異質性,即對于自評健康閾值的理解差異減小了,老年人能夠更客觀和一致地衡量自己的健康狀況。因此,切點偏移問題有所改善。與中年人相比,老年人受其他因素影響發(fā)生系統(tǒng)性自評健康切點偏移的程度也弱很多??偟膩碚f,自評健康指標能有效地測量我國老年人的健康狀況。 第二,自評健康指標存在的系統(tǒng)性偏移對不同類型研究結論的影響是不一致的。當自評健康指標被用于估計整體健康狀況、探究健康的影響因素以及確定整體保健需求等研究時,忽略上述偏誤可能并不會對結果造成實質性影響。但是,當使用自評健康去進行跨區(qū)域和群體的健康比較分析和確定特殊群體的健康需要時,這些偏誤就會影響結果的準確性,切點偏移導致的較低或較高的切點將分別縮小或擴大群體健康差異,導致對健康不平等的低估或高估。比如直接使用自評健康對中年人和老年人的健康狀況進行對比分析時,可能會因為中年人切點偏移程度高而高估其健康不平等狀況,但事實上老年期由于生命歷程中的累積劣勢造成的健康不平等會比中年期更加嚴重。 基于本文的分析與以往的研究,發(fā)現(xiàn)以下幾點可以結合相關的數(shù)據(jù)進一步研究: 第一,本文使用的是CHARLS2011年的基期數(shù)據(jù),所得出的關于我國老年人自評健康有效性的結論是否會隨著時間推移受到隊列效應的影響而發(fā)生變化,需要通過對CHARLS追蹤數(shù)據(jù)或其他大型老年調(diào)查數(shù)據(jù)繼續(xù)進行分析來確定。 第二,本研究發(fā)現(xiàn)了一些與以往結論不一致的地方,這些差異到底是源自中國老年人的特殊性,還是由于數(shù)據(jù)結構導致的偏差,需要結合其他數(shù)據(jù)進行對比分析(跨國老齡調(diào)查數(shù)據(jù)之間、中國老齡調(diào)查數(shù)據(jù)內(nèi)部比較)來確定。 第三,由于CHARLS2011在問卷設計時,將詞語描述差異的測量囊括在此次調(diào)查中,在詢問自評健康問題時,隨機地將被訪者分成兩個子群體,分別回答選項描述略有不同的兩個自評健康問題,這樣導致了樣本分布的分散問題,因此本研究中刪去了兩個極端的描述“很差”和“極好”,未來可以結合相關的數(shù)據(jù)進一步分析。 對我國老年人自評健康指標有效性的研究,可以為更充分合理地運用該指標提出如下建議: 第一,在社會調(diào)查中使用自評健康指標對老年人進行測量時,可以適當增加測量的復雜性,如改變問卷問題設置的順序,在自評健康問題前設置一系列客觀健康問題,前文的研究分析已經(jīng)證實了這樣的設計不僅能夠使得老年人在這一問題上的回答更穩(wěn)定,也能使自評健康切點偏移的程度明顯下降,消除工具本身的偏誤?;蛘邔HO的修正工具HOPIT模型內(nèi)置于問卷中,在健康測量部分加上健康情景問題,用于修正自評健康的偏誤;改進工具和計分方式,如在測量中使用自評健康量表或視覺尺度制計分方式等。 第二,在使用自評健康指標進行實證分析時,要盡可能對數(shù)據(jù)進行修正并注意結果的解釋,如通過對社會人口變量和客觀健康變量進行加權等統(tǒng)計處理,控制其對自評健康的影響,使得研究者能觀測到關鍵變量和自評健康的真實關系。再如使用調(diào)查數(shù)據(jù)中的客觀健康問題和健康情景問題等外部信息擬合HOPIT模型對自評健康在研究關鍵變量上的偏誤進行估計和修正。 作者聲明本文無實際或潛在的利益沖突。3 老年人自評健康效度分析結果
4 結論
5 討論與建議
5.1 討論
5.2 建議