陳千吉,陳紅,張英,萬穎,周彥吉,安易,孫亞男,于長禾*
隨著“生理-心理-社會”醫(yī)學模式發(fā)展,近年來患者價值觀受到越來越多的關注。患者報告結局(patient-reported outcome,PRO)從患者視角出發(fā),是根據(jù)患者對自身健康狀況的主觀感受來評估疾病及后果的結局指標[1],也是評價臨床療效或結局指標的重要組成部分。患者報告結局測量工具(Patient-Reported Outcome Measures,PROMs)是評價與量化PRO 的工具,在國內應用廣泛。根據(jù)PROMs 來源,大致可將其分為譯制工具和研制工具兩類,其中譯制工具因發(fā)展較成熟、使用時間較長、經(jīng)濟成本較低等原因而占比較大,但不論是譯制工具還是研制工具,均存在性能評價欠規(guī)范(樣本量小、地區(qū)局限)、不全面等問題[2],會影響臨床研究數(shù)據(jù)的可靠性。此外,PROMs 數(shù)量眾多,同一PRO 可對應幾種甚至幾十種PROMs,阻礙了研究結果的合并分析與醫(yī)療經(jīng)驗的共建共享。因此,如何選擇符合研究目的和實際情況的PROMs 成為臨床研究中亟待解決的問題之一。
2005 年,來自全球21 個國家的158 名流行病學、心理測量學、定性研究和衛(wèi)生保健學等學科或領域專家成立了基于共識健康測量工具的選擇標準(COnsensus-based Standards for the selection of health Measurement INstruments,COSMIN)工作組以幫助臨床研究人員和醫(yī)務工作者選擇最合適的結局指標測量工具[3]。COSMIN 工作組定義并分類了測量性能、規(guī)范測量性能臨床測定研究設計、研發(fā)測量性能系統(tǒng)評價指南,為結局指標測量工具的選擇提供了參考標準與依據(jù),有助于提高臨床研究和實踐的證據(jù)級別。
鑒于PRO 主觀性較強、PROMs 的質量對于PRO 客觀化意義非凡、良好的測量性能是PROMs 應用的基本前提條件,本研究參考COSMIN 并以中國腰痛患者日常生活活動能力量表(Activity of Daily Living Scale,ADLS)的選擇為例,探討PROMs 選擇路徑,以期為提高臨床研究數(shù)據(jù)的客觀性、真實性及科學性提供參考。
2006—2007 年進行的第1 次COSMIN 工作組德爾菲會議就PROMs 測量性能的術語和定義達成了共識[4],并將PROMs 測量性能分為信度(reliability)、效度(validity)、反應度(responsiveness)3 大類,且每類包含1 個或多個子性能。信度包含內部一致性(internal consistency)、信度、測量誤差(measurement error)3 個子性能,其中信度主要包含復測信度(test-retest reliability)、評分者間信度(interrater reliability)、評分者內部信度(intra-rater reliability)。效度包含內容效度(content validity)、構建效度(construct validity)、效標效度(criterion validity)3 個子性能,其中內容效度主要包含表面效度(face validity),構建效度主要包含結構效度(structural validity)、假設檢驗(hypotheses testing)、跨文化效度(cross-cultural validity)。反應度只包含反應度本身這一測量特性。此外,可解釋性(interpretability)雖不屬于測量性能,但也是應用PROMs 時需考評的重要內容。
PROMs 選擇路徑主要包含以下5 項主要內容:全面檢索判斷是否已有工具、研制/譯制工具、工具測量性能研究、系統(tǒng)評價、改編工具(圖1)。日常生活活動能力是臨床常用的腰痛患者結局指標之一,主要反映腰痛對患者彎腰、站立、平躺、坐、步行能力、長時間單一體位等的影響。本研究以中國腰痛患者ADLS 的選擇為例闡述PROMs 選擇路徑(圖2)。
圖1 PROMs 選擇路徑Figure 1 Selection path of PROMs
圖2 中國腰痛患者ADLS 的選擇路徑Figure 2 Selection path of ADLS for Chinese patients with low back pain
2.1 全面檢索判斷是否已有工具 針對目標人群進行全面檢索、獲取工具并判斷是否已有工具可以測量感興趣的待測結構。全面獲取現(xiàn)有PROMs 的方式主要包括系統(tǒng)評價與文獻檢索,其中系統(tǒng)評價方式可使研究者通過時間較新、質量較高的系統(tǒng)評價查找PROMs,而文獻檢索方式可使研究者根據(jù)待測結構、目標人群、工具類型、測量性能檢索相應文獻,因此兩種方式可以互相補充。此外,COSMIN 工作組已建立了COSMIN 結局指標測量工具系統(tǒng)評價數(shù)據(jù)庫(http://database.cosmin.nl)以收集相關文獻。
限定疾病為腰痛、目標人群為中國人、研究內容為量表測量性能、檢索時間為建庫至2020-07-02,分別檢索中國知網(wǎng)、萬方數(shù)據(jù)知識服務平臺、中國生物醫(yī)學文獻服務系統(tǒng)(SinoMed)、PubMed、EMBase、Web of Science 共發(fā)現(xiàn)123篇文獻,之后手工篩選出關于日常生活活動能力測量工具的文獻1 篇[5],確定目標工具為日常生活活動能力恢復(Recovery of Activities of Daily Living,RADL)量表。RADL 量表由加拿大學者WILLIAMS 和MYERS 針對急性腰痛受傷工人日常生活活動能力而制訂,主要包括以下12 個條目:睡眠、性活動、自我照顧、輕松家務活、繁重家務活、購物、家中社交活動、家外社交活動、<30 min 的旅行、>1 h 的旅行、娛樂活動、職業(yè)活動[5]。
限定工具為ADLS、疾病為肌肉骨骼系統(tǒng)和結締組織疾病及相關癥狀、檢索時間為建庫至2020-07-02,通過在COSMIN 結局指標測量工具系統(tǒng)評價數(shù)據(jù)庫中進行檢索共發(fā)現(xiàn)29 項系統(tǒng)評價,排除目標人群非中國人、疾病或相關癥狀非腰痛的系統(tǒng)評價并進行手工篩選后,最終未發(fā)現(xiàn)符合條件的系統(tǒng)評價。
2.2 譯制工具 如檢索到目標工具在非中國地區(qū)已有臨床試驗證明其具有優(yōu)良的測量性能但尚無規(guī)范中文譯制版本,則研究人員可以引進該工具并譯制。譯制工具前應獲得原作者書面授權,且譯制過程不是簡單的翻譯工作,而是需要多學科研究人員的合作。徐軍等[5]對原外文RADL量表進行了漢化,但未描述具體過程,而COSMIN 僅對跨文化調適研究設計提供了建議,暫無譯制指南。因此,本研究參考COSMIN 及針對跨文化改編工具的國際指南[6]對原外文RADL 量表的譯制過程進行簡單總結如下。
2.2.1 正向翻譯 針對跨文化改編工具的國際指南[6]建議由2 名翻譯人員獨立完成正向翻譯,其中1 名翻譯人員(以漢語為母語的研究人員)最好事先了解整個目標工具譯制情況、具備一定醫(yī)學背景,以確保準確地表達出語言的真實含義;另1 名翻譯人員應當不被告知整個譯制計劃且不具備醫(yī)學背景,主要從語言、文字角度進行翻譯。因此,正向翻譯環(huán)節(jié)會形成2 份正譯版本。
2.2.2 第1 次比較討論 2 名正向翻譯人員分別與具備多年臨床經(jīng)驗并熟練掌握原外文RADL 量表語言的臨床醫(yī)生討論原版本與2 份正譯版本,商榷2 份正譯版本的不確定之處并從醫(yī)學和語言學兩個角度進行權衡,得出最合理的翻譯版本,即綜合正譯版本。
2.2.3 逆向翻譯 逆向翻譯由2 名母語是原外文RADL 量表語言的翻譯人員獨立完成,要求這2 名翻譯人員此前未見過原外文RADL 量表且對譯制計劃不知情、不具備醫(yī)學背景,以確保之前的正譯版本沒有違背原版本的真實含義。因此,逆向翻譯環(huán)節(jié)也會形成兩份回譯版本。
2.2.4 第2 次比較討論 2 名逆向翻譯人員分別與具備多年臨床經(jīng)驗并熟練掌握原外文RADL 量表語言的臨床醫(yī)生討論原版本與2 份回譯版本,商榷2 份回譯版本的不確定之處并從醫(yī)學和語言學兩個角度進行權衡,得出最合理的翻譯版本,即綜合回譯版本。
2.2.5 最終討論 由所有參加譯制計劃的翻譯人員、臨床醫(yī)生、專家組(最好能邀請原外文RADL 量表作者)一起對綜合正譯版本、綜合回譯版本同原版本進行逐句逐詞的比較、討論,形成最終版本。
2.2.6 初步研究 初步研究指進行認知訪談和等價性考驗,其中認知訪談的目的是評定每個條目與患者對病情體驗的相關性、全面性和可理解性,以及譯制工具的說明、條目、應答選項和回憶期的合理性;等價性考驗指在目標人群中進行測量性能驗證,并判斷譯制工具與原外文RADL 量表相比是否出現(xiàn)不可接受的變化。劉保延[7]研究認為,等價性考驗應包含概念、應答尺度、條目、語義、語言、操作、測量及功能的等價性。
2.3 工具測量性能研究 工具譯制完成后,需判斷是否有相關工具測量性能研究及測量性能研究是否全面,如答案為否,則應開展工具測量性能研究。為收集高質量臨床數(shù)據(jù),可參考COSMIN 偏倚風險清單[7]中的相關條目開展工具測量性能研究,如在分析某譯制工具重測信度時,在研究設計層面,患者待測結構在兩次測量時間內應保持穩(wěn)定、2 次測量間隔時間應長短合適、兩次測量條件(環(huán)境、人員)應相似等;在數(shù)據(jù)處理方面,不同類型的變量應選擇合適的統(tǒng)計分析方法并明確說明脫落樣本的處理方式等。徐軍[5]分析了RADL 量表的重測信度、內部一致性、聚合效度,但未分析其內容效度、構建效度、反應度,因此RADL 量表測量性能研究尚不全面。
2.4 系統(tǒng)評價 對于已有測量性能研究的譯制工具,需判斷是否有系統(tǒng)評價,若有系統(tǒng)評價,則進一步判斷該系統(tǒng)評價結果是否可以直接參考:如該系統(tǒng)評價發(fā)表日期較近或暫無新的研究證據(jù)出現(xiàn),則可以直接參考;如該系統(tǒng)評價發(fā)表日期較久遠或發(fā)表日期較近但研究質量不高、結果可靠性低或有新的研究證據(jù)出現(xiàn),則應采用目前較為公認的研究方法、納入新的研究證據(jù)更新系統(tǒng)評價。若無相關系統(tǒng)評價,則建議根據(jù)COSMIN 系統(tǒng)評價指南開展系統(tǒng)評價以判斷該工具是否可以推薦應用于臨床。
COSMIN 系統(tǒng)評價指南共包括3 個部分10 個步驟,其中第1 部分包括描述研究目的、制定納入與排除標準、文獻檢索、文獻篩選4 個步驟;第2 部分為測量性能評價,包括評價內容效度、內部結構、其余測量性能3 個步驟;第3 部分包括評價可解釋性與可行性、對測量工具的使用做出建議、撰寫研究報告3 個步驟。需要指出的是,在文獻檢索、文獻篩選步驟,COSMIN 系統(tǒng)評價指南還針對常用數(shù)據(jù)庫(PsycInfo、EMBase、CINAHL、Medline)開發(fā)了工具測量性能研究過濾器,研究人員可利用該過濾器高效、全面地檢索相關文獻。
COSMIN 系統(tǒng)評價指南建議每種測量性能評價均可以分為研究方法學質量評價、測量性能評價、證據(jù)綜合與證據(jù)質量分級3 個方面,因此本研究重點介紹COSMIN 系統(tǒng)評價指南的第2 部分。
2.4.1 研究方法學質量評價 研究方法學質量評價主要從研究設計和統(tǒng)計學方法兩個方面進行評價。參考“COSMIN 偏倚風險檢查表”[8]中的條目,可以對每項研究的方法學質量進行評價,且每種測量性能研究對應偏倚風險均可以被評為“非常好”“足夠”“不確定”或“不足”,每項研究方法學質量的總體評分是根據(jù)條目最低評分確定的,即“最低評級”原則。需要注意的是,如一項研究同時評價了幾種測量性能,則應把每種測量性能研究看作一項單獨的研究并多次填寫“COSMIN 偏倚風險檢查表”。依據(jù)“COSMIN 偏倚風險檢查表”,徐軍等[5]進行的RADL 量表重測信度研究的方法學質量評級為“不足”,內部一致性研究的方法學質量評級為“非常好”,聚合效度(對比工具為Roland-Morris 失能問卷)的方法學質量評級為“不確定”。
2.4.2 測量性能評價 首先,根據(jù)“良好內容效度的10 條評價標準”[9]對每項研究內容效度進行評價,其中標準1~5 是對相關性的評價,標準6 是對全面性的評價,標準7~10 是對內容可理解性的評價,每條標準評價結果分為充分(+)、不足(-)或不確定的(?)。其次,根據(jù)“單個研究內容效度相關性、全面性、可理解性的評級指南”[10]將相關性、全面性、可理解性評為充分(+)、不足(-)、不一致(±)或不確定的(?)。再次,根據(jù)“單個研究內容效度評定指南”[10]對內容效度進行總體評價,評價結果分為充分(+)、不足(-)、不一致(±)或不確定的(?)。其他測量性能的評價參照“更新測量性能優(yōu)劣評價標準”[11-12],評價結果分為充分(+)、不足(-)或不確定的(?)。參照上述標準,徐軍[5]進行的RADL 量表重測信度研究評價結果為“充分”,內部一致性研究評價結果也為“充分”,聚合效度(對比工具為Roland-Morris 失能問卷)研究評價結果為“不確定的”。
2.4.3 證據(jù)綜合與證據(jù)質量分級
2.4.3.1 證據(jù)綜合 判斷每個測量性能研究的所有可用研究結果是否一致,如結果一致,則研究結果可定量匯總或定性總結,并與良好測量性能的標準進行比較以確定測量工具的測量性能在總體上是充分的(+)、不足的(-)、不一致的(±)還是不確定的(?);如結果不一致,則可進行亞組分析或根據(jù)大多數(shù)一致的研究結果得出結論,并因不一致性而降低證據(jù)質量分級。由于關于RADL 量表測量性能的臨床研究僅有1 項[5],因此本研究未進行證據(jù)綜合。
2.4.3.2 證據(jù)質量分級 證據(jù)質量分為高質量、中等質量、低質量、極低質量4 級。根據(jù)“改進GRADE 證據(jù)質量評級標準”[13],假設證據(jù)質量分級為“高質量”,則應考慮偏倚風險、不一致性、不準確性、間接性并對證據(jù)質量進行降級處理,具體如下。
2.4.3.2.1 偏倚風險 (1)至少有多項中等質量研究,或有1項高質量研究時考慮無偏倚風險,不需進行降級;(2)多項研究證據(jù)質量分級為低質量或僅有1 項為中等質量時,考慮存在嚴重偏倚風險,應將證據(jù)質量分級降1 級;(3)多項研究證據(jù)質量分級為極低質量或僅有1 項低質量研究時,視為存在非常嚴重偏倚風險,應將證據(jù)質量分級降2 級;(4)僅有1 項極低質量研究時,視為存在極其嚴重偏倚風險,應將證據(jù)質量分級降3 級。考慮徐軍[5]進行的RADL 量表重測信度研究存在極其嚴重偏倚風險,內部一致性研究無偏倚風險,聚合效度(對比工具為Roland-Morris 失能問卷)研究存在非常嚴重偏倚風險,因此其證據(jù)質量分級分別降3、0、2 級。
2.4.3.2.2 不一致性 (1)各項研究結果的不一致性如可以通過亞組進行分析,則不需進行降級;(2)如發(fā)現(xiàn)不一致性無法解釋、決定不匯總研究結果并將研究結果評定為“不一致”,那么就不會給出證據(jù)質量分級,也就不存在降級處理;(3)如不一致性無法解釋并將匯總的研究結果(如基于大多數(shù)結果)評為中等質量或低質量時,則需將證據(jù)質量分級降1或2 級。由于關于RADL 量表測量性能的臨床研究僅有1 項[5],因此未因不一致性降低證據(jù)質量分級。
2.4.3.2.3 不準確性 不準確性主要考慮匯總研究總樣本量是否合適,當匯總研究總樣本量低于100 時,證據(jù)質量分級降1級;當匯總研究總樣本量低于50 時,證據(jù)質量分級降2 級。對于有樣本量要求的測量性能(即內容效度、結構效度和跨文化效度)研究的偏倚風險,不考慮不準確性。徐軍[5]進行的RADL 量表重測信度研究總樣本量低于50,因此證據(jù)質量分級降2 級;內部一致性和聚合效度(對比工具為Roland-Morris 失能問卷)研究總樣本量均低于100,因此證據(jù)質量分級均降1 級。
2.4.3.2.4 間接性 納入研究(部分)若在非目標人群或其他使用環(huán)境中進行,則可能出現(xiàn)間接性。如樣本中僅有部分患者患有限定疾病,則間接性為嚴重或非常嚴重,證據(jù)質量分級降1 或2 級。因此,徐軍[5]進行的RADL 量表重測信度、內部一致性、聚合效度(對比工具為Roland-Morris 失能問卷)研究無間接性。
綜合考慮偏倚風險、不一致性、不準確性、間接性,則徐軍[5]進行的RADL 量表重測信度、內部一致性、聚合效度(對比工具為Roland-Morris 失能問卷)研究證據(jù)質量分級分別為極低質量、中等質量、極低質量(表1)。因此,RADL 量表對中國腰痛患者總體測量性能的系統(tǒng)評價結果為:有極低質量證據(jù)證明RADL 量表重測信度是充分的,中等質量證據(jù)證明其內部一致性是充分的,極低質量證據(jù)證明其聚合效度是不確定的。
表1 RADL 量表系統(tǒng)評價[5]的改進GRADE 證據(jù)質量評級Table 1 Evidence quality of systematic reviews of RADL Scale based on modified GRADE approach
2.4.4 依據(jù)系統(tǒng)評價結果形成推薦意見 COSMIN 系統(tǒng)評價指南建議針對目標人群和待測結構將PROMs 分為A 類、B 類、C 類,其中A 類指有充分的內容效度證據(jù)(任何級別)和至少有充分的內部一致性低質量證據(jù)的項目管理,可以被推薦應用,且獲得的測量結果具有較高的可信度;C 類指有高質量證據(jù)證明測量性能不足,不建議應用;不屬于A 類或C 類則歸為B 類,有可能被推薦應用,但需要進一步研究來評估其測量性能。如在系統(tǒng)評價中僅發(fā)現(xiàn)被歸為B 類的PROMs,那么在提供進一步證據(jù)之前,應暫時推薦內容效度最好的PROMs。RADL 量表系統(tǒng)評價[5]證實其暫不能被推薦使用,因此根據(jù)PROMs 選擇路徑,下一步應改編工具或研制工具。
2.5 改編工具 對于COSMIN 系統(tǒng)評價結果未推薦使用的PROMs,可進行調適、改編,且通常情況下這比研制新工具節(jié)約成本。美國食品藥品監(jiān)督管理局(Food and Drug Administration,F(xiàn)DA)指出,PROMs 研發(fā)和性能測試充分性的關鍵在于其研發(fā)時所預設的條件,如目標人群、填寫條件等,而改編PROMs 后,通常還需提供研究證據(jù)以證明新PROMs的質量,但這不代表實際應用或格式的每次細微調整均需要進行大量研究,如將PROMs 從紙質版更改為電子版,在就診期間更改PROMs 的時間安排或應用程序,更改條目順序、措辭、應答選項,更改PROMs 召回期限或刪除調查表的某些內容,更改PROMs 填寫指示或其放置位置等;此外,根據(jù)所做改編類型,開展相關定性工作也許就已足夠[1]。
2.6 研制工具 如未檢索到目標工具,則應進入研制工具環(huán)節(jié),但COSMIN 工作組暫未形成PROMs 研制指南。2009 年FDA 發(fā)布的《行業(yè)指導患者報告的結果:用于支持標簽聲明的醫(yī)療產品開發(fā)患者報告結局的指導》是目前臨床研究人員最常參考的PROMs 研制指南[1],該指南中將研制工具分為5 個步驟:(1)預設概念框架;(2)調整概念框架和起草初版工具;(3)確定概念框架和評價測量性能;(4)收集、分析及解釋數(shù)據(jù);(5)修訂工具。同時,F(xiàn)DA 將研制工具過程視為循環(huán)向前的過程,需不斷地根據(jù)實際情況修改、更新以適應新的變化,改編或新研制的工具需進一步完善質量評價、收集證據(jù),并通過系統(tǒng)評價判斷其是否能被推薦應用。
2.6.1 預設概念框架 預設概念框架即將抽象概念轉化可測量的具體指標的過程,包括確定目標人群、確立預期應用類型和特點(如評分形式、使用頻率及管理模式)、開展專家訪談、發(fā)展預設概念框架、記錄初始量表研發(fā)過程等步驟。
2.6.2 調整概念框架和起草初版工具 調整概念框架和起草初版工具包括獲取患者信息、生成新條目、選擇回憶時間和應答選項及格式、選擇管理和信息收集模式、開展患者認知訪談、對初步形成的工具進行試點檢測、記錄內容效度等。
2.6.3 確定概念框架和評價測量學性能 確定概念框架和評價測量學性能指確定附有評分規(guī)則的概念框架并評估分數(shù)的信度、結構效度、檢測變化能力,最后再確定工具的內容、形式、評分、程序、培訓材料并記錄工具的研發(fā)過程。
2.6.4 收集、分析及解釋數(shù)據(jù) 收集、分析及解釋數(shù)據(jù)包括起草方案和統(tǒng)計分析,收集和分析數(shù)據(jù),評估治療反應、累積分布和響應者定義,記錄相關聲明的治療益處。
2.6.5 修訂工具 修訂工具包括更改條目的語言表達、目標人群、應答選項、回憶時間或管理模型或數(shù)據(jù)收集方法,翻譯和進行其他語言的文化調試,評估更改是否恰當并記錄所有更改。
本研究參考COSMIN 并以中國腰痛患者ADLS 的選擇為例,探討PROMs 選擇路徑,發(fā)現(xiàn)PROMs 選擇路徑主要包含5項主要內容,即全面檢索判斷是否已有工具、研制/譯制工具、工具測量性能研究、系統(tǒng)評價、改編工具,其中系統(tǒng)評價是PROMs 選擇路徑中的關鍵;同時,PROMs 的選擇并非“一蹴而就”,而是一個循環(huán)向前的過程。
對于PROMs 選擇路徑的推廣,筆者考慮其難點主要有以下3 個方面:(1)PROMs 選擇路徑內容、步驟繁多,臨床研究人員參照該路徑選擇合適的PROMs 時操作負擔較大;(2)COSMIN 中的系統(tǒng)評價是PROMs 選擇路徑的關鍵步驟,國內雖已有研究團隊對其進行介紹、引進[14-16],但現(xiàn)階段其應用尚不廣泛;(3)PROMs 的改編、譯制及研制均需多學科研究人員參與、成本高。因此,臨床研究人員未來應重點推廣PROMs 系統(tǒng)評價技術并廣泛開展針對不同目標人群、病種的PROMs 系統(tǒng)評價;PROMs 改編、譯制及研制應讓更多的多學科科研人員參與以幫助一線PROMs 使用人員高效、便捷地選擇出合適的PROMs;注重提高PROMs 相關研究質量以更好地提高臨床研究數(shù)據(jù)的客觀性、真實性及科學性。
作者貢獻:陳千吉進行文獻/資料收集、整理,撰寫論文;陳紅、孫亞男、于長禾進行文章的構思、研究的設計與可行性分析;張英、萬穎進行論文及英文的修訂;周彥吉、安易進行文章的質量控制及審校;于長禾對文章整體負責,監(jiān)督管理。
本文無利益沖突。