谷玉婷 翁 俊 彭志剛
中山大學(xué)附屬第一醫(yī)院,510080 廣東 廣州
病案資料記錄患者全部診療過(guò)程,內(nèi)含客觀且豐富的信息,在醫(yī)療、教學(xué)、科研、法律、社會(huì)保險(xiǎn)等方面都有著重要的作用[1]。隨著醫(yī)療改革的推進(jìn),公立醫(yī)院績(jī)效考核的開(kāi)展,診斷相關(guān)分組(diagnosis related groups,DRGs)付費(fèi)、按病種分值付費(fèi)等政策的實(shí)施,病案在臨床科研、醫(yī)院管理以及醫(yī)療保險(xiǎn)賠付等方面的利用率逐年增加[2],這對(duì)病案的質(zhì)量與應(yīng)用都提出了更高的要求。然而病案管理科以及醫(yī)院其他科室,囿于有限的人力物力,無(wú)法實(shí)現(xiàn)全部病案的質(zhì)檢或調(diào)查,所以通常首選隨機(jī)抽查部分病案,以期能反映整體情況。在實(shí)際工作中,由于相關(guān)工作人員忽視隨機(jī)抽樣的實(shí)踐價(jià)值或缺乏統(tǒng)計(jì)軟件應(yīng)用技能的訓(xùn)練,未能做到有效的隨機(jī)抽樣,從而使病案管理或隨機(jī)調(diào)查的工作效果大打折扣。隨機(jī)抽樣,是指按照隨機(jī)原則從總體中抽取一定數(shù)目的單位作為樣本進(jìn)行觀察。隨機(jī)抽樣使總體中每個(gè)單位都有一定的概率被選入樣本,通過(guò)調(diào)查樣本情況有效推斷總體情況。根據(jù)調(diào)查對(duì)象的性質(zhì)和研究目的的不同, 隨機(jī)抽樣又分為簡(jiǎn)單隨機(jī)抽樣、系統(tǒng)抽樣(等距抽樣)、分層抽樣、整群抽樣、多階段抽樣等[3]。在病案管理中,常用的隨機(jī)抽樣方法為簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣。簡(jiǎn)單隨機(jī)抽樣使每個(gè)樣本有相同的概率被抽中,常用于編碼正確率的抽樣檢查、病案整理工作的質(zhì)量檢查等;若數(shù)據(jù)中存在對(duì)調(diào)查結(jié)果影響較大的因素,則建議按照該因素進(jìn)行分層隨機(jī)抽樣,使各層級(jí)、各類型的病案均能按照工作的要求出現(xiàn)在抽樣獲得的樣本中,常用于四級(jí)病案質(zhì)量檢查、醫(yī)保抽樣檢查等。數(shù)據(jù)分析軟件SAS(statistical analysis system,SAS)是數(shù)據(jù)統(tǒng)計(jì)分析的標(biāo)準(zhǔn)軟件,是國(guó)際上多數(shù)臨床研究學(xué)術(shù)期刊對(duì)涉及隨機(jī)抽樣問(wèn)題時(shí)默認(rèn)的最權(quán)威統(tǒng)計(jì)軟件。本文主要介紹運(yùn)用SAS中的surveyselect過(guò)程實(shí)現(xiàn)這2種隨機(jī)抽樣的方法,基于工作的要求設(shè)置為數(shù)不多的幾個(gè)參數(shù),可在日常病案管理中方便應(yīng)用,從而提升病案管理的規(guī)范性和科學(xué)性。
SAS中的surveyselect過(guò)程可以實(shí)現(xiàn)常用的各種抽樣,包括:?jiǎn)渭冸S機(jī)抽樣、系統(tǒng)隨機(jī)抽樣、分層抽樣、無(wú)限隨機(jī)抽樣 (有替換) 、序貫隨機(jī)抽樣, 以及按規(guī)模大小成比例概率抽樣等[4]。編程時(shí)用method來(lái)指定抽樣模式,包括不放回簡(jiǎn)單隨機(jī)抽樣(simple random samping,SRS)、放回簡(jiǎn)單隨機(jī)抽樣(unrestricted random sampling,URS)和系統(tǒng)抽樣(systematic sampling,SYS);用seed來(lái)設(shè)定隨機(jī)數(shù)種子,若省略則系統(tǒng)默認(rèn)抓取計(jì)算機(jī)時(shí)鐘的當(dāng)時(shí)時(shí)間,轉(zhuǎn)換為SAS系統(tǒng)定義的SAS時(shí)間作為隨機(jī)數(shù)發(fā)生器的種子,在實(shí)踐中為了保證隨機(jī)抽樣結(jié)果的可重現(xiàn)性,可為隨機(jī)數(shù)的發(fā)生設(shè)定一個(gè)種子;通過(guò)n設(shè)定隨機(jī)樣本的數(shù)量,或者samprate設(shè)定抽樣比例;out設(shè)定抽取樣本存放的數(shù)據(jù)集;strata指定分層因素。本文使用的版本為SAS 9.3。
本文以某醫(yī)院病案系統(tǒng)導(dǎo)出“2019年4月”數(shù)據(jù)為例來(lái)說(shuō)明SAS的實(shí)現(xiàn)過(guò)程。該數(shù)據(jù)類型為Excel,有2 183條記錄,8個(gè)變量,包括病案號(hào)、天數(shù)、出院科別、出院日期、是否手術(shù)、是否搶救病人、是否死亡、病例分型。見(jiàn)表1 。
表1 某院2019年4月出院患者
成功導(dǎo)入外部數(shù)據(jù)是SAS數(shù)據(jù)分析成功運(yùn)行的第一步。在病案管理系統(tǒng)中導(dǎo)出的數(shù)據(jù)格式通常為Excel,運(yùn)用proc import語(yǔ)句從外部數(shù)據(jù)源讀取Excel數(shù)據(jù)并將其寫(xiě)入SAS數(shù)據(jù)集的程序如下:
proc import out=a
datafile= "D:舉例2019年4月.xlsx"
dbms=xlsx replace; /*向SAS系統(tǒng)說(shuō)明擬導(dǎo)入數(shù)據(jù)的位置、文件類型和存儲(chǔ)方式*/
getnames=yes; /*將原文檔中的變量名復(fù)制進(jìn)SAS數(shù)據(jù)集*/
options validvarname=any; /*允許沿用原文檔中不符合SAS變量名命名要求的非法字符*/
run;
上述程序中,datafile后面引號(hào)內(nèi)為指定輸入文件“2019年4月”的完整路徑,將上述指定文件轉(zhuǎn)換為SAS格式并輸出到SAS數(shù)據(jù)集a,dbms用來(lái)指定導(dǎo)入文件的類型,該類型需要與文件后綴名保持一致,通常是xlsx、xls、csv等格式的文件,replace表示覆蓋現(xiàn)有的數(shù)據(jù)集。getnames=yes表示以導(dǎo)入數(shù)據(jù)的第一行作為變量名稱。默認(rèn)的SAS命名規(guī)則無(wú)法使用中文等特殊字符作為SAS變量名,可通過(guò)validvarname=any突破此限制。通過(guò)運(yùn)行“run” ,便可將指定輸入文件轉(zhuǎn)換為SAS數(shù)據(jù)。
依據(jù)醫(yī)院上級(jí)部門要求,從2019年4月隨機(jī)抽取100份病案進(jìn)行患者滿意度調(diào)研,程序如下:
data b;
set a;
proc surveyselect data =a method=srs n=100
out=samplesrs;
run; /*采用簡(jiǎn)單隨機(jī)方法隨機(jī)抽取100份病案*/
proc sort data=samplesrs out=samplesrs1;
by 病案號(hào);
run; /*將隨機(jī)抽樣結(jié)果按照病案號(hào)進(jìn)行排序*/
proc print data=samplesrs1(obs=5);
var 病案號(hào) 出院科別 出院日期;
run; /*打印出所獲得病案的所需信息*/
上述程序運(yùn)用proc surveyselect對(duì)數(shù)據(jù)進(jìn)行隨機(jī)抽樣,用method來(lái)限定抽樣方法為簡(jiǎn)單隨機(jī)(SRS);用seed來(lái)設(shè)定隨機(jī)數(shù)種子,此處省略意味著使用計(jì)算機(jī)時(shí)鐘對(duì)應(yīng)的時(shí)間;抽樣的樣本量n設(shè)定為100。隨機(jī)抽樣完成后,將數(shù)據(jù)導(dǎo)出到samplesrs數(shù)據(jù)集。見(jiàn)表2。
表2 對(duì)數(shù)據(jù)集a進(jìn)行簡(jiǎn)單隨機(jī)抽樣的有關(guān)設(shè)置
為方便查看,將隨機(jī)結(jié)果按病案號(hào)升序排序后打印隨機(jī)抽樣結(jié)果,限于篇幅,僅以前5例作為示例,包含變量為病案號(hào)、出院科別和出院日期。見(jiàn)表3。
表3 對(duì)數(shù)據(jù)集a進(jìn)行簡(jiǎn)單隨機(jī)抽樣的結(jié)果(前5例)
分層隨機(jī)抽樣是將樣本總體按照某些重要類別因素(例如病例分型、是否接受手術(shù)等)進(jìn)行分層,然后在各層中運(yùn)用簡(jiǎn)單抽樣或者系統(tǒng)抽樣進(jìn)行樣本抽取。surveyselect過(guò)程通過(guò)在層內(nèi)選擇獨(dú)立樣本來(lái)進(jìn)行分層抽樣,層內(nèi)個(gè)體不重疊出現(xiàn)在調(diào)查總體的亞組中。分層可控制各層樣本大小,廣泛應(yīng)用于調(diào)查個(gè)體多樣的實(shí)踐中[5]。病案來(lái)自不同科室、是否死亡、是否搶救、是否手術(shù)、長(zhǎng)期住院等因素,導(dǎo)致各個(gè)病案之間差異性比較大,采用簡(jiǎn)單隨機(jī)抽樣無(wú)法保證以上各層級(jí)、各類型的病案均能按照工作的要求出現(xiàn)在抽樣獲得的樣本中,這時(shí)可以通過(guò)分層隨機(jī)抽樣抽取更具有代表性的資料,提高總體估計(jì)的合理性。
4.2.1 單個(gè)分層因素
當(dāng)顧及1個(gè)對(duì)調(diào)查結(jié)果有影響的因素時(shí)可采用單個(gè)因素分層。各層內(nèi)抽取的個(gè)體有時(shí)需與總體中層內(nèi)個(gè)體的占比一致,有時(shí)數(shù)目固定,此處選擇各層樣本量為固定值。
依據(jù)上級(jí)部門要求,專項(xiàng)抽查疑難危重病例診治情況,需各科隨機(jī)抽查3份疑難危重病案,程序如下:
data b;
set a;
If 病例分型=‘C’ or 病例分型= ‘D’;
run; /*選擇病例分型符合要求的患者*/
proc tabulate data=b;
class 出院科別;
table 出院科別;
run; /*定義擬選病案的分層依據(jù)是“出院科別”,并簡(jiǎn)略進(jìn)行匯總*/
proc sort data=b;
by 出院科別;
run;
proc surveyselect data=b method=srs n=3 out=samplesrs;
strata 出院科別;
run; /*各科內(nèi)部隨機(jī)選擇3份病案*/
proc print data=samplesrs(obs=10);
var 病案號(hào) 出院科別 出院日期 ;
run; /*打印出所獲得病案的所需信息*/
因上級(jí)部門專項(xiàng)抽查疑難危重病例,所以我們需在疑難危重病例中隨機(jī)抽樣,可通過(guò)if條件語(yǔ)句,選擇病例分型符合要求的患者。因各個(gè)科室疑難危重病例診治情況以及比例不同,采用簡(jiǎn)單隨機(jī)可能使個(gè)別收治比例較低科室隨機(jī)抽樣的樣本數(shù)過(guò)少甚至沒(méi)有隨機(jī)抽樣到,為保證上級(jí)部門對(duì)各科的疑難危重診治情況皆有所掌握,所以擬選病案的分層依據(jù)是“出院科別”,并簡(jiǎn)略進(jìn)行匯總。見(jiàn)表4。
表4 數(shù)據(jù)集a各科室疑難危重病案頻數(shù)分布情況
因proc surveyselect要求輸入數(shù)據(jù)集為按分層變量排序后的數(shù)據(jù)集,所以先用proc sort將數(shù)據(jù)按照“出院科別”進(jìn)行排序,默認(rèn)為升序。然后在每個(gè)層“出院科別”里,采用簡(jiǎn)單隨機(jī)在每個(gè)科室隨機(jī)抽取3人。見(jiàn)表5。
表5 對(duì)數(shù)據(jù)集a按出院科別分層隨機(jī)抽樣的有關(guān)設(shè)置
隨后運(yùn)用proc print 過(guò)程查看前10位結(jié)果。見(jiàn)表6。
表6 對(duì)數(shù)據(jù)集a按出院科別分層隨機(jī)抽樣的結(jié)果(前10例)
4.2.2 多個(gè)分層因素
當(dāng)需要顧及多個(gè)對(duì)調(diào)查結(jié)果有影響的因素時(shí)可采用多個(gè)因素分層,但不建議層數(shù)太多,造成個(gè)別層內(nèi)病例數(shù)太少。個(gè)體基于這些因素將被組合出若干類型,各類型內(nèi)抽取的個(gè)體數(shù)目要求同4.2.1,此處選擇樣本內(nèi)各類型占比與總體中一致。
擬進(jìn)行2019年4月終末質(zhì)控,為如實(shí)反映病案的質(zhì)量問(wèn)題,需要按照是否死亡、是否搶救病人、是否手術(shù)來(lái)進(jìn)行分層抽樣,各種類型均抽取10%的病案,程序如下:
data b;
set a;
proc sort data=b;
by 是否手術(shù) 是否搶救病人 是否死亡;
run; /*指明需要顧及的分層因素并進(jìn)行排序*/
proc tabulate data=b;
class 是否手術(shù) 是否搶救病人 是否死亡;
tables 是否手術(shù)*是否搶救病人*是否死亡;
run; /*各層患者的匯總列表*/
proc surveyselect data =b method = srs samprate=0.1 out = samplesrs;
strata 是否手術(shù) 是否搶救病人 是否死亡;
run; /*各類型患者內(nèi)均隨機(jī)抽取10%的比例*/
proc tabulate data=samplesrs;
class 是否手術(shù) 是否搶救病人 是否死亡;
tables 是否手術(shù)*是否搶救病人*是否死亡;
run; / *對(duì)抽樣獲得病例的列表形式*/
proc print data=samplesrs(obs=10);
var 病案號(hào) 出院科別 出院日期 ;
run; /*打印出所獲得病案的所需信息*/
在進(jìn)行病案的質(zhì)量檢查工作中,患者是否手術(shù)、是否經(jīng)過(guò)搶救、結(jié)局是否死亡等不同情況的病案,其書(shū)寫(xiě)的難易程度以及書(shū)寫(xiě)的內(nèi)容均有所不同,若采用簡(jiǎn)單隨機(jī),可導(dǎo)致一些占比較低卻非常重要的病案如“死亡病案”隨機(jī)抽樣得到的例數(shù)過(guò)低。為保證各種情況的病案均有一定的比例被抽取到,檢查的結(jié)果更具有代表性,將數(shù)據(jù)按照 “是否手術(shù)”“是否搶救病人”“是否死亡”進(jìn)行分層,每一層的抽樣比例相等,均為10%。見(jiàn)表7。
表7 對(duì)數(shù)據(jù)集a兼顧3因素實(shí)施分層隨機(jī)抽樣的有關(guān)設(shè)置
通過(guò)proc tabulate列表查看各層的抽樣情況,通過(guò)proc print顯示前10位的抽樣結(jié)果。見(jiàn)表8。
表8 對(duì)數(shù)據(jù)集a兼顧3因素實(shí)施分層隨機(jī)抽樣的結(jié)果(前10例)
在病案的日常管理中,不少所謂的隨機(jī)抽查實(shí)際上是主觀意志決定選擇的樣本,為了節(jié)省時(shí)間,抽查者傾向于選擇內(nèi)容簡(jiǎn)略或取閱方便的病案,這樣抽取的數(shù)據(jù)對(duì)總體不具有代表性,調(diào)查或者質(zhì)檢的結(jié)果難以
如實(shí)反映整體的情況。當(dāng)涉及質(zhì)控評(píng)分或者獎(jiǎng)罰問(wèn)題時(shí),這種主觀意志決定的隨意抽查往往造成選擇性偏倚,會(huì)導(dǎo)致一些醫(yī)生經(jīng)常被抽到而另一些極少被抽到,抽查的隨機(jī)性和公平性會(huì)受到質(zhì)疑。也有運(yùn)用隨機(jī)數(shù)字表進(jìn)行隨機(jī)抽樣,但只適合少量的樣本,在面對(duì)大量的病案隨機(jī)抽樣時(shí),效率非常低下。通常為保證所抽查到的病案包含一定比例的死亡、搶救等信息,往往需要將數(shù)據(jù)單獨(dú)導(dǎo)出,反復(fù)權(quán)衡,兼顧數(shù)量和公平性等,導(dǎo)致病案抽取的進(jìn)度緩慢,效率低下。
Excel亦可實(shí)現(xiàn)病案的隨機(jī)抽樣,利用函數(shù)rand()、randbetween()結(jié)合其他函數(shù)index()、if()、large()、small()等實(shí)現(xiàn)簡(jiǎn)單隨機(jī)或系統(tǒng)隨機(jī),分層隨機(jī)需結(jié)合高級(jí)篩選功能[6],或結(jié)合Excel VBA編程完成[7]。也可通過(guò)加載“分析工具庫(kù)”,在“數(shù)據(jù)分析”中的“分析工具”選擇抽樣,由于內(nèi)置的抽樣功能只能實(shí)現(xiàn)間隔和隨機(jī)2種抽樣方法,且在隨機(jī)抽樣中僅能實(shí)現(xiàn)有放回抽樣,因此使用起來(lái)不夠靈活[6]。綜上所述,雖然Excel相對(duì)其他軟件更容易獲得,適合不熟悉SAS軟件人員使用,但遠(yuǎn)遠(yuǎn)不如統(tǒng)計(jì)分析軟件SAS高效快捷。SAS中的surveyselect過(guò)程可以實(shí)現(xiàn)多種抽樣,足以滿足病案隨機(jī)抽樣的要求。在病案的日常應(yīng)用中,只需更改所需的參數(shù),即可滿足多種抽樣要求,能快速獲得準(zhǔn)確反應(yīng)整體情況的病案樣本,簡(jiǎn)化病案抽查過(guò)程,提高病案質(zhì)控和管理的效率和質(zhì)量。
新的信息環(huán)境對(duì)病案管理提出了新的要求,如何將現(xiàn)代化技術(shù)與病案信息相結(jié)合,同時(shí)確保病案信息的完整與安全,更好地提煉加工病案的醫(yī)療信息,進(jìn)行質(zhì)量控制以及反饋指導(dǎo)臨床工作是當(dāng)今病案管理工作的要點(diǎn)[8]。以數(shù)據(jù)為導(dǎo)向進(jìn)行管理將更加科學(xué)和精準(zhǔn),將合理采集與預(yù)處理資料的思路、方法以及軟件納入到病案管理中,可進(jìn)一步提高病案管理的工作水平。
中國(guó)醫(yī)院統(tǒng)計(jì)2021年4期