臧雷振 王 棟
在社會科學(xué)研究中,調(diào)查是數(shù)據(jù)采集和學(xué)術(shù)分析的事實根據(jù),首肯心折的研究成果與一絲不茍的社會調(diào)查相輔相成??梢哉f,社會調(diào)查是復(fù)寫宏觀世界的微縮藝術(shù),借用日常生活中的“觀察者之眼”,來為研究者、政策實踐者、社會公眾認(rèn)知和改造世界的行動提供佐證。不過,并非所有社會調(diào)查都值此殊榮,其質(zhì)量差異將影響人們走出信息迷宮、步入真理殿堂的概率。因此,保證社會調(diào)查的質(zhì)量是研究深化的基礎(chǔ)和前提。然而,不同于產(chǎn)品和服務(wù)的質(zhì)量可由國際標(biāo)準(zhǔn)化組織(ISO)來評估認(rèn)證,社會調(diào)查質(zhì)量的內(nèi)涵和衡量標(biāo)準(zhǔn)尚未在學(xué)術(shù)界達(dá)成共識。
當(dāng)前,根據(jù)研究者在社會調(diào)查中的多元身份,可以從三個層次來理解社會調(diào)查質(zhì)量。(1)對于一般的數(shù)據(jù)生產(chǎn)型研究者來說,即大多數(shù)社會調(diào)查的發(fā)起人和調(diào)查數(shù)據(jù)的提供者,社會調(diào)查質(zhì)量是用最低成本減少整體性調(diào)查誤差,并使調(diào)查結(jié)果最接近社會真實,其關(guān)注的重點是各種誤差來源和表現(xiàn)。(2)對于從政府統(tǒng)計公報、商業(yè)調(diào)查報告和科研院所數(shù)據(jù)庫等直接獲取社會信息的消費型研究者來說,社會調(diào)查質(zhì)量意味著適合預(yù)期用途,其首要考慮的是調(diào)查結(jié)果的準(zhǔn)確性、完整性、及時性、可解釋性等。(3)對于關(guān)照消費型研究者需求的生產(chǎn)型研究者來說,社會調(diào)查質(zhì)量指全面調(diào)查質(zhì)量,其除了留意結(jié)果質(zhì)量(誤差大小和適用性)外,還要將調(diào)查全流程納入質(zhì)量控制,使社會調(diào)查全員、全過程、全方位的評價都令人滿意。
全面社會調(diào)查質(zhì)量概念的提出同社會科學(xué)研究所面臨的兩場信任危機不無關(guān)聯(lián)。一方面,事關(guān)社會科學(xué)研究的可靠性和純潔性。自“數(shù)據(jù)密集型”范式進(jìn)入社會科學(xué)研究以來,社會調(diào)查產(chǎn)生的小數(shù)據(jù)的影響力和應(yīng)用范圍亦被不斷強化,并在數(shù)據(jù)集成的趨勢下,同大數(shù)據(jù)加深融合。但這也意味著如果不對社會調(diào)查質(zhì)量提出更高的控制要求,其將以前所未有的可能性摧毀任何數(shù)據(jù)驅(qū)動型或數(shù)據(jù)關(guān)聯(lián)研究的根基。另一方面,事關(guān)社會科學(xué)研究的可復(fù)制性和透明度。普遍存在且更易被發(fā)表和引用的不可復(fù)制研究,(1)Marta Serra-Garcia, Uri Gneezy,“Nonreplicable Publications are Cited more than Replicable Ones”, Science Advances, Vol.7, No.21, 2021.雖然不能與學(xué)術(shù)不端和欺騙畫等號,但很可能會使研究者被迫放棄不夠“有趣”但結(jié)果可復(fù)制的研究,這樣既無法達(dá)成初學(xué)者借助復(fù)制來習(xí)得研究方法的目的,也更難從復(fù)制過程中偶得學(xué)術(shù)創(chuàng)新。不過,全面社會調(diào)查質(zhì)量的數(shù)據(jù)生產(chǎn)和管理思路,或許能提高實現(xiàn)數(shù)據(jù)歸檔的可能性,從而確保數(shù)據(jù)的二次分析和研究的可復(fù)制性,并增強社會科學(xué)研究的透明度。(2)Alexander Jedinger, Oliver Watteler, André F?rster,“Improving the Quality of Survey Data Documentation: A Total Survey Error Perspective”, Data, Vol.3, No.4, 2018, p.45.
然而,不容樂觀的是,社會調(diào)查質(zhì)量的保證之路并非一帆風(fēng)順。一方面,由于社會發(fā)展不確定性增加,致使個體主觀意識復(fù)雜化,這造成了更多新興的、隱蔽的調(diào)查誤差;另一方面,在不同質(zhì)量進(jìn)路下,方法設(shè)計者對配套工具的“火力不足綜合癥”,同方法應(yīng)用者對手段技術(shù)的“選擇困難癥”之間存在矛盾。在此多重壓力下,本文將融合提高社會調(diào)查質(zhì)量的多元路徑,以減少整體性調(diào)查誤差為目標(biāo),以增強調(diào)查結(jié)果的適用性為宗旨,以加強對調(diào)查全流程的質(zhì)量控制為手段,制定全面社會調(diào)查質(zhì)量保證框架,從而應(yīng)對潛在的社會科學(xué)研究的信任危機。
自社會調(diào)查誕生之日起,調(diào)查誤差就伴隨其左右,并表現(xiàn)為降低社會調(diào)查信度和效度的各種偏誤。研究者對調(diào)查誤差的關(guān)注,經(jīng)歷了從對具體現(xiàn)象的觀察歸納,到抽象化的類型學(xué)劃分,(3)W.Edwards Deming,“On Errors in Surveys”, American Sociological Review, Vol.9, No.4, 1944, pp.359-369.再到一種注重平衡成本與效果的整體全面觀,即減少整體性調(diào)查誤差。盡管此質(zhì)量進(jìn)路不太關(guān)照用戶需求,造成了過重的調(diào)查設(shè)計負(fù)擔(dān),(4)Robert M.Groves, Lars Lyberg,“Total Survey Error: Past, Present, and Future”, Public Opinion Quarterly, Vol.74, No.5, 2010, pp.849-879.但仍為本文匯編誤差清單尤其是非隨機誤差清單,提供了完備的視角和資料。本文將在此路徑的指導(dǎo)下,按照社會調(diào)查流程(組織、過程和結(jié)果)對無所不在又避影匿行的調(diào)查誤差進(jìn)行識別、分析和歸類,以配合后續(xù)其他質(zhì)量進(jìn)路的良好運行。
在社會調(diào)查的組織環(huán)節(jié),調(diào)查誤差表現(xiàn)為無效的團隊和漏洞百出的方案。組建調(diào)查團隊時,生產(chǎn)型研究者受到檸檬效應(yīng)(Lemon Effect)心理的影響,寧可招募廉價成員也不愿意被高價成員偶爾的低質(zhì)行為欺騙;而廉價成員往往會通過犧牲調(diào)查質(zhì)量,來彌補其預(yù)期收入同實際收益間的差距;再加上資歷審核與崗前培訓(xùn)環(huán)節(jié)的缺失,使本就不會調(diào)查的成員更加手足無措;于是,彼此不信任甚至低士氣的調(diào)查團隊早已失去完成高質(zhì)量社會調(diào)查的可能。更不要說,還有一套漏洞百出的調(diào)查方案:樣本選擇不合理,在抽樣框編制、樣本量確定和抽樣實操等方面存在誤差;問卷設(shè)計不科學(xué),問題表述抽象、含糊、有傾向,(5)風(fēng)笑天:《社會調(diào)查中的問卷設(shè)計》,中國人民大學(xué)出版社2014年版,第137—143頁。問卷過長(6)Mirta Galesic, Michael Bosnjak,“Effects of Questionnaire Length on Participation and Indicators of Response Quality in a Web Survey”, Public Opinion Quarterly, Vol.73, No.2, 2009, pp.349-360.等;調(diào)查方式不匹配,如在原始部落使用智能調(diào)查工具;缺少對意外事件的應(yīng)對措施,如無法及時召回在惡劣天氣中工作的調(diào)查者。
在社會調(diào)查的過程環(huán)節(jié),調(diào)查誤差表現(xiàn)為調(diào)查者欺騙和受訪者敷衍。其中,調(diào)查者欺騙分為三個等級:全部捏造、部分編造和違背調(diào)查程序。(7)Joerg-Peter Schraepler, Gert G.Wagner,“Characteristics and Impact of Faked Interviews in Surveys—An Analysis of Genuine Fakes in the Raw Data of SOEP”, Allgemeines Statistisches Archiv, Vol.89, No.1, 2005, pp.7-20.全部捏造指調(diào)查者根本沒有接觸受訪者而自我完成問卷的調(diào)查行為;部分編造,指調(diào)查記錄中雖然有受訪者的真實回答,但也摻雜著調(diào)查者假造的信息。至于違背調(diào)查程序則更加包羅萬象:將調(diào)查任務(wù)外包;按照主觀偏見選擇受訪者;在開放式問題中,只記錄寥寥幾筆。
受訪者敷衍由應(yīng)答率低和應(yīng)答真實性差共同構(gòu)成。在面對調(diào)查時,受訪者會借占用時間、侵犯隱私等說辭直接拒訪;也會因應(yīng)答負(fù)擔(dān)重和問題敏感而中途斷訪。不過,這遠(yuǎn)沒有受訪者虛假作答對調(diào)查質(zhì)量造成的危害大。比如,受訪者在意見識別類型選項中全選同意,猜測調(diào)查期望而不是按照真相回答,或只選擇問卷中最極端的選項,或因社會期許而美化自身形象。同時,受訪者可能因調(diào)查者的外貌、性別、種族、態(tài)度等因素區(qū)別回答;或缺乏專注力,產(chǎn)生不準(zhǔn)確的答案。此外,受意識形態(tài)或文化差異的影響,一個看似普通的問題可能是使調(diào)查不歡而散的導(dǎo)火索,比如向信奉錫克教的印度裔旁遮普族男性詢問是否支持社區(qū)供應(yīng)酒類(錫克教禁酒,而旁遮普族文化卻鼓勵飲酒)。(8)Gary Manders, Sarah Galvani,“Learning from the Research Process: Discussing Sensitive Topics as a Cultural Outsider”, Social Work Education, Vol.34, No.2, 2015, pp.199-212.
在社會調(diào)查的結(jié)果環(huán)節(jié),調(diào)查誤差表現(xiàn)為可疑的數(shù)據(jù)和不透明的成果??陀^來說,臟數(shù)據(jù)(9)Justin A.DeSimone, P.D.Harms,“Dirty Data: The Effects of Screening Respondents Who Provide Low-Quality Data in Survey Research”, J Bus Psychol, Vol.33, 2018, pp.559-577.可能源于不規(guī)范的操作、硬件條件的限制以及數(shù)據(jù)本身的不可獲得性;但也不能排除主觀因素,如研究者故意捏造、篡改、刪除、剽竊調(diào)查數(shù)據(jù)。這些可疑的數(shù)據(jù)本身,也成為研究成果“不能透明”的原因之一。再加上只有少數(shù)期刊才要求公開研究細(xì)節(jié),研究者在“不必透明”的環(huán)境下,自然“不愿透明”,即不上傳原始數(shù)據(jù)、不提供可復(fù)制的分析過程、不回應(yīng)同行及讀者質(zhì)疑等。
社會科學(xué)研究對調(diào)查適用性的關(guān)注是彌補減少整體性調(diào)查誤差路徑缺乏用戶視角的結(jié)果,其既涵蓋了后者重視的準(zhǔn)確性,又拓展了更為多維的調(diào)查質(zhì)量評價標(biāo)準(zhǔn),如可比性、連貫性、關(guān)聯(lián)性、及時性、可訪問性、可解釋性等。這種質(zhì)量內(nèi)涵定義方式也被諸多社會調(diào)查質(zhì)量保證框架所參考,如聯(lián)合國《官方統(tǒng)計國家質(zhì)量保證框架手冊》(NQAF)(10)United Nations National Quality Assurance Frameworks Manual for Official Statistics: Including Recommendations, the Framework and Implementation Guidance, UN, 2019.等。但調(diào)查適用性只能算是超越減少整體性調(diào)查誤差的質(zhì)量衡量體系,而沒有提供任何提高社會調(diào)查質(zhì)量的方法范式。不過,這也為聯(lián)通減少整體性調(diào)查誤差與質(zhì)量控制提供了契機。
受20世紀(jì)80年代全面質(zhì)量管理浪潮的影響,質(zhì)量控制的思路被引入社會調(diào)查之中。(11)Lars Lyberg,“Survey Quality”, Survey Methodology, Vol.38, No.2, 2012, pp.107-130.該路徑關(guān)注社會調(diào)查全流程的質(zhì)量,即組織、過程和產(chǎn)品(結(jié)果)質(zhì)量。并在持續(xù)改進(jìn)的觀念下,為達(dá)到監(jiān)測和評估的目的,陸續(xù)設(shè)計了諸多配套方案、工具和技術(shù)。然而,社會調(diào)查畢竟不是工業(yè)生產(chǎn)和企業(yè)管理,缺乏恒定的、客觀的、現(xiàn)成的質(zhì)量標(biāo)準(zhǔn)和根據(jù),這嚴(yán)重阻礙了質(zhì)量控制在社會調(diào)查質(zhì)量保證中的發(fā)展。在此背景下,師出同根的調(diào)查適用性進(jìn)入質(zhì)量控制路徑,并為其設(shè)置了最低標(biāo)準(zhǔn)(準(zhǔn)確性,即減少整體性調(diào)查誤差)和最高要求(滿足用戶的多維度需求)。如此一來,缺乏方法支持的適用性同缺少準(zhǔn)則的質(zhì)量控制相互彌補,也通過適用性這個中介將減少整體性調(diào)查誤差與質(zhì)量控制相串聯(lián)。
一千個消費型研究者就有一千種對社會調(diào)查適用性的具體解釋,所以生產(chǎn)型研究者只能在確保其準(zhǔn)確性的基礎(chǔ)上不斷精進(jìn)。為此,本文參考其他領(lǐng)域全面質(zhì)量管理的經(jīng)驗,提出了一種更好地聯(lián)通減少整體性調(diào)查誤差與質(zhì)量控制的思路,即設(shè)置質(zhì)量控制點(簡稱“質(zhì)控點”)。(12)李玲、王春:《學(xué)科發(fā)展態(tài)勢分析的工作流程及質(zhì)量控制點研究》,《圖書館理論與實踐》2012年第3期。所謂質(zhì)控點,是社會調(diào)查全流程中的重點控制對象、關(guān)鍵部位和薄弱環(huán)節(jié),也是后續(xù)質(zhì)量控制的施用目標(biāo)。在對調(diào)查誤差進(jìn)行識別、分析和歸類后,按照“問題—目標(biāo)”的傳導(dǎo)邏輯,將其轉(zhuǎn)化為質(zhì)控點,并通過由低階向高階的細(xì)化,使其清楚全面地反映出社會調(diào)查中的檢驗重點,讓質(zhì)量控制工具更能有的放矢。具體操作見圖1。
圖1 調(diào)查誤差與質(zhì)量控制點
從以上分析歸納的誤差清單(“無效的團隊”“漏洞百出的方案”“欺騙敷衍的過程”“可疑的數(shù)據(jù)”“不透明的成果”)中,我們可以提煉一階質(zhì)控點為:團隊、方案、過程、數(shù)據(jù)、成果。從上述誤差的具體表現(xiàn)中總結(jié)出二階質(zhì)控點:“團隊”的資質(zhì)、章程、成員、物料、建設(shè)等;“方案”的樣本、問卷、流程、設(shè)備、幫助手冊等;“過程”的調(diào)查者言行、受訪者言行等;“數(shù)據(jù)”的介質(zhì)、軟件、操作等;“成果”的內(nèi)容、形式等。以“‘過程’的調(diào)查者言行”為例,三階質(zhì)控點為:地理位置、知情同意書、時長、圖像、聲音、提問、記錄等。在此基礎(chǔ)上更為細(xì)致的四階質(zhì)控點有:“地理位置”的起始點、終止點、活動范圍、異常點等;“知情同意書”的出示、閱讀、回收等;“時長”的總時長、分題時長、有效時長、無效時長等;“提問”的音量、語速、完整度、規(guī)范度、準(zhǔn)確度、噪聲、重復(fù)次數(shù)等。最后,五階質(zhì)控點,如:“‘知情同意書’出示”順序(在提問前、中、后)、形式(口頭、紙質(zhì)、電子)等。不過,受篇幅所限,此處只是部分舉例,更為全面的質(zhì)控點設(shè)置情況有待于學(xué)術(shù)界共同從社會調(diào)查實踐中總結(jié)和積累。
受質(zhì)量管理領(lǐng)域奠基人休哈特(Shewhart)提出的“計劃—執(zhí)行—檢查—處理”循環(huán)啟發(fā),本文提出社會調(diào)查質(zhì)量控制的行動邏輯,即對上節(jié)設(shè)置的質(zhì)控點進(jìn)行“檢驗—提升—再檢驗”,以使其滿足減少整體性調(diào)查誤差或提高適用性的質(zhì)量標(biāo)準(zhǔn)(見圖2)。就此,本文將通過比較不同質(zhì)量檢驗、提升工具(或手段)的選擇思路、優(yōu)劣或適宜應(yīng)用的情境,以完成提高全面社會調(diào)查質(zhì)量的最后一步工序——質(zhì)量控制。
圖2 質(zhì)量控制程序
對團隊質(zhì)量的檢驗分為內(nèi)部、外部和全行業(yè)三個維度。內(nèi)部評估適宜所有生產(chǎn)型研究者,主要使用自我評估工具和組織評估調(diào)查表等量表。如鮑德里奇國家質(zhì)量計劃(Baldrige National Quality Program, BNQP)自我評估問卷,(13)中國質(zhì)量協(xié)會、卓越國際質(zhì)量研究中心編譯:《追求卓越的旅程——美國鮑德里奇國家質(zhì)量獎自評報告》,中國標(biāo)準(zhǔn)出版社2005年版。歐洲質(zhì)量管理基金會(European Foundation for Quality Management, EFQM)組織績效評估模型等。而用戶反饋、同行評議等外部評價主要針對關(guān)照消費型研究者的生產(chǎn)型研究者。此外,還應(yīng)鼓勵學(xué)術(shù)界共同制定社會調(diào)查組織質(zhì)量黑白名單備忘錄,作為數(shù)據(jù)庫間交流合作、聘用(借調(diào))工作人員的信任憑據(jù)。
與之對應(yīng)的團隊質(zhì)量提升工具,則更接近于企業(yè)質(zhì)量管理手段。如官僚手段,運用規(guī)定、權(quán)威和協(xié)約等將團隊置于機械框架下。雖然這種方法較為常見且易于操作,但會導(dǎo)致組織僵化、成員逆反。相反,市場手段提供了一種更為能動的馭人之術(shù),巧用供求、價值和競爭等經(jīng)濟規(guī)律來調(diào)動團隊持久的執(zhí)行力。不過,即使這種方法能發(fā)揮最佳的催化效果,但也會走向另一個極端——由過度競爭引發(fā)的內(nèi)耗和浮躁。當(dāng)然,還可以使用團體手段,即通過營造健康的團隊文化氛圍起到人道的精神感召作用。(14)Arthur Kennickell, “Curbstoning and Culture”, Statistical Journal of the IAOS, Vol.31, No.2, 2015, pp.237-240.不過,盡管該方法能夠彌合團隊與個人間的利益沖突,但往往見效慢、投入大、難操作,只能作為補充工具。
對方案質(zhì)量的檢驗,一般采用預(yù)調(diào)查(Pilot Survey,又稱“試點調(diào)查”)的方法,即在正式調(diào)查開始前,選取調(diào)查范圍內(nèi)的某一局部,進(jìn)行小規(guī)模的預(yù)演性調(diào)查。通過預(yù)調(diào)查,可以及時發(fā)現(xiàn)那些僅通過理論推導(dǎo)難以注意到的實際問題和實踐中不可預(yù)料的各種突發(fā)狀況,以及調(diào)查方案中的遺漏環(huán)節(jié)和薄弱點等。只是,額外的調(diào)查也意味著額外的成本投入,如果預(yù)調(diào)查過程沒有盡可能模擬正式調(diào)查流程,或?qū)︻A(yù)調(diào)查的經(jīng)驗總結(jié)沒能與正式調(diào)查掛鉤,都將流于形式而浪費資源和時間。此外,從計算機科學(xué)結(jié)對編程(Pair Programming)演變而來的結(jié)對控制法(Pair Control)也能起到一定的檢驗效果。在方案設(shè)計時,一人負(fù)責(zé)輸入,另一人負(fù)責(zé)審查,輸入者只考慮工作進(jìn)度,審查者則要發(fā)現(xiàn)不足和問題,再通過互換角色,實現(xiàn)雙重復(fù)核。結(jié)對控制能充分調(diào)用團隊成員的知識儲備,在互相監(jiān)督中,降低設(shè)計缺陷率,提高工作效率,但成員也可能因為長時間高壓工作,而將理念沖突擴大為內(nèi)部矛盾。
顯然,提高方案質(zhì)量沒有捷徑和工具可以依賴,也非朝夕間就能速成,需要方案設(shè)計者經(jīng)年累月地沉淀知識和閱歷,并對每一份方案都保持審慎和虔誠的態(tài)度。當(dāng)然,長此以往也能體悟出獨到的輔助技巧。比如,在調(diào)查問卷設(shè)計時加入陷阱問題,這類問題并不考驗受訪者的知識水平,但可以甄別受訪者是否目標(biāo)人群、是否如實應(yīng)答、有無敷衍走神等。需要謹(jǐn)慎的是,有些聰敏的受訪者可能輕易識別陷阱所在,并為迎合研究目的而歪曲應(yīng)答,還可能通過胡亂作答來報復(fù)調(diào)查者暴露出的不信任感。再比如,使用間接提問技術(shù)作為敏感性問題的調(diào)查工具,可以降低受訪者的警惕性。
對過程質(zhì)量的檢驗一直秉持兩個發(fā)展方向——再接觸與監(jiān)測,即使科技進(jìn)步日新月異,改變的也只是這兩者的名稱和具體達(dá)成手段,而非其核心用意。其中,再接觸法,(15)Bob Groves,“Interviewer Falsification in Survey Research: Current Best Methods for Prevention, Detection, and Repair of Its Effects”, Survey Research, Vol.35, No.1, 2004, pp.1-5.是指由質(zhì)控員(亦稱“監(jiān)督者”)對受訪者展開二次調(diào)查,以核實調(diào)查者工作的可靠性和受訪者應(yīng)答結(jié)果前后的一致性。從最早的當(dāng)面回訪、寄派信件,到此后的電話、電郵問詢,再接觸法始終保持著低門檻、易操作的優(yōu)勢。不過,再接觸法需要重復(fù)“打擾”受訪者,這就意味著難以保障的再回復(fù)率和高成本低效率的非對稱結(jié)果。而且,企圖通過局部二次調(diào)查“重現(xiàn)”全部初次調(diào)查的原始情境,也并不可行。于是,以“親臨”調(diào)查為特色的監(jiān)測法,開始逐漸受到研究者的青睞。
所謂監(jiān)測法,從最小定義來看,就是質(zhì)控員可以看到或聽到調(diào)查過程。如此一來,不僅能夠發(fā)現(xiàn)每一份調(diào)查背后的異動,還能起到提醒(威懾)調(diào)查者誠信工作、受訪者誠實作答的作用。一般來說,監(jiān)測的內(nèi)容包括調(diào)查發(fā)生的地理位置,調(diào)查過程的音頻、視頻,調(diào)查參與主體的行為數(shù)據(jù)等。當(dāng)然,得益于科技發(fā)展,這一監(jiān)測過程不是發(fā)動人海戰(zhàn)術(shù),進(jìn)行一對一實地跟蹤,而是利用日趨多元和智能的遠(yuǎn)程工具及技術(shù)。比如,只針對單一監(jiān)測元素的初級監(jiān)測法,像計算機錄音采訪技術(shù),和利用衛(wèi)星定位系統(tǒng)收集調(diào)查發(fā)生在規(guī)定時間地點證據(jù)的地理信息標(biāo)記法(Geotagging)。(16)M.Rita Thissen, Susan K.Myers,“Systems and Processes for Detecting Interviewer Falsification and Assuring Data Collection Quality”, Statistical Journal of the IAOS, Vol.32, No.3, 2016, pp.339-347.另外,還有綜合多種監(jiān)測元素的中級監(jiān)測法,如國內(nèi)外應(yīng)用較為廣泛的計算機輔助面訪(Computer Assistant Personal Interviewing, CAPI)技術(shù)。該技術(shù)除了可以同時記錄地理位置、調(diào)查對話和圖像等,還具備應(yīng)答路徑自動跳轉(zhuǎn)和應(yīng)答結(jié)果一致性檢驗等輔助功能。
近年來,在拓寬監(jiān)測內(nèi)容范圍和增強監(jiān)測判斷自動化的基礎(chǔ)上,誕生了許多前沿的高級監(jiān)測法。如過程數(shù)據(jù)分析法(Paradata Analysis Methods),(17)Joe Murphy, Paul Biemer,et al.,“Interviewer Falsification: Current and Best Practices for Prevention, Detection, and Mitigation”, Statistical Journal of the IAOS, Vol.32, No.3, 2016, pp.313-326.通過量化分析有關(guān)調(diào)查過程的跟蹤數(shù)據(jù),來評估驗證其真實性和可靠性。常見的跟蹤數(shù)據(jù)有各小節(jié)調(diào)查時間與總調(diào)查時間比例、每小時的工作產(chǎn)出、關(guān)鍵問題的應(yīng)答情況等。類似的還有,基于調(diào)查參與主體行為數(shù)據(jù)的機器學(xué)習(xí)。(18)Benjamin Birnbaum, Gaetano Borriello,et al.,“Using Behavioral Data to Identify Interviewer Fabrication in Surveys”, Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, 2013, p.2911.詳細(xì)來看,就是在智能化調(diào)查工具(智能手機、平板等)中植入開放數(shù)據(jù)工具包(Open Data Kit),用于記錄調(diào)查參與主體(多是調(diào)查者)產(chǎn)生的行為數(shù)據(jù)日志,并生成數(shù)據(jù)庫,這些數(shù)據(jù)甚至包括精細(xì)到毫秒級別的鼠標(biāo)滑動與點擊等。再采用隨機森林算法實現(xiàn)特征提取,建立行為數(shù)據(jù)與低質(zhì)量調(diào)查過程的聯(lián)系。隨后使用這些特征數(shù)據(jù)對一個監(jiān)測分類器進(jìn)行訓(xùn)練,讓其具備監(jiān)測調(diào)查者行為,并判斷其是否違規(guī)的能力。未來還可以連接其他傳感器,如測速器、光感器、麥克風(fēng)、相機、GPS等輔助測量和記錄調(diào)查者行為,以便提高監(jiān)測分類器的檢測精度。
無論是再接觸法還是監(jiān)測法,在對調(diào)查過程進(jìn)行質(zhì)量檢驗的同時,也起到了一定的質(zhì)量提升作用。質(zhì)控員可以對被發(fā)現(xiàn)問題的調(diào)查過程,實施剔除、替換、覆蓋或修補等諸多提純措施。除此以外,還可以根據(jù)對調(diào)查過程參與主體(調(diào)查者和受訪者)的兩種不同傾向來分別選擇工具。一種是“調(diào)查者善論”,認(rèn)為更可能通過調(diào)查者之手來提升質(zhì)量。那么,就要寄希望于調(diào)查者能與受訪者達(dá)成某種要約或承諾,比如通過宣讀知情同意書,簡述調(diào)查目的和匿名保密原則,向受訪者征詢參與意愿。盡管這是一種君子之約,其約束力有限,但在一定程度上也可以消解受訪者的戒備心理。再比如,利用應(yīng)答獎勵向受訪者發(fā)出調(diào)查請求,受訪者則通過完成調(diào)查來交換。雖然這種“交易”效果顯著,但應(yīng)答獎勵的邊際遞減效應(yīng)、發(fā)放獎勵時機、現(xiàn)金與實物獎勵的選擇以及受訪人群的特征都會影響其實際效用。(19)Klaus Pforr, Michael Blohm, Annelies G.Blom,et al.,“Are Incentive Effects on Response Rates and Nonresponse Bias in Large-Scale, Face-to-Face Surveys Generalizable to Germany? Evidence from Ten Experiments”, Public Opinion Quarterly, Vol.79, No.3, 2015, pp.740-768.同時,這種方法還存在調(diào)查倫理、應(yīng)答客觀性等爭議。
另一種傾向就是“受訪者善論”,認(rèn)為與其同調(diào)查者斗智斗勇,不如相信絕大多數(shù)的受訪者。在此原則下,調(diào)查者會被技術(shù)工具逐步取代,呈現(xiàn)一種“去調(diào)查者化”的趨勢。如半自助化(定向受訪者)的計算機輔助自助面訪(Computer Assisted Self Interviewing, CASI)技術(shù)、(20)Judith T.Lessler, James M.O’ Reilly,“Mode of Interview and Reporting of Sensitive Issues: Design and Implementation of Audio Computer-Assisted Self-Interviewing”, NIDA Res Monogr, Vol.167, 1997, pp.366-382.計算機化自我管理問卷(Computerized Self-Administered Questionnaires, CSAQ)技術(shù)、(21)Malachy Corrigan,et al.,“A Computerized, Self-Administered Questionnaire to Evaluate Posttraumatic Stress among Firefighters after the World Trade Center Collapse”, American Journal of Public Health, Vol.99, No.S3, 2009, pp.S702-S709.交互式語音應(yīng)答(Interactive Voice Response,IVR)(22)Ross Corkrey, Lynne Parkinson,“Interactive Voice Response: Review of Studies 1989-2000”, Behavior Research Methods, Instruments & Computers, Vol.34, No.3, 2002, pp.342-353.等。還有全自助化(非定向受訪者)的,一般網(wǎng)絡(luò)調(diào)查、(23)Mick P.Couper,“New Developments in Survey Data Collection”, Annual Review of Sociology, Vol.43, 2017, pp.121-145.眾包平臺調(diào)查和社交媒體平臺調(diào)查(24)Daniel Schneider, Kristen Harknett,“What’s to Like? Facebook as a Tool for Survey Data Collection”, Sociological Methods & Research, Vol.51, No.1, 2019, pp.108-140.等。不過,在絕對消除調(diào)查者誤差的同時,也必須認(rèn)識到,不僅沒有人能再幫你控制調(diào)查節(jié)奏、保障受訪者的參與度,你還要面臨因技術(shù)使用的篩選性而導(dǎo)致的樣本代表性質(zhì)疑和低覆蓋率問題。(25)Samuel J.Best, Brian Krueger, Clark Hubbard, Andrew Smith,“An Assessment of the Generalizability of Internet Surveys”, Social Science Computer Review, Vol.19, No.2, 2001, pp.131-145; Jelke Bethlehem,“Selection Bias in Web Surveys”, International Statistical Review, Vol.78, No.2, 2010, pp.161-188.
本部分所述的數(shù)據(jù)質(zhì)量控制,更準(zhǔn)確地說,應(yīng)該是對調(diào)查結(jié)果數(shù)據(jù)整理工序的控制,或稱為數(shù)據(jù)清洗(Data Cleaning)。這是在調(diào)查結(jié)果用于研究、共享前,糾正調(diào)查中可識別誤差的最后一道程序。除了對存儲、傳輸、分析數(shù)據(jù)的硬件設(shè)備進(jìn)行檢驗,質(zhì)控員更為關(guān)心數(shù)據(jù)的完整性、規(guī)范性、一致性、唯一性、關(guān)聯(lián)性等。不同于對調(diào)查過程實行質(zhì)量控制的實時數(shù)據(jù)清洗(也稱單次數(shù)據(jù)清洗、靜態(tài)數(shù)據(jù)清洗),本部分是以更宏大、動態(tài)的視角執(zhí)行深度清洗。(26)丁華、石田依:《計算機輔助調(diào)查數(shù)據(jù)清理的新方法》,《中國統(tǒng)計》2020年第4期。具體的清洗方法有:準(zhǔn)確性高卻效率低的人工手動清洗,受限于數(shù)據(jù)依賴關(guān)系的函數(shù)依賴法,適用于數(shù)字型數(shù)據(jù)的分箱法,受制于規(guī)則性數(shù)據(jù)的簡單規(guī)則庫法,用于檢測屬性錯誤值的統(tǒng)計法、聚類法,適于檢測空值的代表性函數(shù)值填充法,基于字段檢測的編輯距離(Levenshtein Distance)算法、余弦相似度算法,基于記錄檢測的N-Grams算法、SNM算法、MPN算法,面向異常值檢測的接近度算法、密度算法等。
雖然數(shù)據(jù)清洗的篩選、消除、去重、填充、整合等功能,已經(jīng)兼具了質(zhì)量檢驗和提升的作用。但在此基礎(chǔ)上,還可以選擇另外一種提升方式——數(shù)據(jù)預(yù)測。一方面,數(shù)據(jù)預(yù)測是在已完成實地調(diào)查后,彌補數(shù)據(jù)缺失遺憾的替代方案;另一方面,能最大限度發(fā)揮調(diào)查數(shù)據(jù)的潛力價值,給予研究者成為“先知”的能力。對于專業(yè)知識儲備薄弱或中小等級數(shù)據(jù)規(guī)模的研究者,使用現(xiàn)成的商業(yè)智能(Business Intelligence, BI)分析工具就可以完成簡單的數(shù)據(jù)預(yù)測,盡管這樣的預(yù)測結(jié)果并不一定穩(wěn)健。而對于有一定技術(shù)支撐且數(shù)據(jù)規(guī)模較大的研究者,可以通過深度學(xué)習(xí)(Deep Learning)自建預(yù)測模型。此外,如果有對特定變量的預(yù)測需求,可以采用因果關(guān)系預(yù)測法;如果數(shù)據(jù)庫中歷史數(shù)據(jù)更為豐富,可以選用時間序列預(yù)測法。值得一提的是,受貝葉斯分析的影響,曾被認(rèn)為主觀隨意性大的定性預(yù)測(經(jīng)驗判斷)法未來也許能發(fā)揮更精準(zhǔn)的預(yù)測效果。
對成果發(fā)表的質(zhì)量控制,也就是對研究者利用隱蔽的“自由裁量”手段創(chuàng)造有利于發(fā)表的假陽性結(jié)果的限制。(27)Gabriel S.Lenz, Alexander Sahn,“Achieving Statistical Significance with Control Variables and Without Transparency”, Political Analysis, Vol.29, No.3, 2021, pp.356-369.盡管近些年來,國內(nèi)外社會對研究不端行為、學(xué)術(shù)透明度等的關(guān)注有所增加,但仍然缺乏完備的質(zhì)量檢驗方法和工具。像查重、審理等后驗手段,和同行、編輯、讀者等外部監(jiān)督源,都無法充分激發(fā)研究者對高質(zhì)量調(diào)查和誠信研究的學(xué)術(shù)自覺。如果沒有嚴(yán)厲的懲處標(biāo)準(zhǔn)和禁入制度,研究者難免因為人性的弱點而不主動遵守規(guī)則。因此,日后更應(yīng)考慮的是如何使用先驗的方法引導(dǎo)研究者自發(fā)檢驗和提升成果發(fā)表的真實性、透明度。眼下正流行的預(yù)注冊(Pre-register)法(28)臧雷振、潘晨雨:《社會科學(xué)研究透明度:內(nèi)涵,價值及其實現(xiàn)路徑》,《國外理論動態(tài)》2020年第5期。就是對此問題的創(chuàng)新回應(yīng)。該方法兼具監(jiān)督和鼓勵效用:預(yù)先登記在冊的研究計劃,有參考價值的事前對話,以及對陰性結(jié)果發(fā)表的寬容度,都給了研究者去偽存真的理由和信心。
為了讓讀者更好地了解和識別全面社會調(diào)查質(zhì)量控制的關(guān)鍵節(jié)點,以及每一部分對應(yīng)的操作工具,本文將上述質(zhì)量控制方法簡化為表1。
表1 質(zhì)量控制方法
受社會科學(xué)研究可靠性危機與可復(fù)制性危機的影響,學(xué)術(shù)界對社會調(diào)查質(zhì)量,更準(zhǔn)確地說,是全面社會調(diào)查質(zhì)量,賦予了更多關(guān)切與責(zé)任。同時,社會調(diào)查質(zhì)量又面臨著誤差侵蝕與方法誤用的困境。因此,如何有效提高社會調(diào)查質(zhì)量是當(dāng)前社會科學(xué)研究者的核心關(guān)切之一。本文正是在此背景下,對社會調(diào)查質(zhì)量問題作出了學(xué)術(shù)回應(yīng)。首先,融合三條質(zhì)量進(jìn)路共同形成一個系統(tǒng)的全面社會調(diào)查質(zhì)量保證框架,并以減少整體性調(diào)查誤差為目標(biāo),以增強調(diào)查適用性為宗旨,以加強對調(diào)查全流程的質(zhì)量控制為手段。其次,在減少整體性調(diào)查誤差路徑指導(dǎo)下,以整體視角,對社會調(diào)查的誤差進(jìn)行識別、分析和歸類。第三,以適用性為中介,聯(lián)通減少整體性調(diào)查誤差與質(zhì)量控制,并引入質(zhì)量控制點,使質(zhì)量保證工作有的放矢。第四,在休哈特循環(huán)的啟發(fā)下,設(shè)計“檢驗—提升—再檢驗”的質(zhì)量控制程序,并比較了不同工具的優(yōu)劣和適用情境。
與此同時,本文也發(fā)現(xiàn)了一些值得學(xué)術(shù)界共同探討的問題。首先,隨著提高社會調(diào)查質(zhì)量的新興工具的發(fā)展,原本社會調(diào)查低門檻、低成本的優(yōu)勢正逐漸消逝。一個人、一支筆、一份問卷的傳統(tǒng)調(diào)查被日益強調(diào)學(xué)科互涉和知識越界的新型調(diào)查所取代。換句話說,研究者若想如以前那樣揭示現(xiàn)實社會的深刻本質(zhì),就必須不斷增強其研究的復(fù)雜性(Complexity Science)和對質(zhì)量的關(guān)注度。這也意味著,學(xué)術(shù)后來者的準(zhǔn)入門檻被大大提高,要么投入無法估算的機會成本提升自身研究軟實力,要么棲身于既定方向的科研團隊共同完成。這并不利于社會科學(xué)研究的知識溢出。
其次,在實際社會調(diào)查中,調(diào)查質(zhì)量并不是絕對的非黑即白。是否存在一個灰色的安全區(qū)域?在其中,只要調(diào)查誤差沒有超過規(guī)定限度,仍可以通過技術(shù)手段彌補,從而不影響調(diào)查結(jié)果的適用性。也就是說,“壞”數(shù)據(jù)依然能產(chǎn)生好的研究成果。比如,吉伯特(Gibbert)等利用異常值同樣可以進(jìn)行理論構(gòu)建。(29)Michael Gibbert, Lakshmi Balachandran Nair, Matthias Weiss, Martin Hoegl,“Using Outliers for Theory Building”, Organizational Research Methods, Vol.24, No.1, 2021, pp.172-181.目前,部分研究者因追求絕對完美的調(diào)查研究而焦慮不安,從而忽視了研究投入對調(diào)查質(zhì)量的影響同樣遵循邊際效益遞減的規(guī)律。如此一來,不僅浪費了研究資源,也降低了做出好研究的效率。未來,研究者可以重點關(guān)注如何劃定科學(xué)的安全區(qū)域,如赫德林就證明了應(yīng)答率遠(yuǎn)沒有人們想的那么重要。(30)Dan Hedlin,“Is There a ‘Safe Area’ Where the Nonresponse Rate Has Only a Modest Effect on Bias Despite Non-Ignorable Nonresponse?”, International Statistical Review, Vol.88, No.3, 2020, pp.642-657.
最后,社會調(diào)查的高質(zhì)量是否一定要通過大數(shù)量來表達(dá)?對于“純粹”(就像物理學(xué)假設(shè)的“光滑”一樣理想)的社會調(diào)查來說,其誤差表現(xiàn)只有一種,即隨機誤差,這是樣本與總體之間的絕對離差。根據(jù)大數(shù)定律或更具體的蒙特卡洛方法(Monte Carlo Method),似乎只要樣本規(guī)模足夠大,就必然能夠無限接近真實情況。即便回到現(xiàn)實世界,這種對質(zhì)量隨數(shù)量同向變動的認(rèn)知也大有市場。比如,所謂的“大數(shù)據(jù)技術(shù)優(yōu)于社會調(diào)查”的底層邏輯,就是假設(shè)海量的、普適的、詳盡的大數(shù)據(jù)已經(jīng)做到了將世界放在面前(N=The World)。(31)Matthew Jones,“What We Talk about When We Talk about(Big)Data”, The Journal of Strategic Information Systems, Vol.28, No.1, 2019, pp.3-16.不過,大數(shù)量并不一定等于高質(zhì)量,比如,1936年《文摘》雜志對選舉預(yù)測的失敗。同樣,小數(shù)量也不代表低質(zhì)量,比如,孟曉犁的統(tǒng)計推論,(32)Xiao-Li Meng,“A Trio of Inference Problems that could Win You a Nobel Prize in Statistics(If You Help Fund It)”, in Xihong Lin, Christian Genest, et al., eds., Past, Present, and Future of Statistical Science, Boca Raton, FL: CRC Press, 2014, pp.537-562.揭示了小數(shù)據(jù)集令人驚訝的力量。(33)Julian J.Faraway, Nicole H.Augustin,“When Small Data Beats Big Data”,Statistics & Probability Letters, Vol.136, 2018, pp.142-145.當(dāng)然,數(shù)量與質(zhì)量本就不在同一探討維度,對數(shù)量大小的爭論是觀察性研究與因果推斷的范式之別,而兩者都可能被冠以高質(zhì)量或低質(zhì)量的稱呼。但從新鮮感來說,社會調(diào)查的小數(shù)量在全面社會調(diào)查質(zhì)量的指引下,或?qū)⒂兄谏鐣{(diào)查在未來有更高的關(guān)注度。