□劉 洋 謝 麗
[華南理工大學 廣州 510640]
中國管理研究中問卷調(diào)查法的取樣與測量合適性:評估與建議
□劉 洋 謝 麗
[華南理工大學 廣州 510640]
問卷法作為中國管理研究中最普遍的研究方法近來受到較多質(zhì)疑。問卷調(diào)研法的“嚴謹性”本身沒有問題,而是由于部分學者在使用這一方法過程中的不嚴謹性(特別是在取樣和測量方面),導致學者對此方法產(chǎn)生了一定的誤解?;诖?,針對近十年發(fā)表在《管理世界》上的137篇采用問卷調(diào)研法的演繹性研究,對其取樣和測量合適性進行評估,提出了八個常見的問題,并以一篇范文為例,提出了對應(yīng)的建議,以期為采用問卷調(diào)研法的管理研究提供一定的借鑒。
問卷調(diào)研法;取樣;測量;中國管理研究
定量研究方法在中國管理學研究逐步走向正規(guī)過程中扮演了重要角色,問卷調(diào)查法由于其成本低廉、信效度較高、快速有效收集數(shù)據(jù)等優(yōu)點,成為中國管理學定量研究中最為普及、最為成熟的方法之一[1]。然而,縱觀近十年采用問卷調(diào)研法的中國管理學研究可以發(fā)現(xiàn),盡管其為構(gòu)建和檢驗中國管理理論做出了重要貢獻,但在采用這種方法過程中的嚴謹性(Rigor)仍有很多不足。事實上,不論構(gòu)建何種理論,“嚴謹”是根基:邏輯和數(shù)據(jù)間的嚴格匹配做不到,信度和效度不高,那么研究的發(fā)現(xiàn)和構(gòu)建的理論都需謹慎對待。
基于這一出發(fā)點,本文將對中國管理研究代表性期刊《管理世界》中,近十年采用問卷調(diào)研法為主要研究方法的論文進行評估,特別是對這些論文中取樣和測量的合適性這兩個被忽略最多的角度進行比對,試圖去發(fā)現(xiàn)中國管理研究中采用問卷調(diào)研法進行研究常見的問題,并提出相應(yīng)的改進建議。通過對137篇文獻的評估,本文發(fā)現(xiàn),中國部分管理研究學者在問卷調(diào)研法的取樣和測量過程中主要存在以下八個方面的問題:普遍缺乏對抽樣總體的明確界定;普遍未能對抽樣過程進行詳細描述;普遍缺乏對樣本估計偏差評估、無回復偏差的評估;普遍缺乏對被調(diào)查對象與測量單元之間關(guān)系的評估;重點關(guān)注內(nèi)部一致性,而忽略了其他提升信度的策略;對內(nèi)容效度的評估缺乏;聚合效度與區(qū)分效度的做法存在一定的問題;普遍缺乏對共同方法偏差的關(guān)注。最后,提出了一些解決策略,以期為采用問卷調(diào)研法的管理研究提供一定的借鑒。
問卷調(diào)研法是指通過抽樣收集能夠代表總體的數(shù)據(jù),得出結(jié)論,在允許隨機誤差的界限下,推斷和概括總體特征的研究方法[2]。管理學研究中,問卷調(diào)查能夠有效地基于任何目地對組織利益相關(guān)者(股東、管理層、客戶、雇員)的態(tài)度進行評估[3]。問卷法的質(zhì)量取決于樣本設(shè)計和其調(diào)查步驟的合適性,其中抽樣和測量兩個部分至關(guān)重要[4]。關(guān)于問卷調(diào)研法的具體過程和注意事項本文不在贅述,可參考相關(guān)教科書(例如,羅勝強和姜嬿[5])。本部分將重點闡述抽樣和測量合適性的評估標準。
(一)取樣合適性的評估標準:樣本能否代表總體
抽樣的目的在于對目標總體進行部分抽樣得出結(jié)論反推總體特征,抽樣的過程重點關(guān)注選取樣本是否能夠代表研究對象總體[6],具體涉及目標總體及抽樣總體、分析單元、樣本量、抽樣過程、回收及無回復情況等內(nèi)容(圖1)。評估問卷調(diào)研中取樣合適性的六大標準是:(1)清晰確立特定的目標總體和抽樣總體;(2)根據(jù)研究問題準確闡述分析單元;(3)確定合理的樣本量并且闡述其依據(jù);(4)對于取樣過程進行充分描述;(5)對于回收率和無回復率的情況描述;(6)根據(jù)所采用的抽樣策略清晰闡述合理的估計和數(shù)據(jù)分析過程,包括無回復偏差的解決方案及對于發(fā)現(xiàn)的概括[6~7]。
圖1 取樣合適性評估標準
第一,對目標總體和抽樣總體的明確界定。在問卷調(diào)查研究中,目標總體指的是研究者感興趣并且嘗試通過抽樣獲得信息進行研究的部分。在問卷調(diào)研中,第一項標準要求總體通常是限定的總體,這個總體是明確表示的,數(shù)量有限的,它可以是個人或者集合,如家庭、組織、企業(yè)等[7]。而樣本總體指從總體中提取的一個子集并且參與實際研究的群體,因為收集所有總體的數(shù)據(jù)通常是不可能或不實際的。然而,在某些情況下,由于資源限制和可行性約束,某些目標總體不得不予以排除,這意味著需要總體效度來證實抽樣總體對目標總體的合理概括,即任何兩者間的差異都需要被討論和考慮,需要妥協(xié)或者修正[7]。另外,無法明確描述總體的文獻大量存在[7],這將影響研究各個部分的有效性,所以清晰界定特定的目標總體及抽樣總體,提高抽樣總體對目標總體的解釋合適性。而在創(chuàng)業(yè)研究領(lǐng)域,總體難以識別導致抽樣成為難題[8]。
第二,根據(jù)研究問題準確闡述分析單元。在管理研究中分析單元可能是個人、群體、部門或者組織,又或者是產(chǎn)品、應(yīng)用、系統(tǒng)、項目,分析單元可以是任何研究者在提出的問題和假設(shè)中的任何主體,可能會出現(xiàn)多于一個分析單元的情況[6]。
第三,確定合理的樣本量并且闡述其依據(jù)。在管理學的問卷調(diào)研法中一貫的錯誤是確定不合理、不足夠的樣本量[9],此外就是現(xiàn)實中樣本的基數(shù)相對偏小,導致抽樣的樣本量相對較小,這是在剛起步的創(chuàng)業(yè)研究學者普遍反映的問題[8]。然而樣本量是問卷調(diào)查研究設(shè)計中影響顯著差異、關(guān)系和相互作用識別的重要因素,所以能否確定且獲得合理的樣本量成為衡量取樣合適性的重要標準一致。通常認為測量的準確度在100~200之間隨著樣本量的增加而提高,達到200以后隨著樣本量增加而降低[10]。
第四,對于取樣過程進行充分描述。即對整個樣本選擇的過程及步驟進行詳細描述,幫助其他研究者獲得評價研究和發(fā)現(xiàn)的信息,也讓其他研究者可以在對比的條件下重復此研究,這就是當今管理學界越來越強調(diào)的研究方法的可復現(xiàn)性[11]。由于篇幅限制,可能無法對每一個技術(shù)細節(jié)進行批露,但是也存在某些方法足夠可以達到此目的[7]。
第五,對于回收率的情況描述。由于問卷調(diào)查非常依賴受訪者的參與程度,低回復率是學者在分析調(diào)查結(jié)果主要關(guān)注的問題。低回復率會引起樣本量不足,降低統(tǒng)計功效,限制可應(yīng)用的統(tǒng)計方法類型,同時降低讀者對文章主觀認知的可信度評價,還會引起無反應(yīng)偏差,導致產(chǎn)生誤導性的結(jié)論[3]。學者發(fā)現(xiàn)在1975年頂級組織研究期刊(例如《Journal of Applied Psychnology》《Academy of Management Journal》)發(fā)表的研究中,回復率為64.4%,而1995年則下降到50%[12]。
第六,根據(jù)所采用的抽樣策略清晰闡述合理的估計和數(shù)據(jù)分析過程,主要包括樣本估計偏差評估、無回復率偏差評估等。比如在采取群體樣本時,如果采用簡單隨機抽樣的方差估計方法是不合適的,這就意味著要根據(jù)抽樣的設(shè)計來采取合適的估計和分析方法[4]。
(二)測量合適性的評估標準:信度、效度與同源偏差
測量代表科學的概念、發(fā)展測量工具、對相關(guān)和不相關(guān)差異來源進行評估的過程。本文評估測量合適性的標準包括效度、信度、共同方法偏差三大方面。信度反映測量結(jié)果免受誤差影響的程度,表征測量結(jié)果的一致性、穩(wěn)定性和可靠性,主要可以從復本信度、重測信度、折半信度等角度進行評估[5];效度用于檢驗測量工具能有效測量到所要測量的構(gòu)念的程度即測量的準確性[1],主要可以從內(nèi)容效度、結(jié)構(gòu)效度(聚合效度與辨別效度)等角度進行評估;共同方法偏差指的是因為同樣的數(shù)據(jù)來源或評分者、同樣的測量環(huán)境、項目語境及項目本身特征所造成的預測變量與效標變量之間人為的共變。這種人為的共變對研究結(jié)果產(chǎn)生嚴重的混淆并對結(jié)論有潛在的誤導,是一種系統(tǒng)誤差。
第一,對信度的評估。早期研究強調(diào)測量工具和信度檢驗[13]。信度強調(diào)測量是穩(wěn)定性、準確性,即多大程度可以相信此測量結(jié)果。信度越高的測量,隨機誤差越小。關(guān)于問卷調(diào)查的信度,一般通過平行測試獲得樣本,隨后進行信度測量。最常見的三種信度檢驗包括復本信度(Parallel forms reliability)、重測信度、折半信度。復本信度是指同時發(fā)展兩份等效但不完全相同的測驗(相同的平均數(shù)方差以及和其他概念相同的相關(guān)系數(shù)),每個被試需要同時回答這兩份問卷。測試結(jié)果之間的相關(guān)系數(shù)越高,信度就越高;這種測試最接近平行測試,總體的代表性強,但是設(shè)計可相互替代問卷的難度較大,而且一旦被調(diào)查者掌握題目的互替規(guī)律,可能失去復本意義。而重測信度是在不同的時間點,使用同一個測驗,對同一組參與者進行測量,兩次測量的相關(guān)系數(shù),也被稱為穩(wěn)定性系數(shù);重測信度因操作明確簡單、省時省力而受到追捧,但也因前后兩次作答相互不獨立而使得根據(jù)題目調(diào)整間隔時間非常重要,比較少適用于異質(zhì)性調(diào)查。折半信度是同質(zhì)信度的一種,用來測量的問題或測驗分為數(shù)目相等的兩半,獨立幾份,然后計算這兩組題目得分的相關(guān)性。它們之間的內(nèi)部一致性越強,代表所測量的內(nèi)容集中考察相同特質(zhì),說明問卷質(zhì)量好。折半信度的缺點是分半的方法不同,導致計算出來的信度估計值是不唯一的。另外,考慮內(nèi)部一致性時,要同時考慮量表條目的數(shù)量和條目的內(nèi)容范圍。 Cronbach’s α系數(shù)是最為廣泛應(yīng)用的同質(zhì)信度指標,同時接受的批評也是最多的[14]。Lance等提出追求Cronbach’s α太高會削弱內(nèi)容效度[15]。由于不同的假定、前提條件及信度的相對性,建立統(tǒng)一的問卷可靠性的信度系數(shù)標準是非常困難的。
第二,對效度的評估。效度檢驗起源于20世紀50年代,逐漸發(fā)展到今天,關(guān)注的是被測量的主體特征,測量數(shù)值的含義,數(shù)據(jù)的有效性,回答了我們是否正在測量我們想要測量的對象這一問題,被認為是“檢驗的檢驗”。效度檢驗重要的原因是它對于研究實現(xiàn)了框架的統(tǒng)一,保證推理過程是研究者基于他們的測量、設(shè)計、分析的選擇和集合得出的,以得出科學有效的結(jié)論。早有組織研究學者開發(fā)了檢查清單對效度相關(guān)研究進行評估,提出四個關(guān)鍵的評估標準,分別為內(nèi)部效度、構(gòu)念效度、統(tǒng)計效度、外部效度[16]。在管理學中,最常見的效度測度為構(gòu)念效度(Construct validity),包括聚合效度及區(qū)分效度。構(gòu)念效度反映測量內(nèi)容多大程度上反映研究中所要測量的構(gòu)念,包括:(1)遺漏了一些反映構(gòu)念內(nèi)容的測量指標;(2)增加了一些與構(gòu)念無關(guān)的指標;(3)構(gòu)念的不同成分的比例結(jié)構(gòu)是否偏頗[17]。Campbell和Fiske[18]提出采用多特質(zhì)——多方法矩陣的方法,來檢驗聚合效度和區(qū)分效度。聚合效度是指不同的觀察變量是否可以用來測量同一潛變量,旨在通過不同方式測量同一構(gòu)念時,所觀察到的數(shù)值之間應(yīng)該高度相關(guān),可通過潛變量CFA模型從相關(guān)測量指標路徑系數(shù)顯著性進行判斷;而區(qū)分效度則是指不同潛變量之間是否存在顯著差異,如果兩個潛變量的相關(guān)系數(shù)95%的置信區(qū)間涵蓋了1,另外如果效度模型沒有顯著優(yōu)于完全模型,則表示兩個構(gòu)念間缺乏辨別力。此外管理學中及內(nèi)容效度(Content validity),效標關(guān)聯(lián)效度(Criterion validity)的應(yīng)用較少。
第三,對共同方法偏差的評估。共同方法偏差是組織管理領(lǐng)域引起誤差的常規(guī)問題,在行為科學(尤其是問卷研究)中廣泛存在,學者提出采用多質(zhì)多法的設(shè)計來預測共同方法變異的重要性[15]。Podsakoff等通過多質(zhì)多法對70篇覆蓋心理學、市場學、教育學的文獻進行共同方法偏差的研究,得出在研究測量的誤差里面,大概有四分之一的偏差來自共同方法偏差[19]。以下一個或者多個要素影響都有可能引起的系統(tǒng)性誤差,包括共同評定者效應(yīng)、一致性傾向、內(nèi)隱觀、社會稱許性、寬待偏向、默認偏向、心境、短暫的心情等[19]。正如Siemsen等所指,用同種方法測量變量得出變量之間的關(guān)系會因為共同方法變異而被夸大,導致由于觀察測定數(shù)受影響而引起的構(gòu)念效度妥協(xié),同時引起協(xié)方差變異,及如果構(gòu)念A和構(gòu)念B采用了相同的方法進行測量,那么方法會對觀測變量之間的關(guān)系產(chǎn)生系統(tǒng)性的影響[20]。Podsakoff等詳細提出了系列程序和統(tǒng)計的方法進行共同方法偏差的控制[19]。
本文以《管理世界》近十年發(fā)表的使用問卷調(diào)查法的論文為評估的樣本。選擇這個期刊的原因是其作為國內(nèi)管理學界引用率最高、影響力最廣的期刊,具有代表性。具體抽樣標準為:第一,研究領(lǐng)域為組織與管理研究;第二,研究目的為檢驗或構(gòu)建理論(描述性的調(diào)查分析排除在外);第三,問卷調(diào)研法為主要的研究方法(案例研究法等其他方法中用到問卷調(diào)研進行補充數(shù)據(jù)收集的排除在外)。根據(jù)這三個標準,本文第二作者逐篇閱讀了從2007~2016年6月份的所有論文摘要,選取了共143篇,而后就有爭議的部分文章兩位作者進行討論,最終確定評估的樣本為137篇。圖2展現(xiàn)了每年的問卷調(diào)研法的發(fā)表趨勢,近幾年基本保持在10篇左右每年,是一個大概合適的比例;圖3展現(xiàn)了不同研究領(lǐng)域的發(fā)文數(shù)量,其中人力資源與組織行為領(lǐng)域最多,服務(wù)與營銷、創(chuàng)新與創(chuàng)業(yè)、戰(zhàn)略與治理相對比較持平。
圖2 2007~2016年6月《管理世界》采用問卷法的論文發(fā)文趨勢
圖3 2007~2016年《管理世界》采用問卷法的論文類別
(一)取樣合適性的評估
第一,目標總體和抽樣總體的清晰界定。被評估樣本中早年的研究鮮有文獻對目標總體和抽樣總體進行清晰界定,這就導致讀者根本無法判斷抽樣總體是否能夠代表目標總體,樣本能否代表抽樣總體。例如,被評估樣本中常見做法有兩類:第一類是通過便利抽樣的原則,給社會網(wǎng)絡(luò)中的企業(yè)家(例如認識的人,MBA/EMBA學員等)發(fā)放問卷。由于沒有清晰界定目標總體和抽樣總體,致使無法判斷最終的樣本是否可以代表總體;第二類是選擇一家或者幾家企業(yè)的員工收取了一定數(shù)量的問卷,這種做法的大部分研究都未能清晰界定符合條件的抽樣總體,進而也無法判斷樣本是否能夠代表總體。
近兩年發(fā)表的論文中在這一方面有了極大改善,例如姚晶晶等[21]暗含了其目標總體為中國的民營企業(yè),經(jīng)過“兩步驟”分層隨機抽樣——選擇了3個沿海省份(廣東、福建、浙江)和3個內(nèi)地省份(湖北、四川和山西),而后挑選了每個省份的一個地級市里的兩個區(qū)/縣,隨機從當?shù)刈缘钠髽I(yè)中選擇一定數(shù)量的企業(yè)——最終確定了抽樣總體為400家。趙瑜等[22]界定了其抽樣總體為浙江省某衛(wèi)視集團中自愿參與研究的40個節(jié)目團隊中154名員工。
第二,根據(jù)研究問題準確闡述分析單元。組織管理領(lǐng)域分析單元主要包括個人層面的企業(yè)家、領(lǐng)導、高管、經(jīng)理人、員工,團隊層面的創(chuàng)業(yè)團隊、高管團隊、研發(fā)團隊等,組織或企業(yè),跨組織或多個分析單元并存的情況。就個人層面的大部分文獻,如早期研究對企業(yè)家勝任力[23]及近年對領(lǐng)導與員工關(guān)系,上下級關(guān)系的研究[24],都對分析單元給出了相對準確的闡述。就團隊、組織層面的文獻,部分文獻對分析單元的描述有所欠缺,但是近年來情況有所改善,如趙瑜等[22]明確指出研究中的倫理型領(lǐng)導是一個團隊層面變量,并對個體層面的員工評價的倫理型領(lǐng)導數(shù)據(jù)進行聚合,實現(xiàn)個體層面與團隊層面變量的跨層嵌套。另外,朱蘇麗等[25]研究員工與組織時,摒棄了將“員工”“組織”看作相互獨立的利益主體,而是從社會交換理論對中國企業(yè)員工與組織關(guān)系的親情交換關(guān)系進行研究,對分析單元給出了相對明確的界定。
第三,確定合理的樣本量并且闡述其依據(jù)。大部分文獻都直接指明了樣本數(shù)量,但在闡述樣本量的合理性及依據(jù)有失偏頗,說服力不足,特別是缺乏樣本量相對總體的量的充分闡述及在特殊情況下樣本量的合適性,以及樣本量與回復率之間的關(guān)系的解釋。如姜翰和金占明[26]主要以運動用品(鞋服)制造業(yè)為樣本研究企業(yè)間關(guān)系 ,經(jīng)過兩個步驟,前期確立業(yè)內(nèi)97家重點企業(yè)為對象獲取相關(guān)數(shù)據(jù),后期對142家其他企業(yè)進行問卷調(diào)查,文章只指出最終得到151個企業(yè)關(guān)系的有效數(shù)據(jù),但沒有清晰指明樣本量設(shè)置的合理性。又如陳衛(wèi)旗[27]在正式抽樣時對全國18家企業(yè)的人力資源部各自抽取20名員工作為組織樣本,同樣沒有準確闡明其依據(jù),這就暗含著樣本量是隨機的。
第四,對于取樣過程進行充分描述。早期的文獻普遍存在缺乏取樣過程的詳細描述的情況,例如部分文獻未清晰呈現(xiàn)調(diào)查對象與測量單位之間關(guān)系,其中一個例子是衛(wèi)武等[28]在研究企業(yè)對利益相關(guān)者壓力反應(yīng)情況時,選取500家企業(yè)的主管進行問卷填寫,但是未對調(diào)研對象及測量單位的關(guān)系進一步準確描述。當然也有部分學者在這方面做的比較妥當,如莊貴軍等[29]問卷發(fā)放的對象是熟悉關(guān)系營銷的銷售人員,從而保證了調(diào)查對象與測量單位(關(guān)系型渠道治理、關(guān)系營銷導向、跨組織人際關(guān)系)之間的關(guān)系;另外,部分學者未對地理位置、所屬行業(yè)、預測試的技術(shù)細節(jié)進行準確披露,闡述取樣過程都存在一定的缺失和不足,導致難以對樣本代表總體特征的有效性進行評估,無法確定取樣偏差可能對獲得樣本的本質(zhì)造成的影響,同時也很難讓其他研究者在可比較的條件下復制該研究。當然,也有一些學者在這方面做得相對較好,如姜翰等[30]研究創(chuàng)業(yè)企業(yè)機會主義行為時,樣本空間選定為運動用品(鞋服)制造企業(yè)集群,明確界定抽樣時間及創(chuàng)業(yè)企業(yè)范圍,分兩個階段進行抽樣,階段一收集402家集群企業(yè),階段二排除了不符合既定創(chuàng)業(yè)企業(yè)標準及36個信度明顯不高或數(shù)據(jù)缺失嚴重的樣本后得到366家企業(yè)作為樣本。又如姚晶晶等[21]對數(shù)據(jù)搜集分層抽樣的技術(shù)細節(jié)、仔細披露在調(diào)查前中后采取的多種手段的過程和細節(jié)來保證調(diào)查可靠性。
第五,對于回收率和無回復率的情況描述。大部分文獻都清晰闡明了問卷的回收率,這是值得肯定的部分。如胡望斌等[31]明確指出在對590家企業(yè)進行問卷調(diào)研時,回收問卷150份,有效問卷回收率為25.42%。無回復問卷會導致外部效度下降,那么這就對基于樣本得出的結(jié)論的解釋性產(chǎn)生質(zhì)疑,然而鮮有文獻對無回復情況做出的補救措施。
第六,根據(jù)所采用的抽樣策略清晰闡述合理的估計和數(shù)據(jù)分析過程。早期有社會調(diào)查性研究,主要用于政策制定,這類文章普遍缺乏進行樣本估計偏差評估。當然,不乏一些學者開始采取了手段對樣本估計偏差進行評估,比如張杰等[32]考慮到樣本可能存在非隨機性或異常值對回歸產(chǎn)生影響,去掉5%比例企業(yè)規(guī)模最高和最低的樣本進行穩(wěn)健性檢驗,并且對蘇南、蘇中、蘇北三個地區(qū)樣本各自進行回歸,得出與總體樣本變量穩(wěn)健一致的結(jié)果,這樣可以有效避免了樣本估計偏差。錢麗萍等[33]進行多次無差異性檢驗,確定寄回問卷和無回復問卷的企業(yè)在規(guī)模、處理與零售商關(guān)系中使用的影響戰(zhàn)略等問題沒有顯著差異,保證了樣本的代表性。又如趙可汗等[34],由于樣本企業(yè)來自不同地區(qū)(4個),不同行業(yè)(6個),建立三層次模型以考察團隊信息深度加工在團隊、企業(yè)、產(chǎn)業(yè)和地區(qū)各層次的方差,得出在產(chǎn)業(yè)、地區(qū)層次方差解釋比例不顯著的結(jié)果,由此選擇僅在企業(yè)層次進行聚類回歸分析。但是,忽視樣本估計、無回復偏差評估的學者仍占很大比例,不利于幫助判斷樣本的總體代表性,值得學者提高警惕。
(二)測量合適性的評估
第一,對信度的評估。早期研究特別是07、08年間忽視信度評估,極少文獻采取信度檢驗,后來信度檢驗引起了越來越多學者的重視,但是也有部分學者忽視這一問題。即便部分學者采取了一定的信度檢驗,但是存在普遍僅僅關(guān)注內(nèi)部一致性(折半信度為主),而忽視其他信度的評估的情況,例如復本信度、重測信度的評估。如楊玉龍等[35]則對問卷涉及的9個變量進行了內(nèi)部一致性測試,為獲得最高的Cronbach’s α值,從整套量表刪除了一些項目以保證較高信度,但也有可能威脅量表的效度。
第二,對效度的評估。效度評估在近年來越來越受到重視,學者們普遍關(guān)注結(jié)構(gòu)效度,缺乏內(nèi)容效度的評估,做的比較好的有賈建鋒[36]通過借鑒成熟量表設(shè)計、反復推敲每個問題、采用嚴格的探索性因子和驗證性因子這3個環(huán)節(jié)保證了內(nèi)容效度,此外通過對3個變量(戰(zhàn)略導向、企業(yè)績效、高管勝任特征)的驗證性因子分析的各項擬合指標,通過NFI值基本接近經(jīng)驗值得出聚合效度良好的結(jié)論,此外作者采用AVE值的平方根與維度之間的相關(guān)系數(shù)的大小關(guān)系判別區(qū)分效度,保證了效度評估的全面性。
第三,對共同方法偏差的評估。縱觀《管理世界》137篇采取問卷法的文獻中,進行共同方法偏差評估的文章只有較少一部分,需要更多的學者對其重要性予以關(guān)注。當然,陸續(xù)有學者開始考慮到問卷都由同一個被試者填寫可能會引起共同方法變異的問題,而采用Harman單因子檢驗法對回收數(shù)據(jù)進行檢驗是常用手段。例如焦豪等[37]在研究創(chuàng)業(yè)導向與企業(yè)動態(tài)能力關(guān)系時,賈建鋒等[36]在分析高管勝任特征與戰(zhàn)略導向的匹配對企業(yè)績效的影響時,均采用該方法排除了共同方法變異的問題。但是,仍有大量學者忽視對問卷數(shù)據(jù)進行同源偏差檢驗。
通過上文的簡要評估,本文接下來將簡要總結(jié)中國管理研究中問卷調(diào)查法研究在取樣與測量合適性方面存在的主要問題,并以發(fā)表在頂級期刊上的最佳實踐來提出解決這些問題對應(yīng)的建議。
問題一:普遍缺乏對抽樣總體的明確界定。
缺乏對抽樣總體的明確界定導致讀者無法清楚識別樣本的對象、范圍及特征,同樣無法合理評估樣本是否可以代表目標總體,無論抽樣的其他環(huán)節(jié)表現(xiàn)得多好,最終也會影響研究的效度[4]。在創(chuàng)業(yè)研究領(lǐng)域,總體難以識別導致抽樣成為難題[8]。例如,Zhang和Li[38]在研究新創(chuàng)企業(yè)與服務(wù)中介(如會計和金融服務(wù)企業(yè)、技術(shù)服務(wù)企業(yè)、法律服務(wù)和人才搜索企業(yè))之間的連帶與該企業(yè)產(chǎn)品創(chuàng)新之間的關(guān)系時,明確界定以廣東省一個高新技術(shù)產(chǎn)業(yè)集群中隨機抽取的500個新創(chuàng)企業(yè)為抽樣總體,并且清晰闡述所抽取樣本必須滿足的三個標準,提高抽樣總體對目標總體的解釋合理性。
問題二:普遍未能對抽樣過程進行詳細描述。
如何提供獲取樣本的充足信息導致在評估總體特征時難以判斷樣本的有效性,無法評估抽樣偏差可能對獲得樣本的性質(zhì)產(chǎn)生的影響。另外好的研究能夠被精準設(shè)計并開展,缺乏抽樣流程的詳細闡述不利于推廣該研究[4]。例如Li等詳細描述了反向翻譯、前測、1000個企業(yè)的抽樣總體、抽樣過程、采訪過程等[39];Zhang和Li也詳細描述了從開始對抽樣總體、標準的界定,現(xiàn)場調(diào)查各企業(yè)邀請兩位響應(yīng)者的安排,確保受訪者的提供準確數(shù)據(jù)等技術(shù)細節(jié)及流程;詳細的描述可以確保抽樣過程可復現(xiàn)性,幫助讀者掌握抽樣的細節(jié),對其結(jié)論作出評判[38]。
問題三:普遍缺乏對樣本估計偏差評估、無回復偏差的評估。
樣本估計偏差及無回復偏差是幫助讀者判斷樣本抽樣信度的重要手段,大部分學者都忽視了這一點。Zhang和Li通過嚴格篩選、比對受訪者在決策制定的參與程度、工作年限、知識背景、職位等來確保參與水平無顯著差異,通過每家企業(yè)的兩位受訪者同時回答兩個的問題來對響應(yīng)相關(guān)性進行檢測,通過對比響應(yīng)及無響應(yīng)新創(chuàng)企業(yè)的規(guī)模和年齡方面的特征,均發(fā)現(xiàn)并無偏差,由此多層次地保證了抽樣的有效性[38]。Li等則通過相應(yīng)企業(yè)和無響應(yīng)企業(yè)在企業(yè)特征(企業(yè)所有權(quán)、企業(yè)年齡、產(chǎn)業(yè)類型和利潤)進行MANOVA分析發(fā)現(xiàn)無顯著偏差[39]。Flynn等則通過對最早收回的最晚收回的兩批問卷的企業(yè)固定資產(chǎn)、銷售額和員工數(shù)等基本信息進行T檢驗,發(fā)現(xiàn)并無顯著差異來檢驗無響應(yīng)偏差[40]。
問題四:普遍缺乏對被調(diào)查對象與測量單元之間關(guān)系的評估。
此不足導致抽樣數(shù)據(jù)的可信度下降,而Zhang和Li對于因變量(產(chǎn)品創(chuàng)新)、自變量(初創(chuàng)創(chuàng)業(yè)與中介機構(gòu)的關(guān)系、感知產(chǎn)業(yè)增長等)單位與調(diào)查對象資質(zhì)和匹配度有嚴格把控[38]。比如被調(diào)查對象需要是新創(chuàng)企業(yè)的管理主管、CEO、業(yè)務(wù)或產(chǎn)品經(jīng)理,并且在戰(zhàn)略決策中參與程度是4(1=完全不參與,5=非常高參與度),這些方法都確保了調(diào)查對象能夠有效提供準確數(shù)據(jù)。Flynn等匯報了訪談對象的職位、工作年限[40],而Li等則通過現(xiàn)場訪談來確定應(yīng)答者是否為高管且對訪問內(nèi)容的熟悉程度[39]。
問題五:重點關(guān)注內(nèi)部一致性,而忽略了其他提升信度的策略。
除了內(nèi)部一致性,重測信度、復本信度等都可以作為提升信度的一些策略。例如Zhang和Li不僅僅關(guān)注內(nèi)部一致性,用Cronbach’s alpha系數(shù)評估構(gòu)念的可靠性,還把問卷分為兩部分,讓兩位高管分別填寫一部分,并核實了兩位響應(yīng)者之間在同時回答的兩個問題上的評判一致性[38]。相類似的,除了Cronbach’s alpha,Li等在問卷收回過程中收集了訪談對象的名片,并事后隨機電話回訪了60位對象,每人重新回答了10個問題,并評判重測信度[39]。
問題六:對內(nèi)容效度的評估缺乏。
在問卷層面,Zhang和Li[38],Li等[39]和Flynn等[40]都選擇已經(jīng)使用過的有效問卷,并將問卷進行反向翻譯避免文化偏差,通過8~30左右高管面對面訪談進行預測試,識別出有效的測量題項,對有問題的問題進行修改或者刪除,這些技術(shù)細節(jié)確保測量的內(nèi)容有效性。當然,還可以通過專家就某個構(gòu)念的測量是否符合她們對此構(gòu)念的認識進行主觀判斷,看看構(gòu)念內(nèi)容的測量指標是否遺漏、是否無關(guān)或者比例結(jié)構(gòu)是否偏頗來判斷內(nèi)容效度[17]。
問題七:聚合效度與區(qū)分效度的做法存在一定的問題。
在采用驗證性因子分析進行聚合效度評價是,需要把涉及到的所有潛變量均放在一個測量模型中進行分析,區(qū)分效度則主要借鑒多特質(zhì)多方法模式進行分析。例如,Zhang和Li[38]采用驗證性因子分析評估聚合效度,測量模型的的擬合值優(yōu)秀,且所有路徑系數(shù)均顯著,說明聚合效度較好;區(qū)分效度的識別則采用φs在95%的置信度上都不包含值1和卡方差異性檢驗來判定。Li等[39]和Flynn等[40]也采用了相類似的做法。
問題八:普遍缺乏對共同方法偏差的關(guān)注。
共同方法偏差的控制被大大忽略,Zhang和Li[38]按照Podsakoff等[19]的建議,整合了程序方法及統(tǒng)計技術(shù)來評估共同方法偏差。前者主要通過每家企業(yè)設(shè)置兩名受訪者、訪前培訓等收到,后者除了采用常用的Harmen’s單因素測試之外,還進行了潛變量方法對一個未測量潛變量進行控制。此外,交互效應(yīng)的成立也提供了一個側(cè)面的證據(jù)。Li等[39]主要采用了不同數(shù)據(jù)來源來規(guī)避同源偏差:企業(yè)特征(企業(yè)所有權(quán)、績效年齡、規(guī)模和產(chǎn)業(yè)類型)和產(chǎn)業(yè)特征(競爭強度和結(jié)構(gòu)不確定性)數(shù)據(jù)來源于二手數(shù)據(jù),而核心自變量來源于問卷;并用Harmen’s單因素測試進行檢驗。Flynn等[40]采用了Harmen’s單因素檢驗外,還找到一個方法因素(Method factor),并對比了加入這一因素的模型,盡管模型擬合更優(yōu),但路徑系數(shù)相似。這里需要說明的是Harman單因素檢驗的最大優(yōu)點是簡單易用,但僅僅是一種評估共同方法變異嚴重程度的診斷技術(shù),而且是一種不靈敏的檢驗方法,并沒有任何控制方法效應(yīng)的作用。除了Harman單因素檢驗,還可以通過偏相關(guān)分析法,即將方法變異來源作為統(tǒng)計分析中的一個協(xié)變量;或者在結(jié)構(gòu)方程模型中,將共同方法偏差作為一個潛在變量,在無可測方法情況下進行方法因素效應(yīng)的控制等手段[19]。
問卷調(diào)研法在取樣和測量方面的合適性會顯著影響研究的嚴謹性,本文的意義在于:第一,提醒管理學者在采用問卷調(diào)研法時特別關(guān)注取樣和測量的合適性,關(guān)注問卷調(diào)研過程中的嚴謹性;第二,為管理學者采用問卷調(diào)研法進行理論檢驗過程中應(yīng)該規(guī)避的常見問題提供一個清單和建議??傊诖袊墓芾韺W者不論是構(gòu)建管理的中國理論還是中國的管理理論的路上,均能為人類管理學知識的發(fā)展做出自己的貢獻。
[1]陳曉萍,徐淑英,樊景立.組織與管理的實證研究方法[M].北京: 北京大學出版社,2012.
[2]BARTLETT J E,KOTRLIK J W,HIGGINS C C.Organizational research: Determining appropriate sample size in survey research [J].Information Technology,Learning,and Performance Journal,2001,19(1): 43-50.
[3]ROGELBERG S G,STANTON J M.With organizational survey nonresponse[J].Organizational Research Methods,2007,10(2): 195-209.
[4]WANG L,MCNAMARA J F.An evaluation of the sample designs in educational survey research [R].Chicago: ERIC,1997.
[5]羅勝強,姜嬿.管理學問卷調(diào)查研究方法[M].重慶: 重慶大學出版社,2014.
[6]KRAEMER K L.Survey research method in management information systems: an assessment[J].Journal of Management Information Systems.1991,10(2): 75-105.
[7]DATE P U B,Type P U B,Price E.Practical guidelines for evaluating sampling designs in survey studies [J].Evaluation Methods,1999: 25.
[8]SHORT J C,KETCHEN Jr D J,COMBS J G,IRELAND R D.Research methods in entrepreneurship[J].Organizational Research Methods,2010,13: 6-15.
[9]WUNSCH D.Survey research: Determining sample size and representative response[J].Business Education Forum,1986,40(5): 31-34.
[10]FOWLER F J.Survey Research Methods[M].Beverly Hills,CA: Sage Publications,1984.
[11]SAVALL H,ZARDET V,BONNET M,PERON M.The emergence of Implicit criteria actually used by reviewers of qualitative research articles[J].Organizational Research Methods,2008,11(3): 510-540.
[12]BARUCH Y.Response rate in academic studies-A comparative analysis [J].Human Relations,1999,52(4): 421-438.
[13]KUDER G F,RICHARDSON M W.The theory of the estimation of test reliability[J].Psychometrika,1937,2: 151-60.
[14]CHO E,KIM S.Cronbach’s coefficient alpha: Well known but poorly understood[J].Organizational Research Methods,2015,18(2): 207-230.
[15]LANCE C E,DAWSON B,BIRKELBACH D,HOFFMAN B J.Method effects,measurement error,and substantive conclusions[J].Organizational Research Methods,2010,13(3): 435-455.
[16]COOK T D,CAMPBELL D T.Quasi-experiments : Design and analysis issues for field settings[J].Psychologica Belgica,1979,20(1): 109-112.
[17]HAYNES S N,RICHAED D,KUBANY E S.Content validity in psychological assessment: A functional approach to concepts and methods[J].Psychological Assessment,1995,7(3): 238-247.
[18]CAMPBELL D T,FISKE D W.Convergent and discriminant validation by the multitrait-multimethod matrix[J].Psychological Bulletin,1959,56(56): 81-105.
[19]PODSAKOFF P M,MACKENZIE S B,LEE J Y,PODSAKOFF N P.Common method biases in behavioral research: A critical review of the literature and recommended remedies[J].Journal of Applied Psychology,2003,88(5): 879-903.
[20]SIEMSEN E,ROTH A,OLIVEIRA P.Commonmethod bias in regression models with linear,quadratic,and interaction effects[J].Organizational Research Methods,2010,13(3): 456-476.
[21]姚晶晶,鞠冬,張建君.企業(yè)是否會近墨者黑: 企業(yè)規(guī)模、政府重要性與企業(yè)政治行為[J].管理世界,2015(07): 98-108.
[22]趙瑜,莫申江,施俊琦.高壓力工作情境下倫理型領(lǐng)導提升員工工作績效和滿意感的過程機制研究[J].管理世界,2015(08): 120-131.
[23]林澤炎,劉理暉.轉(zhuǎn)型時期中國企業(yè)家勝任特征的探索性研究[J].管理世界,2007(01): 98-104.
[24]劉智強,李超,廖建橋,龍立榮.組織中地位、地位賦予方式與員工創(chuàng)造性產(chǎn)出—來自國有企事業(yè)單位的實證研究[J].管理世界,2015(03): 86-101.
[25]朱蘇麗,龍立榮,賀偉,王忠軍.超越工具性交換: 中國企業(yè)員工—組織類親情交換關(guān)系的理論建構(gòu)與實證研究[J].管理世界,2015(11): 119-134.
[26]姜翰,金占明.企業(yè)間關(guān)系強度對關(guān)系價值機制影響的實證研究—基于企業(yè)間相互依賴性視角[J].管理世界,2008(12): 114-125.
[27]陳衛(wèi)旗.組織與個體的社會化策略對人—組織價值匹配的影響[J].管理世界,2009(03): 99-110.
[28]衛(wèi)武,夏清華,資海喜,賀偉.企業(yè)的可見性和脆弱性有助于提升對利益相關(guān)者壓力的認知及其反應(yīng)嗎?—動態(tài)能力的調(diào)節(jié)作用[J].管理世界,2013(11): 101-117.
[29]莊貴軍,李珂,崔曉明.關(guān)系營銷導向與跨組織人際關(guān)系對企業(yè)關(guān)系型渠道治理的影響[J].管理世界,2008(07): 77-90.
[30]姜翰,金占明,焦捷,馬力.不穩(wěn)定環(huán)境下的創(chuàng)業(yè)企業(yè)社會資本與企業(yè)“原罪”—基于管理者社會資本視角的創(chuàng)業(yè)企業(yè)機會主義行為實證分析[J].管理世界,2009(06): 102-114.
[31]胡望斌,張玉利,楊俊.同質(zhì)性還是異質(zhì)性: 創(chuàng)業(yè)導向?qū)夹g(shù)創(chuàng)業(yè)團隊與新企業(yè)績效關(guān)系的調(diào)節(jié)作用研究[J].管理世界,2014(06): 92-109.
[32]張杰,劉志彪,鄭江淮.中國制造業(yè)企業(yè)創(chuàng)新活動的關(guān)鍵影響因素研究—基于江蘇省制造業(yè)企業(yè)問卷的分析[J].管理世界,2007(06): 64-74.
[33]錢麗萍,劉益,喻子達,陶蕾.制造商影響戰(zhàn)略的使用與零售商的知識轉(zhuǎn)移—渠道關(guān)系持續(xù)時間的調(diào)節(jié)影響[J].管理世界,2010(02): 93-105.
[34]趙可汗,賈良定,蔡亞華,王秀月,李玨興.抑制團隊關(guān)系沖突的負效應(yīng): 一項中國情境的研究[J].管理世界,2014(03): 119-130.
[35]楊玉龍,潘飛,張川.上下級關(guān)系、組織分權(quán)與企業(yè)業(yè)績評價系統(tǒng)[J].管理世界,2014(10): 114-135.
[36]賈建鋒,唐貴瑤,李俊鵬,王文娟,單翔.高管勝任特征與戰(zhàn)略導向的匹配對企業(yè)績效的影響[J].管理世界,2015(02): 120-132.
[37]焦豪,魏江,崔瑜.企業(yè)動態(tài)能力構(gòu)建路徑分析: 基于創(chuàng)業(yè)導向和組織學習的視角[J].管理世界,2008(04): 91-106.
[38]ZHANG Y,LI H.Innovation search of new ventures in a technology cluster: The role of ties with service intermediaries[J].Strategic Management Journal,2010,31(1): 88-109.
[39]LI J,POPPO L,ZHOU K Z.Do managerial ties in China always produce value? Competition,uncertainty,and domestic vs.foreign firms[J].Strategic Management Journal,2008,29(4): 383-400.
[40]FLYNN B B,HUO B,ZHAO X.The impact of supply chain integration on performance: A contingency and configuration approach[J].Journal of Operations Management,2010,28(1): 58-71.
Adequacy of the Sampling Process and Measurement in Survey Studies: An Assessment and Suggestion
LIU Yang XIE Li
(South China University of Technology Guangzhou 510640 China)
Survey research becomes not only the commonly used quantitative method in psychology and sociology areas,but also the most popular data collection method in management research for its high convenience,strong operability,and low cost.However,the appropriateness of sampling and measurement are hard to guarante.In order to improve the standardization and science of the survey research in management research,this paper evaluates the current situation of the appropriateness of sampling and measurement based on the papers published in Management World from 2007 to 2016,identifies research problems,and proposes corresponding suggestions.
survey studies;sample;measurement;Chinese management studies
F270
A
10.14071/j.1008-8105(2017)02-0024-08
編 輯 何婧
2017-01-05
國家自然科學基金(71502065,71502160);廣東省教育廳特色創(chuàng)新項目(教育科研類)(2014GXJK006);廣東省軟科學項目(2016A070706002);華南理工大學工商管理學院研究生重點課程建設(shè)項目(ykc201601).
劉洋(1987-)男,博士,華南理工大學工商管理學院副教授;謝麗(1992-)女,華南理工大學工商管理學院碩士研究生.