文/胡安寧
在過去的十幾年中,隨著以算法為基礎(chǔ)的各種機器學習技術(shù)的發(fā)展與普及,社會科學研究者對文本的探索也日漸從傳統(tǒng)的以詮釋為導向的內(nèi)容分析法轉(zhuǎn)向以預(yù)測和因果推斷為導向的大規(guī)模文本挖掘。這一方法論的變化趨勢為社會科學研究者提供了越來越多的新興研究工具,極大地拓展了社會科學文本分析的研究空間。本文擬從三個方面對以文本為分析基礎(chǔ)的社會科學研究進行討論。首先,對目前社會科學文本探索的多重方法進行回顧,將其劃歸為以詮釋為導向的方法、詮釋與結(jié)構(gòu)探索并重的方法和以結(jié)構(gòu)為導向的方法三類,以此呈現(xiàn)出社會科學文本研究工具的多樣性。其次,針對社會科學文本探索的方法論發(fā)展,圍繞研究目標、研究手段和研究對象三個基本維度,系統(tǒng)展示從以詮釋為導向的內(nèi)容分析向以結(jié)構(gòu)為導向的文本挖掘的過渡過程。最后,針對日漸興起的以算法為導向的文本探索方法,討論其潛在的局限性及進一步發(fā)展的方向。
與任何一種體系化的方法論框架一樣,以文本為基礎(chǔ)的社會科學研究涉及多種不同的具體策略,本文將這些經(jīng)驗分析策略大致分為三類,即以詮釋為導向的文本探索方法、詮釋與結(jié)構(gòu)并重的文本探索方法和以結(jié)構(gòu)為導向的文本探索方法。
以詮釋為導向的文本探索方法的范例是傳統(tǒng)的內(nèi)容分析法。作為一個經(jīng)典的社會科學研究方法,內(nèi)容分析法強調(diào)通過對特定文本內(nèi)容的編碼,將文本信息提煉為圍繞特定主題的系統(tǒng)化的編碼信息,之后通過解讀編碼信息,研究者就可以跳過紛繁復雜的文本內(nèi)容本身,從而在分析過程中更為聚焦,得出具有實質(zhì)意義的結(jié)論。傳統(tǒng)內(nèi)容分析法的重點是通過編碼來簡化內(nèi)容??梢哉f,編碼的過程本質(zhì)上是對文本內(nèi)容的詮釋和抽取,通過這種“轉(zhuǎn)化”,研究者可以更加聚焦于文本在某些分析維度上的內(nèi)容特點。然而,這種以詮釋為導向的分析策略也并非沒有局限。一個被廣泛提及的問題是,不同的研究者對于同樣的內(nèi)容所作出的詮釋與編碼可能存在很大的差異。詮釋與結(jié)構(gòu)并重的文本探索方法可以看作是對傳統(tǒng)內(nèi)容分析法的一種拓展。這里拓展的關(guān)鍵在于,通過計算機輔助的分析手段來對文本中的某些關(guān)鍵點進行結(jié)構(gòu)化的分析和展示。詮釋與結(jié)構(gòu)并重的文本探索方法可以有很多具體的例證。比如,語義網(wǎng)(semantic network)分析是指利用網(wǎng)絡(luò)分析手段展示某一文本中特定的具有實質(zhì)意義的詞語彼此之間的復雜網(wǎng)絡(luò)關(guān)系。詮釋與結(jié)構(gòu)并重的文本探索方法所分析的對象并不局限于內(nèi)容分析法所抽離出的特定關(guān)鍵詞或者主題詞之間的網(wǎng)絡(luò)結(jié)構(gòu),社會科學研究者還會通過考察其他的關(guān)涉結(jié)構(gòu)的統(tǒng)計量來進行文本分析。例如,通過使用伽羅瓦格(Galois Lattices),研究者可以展現(xiàn)出一個文本中描述的主體(actor)和事件(event)之間的復雜關(guān)聯(lián),從而建構(gòu)出所謂的二部圖(two-mode)網(wǎng)絡(luò)。詮釋與結(jié)構(gòu)并重的另外一個典型方法是量化敘事分析(quantitative narrative analysis)。隨著計算機算力和算法效率的提升,社會科學領(lǐng)域?qū)τ谖谋镜姆治鲋饾u引入了越來越多的計算機分析手段,這一趨勢使得社會科學的文本探索越發(fā)傾向于對文本進行結(jié)構(gòu)化的考察。這方面比較有代表性的方法是主題模型和詞嵌入模型。
在上面的討論中,本文展示了不同的社會科學文本探索工具,這些工具的提出和集中使用發(fā)生在不同的歷史時期,因此與特定歷史階段的研究重點、計算機算力限制和理論關(guān)懷相關(guān)聯(lián)。通過考察這些方法,可以近似勾勒出社會科學文本探索的方法論變遷特征,本文從研究目標、研究手段和研究對象三個維度來進行討論。
在研究目標方面,無論是早期的內(nèi)容分析編碼,還是日漸興起的基于算法的文本挖掘技術(shù),其共通點在于對紛繁復雜的文本內(nèi)容進行某種簡化。但是,在對簡化后的內(nèi)容如何使用方面,卻呈現(xiàn)出從詮釋導向到因果/預(yù)測導向的變化。傳統(tǒng)的內(nèi)容分析基于人工編碼,相對而言,編碼后的數(shù)據(jù)所呈現(xiàn)出的信息比較簡單,研究者完全可以通過直接審讀這些編碼信息來間接把握文本的內(nèi)容。但是,詮釋與結(jié)構(gòu)并重的文本探索方法在詮釋之外開拓出了結(jié)構(gòu)分析這一新的關(guān)注點。這種針對結(jié)構(gòu)特征的分析在今天的算法模型中得到了更為直接的體現(xiàn)。在基于算法的各種工具的幫助下,文本結(jié)構(gòu)性因素變得日漸“可見”。之后,研究者們便可以把這些結(jié)構(gòu)性特征作為常規(guī)意義上的變量納入各種結(jié)構(gòu)化的模型分析(如回歸模型)中,從而達到因果推論甚至預(yù)測的目的。
除了研究目標,在研究手段方面,社會科學文本探索的方法也體現(xiàn)出一系列的歷時性變化,其中最為重要的一點就是研究者人工因素的逐漸淡化。如果說傳統(tǒng)的內(nèi)容分析法受社會科學研究者和其合作者(如其他編碼人員)主導的話,那么到了諸如語義網(wǎng)分析這樣的詮釋與結(jié)構(gòu)并重的方法這里,計算機輔助分析開始變得日漸重要。這種基于“機器”的分析過程既是特定算法實現(xiàn)的現(xiàn)實需要,也是處理體量日漸增大的數(shù)據(jù)的必然要求。這種“人工”的式微到了以算法為基礎(chǔ)的文本挖掘這里,變得更為明顯。
在研究對象方面,社會科學文本探索的方法論呈現(xiàn)出從“意義”向“結(jié)構(gòu)”的變化。如果說意義是一系列可以幫助我們理解特定社會現(xiàn)象的“說法”或者“故事”,那么結(jié)構(gòu)則強調(diào)了不同因素之間的客觀互動關(guān)聯(lián)。顯然,傳統(tǒng)內(nèi)容分析的編碼結(jié)果鮮有對結(jié)構(gòu)特征的呈現(xiàn),到了詮釋與結(jié)構(gòu)并重的文本探索方法和后面以結(jié)構(gòu)為導向的分析方法那里,結(jié)構(gòu)性信息就變得越發(fā)重要。當結(jié)構(gòu)因素成為承載科研結(jié)果的主要面向,研究者們便不再刻意追求特定的文本本身的意義,轉(zhuǎn)而討論結(jié)構(gòu)性特征所具有的“意義”,或者說對結(jié)構(gòu)性特征進行某種“二次”詮釋。除了從意義向結(jié)構(gòu)的變化,研究對象上的轉(zhuǎn)向還體現(xiàn)在文本信息的載體變化上。由于人工分析能力的局限,傳統(tǒng)的內(nèi)容分析法所使用的是比較小的數(shù)據(jù)。與這種分析對象相比,今天基于算法的分析對象可以是所謂的大數(shù)據(jù)甚至流(stream)數(shù)據(jù)。借助于迅速提升的計算機硬件算力和日漸高效的算法設(shè)計,文本挖掘的對象可以是人類目前為止所積累的海量書籍資料,也可以是某一領(lǐng)域全部的文本資料(如全唐詩),此時所使用的數(shù)據(jù)甚至可以稱為“全”數(shù)據(jù),這種對海量數(shù)據(jù)的分析能力是傳統(tǒng)文本探索技術(shù)所不具備的。
上文展示了社會科學文本探索的方法論變遷特征,考慮到以算法為導向的文本挖掘技術(shù)在社會科學不同學科內(nèi)的迅速應(yīng)用,這一部分將著重對這一新興發(fā)展趨勢進行討論。由于這一類方法的介紹性書籍與論文頗多,研究者們對于它們的強項已經(jīng)有很多直觀的感受,因此,下文重點分析這一類方法存在的限制和進一步發(fā)展的方向。
數(shù)據(jù)清洗:與傳統(tǒng)的量化數(shù)據(jù)分析一樣,在進行文本分析的時候,從一開始的原始數(shù)據(jù)到最后可用于分析的數(shù)據(jù)之間存在著一系列的數(shù)據(jù)清洗過程。具體而言,對于文本數(shù)據(jù),數(shù)據(jù)清洗意味著需要對文本中存在的虛詞、標點符號等詞語進行去除,以及對同義詞和近義詞進行統(tǒng)一。和傳統(tǒng)的定量研究相比,文本數(shù)據(jù)的清洗對于最后結(jié)果的呈現(xiàn)有著更為直接和深遠的影響。正因為如此,未來社會科學文本挖掘分析的一個重要的發(fā)展方向是數(shù)據(jù)清洗過程的標準化和流程化,以求提升分析結(jié)論的可比性。這也是可重復性研究的直接要求和題中之義。
過擬合:與傳統(tǒng)內(nèi)容分析不同,基于算法的文本研究所使用的量化分析手段更為復雜。例如,在算法的參數(shù)設(shè)定上,可以有不同的選擇。在實踐中,研究者往往通過多次試錯來最后獲得一個所謂的“最優(yōu)”參數(shù)和“最優(yōu)”模型。從數(shù)據(jù)分析的角度來看,對某一數(shù)據(jù)反復試錯來調(diào)整參數(shù)的一個最大的危害在于會出現(xiàn)過擬合問題,即模型對于數(shù)據(jù)的特征把握得過分好,以至于數(shù)據(jù)本身的噪聲也被看作是有意義的信號。顯然,這時的數(shù)據(jù)分析結(jié)論缺乏足夠的泛化能力。
驗證:通過算法獲得的文本分析結(jié)果一直以來都因為缺乏足夠的驗證手段而受到詬病。例如,主題模型獲得的主題在多大程度上可以作為是對原始文本信息有“代表性”的抽離,這一問題一直以來缺乏一個被廣泛接受的指標。傳統(tǒng)的分析過程可以使用主題詞語義一致性得分或者兩兩互信息得分來進行衡量,這兩種方法都是一種內(nèi)樣本(in-sample)的評估手段,即在獲得主題估計之后,觀察特定主題的關(guān)鍵詞內(nèi)部的一致性。但是,由于主題模型的擬合過程就是通過這些主題詞的詞頻或者逆文檔頻率來構(gòu)建主題的,因此這種內(nèi)樣本評估很難看出主題的泛化能力。一個比較合理的評估和驗證手段應(yīng)當是外樣本(out-of-sample)評估,這方面社會學的計算民族志分析已經(jīng)有了一些開拓性的探索,或許也應(yīng)當是未來文本挖掘方法的重要發(fā)展方向之一。
關(guān)于驗證的另外一個問題是如何確定文本和變量之間的關(guān)系。正如上文所言,研究者對文本進行挖掘之后所形成的一系列結(jié)構(gòu)性信息可以作為變量納入一系列的因果關(guān)系模型甚至預(yù)測模型中。以文本作為基礎(chǔ)進行此類分析需要對文本所測量的變量究竟是什么有著清晰的認識,但是到目前為止,這方面的工作還有很多挑戰(zhàn)。例如,以文本進行因果推斷時,文本中既包含了研究者關(guān)心的變量,也包含了一些其他混淆因素。此時,以文本為單位所做的分析無法排除混淆因素的作用(即出現(xiàn)所謂的效應(yīng)替代[aliasing])。此外,文本中的詞語彼此相聯(lián)系,因此以文本進行因果推斷有可能違反了所謂的分析單位獨立性假設(shè)。這些問題的核心在于我們對文本加工后所獲得的信息在多大程度上能夠代表研究者所需要的信息,其本質(zhì)關(guān)涉的是測量的質(zhì)量和效度。
圍繞文本信息,社會科學研究者有著多種分析工具可供選擇,這些分析工具或以詮釋為主導,或以結(jié)構(gòu)分析為主導,或者二者并立。從傳統(tǒng)的內(nèi)容分析到新近的以算法為導向的文本挖掘技術(shù),在研究目標、研究手段和研究對象三個維度上呈現(xiàn)出明顯的過渡特點。而圍繞著機器學習為基礎(chǔ)的文本挖掘,本文從數(shù)據(jù)清洗、過擬合和數(shù)據(jù)驗證三個方面討論了其潛在的局限性和未來的發(fā)展方向。
盡管我們勾勒出了社會科學文本研究的一個大致的發(fā)展趨勢,但是我們并不認為新近的方法可以取代早期的方法。相反,我們認為,不同的文本探索手段雖然在不同的歷史時期開發(fā)出來,但其都有擅長處理的特定研究問題。因此,對于社會科學研究者而言,選取最新的方法不一定就是最好的,而是應(yīng)當根據(jù)自身的研究問題特點,有針對性地選擇最“適合”的研究方法。例如,如果對于文本的敘事感興趣,那么自然圍繞敘事展開的量化分析手段更有優(yōu)勢,盡管新的文本挖掘手段可以在分析效率上對前者有所增益和補充??傊?,方法畢竟是達成研究目標的工具,何種工具最恰當是由研究問題決定的。此外,針對同一問題采用多種手段也可以起到方法互補或者互相驗證的效果,這也是經(jīng)驗研究者可以考慮的綜合性分析策略。
社會科學的文本分析和計算機領(lǐng)域內(nèi)的自然語言處理方法之間的界限隨著大數(shù)據(jù)時代的到來開始變得越發(fā)模糊。實際上,無論是分詞等數(shù)據(jù)預(yù)處理技術(shù),還是主題模型這樣的新興技術(shù),都來自自然語言處理領(lǐng)域。但是,社會科學的研究旨趣與自然語言處理的主要任務(wù)之間還是有所區(qū)別。從某種意義上講,這種區(qū)別有些類似于布雷曼所談的兩種統(tǒng)計分析文化:社會科學研究者希望能夠利用文本分析來理解和詮釋某種社會現(xiàn)象,但是自然語言處理的主要功能在于對文本進行簡化、分類和預(yù)測。正因為如此,很多時候,如果社會科學研究者直接把自然語言處理的方法拿來使用的話,會有種隔閡感,或許這種隔膜就來自兩派研究的旨趣和目標差異。鑒于此,盡管在可預(yù)期的未來,自然語言處理的技術(shù)會越來越多地被社會科學研究者所使用,但是這種使用的目標卻有學科差異。
可以想見的是,隨著算法工具的日漸豐富,基于文本探索的社會科學研究者將會大有可為。但是如文中所指出的,文本的分析切不可掉入“重機器輕人工”的陷阱。由于文本本身的復雜和多義,單純通過一些表面特征獲取的文本簡化信息必定是不完全的。因此,未來社會科學文本分析的努力方向應(yīng)當是尋找一種人機協(xié)作互動的工作方案。這方面比較成功的探索往往是先用機器做一些探索性和數(shù)據(jù)簡化的工作,之后研究者參與進來對機器所呈現(xiàn)的結(jié)果進行詮釋和理解。在這種人機協(xié)作的工作模式中,機器的作用在于探索,至于這種探索是否有學科層面上的理論價值和實際生活的現(xiàn)實意義,則由具有理論素養(yǎng)的研究者來進行研究。從這個意義上講,機器和人工之間存在某種分工,各自負責自己所擅長的部分,以共同完成某一研究。
最后,需要提及的是,文本的價值和意義并非文本本身的屬性。實際上,大量的文化社會學理論早已指出,文本的意義是在作者和讀者互動過程中產(chǎn)生的。因此,單純關(guān)注文本特征,或者僅僅考慮作者信息,對于理解文本而言都是片面的。如何更好地整合讀者信息,從而將作者—文本—讀者三元一體納入現(xiàn)有的社會科學分析框架,應(yīng)當是未來社會科學文本分析需要考慮的問題之一。