摘" 要" 詞嵌入是自然語言處理的一項(xiàng)基礎(chǔ)技術(shù)。其核心理念是根據(jù)大規(guī)模語料中詞語和上下文的聯(lián)系, 使用神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)算法自動(dòng)提取有限維度的語義特征, 將每個(gè)詞表示為一個(gè)低維稠密的數(shù)值向量(詞向量), 以用于后續(xù)分析。心理學(xué)研究中, 詞向量及其衍生的各種語義聯(lián)系指標(biāo)可用于探究人類的語義加工、認(rèn)知判斷、發(fā)散思維、社會(huì)偏見與刻板印象、社會(huì)與文化心理變遷等各類問題。未來, 基于詞嵌入技術(shù)的心理學(xué)研究需要區(qū)分心理的內(nèi)隱和外顯成分, 深化拓展動(dòng)態(tài)詞向量和大型預(yù)訓(xùn)練語言模型(如GPT、BERT)的應(yīng)用, 并在時(shí)間和空間維度建立細(xì)粒度詞向量數(shù)據(jù)庫, 更多開展基于詞嵌入的社會(huì)變遷和跨文化研究。我們?yōu)樾睦韺W(xué)專門開發(fā)的R語言工具包PsychWordVec可以幫助研究者利用詞嵌入技術(shù)開展心理學(xué)研究。
關(guān)鍵詞" 自然語言處理, 詞嵌入, 詞向量, 語義表征, 語義關(guān)聯(lián), 詞嵌入聯(lián)系測驗(yàn)
分類號" B841; B849:C91
語言是人類文明的信息化載體。幾千年來, 人類在文明演進(jìn)過程中積累了海量語言文本, 其中蘊(yùn)含著大量人類心理和行為信息。然而, 直到計(jì)算機(jī)技術(shù)高度發(fā)達(dá)的21世紀(jì), 人們才開始以量化的方式利用語言文本探究人類社會(huì)、心理和行為規(guī)律(Chen et al., 2021; Jackson et al., 2022; Lazer et al., 2009, 2020)。早期的相關(guān)研究主要利用語言文本數(shù)據(jù)中的詞頻(word frequency)等信息考察一些相對淺層的心理規(guī)律(比如個(gè)人主義?集體主義水平的變化)。近年來, 隨著自然語言處理(natural language processing, NLP)技術(shù)的發(fā)展和成熟(Hirschberg amp; Manning, 2015), 越來越多的研究開始探討蘊(yùn)藏在人類語言中的大量深層次的社會(huì)、心理和行為規(guī)律(比如個(gè)人主義?集體主義文化心理含義的變化)。在自然語言處理的諸多技術(shù)中, 詞嵌入(word embedding)是目前發(fā)展較成熟、應(yīng)用較廣泛的一項(xiàng)基礎(chǔ)技術(shù), 也是各種大型預(yù)訓(xùn)練語言模型(pre-trained language model, PLM)的基石。自社會(huì)科學(xué)領(lǐng)域首個(gè)應(yīng)用詞嵌入技術(shù)的開拓性研究在Science發(fā)表以來(Caliskan et al., 2017), 其在心理學(xué)領(lǐng)域的應(yīng)用如雨后春筍, 目前仍處于爆發(fā)式增長中。本文擬全面整理使用詞嵌入技術(shù)的心理學(xué)研究, 在厘清現(xiàn)狀的同時(shí), 展示詞嵌入作為一種前沿的心理學(xué)研究方法的應(yīng)用潛力、未來發(fā)展方向和需要解決的問題。在梳理現(xiàn)有研究之前, 我們首先介紹這些研究的共同基礎(chǔ): 詞嵌入技術(shù)。
1" 詞嵌入技術(shù): 語義向量化表征和語義關(guān)聯(lián)測量[1 大部分情況下, “詞嵌入”和“詞向量”可以互換使用。不過, “詞嵌入”側(cè)重于技術(shù)思想, 即濃縮語義信息并將其映射到低維向量空間, 通常也指詞嵌入矩陣; 而“詞向量”側(cè)重于具體數(shù)據(jù), 也泛指采用詞嵌入以外的方法得到的向量, 比如本文1.1介紹的獨(dú)熱表示、分布表示。廣義的“詞嵌入” (token embedding)中, 詞/標(biāo)記(token)是基本的語義單元, 不僅指單詞, 還包括字、子詞(subword)及其他標(biāo)記信息。]1
作為自然語言處理的一項(xiàng)基礎(chǔ)技術(shù), 詞嵌入可以量化表示自然語言中詞匯的語義, 即通過特定算法對語義進(jìn)行向量化表征, 獲得詞向量(word vector), 從而為后續(xù)的智能化語言處理和分析提供基礎(chǔ)?;谠~嵌入對語義的向量化表征, 研究者可以進(jìn)一步對語義共性和差異進(jìn)行向量化表征, 以及計(jì)算不同詞語或概念之間的語義關(guān)聯(lián)程度。下面, 我們將圍繞這三個(gè)方面介紹詞嵌入技術(shù)。
1.1" 從“詞語”到“向量”: 對語義的向量化表征
當(dāng)我們遇到一個(gè)生詞, 想知道它的含義, 一種方法是通過查詞典直接了解詞義, 另一種方法是通過該詞在特定語境中的使用情況(特別是它和上下文的關(guān)系)推測詞義。目前, 基于大規(guī)模語言文本, 計(jì)算機(jī)對語言的理解主要基于后一種方法, 即通過某個(gè)詞的語用(詞與上下文的關(guān)系)表征這個(gè)詞的含義, 這就是所謂的“語用即語義”。不過, 計(jì)算機(jī)能夠處理的是向量化的語義表征, 即詞向量。
詞向量的發(fā)展經(jīng)歷了從簡單到復(fù)雜、從靜態(tài)到動(dòng)態(tài)、從機(jī)械到智能的過程。研究者先后提出了三種基于數(shù)值向量的詞匯表征方式(word representation): 獨(dú)熱表示、分布表示、詞嵌入表示。
獨(dú)熱表示(獨(dú)熱編碼, one-hot encoding)將詞表中的N個(gè)詞依次表示為一個(gè)N維數(shù)值向量, 每個(gè)詞向量只有一個(gè)維度的值為1, 剩余為0。獨(dú)熱表示只能簡單區(qū)分詞語, 無法表征語義, 而且其高維、稀疏的特點(diǎn)容易導(dǎo)致“維度災(zāi)難”。為了克服這些局限, 研究者提出了詞的分布表示(distributional representation):一個(gè)詞的語義很大程度由上下文決定, 因此語義相近的詞往往具有相似的上下文, 這就是分布式語義假設(shè)的思想(Harris, 1954; Lenci, 2018)?;谶@種思想, 分布表示將一個(gè)詞與上下文其他詞的共同出現(xiàn)情況(簡稱共現(xiàn), co-occurrence)視為這個(gè)詞的分布結(jié)構(gòu)(distributional structure), 然后使用統(tǒng)計(jì)方法對共現(xiàn)矩陣進(jìn)行降維, 最后得到相對低維、稠密的詞向量(表1)。分布表示有兩種具體的降維方法。一種方法是潛在語義分析(Latent Semantic Analysis, LSA), 利用奇異值分解實(shí)現(xiàn)共現(xiàn)矩陣降維, 每個(gè)維度反映詞的一種獨(dú)立的潛在語義特征(Landauer amp; Dumais, 1997)。另一種方法是基于潛在狄利克雷分配(Latent Dirichlet Allocation, LDA)的主題模型(Topic Model), 利用概率分布和貝葉斯統(tǒng)計(jì)提取出文本主題, 每個(gè)維度反映詞在相應(yīng)主題上的出現(xiàn)概率(Blei et al., 2003; Griffiths et al., 2007)。
然而, 獨(dú)熱表示和分布表示在大規(guī)模語料中的訓(xùn)練速度和效果都欠佳, 并且獨(dú)熱表示無法利用上下文信息, 分布表示在利用上下文方面效果也不夠理想(車萬翔 等, 2021)。為了解決這些問題, 受到神經(jīng)概率語言模型(Neural Probabilistic Language Model; Bengio et al., 2003)的啟發(fā), 研究者提出了詞嵌入表示, 這是本文討論的核心。
所謂“嵌入” (embedding), 是指在盡可能保留原有語義距離的前提下, 將復(fù)雜語義信息直接映射到低維向量空間。詞嵌入的理論基礎(chǔ)仍為分布式語義假設(shè)(Harris, 1954; Lenci, 2018), 與分布表示(LSA、LDA)的差異在于向量賦值方式:詞嵌入的降維是通過機(jī)器學(xué)習(xí)算法(一般采用神經(jīng)網(wǎng)絡(luò)算法)訓(xùn)練模型來預(yù)測詞與上下文的共現(xiàn)關(guān)系, 進(jìn)而直接獲得低維、稠密的詞向量(常見的有300維, 也可根據(jù)需要確定維數(shù))。詞嵌入表征的語義并不是具象的語義解釋, 而是算法從人們的自然語言中自動(dòng)學(xué)習(xí)的抽象的語用規(guī)律, 其維度數(shù)值本質(zhì)上是神經(jīng)網(wǎng)絡(luò)模型的權(quán)重(weights)或通過模型估計(jì)得到的參數(shù)(類似于回歸系數(shù)), 一定程度上模擬了人類加工語言時(shí)大腦的激活模式。詞嵌入對語義向量化表征的示意圖見圖1。
詞嵌入向量可分為兩類:一類是靜態(tài)詞嵌入(static word embeddings), 將一個(gè)詞在整個(gè)語料庫中的所有上下文信息都聚合、壓縮到一個(gè)向量表示中, 得到的是固定的、不隨詞匯所在特定語境中的上下文變化的詞向量, 算法模型包括Word2Vec、GloVe、FastText等; 另一類是動(dòng)態(tài)詞嵌入(dynamic word embeddings), 也稱上下文相關(guān)、語境化的詞嵌入(contextualized word embeddings), 根據(jù)提供的上下文語境得到每個(gè)詞在特定語境中的詞向量, 可通過ELMo、GPT、BERT等預(yù)訓(xùn)練語言模型生神經(jīng)網(wǎng)絡(luò)包括輸入層、隱含層、輸出層。隱含層一般有多個(gè)節(jié)點(diǎn)(“神經(jīng)元”), 每個(gè)節(jié)點(diǎn)為一個(gè)激活函數(shù)。靜態(tài)詞嵌入模型一般取神經(jīng)網(wǎng)絡(luò)前半部分, 即隱含層的輸入權(quán)重矩陣(input weight matrix), 作為詞向量矩陣; 動(dòng)態(tài)詞嵌入模型更復(fù)雜, 每個(gè)詞的動(dòng)態(tài)詞向量是對該詞上下文語義組合的結(jié)果, 可來自最后一層隱含層的輸出權(quán)重或多層隱含層向量的加權(quán)平均, 其中, 接近輸入層和輸出層的隱含層分別編碼了更多語法和語義信息(車萬翔 等, 2021)。
成(車萬翔 等, 2021; 陳萌 等, 2021; Lake amp; Murphy, 2021)。表1總結(jié)了這些模型的特點(diǎn)(更多介紹詳見網(wǎng)絡(luò)版附錄的補(bǔ)充材料1)。研究者一般使用在大規(guī)模語料上得到了預(yù)訓(xùn)練、可表征通用語義知識的詞向量(見網(wǎng)絡(luò)版附表S1)。
1.2" 表征語義共性和差異: 詞向量的線性運(yùn)算
由詞嵌入技術(shù)訓(xùn)練得到的詞向量濃縮了詞在上下文中的語用規(guī)律, 一定程度上可以表征人類自然語言中的語義知識。然而, 詞向量數(shù)值的含義通常是不明確的, 我們無法直接從向量數(shù)值中獲得可解釋的語義知識。為了獲得更明確的含義, 一種常見做法是計(jì)算語義共性或語義差異的向量表示, 即多個(gè)詞向量相加后的向量總和(vector sum)或相減后的向量差異(vector difference)。[ 只有同一個(gè)語義空間(來自相同語料庫和模型)的詞向量才能進(jìn)行線性運(yùn)算, 并且需要進(jìn)行歸一化(normalization), 即縮放每個(gè)詞向量至單位長度1。]
基于詞向量的線性運(yùn)算, 我們可以得到詞語差異之間的類比(word analogy), 進(jìn)而獲得可解釋的語義知識(Mikolov et al., 2013)。比如, 語義差異類比可以體現(xiàn)性別差異( ), 語法差異類比可以體現(xiàn)時(shí)態(tài)變化( ), 從屬關(guān)系類比可以體現(xiàn)國家與首都的關(guān)系()。
心理學(xué)研究中, 詞向量的線性運(yùn)算還有更一般的用途。比如, 研究者可以通過計(jì)算與某個(gè)心理概念或維度有關(guān)的近、反義詞的詞向量之差, 建立這個(gè)概念維度兩極的坐標(biāo)系, 從而使得計(jì)算其他心理概念與這個(gè)概念間的語義聯(lián)系成為可能(Kozlowski et al., 2019); 研究者還可以通過計(jì)算一系列詞向量的總和, 獲得這些詞的語義共性, 以此表征其上位心理概念。
1.3" 測量語義關(guān)聯(lián)和距離: 詞向量的聯(lián)系強(qiáng)度
人類心理的表征在“頭腦內(nèi)”很多時(shí)候表現(xiàn)為概念與概念間的聯(lián)系, 而在“頭腦外”的自然語言中則表現(xiàn)為詞與詞之間的語義聯(lián)系。因此, 利用自然語言中詞與詞之間的聯(lián)系, 我們能在一定程度上探究人類心理特征。
總體上, 語義聯(lián)系有絕對和相對之分, 計(jì)算方法主要有三種:直接計(jì)算詞向量的絕對余弦相似度或距離、通過計(jì)算兩組詞向量間的余弦相似度之差獲得相對語義相似度(統(tǒng)稱為“詞嵌入聯(lián)系測驗(yàn)”)、通過計(jì)算兩組詞向量間的歐式距離之差獲得相對語義距離(統(tǒng)稱為“相對范數(shù)距離”)。下面分別介紹每種方法及其優(yōu)缺點(diǎn)和適用范圍。
1.3.1" 余弦相似度和距離[ 余弦相似度的計(jì)算公式:
當(dāng)兩個(gè)向量的模長經(jīng)過歸一化, 它們的歐氏距離與余弦相似度或距離存在固定關(guān)系:]
兩個(gè)詞向量在空間中夾角的余弦值, 即余弦相似度(cosine similarity), 可以衡量兩個(gè)詞語之間的語義關(guān)聯(lián)性(semantic relatedness), 其本質(zhì)上是這兩個(gè)詞的語用或上下文特征的相似性(Lenci, 2018)。余弦相似度取值范圍是?1~1, 但一般很少有負(fù)數(shù); 與之相反的是余弦距離(cosine distance; 1 ? 余弦相似度), 取值范圍是0~2。若兩個(gè)詞完全相關(guān), 則向量夾角為0°, 余弦相似度為1, 余弦距離為0; 若兩個(gè)詞完全無關(guān), 則向量夾角為90°, 余弦相似度為0, 余弦距離為1。
余弦相似度絕對大小的意義并不總是明確。一般而言, 近義詞的相似度往往較高, 但相似度高的未必是近義詞, 也可能是反義詞(如“喜歡?討厭”)、固定搭配(如“單反?相機(jī)”)、語境相近的詞(如“鍵盤?鼠標(biāo)”)等; 同理, 相似度低的也未必是反義詞, 而只是兩個(gè)毫無關(guān)聯(lián)的詞(如“心理?竣工”)??梢?, 詞相似度衡量的是語義聯(lián)系的絕對值, 既不必然表示聯(lián)系的正、負(fù)方向, 也難以直接區(qū)分同義詞和反義詞。所以在實(shí)際應(yīng)用中, 為了使詞相似度獲得可比較的參照點(diǎn), 研究者一般計(jì)算的是相對的詞相似度(或距離)。
1.3.2" 詞嵌入聯(lián)系測驗(yàn)(WEAT)[ WEAT計(jì)算兩類目標(biāo)概念(如X=花, Y=蟲)和兩類屬性詞(如A=積極, B=消極)的相對相似度。首先計(jì)算一組目標(biāo)詞(X或Y)中的某個(gè)具體詞w與屬性A和B的詞相似度之差, 作為w與屬性兩極的相對相似度; 然后計(jì)算目標(biāo)概念X和Y與該屬性相似度的差值, 作為目標(biāo)和屬性間的相對聯(lián)系強(qiáng)度。WEAT的計(jì)算公式:
單類SC-WEAT則是計(jì)算單類目標(biāo)概念的每個(gè)詞和兩類屬性詞的相似度均值差異, 即上述公式的第一步。]
心理學(xué)研究中, 為了運(yùn)用概念間的相對語義聯(lián)系來衡量人們的心理特征, 研究者需要選擇能代表特定人群的語料庫和由此訓(xùn)練的詞向量, 然后計(jì)算詞的相對余弦相似度。這種分析方法強(qiáng)調(diào)目標(biāo)概念和屬性兩極之間的相對語義聯(lián)系, 因此后來被統(tǒng)稱為“詞嵌入聯(lián)系測驗(yàn)”。[ WEAT也被譯為“詞嵌入聯(lián)想測驗(yàn)” (吳勝濤 等, 2020)。Association本身有“聯(lián)系”和“聯(lián)想”兩種含義。本文建議此處譯為“聯(lián)系”, 原因如下:(1)起初IAT被譯為“內(nèi)隱聯(lián)想測驗(yàn)”, 但原始譯者和多位學(xué)者已將Association的翻譯修正為“聯(lián)系” (楊紫嫣 等, 2015); (2)嚴(yán)格來說, WEAT并不測量個(gè)體頭腦內(nèi)的聯(lián)想加工過程, 而是測量自然語言中不同詞語之間的語義聯(lián)系(Caliskan et al., 2017)。但與WEAT不同, 本文2.3.1節(jié)介紹的Divergent Association Task中的Association譯為“聯(lián)想”更合適, 因?yàn)樵摐y驗(yàn)涉及個(gè)體在任務(wù)中的自由發(fā)散聯(lián)想過程(Olson et al., 2021)。]
詞嵌入聯(lián)系測驗(yàn)(Word Embedding Association Test, WEAT)由Caliskan等(2017)首次提出, 與內(nèi)隱聯(lián)系測驗(yàn)(Implicit Association Test, IAT)的原理和算法類似, 但結(jié)論適用范圍不同。IAT為了測量個(gè)體頭腦中的概念聯(lián)系, 使用快速按鍵分類任務(wù)測量被試的反應(yīng)時(shí), 然后將目標(biāo)概念詞(如花?蟲)和屬性詞(如積極?消極)在不相容和相容條件下的反應(yīng)時(shí)之差作為態(tài)度、偏見、刻板印象等心理特征的間接測量指標(biāo)(Greenwald et al., 1998; 楊紫嫣 等, 2015)。WEAT則是將詞相似度視為IAT中的反應(yīng)速度, 使用兩組目標(biāo)詞和兩組屬性詞的詞相似度之差來測量目標(biāo)概念詞和屬性詞在自然語言中的相對聯(lián)系強(qiáng)度, 并且可以使用d值衡量標(biāo)準(zhǔn)化效應(yīng)量(Caliskan et al., 2017)。
同時(shí), 為了考察單類目標(biāo)概念(如職業(yè))與兩極屬性(如性別)的聯(lián)系, Caliskan等(2017)還提出了詞嵌入事實(shí)聯(lián)系測驗(yàn)(Word Embedding Factual Association Test, WEFAT), 后來被稱為單類WEAT (single-category WEAT, SC-WEAT; Toney- Wails amp; Caliskan, 2021)。這種單類WEAT和單類IAT (SC-IAT; Karpinski amp; Steinman, 2006)類似, 允許研究者只考察單個(gè)目標(biāo)概念而無需找到與之相對的另一個(gè)目標(biāo)概念, 但屬性詞仍要有兩極對比。
WEAT和SC-WEAT是目前在心理學(xué)研究中應(yīng)用最多的基于詞向量的概念相對聯(lián)系測量方法。但是, 在使用群體大規(guī)模語料的前提下, 其測量的并不是個(gè)體頭腦中的概念聯(lián)系, 而是概念聯(lián)系在特定時(shí)空下的某個(gè)語料庫中的一種外化表達(dá), 由此僅能推測產(chǎn)生語料的相應(yīng)群體的心理特點(diǎn)。因此, 雖然WEAT和IAT的結(jié)果可以做類似理解, 比如都能用來測量刻板印象、偏見等, 但WEAT反映的是群體水平的概念聯(lián)系, 而IAT測量的則是個(gè)體水平的概念聯(lián)系。
1.3.3" 相對范數(shù)(歐氏)距離(RND)[ 范數(shù)(norm)是線性代數(shù)的術(shù)語, 表示向量在空間中的長度(模長), 此處指L2范數(shù)(歐式范數(shù))。兩個(gè)向量的范數(shù)距離表示它們差異的長度, 衡量了它們在空間中的距離; 詞向量的范數(shù)距離衡量了語義距離。由此, 相對范數(shù)距離(RND)計(jì)算目標(biāo)概念和兩類屬性詞的相對語義距離。比如, 對于職業(yè)(目標(biāo)概念)和性別(屬性)的聯(lián)系, 首先分別計(jì)算男性和女性所有詞的平均向量, 然后計(jì)算每個(gè)職業(yè)的詞向量與這兩個(gè)平均向量的歐氏距離之差, 即單個(gè)職業(yè)的RND, 最后計(jì)算所有職業(yè)RND之和。結(jié)果若為負(fù)值(職業(yè)和男性詞向量的歐式距離小于和女性詞向量的歐式距離), 則說明職業(yè)與男性的聯(lián)系比女性更緊密。RND的計(jì)算公式:
概念間的相對聯(lián)系還可以通過Garg等(2018)提出的相對范數(shù)距離(relative norm distance, RND)來衡量。相對范數(shù)距離又稱相對歐氏距離(relative Euclidean distance; Bhatia amp; Bhatia, 2021), 計(jì)算的是一個(gè)目標(biāo)詞(比如某職業(yè))和兩類屬性詞(比如男性和女性)的詞向量歐式距離之差。
RND與SC-WEAT類似, 都用于衡量單類別目標(biāo)概念與一對屬性的相對聯(lián)系, 只是解釋的方向相反。SC-WEAT數(shù)值表示相對語義相似度, 因此數(shù)值越大表示概念相對聯(lián)系越緊密; 而RND數(shù)值表示相對語義距離, 因此數(shù)值越小表示概念相對聯(lián)系越緊密。二者算法上的區(qū)別對結(jié)果的實(shí)際影響不大, 研究者可根據(jù)實(shí)際需求選用其中一種指標(biāo)。
總之, 根據(jù)詞嵌入技術(shù)對詞匯語義的表征, 研究者可以較好地量化文本中的語義信息。具體地, 研究者不僅能通過詞向量的線性運(yùn)算獲得語義共性或差異的表征, 而且能通過計(jì)算余弦相似度、歐氏距離、基于余弦相似度的WEAT與SC- WEAT、基于歐氏距離的RND等方法衡量概念間的語義聯(lián)系。利用這些前沿技術(shù)和方法, 研究者就能通過自然語言來量化并探究人類的心理和行為規(guī)律。
2" 基于詞嵌入技術(shù)的心理學(xué)研究
自從Mikolov等(2013)首次提出詞嵌入算法, 特別是Caliskan等(2017)首次將詞嵌入技術(shù)應(yīng)用于社會(huì)科學(xué)領(lǐng)域以來, 基于詞嵌入的心理學(xué)研究在短短幾年內(nèi)大量涌現(xiàn), 內(nèi)容涉及心理語言學(xué)、決策判斷、心理健康、社會(huì)認(rèn)知、人格心理、道德心理、政治心理、文化心理等眾多心理學(xué)領(lǐng)域。而與這些研究有關(guān)的一項(xiàng)基礎(chǔ)工作是利用詞向量相似度來輔助構(gòu)建合理、有效的心理概念詞表。因此, 下面將首先介紹詞嵌入在詞表構(gòu)建方面的應(yīng)用。
2.1" 構(gòu)建心理詞表:研究的基礎(chǔ)工作
詞向量首先可以用來構(gòu)建心理概念詞表, 包括使用詞相似度評估詞表的信效度、擴(kuò)充近義詞等。例如, 一項(xiàng)研究在構(gòu)建刻板印象內(nèi)容(stereotype content)詞表時(shí), 使用詞向量計(jì)算了每兩個(gè)詞的相似度, 發(fā)現(xiàn)同一維度內(nèi)的詞相似度高于不同維度間的詞相似度, 以此驗(yàn)證了詞表的內(nèi)部一致性信度和區(qū)分效度(Nicolas et al., 2021)。還有研究者借助詞相似度為初步構(gòu)建的詞表擴(kuò)充近義詞, 并結(jié)合專家評估進(jìn)一步確定復(fù)雜概念的詞表, 比如文化松緊性(tightness?looseness; Jackson et al., 2019)、本真性(authenticity; Le et al., 2021)等。此外, 基于預(yù)訓(xùn)練語言模型, 清華大學(xué)的研究團(tuán)隊(duì)開發(fā)了WantWords反向詞典平臺(https://wantwords.net), 可以幫助研究者根據(jù)定義、詞性、字?jǐn)?shù)、包含的字詞等方面精準(zhǔn)查找近義詞。總之, 利用詞相似度輔助構(gòu)建詞表, 能避免人工選詞過程中可能存在的主觀偏差, 提高詞表的規(guī)模、信度、效度和代表性, 最終增強(qiáng)研究的客觀性和可靠性。
接下來, 我們以“語義”作為邏輯線索, 將詞嵌入技術(shù)在心理學(xué)研究中的具體應(yīng)用分兩類介紹:基于語義表征的研究和基于語義關(guān)聯(lián)的研究。
2.2" 基于語義表征的研究
2.2.1" 幫助探究人類語義加工的腦活動(dòng)
詞向量作為計(jì)算機(jī)對語義的向量化表征, 能用來幫助考察人類語義加工的腦活動(dòng)。具體來說, 在使用神經(jīng)影像測量儀器(如功能性磁共振fMRI)記錄被試大腦活動(dòng)的基礎(chǔ)上, 研究者可以構(gòu)建詞向量與相應(yīng)的詞誘發(fā)的大腦神經(jīng)活動(dòng)之間的映射關(guān)系模型(詞的神經(jīng)響應(yīng)模型), 進(jìn)而預(yù)測大腦對其他詞匯語義和語義關(guān)系加工的特異性腦活動(dòng)。例如, 一項(xiàng)發(fā)表于Nature的研究使用fMRI記錄被試聽故事時(shí)的腦活動(dòng), 在分析時(shí)對實(shí)驗(yàn)材料的每個(gè)詞分別構(gòu)建其與一系列基礎(chǔ)詞匯在既有語料庫中的共現(xiàn)頻次, 以此作為詞向量, 進(jìn)而構(gòu)建每個(gè)故事在這些維度上的語義向量的時(shí)間序列矩陣; 然后利用機(jī)器學(xué)習(xí), 發(fā)現(xiàn)基于這種語義向量構(gòu)建的神經(jīng)響應(yīng)模型能有效預(yù)測額葉、顳葉等腦區(qū)的激活, 說明這兩個(gè)腦區(qū)在語義表征中具有重要作用(Huth et al., 2016)。與之方法類似, 另一項(xiàng)研究使用每對詞的詞向量之差表示其語義關(guān)系(如“手?手指”反映了從整體到部分的語義關(guān)系), 結(jié)果發(fā)現(xiàn)基于這種語義關(guān)系向量構(gòu)建的機(jī)器學(xué)習(xí)模型也能預(yù)測特定腦區(qū)的激活(Zhang et al., 2020)。
2.2.2" 預(yù)測人們對特定事物的認(rèn)知判斷
詞向量在探究人類認(rèn)知加工方面的應(yīng)用還可以拓展到更復(fù)雜的形式?;谠~向量原始值構(gòu)建的機(jī)器學(xué)習(xí)模型能預(yù)測人們的各類認(rèn)知判斷結(jié)果, 從而可以對人類的復(fù)雜認(rèn)知判斷進(jìn)行更準(zhǔn)確的計(jì)算建模(Bhatia et al., 2019)。研究者將預(yù)訓(xùn)練的詞向量原始值作為預(yù)測變量(每個(gè)維度是一個(gè)變量), 將人們對不同事物的評價(jià)作為結(jié)果變量(單個(gè)事物獲得的多人評價(jià)平均值), 使用嶺回歸(ridge regression)等算法構(gòu)建機(jī)器學(xué)習(xí)模型, 進(jìn)而預(yù)測人們對公眾人物和其他事物的認(rèn)知評價(jià)。例如, 一項(xiàng)研究通過建立嶺回歸模型, 把公眾人物名字的詞向量作為預(yù)測變量, 把這些人物被人們評價(jià)的領(lǐng)導(dǎo)力作為結(jié)果變量, 發(fā)現(xiàn)模型可以根據(jù)人名詞向量預(yù)測人們感知到的領(lǐng)導(dǎo)力(Bhatia et al., 2022)?;谶@類模型, 研究者還可以根據(jù)事物名詞的詞向量預(yù)測人們對風(fēng)險(xiǎn)源(Bhatia, 2019a)、食品健康程度(Gandhi et al., 2022)、身體健康狀態(tài)(Aka amp; Bhatia, 2022)、食物熱量和嬰兒死亡率(Zou amp; Bhatia, 2021)的認(rèn)知判斷, 以及社會(huì)認(rèn)知、風(fēng)險(xiǎn)感知、健康行為、組織行為和市場營銷等領(lǐng)域中的復(fù)雜認(rèn)知判斷(Richie et al., 2019)。這些研究都是直接利用原始詞向量中的語義信息, 并將其用于建立行為預(yù)測模型。
此外, 研究者基于特征屬性兩極的向量差異構(gòu)建語義特征維度(比如大小、安全?危險(xiǎn)程度), 將詞向量在不同維度上分別進(jìn)行語義投影(semantic projection), 結(jié)果發(fā)現(xiàn), 經(jīng)過語義投影的詞向量在相應(yīng)維度上的位置可以預(yù)測人類對這些事物相應(yīng)屬性的判斷(Grand et al., 2022)。這種方法仿照心理量表的形式, 利用詞嵌入對語義差異的表征, 不僅實(shí)現(xiàn)了對事物屬性的自動(dòng)化評估, 而且還原了蘊(yùn)含在詞向量中的豐富的語義信息和人類知識。
2.2.3" 評估個(gè)體的情緒和心理健康
還有研究將原始詞向量作為機(jī)器學(xué)習(xí)模型的輸入?yún)?shù), 以此建立預(yù)測模型, 實(shí)現(xiàn)對個(gè)體情緒和心理健康狀況的評估。例如, 研究利用BERT模型, 將個(gè)體靜息狀態(tài)下的自發(fā)思維內(nèi)容(句子)轉(zhuǎn)換為“片段向量”, 然后使用有監(jiān)督的深度學(xué)習(xí)來訓(xùn)練情緒分類模型, 從而識別個(gè)體自發(fā)思維內(nèi)容的情緒類型(H.-X. Li et al., 2022)。也有不少研究沿用類似手段, 基于微博等社交平臺用戶自發(fā)產(chǎn)生的文本, 使用詞向量原始值和機(jī)器學(xué)習(xí)模型識別個(gè)體的心理健康狀況和精神障礙, 包括抑郁、焦慮、壓力、自殺風(fēng)險(xiǎn)等(Kalyan amp; Sangeetha, 2020; Salas-Zárate et al., 2022)。同時(shí), 在詞向量基礎(chǔ)上考慮用戶的人口學(xué)變量和微博行為(王垚 等, 2022)、多模態(tài)信息(Lin et al., 2020)等, 能進(jìn)一步提高對心理癥狀識別的準(zhǔn)確性。
2.3" 基于語義關(guān)聯(lián)的研究
2.3.1" 評估和探究個(gè)體心理
利用詞向量相似度衡量的語義關(guān)聯(lián), 并借助專門設(shè)計(jì)的研究范式, 研究者可以評估和探究部分個(gè)體心理, 目前主要涉及發(fā)散思維能力、決策傾向等。
首先, 將詞向量距離指標(biāo)與心理測量任務(wù)相結(jié)合, 研究者可以更客觀地評估個(gè)體的發(fā)散思維(遠(yuǎn)距離聯(lián)想)能力。研究者提出了發(fā)散聯(lián)想任務(wù)(Divergent Association Task, DAT):施測時(shí)讓被試思考并列出10個(gè)相互盡可能無關(guān)的名詞; 然后利用預(yù)訓(xùn)練的詞向量計(jì)算這些詞兩兩之間的余弦距離; 這種根據(jù)被試列舉的若干名詞計(jì)算的平均語義距離可以反映個(gè)體在多大程度上能想出距離較遠(yuǎn)的事物, 語義距離越大, 則說明個(gè)體的發(fā)散思維越強(qiáng)(Olson et al., 2021)。類似地, 其他研究者也提出了利用語義距離測量發(fā)散思維的方法(Beaty amp; Johnson, 2021; Heinen amp; Johnson, 2018; Johnson et al., 2021)。這些結(jié)合詞向量語義距離的測量方法彌補(bǔ)了創(chuàng)造力傳統(tǒng)測量工具的局限:一方面, 測量無需依賴自評或?qū)<以u定, 避免了主觀性; 另一方面, 實(shí)際施測時(shí)只需要請被試自由列舉一系列詞匯, 并由此計(jì)算平均語義距離, 提高了測量的便捷性, 有助于大規(guī)模施測。
其次, 詞相似度衡量的語義關(guān)聯(lián)能反映個(gè)體決策中的聯(lián)想加工傾向。例如, 研究者在多種決策情境中比較了問題文本與不同選項(xiàng)文本間的語義相似度, 結(jié)果發(fā)現(xiàn)人們傾向于選擇與題干語義最相近的選項(xiàng)(Bhatia, 2017a)。使用類似方法, 研究者還驗(yàn)證了決策的語義聚集效應(yīng), 即個(gè)體在選擇情境逐一給出回答時(shí), 傾向于搜索與已經(jīng)想到的回答語義相近的答案(Bhatia, 2019b)。因此, 詞向量蘊(yùn)含的語義關(guān)聯(lián)信息有助于研究者更準(zhǔn)確地探究個(gè)體的決策傾向與選擇偏好。
2.3.2" 評估和探究社會(huì)心理
現(xiàn)有的詞向量通常是由一個(gè)群體產(chǎn)生的大規(guī)模文本語料訓(xùn)練出來的, 這些文本可能蘊(yùn)含群體的心理特征。因此, 基于詞向量(目前主要是靜態(tài)詞向量)計(jì)算的語義關(guān)聯(lián), 包括WEAT、RND等概念相對聯(lián)系指標(biāo)(見1.3節(jié)), 可專門用于測量群體的心理特征, 比如群體的社會(huì)態(tài)度、刻板印象、社會(huì)偏見、道德偏差、文化心理聯(lián)系等, 以及上述心理現(xiàn)象的產(chǎn)生、發(fā)展和演變。
在WEAT提出之前, Bolukbasi等(2016)發(fā)現(xiàn)性別詞向量之差(如“she?he”)與職業(yè)詞向量之差(如“nurse?surgeon”)的余弦相似度能預(yù)測人工評價(jià)的性別?職業(yè)刻板印象。受其啟發(fā), Caliskan等(2017)發(fā)表在Science的研究進(jìn)一步提出了WEAT和SC-WEAT, 用來測量群體的社會(huì)認(rèn)知, 并重復(fù)了內(nèi)隱社會(huì)認(rèn)知領(lǐng)域的多項(xiàng)經(jīng)典結(jié)果, 包括花?蟲內(nèi)隱態(tài)度、樂器?武器內(nèi)隱態(tài)度、內(nèi)隱種族偏見、內(nèi)隱性別?職業(yè)刻板印象、內(nèi)隱性別?學(xué)科刻板印象等。這兩項(xiàng)奠基性研究迅速激發(fā)了一系列研究直接應(yīng)用WEAT或類似方法測量各類社會(huì)認(rèn)知, 例如:對不同顏色的態(tài)度和性別?顏色刻板印象(Jonauskaite et al., 2021)、對不同職業(yè)和國籍群體的人格特質(zhì)刻板印象(Agarwal et al., 2019)、不同語言中的性別偏見(Kurpicz-Briki amp; Leoni, 2021)、法律文書中的種族偏見(Rice et al., 2019)、新聞報(bào)紙中的種族偏見和性別刻板印象(Bhatia, 2017b)、電影和文學(xué)作品中的性別刻板印象(Xu et al., 2019)、人類集體概念(collective concept; PERSON/ PEOPLE)的性別偏差(Bailey et al., 2022)、群際態(tài)度(評價(jià))和群際信念(刻板印象)之間的關(guān)系(Kurdi et al., 2019, Study 3)、企業(yè)組織語境中的性別?領(lǐng)導(dǎo)力刻板印象及其與女性領(lǐng)導(dǎo)雇傭比例之間的相互影響(Lawson et al., 2022)、不同政治傾向或黨派的新聞媒體對政治內(nèi)群體的積極態(tài)度偏差和對政治外群體的消極態(tài)度偏差(Rozado amp; al-Gharbi, 2022)等。
同時(shí), WEAT和SC-WEAT還被用于探究群體的道德偏差。一項(xiàng)研究使用WEAT考察了“自我?他人”目標(biāo)詞和“道義主義?功利主義”屬性詞的相對語義聯(lián)系, 結(jié)果發(fā)現(xiàn)自我(vs.他人)與道義(vs.功利)的聯(lián)系更緊密, 說明人們傾向于認(rèn)為別人是功利而非道義的, 揭示了群體層面的自我?他人道德偏差(M.-H. Li et al., 2021, Study 3)。另一項(xiàng)研究則使用SC-WEAT考察了“正義”單類目標(biāo)詞和“自我?他人”屬性詞的相對語義聯(lián)系, 結(jié)果發(fā)現(xiàn)正義與他人(vs.自我)的聯(lián)系更緊密, 據(jù)此推測正義動(dòng)機(jī)可能存在他人凸顯效應(yīng)(吳勝濤 等, 2020)。
此外, 類似方法還能用于分析公眾人物被人們感知到的人格特質(zhì)。一項(xiàng)研究基于公開新聞?wù)Z料計(jì)算了美國前總統(tǒng)候選人唐納德·特朗普(Donald Trump)和希拉里·克林頓(Hillary Clinton)的人名向量與各種人格特質(zhì)評價(jià)(如溫暖、能力、道德)詞向量的相對余弦相似度, 以此衡量大眾感知到的二人的人格特質(zhì)(Bhatia et al., 2018)。這類研究可以在非接觸條件下, 間接測量人們對公眾人物的人格特質(zhì)的感知, 從而彌補(bǔ)傳統(tǒng)量表工具難以用于公眾人物的局限, 也有助于探究與政治人物有關(guān)的問題。
除了使用WEAT等方法直接測量群體層面的社會(huì)心理特征, 還有不少研究進(jìn)一步探究了刻板印象、偏見等社會(huì)心理現(xiàn)象的產(chǎn)生、發(fā)展和變遷。
首先, 關(guān)于社會(huì)認(rèn)知的產(chǎn)生, 目前有兩項(xiàng)研究采用WEAT測量了多個(gè)國家的社會(huì)刻板印象或偏見, 發(fā)現(xiàn)語言特征可能會(huì)塑造和加深人們的社會(huì)認(rèn)知。其中, 一項(xiàng)研究選取25種語言, 發(fā)現(xiàn)語言中的性別?職業(yè)刻板印象WEAT分?jǐn)?shù)和性別化職業(yè)詞(如waiter/waitress)的比例均能正向預(yù)測國家層面的內(nèi)隱性別?職業(yè)刻板印象IAT結(jié)果, 說明語言可能會(huì)塑造內(nèi)隱社會(huì)認(rèn)知(Lewis amp; Lupyan, 2020)。另一項(xiàng)研究則將45種語言分為性別化語言(gendered language; 名詞、動(dòng)詞和形容詞有陰陽性之分, 如法語、西班牙語)和無性別語言(genderless language; 詞語不區(qū)分陰陽性, 如漢語、英語、芬蘭語), 計(jì)算了每種語言的性別偏見WEAT分?jǐn)?shù), 結(jié)果在性別化語言中發(fā)現(xiàn)了更大的性別偏見, 說明一門語言的語法規(guī)則可能會(huì)加深社會(huì)偏見(DeFranza et al., 2020)。這些研究利用詞嵌入的方法優(yōu)勢和多語種詞向量庫的豐富資源, 巧妙解決了此前難以直接回答的理論問題。
其次, 關(guān)于社會(huì)認(rèn)知的發(fā)展, 目前也有兩項(xiàng)研究采用WEAT測量并追溯了性別刻板印象在兒童發(fā)展早期的表現(xiàn)。其中, 一項(xiàng)研究收集兒童和成人語料庫并訓(xùn)練詞向量, 計(jì)算了性別刻板印象的WEAT分?jǐn)?shù), 結(jié)果發(fā)現(xiàn)性別刻板印象存在于不同年齡的語言中(Charlesworth et al., 2021)。另一項(xiàng)研究則使用親子對話語料庫, 計(jì)算了詞匯被不同性別使用的概率、詞匯?性別的概念聯(lián)系WEAT分?jǐn)?shù)及兩者相關(guān), 結(jié)果發(fā)現(xiàn)2~5歲兒童已經(jīng)有了性別化的語言表達(dá)(Prystawski et al., 2020)。這些研究同樣利用詞嵌入的方法優(yōu)勢, 巧妙實(shí)現(xiàn)了對嬰幼兒群體的心理測量。
最后, 基于語義關(guān)聯(lián)的歷時(shí)性演變, 不少研究利用詞向量探討了社會(huì)認(rèn)知與文化心理的變遷。社會(huì)與文化變遷是近年來心理學(xué)、社會(huì)學(xué)的前沿研究熱點(diǎn)(蔡華儉 等, 2020; 黃梓航 等, 2018, 2021)。以往研究主要是利用調(diào)查數(shù)據(jù)、歷史檔案數(shù)據(jù)、過去發(fā)表的研究數(shù)據(jù)等考察某個(gè)心理現(xiàn)象的均值或水平的變遷, 而較少能探討概念含義或概念之間關(guān)系的變遷(蔡華儉 等, 2023)。利用跨時(shí)間的詞向量庫, 為每個(gè)年代或年份分別計(jì)算語義聯(lián)系指標(biāo)并形成時(shí)間序列, 可以考察社會(huì)態(tài)度、偏見、刻板印象、概念的文化含義、文化與心理的關(guān)系等方面的變遷。
現(xiàn)有研究主要使用了HistWords項(xiàng)目預(yù)訓(xùn)練好的以十年為單位的詞向量庫(Hamilton et al., 2016), 然后為每個(gè)年代分別計(jì)算語義關(guān)聯(lián)指標(biāo)(如WEAT或RND), 分析刻板印象與偏見的變化; 或提取出每個(gè)年代與目標(biāo)概念(如社會(huì)群體)聯(lián)系最緊密的特質(zhì)詞, 并分析這些詞的效價(jià)(積極/消極)等屬性的變化。基于此, 研究者揭示了:美國社會(huì)的性別刻板印象和種族刻板印象在20世紀(jì)逐漸減弱(Bhatia amp; Bhatia, 2021; Garg et al., 2018); 社會(huì)的不同屬性維度(如貧?富、男性化?女性化、道德高低、教養(yǎng)高低等)及不同維度之間的關(guān)系在20世紀(jì)的變化(Kozlowski et al., 2019); 新聞媒體對種族外群體的刻板印象內(nèi)容從2005到2015年的變化(Kroon et al., 2021); 人們對14類社會(huì)群體(包括不同性別、種族、年齡、體型和社會(huì)階層的群體)的刻板印象內(nèi)容及其效價(jià)從1800到2000年的變化(Charlesworth et al., 2022); 道德概念、道德的積極?消極效價(jià)和道德基礎(chǔ)維度(如關(guān)愛?傷害、公平?欺騙)從1800到2000年的變化(Xie et al., 2019)。此外, 一項(xiàng)研究利用谷歌圖書和《紐約時(shí)報(bào)》語料庫, 分別使用詞頻分析、情感分析、主題模型分析和詞嵌入分析, 揭示了1800~2000年風(fēng)險(xiǎn)(risk)概念的詞頻在上升, 情感效價(jià)越來越消極, 主題從戰(zhàn)爭轉(zhuǎn)向疾病, 語義逐漸趨近于對風(fēng)險(xiǎn)的規(guī)避和預(yù)防(Y. Li et al., 2020)。而關(guān)于文化心理變遷, Hamamura等(2021)考察了中國的個(gè)人主義/集體主義與其他10個(gè)概念(如積極、消極、成就、金錢、休閑、工作、家庭等)之間的聯(lián)系從1950到2000年的變化; 根據(jù)對其結(jié)果的重新分析和正確解讀, 個(gè)人主義越來越被中國人接受(態(tài)度從消極變?yōu)橹行裕?并且與富裕(而非貧窮)、休閑娛樂等方面的聯(lián)系變得更緊密(Bao et al., 2022)。
2.4" 小結(jié)
總之, 由大規(guī)模語料訓(xùn)練出來的詞向量不僅表征了社會(huì)文化中的語義信息, 而且蘊(yùn)含了許多人類心理和行為信息。心理學(xué)研究可以利用詞向量的原始值(向量)、線性運(yùn)算結(jié)果、絕對相似度或距離、相對相似度或距離, 考察蘊(yùn)含在詞向量或其關(guān)系背后的心理和行為現(xiàn)象及其規(guī)律。表2總結(jié)了這些應(yīng)用形式、用途特點(diǎn)和利用的語義信息。
3" 討論
現(xiàn)代科學(xué)心理學(xué)始于1879年馮特在德國萊比錫大學(xué)建立的第一個(gè)心理學(xué)實(shí)驗(yàn)室。大家所熟知的是, 通過建立第一個(gè)心理學(xué)實(shí)驗(yàn)室, 馮特為科學(xué)研究人類心理與行為指明了一個(gè)基本途徑, 即通過直接觀測和分析人的心理與行為來研究其規(guī)律; 然而不太為大家所知的是, 馮特晚年專注的民族心理學(xué)其實(shí)還為研究人類心理與行為指明了另外一種途徑, 即研究包含大量人類心理與行為信息的各種產(chǎn)品。一百多年來, 心理學(xué)的絕大多數(shù)研究都是基于馮特開創(chuàng)的第一個(gè)途徑開展的。近年來, 隨著計(jì)算機(jī)、人工智能和自然語言處理技術(shù)的突飛猛進(jìn), 通過文化產(chǎn)品和自然語言來探索人類心理和行為規(guī)律的研究開始涌現(xiàn)。作為自然語言處理的關(guān)鍵技術(shù), 詞嵌入近年來在心理學(xué)研究中得到了越來越多的應(yīng)用。為了促進(jìn)詞嵌入在中國心理學(xué)界的普及和應(yīng)用, 本文對詞嵌入的基本方法及其在心理學(xué)領(lǐng)域的各種應(yīng)用進(jìn)行了至今最全面的介紹。下面的討論中, 我們將首先總結(jié)該方法在心理學(xué)中應(yīng)用的基本流程, 然后分析其優(yōu)缺點(diǎn)和主要問題, 最后試圖指明重要的未來研究方向。
3.1" 運(yùn)用詞嵌入方法開展心理學(xué)研究的基本流程
為了便于大家更好地掌握詞嵌入方法在心理學(xué)研究中的應(yīng)用流程, 根據(jù)前面兩部分的介紹和整理, 我們構(gòu)建了一個(gè)基于詞嵌入的心理學(xué)研究的整體框架(圖2)。從圖2可以看出, 總體上, 基于詞嵌入的心理學(xué)研究通常是數(shù)據(jù)和理論共同驅(qū)動(dòng)的。數(shù)據(jù)驅(qū)動(dòng)部分的詞向量訓(xùn)練為研究提供必需的語義特征向量, 理論驅(qū)動(dòng)部分的問題提出和假設(shè)推導(dǎo)則為詞向量的應(yīng)用指明方向。在詞表構(gòu)建過程中, 數(shù)據(jù)和理論都不可或缺。有了合理的詞表和預(yù)訓(xùn)練好的詞向量, 研究者就可以根據(jù)研究目的, 選取恰當(dāng)?shù)脑~向量分析指標(biāo)來開展心理學(xué)研究, 包括對心理和行為的描述和預(yù)測。
3.2" 詞嵌入方法的優(yōu)勢
與傳統(tǒng)的對人的心理和行為直接觀測和分析的方法相比, 詞嵌入方法具有多方面的獨(dú)特優(yōu)勢。
第一, 研究成本低。使用詞嵌入方法幾乎不需要考慮招募被試的成本; 同時(shí), 如果使用現(xiàn)成的預(yù)訓(xùn)練好的詞向量庫, 則只需要一臺普通的計(jì)算機(jī)即可完成分析。而傳統(tǒng)的行為實(shí)驗(yàn)、問卷、訪談等都需要人工招募被試, 研究周期較長, 被試費(fèi)成本較高。
第二, 樣本代表性高。詞向量通常是根據(jù)大規(guī)模文本語料訓(xùn)練的(比如Common Crawl語料庫覆蓋了多種來源、萬億級規(guī)模的網(wǎng)頁鏈接), 分析結(jié)果更能代表人群總體。而傳統(tǒng)方法中, 樣本量一般比較有限, 且以學(xué)生樣本居多, 只有經(jīng)過嚴(yán)格、系統(tǒng)的抽樣才能保證樣本代表性。
第三, 分析客觀性強(qiáng)。詞向量是通過機(jī)器學(xué)習(xí)算法自動(dòng)訓(xùn)練而來的, 全程少有人為干預(yù), 雖然語言本身是由人類產(chǎn)生的, 但對語言的分析是量化、自動(dòng)化、無需依賴人類主觀報(bào)告的, 因此分析過程具有相對客觀性。而傳統(tǒng)基于被試自我報(bào)告的方法容易受到主觀性、社會(huì)贊許性和反應(yīng)偏差的影響。
第四, 研究結(jié)果可重復(fù)。如果研究者使用相同的語料庫、預(yù)訓(xùn)練詞向量庫、詞典和分析方法, 則理論上可以獲得完全一致的結(jié)果。因此, 在當(dāng)前社會(huì)科學(xué)面臨可重復(fù)性危機(jī)的背景下, 詞嵌入方法具有明顯優(yōu)勢。
第五, 研究主題靈活。研究者借助詞向量庫可以分析任意詞語或概念間的語義聯(lián)系, 從而可以靈活選取研究主題。如果要納入更多的詞, 則不需要重新收集數(shù)據(jù), 只需要增加相應(yīng)的詞。
第六, 特別適用于研究某些特定問題。雖然對于一些研究主題(如語義加工腦活動(dòng)), 詞嵌入僅起到輔助作用, 但如果研究者想要探究橫跨數(shù)百年的社會(huì)認(rèn)知與文化變遷, 或考察幾十種語言文化中的社會(huì)認(rèn)知, 或大規(guī)模快速測量個(gè)體的發(fā)散思維能力等, 則詞嵌入是不可或缺的方法。
3.3" 詞嵌入方法的局限
盡管詞嵌入有諸多優(yōu)勢和獨(dú)特價(jià)值, 心理學(xué)研究者仍需認(rèn)識到其局限。
首先, 計(jì)算機(jī)算法學(xué)習(xí)語義的過程只是利用詞共現(xiàn)信息估計(jì)模型參數(shù), 與人類習(xí)得語言的復(fù)雜過程相差甚遠(yuǎn), 因此詞向量難以對語義背后深層的心理機(jī)制(如動(dòng)機(jī)、目標(biāo)、意圖等)進(jìn)行表征(Lake amp; Murphy, 2021), 也難以直接反映人們頭腦內(nèi)的主觀心理過程。
其次, 在理解詞向量時(shí), 語料及其產(chǎn)生群體的特點(diǎn)和性質(zhì)是非常關(guān)鍵的, 因?yàn)檫@在很大程度上決定了詞向量的意義和結(jié)論的適用范圍。比如, 基于新聞報(bào)道訓(xùn)練的詞向量反映了媒體記者的語用特征和心理特點(diǎn), 而基于微博訓(xùn)練的詞向量反映了微博用戶的語用特征和心理特點(diǎn)。詞向量只能用于探究對應(yīng)群體的心理, 不能推廣到其他群體。因此, 在心理學(xué)研究中選取詞向量數(shù)據(jù)時(shí), 要盡量保證語料庫來源與研究問題相符和匹配, 否則得到的結(jié)論未必正確。
再次, WEAT、SC-WEAT、RND等方法一般是基于群體語料及由此訓(xùn)練的詞向量, 在此情況下只能測量群體的社會(huì)認(rèn)知, 不能像IAT一樣測量個(gè)體的社會(huì)認(rèn)知(Caliskan et al., 2017)。從某種意義上講, WEAT等前沿方法和IAT等傳統(tǒng)方法是互補(bǔ)的, 必要的話可以結(jié)合起來使用(如Kurdi et al., 2019; M.-H. Li et al., 2021; Rheault amp; Cochrane, 2020; Rozado amp; al-Gharbi, 2022)。
最后, 目前基于詞向量的心理測量在信度(Du et al., 2021; Durrheim et al., 2023; Richie amp; Bhatia, 2021)和效度(Joseph amp; Morgan, 2020; Rodman, 2020)方面仍存在一定爭議。為了增強(qiáng)結(jié)果的穩(wěn)健性和結(jié)論的說服力, 研究者需要構(gòu)建盡可能充足、全面的近義詞表, 而不應(yīng)只依賴少量關(guān)鍵詞。同時(shí), 對于同一個(gè)研究問題, 研究者可以將詞嵌入方法和傳統(tǒng)文本分析方法(如詞頻分析、主題模型分析)結(jié)合起來, 從而充分挖掘文本中蘊(yùn)含的心理規(guī)律(Arseniev-Koehler et al., 2022; Y. Li et al., 2020)。
3.4" 詞嵌入心理學(xué)研究的重要問題
雖然詞嵌入方法在心理學(xué)研究中的應(yīng)用發(fā)展迅猛, 但是依然存在一些重要的基礎(chǔ)性問題。下面我們對其中關(guān)注度比較高的三個(gè)問題進(jìn)行分析和討論。
3.4.1" 如何有效解釋詞向量維度?
在大部分詞嵌入算法中, 詞向量的維度本質(zhì)上是神經(jīng)網(wǎng)絡(luò)模型的隱含層權(quán)重或輸出權(quán)重組合。因此, 詞向量對語義的表征是抽象的, 難以從語言學(xué)角度解釋, 也難以確定每個(gè)維度究竟代表哪種語義特征。為了增強(qiáng)詞向量的直觀性, 研究者往往會(huì)使用一種降維算法:t分布隨機(jī)近鄰嵌入(t-Distributed Stochastic Neighbor Embedding, t-SNE)。詞向量常見的幾十到幾百維對于人類而言仍屬于高維信息, 而t-SNE算法可以將詞向量嵌入到二維或三維空間, 同時(shí)盡量保留原始向量空間中的語義距離(Hinton amp; Salakhutdinov, 2006; van der Maaten amp; Hinton, 2008)。圖3舉例展示了t-SNE降維后的可視化結(jié)果??梢姡?降至平面的詞向量不僅較好地保留了詞匯間的語義距離和類比關(guān)系, 而且使這些語義關(guān)聯(lián)的解釋更直觀。
然而, t-SNE維度仍然是抽象的, 不表示具體語義; 而且t-SNE是隨機(jī)過程, 每次都產(chǎn)生不同結(jié)果。如果想從詞向量不可解釋的維度中提取出可解釋的語義信息, 可事先確定語義維度并建立坐標(biāo)系, 然后計(jì)算每個(gè)詞與維度兩極的相對相似度(Kozlowski et al., 2019)或進(jìn)行語義投影(Grand et al., 2022); 此外, 還可以使用主成分分析、有監(jiān)督的機(jī)器學(xué)習(xí)等方法(Günther et al., 2019; Utsumi, 2020)。
3.4.2" 如何區(qū)分不同的心理特征?
詞向量是多方面因素共同作用的復(fù)雜產(chǎn)物, 因此由詞向量或詞向量的關(guān)系指標(biāo)得到的結(jié)果可能是多種心理特征的混合, 比如情緒詞反映的情緒可能是理想情感(ideal affect)和實(shí)際情感(actual affect)的混合(Tsai, 2007)、認(rèn)知偏差可能是外顯(explicit)和內(nèi)隱(implicit)認(rèn)知的混合(Greenwald et al., 1998)。
具體到詞嵌入研究, 雖然自Caliskan等(2017)基于IAT的思想提出WEAT和SC-WEAT以來, 大量研究應(yīng)用這些方法考察了文本中蘊(yùn)含的社會(huì)態(tài)度、偏見和刻板印象, 但目前我們?nèi)圆磺宄EAT測量的社會(huì)認(rèn)知是外顯的、內(nèi)隱的還是二者的混合產(chǎn)物。
為了區(qū)分WEAT測量中的外顯和內(nèi)隱認(rèn)知成分, 研究者提出了一種可能的解決思路:將WEAT的目標(biāo)詞分為概念詞(如“花”)和范例詞(如“玫瑰”、“郁金香”), 而態(tài)度屬性詞保持一致(如積極?消極); 然后將概念詞與屬性詞的WEAT分?jǐn)?shù)作為外顯態(tài)度, 范例詞與屬性詞的WEAT分?jǐn)?shù)作為內(nèi)隱態(tài)度(Wang et al., 2019; 薛栢祥, 2019)。不過, 該方法只區(qū)分了目標(biāo)詞的性質(zhì), 而且概念詞數(shù)量可能不足5個(gè)(甚至只有1個(gè)), 遠(yuǎn)小于范例詞數(shù)量, 容易使結(jié)果不穩(wěn)定。本文認(rèn)為, 區(qū)分屬性詞的性質(zhì)也許是一種更合適的解決辦法。比如, 對于積極?消極屬性, 直接描述態(tài)度對象的評價(jià)性詞匯(如“芳香”、“惡臭”)可能反映外顯態(tài)度, 而間接關(guān)聯(lián)的非評價(jià)性詞匯(如“健康”、“疾病”)可能反映內(nèi)隱態(tài)度。總之, 關(guān)于如何有效區(qū)分詞向量概念聯(lián)系指標(biāo)的外顯和內(nèi)隱成分, 目前尚無充分、直接的實(shí)證證據(jù), 未來需要深入探討。
3.4.3" 絕對還是相對的詞相似度?
詞相似度指標(biāo)既可以是絕對的(如余弦相似度、歐氏距離), 也可以是相對的(如WEAT、RND)。在研究中, 我們應(yīng)該使用絕對還是相對指標(biāo)呢?實(shí)際上, 原始的詞相似度很難體現(xiàn)其效應(yīng)大小, 目前并沒有關(guān)于詞相似度大小的明確劃定標(biāo)準(zhǔn); 如果沒有參照點(diǎn), 則絕對值難以解釋。因此, 大部分研究都采用相對的詞相似度(如Caliskan et al., 2017; Garg et al., 2018; Kozlowski et al., 2019)。特別是, 當(dāng)涉及存在效價(jià)或極性的概念(如積極?消極)時(shí), 如果不區(qū)分而將其混在一起分析, 則研究結(jié)論可能有偏誤(如Hamamura et al., 2021)。
由于詞相似度無法區(qū)分反義詞, 研究者需要人工將效價(jià)或極性相反的詞(反義詞)明確區(qū)分開(Bao et al., 2022; Grand et al., 2022; Kozlowski" "et al., 2019; Lee et al., 2021; Nicolas et al., 2021)。例如, 道德概念中的積極詞(“善”的方面)和消極詞(“惡”的方面)構(gòu)成了道德維度兩極, 研究者可以將近義詞、反義詞的詞向量配對相減得到差異向量, 然后以此為基準(zhǔn)計(jì)算單個(gè)目標(biāo)詞向量與該差異向量的相似度(Izzidien, 2022)。相對指標(biāo)更少受到共變因素干擾, 心理學(xué)含義也更明確。例如, 一項(xiàng)研究發(fā)現(xiàn)大部分詞的絕對相似度都存在下降趨勢, 作者認(rèn)為一種可能的原因是語言復(fù)雜性的增加(Hamamura et al., 2021); 但是, 詞的相對相似度沒有明顯的整體下降趨勢(Bao et al., 2022)。
3.5" 詞嵌入心理學(xué)研究的未來展望
詞嵌入作為一項(xiàng)新興的自然語言處理技術(shù), 在心理學(xué)研究中已經(jīng)并將繼續(xù)展示巨大的應(yīng)用潛力。下面我們聚焦三個(gè)亟待未來研究的方向。其中, 前兩個(gè)涉及方法, 第三個(gè)涉及實(shí)質(zhì)性的心理學(xué)研究。
3.5.1" 建立細(xì)粒度的詞向量數(shù)據(jù)庫[ 自行訓(xùn)練詞向量也存在一定風(fēng)險(xiǎn), 需要特別注意以下問題:(1)由較小規(guī)模語料訓(xùn)練得到的詞向量可能缺乏準(zhǔn)確性和代表性, 導(dǎo)致研究結(jié)果產(chǎn)生偏差。目前, 尚無關(guān)于語料規(guī)模大小的明確要求, 但基本原則是語料越充足, 詞向量越可靠, 尤其要保證語料中有足夠多與研究問題有關(guān)的詞。 (2)對于中文詞向量的訓(xùn)練, 需要事先進(jìn)行中文分詞, 以保證后續(xù)結(jié)果的準(zhǔn)確性。如何對中文進(jìn)行準(zhǔn)確分詞是一個(gè)重要的基礎(chǔ)技術(shù)問題。研究者可以選用目前較成熟的中文分詞工具, 如jieba、HanLP、清華大學(xué)THULAC、北京大學(xué)pkuseg、哈工大LTP等。]
雖然目前已有的詞向量庫已經(jīng)初步劃分了年代和語種(見附表S1), 但為了探究更細(xì)水平的心理規(guī)律, 比如將年代細(xì)化至年份, 或?qū)⒄Z種和國家細(xì)化至同一國家內(nèi)部的不同地區(qū), 則需要額外訓(xùn)練獲得細(xì)粒度(fine-grained)的詞向量數(shù)據(jù)。首先是時(shí)間維度。HistWords詞向量庫的時(shí)間粒度僅到年代(每10年分別訓(xùn)練的詞向量), 時(shí)間點(diǎn)較少(中文詞向量僅覆蓋5個(gè)年代), 難以滿足變遷研究的需求, 也難以在其中應(yīng)用時(shí)間序列分析方法, 如格蘭杰因果檢驗(yàn)(蔡華儉 等, 2023)。同時(shí), HistWords項(xiàng)目僅使用了谷歌圖書語料, 目前暫時(shí)缺少基于其他語料的跨時(shí)間詞向量庫。為了克服這些局限, 未來研究有必要使用更多來源的語料, 如《人民日報(bào)》、《新聞聯(lián)播》、微博等, 建立以年為單位的詞向量庫。自行訓(xùn)練詞向量時(shí), 可采取一些策略彌補(bǔ)每年文本量的不足, 增強(qiáng)年度詞向量數(shù)據(jù)的穩(wěn)健性:采用3年滑動(dòng)窗(某年及前后各一年)的全部文本作為該年的文本來訓(xùn)練詞向量, 相當(dāng)于從源頭進(jìn)行平滑化(Garg et al., 2018; Lawson et al., 2022)。此外, 為了使詞向量具有跨時(shí)間可比性, 即解決不同時(shí)期向量空間的對齊問題(alignment problem), 一般可以使用Sch?nemann (1966)提出的正交普魯克(Orthogonal Procrustes)矩陣對齊方法(Y. Li et al., 2020; Hamilton et al., 2016; Rodman, 2020)。
另一個(gè)需要細(xì)化的維度是空間。目前已有的詞向量庫幾乎都是按語言劃分的(如Grave et al., 2018; Hamilton et al., 2016), 缺少一個(gè)國家內(nèi)部的州/省/市/縣級別的空間細(xì)粒度詞向量數(shù)據(jù), 這限制了詞向量在探討文化內(nèi)差異方面的應(yīng)用。當(dāng)然, 想獲得細(xì)粒度的詞向量, 合適、有效的文本語料是必不可少的。遺憾的是, 目前大部分可獲取的語料, 包括Common Crawl、谷歌圖書、維基/百度百科、《人民日報(bào)》等, 都無法獲得詳細(xì)的地區(qū)信息。不過, 一種可行的辦法是使用帶有用戶地區(qū)標(biāo)記的新媒體平臺(如新浪微博)或地方性報(bào)紙, 為每個(gè)省或地區(qū)專門訓(xùn)練一個(gè)詞向量模型。這可能需要花費(fèi)大量時(shí)間和資源來采集數(shù)據(jù)和訓(xùn)練模型, 但只要形成規(guī)模, 將極大促進(jìn)跨文化心理學(xué)研究。
3.5.2" 應(yīng)用動(dòng)態(tài)詞向量和語言模型
迄今為止, 雖然詞嵌入模型在工業(yè)界已經(jīng)從靜態(tài)發(fā)展到動(dòng)態(tài), 產(chǎn)生了很多大型預(yù)訓(xùn)練語言模型(車萬翔 等, 2021), 但是以Word2Vec、GloVe、FastText為主的靜態(tài)詞向量仍然是現(xiàn)有心理學(xué)研究的主流應(yīng)用方式。靜態(tài)詞向量將一個(gè)詞在語料庫中的所有上下文信息都壓縮到一個(gè)向量表示; 然而, 詞義可能依語境而變, 更嚴(yán)謹(jǐn)?shù)淖匀徽Z言分析需要考慮動(dòng)態(tài)詞向量(即考慮語境的影響)。
基于動(dòng)態(tài)詞向量, Guo和Caliskan (2021)提出了語境化詞嵌入聯(lián)系測驗(yàn)(Contextualized Embedding Association Test, CEAT)。通過從研究者感興趣的語料庫隨機(jī)抽取較大數(shù)量的包含目標(biāo)詞和概念詞的句子, 然后使用ELMo、GPT、BERT模型計(jì)算每個(gè)詞在特定句子中的動(dòng)態(tài)詞向量, 可以計(jì)算語境化的WEAT分?jǐn)?shù)并得到其分布, 進(jìn)而將不同語境(句子)中的WEAT分?jǐn)?shù)視為效應(yīng)量, 使用隨機(jī)效應(yīng)元分析匯總所有語境下的效應(yīng)量(Guo amp; Caliskan, 2021)。同樣利用動(dòng)態(tài)詞向量, 一項(xiàng)最新研究在自然語言中重復(fù)驗(yàn)證了大五人格結(jié)構(gòu), 發(fā)現(xiàn)宜人性、外傾性、盡責(zé)性是得到較好重復(fù)的人格特質(zhì)維度, 從而為人格心理學(xué)的詞匯學(xué)假設(shè)提供了新證據(jù)(Cutler amp; Condon, 2023)。
未來研究不僅要突破靜態(tài)詞向量的局限并利用語境化的動(dòng)態(tài)詞向量, 還要嘗試打破“向量”這種形式的束縛, 探索直接利用GPT、BERT等大型預(yù)訓(xùn)練語言模型的可能。本文介紹的詞嵌入向量只是自然語言處理的基石而非全貌。未來需要開展大量工作, 發(fā)展更優(yōu)的研究方法和測量工具。
3.5.3" 開展跨時(shí)間和跨語種的研究
利用詞向量的跨時(shí)間變化和跨語種差異來考察社會(huì)與文化心理在時(shí)間上的變遷和空間上的差異是未來兩個(gè)重要的具體研究方向。
在跨時(shí)間研究方面, 以往研究主要使用了預(yù)訓(xùn)練好的以年代為單位的HistWords詞向量庫(Hamilton et al., 2016)或自己訓(xùn)練的以年份為單位的詞向量數(shù)據(jù)(如Lawson et al., 2022), 主題涉及社會(huì)偏見與刻板印象的變遷、政治意識形態(tài)的變遷、文化及其心理含義的變遷等。國內(nèi)還有學(xué)者基于歷史語料庫和詞嵌入技術(shù), 專門開發(fā)了用于研究語義演變的Macroscope平臺(Y. Li et al., 2019)。鑒于社會(huì)變遷問題的重要性和前沿性(蔡華儉 等, 2020, 2023; 黃梓航 等, 2018, 2021), 未來研究可以將主題拓展至自我建構(gòu)、社會(huì)動(dòng)機(jī)、群際關(guān)系、消費(fèi)需求、環(huán)境態(tài)度與行為等方面的變遷, 也可以將時(shí)間范圍追溯至近代以前, 或?qū)r(shí)間粒度細(xì)化至月甚至天(取決于能否獲得相應(yīng)的文本語料)。此外, 新近研究發(fā)現(xiàn), 人們越晚習(xí)得的、越難進(jìn)行認(rèn)知加工的詞匯越容易產(chǎn)生歷時(shí)性的語義演變(Y. Li amp; Siew, 2022)。因此, 未來還可以繼續(xù)探究人類對語言的習(xí)得和加工如何影響和塑造語義演變。
在跨語種研究方面, 以往研究同樣提供了優(yōu)質(zhì)、可直接使用的多語種詞向量庫(Grave et al., 2018), 并從語言的社會(huì)心理屬性(比如詞語是否區(qū)分陰陽性)等視角考察了社會(huì)偏見等現(xiàn)象(DeFranza et al., 2020), 或從文化相似性、歷史相關(guān)性、地理鄰近性等視角考察了詞義表征的跨語言一致性和差異性(Thompson et al., 2020)。未來研究應(yīng)突破對語言本身的關(guān)注, 將多語種詞向量數(shù)據(jù)與國家層面社會(huì)生態(tài)數(shù)據(jù)(包括人均GDP、人口密度、氣候條件、農(nóng)耕方式等)相結(jié)合, 并嘗試?yán)糜?jì)量經(jīng)濟(jì)學(xué)方法解決因果推斷問題, 探索可能的文化心理機(jī)制。同時(shí), 研究也要關(guān)注語種和國家之間的對應(yīng)問題, 因?yàn)槭褂猛环N語言的國家可能不止一個(gè)。
最后, 我們想指出, 雖然詞嵌入技術(shù)最初源自計(jì)算機(jī)科學(xué)領(lǐng)域?qū)ψ匀徽Z言處理的需要, 對計(jì)算編程有一定的要求, 但是近年來, 不同領(lǐng)域的一些前期開拓者已經(jīng)為運(yùn)用詞嵌入技術(shù)開展心理學(xué)研究做了大量技術(shù)準(zhǔn)備, 極大降低了技術(shù)門檻(見補(bǔ)充材料2和附表S2)。其中, 本文第一作者基于R語言為心理學(xué)研究者專門開發(fā)了一個(gè)免費(fèi)的詞嵌入研究綜合工具包:PsychWordVec (Bao, 2022)。運(yùn)用PsychWordVec包, 每一位具有R編程基礎(chǔ)的心理學(xué)研究者都能很快掌握詞向量數(shù)據(jù)的管理與調(diào)用、詞相似度與WEAT等指標(biāo)的計(jì)算和統(tǒng)計(jì)分析、預(yù)訓(xùn)練語言模型的調(diào)用等, 從而為自己的研究服務(wù)。我們期待, 越來越多的國內(nèi)心理學(xué)研究者能及時(shí)了解詞嵌入這一前沿方法及其在心理學(xué)領(lǐng)域的廣闊應(yīng)用前景, 并充分利用PsychWordVec等集成化工具包, 將詞嵌入真正“嵌入”自己的研究。
參考文獻(xiàn)
蔡華儉, 黃梓航, 林莉, 張明楊, 王瀟歐, 朱慧珺, … 敬一鳴. (2020). 半個(gè)多世紀(jì)來中國人的心理與行為變化——心理學(xué)視野下的研究. 心理科學(xué)進(jìn)展, 28(10), 1599?1688.
蔡華儉, 張明楊, 包寒吳霜, 朱慧珺, 楊紫嫣, 程曦, … 王梓西. (2023). 心理學(xué)視野下的社會(huì)變遷研究: 研究設(shè)計(jì)與分析方法. 心理科學(xué)進(jìn)展, 31(2), 159?172.
車萬翔, 郭江, 崔一鳴. (2021). 自然語言處理: 基于預(yù)訓(xùn)練模型的方法. 北京: 電子工業(yè)出版社.
陳萌, 和志強(qiáng), 王夢雪. (2021). 詞嵌入模型研究綜述. 河北省科學(xué)院學(xué)報(bào), 38(2), 8?16.
黃梓航, 敬一鳴, 喻豐, 古若雷, 周欣悅, 張建新, 蔡華儉. (2018). 個(gè)人主義上升, 集體主義式微? ——全球文化變遷與民眾心理變化. 心理科學(xué)進(jìn)展, 26(11), 2068? 2080.
黃梓航, 王俊秀, 蘇展, 敬一鳴, 蔡華儉. (2021). 中國社會(huì)轉(zhuǎn)型過程中的心理變化: 社會(huì)學(xué)視角的研究及其對心理學(xué)家的啟示. 心理科學(xué)進(jìn)展, 29(12), 2246?2259.
王垚, 賈寶龍, 杜依寧, 張晗, 陳響. (2022). 基于詞向量的多維度正則化SVM社交網(wǎng)絡(luò)抑郁傾向檢測方法. 計(jì)算機(jī)應(yīng)用與軟件, 39(3), 116?120.
吳勝濤, 楊晨曦, 王世強(qiáng), 馬瑞啟, 韓布新. (2020). 正義動(dòng)機(jī)的他人凸顯效應(yīng): 基于詞嵌入聯(lián)想測驗(yàn)的證據(jù). 科學(xué)通報(bào), 65(19), 2047?2054.
薛栢祥. (2019). 社會(huì)媒體語言中外顯及內(nèi)隱社會(huì)態(tài)度的自動(dòng)化分析 (碩士學(xué)位論文). 天津大學(xué).
楊紫嫣, 劉云芝, 余震坤, 蔡華儉. (2015). 內(nèi)隱聯(lián)系測驗(yàn)的應(yīng)用: 國內(nèi)外研究現(xiàn)狀. 心理科學(xué)進(jìn)展, 23(11), 1966?1980.
Agarwal, O., Durup?nar, F., Badler, N. I., amp; Nenkova, A. (2019). Word embeddings (also) encode human personality stereotypes. In Proceedings of the Eighth Joint Conference on Lexical and Computational Semantics (pp. 205?211), Minneapolis, Minnesota. Association for Computational Linguistics. https://doi.org/10.18653/v1/S19-1023
Aka, A., amp; Bhatia, S. (2022). Machine learning models for predicting, understanding, and influencing health perception. Journal of the Association for Consumer Research, 7(2), 142?153.
Arseniev-Koehler, A., Cochran, S. D., Mays, V. M., Chang, K.-W., amp; Foster, J. G. (2022). Integrating topic modeling and word embedding to characterize violent deaths. Proceedings of the National Academy of Sciences, 119(10), Article e2108801119.
Bailey, A. H., Williams, A., amp; Cimpian, A. (2022). Based on billions of words on the internet, PEOPLE = MEN. Science Advances, 8(13), Article eabm2463.
Bao, H.-W.-S. (2022). PsychWordVec: Word embedding research framework for psychological science [Computer software]. https://CRAN.R-project.org/package=PsychWordVec
Bao, H.-W.-S., Cai, H., amp; Huang, Z. (2022). Discerning cultural shifts in China? Commentary on Hamamura et al. (2021). American Psychologist, 77(6), 786?788.
Beaty, R. E., amp; Johnson, D. R. (2021). Automating creativity assessment with SemDis: An open platform for computing semantic distance. Behavior Research Methods, 53, 757?780.
Bengio, Y., Ducharme, R., Vincent, P., amp; Jauvin, C. (2003). A neural probabilistic language model. Journal of Machine Learning Research, 3, 1137?1155.
Bhatia, N., amp; Bhatia, S. (2021). Changes in gender stereotypes over time: A computational analysis. Psychology of Women Quarterly, 45(1), 106?125.
Bhatia, S. (2017a). Associative judgment and vector space semantics. Psychological Review, 124(1), 1?20.
Bhatia, S. (2017b). The semantic representation of prejudice and stereotypes. Cognition, 164, 46?60.
Bhatia, S. (2019a). Predicting risk perception: New insights from data science. Management Science, 65(8), 3800? 3823.
Bhatia, S. (2019b). Semantic processes in preferential decision making. Journal of Experimental Psychology: Learning, Memory, and Cognition, 45(4), 627?640.
Bhatia, S., Goodwin, G. P., amp; Walasek, L. (2018). Trait associations for Hillary Clinton and Donald Trump in news media: A computational analysis. Social Psychological and Personality Science, 9(2), 123?130.
Bhatia, S., Olivola, C. Y., Bhatia, N., amp; Ameen, A. (2022). Predicting leadership perception with large-scale natural language data. The Leadership Quarterly, 33(5), Article 101535.
Bhatia, S., Richie, R., amp; Zou, W. (2019). Distributed semantic representations for modeling human judgment. Current Opinion in Behavioral Sciences, 29, 31?36.
Blei, D. M., Ng, A.Y., amp; Jordan, M. I. (2003). Latent Dirichlet allocation. Journal of Machine Learning Research 3, 993?1022.
Bolukbasi, T., Chang, K.-W., Zou, J., Saligrama, V., amp; Kalai, A. (2016). Man is to computer programmer as woman is to homemaker? Debiasing word embeddings. arXiv. https:// doi.org/10.48550/arXiv.1607.06520
Caliskan, A., Bryson, J. J., amp; Narayanan, A. (2017). Semantics derived automatically from language corpora contain human-like biases. Science, 356(6334), 183?186.
Charlesworth, T. E. S., Caliskan, A., amp; Banaji, M. R. (2022). Historical representations of social groups across 200 years of word embeddings from Google Books. Proceedings of the National Academy of Sciences, 119(28), Article e2121798119.
Charlesworth, T. E. S., Yang, V., Mann, T. C., Kurdi, B., amp; Banaji, M. R. (2021). Gender stereotypes in natural language: Word embeddings show robust consistency across child and adult language corpora of more than 65 million words. Psychological Science, 32(2), 218?240.
Chen, H., Yang, C., Zhang, X., Liu, Z., Sun, M., amp; Jin, J. (2021). From symbols to embeddings: A tale of two representations in computational social science. Journal of Social Computing, 2(2), 103?156.
Cutler, A., amp; Condon, D. M. (2023). Deep lexical hypothesis: Identifying personality structure in natural language. Journal of Personality and Social Psychology. Advance online publication. https://doi.org/10.1037/pspp0000443
DeFranza, D., Mishra, H., amp; Mishra, A. (2020). How language shapes prejudice against women: An examination across 45 world languages. Journal of Personality and Social Psychology, 119(1), 7?22.
Du, Y., Fang, Q., amp; Nguyen, D. (2021). Assessing the reliability of word embedding gender bias measures. arXiv. https://doi.org/10.48550/arXiv.2109.04732
Durrheim, K., Schuld, M., Mafunda, M., amp; Mazibuko, S. (2023). Using word embeddings to investigate cultural biases. British Journal of Social Psychology, 62(1), 617?629.
Gandhi, N., Zou, W., Meyer, C., Bhatia, S., amp; Walasek, L. (2022). Computational methods for predicting and understanding food judgment. Psychological Science, 33(4), 579?594.
Garg, N., Schiebinger, L., Jurafsky, D., amp; Zou, J. (2018). Word embeddings quantify 100 years of gender and ethnic stereotypes. Proceedings of the National Academy of Sciences, 115(16), E3635?E3644.
Grand, G., Blank, I. A., Pereira, F., amp; Fedorenko, E. (2022). Semantic projection recovers rich human knowledge of multiple object features from word embeddings. Nature Human Behaviour, 6(7), 975?987.
Grave, E., Bojanowski, P., Gupta, P., Joulin, A., amp; Mikolov, T. (2018). Learning word vectors for 157 languages. arXiv. https://doi.org/10.48550/arXiv.1802.06893
Greenwald, A. G., McGhee, D. E., amp; Schwartz, J. L. K. (1998). Measuring individual differences in implicit cognition: The Implicit Association Test. Journal of Personality and Social Psychology, 74(6), 1464?1480.
Griffiths, T. L., Steyvers, M., amp; Tenenbaum, J. B. (2007). Topics in semantic representation. Psychological Review, 114(2), 211?244.
Guo, W., amp; Caliskan, A. (2021). Detecting emergent intersectional biases: Contextualized word embeddings contain a distribution of human-like biases. arXiv. https://doi.org/10.48550/arXiv.2006.03955
Günther, F., Rinaldi, L., amp; Marelli, M. (2019). Vector-space models of semantic representation from a cognitive perspective: A discussion of common misconceptions. Perspectives on Psychological Science, 14(6), 1006?1033.
Hamamura, T., Chen, Z., Chan, C. S., Chen, S. X., amp; Kobayashi, T. (2021). Individualism with Chinese characteristics? Discerning cultural shifts in China using 50 years of printed texts. American Psychologist, 76(6), 888?903.
Hamilton, W. L., Leskovec, J., amp; Jurafsky, D. (2016). Diachronic word embeddings reveal statistical laws of semantic change. arXiv. https://doi.org/10.48550/arXiv. 1605.09096
Harris, Z. S. (1954). Distributional structure. Words, 10(2?3), 146?162.
Heinen, D. J. P., amp; Johnson, D. R. (2018). Semantic distance: An automated measure of creativity that is novel and appropriate. Psychology of Aesthetics, Creativity, and the Arts, 12(2), 144?156.
Hinton, G. E., amp; Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504?507.
Hirschberg, J., amp; Manning, C. D. (2015). Advances in natural language processing. Science, 349(6245), 261?266.
Huth, A. G., de Heer, W. A., Griffiths, T. L., Theunissen, F. E., amp; Gallant, J. L. (2016). Natural speech reveals the semantic maps that tile human cerebral cortex. Nature, 532(7600), 453?458.
Izzidien, A. (2022). Word vector embeddings hold social ontological relations capable of reflecting meaningful fairness assessments. AI amp; Society, 37, 299?318.
Jackson, J. C., Gelfand, M., De, S., amp; Fox, A. (2019). The loosening of American culture over 200 years is associated with a creativity?order trade-off. Nature Human Behaviour, 3(3), 244?250.
Jackson, J. C., Watts, J., List, J.-M., Puryear, C., Drabble, R., amp; Lindquist, K. A. (2022). From text to thought: How analyzing language can advance psychological science. Perspectives on Psychological Science, 17(3), 805?826.
Johnson, D. R., Cuthbert, A. S., amp; Tynan, M. E. (2021). The neglect of idea diversity in creative idea generation and evaluation. Psychology of Aesthetics, Creativity, and the Arts, 15(1), 125?135.
Jonauskaite, D., Sutton, A., Cristianini, N., amp; Mohr, C. (2021). English colour terms carry gender and valence biases: A corpus study using word embeddings. PLoS ONE, 16(6), Article e0251559.
Joseph, K., amp; Morgan, J. H. (2020). When do word embeddings accurately reflect surveys on our beliefs about people? arXiv. https://doi.org/10.48550/arXiv.2004.12043
Kalyan, K. S., amp; Sangeetha, S. (2020). SECNLP: A survey of embeddings in clinical natural language processing. Journal of Biomedical Informatics, 101, Article 103323.
Karpinski, A., amp; Steinman, R. B. (2006). The Single Category Implicit Association Test as a measure of implicit social cognition. Journal of Personality and Social Psychology, 91(1), 16?32.
Kozlowski, A. C., Taddy, M., amp; Evans, J. A. (2019). The geometry of culture: Analyzing the meanings of class through word embeddings. American Sociological Review, 84(5), 905?949.
Kroon, A. C., Trilling, D., amp; Raats, T. (2021). Guilty by association: Using word embeddings to measure ethnic stereotypes in news coverage. Journalism amp; Mass Communication Quarterly, 98(2), 451?477.
Kurdi, B., Mann, T. C., Charlesworth, T. E. S., amp; Banaji, M. R. (2019). The relationship between implicit intergroup attitudes and beliefs. Proceedings of the National Academy of Sciences, 116(13), 5862?5871.
Kurpicz-Briki, M., amp; Leoni, T. (2021). A world full of stereotypes? Further investigation on origin and gender bias in multi-lingual word embeddings. Frontiers in Big Data, 4, Article 625290.
Lake, B. M., amp; Murphy, G. L. (2021). Word meaning in minds and machines. Psychological Review. Advance online publication. https://doi.org/10.1037/rev0000297
Landauer, T. K., amp; Dumais, S. T. (1997). A solution to Plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge. Psychological Review, 104(2), 211?240.
Lawson, M. A., Martin, A. E., Huda, I., amp; Matz, S. C. (2022). Hiring women into senior leadership positions is associated with a reduction in gender stereotypes in organizational language. Proceedings of the National Academy of Sciences, 119(9), Article e2026443119.
Lazer, D., Pentland, A., Adamic, L., Aral, S., Barabási, A.-L., Brewer, D., … van Alstyne, M. (2009). Computational social science. Science, 323(5915), 721?723.
Lazer, D. M. J., Pentland, A., Watts, D. J., Aral, S., Athey, S., Contractor, N., … Wagner, C. (2020). Computational social science: Obstacles and opportunities. Science, 369(6507), 1060?1062.
Le, T. H., Arcodia, C., Abreu Novais, M., Kralj, A., amp; Phan, T. C. (2021). Exploring the multi-dimensionality of authenticity in dining experiences using online reviews. Tourism Management, 85, Article 104292.
Lee, K., Braithwaite, J., amp; Atchikpa, M. (2021). Word embedding analysis on colonial history, present issues, and optimism toward the future in Senegal. Computational and Mathematical Organization Theory, 27(3), 343?356.
Lenci, A. (2018). Distributional models of word meaning. Annual Review of Linguistics, 4, 151?171.
Lewis, M., amp; Lupyan, G. (2020). Gender stereotypes are reflected in the distributional structure of 25 languages. Nature Human Behaviour, 4, 1021?1028.
Li, H.-X., Lu, B., Chen, X., Li, X.-Y., Castellanos, F. X., amp; Yan, C.-G. (2022). Exploring self-generated thoughts in a resting state with natural language processing. Behavior Research Methods, 54, 1725?1743.
Li, M.-H., Li, P.-W., amp; Rao, L.-L. (2021). Self-other moral bias: Evidence from implicit measures and the Word- Embedding Association Test. Personality and Individual Differences, 183, Article 111107.
Li, Y., Engelthaler, T., Siew, C. S. Q., amp; Hills, T. T. (2019). The Macroscope: A tool for examining the historical structure of language. Behavior Research Methods, 51, 1864?1877.
Li, Y., Hills, T., amp; Hertwig, R. (2020). A brief history of risk. Cognition, 203, Article 104344.
Li, Y., amp; Siew, C. S. Q. (2022). Diachronic semantic change in language is constrained by how people use and learn language. Memory amp; Cognition, 50(6), 1284?1298.
Lin, L., Chen, X., Shen, Y., amp; Zhang, L. (2020). Towards automatic depression detection: A BiLSTM/1D CNN- based model. Applied Sciences, 10(23), Article 8701.
Mikolov, T., Chen, K., Corrado, G., amp; Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv. https://doi.org/10.48550/arXiv.1301.3781
Nicolas, G., Bai, X., amp; Fiske, S. T. (2021). Comprehensive stereotype content dictionaries using a semi-automated method. European Journal of Social Psychology, 51(1), 178?196.
Olson, J. A., Nahas, J., Chmoulevitch, D., Cropper, S. J., amp; Webb, M. E. (2021). Naming unrelated words predicts creativity. Proceedings of the National Academy of Sciences, 118(25), Article e2022340118.
Prystawski, B., Grant, E., Nematzadeh, A., Lee, S. W. S., Stevenson, S., amp; Xu, Y. (2020). Tracing the emergence of gendered language in childhood. In S. Denison, M. Mack, Y. Xu, amp; B. C. Armstrong (Eds.), Proceedings of the 42nd Annual Conference of the Cognitive Science Society (pp. 1087?1093). Cognitive Science Society. https://cognitive sciencesociety.org/cogsci20/papers/0190/0190.pdf
Rheault, L., amp; Cochrane, C. (2020). Word embeddings for the analysis of ideological placement in parliamentary corpora. Political Analysis, 28(1), 112?133.
Rice, D., Rhodes, J. H., amp; Nteta, T. (2019). Racial bias in legal language. Research and Politics, 6(2), 1?7.
Richie, R., amp; Bhatia, S. (2021). Similarity judgment within and across categories: A comprehensive model comparison. Cognitive Science, 45(8), Article e13030.
Richie, R., Zou, W., amp; Bhatia, S. (2019). Predicting high- level human judgment across diverse behavioral domains. Collabra: Psychology, 5(1), Article 50.
Rodman, E. (2020). A timely intervention: Tracking the changing meanings of political concepts with word vectors. Political Analysis, 28(1), 87?111.
Rozado, D., amp; al-Gharbi, M. (2022). Using word embeddings to probe sentiment associations of politically loaded terms in news and opinion articles from news media outlets. Journal of Computational Social Science, 5, 427?448.
Salas-Zárate, R., Alor-Hernández, G., Salas-Zárate, M. d. P., Paredes-Valverde, M. A., Bustos-López, M., amp; Sánchez-Cervantes, J. L. (2022). Detecting depression signs on social media: A systematic literature review. Healthcare, 10(2), Article 291.
Sch?nemann, P. H. (1966). A generalized solution of the orthogonal Procrustes problem. Psychometrika, 31(1), 1?10.
Thompson, B., Roberts, S. G., amp; Lupyan, G. (2020). Cultural influences on word meanings revealed through large-scale semantic alignment. Nature Human Behaviour, 4, 1029? 1038.
Toney-Wails, A., amp; Caliskan, A. (2021). ValNorm quantifies semantics to reveal consistent valence biases across languages and over centuries. arXiv. https://doi.org/10.48550/ arXiv.2006.03950
Tsai, J. L. (2007). Ideal affect: Cultural causes and behavioral consequences. Perspectives on Psychological Science, 2(3), 242?259.
Utsumi, A. (2020). Exploring what is encoded in distributional word vectors: A neurobiologically motivated analysis. Cognitive Science, 44(6), Article e12844.
van der Maaten, L., amp; Hinton, G. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research, 9, 2579?2605.
Wang, B., Xue, B., amp; Greenwald, A. G. (2019). Can we derive explicit and implicit bias from corpus? arXiv. https://doi.org/10.48550/arXiv.1905.13364
Xie, J. Y., Pinto, R. F., Jr., Hirst, G., amp; Xu, Y. (2019). Text-based inference of moral sentiment change. arXiv. https://doi.org/10.48550/arXiv.2001.07209
Xu, H., Zhang, Z., Wu, L., amp; Wang, C.-J. (2019). The Cinderella Complex: Word embeddings reveal gender stereotypes in movies and books. PLoS ONE, 14(11), Article e0225385.
Zhang, Y., Han, K., Worth, R., amp; Liu, Z. (2020). Connecting concepts in the brain by mapping cortical representations of semantic relations. Nature Communications, 11, Article 1877.
Zou, W., amp; Bhatia, S. (2021). Judgment errors in naturalistic numerical estimation. Cognition, 211, Article 104647.
Abstract: As a fundamental technique in natural language processing (NLP), word embedding quantifies a word as a low-dimensional, dense, and continuous numeric vector (i.e., word vector). Word embeddings can be obtained by using machine learning algorithms such as neural networks to predict the surrounding words given a word or vice versa (Word2Vec and FastText) or by predicting the probability of co-occurrence of multiple words (GloVe) in large-scale text corpora. Theoretically, the dimensions of a word vector reflect the pattern of how the word can be predicted in contexts; however, they also connote substantial semantic information of the word. Therefore, word embeddings can be used to analyze semantic meanings of text. In recent years, word embeddings have been increasingly applied to study human psychology, including human semantic processing, cognitive judgment, divergent thinking, social biases and stereotypes, and sociocultural changes at the societal or population level. Future research using word embeddings should (1) distinguish between implicit and explicit components of social cognition, (2) train fine-grained word vectors in terms of time and region to facilitate cross-temporal and cross-cultural research, and (3) apply contextualized word embeddings and large pre-trained language models such as GPT and BERT. To enhance the application of word embeddings in psychology, we have developed the R package “PsychWordVec”, an integrated word embedding toolkit for researchers to study human psychology in natural language.
Keywords: natural language processing, word embedding, word vector, semantic representation, semantic relatedness, Word Embedding Association Test (WEAT)
附錄
補(bǔ)充材料1" 詞向量的訓(xùn)練算法和模型
1. 靜態(tài)詞向量: Word2Vec、GloVe、FastText
訓(xùn)練靜態(tài)詞向量的基本策略是:將大規(guī)模語料的詞共現(xiàn)信息作為機(jī)器學(xué)習(xí)的自監(jiān)督學(xué)習(xí)信號(無需人工標(biāo)注), 利用算法預(yù)測詞與上下文的共現(xiàn)關(guān)系。這種關(guān)系既可以是局部語境中的詞共現(xiàn)情況, 也可以是全局語境中的詞共現(xiàn)矩陣, 兩者分別對應(yīng)了Word2Vec和GloVe這兩種算法。
Word2Vec是2013年由Google提出的, 包括兩種模型: (1)連續(xù)詞袋(Continuous Bag-of-Words, CBOW)模型, 在文本中從頭至尾依次取同等大小的目標(biāo)窗口(比如大小為2的窗口包括5個(gè)連續(xù)的詞), 采用單層神經(jīng)網(wǎng)絡(luò), 根據(jù)上下文預(yù)測中心詞, 得到的詞向量為神經(jīng)網(wǎng)絡(luò)隱含層權(quán)重(一般取輸入權(quán)重); (2)跳詞(Skip-Gram, SG)模型, 同樣取一定大小的上下文窗口, 但訓(xùn)練任務(wù)是根據(jù)中心詞預(yù)測上下文其他詞(Mikolov, Chen et al., 2013)。后者的一個(gè)優(yōu)化方法是負(fù)采樣, 即負(fù)采樣跳詞(Skip- Gram with Negative Sampling, SGNS)模型: 對于每個(gè)訓(xùn)練樣本, 按照一定概率生成負(fù)樣本(不包含當(dāng)前窗口內(nèi)詞的樣本)用于分類訓(xùn)練, 以提高訓(xùn)練效率和語義表征效果(Mikolov, Sutskever et al., 2013)。
GloVe (Global Vectors)是2014年由斯坦福大學(xué)提出的。與Word2Vec僅利用局部上下文不同, GloVe是預(yù)測一定大小的上下文窗口內(nèi)含有全局統(tǒng)計(jì)信息的詞?上下文共現(xiàn)矩陣, 并考慮中心詞和上下文其他詞的位置距離, 將距離更近的詞賦予更大權(quán)重, 然后進(jìn)行加權(quán)回歸, 得到的詞向量為回歸迭代求解的參數(shù)(Pennington et al., 2014)。GloVe既利用了全局的詞共現(xiàn)統(tǒng)計(jì)信息, 也考慮了局部上下文語境中詞與詞之間的位置距離對詞共現(xiàn)的影響(Pennington et al., 2014)。因此, GloVe能更好地反映詞與詞的共現(xiàn)情況。
此外, 還有一種基于Word2Vec的改進(jìn)算法: FastText, 其基本架構(gòu)與Word2Vec相似, 可以是CBOW或Skip-Gram模型, 但訓(xùn)練對象不只是單詞, 還包括由子詞(subword)構(gòu)成的字符級n-gram, 而且訓(xùn)練時(shí)也是預(yù)測n-gram的共現(xiàn)(Bojanowski et al., 2017; Joulin et al., 2016)。FastText廣泛適用于多種語言(Bojanowski et al., 2017)。
下載地址:
(1) Google基于Google News訓(xùn)練的詞向量庫(https://code.google.com/p/word2vec/);
(2)斯坦福大學(xué)基于Google Books訓(xùn)練的跨年代(1800s~1990s)、多語種(英語、法語、德語、漢語)詞向量庫HistWords (Hamilton et al., 2016; https://nlp.stanford.edu/projects/histwords/);
(3)北京師范大學(xué)基于百度百科、中文維基百科、人民日報(bào)、新聞、微博、知乎、文學(xué)作品、四庫全書等語料庫分別訓(xùn)練的中文詞向量庫(https://github.com/Embedding/ Chinese-Word-Vectors);
(4) GloVe官方基于Wikipedia、Common Crawl、Gigaword、Twitter等大規(guī)模語料庫分別訓(xùn)練的英文詞向量庫(Pennington et al., 2014; https://nlp.stanford.edu/projects/ glove/);
(5) FastText官方基于Wikipedia和Common Crawl大規(guī)模語料庫訓(xùn)練的全球157種語言的詞向量庫(Grave et al., 2018; https://fasttext.cc/docs/en/crawl-vectors.html)。
目前, 基于這三種靜態(tài)詞向量訓(xùn)練算法, 已經(jīng)有一系列預(yù)訓(xùn)練好的靜態(tài)詞向量數(shù)據(jù)可供研究者直接下載使用(見附表S1)。這些靜態(tài)詞向量庫一般使用較大規(guī)模的訓(xùn)練語料, 因此詞匯量較大(幾十萬至幾百萬), 能覆蓋研究需要的大部分詞匯。然而, 對于未出現(xiàn)在詞向量庫中的詞, 我們無法獲取它們的靜態(tài)詞向量。為了根據(jù)子詞拼接生成整詞的向量表示, 也為了考慮語境對語義的影響, 我們需要利用預(yù)訓(xùn)練語言模型來生成動(dòng)態(tài)詞向量。
2. 動(dòng)態(tài)詞向量和預(yù)訓(xùn)練語言模型:ELMo、GPT、BERT
為了完整實(shí)現(xiàn)自然語言的理解和生成, 需要使模型具備語言編碼和解碼的能力。這類模型通常被稱為預(yù)訓(xùn)練語言模型(pre-trained language model), 已不再是簡單的詞向量訓(xùn)練模型, 而是具有語言綜合處理能力的復(fù)雜模型, 參數(shù)量更龐大, 詳細(xì)原理可參閱技術(shù)文獻(xiàn)(車萬翔 等, 2021)。預(yù)訓(xùn)練語言模型的用途很廣, 但最基本的用途之一是可以從中提取語境化、動(dòng)態(tài)的詞向量, 從而解決一詞多義(polysemy)問題, 使語義的向量化表征更準(zhǔn)確。不過, 預(yù)訓(xùn)練語言模型的詞匯量一般較?。ㄒ环N語言可能只有幾萬的詞匯量), 而且詞匯有更多屬于子詞而非整詞。為此, 研究者一般可通過對子詞向量的疊加來獲得詞匯表以外(out-of-vocabulary)的整詞的向量表示。
目前, Hugging Face平臺(https://huggingface. co/models)已公開存儲(chǔ)了萬余種預(yù)訓(xùn)練語言模型, 可供免費(fèi)下載使用。語言模型的發(fā)展極其迅速, 從最初的ELMo (Embeddings from Language Models)動(dòng)態(tài)詞向量預(yù)訓(xùn)練模型(Peters et al., 2018), 到后來的GPT (Generative Pre-trained Transformer)生成式預(yù)訓(xùn)練模型(Radford et al., 2018), 以及BERT (Bidirectional Encoder Representations from Transformers)雙向編碼模型(Devlin et al., 2018), 再到BERT的各種衍生模型(如DistilBERT、ALBERT、RoBERTa、DistilRoBERTa、DeBERTa等)。本文不再詳細(xì)介紹, 讀者可參閱其他資料(車萬翔 等, 2021)。
補(bǔ)充材料2" 詞向量軟件工具簡介
附表S2總結(jié)了MATLAB、Python和R中與詞向量有關(guān)的工具包。其中, R語言PsychWordVec包是為心理學(xué)專門開發(fā)的詞嵌入研究綜合工具包, 推薦讀者使用(Bao, 2022)。
參考文獻(xiàn)
車萬翔, 郭江, 崔一鳴. (2021). 自然語言處理: 基于預(yù)訓(xùn)練模型的方法. 北京: 電子工業(yè)出版社.
Bao, H.-W.-S. (2022). PsychWordVec: Word embedding research framework for psychological science [Computer software]. https://CRAN.R-project.org/package=PsychWordVec
Bojanowski, P., Grave, E., Joulin, A., amp; Mikolov, T. (2017). Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics, 5, 135?146.
Devlin, J., Chang, M.-W., Lee, K., amp; Toutanova, K. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv. https://doi.org/10.48550/ arXiv.1810.04805
Mikolov, T., Chen, K., Corrado, G., amp; Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv. https://doi.org/10.48550/arXiv.1301.3781
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., Dean, J. (2013). Distributed representations of words and phrases and their compositionality. arXiv. https://doi.org/10.48550/ arXiv.1310.4546
Grave, E., Bojanowski, P., Gupta, P., Joulin, A., amp; Mikolov, T. (2018). Learning word vectors for 157 languages. arXiv. https://doi.org/10.48550/arXiv.1802.06893
Hamilton, W. L., Leskovec, J., amp; Jurafsky, D. (2016). Diachronic word embeddings reveal statistical laws of semantic change. arXiv.https://doi.org/10.48550/arXiv. 1605.09096
Joulin, A., Grave, E., Bojanowski, P., amp; Mikolov, T. (2016). Bag of tricks for efficient text classification. arXiv. https://doi.org/10.48550/arXiv.1607.01759
Pennington, J., Socher, R., amp; Manning, C. (2014). GloVe: Global vectors for word representation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (pp. 1532?1543), Doha, Qatar. Association for Computational Linguistics. https://doi.org/ 10.3115/v1/D14-1162
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., amp; Zettlemoyer, L. (2018). Deep contextualized word representations. arXiv. https://doi.org/10.48550/ arXiv.1802.05365
Radford, A., Narasimhan, K., Salimans, T., amp; Sutskever, I. (2018). Improving language understanding by generative pre-training. Retrieved April 19, 2022 from https://cdn. openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf