石雋鋒,李濟(jì)洪,王瑞波
(山西大學(xué) 現(xiàn)代教育技術(shù)學(xué)院,山西 太原 030006)
近些年來(lái),在自然語(yǔ)言處理領(lǐng)域,預(yù)訓(xùn)練詞語(yǔ)分布式表示在很多任務(wù)中有很好的性能,這些任務(wù)包括文本分類[1]、問答系統(tǒng)[2]、命名實(shí)體識(shí)別[3]、語(yǔ)義角色標(biāo)注[4]等。為此,研究人員提出了很多預(yù)訓(xùn)練的語(yǔ)言模型[5-9],較為典型的方法有SENNA模型[5]、Word2Vec模型[6]、GloVe模型[7]、ELMo模型[8]、BERT模型[9]。其中,GloVe模型基于任意兩個(gè)詞之間的全局共現(xiàn)信息,再采用Log-Bilinear模型學(xué)習(xí)得到詞向量表示,在多項(xiàng)評(píng)測(cè)任務(wù)中表現(xiàn)良好。通常情況下,得到的詞向量的維數(shù)越高模型性能越好,但維數(shù)越大則訓(xùn)練耗時(shí)越長(zhǎng)。一個(gè)自然的想法是,利用并行計(jì)算分別學(xué)習(xí)較低維數(shù)的詞向量再拼接,能否得到性能更高的詞向量?事實(shí)上,在GloVe模型中,共現(xiàn)矩陣的統(tǒng)計(jì)方法采用了兩種,一種是對(duì)稱窗口的方法,即取目標(biāo)詞兩側(cè)固定窗口內(nèi)的詞語(yǔ)作為其上下文;另一種是非對(duì)稱窗口的方法,即取目標(biāo)詞左側(cè)的固定窗口內(nèi)的詞語(yǔ)作為其上下文,不同的共現(xiàn)矩陣會(huì)反映不同的句法和語(yǔ)義信息。為此,在GloVe模型中,本文以對(duì)稱和非對(duì)稱窗口統(tǒng)計(jì)得到兩個(gè)共現(xiàn)矩陣,分別學(xué)習(xí)得到詞向量表示,然后再采用拼接的方式,得到較高維度的詞向量表示。在驗(yàn)證實(shí)驗(yàn)中,我們分別學(xué)習(xí)得到的300維向量,再拼接得到600維向量表示,在中文和英文的詞語(yǔ)推斷任務(wù)的評(píng)測(cè)集上,預(yù)測(cè)的準(zhǔn)確率得到顯著提升。
在自然語(yǔ)言處理領(lǐng)域,詞語(yǔ)的分布式表示(distributional representation)是將詞的上下文信息表示為詞向量的形式,這種詞向量構(gòu)建的基礎(chǔ)是1957年Firth提出的分布式假說(shuō)(distributional hypothesis)[10],即一個(gè)詞語(yǔ)的語(yǔ)義信息是由其周圍的詞語(yǔ)來(lái)刻畫的(a word is characterized by the company it keeps)。科研人員提出了多種詞向量的構(gòu)造方法。Burgess 等[11]構(gòu)造的詞向量的每一維上表示目標(biāo)詞和其上下文詞語(yǔ)共現(xiàn)的頻次,而有些研究人員[12-13]用目標(biāo)詞和它的上下文的逐點(diǎn)互信息(pointwise mutual information,PMI)或正逐點(diǎn)互信息(positive pointwise mutual information,PPMI)代替了頻次。詞語(yǔ)的共現(xiàn)范圍通常用滑動(dòng)窗口的方法來(lái)實(shí)現(xiàn)[11],給定窗口的大小為w,通過(guò)在語(yǔ)料上逐詞地滑動(dòng)窗口。在每個(gè)窗口里,共現(xiàn)的詞對(duì)的頻次的和形成共現(xiàn)矩陣,詞對(duì)是有序的,即只統(tǒng)計(jì)目標(biāo)詞左側(cè)上下文的頻次,而把目標(biāo)詞和上下文交換角色后,就可以得到目標(biāo)詞右側(cè)上下文的頻次。文獻(xiàn)[14]系統(tǒng)地比較了不同的距離測(cè)度對(duì)不同的共現(xiàn)矩陣(PMI共現(xiàn)矩陣、PPMI共現(xiàn)矩陣)得到的詞向量在各種任務(wù)上的性能。在PPMI共現(xiàn)矩陣中,分出了四種共現(xiàn)矩陣,即基于左側(cè)共現(xiàn)、右側(cè)共現(xiàn)、及左右側(cè)共現(xiàn)相加、左右側(cè)共現(xiàn)拼接的共現(xiàn)矩陣,依次表示為:L,R,L+R,L&R,在語(yǔ)義聚類任務(wù)和句法聚類任務(wù)上比較了基于四種共現(xiàn)矩陣的性能,發(fā)現(xiàn)在語(yǔ)義聚類任務(wù)上,基于L&R的詞向量性能略高于基于L+R的詞向量;在句法聚類任務(wù)上,基于L&R的詞向量在維數(shù)較高的情況下,性能顯著高于基于L+R的詞向量。詞語(yǔ)的分布式表示是高維的、稀疏的向量,不利于進(jìn)行語(yǔ)義計(jì)算。為此,科研人員提出了一些降低維度的方法,文獻(xiàn)[15]對(duì)詞對(duì)的頻次排序,設(shè)定閾值,刪掉詞對(duì)頻次低于閾值的維數(shù),使得詞向量的維數(shù)大大降低。文獻(xiàn)[16]提出了奇異值分解方法,將文檔矩陣進(jìn)行分解,降低了詞向量的維數(shù),文獻(xiàn)[17]是對(duì)共現(xiàn)的PPMI矩陣進(jìn)行因式分解。近些年來(lái),科研人員通過(guò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞語(yǔ)的低維表示。Word2Vec模型[6]包括CBOW模型和Skip-gram模型,目標(biāo)函數(shù)為目標(biāo)詞和上下文的關(guān)系,CBOW模型的目標(biāo)函數(shù)為通過(guò)上下文預(yù)測(cè)目標(biāo)詞,而Skip-gram模型的目標(biāo)函數(shù)為通過(guò)目標(biāo)詞預(yù)測(cè)上下文。文獻(xiàn)[18-21]都是在CBOW和Skip-gram模型基礎(chǔ)上進(jìn)一步考慮了詞語(yǔ)在句子中的位置以及和目標(biāo)詞的關(guān)聯(lián)程度提出的改進(jìn)模型,這些模型在句法任務(wù)上性能均有所提升。文獻(xiàn)[18]采用了基于句法關(guān)系的上下文訓(xùn)練的詞向量作為依存句法解析的特征,來(lái)提高模型性能。文獻(xiàn)[19]在CBOW模型和Skip-gram模型的基礎(chǔ)上添加更多的參數(shù),保留上下文和目標(biāo)詞之間的位置信息。但模型的復(fù)雜度會(huì)隨著窗口的增大線性增加。文獻(xiàn)[20]在CBOW模型的基礎(chǔ)上,根據(jù)上下文的不同類型以及和目標(biāo)詞的相對(duì)位置的不同,為上下文分配不同的權(quán)重。文獻(xiàn)[21]引入一個(gè)方向向量來(lái)表示上下文是在目標(biāo)詞的左邊還是右邊,從而提高Skip-gram模型的性能。文獻(xiàn)[22]提出了采用基于句法關(guān)系的上下文訓(xùn)練詞向量的方法,在Skip-gram模型上,比較了基于句法關(guān)系的上下文和基于滑動(dòng)窗口的上下文訓(xùn)練得到的詞向量,發(fā)現(xiàn)通過(guò)基于句法關(guān)系的詞向量找到的相似詞語(yǔ)中功能型相似(functional similarity)的詞語(yǔ)比較多,基于滑動(dòng)窗口的詞向量找到的相似詞語(yǔ)中主題相似(topical similarity)的詞語(yǔ)比較多,例如,“佛羅里達(dá)州”在第一種上下文的詞向量下得到的相似的詞語(yǔ)為其所屬的國(guó)家或者它包含的城市,在第二種上下文的詞向量下得到的相似詞語(yǔ)是美國(guó)的一些其他的州。因此基于滑動(dòng)窗口上下文的詞向量表示和基于句法上下文的詞向量表示各有優(yōu)劣。應(yīng)當(dāng)把這兩種詞向量表示結(jié)合起來(lái)使用?;贕loVe模型有兩種統(tǒng)計(jì)共現(xiàn)矩陣的方式,一種是對(duì)稱窗口方式,沒有考慮詞語(yǔ)順序;另一種是非對(duì)稱窗口方式,考慮了上下文在目標(biāo)詞的前后順序。因此,我們有必要將兩種共現(xiàn)矩陣得到的詞向量結(jié)合起來(lái),得到精度更高的詞向量表示,來(lái)更好地完成語(yǔ)義和句法任務(wù)。
GloVe模型可以分別訓(xùn)練出基于對(duì)稱共現(xiàn)矩陣的低維詞向量和基于非對(duì)稱共現(xiàn)矩陣的低維詞向量。
GloVe模型訓(xùn)練基于對(duì)稱共現(xiàn)矩陣的低維詞向量的步驟如下:
(1) 從語(yǔ)料庫(kù)統(tǒng)計(jì)出詞表。從給定語(yǔ)料庫(kù)統(tǒng)計(jì)每個(gè)不同的詞語(yǔ)出現(xiàn)的次數(shù),按照頻次從高到低排序,ci表示第i個(gè)詞,fi表示第i個(gè)詞的頻次,1≤i≤n,其中n為語(yǔ)料庫(kù)中不同的詞語(yǔ)個(gè)數(shù)。
(3) 用vS表示基于對(duì)稱共現(xiàn)矩陣訓(xùn)練得到的低維詞向量。訓(xùn)練vS的目標(biāo)函數(shù)如式(1)所示。
(1)
GloVe模型訓(xùn)練基于非對(duì)稱共現(xiàn)矩陣的低維詞向量的步驟如下:
(1) 從語(yǔ)料庫(kù)統(tǒng)計(jì)出詞表。從給定語(yǔ)料庫(kù)統(tǒng)計(jì)每個(gè)不同的詞語(yǔ)出現(xiàn)的次數(shù),按照頻次從高到低排序,ci表示第i個(gè)詞,fi表示第i個(gè)詞的頻次,1≤i≤n,其中n為語(yǔ)料庫(kù)中不同的詞語(yǔ)個(gè)數(shù)。
(3) 用vA表示基于左側(cè)共現(xiàn)矩陣訓(xùn)練得到的低維詞向量。訓(xùn)練vA的目標(biāo)函數(shù)如式(2)所示。
(2)
本文提出了GloVe詞向量拼接模型,該模型并行訓(xùn)練出只有一半維數(shù)的vA和vS,再將它們拼接起來(lái),完成詞語(yǔ)推斷任務(wù)。具體步驟如下:
(1) 從語(yǔ)料庫(kù)統(tǒng)計(jì)出詞表。從給定語(yǔ)料庫(kù)統(tǒng)計(jì)每個(gè)不同的詞語(yǔ)出現(xiàn)的次數(shù),按照頻次從高到低排序,ci表示第i個(gè)詞,fi表示第i個(gè)詞的頻次,1≤i≤n,其中n為語(yǔ)料庫(kù)中不同的詞語(yǔ)個(gè)數(shù)。
(2) 設(shè)定固定窗口大小為w,依次遍歷語(yǔ)料庫(kù)中的詞語(yǔ),并行統(tǒng)計(jì)出左側(cè)共現(xiàn)矩陣和對(duì)稱共現(xiàn)矩陣XL和XS。兩個(gè)矩陣的大小都為n×n。XL和XS都是按詞頻排序的。
(3) 并行打亂XL和XS的順序。
(4) 在兩個(gè)處理器上,設(shè)置維數(shù)為GloVe模型的一半,分別用式(1)訓(xùn)練出vS,用式(2)訓(xùn)練出vA。
(5) 將vA和vS拼接起來(lái)作為詞語(yǔ)的低維詞表示。
實(shí)驗(yàn)環(huán)境為山西大學(xué)高性能計(jì)算平臺(tái)。
從English Wikipedia語(yǔ)料分割出三個(gè)不同大小的語(yǔ)料,分別包含2億、5億、10億個(gè)單詞,文件大小分別為1.09 GB、2.71 GB、5.42 GB?;瑒?dòng)窗口大小(window-size)設(shè)置為10,詞典中的最大詞數(shù)(max-vocab)設(shè)為100 000,用GloVe模型訓(xùn)練出600維的vS和vA,用GloVe詞向量拼接模型訓(xùn)練出600維的vS和vA的拼接向量(vS和vA的維數(shù)都是300維),在詞語(yǔ)推斷任務(wù)[3]上比較它們的準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如下,詞語(yǔ)推斷任務(wù)的測(cè)試集包括語(yǔ)義任務(wù)(capital:country,city:state,family)和句法任務(wù)(adjective:adverb,opposite,comparative等),結(jié)果如表1~表3所示。
從表1可以看出,GloVe詞向量拼接模型得到的詞向量在語(yǔ)義任務(wù)、句法任務(wù)和總?cè)蝿?wù)上的準(zhǔn)確率均有不同程度的提升,句法任務(wù)和總?cè)蝿?wù)上提升較大。從表2和表3可以看出,GloVe詞向量拼接模型得到的詞向量在句法任務(wù)上有較大提升,在總?cè)蝿?wù)上準(zhǔn)確率也有所提升。綜合表1到表3,GloVe詞向量拼接模型在句法任務(wù)上性 能較好,在較小的語(yǔ)料庫(kù)上性能提升得較大。隨著語(yǔ)料規(guī)模的擴(kuò)大,在“vA拼接vS”詞向量下,語(yǔ)義任務(wù)上的準(zhǔn)確率先升后降(82.01%→84.62%→84.40%),這是因?yàn)閙ax-vocab參數(shù)的設(shè)置,該參數(shù)限制了詞典的最大詞數(shù),在不同大小的語(yǔ)料上,詞典里的詞按照頻次從高到低排序,詞數(shù)相同,使得保留下來(lái)的詞并不相同,較大的語(yǔ)料保留了詞頻較高的詞,但可能刪去了一些有意義的上下文詞語(yǔ)。因此,語(yǔ)料大也可能使準(zhǔn)確率下降。由于實(shí)驗(yàn)?zāi)康氖潜容^在相同語(yǔ)料規(guī)模下,GloVe模型訓(xùn)練出詞向量和GloVe詞向量拼接模型訓(xùn)練出的詞向量的性能,因此,沒有考慮三個(gè)語(yǔ)料下要統(tǒng)一詞表。
表1 1.09 GB English Wikipedia語(yǔ)料下的比較結(jié)果 (單位:%)
表2 2.71 GB English Wikipedia語(yǔ)料下的比較結(jié)果 (單位:%)
表3 5.42 GB English Wikipedia語(yǔ)料下的比較結(jié)果 (單位:%)
本文在中文的詞語(yǔ)推斷任務(wù)上也做了相同的實(shí)驗(yàn),中文語(yǔ)料采用1998年和2000年人民日?qǐng)?bào)語(yǔ)料合并后的語(yǔ)料,大小為186 MB,中文的詞語(yǔ)推斷任務(wù)的測(cè)試集是文獻(xiàn)[23]提供的,只包含語(yǔ)義任務(wù)(首都:國(guó)家,省會(huì):省,家庭關(guān)系),用GloVe模型訓(xùn)練出600維的vS和vA,用GloVe詞向量拼接模型訓(xùn)練出600維的vS和vA的拼接向量(vS和vA的維數(shù)都是300維),在中文的詞語(yǔ)推斷任務(wù)上進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表4所示。
表4 人民日?qǐng)?bào)語(yǔ)料下的比較結(jié)果 (單位:%)
從表中的數(shù)據(jù)可以看出,GloVe詞向量拼接模型得到的詞向量準(zhǔn)確率有大幅提高。
本文對(duì)表1中的數(shù)據(jù)用χ2檢驗(yàn)方法進(jìn)行了顯著性檢驗(yàn),如式(3)所示。
(3)
在本實(shí)驗(yàn)中,n01表示使用GloVe詞向量拼接模型預(yù)測(cè)錯(cuò)誤而GloVe模型預(yù)測(cè)正確的詞語(yǔ)個(gè)數(shù),n10表示使用GloVe詞向量拼接模型預(yù)測(cè)正確而GloVe模型預(yù)測(cè)錯(cuò)誤的詞語(yǔ)個(gè)數(shù),通過(guò)計(jì)算得到的χ2值如表5所示。
表5 “vS”和“vA 拼接vS”在各個(gè)任務(wù)上的χ2值
詞語(yǔ)聚類的效果可以檢驗(yàn)詞向量性能。通常可以通過(guò)計(jì)算詞語(yǔ)向量的相鄰詞,觀察這些學(xué)習(xí)到的詞向量表示的好壞。本文采用詞向量的余弦相似度來(lái)度量詞語(yǔ)的相鄰程度。采用4.2節(jié)訓(xùn)練的詞向量。表6和表7分別列出了在“vS”“vA”和“vA拼接vS”的詞向量下,英國(guó)、德國(guó)最相鄰的10個(gè)詞。
表6 “英國(guó)”在“vS”、“vA”和“vA拼接vS”詞向量下的10近鄰詞及余弦相似度
表7 “德國(guó)”在“vS”、“vA”和“vA拼接vS”下的10個(gè)近鄰詞及余弦相似度
可以看出,與“vS”與“vA”詞向量相比,在“vA拼接vS”詞向量下,詞語(yǔ)的余弦相似度較大,說(shuō)明聚在一起的相似的詞語(yǔ)比較多。
通過(guò)列出的10個(gè)近鄰詞語(yǔ)可以看出,在“vS”詞向量下,列出了更多語(yǔ)義上比較接近的詞,在“vA”詞向量下,列出了更多句法上接近的詞語(yǔ),在“vA拼接vS”詞向量下,列出了更多句法和語(yǔ)義上接近的詞語(yǔ)。
比如,在“英國(guó)”的10個(gè)近鄰詞中,在“vS”詞向量下,“英國(guó)”的相鄰詞中包括“牛津”,而在“vA”詞向量下沒有這個(gè)詞;在“vA”詞向量下,“英國(guó)”的相鄰詞中包括“美國(guó)”“日本”“澳大利亞”,而在“vS”詞向量下沒有這些詞。在“vA拼接vS”詞向量下,“英國(guó)”的10個(gè)近鄰詞中包括“美國(guó)”“日本”,不包括“牛津”“澳大利亞”。但“英國(guó)”的第14近鄰詞為“澳大利亞”,和“英國(guó)”詞向量的余弦相似度為0.502 7,“英國(guó)”的第15近鄰詞為“牛津”,和“英國(guó)”詞向量的余弦相似度為0.495 3。雖然這兩個(gè)詞不在“英國(guó)”的前10個(gè)近鄰祠內(nèi),但是,在“vA拼接vS”下,這兩個(gè)詞和“英國(guó)”的余弦相似度分別比在“vA”和“vS”詞向量下的大。例如,在“vA拼接vS”下,“澳大利亞”和“英國(guó)”的詞向量的余弦相似度為0.502 7,0.502 7>0.424 7(“vA”下“英國(guó)”和“澳大利亞”的余弦相似度),同樣,在“vA拼接vS”下,“牛津”和“英國(guó)”的詞向量的余弦相似度為0.495 3,0.495 3>0.459 5(vS下“英國(guó)”和“牛津”的余弦相似度)。同樣,在“vA拼接vS”下,“美國(guó)”“日本”和“英國(guó)”的余弦相似度比“vA”詞向量下的余弦相似度大。
比如,在“德國(guó)”的10個(gè)近鄰詞中,在“vS”詞向量下,“德國(guó)”的相鄰詞中包括“施羅德”(德國(guó)前總理)、“納粹”,而在“vA”詞向量下沒有這兩個(gè)詞。在“vA”詞向量下,“德國(guó)”的相鄰詞中包括“荷蘭”“日本”,而在“vS”詞向量下沒有這些詞。在“vA拼接vS”詞向量下,“德國(guó)”的10個(gè)近鄰詞中包括“施羅德”“荷蘭”“日本”,不包括“納粹”。但“德國(guó)”的第22近鄰詞為“納粹”,余弦相似度比“vS”詞向量下的大,為0.482 9,0.482 9>0.439 5(“vS”下“德國(guó)”和“納粹”的余弦相似度)。在“vA拼接vS”詞向量下,“德國(guó)”的第7近鄰詞為“日本”,余弦相似度為0.578 7,0.578 7>0.439 7(“vA”下“德國(guó)”和“日本”的余弦相似度)。在“vA拼接vS”詞向量下,“施羅德”“荷蘭”的余弦相似度分別比在“vS”和“vA”詞向量下的大,由于篇幅所限,在此不一一列舉。
總的來(lái)說(shuō),在“vA拼接vS”下,詞語(yǔ)的近鄰詞中包括了更多語(yǔ)義和句法上相近的詞語(yǔ)。“vA拼接vS”得到的詞向量在詞語(yǔ)聚類上的表現(xiàn)優(yōu)于“vS”和“vA”詞向量。
本文統(tǒng)計(jì)了4.1節(jié)在1.09 GB的English Wikipedia語(yǔ)料下完成詞語(yǔ)推斷任務(wù)時(shí),GloVe模型和GloVe詞向量拼接模型運(yùn)行的時(shí)間,如表8所示。
表8 1.09 GB English Wikipedia語(yǔ)料下的運(yùn)行時(shí)間
因此,對(duì)GloVe模型,采用并行的訓(xùn)練學(xué)習(xí)方法,既可以提高詞向量的性能,又能節(jié)省訓(xùn)練時(shí)間。
從大部分的詞語(yǔ)推斷任務(wù)和聚類任務(wù)的實(shí)驗(yàn)結(jié)果可以看出,“vA拼接vS”詞向量在語(yǔ)義任務(wù)和句法任務(wù)上都超過(guò)了“vS”詞向量和“vA”詞向量。原因是“vS”詞向量和“vA”詞向量共現(xiàn)矩陣構(gòu)造過(guò)程不同,反映的句法和語(yǔ)義信息也不同?!皏A拼接vS”詞向量能夠體現(xiàn)更完整的句法和語(yǔ)義信息。
“vS”詞向量的共現(xiàn)矩陣構(gòu)造方法為:在語(yǔ)料庫(kù)上,從開始位置滑動(dòng)固定大小的窗口,統(tǒng)計(jì)目標(biāo)詞兩側(cè)固定窗口內(nèi)的詞語(yǔ)的頻次,生成對(duì)稱共現(xiàn)矩陣。
“vA”詞向量的共現(xiàn)矩陣構(gòu)造方法為:在語(yǔ)料庫(kù)上,從開始位置滑動(dòng)固定大小的窗口,統(tǒng)計(jì)目標(biāo)詞左側(cè)固定窗口內(nèi)的詞語(yǔ)的頻次,生成左側(cè)共現(xiàn)矩陣。左側(cè)共現(xiàn)矩陣的轉(zhuǎn)置即為右側(cè)共現(xiàn)矩陣,因此右側(cè)共現(xiàn)矩陣不需要單獨(dú)統(tǒng)計(jì)。
“vA”詞向量的共現(xiàn)矩陣保存了詞語(yǔ)在目標(biāo)詞左右的位置信息,而“vS” 詞向量的共現(xiàn)矩陣將目標(biāo)詞左側(cè)和右側(cè)的相同詞語(yǔ)的頻次求和,使得共現(xiàn)矩陣中混合了目標(biāo)詞之前和之后的上下文詞語(yǔ)?!皏A”詞向量聚類能將句法相近的詞語(yǔ)更好地聚在一起,而“vS”詞向量聚類能將語(yǔ)義相近的詞更好地聚在一起。因此,“vA”詞向量更多地體現(xiàn)句法信息,而“vS”詞向量更多地體現(xiàn)語(yǔ)義信息。
“vA拼接vS”詞向量是將“vA”詞向量和“vS”詞向量拼接起來(lái),融入了“vA”詞向量和“vS”詞向量的信息,因此該詞向量能體現(xiàn)更多的句法和語(yǔ)義信息。
事實(shí)上,表示學(xué)習(xí)的理論依據(jù)是詞的意義是由與其共現(xiàn)的詞來(lái)體現(xiàn)的,意義的不同體現(xiàn)了其共現(xiàn)詞語(yǔ)的差異。GloVe模型中共現(xiàn)是以滑動(dòng)窗口的方式來(lái)統(tǒng)計(jì)的,顯然,對(duì)許多詞,使用詞的左側(cè)、右側(cè)窗口或?qū)ΨQ窗口來(lái)計(jì)算共現(xiàn)能夠體現(xiàn)詞組合的不同分布特性。因此,采用多種方式而不是僅僅用對(duì)稱窗口方式得到共現(xiàn)矩陣,應(yīng)該可以學(xué)習(xí)到更為準(zhǔn)確的詞表示向量。
本文提出了GloVe詞向量拼接模型,使用不同的共現(xiàn)矩陣,并采用并行處理分別學(xué)習(xí)較低維度的詞向量,再采用拼接方式得到較高維度的詞向量表示,減少了詞向量的訓(xùn)練時(shí)間。實(shí)驗(yàn)結(jié)果表明,由GloVe拼接模型得到的詞向量在詞語(yǔ)推斷任務(wù)上和詞語(yǔ)聚類任務(wù)上性能有顯著提升。下一步我們將研究如何得到反映多種層面信息的共現(xiàn)矩陣,有效集成多種詞表示向量,提高表示學(xué)習(xí)的性能。