文/李琳 趙維納 澤旺寬卓
藏語是謂語為中心的語言,揭示了重要的句法和語義信息。藏語謂語一般位于句子的末尾,并且謂語的組成成分具有多樣性的特點。如在例句1中,句子的謂語由動詞、助動詞和句法形式標(biāo)記組成。
例 句1 ???????????????????????[?????????????]{謂 語}?
(我曾經(jīng)在牧民的家里喝奶茶。)
對謂語成分的分析和識別對藏文信息處理研究中具有重要意義,以往的相關(guān)研究主要對藏語謂語的構(gòu)成和利用語言學(xué)規(guī)則對句子的謂語進(jìn)行識別。
文獻(xiàn)[1]和文獻(xiàn)[2]分別提出了對藏語謂語動詞短語識別模型和藏語形容詞謂語短語識別模型。文獻(xiàn)[3]利用語法規(guī)則對藏語句子的判斷動詞和存在動詞進(jìn)行了自動識別。文獻(xiàn)[4]對藏語三音節(jié)動詞短語進(jìn)行了自動識別。文獻(xiàn)[5]對藏語短語的分類進(jìn)行了系統(tǒng)的研究,并從分詞和詞性標(biāo)注的角度對藏語謂語動詞短語進(jìn)行了分析。CRFs模型在藏語句法功能組塊邊界識別中有過良好的表現(xiàn)。上述研究主要采用基于語言學(xué)知識或有監(jiān)督的機(jī)器學(xué)習(xí)策略,兩者都依賴于有效的先驗知識。在英語組塊分塊研究中采用了無監(jiān)督的單詞表示,研究結(jié)果表明采用半監(jiān)督的方法能夠在較小規(guī)模的標(biāo)記數(shù)據(jù)集上取得較好的組塊識別效果。在以往研究的基礎(chǔ)上,本文提出了一個基于詞向量的模型對藏語謂語動詞短語進(jìn)行識別模型。
藏語句的基本語序是主語賓語和謂語即SOV.根據(jù)短語中心詞的詞性,藏語謂語可分為兩種類型:動詞謂語(例句2)和形容詞謂詞。
例 句2 ?????????????????????[??????????????????]{謂 語}? (你可以留著零錢。)
藏語謂語短語不僅包括謂語中心詞,還包括助動詞、副詞、句法形式標(biāo)記等。相應(yīng)地,藏語謂語表達(dá)的語義十分豐富如時態(tài)、語氣等。本文的研究對象是動詞為中心詞的謂語,藏語謂語動詞短語一般組成結(jié)構(gòu)和語序的結(jié)構(gòu)可以描述為以下形式。
藏語謂語動詞短語=(副詞)+動詞+(助動詞)+(句法形式標(biāo)記)+(語氣詞)
詞向量是詞的分布表示,且已經(jīng)在許多NLP任務(wù)中取得了很好的效果。詞向量將詞映射到稠密低維、連續(xù)值向量,每個維度包含了詞的特征和語法和語義屬性。詞向量的訓(xùn)練是一種無監(jiān)督的過程,通過該過程,一個詞被表示為一個k維實數(shù)向量。本文采用兩種經(jīng)典算法訓(xùn)練藏語:連續(xù)的詞袋模型(CBOW)和SKIP-GRAM模型。兩種模型的目標(biāo)都是最大化給定語料庫中P(C)的概率。
其中C表示給定語料庫的單詞集合,context(c)是單詞w的上下文。P(context(w))通過上下文預(yù)測詞w或者根據(jù)詞w預(yù)測上下文,從而捕捉詞w與其上下文之間關(guān)系。對于一個給定的語料庫,最大化概率P(C)可以通過極大似然估計得到,因此,P(C)的最大化變?yōu)椋?/p>
當(dāng)L最大,P(C)也最大。
本文將藏語詞向量引入到識別任務(wù)中,為了評估不同方法訓(xùn)練詞向量的效果,我們采用不同的算法和超參數(shù),在固定的大規(guī)模未標(biāo)記語料庫上進(jìn)行訓(xùn)練。訓(xùn)練的兩個關(guān)鍵超參數(shù)是維度和上下文窗口大小。
大規(guī)模語料庫是訓(xùn)練一個高質(zhì)量詞向量不可或缺的資源。經(jīng)過分詞后,本文的語料庫達(dá)到1億詞。本文采用的藏語語料來源豐富包括藏語新聞、博客、劇本和公告等。在訓(xùn)練詞向量之前,我們使用預(yù)處理策略來刪除所有只由阿拉伯?dāng)?shù)字、中文或英文字符組成的句子。經(jīng)過這一步驟,我們獲得了一個較高質(zhì)量的語料庫來訓(xùn)練藏語詞向量,其中包含6180萬個詞。帶有謂語標(biāo)記的高質(zhì)量語料庫對于完成本文的識別任務(wù)是必不可少的。本文構(gòu)建了一個由6100個句子標(biāo)記語料庫。首先,我們利用自動工具對上述句子進(jìn)行自動分詞和詞性標(biāo)記;然后,邀請了3位藏語母語者對上述結(jié)果進(jìn)行校對和修改;再后,根據(jù)第3部分中對謂語動詞短語結(jié)構(gòu)的描述,標(biāo)記出謂語動詞短語。在語料庫中注釋了5401個謂詞動詞短語。
藏語謂語動詞識別問題可以轉(zhuǎn)化為一個序列標(biāo)記任務(wù),因此本文采用條件隨機(jī)場模型建立了一個藏語謂語動詞短語識別基準(zhǔn)系統(tǒng)。CRFs模型的原理是:給定輸入句子X=(x1, x2, ..., xn), CRFs 將X標(biāo)記序列Y=(y1, y2,..., yn)的條件概率分布P(Y|X) 定義為:
Zλ(X)表示正則化因子,F(xiàn)(Y,X) 是全局向量。序列標(biāo)注問題可以轉(zhuǎn)化為尋找最優(yōu)標(biāo)注序列Y的問題:
表1:Tibetan Predicate Recognition Results
本文采用文獻(xiàn) [10]中的一組簡單但有效的特征模板來構(gòu)建一個基準(zhǔn)系統(tǒng),然后利用詞向量作為特征構(gòu)建了一個基于半監(jiān)督方法的識別模型。
為了驗證詞向量特征對識別模型的作用,我們進(jìn)行了多詞實驗。表1列出了在不同特征條件下模型對藏語謂語動詞短語識別的結(jié)果。
果表明采用CBOW模型訓(xùn)練的詞向量且維度為100時,識別效果最佳,達(dá)到了88.58。結(jié)果證明了我們的假設(shè),即詞向量是對有監(jiān)督機(jī)器學(xué)習(xí)方法的有效預(yù)訓(xùn)練特征。
本文首先利用大規(guī)模藏語語料庫訓(xùn)練得到藏語詞向量,然后將其應(yīng)用到謂語動詞短語識別任務(wù)當(dāng)中去。結(jié)果表明,詞向量特征對模型的識別效果有顯著提高。