趙 甲
(山西大學(xué) 商務(wù)學(xué)院,山西 太原 030031)
人類長期以來一直夢想著讓計算機代替人在大量的文獻信息中完成自動檢索,并在人類拼寫錯誤的時候,計算機可以明白人類真正想要表達的意思,并提醒人類錯誤拼寫的出處。
著名數(shù)學(xué)家、信息論的創(chuàng)始者香農(nóng)最早提出了用數(shù)學(xué)的方法處理自然語言的想法,但由于當(dāng)時的計算機條件無法完成海量信息的處理,因此,直到1972年,著名語音識別和自然語言處理專家賈里尼克在IBM華生實驗室做學(xué)術(shù)休假時,才組織強大的科研隊伍,利用大型計算機處理人類語言問題,統(tǒng)計語言模型隨之產(chǎn)生。
在某樣本空間Ω中的事件A與B,若隨機從Ω中選出一個樣本點屬于事件B,即事件B已發(fā)生,以此為條件,再隨機從Ω中選出一個樣本點屬于事件A的概率,即在事件B發(fā)生的條件下事件A發(fā)生的概率就是定義在事件B發(fā)生的條件下事件發(fā)生的條件概率。
定義 設(shè)A、B是定義在同一樣本空間Ω中的兩事件,且P(B)>0,則稱
為事件B發(fā)生條件下,事件A的條件概率。
相應(yīng)的,若P(A)>0,事件A發(fā)生條件下,事件B的條件概率可以定義為
雖然P(A/B)與P(A)都是求事件A發(fā)生的概率,但一般情況下,P(A/B)≠P(A)。因為計算事件A發(fā)生的概率P(A)時,是在整個樣本空間下,而在考察事件B發(fā)生條件下,事件A的條件概率P(A/B)時,實際上僅局限于事件B的范圍,其樣本空間不同。
利用條件概率的定義可以得到:
這兩個公式即為乘法公式,利用它們可以計算兩個事件同時發(fā)生的概率,且可以推廣到有限個事件積的概率形式:
設(shè)A1,A2,……,An為n個 事 件,且P(A1,A2,……An)>0,則
在文獻查詢、漢字拼寫糾錯等眾多涉及到自然語言處理的領(lǐng)域,都需要知道一個由若干單個文字構(gòu)成的復(fù)雜序列是否能被人理解,即拼寫是否正確,處理這個問題,我們可以使用統(tǒng)計模型來解決。
設(shè)S是由若干文字構(gòu)成的語言序列,具有一定的實際意義,A1,A2,……,An為構(gòu)成這個語言序列的n個文字。若S能夠被人理解即拼寫無誤,是一個正確的句子或詞語,則其在人們正常的拼寫或輸入時出現(xiàn)的可能性很大。用數(shù)學(xué)的語言來說就是S發(fā)生的概率P(S)很大。反之,若S拼寫有誤,則人們正常的拼寫或輸入時出現(xiàn)的可能性很小,也就是P(S)很小。
利用乘法公式,則這個語言序列出現(xiàn)的概率為:
其中P(A1)表示構(gòu)成這個語言序列的第一個字A1出現(xiàn)的概率,P(A2|A1)表示在第一個字出現(xiàn)條件下,第二個字出現(xiàn)的概率,依此類推。
例如,想在網(wǎng)絡(luò)中搜索關(guān)于“條件概率”的相關(guān)信息,但在搜索引擎中輸入“條件概律”,搜索引擎會提示正確的輸入應(yīng)該是“條件概率”,其原理如下:
設(shè)輸入“條件概律”為事件S,輸入“條”、“件”、“概”、“律”四個字分別為事件A1,A2,A3,A4。首先計算P(S),因“條件概律”這個語言序列中有錯別字,即人們在正常的拼寫或輸入時出現(xiàn)的可能性很小,也就是說P(S)應(yīng)該是一個很小的值。搜索引擎程序可根據(jù)預(yù)先設(shè)定好的參照值判斷出S這個詞語輸入有誤。然后計算P(A1),P(A2|A1),P(A3|A1A2)以及P(A4|A1A2A3)。因正確的書寫應(yīng)是“概率”,而非“概律”,故P(A4|A1A2A3)的值應(yīng)當(dāng)是一個非常小的值,通過與參照值的對比可以發(fā)現(xiàn)錯別字為“律”。進而按照中文發(fā)音習(xí)慣,用同發(fā)“律”音的字與之替換,直到P(S)最大,即S這個語言序列出現(xiàn)的可能性最大,則它應(yīng)該是正確的詞語。
對于上述各概率值的計算以及參照值的選取,可根據(jù)對用戶在輸入數(shù)據(jù)時的大量機讀文本進行統(tǒng)計后確定,例如可預(yù)先設(shè)定參照值為萬分之五,若某一語言序列S出現(xiàn)的概率P(S)小于萬分之五,則我們可以認(rèn)為其中包含錯別字。
事實證明,統(tǒng)計語言模型在機器語言翻譯、拼寫糾錯、語音識別等方面比其他方法更行之有效,培養(yǎng)概率思維,對幫助人們正確觀察事物的本質(zhì),進而用數(shù)學(xué)方法解決看似不可能的問題大有幫助。在當(dāng)今網(wǎng)絡(luò)如此發(fā)達、信息化程度如此之高的大環(huán)境下,學(xué)生利用搜索引擎獲取知識早已不足為奇,若將此例融入大學(xué)數(shù)學(xué)的教育中,既可以幫助學(xué)生更加深刻地理解條件概率與乘法公式這部分內(nèi)容,又可以讓學(xué)生知道他們常用的搜索引擎工作的部分原理,從而激發(fā)學(xué)生學(xué)習(xí)數(shù)學(xué)、應(yīng)用數(shù)學(xué)的能力。
[1]茆詩松.概率論與數(shù)理統(tǒng)計[M].北京:高等教育出版社,2004.
[2]吳贛昌.概率論與數(shù)理統(tǒng)計[M].北京:中國人民大學(xué)出版社,2006.
[3]吳軍.?dāng)?shù)學(xué)之美[M].北京:人民郵電出版社,2012.
[4]吳軍.浪潮之巔[M].北京:電子工業(yè)出版社,2011.