李正華
(蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院 江蘇·蘇州 215006)
隨著深度學(xué)習(xí)的快速發(fā)展,人工智能已經(jīng)成為一個具有國家戰(zhàn)略意義的研究方向。國內(nèi)很多知名高校紛紛建立人工智能學(xué)院或研究院,并且面向本科生開設(shè)了相應(yīng)的人工智能基礎(chǔ)課程。MSRA 副院長周明老師講到,語言智能是人工智能皇冠上的明珠。自然語言處理無疑是真正實現(xiàn)強人工智能必須解決的難題。
英語文本中詞語之間由空格隔開,因此可以直接得到英語句子的詞序列。然而,中文文本則缺乏詞語分隔符,給中文信息處理帶來了很大的挑戰(zhàn)。由于詞語是信息表達的最基本單元,因此絕大部分上層任務(wù)或應(yīng)用均以詞序列、而非子序列作為輸入,如句法語義分析、搜索引擎(百度)、機器翻譯、客服機器人等。學(xué)術(shù)界在過去幾十年,針對分詞任務(wù),提出了一系列的方法,人工標(biāo)注了大規(guī)模的數(shù)據(jù)。但是,迄今為止分詞問題還遠(yuǎn)沒有解決。
如上討論,中文分詞對于自然語言處理乃至人工智能的科學(xué)研究和產(chǎn)業(yè)化的重要意義不言而喻。事實上,本科生很多課程都涉及中文分詞問題,如自然語言處理、中文信息處理、[1]信息檢索、數(shù)據(jù)挖掘等。
然而在課程授課中,大部分同學(xué)們很難理解分詞為什么很困難,為什么不可以通過簡單的詞典匹配做好,為什么復(fù)雜的機器學(xué)習(xí)算法和模型也會輸出很多明顯的分詞錯誤?
為此,筆者設(shè)計了一次眾包標(biāo)注形式的上機課?;谖覀兊臉?biāo)注系統(tǒng),要求同學(xué)們根據(jù)自己對分詞任務(wù)的理解,標(biāo)注一定數(shù)量的句子。進而,我們對標(biāo)注數(shù)據(jù)進行了行為分析,并通過調(diào)查問卷了解教學(xué)效果。通過這次上機課,同學(xué)們更深刻的了解了自動分詞的難處,并且一小部分同學(xué)產(chǎn)生了自己實現(xiàn)分詞工具的興趣。
給定一個句子,如“這學(xué)期我主講信息檢索課”,中文分詞的目的是將漢字序列切分為詞序列,如“這/學(xué)期/我/主講/信息/檢索/課”。在英文中,詞語之間以空格符作為天然分解符,但是中文中只有字、句、段可以明顯區(qū)分。由于單個字的含義比較模糊,歧義較大,因此詞通常被認(rèn)為是語言表達的最基本單元,并在其基礎(chǔ)上開展自然語言處理相關(guān)研究(如句法分析、語義分析),以及建立高層應(yīng)用系統(tǒng)如信息檢索系統(tǒng)。分詞主要需要解決兩種切分歧義。[2]第一種為交集型歧義,指三個連續(xù)的字“ABC”中,“AB”和“C”可以形成兩個詞,“A”和“BC”同樣也可以形成兩個詞。交集型歧義的例子如“和服裝”“表面的”等。另一種歧義為組合型歧義,指兩個(或多個)連續(xù)的字“AB”,可以組合起來作為一個詞,也可以分開單獨成詞。組合型歧義需要對整個句子整體把握,才能正確消解。以“把手”為例,“請把手拿開”和“這個門把手壞了”的切法不同。同樣,“中將”在“將軍任命了一名中將”和“產(chǎn)量三年中將持續(xù)增長”兩句中切法也不同。
過去十多年里,分詞技術(shù)得到了長足發(fā)展。最簡單并快速的方法是最大前向匹配和最大后向匹配;基于自動機實現(xiàn)的基于規(guī)則的方法;將分詞任務(wù)看作基于字的分類問題;基于字的序列標(biāo)注方法;基于詞的動態(tài)規(guī)劃搜索算法。目前的分詞方法在規(guī)范的新聞領(lǐng)域文本上可以達到約98%的準(zhǔn)確率。[2-3]
近年來,網(wǎng)絡(luò)用戶產(chǎn)生的海量網(wǎng)絡(luò)文本數(shù)據(jù),如微博、產(chǎn)品評論、郵件等,對中文分詞提出了新的挑戰(zhàn)。網(wǎng)絡(luò)文本和傳統(tǒng)新聞領(lǐng)域文本相比,主要有兩個特點:新詞多(如“快男”)、舊詞新義(如“粉絲”)。新詞發(fā)現(xiàn)一直是中文分詞的一大困難。對于訓(xùn)練語料中沒有出現(xiàn)過的詞語,分詞模型一般很難正確切分。[3]
目前,面向網(wǎng)絡(luò)文本的中文分詞才剛剛起步,缺乏適當(dāng)規(guī)模的標(biāo)注數(shù)據(jù)用以模型訓(xùn)練和評價。筆者也一直思考如何基于近年流行的眾包方式,快速有效的建立所需的標(biāo)注數(shù)據(jù)。眾包的基本思想是利用大量空閑網(wǎng)絡(luò)用戶,以有償或無償(無意)的形式,快速獲取標(biāo)注數(shù)據(jù)。但是眾包的應(yīng)用場景一般是很簡單的標(biāo)注任務(wù),如對圖片中的物體打標(biāo)簽。[4]目前還很少看到對分詞這樣的復(fù)雜任務(wù)進行眾包標(biāo)注。本文對此進行了初步嘗試,并且利用一次教學(xué)上機課進行了實際操作,獲得一些有趣的發(fā)現(xiàn)和結(jié)論。
由于目前的眾包平臺無法滿足需求,筆者開發(fā)了一個基于瀏覽器的標(biāo)注系統(tǒng),支持百人以上同時在線標(biāo)注。我們將系統(tǒng)部署在云服務(wù)器上,網(wǎng)址為http://139.224.234.18/anno-sys。系統(tǒng)支持用戶注冊、任務(wù)分發(fā)、標(biāo)注、結(jié)果提交、標(biāo)注時間統(tǒng)計等基本功能。
標(biāo)注系統(tǒng)給出一個句子,同時給出一個詞(下劃線標(biāo)記)。用戶首先確定這個詞是否正確。如果正確,則直接提交答案。如果錯誤,那么需要對分詞結(jié)果進行修改,然后提交答案。左鍵單擊兩次確定一個詞,提交的結(jié)果中必須包含初始詞中的所有字,同時不允許一個詞中不包含任何初始詞中的字(即標(biāo)注出的詞要和初始詞相關(guān))。用戶對詞語修改的結(jié)果會展示在系統(tǒng)中,同時標(biāo)注系統(tǒng)中用不同顏色來區(qū)分不同詞。
上機課開始后,筆者首先給學(xué)生說明了一些分詞標(biāo)注的基本原則,演示了標(biāo)注系統(tǒng)的使用方法。然后學(xué)生開始標(biāo)注。標(biāo)注過程大概持續(xù)兩個小時,學(xué)生一共提交了17,357 個標(biāo)注結(jié)果,其中4,417 個是面向地雷任務(wù),剩余的12,940 個為有效標(biāo)注。通過分析我們發(fā)現(xiàn),這些標(biāo)注對應(yīng)4,787 個句子中的6,601個任務(wù),即每個句子平均標(biāo)注1.4 個任務(wù)。
從準(zhǔn)確率方面分析,我發(fā)現(xiàn)同學(xué)們的平均準(zhǔn)確率為84.70%。其中正確率90%以上的同學(xué)占總?cè)藬?shù)的26.7%;在80-90%的占43.3%;在70-80%之間的人數(shù)占30%。從這一點看出,同學(xué)們在標(biāo)注過程中是很認(rèn)真的,并且能夠達到一定的準(zhǔn)確率。
從標(biāo)注時間方面分析,我們發(fā)現(xiàn)同學(xué)們平均12.0 秒做一個任務(wù)。其中10 秒以內(nèi)的同學(xué)占總?cè)藬?shù)20%;10-15 秒的同學(xué)占63.3%;15 秒以上的同學(xué)占16.7%。這個分析結(jié)果可以很好的支持后期的大規(guī)模標(biāo)注工作,也為其他相關(guān)研究人員提供有用參考。
題目做完后,筆者做了一個問卷調(diào)查,目的是想看看同學(xué)們是否對中文分詞有進一步的認(rèn)識,對分詞系統(tǒng)提出改進建議,以便以后繼續(xù)完善標(biāo)注系統(tǒng)。問卷包含5 道選擇題和2 道問答題。從同學(xué)們的反饋中我們看到了很多有趣的信息。
86%的學(xué)生認(rèn)為計算機自動分詞很困難;72%的學(xué)生認(rèn)為通過此次標(biāo)注,對漢語分詞任務(wù)有了更深的理解;72%的學(xué)生表示這個標(biāo)注系統(tǒng)本身實現(xiàn)起來復(fù)雜;17%的學(xué)生表示對標(biāo)注系統(tǒng)的實現(xiàn)感興趣;10%的學(xué)生表示有興趣實現(xiàn)一個自動分詞程序。
另外,通過問答題,同學(xué)們對標(biāo)注系統(tǒng)提出了很多改進的需求,并且對計算機進行自動分詞可能遇到的困難和應(yīng)對措施提出了自己的思考和見解。
綜上,筆者認(rèn)為,通過這次標(biāo)注活動,同學(xué)們對分詞問題的理解更加透徹,對后續(xù)課程的學(xué)習(xí)體現(xiàn)出了更強的興趣和主動性。尤其是,部分同學(xué)在標(biāo)注過程中表現(xiàn)出對語言很敏感的特點,筆者將引導(dǎo)其加入后續(xù)有償?shù)臄?shù)據(jù)標(biāo)注工作中;對于感興趣的同學(xué),筆者也將引導(dǎo)其繼續(xù)深入研究分詞算法和標(biāo)注系統(tǒng)實現(xiàn)。
本次眾包形式的標(biāo)注活動共標(biāo)注了約5000 個微博句子,提交了約17,000 個標(biāo)注結(jié)果。通過這次教學(xué)活動,學(xué)生普遍對中文分詞有了更深入的理解,同時由于中文的復(fù)雜性和習(xí)慣性,大家都覺得分詞任務(wù)對計算機而言是有一定困難的。部分同學(xué)對標(biāo)注系統(tǒng)和分詞任務(wù)的實現(xiàn)產(chǎn)生了興趣,后續(xù)將加入實驗室并繼續(xù)深入研究。根據(jù)課堂效果和反饋情況來看,筆者認(rèn)為,這種教學(xué)與科研相輔助的教學(xué)模式,既能提升學(xué)生的興趣,又能讓他們真正去重視這門課的學(xué)習(xí),而不再是為修學(xué)分而學(xué)習(xí)。以后筆者會將這種模式加以擴大和推廣,讓學(xué)生在學(xué)好理論的同時,增強實際動手能力,養(yǎng)成學(xué)以致用的習(xí)慣,為未來工作打好基礎(chǔ)。