• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    中文信息處理研究現(xiàn)狀分析

    2016-05-30 10:48:04宗成慶
    語(yǔ)言戰(zhàn)略研究 2016年6期
    關(guān)鍵詞:自然語(yǔ)言處理

    提 要 60多年來(lái)中文信息處理研究取得了令人矚目的成就。但是,這一領(lǐng)域也面臨問(wèn)題和挑戰(zhàn)。本文在對(duì)中文信息處理研究成就簡(jiǎn)要?dú)w納的基礎(chǔ)上,分析這一領(lǐng)域的技術(shù)現(xiàn)狀,直面存在的問(wèn)題,并對(duì)未來(lái)發(fā)展的方向提出一些看法。希望本文指出的問(wèn)題能夠引起中國(guó)國(guó)內(nèi)同行的關(guān)注,為未來(lái)的中文信息處理研究提供有益的參考。

    關(guān)鍵詞 中文信息處理;自然語(yǔ)言處理;自然語(yǔ)言理解;計(jì)算語(yǔ)言學(xué)

    Abstract In the past over 60 years, research on Chinese language processing has made great achievements. With the rapid development and popularization of the Internet and communication technology, Chinese language processing technology has attracted worldwide attention in recent years. This article summarizes the achievements of Chinese language processing and analyzes the present status of the technology in this field, particularly the problems that the field may face in term of development. The author argues that it is still difficult for artificial intelligence to “understand” rather than “process” naturally produced Chinese because of the following three reasons: (1) the current information processing technology is inadequate in processing grammatically complex Chinese sentences; (2) there are unsolved problems in machine learning technologies; and (3) our understanding of how human brain processes language is still very limited. This paper concludes that we need a better understanding of how the Chinese language is decoded in human brain and build a computational model that specifically targets at the Chinese language in order for artificial intelligence to understand naturally produced Chinese.

    Key words Chinese language processing; natural language processing; natural language understanding; computational linguistics

    一、引 言

    自1956年人工智能(artificial intelligence,簡(jiǎn)稱(chēng)AI)概念被提出以來(lái),自然語(yǔ)言理解(natural language understanding,簡(jiǎn)稱(chēng)NLU)就一直是這一領(lǐng)域研究的核心問(wèn)題之一。盡管20世紀(jì)60年代提出的計(jì)算語(yǔ)言學(xué)(computational linguistics,簡(jiǎn)稱(chēng)CL)和80年代衍生的自然語(yǔ)言處理(natural language processing,簡(jiǎn)稱(chēng)NLP)概念分別從數(shù)學(xué)建模和語(yǔ)言工程角度各自詮釋了不同的外延,但NLU、CL和NLP這三個(gè)術(shù)語(yǔ)的實(shí)質(zhì)內(nèi)容和共同面對(duì)的科學(xué)問(wèn)題并無(wú)本質(zhì)的差異,尤其從實(shí)際應(yīng)用的角度看,幾乎一樣。因此,在不引起混淆的情況下人們常以“人類(lèi)語(yǔ)言技術(shù)”(human language technology,簡(jiǎn)稱(chēng)HLT)泛指這一語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)和人工智能等多學(xué)科交叉的研究領(lǐng)域(宗成慶 2013)。

    中文信息處理(Chinese language processing,簡(jiǎn)稱(chēng)CLP)是指針對(duì)中國(guó)的語(yǔ)言文字開(kāi)展相關(guān)研究的一個(gè)專(zhuān)屬領(lǐng)域,是自然語(yǔ)言處理的一個(gè)具體分支。廣義上講,“中文”是中國(guó)各民族使用的語(yǔ)言文字的總稱(chēng),在不引起誤解的情況下,“中文”與“漢語(yǔ)”指的是同一概念。隨著中國(guó)綜合國(guó)力的增強(qiáng),以互聯(lián)網(wǎng)為紐帶的經(jīng)濟(jì)和信息全球化趨勢(shì),尤其是中國(guó)“一帶一路”戰(zhàn)略的實(shí)施,向包括中文信息處理在內(nèi)的人類(lèi)語(yǔ)言技術(shù)提出了前所未有的挑戰(zhàn),巨大的技術(shù)市場(chǎng)吸引著全球科學(xué)家和企業(yè)家的目光(宗成慶等 2009)。

    與其他語(yǔ)言的處理技術(shù)相比,中文信息處理處于怎樣的技術(shù)水平?近年來(lái),中文信息處理從資源庫(kù)建設(shè)、理論建樹(shù),到技術(shù)研發(fā)和人才隊(duì)伍培養(yǎng),有哪些根本性的變化?在相關(guān)學(xué)科快速發(fā)展的新形勢(shì)下,中文信息處理研究又將何去何從?本文將在簡(jiǎn)要?dú)w納中文①信息處理研究所取得成就的基礎(chǔ)上,分析當(dāng)前的技術(shù)狀況,直面存在的問(wèn)題,并對(duì)未來(lái)發(fā)展的方向提出看法。希望本文指出的問(wèn)題能夠引起中國(guó)國(guó)內(nèi)同行的關(guān)注,為未來(lái)的中文信息處理研究提供有益的參考。

    二、中文信息處理研究的進(jìn)展與現(xiàn)狀

    從1949年新中國(guó)成立前后的語(yǔ)言文字改革算起,到20世紀(jì)70年代中期開(kāi)始的漢字編碼和輸入法研究,再到今天網(wǎng)絡(luò)時(shí)代的全方位、大規(guī)模中文信息處理技術(shù)研究、開(kāi)發(fā)和應(yīng)用,中文信息處理走過(guò)了60多年的曲折歷程。在半個(gè)多世紀(jì)的發(fā)展過(guò)程中幾代人付出了艱苦的努力,一系列國(guó)家標(biāo)準(zhǔn)、規(guī)范和理論模型及應(yīng)用系統(tǒng)應(yīng)運(yùn)而生。概括起來(lái),這些成果可以歸納為如下幾個(gè)方面(宗成慶、高慶獅 2008;宗成慶等 2009):

    (1)漢字簡(jiǎn)化與規(guī)范化工作基本完成,漢語(yǔ)拼音方案被國(guó)際標(biāo)準(zhǔn)化組織(ISO)接納,漢語(yǔ)拼音正詞法規(guī)則已成為國(guó)家標(biāo)準(zhǔn)。

    (2)漢字編碼、輸入/輸出、編輯、排版等相關(guān)技術(shù)已經(jīng)解決,亞偉中文速錄機(jī)和漢字激光照排、印刷系統(tǒng)已被大規(guī)模產(chǎn)業(yè)化應(yīng)用。

    (3)面向信息處理的漢語(yǔ)分詞規(guī)范已經(jīng)制定,以“綜合型語(yǔ)言知識(shí)庫(kù)”和知網(wǎng)(HowNet)②為典型代表的一批漢語(yǔ)資源庫(kù)(包括語(yǔ)料庫(kù)、詞匯知識(shí)庫(kù)、語(yǔ)法信息詞典等)相繼建成。

    (4)漢語(yǔ)詞語(yǔ)自動(dòng)切分、命名實(shí)體識(shí)別、句法分析、詞義消歧、語(yǔ)義角色標(biāo)注和篇章分析等自然語(yǔ)言處理的基礎(chǔ)問(wèn)題得到全面研究和推進(jìn),一系列不斷改進(jìn)的模型和方法被相繼提出,一大批高質(zhì)量的研究論文發(fā)表在國(guó)際一流的學(xué)術(shù)會(huì)議和權(quán)威期刊上。

    (5)機(jī)器翻譯、信息檢索、輿情監(jiān)測(cè)、語(yǔ)音識(shí)別和語(yǔ)音合成等應(yīng)用技術(shù)在眾多互聯(lián)網(wǎng)企業(yè)、國(guó)家特定領(lǐng)域和機(jī)構(gòu)中得到實(shí)際應(yīng)用,對(duì)推動(dòng)國(guó)民經(jīng)濟(jì)發(fā)展、提高信息化服務(wù)水平和維護(hù)國(guó)家安全發(fā)揮了重要作用。

    另外值得提及的是,由國(guó)家語(yǔ)言文字工作委員會(huì)發(fā)布的“中國(guó)語(yǔ)言生活綠皮書(shū)”③正在為國(guó)家語(yǔ)言文字工作方針政策提供參考,為語(yǔ)言文字研究者、語(yǔ)言文字產(chǎn)品研發(fā)者和社會(huì)其他人士提供語(yǔ)言服務(wù),引領(lǐng)社會(huì)語(yǔ)言生活走向和諧(李宇明 2007)。

    隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和普及,中文信息處理遇到了前所未有的大好時(shí)機(jī)。根據(jù)聯(lián)合國(guó)對(duì)世界主要語(yǔ)種、分布與應(yīng)用力調(diào)查的結(jié)果,世界十大語(yǔ)言依次是:英語(yǔ)、漢語(yǔ)、德語(yǔ)、法語(yǔ)、俄語(yǔ)、西班牙語(yǔ)、日語(yǔ)、阿拉伯語(yǔ)、韓語(yǔ)(朝鮮語(yǔ))、葡萄牙語(yǔ)。而中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第21次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》表明,中國(guó)互聯(lián)網(wǎng)上有87.8%的內(nèi)容是文本。2014年7月21日CNNIC發(fā)布的《第34次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截止到2014年6月,中國(guó)網(wǎng)民規(guī)模達(dá)6.32億。這些數(shù)據(jù)清楚地告訴我們這樣一個(gè)不爭(zhēng)的事實(shí):無(wú)論從政治、經(jīng)濟(jì)、文化、軍事和安全等政府關(guān)注的角度看,還是從商貿(mào)、旅游和信息服務(wù)等商業(yè)市場(chǎng)因素考慮,中文信息處理已經(jīng)成為國(guó)際互聯(lián)網(wǎng)和移動(dòng)通信平臺(tái)上獲取和傳遞信息難以繞開(kāi)的技術(shù)結(jié)點(diǎn)。不僅IBM、微軟、谷歌等世界巨頭公司投入了大量的人力和財(cái)力瞄準(zhǔn)中國(guó)市場(chǎng)開(kāi)展相關(guān)技術(shù)研究,斯坦福大學(xué)、賓夕法尼亞大學(xué)、加州大學(xué)伯克利分校等國(guó)際一流大學(xué)也為中文信息處理研究做出了卓著貢獻(xiàn),他們開(kāi)發(fā)的漢語(yǔ)分詞系統(tǒng)、句法分析器和命名實(shí)體識(shí)別工具等,以及LDC漢語(yǔ)語(yǔ)料庫(kù)④(包括分詞、句法樹(shù)和篇章語(yǔ)料庫(kù)等)得到廣泛應(yīng)用。這意味著,中文信息處理不僅是中國(guó)學(xué)者關(guān)注的問(wèn)題,而且已經(jīng)成為國(guó)際學(xué)術(shù)界和企業(yè)界共同研究的課題。

    近年來(lái)中國(guó)的自然語(yǔ)言處理研究水平迅速提升,大陸學(xué)者在HLT相關(guān)領(lǐng)域的國(guó)際一流學(xué)術(shù)會(huì)議和期刊上發(fā)表的論文數(shù)量不斷增長(zhǎng)。圖1是2015年第53屆國(guó)際計(jì)算語(yǔ)言學(xué)學(xué)會(huì)年會(huì)與第7屆自然語(yǔ)言處理國(guó)際聯(lián)合會(huì)議(ACL-IJCNLP)⑤投稿和被接受的論文數(shù)量按國(guó)家或地區(qū)分布的直方圖:

    ACL-IJCNLP2015分為主會(huì)和專(zhuān)題研討會(huì)兩種。其中,主會(huì)是ACL大會(huì)的主體,它以論文質(zhì)量高、錄用率低、影響力大而著稱(chēng)。每年該會(huì)錄用論文的數(shù)量通常被看作是一個(gè)國(guó)家或地區(qū)在本領(lǐng)域整體水平和實(shí)力的象征。ACL-IJCNLP2015主會(huì)共收到長(zhǎng)文投稿692篇,錄用173篇;收到短文投稿648篇,錄用145篇。也就是說(shuō),長(zhǎng)文和短文合計(jì)投稿量為1340篇,錄用318篇,錄用率約為23.7%。從圖1可以看出,在1340篇投稿中第一作者來(lái)自中國(guó)大陸的論文數(shù)量占到了22.7%,僅次于美國(guó)(24.5%)。值得注意的是,即使是來(lái)自美國(guó)的投稿,第一作者也有可能是中國(guó)學(xué)者,包括眾多留美的中國(guó)學(xué)生。據(jù)統(tǒng)計(jì),在被錄用的318篇論文中第一作者為中國(guó)人的論文數(shù)量約占37.1%。換句話(huà)說(shuō),超過(guò)三分之一被錄用的論文出自中國(guó)人之手。

    除了ACL會(huì)議以外,國(guó)際計(jì)算語(yǔ)言學(xué)大會(huì)(International Conference on Computational Linguistics, 簡(jiǎn)稱(chēng)COLING)⑥、國(guó)際人工智能聯(lián)合會(huì)議(International Joint Conference on Artificial Intelligence, 簡(jiǎn)稱(chēng)IJCAI)、ACM 信息檢索大會(huì)(Special Interest Group on Information Retrieval,簡(jiǎn)稱(chēng)SIGIR)和ACM信息與知識(shí)管理國(guó)際會(huì)議(International Conference on

    Information and Knowledge Management,簡(jiǎn)稱(chēng)CIKM)等其他相關(guān)的一流學(xué)術(shù)會(huì)議都已登陸中國(guó)。

    與此同時(shí),中國(guó)的自然語(yǔ)言處理人才隊(duì)伍迅速成長(zhǎng),一批優(yōu)秀的學(xué)者在國(guó)際一流學(xué)術(shù)會(huì)議和權(quán)威學(xué)術(shù)機(jī)構(gòu)中擔(dān)任重要職務(wù)。2013年王海峰博士出任ACL主席,同年宗成慶當(dāng)選國(guó)際計(jì)算語(yǔ)言學(xué)委員會(huì)⑦委員,2014年和2015年吳華博士和宗成慶分別擔(dān)任第52屆和53屆ACL大會(huì)程序委員會(huì)共同主席,2016年趙世奇博士出任ACL秘書(shū)長(zhǎng)。還有一大批優(yōu)秀的中國(guó)學(xué)者在各類(lèi)一流國(guó)際學(xué)術(shù)會(huì)議上擔(dān)任組委會(huì)主席、領(lǐng)域主席、講座主席和出版主席等。

    毋庸置疑,中國(guó)學(xué)者已經(jīng)成為國(guó)際HLT領(lǐng)域一支舉足輕重的生力軍。除了自身的努力以外,很重要的一個(gè)原因是國(guó)家綜合實(shí)力的增強(qiáng)。國(guó)家不斷增加的科研經(jīng)費(fèi)投入使更多的學(xué)者有機(jī)會(huì)走出國(guó)門(mén),并把更多優(yōu)秀的國(guó)外學(xué)者(包括學(xué)有所成的海外華人)請(qǐng)到中國(guó)來(lái)。當(dāng)然,互聯(lián)網(wǎng)技術(shù)起了非常重要的作用。借助于互聯(lián)網(wǎng),任何人都可以隨時(shí)隨地地查閱學(xué)術(shù)資料,實(shí)時(shí)了解和跟蹤最新的國(guó)際研究動(dòng)態(tài),從而把握正確的研究方向。另外,以IBM、微軟公司、谷歌等為代表的國(guó)際大公司在中國(guó)大陸開(kāi)設(shè)的研究機(jī)構(gòu),也對(duì)相關(guān)領(lǐng)域的技術(shù)發(fā)展和人才培養(yǎng)起到了推波助瀾的作用。他們與中國(guó)科研機(jī)構(gòu)和高校的密切交流與合作,使更多的青年學(xué)生有機(jī)會(huì)在高水平的技術(shù)平臺(tái)上利用公司特有的計(jì)算資源和數(shù)據(jù)資源快速地學(xué)習(xí)和實(shí)踐先進(jìn)的技術(shù)。當(dāng)然,這些公司是人才培養(yǎng)和市場(chǎng)開(kāi)拓的受益者。

    三、現(xiàn)狀分析與問(wèn)題思考

    從中文信息處理發(fā)展現(xiàn)狀來(lái)看,近20年是該領(lǐng)域迅速崛起和中國(guó)學(xué)者在國(guó)際舞臺(tái)發(fā)揮作用的黃金時(shí)期。那么,這些豐碩的成果是否意味著中文信息處理的理論方法已經(jīng)具有根本性的建樹(shù)呢?

    眾所周知,自然語(yǔ)言處理方法有理性主義方法和經(jīng)驗(yàn)主義方法兩大流派。理性主義方法通常以喬姆斯基(Noam Chomsky)的語(yǔ)法理論為基礎(chǔ),建立基于規(guī)則和知識(shí)庫(kù)的邏輯推理系統(tǒng)。而經(jīng)驗(yàn)主義方法則以數(shù)理統(tǒng)計(jì)和信息論為基礎(chǔ),實(shí)現(xiàn)基于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法。兩種方法的融合正在成為人們探索的第三條路徑。這些方法在目前的自然語(yǔ)言處理系統(tǒng)中都發(fā)揮了重要作用,但是,計(jì)算機(jī)要從中文信息“處理”走向真正的“理解”還有很長(zhǎng)的路要走,在這條遙遠(yuǎn)的征途上至少需要跨越三條鴻溝:(1)建立符合中文(這里尤指漢語(yǔ))語(yǔ)言特點(diǎn)的自然語(yǔ)言處理理論體系;(2)設(shè)計(jì)更加有效的機(jī)器學(xué)習(xí)算法和模型;(3)揭示和發(fā)現(xiàn)人類(lèi)大腦理解語(yǔ)言的基本機(jī)理。

    (一)現(xiàn)有中文信息處理方法的局限性

    目前采用的中文信息處理方法和評(píng)價(jià)標(biāo)準(zhǔn)大都是從英語(yǔ)等西方語(yǔ)言的處理方法中借鑒過(guò)來(lái)的,無(wú)論是基于規(guī)則的方法,還是基于統(tǒng)計(jì)的方法,從來(lái)都沒(méi)有針對(duì)漢語(yǔ)本身的特點(diǎn)“量身定做”。例如,傳統(tǒng)的自然語(yǔ)言處理方法通常從詞法分析(漢語(yǔ)詞語(yǔ)自動(dòng)切分)開(kāi)始,到句法分析、語(yǔ)義分析,分階段逐步進(jìn)行,不同層次的任務(wù)往往是獨(dú)立完成的。句法分析(syntactic parsing)是其中的關(guān)鍵環(huán)節(jié),其任務(wù)是將給定的句子自動(dòng)解析成完整的句法分析樹(shù)。它的基本假設(shè)是每一個(gè)句子的句法結(jié)構(gòu)都能夠用一棵完整的句法分析樹(shù)表示,如圖2所示。

    圖2 句子“我讀書(shū)?!钡木浞ǚ治鰳?shù)

    但是,這一假設(shè)對(duì)于漢語(yǔ)而言往往不能成立,至少是非??量痰摹h語(yǔ)句子中通常不使用標(biāo)識(shí)結(jié)構(gòu)信息的專(zhuān)用詞匯(如英語(yǔ)復(fù)句中的which, that, where等引導(dǎo)詞),是一種語(yǔ)義驅(qū)動(dòng)的松散結(jié)構(gòu),句法和語(yǔ)義之間存在著千絲萬(wàn)縷的關(guān)系,而且漢語(yǔ)中標(biāo)點(diǎn)的使用也不像英語(yǔ)那樣有嚴(yán)格的限制。例如:

    (1)我喜歡在春天去觀賞桃花,在夏天去欣賞荷花,在秋天去觀賞紅葉,但更喜歡在冬天去欣賞雪景。

    這是一個(gè)典型的流水句。根據(jù)我們對(duì)隨機(jī)抽取出的4431個(gè)長(zhǎng)度超過(guò)20個(gè)詞的句子的統(tǒng)計(jì),有1830個(gè)流水復(fù)句,占全部長(zhǎng)句的41.3%(李幸、宗成慶 2006)。流水句結(jié)構(gòu)看起來(lái)比較松散,但語(yǔ)義上卻有緊密的聯(lián)系。如果非要用一棵完整的句法樹(shù)表示這種句子的結(jié)構(gòu),不僅在實(shí)現(xiàn)上非常困難,而且對(duì)達(dá)到語(yǔ)言理解的目標(biāo)幾乎沒(méi)有太多幫助。過(guò)去幾十年里,人們提出了大量自動(dòng)句法分析的算法,目前比較著名的句法分析工具有:Collins Parser、Bikel Parser、Charniak Parser、Berkeley Parser、Stanford Parser、MST Parser、MaltParser和MINIPAR Parser等。但這些系統(tǒng)在規(guī)范的漢語(yǔ)文本上最好的句法分析性能(短語(yǔ)準(zhǔn)確率)也只有86%左右,而日語(yǔ)和英語(yǔ)的句法分析性能已經(jīng)超過(guò)90%。即使C. Dyer 和M. Ballesteros等人近期實(shí)現(xiàn)的基于神經(jīng)網(wǎng)絡(luò)的句法分析方法的性能得到了進(jìn)一步提升(Ballesteros et al. 2015;Dyer et al. 2015),漢語(yǔ)句法分析器的性能仍然比英語(yǔ)的低5個(gè)百分點(diǎn)左右。

    對(duì)于篇章結(jié)構(gòu)分析來(lái)說(shuō),目前廣泛采用的篇章理論包括修辭結(jié)構(gòu)理論、中心理論、脈絡(luò)理論、篇章表示理論和言語(yǔ)行為理論等(宗成慶 2013),而這些理論無(wú)一例外地來(lái)自西方語(yǔ)言學(xué)。漢語(yǔ)的篇章結(jié)構(gòu)與英語(yǔ)有明顯的區(qū)別,這是大家所共知的事實(shí)。根據(jù)我們對(duì)2016年國(guó)際計(jì)算自然語(yǔ)言學(xué)習(xí)會(huì)議(Conference on Computational Natural Language Learning,簡(jiǎn)稱(chēng)CoNLL)發(fā)布的漢英篇章論元關(guān)系分析評(píng)測(cè)任務(wù)的語(yǔ)料統(tǒng)計(jì),漢語(yǔ)中非顯式的篇章單元之間的關(guān)系占到了78.3%,遠(yuǎn)遠(yuǎn)超過(guò)了英語(yǔ)篇章中54.5%的比例。漢語(yǔ)中篇章單元之間可使用的連接詞有385個(gè)之多,而英文中只有100個(gè)左右(Kang et al. 2016)。而且漢語(yǔ)中的標(biāo)點(diǎn)逗號(hào)可以隱含地表示某種篇章單元關(guān)系,例如表示前后兩個(gè)單元之間隱含的轉(zhuǎn)折、讓步、因果等關(guān)系,而英語(yǔ)的標(biāo)點(diǎn)不具備這樣的功能。所有這些差異都清楚地提醒我們,漢語(yǔ)需要建立自己的篇章分析理論。

    值得慶幸的是,國(guó)內(nèi)已有專(zhuān)家在漢語(yǔ)篇章分析理論研究方面進(jìn)行卓有成效的探索,如宋柔(2012)提出的“廣義話(huà)題結(jié)構(gòu)理論”、王德亮(2004)研究的“篇章向心理論”等,但離建立相對(duì)成熟和完善的漢語(yǔ)篇章理論體系還有較遠(yuǎn)的距離。

    另外,漢語(yǔ)中的指代消歧也是中文信息處理面臨的棘手問(wèn)題。請(qǐng)看如下兩個(gè)例句:

    (2)夫人穿著很得體,舉止優(yōu)雅,左臂上掛著一個(gè)暗黃色的皮包,右手領(lǐng)著一只白色的小狗,據(jù)說(shuō)是京巴。

    (3)夫人穿著很得體,舉止優(yōu)雅,左臂上掛著一個(gè)暗黃色的皮包,右手領(lǐng)著一只白色的小狗,據(jù)說(shuō)是局長(zhǎng)的太太。

    在這兩個(gè)句子中除下劃線標(biāo)識(shí)的部分以外,其余部分完全一樣,但“據(jù)說(shuō)”的所指完全不同,一個(gè)是指“小狗是京巴”,而另一個(gè)則是指“夫人是局長(zhǎng)的太太”。這種表達(dá)方式在英文中是不可能出現(xiàn)的。

    綜上所述,不同語(yǔ)言具有不同的特點(diǎn),無(wú)論在詞法、句法、語(yǔ)義等不同的層面上,還是在詞匯、短語(yǔ)、句子和篇章等不同的語(yǔ)言單位上,有共性,也有差異,尤其語(yǔ)義與語(yǔ)言的文化背景密切相關(guān)。我們認(rèn)為,不存在與語(yǔ)言無(wú)關(guān)的自然語(yǔ)言處理方法和全世界語(yǔ)種通用的自然語(yǔ)言處理理論體系。最終要解決中文信息處理的問(wèn)題,使其真正實(shí)用化,必需建立適合中文語(yǔ)言特點(diǎn)的理論體系。

    (二)現(xiàn)有機(jī)器學(xué)習(xí)方法的缺陷

    20世紀(jì)80年代末期、90年代初期以來(lái),統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法逐漸興起,并成為當(dāng)前自然語(yǔ)言處理領(lǐng)域的主流方法。其基本思路是,基于大規(guī)模人工標(biāo)注的語(yǔ)料樣本建立數(shù)學(xué)模型,通過(guò)調(diào)試模型的參數(shù)使其達(dá)到最優(yōu)(這一過(guò)程稱(chēng)作模型的訓(xùn)練過(guò)程)。所建的數(shù)學(xué)模型就像一個(gè)小學(xué)生,標(biāo)注的語(yǔ)料則是老師為學(xué)生提供的樣例,而訓(xùn)練過(guò)程則類(lèi)似于老師教小學(xué)生如何按照樣例學(xué)習(xí)句子分析方法或完成其他任務(wù)的過(guò)程。最終小學(xué)生的成績(jī)?nèi)绾稳Q于學(xué)生本身的能力、樣例規(guī)模的大小和學(xué)生學(xué)習(xí)的技巧,對(duì)應(yīng)地,統(tǒng)計(jì)模型的性能好壞取決于數(shù)學(xué)模型本身、訓(xùn)練樣本規(guī)模的大小和模型參數(shù)的調(diào)試情況。

    序列標(biāo)注方法是自然語(yǔ)言處理中常用的一種典型的機(jī)器學(xué)習(xí)方法。以漢語(yǔ)自動(dòng)分詞為例,序列標(biāo)注方法的基本思路是:每個(gè)“字”(包括字符、數(shù)字、標(biāo)點(diǎn)等文本中出現(xiàn)的任何符號(hào))只有4種可能的身份出現(xiàn)在文本中,即詞首字(B)、詞尾字(E)、詞中間字(M)和單字詞(S)。對(duì)于給定的文本,如果能夠?qū)γ總€(gè)“字”打上一個(gè)標(biāo)簽(B、E、M或S中的任意一個(gè)),那么分詞任務(wù)就完成了。被標(biāo)記為B和E的“字”及其之間標(biāo)以M的“字”(如果有的話(huà))構(gòu)成一個(gè)分詞單位,被標(biāo)記為S的“字”獨(dú)立成詞。例如,句子“我喜歡讀書(shū)?!钡男蛄袠?biāo)注結(jié)果為:我/S 喜/B 歡/E 讀/S 書(shū)/S 。最終的分詞結(jié)果就是:我/ 喜歡/ 讀/ 書(shū)/ 。

    在為每個(gè)“字”打標(biāo)簽的過(guò)程中,依據(jù)當(dāng)前“字”的上下文計(jì)算對(duì)當(dāng)前“字”貼上某種標(biāo)簽的條件概率,選擇概率最大的候選標(biāo)簽。實(shí)際上這是一種通過(guò)上下文分類(lèi)進(jìn)行標(biāo)簽選擇的方法,稱(chēng)為區(qū)分式方法。確定上下文多大范圍內(nèi)、哪些因素可作為計(jì)算概率的條件的過(guò)程,則稱(chēng)作特征選擇。

    類(lèi)似地,命名實(shí)體識(shí)別、語(yǔ)塊識(shí)別和篇章單元識(shí)別等,都可采用這種方法實(shí)現(xiàn)。

    統(tǒng)計(jì)方法的優(yōu)點(diǎn)不言而喻,它避免了基于規(guī)則的方法中由于人工編寫(xiě)規(guī)則的主觀性因素可能導(dǎo)致的語(yǔ)言現(xiàn)象覆蓋面小甚至錯(cuò)誤的情況。有些自然語(yǔ)言處理任務(wù)(如機(jī)器翻譯)并不需要人工標(biāo)注語(yǔ)料,這就大大地減少了系統(tǒng)對(duì)人的依賴(lài)性,極大地提高了系統(tǒng)開(kāi)發(fā)的效率。這也是統(tǒng)計(jì)方法備受青睞的重要原因之一。但是,目前的統(tǒng)計(jì)方法仍然存在若干問(wèn)題和不足。歸納起來(lái),這些缺陷包括:

    1. 模型性能過(guò)于依賴(lài)訓(xùn)練樣本

    根據(jù)上面的介紹,訓(xùn)練樣本的質(zhì)量和規(guī)模對(duì)模型最終的性能起著至關(guān)重要的作用。一般而言,如果樣本的規(guī)模太小,或者樣本的質(zhì)量太差,模型的性能肯定不好。人工標(biāo)注大規(guī)模訓(xùn)練樣本同樣是一件艱苦的工作,而且標(biāo)注樣本往往難以隨著語(yǔ)言使用情況的變化而自動(dòng)調(diào)整。即使機(jī)器翻譯等任務(wù)不需要人工標(biāo)注的訓(xùn)練樣本,但仍然需要樣本的數(shù)量達(dá)到足夠的規(guī)模,這對(duì)于有些領(lǐng)域或語(yǔ)言對(duì)來(lái)說(shuō)是無(wú)法做到的。例如,波斯語(yǔ)與漢語(yǔ)之間的自動(dòng)翻譯系統(tǒng)就很難收集到大規(guī)模波斯語(yǔ)與漢語(yǔ)句子級(jí)雙語(yǔ)平行語(yǔ)料,即使在新聞等公共領(lǐng)域,收集幾十萬(wàn)句對(duì)都是困難的,更不必說(shuō)在某些特定領(lǐng)域。

    2. 固化的模型參數(shù)導(dǎo)致模型無(wú)法處理“陌生”的語(yǔ)言現(xiàn)象

    在統(tǒng)計(jì)方法中模型一旦被訓(xùn)練完成,參數(shù)是被固化的,對(duì)于超出特征預(yù)設(shè)范圍的語(yǔ)言現(xiàn)象完全無(wú)能為力。例如,在詞義消歧任務(wù)中我們通常根據(jù)歧義詞出現(xiàn)的上下文建立分類(lèi)模型,由上下文決定詞語(yǔ)的語(yǔ)義。以“打”字的詞義消歧為例,“打”字做實(shí)詞用時(shí)有多個(gè)含義,“打毛衣”“打電話(huà)”和“打籃球”等不同表達(dá)中“打”字的含義各不相同,因此可以設(shè)定“打”字前后一定范圍內(nèi)的上下文詞作為分類(lèi)特征構(gòu)建分類(lèi)模型。假如設(shè)定上下文窗口范圍為±1(即在當(dāng)前詞前后一個(gè)詞的窗口范圍內(nèi)),大多數(shù)情況下“打”字的含義都可以區(qū)分出來(lái)。但是,對(duì)于超出窗口范圍的情況模型便無(wú)能為力了。例如,在句子“張三打了一壺紹興老酒?!敝?,“打”字與“老酒”之間間隔4個(gè)詞,這就很可能導(dǎo)致模型誤判“打”的詞義。

    3. 缺乏領(lǐng)域自適應(yīng)能力

    模型對(duì)訓(xùn)練語(yǔ)料所在領(lǐng)域的語(yǔ)言現(xiàn)象處理可能表現(xiàn)出較好的性能,但一旦超出領(lǐng)域范圍或測(cè)試集與訓(xùn)練樣本有較大差異,模型性能將大幅度下降。例如,在標(biāo)注的大規(guī)模《人民日?qǐng)?bào)》分詞語(yǔ)料上訓(xùn)練出來(lái)的漢語(yǔ)詞語(yǔ)自動(dòng)切分模型的準(zhǔn)確率可達(dá)96%左右,甚至更高,但在微博等非規(guī)范文本基礎(chǔ)上訓(xùn)練出的分詞性能至少要低5個(gè)百分點(diǎn)左右。在LDC漢語(yǔ)樹(shù)庫(kù)上訓(xùn)練出來(lái)的句法分析系統(tǒng)準(zhǔn)確率可達(dá)86%左右,但在非規(guī)范網(wǎng)絡(luò)文本上的分析準(zhǔn)確率只有60%左右(宗成慶 2013)。統(tǒng)計(jì)模型對(duì)領(lǐng)域自適應(yīng)能力的缺乏嚴(yán)重制約了該方法的應(yīng)用。

    4. 難以通過(guò)人機(jī)交互自動(dòng)完成參數(shù)更新

    人類(lèi)在語(yǔ)言學(xué)習(xí)中可以通過(guò)人際之間和人與自然界之間的不斷交互主動(dòng)學(xué)習(xí)新的知識(shí)(包括語(yǔ)言知識(shí)和生活常識(shí)等),從而不斷提高語(yǔ)言學(xué)習(xí)和理解的能力,但對(duì)于目前的統(tǒng)計(jì)自然語(yǔ)言處理系統(tǒng)而言卻無(wú)法做到這一點(diǎn)。如何使系統(tǒng)通過(guò)人機(jī)交互過(guò)程,自動(dòng)根據(jù)語(yǔ)用信息判別和提取有用的知識(shí),完成模型參數(shù)的自動(dòng)更新,以達(dá)到模型性能不斷提高的效果,到目前為止還需探索。

    5. 常識(shí)學(xué)習(xí)與歸納推理能力亟待提高

    現(xiàn)有的統(tǒng)計(jì)學(xué)習(xí)方法在局部問(wèn)題求解上可以達(dá)到較好的技術(shù)水平,但是在整體歸納和全局抽象方面卻顯得力不從心。例如,有如下一則新聞報(bào)道:

    張小五從警20多年來(lái),歷盡千辛萬(wàn)苦,立下無(wú)數(shù)戰(zhàn)功,曾被譽(yù)為孤膽英雄。然而,誰(shuí)也未曾想到,就是這樣一位曾讓毒販聞風(fēng)喪膽的鐵骨英雄竟然為了區(qū)區(qū)小利而精神崩潰,悔恨之下昨晚在家開(kāi)槍自斃。

    對(duì)這則新聞目前的詞語(yǔ)自動(dòng)切分準(zhǔn)確率可達(dá)96%以上,命名實(shí)體(人名“張小五”)識(shí)別和句間關(guān)系分析(關(guān)鍵詞“然而”引起的轉(zhuǎn)折),甚至語(yǔ)義角色標(biāo)注等,都沒(méi)有太大問(wèn)題,準(zhǔn)確率至少可達(dá)85%以上。但是,對(duì)于一個(gè)自動(dòng)問(wèn)答系統(tǒng)來(lái)說(shuō),要正確地回答“張小五是什么警察?死了沒(méi)有?”等,恐怕非常困難,因?yàn)樗鼰o(wú)法建立起“毒販”與“緝毒警察”之間的對(duì)應(yīng)關(guān)系,也不會(huì)知道“自斃”與“死亡”的必然聯(lián)系。當(dāng)前中文信息處理系統(tǒng)的常識(shí)學(xué)習(xí)和歸納推理能力亟待提高。

    宏觀上講,統(tǒng)計(jì)是一種“賭博”方法,決策的依據(jù)是概率值大小,一定程度上有點(diǎn)“撞大運(yùn)”的味道。其基本假設(shè)是:樣本中蘊(yùn)含著全部與特定自然語(yǔ)言處理任務(wù)相關(guān)的知識(shí),而且處理任務(wù)(測(cè)試集)與訓(xùn)練樣本符合同樣的規(guī)律,只要有足夠多的訓(xùn)練樣本,模型就能夠?qū)W習(xí)到相應(yīng)的知識(shí),并對(duì)待處理集進(jìn)行正確的分析。且不說(shuō)如何擁有“足夠多”、多到多大規(guī)模的訓(xùn)練樣本,只就模型本身的學(xué)習(xí)能力、區(qū)分能力和自適應(yīng)能力等方面而言,還遠(yuǎn)無(wú)法與人腦的自然語(yǔ)言理解能力相比較。

    (三)自然語(yǔ)言研究需要與腦神經(jīng)科學(xué)和認(rèn)知科學(xué)相結(jié)合

    近年來(lái),類(lèi)人智能和類(lèi)腦計(jì)算備受矚目,尤其AlphaGo圍棋系統(tǒng)戰(zhàn)勝人類(lèi)選手以來(lái),人工智能被再度推向媒體輿論和學(xué)術(shù)研究的風(fēng)口浪尖。但是,對(duì)于人腦是如何完成自然語(yǔ)言理解過(guò)程的,比如為什么一個(gè)三歲的兒童在學(xué)習(xí)一個(gè)新的詞項(xiàng)時(shí),父母只需做簡(jiǎn)單的解釋?zhuān)o出一兩個(gè)例子,孩子就可以理解并使用所學(xué)的詞項(xiàng),而且基本不會(huì)用錯(cuò),根本不需要大量的訓(xùn)練樣本,目前尚無(wú)法給出非常清楚、合理的解釋。

    近年來(lái)基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法備受推崇,它在某種意義上的確模擬了人腦的認(rèn)知功能,但是,這種方法只是對(duì)神經(jīng)元結(jié)構(gòu)和信號(hào)傳遞方式給出的形式化數(shù)學(xué)描述,并非是基于人腦的工作機(jī)理建立起來(lái)的數(shù)學(xué)模型,同樣難以擺脫對(duì)大規(guī)模訓(xùn)練樣本的依賴(lài)。

    目前人們只是在宏觀上大致了解腦區(qū)的劃分和在語(yǔ)言理解過(guò)程中所起的不同作用,但在介觀和微觀層面,語(yǔ)言理解的生物過(guò)程與神經(jīng)元信號(hào)傳遞的關(guān)系,以及信號(hào)與語(yǔ)義、概念和物理世界之間的對(duì)應(yīng)與聯(lián)系等,都是未知的。如何打通宏觀、介觀和微觀層面的聯(lián)系并給出清晰的解釋?zhuān)瑢⑹俏磥?lái)需解決的問(wèn)題。從微觀層面進(jìn)一步研究人腦的結(jié)構(gòu),發(fā)現(xiàn)和揭示人腦理解語(yǔ)言的機(jī)理,借鑒或模擬人腦的工作機(jī)理并建立形式化的數(shù)學(xué)模型才是最終解決自然語(yǔ)言理解問(wèn)題的根本出路。這需要與語(yǔ)言學(xué)家、腦神經(jīng)科學(xué)家和認(rèn)知科學(xué)家的共同努力和協(xié)作。

    30多年來(lái)自然語(yǔ)言處理研究成績(jī)斐然,但中文信息處理的理論研究和技術(shù)創(chuàng)新卻有弱化之勢(shì)。近年來(lái)中文信息處理技術(shù)性能的提高在很大程度上源自數(shù)據(jù)規(guī)模的擴(kuò)大和計(jì)算機(jī)硬件性能的提高,在理論方法和數(shù)學(xué)模型上并沒(méi)有太多的建樹(shù),真正面向漢語(yǔ)的計(jì)算理論和實(shí)現(xiàn)技術(shù)似乎并不多見(jiàn)。

    在ACL-IJCNLP2015錄用的318篇論文中,115篇是關(guān)于深度學(xué)習(xí)方法的,約占36.2%。而深度學(xué)習(xí)方法的熱度仍在持續(xù)升高,2016年會(huì)議錄用的論文中與深度學(xué)習(xí)方法相關(guān)的論文比例再創(chuàng)新高。但是,如此大量的論文中,有多少還在關(guān)注漢語(yǔ)呢?據(jù)對(duì)ACL-IJCNLP2015投稿論文的統(tǒng)計(jì),在形態(tài)分析專(zhuān)題領(lǐng)域的28篇投稿(包括長(zhǎng)文和短文)中,關(guān)于中文詞語(yǔ)切分(中文信息處理的經(jīng)典問(wèn)題)的論文僅有6篇,其中包括一篇關(guān)于藏語(yǔ)分詞的論文,而句法分析專(zhuān)題領(lǐng)域的全部108篇投稿中,只有22篇是研究漢語(yǔ)句法分析方法的。所有這些稿件都無(wú)一例外地采用了統(tǒng)計(jì)方法,它們的貢獻(xiàn)基本是在別人提出的模型的基礎(chǔ)上,做些特征選擇和參數(shù)調(diào)整等方面的改進(jìn)工作,在中文信息處理的理論創(chuàng)新方面鮮有建樹(shù)。

    近幾年來(lái)隨著國(guó)內(nèi)指標(biāo)(SCI/SSCI論文數(shù)量、引用次數(shù)、高被引論文數(shù)等)導(dǎo)向的各種學(xué)術(shù)評(píng)估愈演愈烈,很多研究開(kāi)始一味地跟蹤熱點(diǎn)、追逐新潮,只是為了早出成果、快發(fā)論文,而最終忘記了解決中文語(yǔ)言理解這一問(wèn)題的根本目標(biāo)。這正是我們擔(dān)憂(yōu)的關(guān)鍵所在。

    四、結(jié)束語(yǔ)

    過(guò)去60多年中,中文信息處理取得了令人振奮的成果,尤其在統(tǒng)計(jì)方法成為主流方法之前,老一代學(xué)者創(chuàng)建了一系列面向漢語(yǔ)特點(diǎn)的理論方法和實(shí)用技術(shù),并為中文語(yǔ)言資源庫(kù)建設(shè)做出了卓越貢獻(xiàn),人才培養(yǎng)和隊(duì)伍建設(shè)成就顯著。而當(dāng)統(tǒng)計(jì)方法一統(tǒng)天下之后,對(duì)語(yǔ)言學(xué)特性和認(rèn)知規(guī)律的研究在自然語(yǔ)言處理領(lǐng)域并沒(méi)有得到應(yīng)有的重視。其實(shí),早在10多年前有關(guān)專(zhuān)家就已經(jīng)通過(guò)腦功能成像技術(shù)研究證明,漢英兩種語(yǔ)言的名詞和動(dòng)詞在人腦中的表征并不完全一樣(Li et al. 2004)。如何針對(duì)漢語(yǔ)自身的特點(diǎn)和規(guī)律建立專(zhuān)用的模型和算法,恐怕才是最終解決漢語(yǔ)理解問(wèn)題的正確出路。

    總體而言,目前計(jì)算機(jī)處理自然語(yǔ)言的能力僅僅停留在“處理”層面,還遠(yuǎn)不能達(dá)到“理解”的水平,未來(lái)的任務(wù)艱巨而充滿(mǎn)挑戰(zhàn)。跟蹤國(guó)際前沿是每一位科研工作者應(yīng)有的素質(zhì)和理念,但是,在學(xué)習(xí)和跟蹤國(guó)際先進(jìn)技術(shù)的同時(shí),無(wú)論如何都不應(yīng)該喪失以解決我們母語(yǔ)問(wèn)題為目標(biāo)的創(chuàng)新意識(shí)。

    注 釋

    ① 本文接下來(lái)討論的中文信息處理研究現(xiàn)狀和趨勢(shì),主要指漢語(yǔ)信息處理的技術(shù)狀況。

    ② 參見(jiàn)http://www.keenage.com/html/c_index.html。

    ③ 第一部“中國(guó)語(yǔ)言生活綠皮書(shū)”——《中國(guó)語(yǔ)言生活狀況報(bào)告(2005)》于2006年9月18日正式出版。此后每年發(fā)布一次,持續(xù)至今。

    ④ https://www.ldc.upenn.edu/。

    ⑤ ACL是國(guó)際計(jì)算語(yǔ)言學(xué)學(xué)會(huì)(Association for Computational Linguistics)的縮寫(xiě)。該學(xué)會(huì)成立于1962年,第一屆ACL年會(huì)于1963年8月在美國(guó)召開(kāi),目前是本領(lǐng)域最具影響力和權(quán)威性最高的頂級(jí)學(xué)術(shù)會(huì)議,被中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)認(rèn)定為A類(lèi)會(huì)議。第53屆ACL年會(huì)與亞洲自然語(yǔ)言處理聯(lián)合會(huì)(The Asian Federation of Natural Language Processing,簡(jiǎn)稱(chēng)AFNLP)第7屆自然語(yǔ)言處理國(guó)際聯(lián)合會(huì)議(The 7th International Joint Conference on Natural Language Processing,簡(jiǎn)稱(chēng)IJCNLP)于2015年7月26日至31日在北京舉辦,會(huì)議名稱(chēng)通常簡(jiǎn)寫(xiě)為:ACL-IJCNLP2015。

    ⑥COLING創(chuàng)辦于1965年,每?jī)赡暾匍_(kāi)一次,是本領(lǐng)域最具權(quán)威性和影響力的一流學(xué)術(shù)會(huì)議之一。

    ⑦International Committee on Computational Linguistics, 簡(jiǎn)稱(chēng)ICCL。網(wǎng)址:http://nlp.shef.ac.uk/iccl/。

    參考文獻(xiàn)

    李 幸、宗成慶 2006 《引入標(biāo)點(diǎn)處理的層次化漢語(yǔ)長(zhǎng)句句法分析方法》,《中文信息學(xué)報(bào)》第4期。

    李宇明 2007 《關(guān)于〈中國(guó)語(yǔ)言生活綠皮書(shū)〉》,《語(yǔ)言文字應(yīng)用》第1期。

    宋 柔 2012 《漢語(yǔ)篇章廣義話(huà)題結(jié)構(gòu)研究》,北京語(yǔ)言大學(xué)語(yǔ)言信息處理研究所研究報(bào)告。

    王德亮 2004 《漢語(yǔ)零形回指解析——基于向心理論的研究》,《現(xiàn)代外語(yǔ)》第4期。

    宗成慶 2013 《統(tǒng)計(jì)自然語(yǔ)言處理》,北京:清華大學(xué)出版社。

    宗成慶、曹右琦、俞士汶 2009 《中文信息處理60年》,《語(yǔ)言文字應(yīng)用》第4期。

    宗成慶、高慶獅 2008 《中國(guó)語(yǔ)言技術(shù)進(jìn)展》,《中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊》第8期。

    Ballesteros, Miguel, Chris Dyer, and Noah A. Smith. 2015. Improved Transition-Based Parsing by Modeling Characters instead of Words with LSTMs. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP).

    Dyer, Chris, Miguel Ballesteros, Wang Ling, Austin Matthews, and Noah A. Smith. 2015. Transition-Based Dependency Parsing with Stack Long Short-Term Memory. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (ACL-IJCNLP).

    Kang, Xiaomian, Haoran Li, Long Zhou, Jiajun Zhang, and Chengqing Zong. 2016. An End-to-End Chinese Discourse Parser with Adaptation to Explicit and Non-Explicit Relation Recognition. Proceedings of the SIGNLL Conference on Computational Natural Language Learning (CoNLL).

    Li, Ping, Zhen Jin, and Li Hai Tan. 2014. Neural Representations of Nouns and Verbs in Chinese: An fMRI Study. Neuroimage 21, 1533-1541.

    責(zé)任編輯:戴 燃

    猜你喜歡
    自然語(yǔ)言處理
    基于LSTM自動(dòng)編碼機(jī)的短文本聚類(lèi)方法
    自然語(yǔ)言處理與司法案例
    國(guó)外基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)相關(guān)研究進(jìn)展及其啟示
    基于依存句法的實(shí)體關(guān)系抽取
    基于組合分類(lèi)算法的源代碼注釋質(zhì)量評(píng)估方法
    面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
    詞向量的語(yǔ)義學(xué)規(guī)范化
    漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
    HowNet在自然語(yǔ)言處理領(lǐng)域的研究現(xiàn)狀與分析
    科技視界(2016年5期)2016-02-22 11:41:39
    基于.NET的維哈柯多語(yǔ)種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    看片在线看免费视频| 麻豆成人av视频| 亚洲欧美成人精品一区二区| 在线观看免费视频日本深夜| 国产三级在线视频| 国产精品免费一区二区三区在线| 99九九线精品视频在线观看视频| 国产精品久久久久久精品电影小说 | 亚洲国产高清在线一区二区三| 亚洲美女搞黄在线观看| 亚洲图色成人| 日本一本二区三区精品| 99精品在免费线老司机午夜| 国语自产精品视频在线第100页| 亚洲精品久久久久久婷婷小说 | 身体一侧抽搐| 亚洲欧洲国产日韩| 久久精品综合一区二区三区| 免费搜索国产男女视频| 午夜激情福利司机影院| 天堂影院成人在线观看| 精品不卡国产一区二区三区| 亚洲av.av天堂| 国产男人的电影天堂91| 春色校园在线视频观看| 婷婷色av中文字幕| 日韩欧美在线乱码| 亚洲国产高清在线一区二区三| 婷婷色综合大香蕉| 听说在线观看完整版免费高清| 日韩高清综合在线| 蜜桃久久精品国产亚洲av| 天堂av国产一区二区熟女人妻| 成人高潮视频无遮挡免费网站| 人体艺术视频欧美日本| 一区福利在线观看| 九九热线精品视视频播放| 国产老妇伦熟女老妇高清| 国产精品久久电影中文字幕| 亚洲在久久综合| 国产爱豆传媒在线观看| www.色视频.com| 久久久精品欧美日韩精品| 最后的刺客免费高清国语| 又爽又黄无遮挡网站| 亚洲三级黄色毛片| av天堂中文字幕网| 日本免费一区二区三区高清不卡| 亚洲欧美成人综合另类久久久 | 国产精品三级大全| 日韩高清综合在线| 高清在线视频一区二区三区 | 久久久精品大字幕| 日本成人三级电影网站| 国产高清激情床上av| 亚洲精品国产成人久久av| 亚洲精品国产av成人精品| 特大巨黑吊av在线直播| a级一级毛片免费在线观看| 三级男女做爰猛烈吃奶摸视频| 亚洲真实伦在线观看| 日韩三级伦理在线观看| 久久久久九九精品影院| 国产av一区在线观看免费| 特级一级黄色大片| 神马国产精品三级电影在线观看| 亚洲av成人av| 国产亚洲av嫩草精品影院| 国产视频内射| 青春草国产在线视频 | 国产精品不卡视频一区二区| 日本-黄色视频高清免费观看| 色吧在线观看| 午夜免费激情av| 中出人妻视频一区二区| 亚洲最大成人中文| 哪个播放器可以免费观看大片| 男女边吃奶边做爰视频| 在现免费观看毛片| 国产综合懂色| 白带黄色成豆腐渣| 五月伊人婷婷丁香| 亚洲av第一区精品v没综合| 能在线免费观看的黄片| 中文字幕av在线有码专区| av.在线天堂| 国产不卡一卡二| 中文字幕熟女人妻在线| 国产精品一二三区在线看| 欧美潮喷喷水| 久久热精品热| 床上黄色一级片| 乱系列少妇在线播放| 久久久a久久爽久久v久久| 搞女人的毛片| 国产精品福利在线免费观看| 舔av片在线| 一本一本综合久久| 亚洲欧美日韩高清在线视频| 两个人的视频大全免费| 国产av不卡久久| 午夜福利在线观看吧| 午夜精品国产一区二区电影 | 国产精品99久久久久久久久| 成人高潮视频无遮挡免费网站| 熟妇人妻久久中文字幕3abv| 97超碰精品成人国产| 欧美最黄视频在线播放免费| av专区在线播放| 一本精品99久久精品77| 亚洲18禁久久av| www日本黄色视频网| 国产一区二区三区av在线 | 国产一区二区亚洲精品在线观看| 亚洲精品国产成人久久av| or卡值多少钱| 国产淫片久久久久久久久| 给我免费播放毛片高清在线观看| 三级毛片av免费| av在线老鸭窝| 欧美精品一区二区大全| 国产亚洲91精品色在线| 男人的好看免费观看在线视频| 如何舔出高潮| 久久鲁丝午夜福利片| 神马国产精品三级电影在线观看| 青青草视频在线视频观看| 最近的中文字幕免费完整| 日本一本二区三区精品| 一进一出抽搐gif免费好疼| 在线免费观看的www视频| 毛片一级片免费看久久久久| 亚洲欧美精品综合久久99| 欧美人与善性xxx| 国产高潮美女av| 国产男人的电影天堂91| 最近的中文字幕免费完整| 在线免费观看不下载黄p国产| 最近最新中文字幕大全电影3| 婷婷亚洲欧美| 日本色播在线视频| 国产一区二区亚洲精品在线观看| 国产真实乱freesex| 亚洲精品乱码久久久v下载方式| 国产免费男女视频| 最新中文字幕久久久久| 能在线免费看毛片的网站| 精品99又大又爽又粗少妇毛片| 人妻制服诱惑在线中文字幕| 亚洲成人精品中文字幕电影| 亚洲av熟女| 一进一出抽搐动态| 丝袜喷水一区| 日韩国内少妇激情av| 在线国产一区二区在线| 日日啪夜夜撸| 国产亚洲91精品色在线| 麻豆国产av国片精品| 国产日韩欧美在线精品| 久久精品91蜜桃| 亚洲欧美成人综合另类久久久 | АⅤ资源中文在线天堂| 久久久久九九精品影院| a级毛色黄片| av在线天堂中文字幕| 久久中文看片网| av免费观看日本| 男人舔奶头视频| 久久精品夜夜夜夜夜久久蜜豆| 国产 一区精品| 又粗又爽又猛毛片免费看| 日本成人三级电影网站| 久久精品国产自在天天线| 麻豆国产97在线/欧美| 久久久久九九精品影院| 99热这里只有精品一区| 国产精品野战在线观看| 亚洲欧美精品自产自拍| 91aial.com中文字幕在线观看| 久久精品综合一区二区三区| 美女cb高潮喷水在线观看| 亚洲精品乱码久久久v下载方式| 人妻制服诱惑在线中文字幕| 亚洲精品自拍成人| 有码 亚洲区| 老司机影院成人| 真实男女啪啪啪动态图| 国产精品乱码一区二三区的特点| 久久人人精品亚洲av| 只有这里有精品99| 丰满人妻一区二区三区视频av| 长腿黑丝高跟| 一区二区三区四区激情视频 | 欧美在线一区亚洲| 欧美成人a在线观看| 麻豆国产av国片精品| 国产v大片淫在线免费观看| a级一级毛片免费在线观看| 婷婷精品国产亚洲av| 男人舔奶头视频| 国产高清视频在线观看网站| 日本免费a在线| 久久韩国三级中文字幕| 能在线免费观看的黄片| 国产色婷婷99| 婷婷亚洲欧美| 国产免费一级a男人的天堂| 男人舔女人下体高潮全视频| 国产视频首页在线观看| 插阴视频在线观看视频| 日本一二三区视频观看| 蜜桃亚洲精品一区二区三区| 午夜久久久久精精品| 国产免费男女视频| 一个人看的www免费观看视频| 91午夜精品亚洲一区二区三区| 我的女老师完整版在线观看| 99久久中文字幕三级久久日本| 欧美一区二区国产精品久久精品| 男人的好看免费观看在线视频| 亚洲最大成人中文| 国产三级中文精品| 亚洲最大成人av| 18禁在线无遮挡免费观看视频| 最近的中文字幕免费完整| 国产大屁股一区二区在线视频| 成人一区二区视频在线观看| 国产精品国产高清国产av| 99国产极品粉嫩在线观看| 国产私拍福利视频在线观看| 久久久精品94久久精品| 最近手机中文字幕大全| 国产精品蜜桃在线观看 | 亚洲国产色片| 国产伦在线观看视频一区| 精品久久久久久久久亚洲| videossex国产| 直男gayav资源| av在线蜜桃| 丰满乱子伦码专区| 久久草成人影院| 变态另类成人亚洲欧美熟女| 麻豆国产97在线/欧美| 成年免费大片在线观看| 亚洲经典国产精华液单| 亚洲国产欧美人成| 午夜精品国产一区二区电影 | 久久鲁丝午夜福利片| 男女做爰动态图高潮gif福利片| 国内精品宾馆在线| 中文资源天堂在线| 丰满人妻一区二区三区视频av| 国产美女午夜福利| 日本熟妇午夜| 日日撸夜夜添| 日韩 亚洲 欧美在线| 国产精品99久久久久久久久| 亚洲精品色激情综合| 国产片特级美女逼逼视频| 国产在线男女| 91av网一区二区| 国产成人福利小说| 国产v大片淫在线免费观看| 人体艺术视频欧美日本| a级毛片免费高清观看在线播放| 免费看日本二区| 亚洲成人av在线免费| 国产一区二区在线av高清观看| 一级av片app| 小说图片视频综合网站| 色综合站精品国产| 蜜桃亚洲精品一区二区三区| 欧美丝袜亚洲另类| videossex国产| 三级毛片av免费| 蜜桃久久精品国产亚洲av| 又爽又黄a免费视频| 国内精品一区二区在线观看| 日韩人妻高清精品专区| 99热只有精品国产| 欧美激情在线99| 欧美3d第一页| 联通29元200g的流量卡| 成人亚洲欧美一区二区av| 欧美bdsm另类| 深爱激情五月婷婷| 男人和女人高潮做爰伦理| 99久久人妻综合| 国产极品精品免费视频能看的| 亚洲av.av天堂| 一进一出抽搐动态| 99久久九九国产精品国产免费| 波多野结衣高清作品| 99热这里只有是精品在线观看| 国产精品乱码一区二三区的特点| 亚洲国产欧美人成| 亚洲av电影不卡..在线观看| 亚洲激情五月婷婷啪啪| 99久久无色码亚洲精品果冻| 18+在线观看网站| av免费观看日本| 麻豆国产av国片精品| 欧美+日韩+精品| 午夜a级毛片| 老司机影院成人| 搞女人的毛片| 亚洲精品粉嫩美女一区| 内地一区二区视频在线| 日韩一本色道免费dvd| 免费搜索国产男女视频| 中文字幕av在线有码专区| 搡女人真爽免费视频火全软件| 亚洲精品久久国产高清桃花| 高清毛片免费看| 波多野结衣巨乳人妻| 亚洲人成网站在线播放欧美日韩| 成人国产麻豆网| 久久久精品欧美日韩精品| 久久九九热精品免费| 亚洲图色成人| 色综合色国产| 亚洲精品日韩av片在线观看| 少妇裸体淫交视频免费看高清| 国内久久婷婷六月综合欲色啪| 一进一出抽搐gif免费好疼| 日本色播在线视频| 国产一区亚洲一区在线观看| 99热全是精品| 99久久九九国产精品国产免费| 黄片wwwwww| 最新中文字幕久久久久| 久久婷婷人人爽人人干人人爱| 毛片女人毛片| 最近最新中文字幕大全电影3| 欧美日本亚洲视频在线播放| 国产老妇伦熟女老妇高清| 亚洲经典国产精华液单| 欧美最黄视频在线播放免费| 亚洲成人中文字幕在线播放| 国产亚洲精品久久久com| 少妇的逼水好多| 亚洲av.av天堂| eeuss影院久久| 亚洲av成人av| 久久久久久久久久久丰满| 亚洲成人精品中文字幕电影| 99久国产av精品国产电影| 亚洲欧美成人精品一区二区| 看非洲黑人一级黄片| 岛国在线免费视频观看| 丝袜喷水一区| 亚洲乱码一区二区免费版| 一本久久中文字幕| 成人永久免费在线观看视频| 日韩欧美三级三区| 久久精品久久久久久久性| 欧美日韩综合久久久久久| 色哟哟·www| 老司机福利观看| 精品人妻偷拍中文字幕| 99国产精品一区二区蜜桃av| 国内精品久久久久精免费| 亚洲成人精品中文字幕电影| 在现免费观看毛片| 白带黄色成豆腐渣| 日韩强制内射视频| 在线播放无遮挡| 最近视频中文字幕2019在线8| 欧美高清成人免费视频www| 成人特级av手机在线观看| a级一级毛片免费在线观看| 亚洲国产欧美人成| 国产精品不卡视频一区二区| 听说在线观看完整版免费高清| 久久亚洲国产成人精品v| 黄色视频,在线免费观看| 色5月婷婷丁香| 欧美一区二区亚洲| 看免费成人av毛片| 免费搜索国产男女视频| 国产亚洲精品久久久久久毛片| 一本久久精品| av在线蜜桃| 成人av在线播放网站| 国产女主播在线喷水免费视频网站 | 亚洲国产精品合色在线| 亚洲aⅴ乱码一区二区在线播放| 日韩,欧美,国产一区二区三区 | 久久精品国产亚洲av天美| 一区福利在线观看| 国产又黄又爽又无遮挡在线| 亚洲自偷自拍三级| 亚洲av中文字字幕乱码综合| 欧美一区二区亚洲| 欧美不卡视频在线免费观看| 六月丁香七月| 永久网站在线| 午夜激情欧美在线| 亚洲精品日韩av片在线观看| 亚洲国产精品久久男人天堂| 国产精品一及| 成人欧美大片| 免费大片18禁| 国产精品乱码一区二三区的特点| 欧美xxxx黑人xx丫x性爽| 日本成人三级电影网站| 99在线视频只有这里精品首页| 国产爱豆传媒在线观看| 色视频www国产| 亚洲精品成人久久久久久| 成熟少妇高潮喷水视频| 免费电影在线观看免费观看| 免费观看精品视频网站| 青春草亚洲视频在线观看| 熟妇人妻久久中文字幕3abv| 亚洲精品影视一区二区三区av| 夫妻性生交免费视频一级片| 久久九九热精品免费| ponron亚洲| 99热全是精品| 在线观看一区二区三区| 最近最新中文字幕大全电影3| 欧美精品国产亚洲| 在线播放无遮挡| 亚洲av第一区精品v没综合| 亚洲色图av天堂| 久久久久九九精品影院| 日韩人妻高清精品专区| 91精品国产九色| 国产高清激情床上av| 久久人妻av系列| 床上黄色一级片| 国产精品不卡视频一区二区| 亚洲国产精品成人综合色| av福利片在线观看| 亚洲国产精品成人久久小说 | 亚洲图色成人| 国产成人精品婷婷| 18+在线观看网站| 69人妻影院| 波野结衣二区三区在线| 午夜精品在线福利| 午夜福利在线在线| 精品99又大又爽又粗少妇毛片| 久久精品国产清高在天天线| 美女被艹到高潮喷水动态| 欧美性猛交╳xxx乱大交人| 人妻制服诱惑在线中文字幕| 一本久久中文字幕| 欧美+亚洲+日韩+国产| 久久精品国产99精品国产亚洲性色| 一区福利在线观看| 黄色欧美视频在线观看| 国产精品女同一区二区软件| 三级男女做爰猛烈吃奶摸视频| 国产成人影院久久av| 成人毛片a级毛片在线播放| 免费在线观看成人毛片| 一区福利在线观看| 亚洲三级黄色毛片| 亚洲av一区综合| 看十八女毛片水多多多| 老司机影院成人| 只有这里有精品99| 久久久久久久久久久丰满| 长腿黑丝高跟| 精品少妇黑人巨大在线播放 | 日韩欧美国产在线观看| 一级毛片电影观看 | 久久鲁丝午夜福利片| 午夜老司机福利剧场| 精品一区二区三区人妻视频| 日韩一区二区三区影片| 久久这里只有精品中国| 一级毛片aaaaaa免费看小| 免费大片18禁| 在线观看免费视频日本深夜| 最近的中文字幕免费完整| 亚洲成人中文字幕在线播放| 十八禁国产超污无遮挡网站| 青春草亚洲视频在线观看| 国产黄片美女视频| 成人性生交大片免费视频hd| 婷婷色综合大香蕉| 久久久精品大字幕| 观看美女的网站| 欧美日韩综合久久久久久| 国产美女午夜福利| 最新中文字幕久久久久| 联通29元200g的流量卡| 国产黄片视频在线免费观看| 免费观看在线日韩| 国产日本99.免费观看| 在线观看一区二区三区| 啦啦啦韩国在线观看视频| 青青草视频在线视频观看| 小说图片视频综合网站| 一级黄片播放器| 国产高清激情床上av| 欧美潮喷喷水| 亚洲aⅴ乱码一区二区在线播放| 国产一级毛片七仙女欲春2| 日韩一区二区三区影片| 亚洲综合色惰| 亚洲人成网站在线观看播放| 嫩草影院入口| 久久久久久九九精品二区国产| 欧美成人精品欧美一级黄| 久久精品国产清高在天天线| 小蜜桃在线观看免费完整版高清| 丝袜美腿在线中文| 人妻夜夜爽99麻豆av| 男人狂女人下面高潮的视频| 国产成年人精品一区二区| 欧美日韩国产亚洲二区| 18禁裸乳无遮挡免费网站照片| 久久久午夜欧美精品| 国产精品久久电影中文字幕| 成年女人永久免费观看视频| 久久久久久久久久久免费av| 一进一出抽搐动态| 九九久久精品国产亚洲av麻豆| 亚洲av中文字字幕乱码综合| 天天躁日日操中文字幕| 亚洲精品亚洲一区二区| 久久久久久久久久久丰满| 亚洲无线在线观看| 欧美最新免费一区二区三区| 少妇熟女欧美另类| 99久国产av精品| 久久久久久久久久黄片| 内射极品少妇av片p| 国内精品宾馆在线| 91av网一区二区| 亚洲欧美日韩高清在线视频| 一区二区三区四区激情视频 | 国产一级毛片在线| 欧美精品国产亚洲| 国产毛片a区久久久久| 成人性生交大片免费视频hd| 亚洲欧美成人综合另类久久久 | 99国产极品粉嫩在线观看| av黄色大香蕉| 欧美一区二区亚洲| 国产成人精品久久久久久| 男人狂女人下面高潮的视频| 长腿黑丝高跟| 大香蕉久久网| 久久精品夜色国产| www.色视频.com| 久久亚洲国产成人精品v| 高清毛片免费观看视频网站| 日韩欧美精品v在线| 国产成人a区在线观看| а√天堂www在线а√下载| 99久久久亚洲精品蜜臀av| 亚洲人成网站在线播| 久久久精品94久久精品| 欧美日韩综合久久久久久| 国产精品一二三区在线看| 黑人高潮一二区| 亚洲无线观看免费| 亚洲四区av| 18禁黄网站禁片免费观看直播| 免费人成在线观看视频色| 欧美在线一区亚洲| 亚洲精品日韩在线中文字幕 | 国产一区二区激情短视频| 黄色日韩在线| 麻豆乱淫一区二区| 国产一区亚洲一区在线观看| www.av在线官网国产| 国产精品久久久久久精品电影小说 | 26uuu在线亚洲综合色| 日韩大尺度精品在线看网址| 久久韩国三级中文字幕| 日日啪夜夜撸| 国产精品麻豆人妻色哟哟久久 | 久久精品综合一区二区三区| 日本成人三级电影网站| 婷婷色av中文字幕| 亚洲国产欧美在线一区| 看十八女毛片水多多多| 国产中年淑女户外野战色| 91麻豆精品激情在线观看国产| 久久久欧美国产精品| 春色校园在线视频观看| 亚洲成人中文字幕在线播放| 成人午夜精彩视频在线观看| 性色avwww在线观看| 亚洲欧美日韩无卡精品| 最近最新中文字幕大全电影3| 91在线精品国自产拍蜜月| 成人毛片60女人毛片免费| 日本在线视频免费播放| 免费大片18禁| 国产爱豆传媒在线观看| 亚洲天堂国产精品一区在线| 69人妻影院| 久久欧美精品欧美久久欧美| 亚洲在线自拍视频| 国产成人a∨麻豆精品| 最好的美女福利视频网| 啦啦啦韩国在线观看视频| 一边摸一边抽搐一进一小说| 97人妻精品一区二区三区麻豆| 成人午夜精彩视频在线观看| 国产精华一区二区三区| 国内揄拍国产精品人妻在线| 亚洲精华国产精华液的使用体验 | 蜜臀久久99精品久久宅男| 国产精品麻豆人妻色哟哟久久 | 观看美女的网站| 大型黄色视频在线免费观看| 一本精品99久久精品77|