摘要:計(jì)算機(jī)的語(yǔ)言模塊發(fā)展中,對(duì)于數(shù)據(jù)資源的依賴(lài)相當(dāng)高,在對(duì)于語(yǔ)料的分析中,利用不同的分析方式,帶來(lái)的效果也存在著很大的差異性。在本文中詳細(xì)介紹了其中關(guān)于基于數(shù)理統(tǒng)計(jì)和概率論分析下的NLP管理方式,對(duì)于數(shù)據(jù)研究中,將依據(jù)處理包的模塊化分析為計(jì)算理論提供了理論基礎(chǔ),并在語(yǔ)義的分析以及邏輯的調(diào)整下形成轉(zhuǎn)換,不僅統(tǒng)一的了標(biāo)準(zhǔn),避免出現(xiàn)語(yǔ)句的表達(dá)錯(cuò)誤,同時(shí)也是加強(qiáng)了語(yǔ)句的表達(dá)方式。在對(duì)文本檢索的計(jì)算方式上進(jìn)行調(diào)整,強(qiáng)調(diào)數(shù)據(jù)之間的語(yǔ)義邏輯沖突檢索,在數(shù)據(jù)分析的基礎(chǔ)上不斷提高自然語(yǔ)言的使用能力。
關(guān)鍵詞:概率論與數(shù)理統(tǒng)計(jì);自然語(yǔ)言處理數(shù)據(jù)模塊;語(yǔ)料庫(kù)邏輯分析
隨著網(wǎng)絡(luò)社會(huì)的不斷發(fā)展,對(duì)于網(wǎng)絡(luò)數(shù)據(jù)的管理形式更加多元,這就給網(wǎng)絡(luò)平臺(tái)帶來(lái)了極大地自由,與此同時(shí)就會(huì)出現(xiàn)違規(guī)的情況,網(wǎng)絡(luò)環(huán)境的凈化就亟待解決。如今,在不同的網(wǎng)絡(luò)平臺(tái)中廣泛使用的NLP(自然語(yǔ)言處理,以下簡(jiǎn)稱(chēng)NLP)對(duì)網(wǎng)絡(luò)進(jìn)行有效的凈化,不斷對(duì)語(yǔ)言進(jìn)行統(tǒng)一,在概率分析的基礎(chǔ)下,利用數(shù)據(jù)包的模式對(duì)語(yǔ)言轉(zhuǎn)換起到幫助作用。在對(duì)語(yǔ)言的管理模式中,NLP系統(tǒng)就是基于概率論和梳理統(tǒng)計(jì)基礎(chǔ)上衍生出的管理模式,有效的促進(jìn)了網(wǎng)絡(luò)系統(tǒng)的語(yǔ)言統(tǒng)一,對(duì)網(wǎng)絡(luò)運(yùn)行成本也能夠有效地控制。
一、NLP數(shù)據(jù)模型基本情況
NLP是自然語(yǔ)言處理的統(tǒng)稱(chēng),在計(jì)算機(jī)統(tǒng)計(jì)中一門(mén)分類(lèi)學(xué)科,利用自然語(yǔ)言的文本中對(duì)數(shù)據(jù)進(jìn)行采集和存儲(chǔ),并根據(jù)算法對(duì)數(shù)據(jù)進(jìn)行檢索。在過(guò)程當(dāng)中,對(duì)于語(yǔ)言的統(tǒng)計(jì)還細(xì)分為標(biāo)注和語(yǔ)義的分析,在量化指標(biāo)的要求下,把作品的風(fēng)格進(jìn)行調(diào)整,利用計(jì)算機(jī)數(shù)據(jù)加工功能對(duì)數(shù)據(jù)的詞匯庫(kù)進(jìn)行加工,通過(guò)詞匯之間的隨機(jī)搭配,在深度的融合下實(shí)現(xiàn)研究范圍擴(kuò)大。在軟件數(shù)據(jù)庫(kù)中,將大量的文字進(jìn)行處理,在語(yǔ)法分析和詞性的辨析上起到搭配的效果,從一個(gè)新環(huán)境中進(jìn)行檢索研究,省去了各個(gè)軟件之間相互轉(zhuǎn)化的麻煩。在傳統(tǒng)的自然語(yǔ)言管理中,各個(gè)軟件需要進(jìn)行相互的轉(zhuǎn)換,不能只有的進(jìn)行切換,更不能根據(jù)設(shè)計(jì)者的要求進(jìn)行深度語(yǔ)言處理研究,詞匯的搭配不能在隨機(jī)的模式中進(jìn)行,但是根據(jù)概率論和數(shù)理統(tǒng)計(jì)的方式,可以將已有的詞匯在計(jì)算中得到充分的使用,由原來(lái)的片段形式,形成篇章的形式,在工具包的模擬下,彌補(bǔ)研究中的不足。同時(shí)在NLP中使用Python 語(yǔ)言更能將語(yǔ)言得知轉(zhuǎn)換變得便捷。在邊界模糊的語(yǔ)言處理中,由于Python 語(yǔ)言是處理的源頭,數(shù)據(jù)的處理較為方便,使得在多個(gè)領(lǐng)域中將概率論和數(shù)理統(tǒng)計(jì)分析作為研究的突破口,把Python 語(yǔ)言作為研究的模式,在語(yǔ)句庫(kù)中新城NLP管理模式。
二、NLP管理模式研究?jī)?nèi)容
在原始語(yǔ)言中,將數(shù)據(jù)在網(wǎng)絡(luò)中接入,根據(jù)數(shù)據(jù)的內(nèi)容不同,接入的接口不同,在根據(jù)人工的判斷,將數(shù)據(jù)形成轉(zhuǎn)換介質(zhì),在文本中出現(xiàn)的符號(hào)和相對(duì)應(yīng)的格式中,將不規(guī)范的問(wèn)題在計(jì)算機(jī)算法中進(jìn)行解決,保證了軟件能夠識(shí)別的前提下,通過(guò)數(shù)據(jù)統(tǒng)計(jì)的方式再次對(duì)源數(shù)據(jù)(語(yǔ)言)進(jìn)行處理,并用Python 語(yǔ)言進(jìn)行數(shù)據(jù)包的上傳,在數(shù)據(jù)庫(kù)中調(diào)用非表達(dá)式模式的文本,將表達(dá)的方式不局限在語(yǔ)言表達(dá),可以轉(zhuǎn)化為公式辨識(shí)的方式,并在replace模式下,將命令下達(dá),對(duì)字符進(jìn)行轉(zhuǎn)化,保證原有不規(guī)范的詞語(yǔ)和不正確或是出現(xiàn)不正常的語(yǔ)句進(jìn)行修正,刪除贅余的語(yǔ)句,形成對(duì)篇章的整體處理。
作為第一步,完成Python 語(yǔ)言上傳,也就是NLP管理中數(shù)據(jù)的預(yù)處理,是將隨機(jī)的數(shù)據(jù)根據(jù)算法進(jìn)行上傳,充分的將概率分布的原理融入其中,隨后是對(duì)詞語(yǔ)進(jìn)行修改,在多條不相兼容的數(shù)據(jù)中,進(jìn)行物理隔離,在對(duì)于較好識(shí)別的詞語(yǔ)進(jìn)行優(yōu)先分類(lèi),對(duì)分類(lèi)的形式作為識(shí)別模塊,在采集數(shù)據(jù)的過(guò)程中,數(shù)據(jù)的識(shí)別模塊就相應(yīng)的激活,由于數(shù)據(jù)的來(lái)源上相同但是內(nèi)容完全的不同,會(huì)形成文本存在差異性,利用加權(quán)矩陣的驗(yàn)證方式,對(duì)于相互存在關(guān)聯(lián)性的文本進(jìn)行合并。這部操作中,降低大量來(lái)自數(shù)據(jù)自身的工作時(shí)間,減少了人為操作的麻煩,避免了數(shù)據(jù)分類(lèi)中存在的錯(cuò)誤。其次在分詞中,數(shù)據(jù)的雜亂性也可以根據(jù)驗(yàn)證的公式進(jìn)行初步的篩選,將原有錯(cuò)誤的數(shù)據(jù)進(jìn)行淘汰。根據(jù)淘汰的數(shù)量進(jìn)行概率的計(jì)算,為下一步詞句的還原作為基礎(chǔ)工作。隨著詞語(yǔ)內(nèi)容的劃分,隨即對(duì)語(yǔ)言的語(yǔ)料進(jìn)行劃分。考慮到后期語(yǔ)言處理的可檢索,將Python 語(yǔ)言包中的調(diào)用模塊提前使用,并與識(shí)別模塊相互兼容。鑒于數(shù)據(jù)在使用語(yǔ)句塊的replace命令將多個(gè)語(yǔ)句進(jìn)行替換,就會(huì)出現(xiàn)統(tǒng)計(jì)上的誤差,會(huì)對(duì)后期的語(yǔ)句重組進(jìn)行加工,將標(biāo)注和注解進(jìn)行深度處理,保證功能方式的實(shí)現(xiàn),并根據(jù)非表達(dá)語(yǔ)言分類(lèi)方式,實(shí)現(xiàn)分詞的語(yǔ)料分析,達(dá)到細(xì)分詞語(yǔ)的效果。
再者是對(duì)詞性的還原,在語(yǔ)段中,將曲折的表達(dá)方式進(jìn)行文本的歸納,在文本的模式中,更換研究的方式,保證詞語(yǔ)進(jìn)行歸納,在不同的詞語(yǔ)中,由于詞性的相同可進(jìn)行歸納。在定量的語(yǔ)句控制下,達(dá)到語(yǔ)言處理詞匯量整體形成數(shù)據(jù)庫(kù)的效果。在Python 語(yǔ)言數(shù)據(jù)包中,將還原詞進(jìn)行多次的詞性還原,并根據(jù)相同詞性數(shù)據(jù)庫(kù)的管理方式,進(jìn)行詞性的賦值,在分類(lèi)中,對(duì)自然控制下的條件語(yǔ)言進(jìn)行細(xì)分,對(duì)于檢索和增加標(biāo)簽的方式進(jìn)行數(shù)值模塊,并在處理中借助神經(jīng)模塊的方式提高分類(lèi)的準(zhǔn)確性,形成對(duì)詞匯的賦值,保證后期的檢索方便。
三、NPL管理中統(tǒng)計(jì)分析
NPL管理中運(yùn)用的是統(tǒng)計(jì)學(xué)的相關(guān)原理,對(duì)于Python 語(yǔ)言也是根據(jù)概率的方式進(jìn)行數(shù)量的控制,在大量的數(shù)據(jù)進(jìn)行匯總分析,在檢索中形成索引,根據(jù)不同的規(guī)律進(jìn)行劃分,把個(gè)別偶然出現(xiàn)的,對(duì)于語(yǔ)義和語(yǔ)境沒(méi)有作用的詞語(yǔ)進(jìn)行篩選,根據(jù)偶然性的概率進(jìn)行劃分,并衍生到規(guī)律當(dāng)中,形成語(yǔ)言的具體搭配,模擬成固定的形式,并外部的搭配中完善Python語(yǔ)言數(shù)據(jù)庫(kù)。在考慮到詞句和詞語(yǔ)的不同,遵循概率的方式,在一詞多個(gè)用的情況下,可隨機(jī)對(duì)語(yǔ)句進(jìn)行搭配,保證數(shù)據(jù)的多重使用,在內(nèi)在的規(guī)律下,形成定義的轉(zhuǎn)化,并在意義與管理的模式中進(jìn)行切換,在傾向性的變化中突出語(yǔ)言的使用技巧,并在Python 語(yǔ)言中進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)分析。
在進(jìn)行所有操作之前,需要進(jìn)入命令行,輸入指令將 Python 語(yǔ)言自然語(yǔ)言處理包導(dǎo)入。通過(guò)輸入指令②,將語(yǔ)料導(dǎo)入。Python 語(yǔ)言包自身包含古騰堡項(xiàng)目、布朗語(yǔ)料庫(kù)、網(wǎng)絡(luò)和聊天文本、路透社新聞?wù)Z料庫(kù)等大量語(yǔ)料庫(kù)資源。在原始語(yǔ)料中,存在“]”、“-”、“”、“CHAPTER”大小寫(xiě)混雜等情況,會(huì)影響下一步對(duì)語(yǔ)料的標(biāo)注與統(tǒng)計(jì)分析,需要在進(jìn)行下一步分析之前去除,本文通過(guò)命令③來(lái)實(shí)現(xiàn)文本的清潔。在處理包中,可通過(guò)調(diào)用 is. alpha ( ) 屬性來(lái)去除語(yǔ)料文件中非字母部分,結(jié)合 if 判斷句的使用,實(shí)現(xiàn)文本的清潔。NLTK 對(duì)文本處理方式較多,也可以通過(guò)正則表達(dá)式中“/W”匹配符對(duì)字母進(jìn)行匹配,從而獲得清潔文本。在命令③中,調(diào)用 lower ( ) 方法,對(duì)語(yǔ)料中單詞進(jìn)行小寫(xiě)處理,以便提高統(tǒng)計(jì)的準(zhǔn)確度。對(duì)語(yǔ)料進(jìn)行清潔處理后的對(duì)比,上部分為原始數(shù)據(jù),下部分為進(jìn)行清潔處理后的數(shù)據(jù)。處理后“Emma”“I”被處理為“emma”“i”,“[”已被去除。
在進(jìn)行詞形還原操作之前,需要先輸入命令將Word Net Lemmatizer方法分配。經(jīng)歷上述步驟后,獲得語(yǔ)料基本能夠滿足進(jìn)行詞匯搭配研究需要,可以對(duì)詞匯出現(xiàn)頻率和搭配進(jìn)行研究,但當(dāng)前基于語(yǔ)料庫(kù)的研究已不僅僅限于詞匯層面,還涉及句法、篇章等多個(gè)層面。要在更高層面開(kāi)展研究,還需要對(duì)語(yǔ)料進(jìn)一步處理即詞性標(biāo)注。在 Python 語(yǔ)言中,通過(guò)調(diào)用pos_ tag 方法實(shí)現(xiàn)?!癳mma”被標(biāo)注為名詞,“by”被標(biāo)注為介詞。限于技術(shù)原因,標(biāo)注還不能做到 100% 準(zhǔn)確,如人名“austen”被錯(cuò)誤標(biāo)注為動(dòng)詞。
下面還是以常見(jiàn)詞“of”為例,介紹的自然語(yǔ)言程序處理包在檢索詞語(yǔ)搭配中的運(yùn)用。在獲得詞匯“of”的常見(jiàn)搭配的估計(jì)之后,為進(jìn)一步對(duì)詞匯進(jìn)行研究,證明提出的小說(shuō)中“of”一詞詞匯搭配的猜想,還需要對(duì)搭配進(jìn)行統(tǒng)計(jì)分析,以便證實(shí)猜想。在研究單詞“of”附近一個(gè)位置范圍內(nèi),常見(jiàn)搭配的頻數(shù)統(tǒng)計(jì)上,自然語(yǔ)言處理包提供bigrams,ConditionalFreqDist等多種工具可滿足研究需要。通過(guò)以下命令實(shí)現(xiàn)對(duì)詞匯“of”附近一個(gè)位置范圍內(nèi)的出現(xiàn)詞匯頻數(shù)的統(tǒng)計(jì)。在實(shí)際研究中還需要生成詞表以便對(duì)語(yǔ)料的整體特征有所掌握。Python 自然語(yǔ)言處理包提供了FreqDist對(duì)詞匯進(jìn)行統(tǒng)計(jì)。
四、語(yǔ)義邏輯分析檢測(cè)
在NLP處理中實(shí)現(xiàn)的信息管理,將多個(gè)區(qū)域的數(shù)據(jù)進(jìn)行分類(lèi),在規(guī)則的條件下根據(jù)統(tǒng)計(jì)的不同進(jìn)行性能的變化,在以來(lái)與語(yǔ)言的分析和文本格式的調(diào)整,實(shí)現(xiàn)語(yǔ)言的語(yǔ)料分析,在不需要大的計(jì)算的條件下,進(jìn)行知識(shí)的融合。在運(yùn)用信息抽取的情況下,將數(shù)據(jù)模型中資源進(jìn)行架構(gòu)調(diào)整,并在思考的方式上進(jìn)行改變,把原有的詞匯精準(zhǔn)性提高,在對(duì)計(jì)算機(jī)的理解下,將相互關(guān)系進(jìn)行變換,提高智能服務(wù)的能力。在描述邏輯的語(yǔ)言分析中,對(duì)語(yǔ)言網(wǎng)進(jìn)行調(diào)整,把概念性的語(yǔ)言進(jìn)行識(shí)別,在對(duì)象的幾何中,由于對(duì)象是二元對(duì)對(duì)立,保證本質(zhì)的區(qū)分的同時(shí)考利到定義的不同,將具體的語(yǔ)言進(jìn)行個(gè)別定義,利用模型的語(yǔ)義進(jìn)行推理,保證在邏輯中模型不出現(xiàn)沖突的情況,在運(yùn)算層面上保證知識(shí)同樣不出現(xiàn)沖突性。
上述主要是在語(yǔ)義方面的邏輯沖突的檢測(cè),簡(jiǎn)單的來(lái)說(shuō)就是在源數(shù)據(jù)的基礎(chǔ)上利用不同的定義對(duì)原有的數(shù)據(jù)進(jìn)行重新描述,在語(yǔ)言的嚴(yán)謹(jǐn)性和關(guān)聯(lián)性方面實(shí)現(xiàn)統(tǒng)一,保證結(jié)構(gòu)化的數(shù)據(jù)在思維的大數(shù)據(jù)模型中表現(xiàn)出概率分析的特性,當(dāng)然,只利用數(shù)據(jù)的模式不能夠過(guò)于單一,對(duì)語(yǔ)義的分析要遵循管理原理,在嚴(yán)謹(jǐn)性上使用主謂賓的管理方式,在順序上進(jìn)行相應(yīng)的推導(dǎo),保證不會(huì)出現(xiàn)歧義的情況發(fā)生,在保證描述性的一致性上,對(duì)定義詞匯進(jìn)行描述,在靜態(tài)和數(shù)據(jù)動(dòng)態(tài)進(jìn)行直接推導(dǎo),形成語(yǔ)句的標(biāo)注和檢索具體功能實(shí)現(xiàn)。
以語(yǔ)言中語(yǔ)句的標(biāo)注為例,在多個(gè)應(yīng)用場(chǎng)景中,利用語(yǔ)言的選擇方式,在獨(dú)立的瀏覽模式中,將語(yǔ)句接入場(chǎng)景中,提供實(shí)用性分析,在接入網(wǎng)絡(luò)服務(wù)后,滿足多個(gè)用戶(hù)的需求。在不同的語(yǔ)句分析模塊下,對(duì)需要標(biāo)注的文本進(jìn)行分析填注,在不同的實(shí)體之間進(jìn)行切換,在實(shí)例與虛擬的空格之間上文本。對(duì)于語(yǔ)法的分析中,在選擇標(biāo)注的方式和標(biāo)準(zhǔn)的定義方式,對(duì)于無(wú)法標(biāo)記的內(nèi)容,缺乏邏輯內(nèi)涵的數(shù)據(jù)進(jìn)行屏蔽,把具有邏輯鏈條和相互作用的語(yǔ)句進(jìn)行添加,實(shí)現(xiàn)數(shù)據(jù)的共通。在語(yǔ)義的推導(dǎo)中,利用不同的推導(dǎo)方式,將未知的數(shù)據(jù)進(jìn)行問(wèn)題形式分析,在模式型的解釋分析中,將概念抽象以及后期的數(shù)據(jù)共享。所謂的概念模型就是在抽象中數(shù)據(jù)中將一些具體的描述性話語(yǔ)進(jìn)行解釋?zhuān)谟忻鞔_的定義的分析中,對(duì)不明確的內(nèi)容進(jìn)行解釋?zhuān)沟谜Z(yǔ)句的表述清晰,語(yǔ)義明確,保證用戶(hù)的認(rèn)可度提升,實(shí)現(xiàn)應(yīng)用系統(tǒng)在語(yǔ)義上的串聯(lián),同時(shí)也是保證分類(lèi)方面的一致性,確保詞句直接在檢測(cè)沖突上達(dá)到相同的概念分析。
五、結(jié)束語(yǔ)
由于數(shù)據(jù)庫(kù)中語(yǔ)言的復(fù)雜性,在支持的數(shù)據(jù)中不同的語(yǔ)料情況較大,利用單一的數(shù)據(jù)分析方式無(wú)法滿足自然語(yǔ)言的處理方式,利用概率論和數(shù)理統(tǒng)計(jì)的方式可以很好的解決語(yǔ)言管理方面的一系列問(wèn)題。在今后的研究中,可根據(jù)語(yǔ)言處理包的不同,對(duì)語(yǔ)義進(jìn)行劃分,并將劃分歸納的方式進(jìn)一步統(tǒng)一,形成文字間固有的處理方式,提高自然語(yǔ)言的處理模式效率。
參考文獻(xiàn)
[1]夏天,樊孝忠,劉林. 利用 JNI 實(shí)現(xiàn) ICTCLAS 系統(tǒng)的 Java 調(diào)用.計(jì)算機(jī)應(yīng)用, 2004(24):177-182.
[2]張宗仁.基于自然語(yǔ)言理解的本體語(yǔ)義信息檢索. 廣州:暨南大學(xué),2011
[3]徐力斌基于 WordNet 和自然語(yǔ)言處理技術(shù)的半自動(dòng)領(lǐng)域本體構(gòu)建計(jì)算機(jī)科學(xué),2007(34):219-222
[4]BIBERD,CONRAD S,REPPEN R. Corpus linguistics: investigating language structure and use[M]. Cambridge: Cambridge University Press,1998.
[5]BIRD S,KLEIN E,LOPER E. Natural language processing with python[M].New York: O'Reilly Media Press,2009.
[6]PERKINS J.Python text processing with NLTK2.0 cookbook: Lite edition[M].Birmingham: Packt Publishing Ltd,2011.
作者簡(jiǎn)介:翁宇旋(1987.09-),男,本科,主要研究方向:自然語(yǔ)言處理研究。