【摘" 要】 隨著信息技術(shù)的飛速發(fā)展,各類信息技術(shù)及應(yīng)用軟件層出不窮,越來(lái)越多的人開(kāi)始利用電腦進(jìn)行工作。但由于沒(méi)有專門的計(jì)算機(jī)技術(shù),一般人很難和這個(gè)系統(tǒng)進(jìn)行互動(dòng)并得到一些有用的信息。近年來(lái),人們對(duì)信息技術(shù)進(jìn)行大量的理論和實(shí)驗(yàn)研究,并對(duì)其進(jìn)行深入的探討。本文探討了基于機(jī)器學(xué)習(xí)的自然語(yǔ)言分析方法。針對(duì)該問(wèn)題,本項(xiàng)目擬研究一種新的詞嵌入向量構(gòu)建方法,將現(xiàn)有詞匯矢量與現(xiàn)有詞嵌入向量集進(jìn)行整合,從而得到一個(gè)更好的詞嵌入向量集。
【關(guān)鍵詞】 機(jī)器學(xué)習(xí);自然語(yǔ)言處理;傳輸技術(shù)
隨著信息技術(shù)的飛速發(fā)展,其已經(jīng)能夠?qū)①Y料以不同的方式上傳、傳遞與利用。據(jù)微博2022年用戶發(fā)展報(bào)告統(tǒng)計(jì),2022年總營(yíng)收18.36億,而目前的9月,月活躍用戶數(shù)為5.84億、日均活躍用戶數(shù)為2.53億。這樣便捷的信息交流與分享方式,正在為人類的生存帶來(lái)一場(chǎng)革命。比如人們可以在家上網(wǎng)學(xué)習(xí),或者在網(wǎng)上進(jìn)行遠(yuǎn)距離工作和購(gòu)物。但是,由于缺少專門的計(jì)算機(jī)技術(shù),一般人很難和這個(gè)系統(tǒng)進(jìn)行互動(dòng),從而得到一些有用的信息。而且,在現(xiàn)實(shí)生活中,許多問(wèn)題并不是單純地統(tǒng)計(jì)運(yùn)算就能得到解答的,因此,對(duì)數(shù)據(jù)的分析與處理提出了更高的要求。近年來(lái),人們對(duì)計(jì)算機(jī)技術(shù)進(jìn)行大量的理論和實(shí)驗(yàn)研究,并對(duì)其進(jìn)行深入探討。為了適應(yīng)人類對(duì)自然語(yǔ)言理解的要求,各種新的方法被提出。
一、研究意義
(一)詞嵌入學(xué)習(xí)
詞嵌入技術(shù)在名稱實(shí)體識(shí)別、詞性標(biāo)、信息檢索和文本分類等多個(gè)自然語(yǔ)言處理領(lǐng)域具有非常重要的應(yīng)用前景,已有的研究主要基于大規(guī)模語(yǔ)料中單詞的空間分布,通過(guò)訓(xùn)練獲得單詞內(nèi)嵌的向量集合。例如,從谷歌新聞?wù)Z料中進(jìn)行學(xué)習(xí),獲得word2Vec向量集,從維基百科(Wikipedia Body)和英語(yǔ) Gigaword (英語(yǔ))語(yǔ)料中進(jìn)行學(xué)習(xí),獲得Glo Ve (Glo Ve)向量集,基于魯特英語(yǔ)新聞數(shù)據(jù)庫(kù),Mnih等通過(guò)對(duì)HLBL向量集合進(jìn)行學(xué)習(xí)而獲得。通過(guò)對(duì)不同神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,通過(guò)對(duì)向量集的分析,可以獲得對(duì)詞匯特征的不同刻畫(huà),從而對(duì)詞匯特征進(jìn)行分類。因而,充分發(fā)揮詞向量集合間的互補(bǔ)作用,實(shí)現(xiàn)對(duì)詞向量集合的一體化學(xué)習(xí)成為可能,也是必然的。
(二)英語(yǔ)學(xué)習(xí)系統(tǒng)中的個(gè)性化推薦方法
隨著計(jì)算機(jī)技術(shù)的發(fā)展以及互聯(lián)網(wǎng)的普及,使在線教學(xué)成為可能。隨著在線教學(xué)資源數(shù)量的增加,可供選擇的教學(xué)內(nèi)容越來(lái)越多。針對(duì)每一位使用者所使用的資訊,因其層次與利益之差異而有所差異。因此,如何在浩如煙海的網(wǎng)絡(luò)環(huán)境下,針對(duì)不同的使用者特征,為使用者提供適合自己的、有針對(duì)性的教學(xué)素材是有待解決的問(wèn)題。目前,推薦方法大致可以分為三大類:以內(nèi)容為基礎(chǔ)的推薦、協(xié)同過(guò)濾的推薦、復(fù)合的推薦。在此基礎(chǔ)上,提出一種新的面向?qū)ο蟮膫€(gè)性化推薦算法。本文研究基于用戶個(gè)性化的在線課程推薦算法,以提供一種針對(duì)學(xué)生個(gè)體需要而制訂個(gè)體化電子課程的適應(yīng)性產(chǎn)生方法,并利用協(xié)作篩選技術(shù),通過(guò)對(duì)相同用戶的使用習(xí)慣進(jìn)行有效資源推薦,提出一種基于社會(huì)網(wǎng)絡(luò)中朋友信息的推薦方法,這兩種方法結(jié)合在一起。同時(shí),在個(gè)人興趣、人際興趣相似性和人際影響力的基礎(chǔ)上,給出一種基于個(gè)人興趣、人際興趣相似性和人際影響力的個(gè)性化推薦算法。
二、國(guó)內(nèi)外研究現(xiàn)狀
(一)詞表示技術(shù)現(xiàn)狀
自然語(yǔ)言與符號(hào)有著緊密的聯(lián)系,一句話是由許多字的符號(hào)構(gòu)成的,一段文字或?qū)υ捯彩怯稍S多字的符號(hào)構(gòu)成的。所以,對(duì)自然語(yǔ)言的理解就建立在對(duì)這些標(biāo)志的認(rèn)識(shí)之上。在傳統(tǒng)的計(jì)算語(yǔ)言學(xué)中,研究人員采用的是本地表達(dá),這個(gè)辦法用非常稀疏的高維向量來(lái)表達(dá)一個(gè)符號(hào)。這個(gè)向量的尺寸與這個(gè)系統(tǒng)的數(shù)目相等,一般為幾十萬(wàn)或幾百萬(wàn)個(gè)。對(duì)于一群正負(fù)號(hào)D,一個(gè)本地代表把正負(fù)號(hào)D內(nèi)的正負(fù)號(hào)對(duì)應(yīng)成一個(gè)正負(fù)號(hào)Rn內(nèi)的正負(fù)號(hào) ei,這里n為正負(fù)號(hào)的正負(fù)號(hào)。所以,i個(gè)單元矢量代表i個(gè)正負(fù)號(hào)。而局部表示法則是對(duì)這些符號(hào)進(jìn)行變換的一種十分直觀和便利的方法,但是,隨著字符個(gè)數(shù)的增加,區(qū)域表達(dá)的有效性會(huì)降低。同時(shí),這種本地化表達(dá)方式也不能很好地表達(dá)出符號(hào)間的關(guān)系。與局域表達(dá)法相比,分布式表達(dá)法是在測(cè)度空間上用密集的向量來(lái)表達(dá)符號(hào)。分散表現(xiàn)的信息以多個(gè)要素的形式分配,其中的每一個(gè)要素都對(duì)總體的信息作出貢獻(xiàn)。與傳統(tǒng)的局域表達(dá)相比,分布式表達(dá)更具優(yōu)勢(shì),即更加高效,能夠充分反映測(cè)度空間中各要素之間的差異。目前,針對(duì)大規(guī)模文本數(shù)據(jù),提出三種新的詞匯內(nèi)嵌算法:矩陣化算法、帶窗算法、整體對(duì)數(shù)—回歸算法。矩陣分解法通過(guò)對(duì)數(shù)據(jù)進(jìn)行低秩逼近,對(duì)數(shù)據(jù)進(jìn)行有效的降維處理,以獲取數(shù)據(jù)中的數(shù)據(jù)。該研究可分為兩類:一類是基于隱語(yǔ)義的語(yǔ)義解析,另一類是基于超空間的仿真語(yǔ)言。該算法采用“詞—文件”的模式,每行都有一個(gè)詞或者一個(gè)詞,每個(gè)欄都有一個(gè)詞。與此相反,超空間模擬語(yǔ)言采用“詞—詞(term-term)”類型的矩陣,也就是行和列與一個(gè)給定詞語(yǔ)和另一個(gè)給定詞語(yǔ)出現(xiàn)在同一情境中的次數(shù)相對(duì)應(yīng)。基于隱語(yǔ)義的研究以及基于跨空間的語(yǔ)言關(guān)聯(lián)研究,存在著一些高頻詞匯所包含的信息不多等問(wèn)題。舉例來(lái)說(shuō),“the”這個(gè)詞與“and”這個(gè)詞經(jīng)常同時(shí)使用,但它們之間沒(méi)有任何聯(lián)系。
(二)在線學(xué)習(xí)中的推薦技術(shù)現(xiàn)狀
按照推薦方式,推薦系統(tǒng)主要有三種類型:基于內(nèi)容的推薦方法、協(xié)作過(guò)濾方法和混合方法。在此基礎(chǔ)上,提出一種新的智能產(chǎn)品推薦算法。如利用神經(jīng)網(wǎng)絡(luò)對(duì)參考文獻(xiàn)進(jìn)行推薦,按照使用者的需要建議該內(nèi)容。比如提供一種卷積神經(jīng)網(wǎng)絡(luò)(current negative model)模型,其用于識(shí)別目標(biāo)用戶的消費(fèi)意向。在社會(huì)網(wǎng)絡(luò)中建立一個(gè)以用戶之間的聯(lián)系為基礎(chǔ)的推薦系統(tǒng)。該復(fù)合式建議系統(tǒng)綜合以上兩項(xiàng)技術(shù),如提出一種將個(gè)人興趣、好友興趣相似度和人際影響力等因素綜合起來(lái)的個(gè)性化推薦系統(tǒng)。按照建議的內(nèi)容,網(wǎng)上的教育建議體系主要有:閱讀資料建議、單詞建議等。在知識(shí)工程的基礎(chǔ)上,提出一種以讀者的個(gè)人喜好和能力為讀者推薦閱讀資料的方法。在這一點(diǎn)上,還給出一種個(gè)體化的手機(jī)閱讀資料的推薦方式,這種方式是將使用者的閱讀喜好進(jìn)行采集,然后在手機(jī)上向使用者提供與使用者的喜好和能力相一致的閱讀資料。
三、基于詞嵌入向量集和語(yǔ)義知識(shí)庫(kù)的集成學(xué)習(xí)方法
(一)集成詞嵌入學(xué)習(xí)方法
正如前面提到的,不管是整合多個(gè)詞嵌入向量集合,還是引入附加的語(yǔ)義知識(shí)庫(kù),都能夠充分發(fā)揮不同的詞語(yǔ)嵌入向量集合的優(yōu)勢(shì),從而產(chǎn)生出更高的詞嵌入向量集合。在本節(jié)中,將引入一種綜合模式 EGM,可以將多個(gè)字內(nèi)嵌向量集合與一個(gè)意義知識(shí)基結(jié)合起來(lái)。本項(xiàng)目提出的融合算法要求:在融合空間中,目前單詞在融合空間中的詞矢量盡量接近該單詞在融合空間中的詞向量。在整合空間中,當(dāng)前單詞與該單詞在該知識(shí)基中有著類似情境的單詞與單詞矢量類似。在此,單詞的背景是單詞與其在一個(gè)意義上的知識(shí)基礎(chǔ)有聯(lián)系的單詞。本文對(duì)詞嵌入向量集及詞匯間的關(guān)聯(lián)進(jìn)行了初步研究。在此基礎(chǔ)上,提出從詞嵌入向量集中提取詞匯的方法,同時(shí)提出一種基于 EGM的綜合模式學(xué)習(xí)算法(如圖1)。
(二)實(shí)驗(yàn)所用數(shù)據(jù)集
這一部分將描述該整合模式所需的資料組,其中包含兩個(gè)部分,分別為詞嵌入向量集與字語(yǔ)義關(guān)系知識(shí)庫(kù)。其中,提出的詞嵌入向量集:該模式采用的開(kāi)放來(lái)源單詞內(nèi)嵌向量集合有HLBL18、GloVel17。HLBL向量集的一個(gè)訓(xùn)練模式是一個(gè)具有一定概率的線性神經(jīng)網(wǎng)絡(luò)模式,該算法給出一個(gè)ngram,然后根據(jù)n-1個(gè)字的詞向量來(lái)預(yù)測(cè)后面一個(gè)字的詞向量。在此基礎(chǔ)上,將所預(yù)測(cè)的詞語(yǔ)與目前的真實(shí)詞語(yǔ)間的相似度轉(zhuǎn)化為一種可能性。共有246122個(gè)單詞,每一個(gè)單詞有100個(gè)單詞,一個(gè)單詞的單詞矢量為RCV1(Renters英語(yǔ)新聞1996.081997.08)作為一個(gè)訓(xùn)練詞匯。本文提出一種新的詞嵌入向量集的訓(xùn)練方法,即將詞嵌入向量集的局部與整體特性結(jié)合起來(lái)形成詞匯矢量的神經(jīng)網(wǎng)絡(luò)模型。在此基礎(chǔ)上,提出一種基于焦點(diǎn)詞及其語(yǔ)境的分類方法,并將其分類為一分,將焦點(diǎn)詞及其語(yǔ)境的分類方法轉(zhuǎn)化為一分,最終的總得分是兩項(xiàng)得分之和。
四、基于樹(shù)匹配的語(yǔ)法問(wèn)題檢索方法
(一)語(yǔ)法MCQ檢索問(wèn)題分析
題目由一題干組成,四道選擇題,其中只能選擇一道題的正確答案。在題目中,用“*”標(biāo)記出空白區(qū)域,即必須填寫(xiě)的地方。舉例來(lái)說(shuō),在Qi的題目主語(yǔ)是“The w ai tess* we thougltdeservres aS ervice Qualityawad has esignel.”而A項(xiàng)中的“wlom”才是Qn的正確選擇。問(wèn):“ whon?”是什么意思?將題目后面的話補(bǔ)全,使之成為“The w aitres wlomwe thought deserves a Service Quality aw and has les igned.”本文提出的基于文法的MCQ檢索方法,可提供兩種形式的MCQ,即不完備的和完備的。本文提出的文法MCQ搜索方法,旨在尋找與其所要搜索的MCQ有類似文法知識(shí)的文法問(wèn)題。
(二)語(yǔ)法問(wèn)題檢索系統(tǒng)框架
這一章提供兩個(gè)MCQ的形式:僅有題目;包括題目、選項(xiàng)和正確答案。在未完成的情況下,基于 MCQ問(wèn)題的題目干,產(chǎn)生一個(gè)新的parekey樹(shù)。在此基礎(chǔ)上,提出一種基于POS分類的聚類算法,并采用基于模糊聚類算法的聚類算法(如圖2)。最終,利用聚類分析方法對(duì) MCQ進(jìn)行分類。若使用者填寫(xiě)全部問(wèn)題,則會(huì)依據(jù)所提供之信息,以提升搜尋的精確性。首先,在產(chǎn)生parse-hey前,把正確的答案填充到題目中,使它成為一句話。接著,一個(gè)完全的查詢就會(huì)在此全句的基礎(chǔ)上產(chǎn)生一個(gè)關(guān)鍵字。在此基礎(chǔ)上,對(duì)兩種不同類型的問(wèn)題進(jìn)行回答相似度分析,其中回答相似度包括單詞嵌入相似度、單詞類型相似度以及文字相似度。
(三)parse-key 樹(shù)的構(gòu)建
人們發(fā)現(xiàn)現(xiàn)有的樹(shù)構(gòu)建無(wú)法表達(dá)文法 MCQ中的文法知識(shí)要點(diǎn),為此,本文給出一種新的基于parse-key樹(shù)的構(gòu)建方法。所提出的包括一個(gè)文法樹(shù)的一個(gè)子樹(shù)和一個(gè)位置信息。與完整的句法樹(shù)比較,采用子樹(shù)形的句法樹(shù)可以有效降低噪音的干擾,同時(shí),保持句法樹(shù)所要求的句法樹(shù)的特點(diǎn)。根據(jù)題目中的空白對(duì)文法的理解程度有很大影響,把空白的空間位置信息嵌入到“子樹(shù)形”中。在討論如何構(gòu)造parse-key樹(shù)以前,要先來(lái)看一下構(gòu)造parse-key樹(shù)需要的兩個(gè)要素:文法樹(shù)和單詞空白距離。另外,匹配算法。在前一部分,討論如何構(gòu)造parse-key樹(shù)的構(gòu)建。在 MCQ中,采用pars-key樹(shù)的構(gòu)建表達(dá)文法中的知識(shí)要點(diǎn)。在本節(jié)中,將給出兩個(gè)用于計(jì)算parse-key樹(shù)間的結(jié)構(gòu)相似性與順序相似性的核子——模糊樹(shù)與 POS排序核子。
五、結(jié)語(yǔ)
總之,本文著重對(duì)機(jī)器學(xué)習(xí)進(jìn)行探討,在NLP領(lǐng)域,本項(xiàng)目將研究一種新的基于整合詞匯的語(yǔ)義表達(dá)方法,并將其推廣至多個(gè)NLP領(lǐng)域。同時(shí),在自然語(yǔ)言信息傳遞方面,本項(xiàng)目將研究利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行信息傳遞的方法,并從多個(gè)角度對(duì)天然信息處理中的問(wèn)題進(jìn)行深入探討。今后,還會(huì)有更多的研究。在此基礎(chǔ)上,通過(guò)分析不同類型的文本、句法等文本中所蘊(yùn)含的語(yǔ)義、語(yǔ)義等特點(diǎn),設(shè)計(jì)具有較強(qiáng)魯棒性的文本自動(dòng)生成算法。在未來(lái)研究中,還可以結(jié)合自然語(yǔ)言自身的特點(diǎn),設(shè)計(jì)更具針對(duì)性的傳輸模型。
參考文獻(xiàn):
[1] 葉莉莉,陳亞盛. 基于自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的長(zhǎng)期股權(quán)投資分類模型[J]. 管理會(huì)計(jì)研究,2022(05):12-19.
[2] 王思麗,劉巍,楊恒,等. 基于自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取方法研究[J]. 圖書(shū)館學(xué)研究,2021(18):39-48.
[3] 濮澤堃. 基于機(jī)器學(xué)習(xí)的電商評(píng)論情感分析系統(tǒng)[D]. 南京:南京郵電大學(xué),2020.
[4] 楊夕. 基于融合學(xué)習(xí)模型的文本描述刑事犯罪行為自動(dòng)分類的研究[D]. 南寧:廣西師范大學(xué),2020.