劉佳玲
摘 要:筆者在調(diào)查之后發(fā)現(xiàn),我國(guó)語(yǔ)言研究人員在對(duì)聚類分析研究?jī)?nèi),研究并不深入,同時(shí)也并不了解聚類分析實(shí)際應(yīng)用情況。本文在對(duì)聚類分析研究?jī)?nèi),對(duì)聚類分析在外國(guó)語(yǔ)言學(xué)研究中的應(yīng)用進(jìn)行了解,希望能夠?qū)垲惙治錾钊敕治鲅芯?。聚類分析屬于統(tǒng)計(jì)分析技術(shù),同時(shí)具有研究方法意義,可以對(duì)數(shù)據(jù)驅(qū)動(dòng)形式深入了解,尤其是特別強(qiáng)調(diào)聚類分析在語(yǔ)言分析研究?jī)?nèi)主要手段。
關(guān)鍵詞:聚類分析;語(yǔ)料庫(kù);外國(guó)語(yǔ)言研究
前言:聚類分析也稱之為數(shù)值分類學(xué),屬于統(tǒng)計(jì)分類領(lǐng)域內(nèi)主要技術(shù)。聚類分析在人工學(xué)及社會(huì)學(xué)等領(lǐng)域內(nèi)廣泛應(yīng)用,并且都取得了顯著應(yīng)用成果。在語(yǔ)言學(xué)分析研究?jī)?nèi),語(yǔ)言分類依舊存在較多問(wèn)題,但是語(yǔ)言研究人員主要采取定性方法進(jìn)行劃分,很少借助計(jì)量手段進(jìn)行劃分。根據(jù)現(xiàn)階段研究人員調(diào)查結(jié)果表示,我國(guó)語(yǔ)言類研究人員很少借助聚類分析對(duì)統(tǒng)計(jì)方式分析研究,聚類分析在外國(guó)語(yǔ)言學(xué)研究?jī)?nèi)應(yīng)用還存在一定局限性,需要進(jìn)一步分析研究。
一、聚類分析
聚類分析定義為:在沒(méi)有類別標(biāo)記信息對(duì)象所構(gòu)成的集合內(nèi),每一個(gè)信息對(duì)象都具有n個(gè)屬性或者是特點(diǎn)。聚類分析按照集合內(nèi)不同信息對(duì)象所具有的算法將信息對(duì)象自動(dòng)進(jìn)行類別劃分,同時(shí)每個(gè)類別都可以自動(dòng)識(shí)別,最大程度保證每一個(gè)組別內(nèi)信息對(duì)象都具有較高同質(zhì)性,與其他類別之間存在較大異質(zhì)性。
正常情況下,語(yǔ)言學(xué)家在對(duì)對(duì)象劃分內(nèi),按照指標(biāo)對(duì)信息對(duì)象進(jìn)行定性類別劃分。但是在面對(duì)大量指標(biāo)情況下,尤其是定比數(shù)量指標(biāo)定距數(shù)量指標(biāo),這種類別劃分也就無(wú)法劃分。在這種情況下,就可以借助聚類分析進(jìn)行類別劃分。通過(guò)信息對(duì)象特征向量,對(duì)每一個(gè)信息對(duì)象標(biāo)記,然后對(duì)其信息對(duì)象進(jìn)行聚類劃分。聚類分析可以對(duì)數(shù)據(jù)結(jié)構(gòu)及模式了解,認(rèn)識(shí)到不同變量之間所存在的關(guān)聯(lián)。聚類分析所具有的算法類別較多,同時(shí)新型聚類方式也在不斷進(jìn)行完善創(chuàng)新。按照筆者調(diào)查統(tǒng)計(jì),聚類分析在外國(guó)語(yǔ)言學(xué)研究?jī)?nèi)應(yīng)用,應(yīng)用最為廣泛的一種方法為聚合型層次聚類法[1]。
二、聚類分析在外國(guó)語(yǔ)言學(xué)應(yīng)用現(xiàn)狀
本文在對(duì)聚類分析在外國(guó)語(yǔ)言學(xué)研究中應(yīng)用現(xiàn)狀分析研究?jī)?nèi),主要對(duì)聚類分析在我國(guó)王國(guó)語(yǔ)言學(xué)研究?jī)?nèi)應(yīng)用總體情況進(jìn)行了解。在對(duì)該內(nèi)容進(jìn)行解答內(nèi),筆者查閱了大量社科文獻(xiàn),其中還包含外文文獻(xiàn)。筆者在對(duì)不同類別文獻(xiàn)類型劃分內(nèi),以聚類作為搜索核心,可以看見聚類在不同學(xué)科內(nèi)所具有的數(shù)量。這些數(shù)字可以有效體現(xiàn)出聚類分析在不同學(xué)科內(nèi)應(yīng)用頻率。
聚類分析在不同學(xué)習(xí)可搜索內(nèi),相關(guān)文獻(xiàn)篇數(shù)最多的為中國(guó)文學(xué),文獻(xiàn)篇數(shù)為192,其中包含聚類一詞文獻(xiàn)篇數(shù)為20篇;第二名為中國(guó)語(yǔ)言文學(xué),文獻(xiàn)篇數(shù)為1131,其中包含聚類一詞文獻(xiàn)篇數(shù)為142;第三名為外國(guó)語(yǔ)言文學(xué),文獻(xiàn)篇數(shù)為571,其中包含聚類一詞文獻(xiàn)篇數(shù)為73[2].
三、聚類分析在語(yǔ)言研究中的應(yīng)用領(lǐng)域
聚類分析在語(yǔ)言領(lǐng)域研究?jī)?nèi)應(yīng)用,主要應(yīng)用在三個(gè)方面上,分別為語(yǔ)義、句法型式、認(rèn)知語(yǔ)言。正常情況下,聚類分析在應(yīng)用內(nèi)需要和語(yǔ)料庫(kù)數(shù)據(jù)相結(jié)合。
(一)詞匯語(yǔ)義學(xué)
在語(yǔ)言學(xué)內(nèi)存在這樣一個(gè)假設(shè):假設(shè)語(yǔ)言項(xiàng)目?jī)?nèi)語(yǔ)境分布情況可以有效體現(xiàn)出該語(yǔ)言項(xiàng)目特征。語(yǔ)言成分可以有效體現(xiàn)出語(yǔ)言成分,并且體現(xiàn)出語(yǔ)言成分所存在的限制。語(yǔ)料庫(kù)在實(shí)際應(yīng)用內(nèi),可以為語(yǔ)言項(xiàng)目提供環(huán)境信息,例如語(yǔ)言出現(xiàn)頻率。按照語(yǔ)料庫(kù)所提出的特點(diǎn)信息,聚類分析在詞匯語(yǔ)義學(xué)內(nèi)應(yīng)用,可以客觀對(duì)詞匯反義詞及近義詞實(shí)際用法及意義進(jìn)行對(duì)比分析。例如,gries在分析研究?jī)?nèi)就提出,聚類方法在詞匯行為輪廓上應(yīng)用,可以對(duì)詞匯深入分析研究[3]。
(二)句法型式研究
人們可以借助聚類分析對(duì)語(yǔ)料庫(kù)內(nèi)所具有的句法結(jié)構(gòu)進(jìn)行類別劃分,進(jìn)而增加對(duì)句法深入分析研究。例如,在對(duì)語(yǔ)料庫(kù)內(nèi)部分單詞進(jìn)行搜索內(nèi),就可以借助聚類分析方法進(jìn)行識(shí)別提取,進(jìn)而了解到該詞匯句法行為,對(duì)詞匯進(jìn)行系統(tǒng)并且全面了解。借助聚類分析方式,可以對(duì)詞匯句法深入分析研究,編制詞典,并且也能夠提升外語(yǔ)教學(xué)質(zhì)量。
型式主要由三部分短語(yǔ)單位構(gòu)成,分別為名詞、動(dòng)詞、足語(yǔ),例如,v表示短語(yǔ)單位核心詞,into表示短語(yǔ)單位實(shí)際詞項(xiàng),n表示短語(yǔ)單位名詞。對(duì)型式語(yǔ)法進(jìn)行分析研究,主要目的就是希望可以對(duì)不同詞類所具有的型式抽象化歸納了解。
(三)語(yǔ)言文體變異研究
在整個(gè)語(yǔ)言文章內(nèi),包含較多語(yǔ)言結(jié)構(gòu)單位,進(jìn)而在對(duì)特征統(tǒng)計(jì)。語(yǔ)言具有多種統(tǒng)計(jì)特征,例如句長(zhǎng)、型符類符比、詞性比例等。在大部分實(shí)證分析研究?jī)?nèi),可以對(duì)不同語(yǔ)言特點(diǎn)在文章內(nèi)所存在的變化進(jìn)行里了解。文章在文體、題材、語(yǔ)言風(fēng)格等方面所存在的差別,就會(huì)構(gòu)成不同語(yǔ)言結(jié)構(gòu)單位。不同特征頻率所發(fā)生的變化,進(jìn)而構(gòu)成了風(fēng)格十分迥異語(yǔ)篇風(fēng)格,奠定文體基礎(chǔ)結(jié)構(gòu)特征。在對(duì)文體特點(diǎn)進(jìn)行統(tǒng)計(jì)分析內(nèi),在1851年由數(shù)學(xué)家mor所提出,并且對(duì)其大膽創(chuàng)新[4]。
四、聚類分析優(yōu)勢(shì)
聚類分析在應(yīng)用內(nèi)最為顯著優(yōu)勢(shì)就是可以定量對(duì)信息對(duì)象客觀認(rèn)知,了解不同信息對(duì)象可重復(fù)性。聚類分析在開展中,是以真實(shí)數(shù)據(jù)作為基礎(chǔ)條件,也就是說(shuō)聚類分析結(jié)果具有客觀性,但是這并不表示可以完全排除主觀因素影響。聚類分析在三個(gè)方面上還存在一定主觀性,分別為計(jì)算方式、算法選擇、聚類數(shù)值特點(diǎn)。但是,聚類分析所應(yīng)用的數(shù)據(jù)指標(biāo)在人為設(shè)定之后,聚類分析也就具有可檢驗(yàn)特征,為聚類分析結(jié)果精確性進(jìn)行判斷[5]。
從主觀定位層面來(lái)說(shuō),聚類分析方法所具有的重復(fù)性相對(duì)較低,主要原因是由于不同專家在總結(jié)經(jīng)驗(yàn)及理論素養(yǎng)等方面存在顯著差別,無(wú)法對(duì)其復(fù)制,進(jìn)而所得出的結(jié)果還存在顯著差別。總所周知,科學(xué)研究是以可重復(fù)性及客觀性作為基礎(chǔ)特征及要求,因此聚類分析在應(yīng)用內(nèi)具有一定科學(xué)性。
五、聚類分析在外國(guó)語(yǔ)言學(xué)研究發(fā)展前景
二十一世紀(jì)作為大數(shù)據(jù)時(shí)代,語(yǔ)料庫(kù)所具有的數(shù)據(jù)信息更加豐富,聚類分析也越加完善成熟。截止到目前位置,大部分語(yǔ)言方面研究人員都語(yǔ)言數(shù)據(jù)深入分析研究,逐漸將研究重點(diǎn)放在語(yǔ)言用法數(shù)據(jù)上面。研究人員研究表示,語(yǔ)言直覺(jué)語(yǔ)言數(shù)據(jù)信息穩(wěn)定性十分有限,但是要是借助語(yǔ)言用法數(shù)據(jù),語(yǔ)言研究穩(wěn)定性可以顯著提升,有效提升語(yǔ)言研究生態(tài)效應(yīng)。由此可知,聚類分析在外國(guó)語(yǔ)言學(xué)研究應(yīng)用分析研究?jī)?nèi),需要借助大規(guī)模語(yǔ)言數(shù)據(jù)對(duì)語(yǔ)言知識(shí)知識(shí)挖掘,龐大語(yǔ)言數(shù)據(jù)無(wú)法通過(guò)人工方式處理。聚類分析就是語(yǔ)言數(shù)據(jù)深入分析研究主要手段。外國(guó)語(yǔ)言研究人員需要對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行了解,尤其是聚類分析,進(jìn)而才能夠?qū)φZ(yǔ)言深入分析研究[6]。
結(jié)論:聚類分析作為語(yǔ)言研究主要工具,需要與語(yǔ)料庫(kù)語(yǔ)言緊密結(jié)合。本文在分析研究?jī)?nèi)發(fā)現(xiàn),外國(guó)語(yǔ)言學(xué)研究人員對(duì)聚類分析了解十分有限,并無(wú)法實(shí)際應(yīng)用,聚類分析由于具有較多優(yōu)勢(shì),所以在聚類分析在外國(guó)語(yǔ)言學(xué)研究?jī)?nèi)應(yīng)用還需要進(jìn)一步完善,充分發(fā)揮出聚類分析優(yōu)勢(shì)。
參考文獻(xiàn):
[1]周光華,李岳峰,孟群.模糊聚類分析在醫(yī)學(xué)圖像處理中的應(yīng)用[J].中國(guó)衛(wèi)生信息管理雜志,2011,04:69-73.
[2]朱永寬,谷涓涓.自適應(yīng)遺傳算法在聚類分析中的應(yīng)用[J].黑龍江科技信息,2010,25:52-53.
[3]岳鑫鑫.認(rèn)知語(yǔ)言學(xué)在語(yǔ)篇分析中的應(yīng)用[J].黑龍江科技信息,2012,33:201.
[4]居祥,張燕,黃賢金.聚類分析在長(zhǎng)江流域地區(qū)房地產(chǎn)價(jià)格研究中的應(yīng)用[J].經(jīng)濟(jì)地理,2013,03:79-83.
[5]張麗霞.反思性教學(xué)在外國(guó)語(yǔ)言學(xué)課程改革中的應(yīng)用研究[J].亞太教育,2016,35:238+237.
[6]屈家安,曹杰.主成分分析與聚類分析在青島夏季氣溫變化研究中的應(yīng)用[J].大氣科學(xué)學(xué)報(bào),2014,04:517-520.