• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于K均值聚類的壯語潛在使用者分析

    2020-04-29 09:23:00賀梓涵許靜王智文
    魅力中國 2020年49期

    賀梓涵 許靜 王智文

    (廣西科技大學,廣西 柳州 545001)

    語言具有非常重要的經(jīng)濟價值,各個學界對語言經(jīng)濟關注最多的就是像英語、漢語這樣的通用語言,不過,在我國這個56個民族共同發(fā)展的國家,中華文化博大精深,但是國內(nèi)目前對少數(shù)民族語言的關注還是甚少。開發(fā)和研究少數(shù)民族語言的經(jīng)濟價值是社會文化和區(qū)域經(jīng)濟發(fā)展的需要,目前國內(nèi)的一些學者對語言資源和語言經(jīng)濟的研究也取得了一系列的研究成果。李現(xiàn)樂、劉芳在《開發(fā)少數(shù)民族語言經(jīng)濟價值的意義與途徑》中,從語言生活、語言權(quán)利和語言問題等多個角度研究分析了開發(fā)少數(shù)民族語言的意義,不僅僅只包含了經(jīng)濟意義,該文章以少數(shù)民族地區(qū)旅游業(yè)為例,研究分析了少數(shù)民族語言在民族地區(qū)旅游業(yè)發(fā)展過程中所遇到的挑戰(zhàn)和機遇,提出了開發(fā)少數(shù)民族語言經(jīng)濟的諸多途徑。張靜的《漢語作為第二語言需求研究的語言經(jīng)濟及規(guī)劃意義分析》在語言經(jīng)濟理論和需求分析理論指導下,具體探討了漢語作為第二語言的語言需求分析研究在擴大漢語需求、促進語言消費與就業(yè)、帶動漢語文化產(chǎn)業(yè)、發(fā)展語言經(jīng)濟以及制定國家語言政策等方面的重要意義。

    廣西壯族自治區(qū)地理位置優(yōu)越,南邊臨近北部灣,與東南亞相通,西南方向毗鄰越南,東鄰粵、港、澳地區(qū),北連我國華中地區(qū)。廣西壯族自治區(qū)是我國西南地區(qū)最方便快捷的一個出海通道,廣西在我國與東南亞的經(jīng)濟交流中占著非常重要的比例。而壯語作為我國跨境語言之一,壯語與泰語、老撾語、緬甸語等語言有很多相似的地方,由于歷史文化傳統(tǒng)有著共同的來源,這也是廣西壯族自治區(qū)域與東南亞國家之間溝通更容易的原因,所以說壯語這門語言是具有不可替代的理論意義和經(jīng)濟價值。通過對壯語的研究,可以全面地掌握廣西地區(qū)壯語的使用情況和流傳現(xiàn)狀,有助于對于壯語幾乎失傳現(xiàn)狀做出一些改變。壯語作為跨境語言,完全可能在未來的社會和經(jīng)濟發(fā)展中起到至關重要的紐帶作用。針對壯語逐漸失傳的現(xiàn)狀,本文將通過一系列調(diào)查分析,尋找最可行的壯語開發(fā)與傳承的方式。

    一、壯語潛在用戶的聚類分析

    (一)k-means算法簡介

    k-means算法是一種聚類算法,即根據(jù)相似性原則,將具有較高相似度的數(shù)據(jù)對象劃分至同一類簇,將具有較高相異度的數(shù)據(jù)對象劃分至不同類簇?!邦悺保櫭剂x指的是具有一定相似性的集合,聚類過程是將數(shù)據(jù)集劃分為若干類,使得各個類之內(nèi)的數(shù)據(jù)具有極高的相似度,而類與類之間的相似度盡可能地低,類與類之間的差別大。

    K-Means算法是聚類算法的一種,它屬于迭代型算法,該算法的相似指標選取為距離,通常采用歐氏距離,數(shù)據(jù)集中的K個類先給定,聚類之后的每一個類有一個中心,每個類中所有數(shù)據(jù)的均值就是這個中心,稱為聚類中心。簡言之,先給定的一個數(shù)據(jù)集X以及目標聚類的類別個數(shù)K,似指標本文選取歐氏距離來計算相似度,聚類目標為最小化,也就意味著實施的K個類的聚類平方和最小。k-means算法以距離作為數(shù)據(jù)對象間相似性度量的標準,通常采用歐氏距離來計算數(shù)據(jù)對象間的距離,可以用式(1)來計算歐氏距離。

    其中,K表示數(shù)據(jù)對象的屬性個數(shù)。

    k-means算法聚類過程中,每次迭代對應的類簇中心需要重新計算。對應類簇中所有數(shù)據(jù)對象的均值,即為更新后該類簇的類簇中心。定義第k個類簇的類簇中心為Centerk,則類簇中心可以用式(2)來計算。

    其中,Ck表示第k個類簇,|Ck|表示第k個類簇中數(shù)據(jù)對象的個數(shù),求和是指類簇Ck中所有元素在每列屬性上的和,因此,Centerk也是一個含有K個屬性的向量,表示為CenterK=(Centerk,1,Centerk,2,...,Centerk,K)。

    k-means算法需要不斷地通過迭代來重新劃分類簇,并更新類簇中心。一般情況,有兩種方法來終止迭代:一種方法是設定迭代次數(shù)T,當?shù)竭_第T次迭代,則終止迭代,此時所得類簇即為最終聚類結(jié)果;另一種方法是采用誤差平方和準則函數(shù),函數(shù)模型可用式(3)來定義。

    其中,K表示類簇個數(shù)。當兩次迭代J的差值小于某一閾值時,即 ΔJ<δth時,則終止迭代,此時所得類簇即為最終聚類結(jié)果。

    (二)k-means聚類分析

    K-Means聚類屬于劃分聚類方法[6-8],在研究中將數(shù)據(jù)集分成 k個簇,并且每個簇存在一個中心,這個中心是這個簇中所有樣本點的均值,將這個中心稱為質(zhì)心,也叫聚類中心。k均值聚類算法的工作原理如下:第一步,在原始數(shù)據(jù)集中,隨機選擇k個數(shù)據(jù)點作為初始質(zhì)心,即初始聚類中心。第二步:將每個數(shù)據(jù)點劃分給距離最近的初始質(zhì)心,衡量兩個樣本數(shù)據(jù)點的距離有多種不同的方法,最常用的是歐氏距離。第三步:重新計算每個簇的質(zhì)心作為新的聚類中心,使其總的平方距離和達到最小。接下來反復執(zhí)行上述的步驟,停止的標志是看數(shù)據(jù)集是否收斂。

    (三)聚類因子的選取

    在進行聚類之前,本文研究先進行了市場調(diào)查,將所收集的322份數(shù)據(jù),經(jīng)過一系列數(shù)據(jù)預處理并通過了信度分析以及效度分析檢驗,篩選了對壯語有一定興趣的被調(diào)查用戶,保有242個有效樣本,并從調(diào)查問卷的調(diào)查項目中選取了性別、民族、年齡、壯語掌握程度、感興趣程度、參加活動意愿這六個具有代表意義的因子,由于本研究目的是對壯語感興趣潛在用戶進行研究分析,因此先選取對壯語感興趣的用戶數(shù)據(jù),篩掉對壯語不感興趣的用戶數(shù)據(jù)。

    通過調(diào)查發(fā)現(xiàn),在問卷中有五個變量(性別、年齡、民族、是否會說壯語、對壯語的興趣)與被調(diào)查者是否能夠成為壯語語言潛在使用者之間有著非常大的關聯(lián)。除此之外,根據(jù)問卷中針對壯語文化活動的問題,本文可以挖掘潛在壯語使用者參加壯語文化活動的意愿。被調(diào)查者中,對壯語感興趣,但并未參加過壯語活動且愿意參加壯語活動,那么該調(diào)查者參加壯語文化活動的意愿就越大且成為壯語潛在使用者的可能性就更大。本文將性別為女生的被調(diào)查者標注為“0”,男生則記為“1”;民族為壯族的被調(diào)查者標注為“1”,漢族的記為“2”,其他民族的被調(diào)查者則標記為“3”;年齡段分四個階段,18歲以下賦值為“1”,年齡大于十八歲小于三十的調(diào)查者標記為“2”,年齡在三十一歲到五十歲之間的被調(diào)查者標注為“3”,大于五十歲的被調(diào)查者標記為“4”;對于壯語的掌握程度可以分別表示為以下兩種情況,會說壯語標注為“1”,不會說壯語標記為“0”;對于壯語的感興趣程度可以分為三種程度,對壯語非常感興趣的被調(diào)查者標記為“2”,對壯語的感興趣程度一般的被調(diào)查者標記為“1”,對壯語不感興趣的被調(diào)查者標記為“0”,由于本文是對于壯語潛在使用者的研究,故本研究將對壯語不感興趣的被調(diào)查者并不納入分析的范圍,最后一個指標即參加壯語文化活動的相應程度,將愿意參加壯語文化活動的人賦值為“1”,不愿意參加者賦值為“0”。

    最終確定進行聚類分析的指標有以下六個:S(Sex),N(Nation),A(Age),L(Level of language proficiency),D(Degree of interest),W(Willingness to participate in activities)對應因子分別為:性別、民族、年齡、壯語掌握程度、感興趣程度、參加活動意愿。這六個指標分別用 S、N、A、L、D、W表示作為識別壯語潛在使用者的指標。

    表1 潛在壯語使用者指標含義表

    二、潛在壯語使用者聚類結(jié)果及分析

    本文采用了k均值聚類的方法,對242個有效壯語潛在使用者樣本進行群分,242個樣本聚類為四大類,這四大類中依次分別包含了136,100,5,1個樣本,具體聚類結(jié)果如下表2所示。由聚類結(jié)果ANOVA方差分析表3可知,性別這一因子的p值大于0.05所有性別S這一因子是不顯著的,因此,我們在研究被調(diào)查者對壯語文化活動的感興趣程度并挖掘潛在壯語使用者時,男女調(diào)查者的人數(shù)不均并不會對研究結(jié)果造成很大的影響。

    表2 潛在壯語使用者類型聚類中心表

    表3 ANOVA方差分析表

    據(jù)潛在壯語使用者類型聚類中心表和特征分析圖(如圖1所示)說明每個不同的壯語潛在使用者都有顯著不同的表現(xiàn)特征,基于該特征描述,本文將潛在用戶分成四個類別:重要潛在壯語活動參加者(II)、重要發(fā)展壯語使用者(III)、次要潛在壯語使用者(I)、低價值潛在壯語活動參加者(IV)。其中每種類別的特征如下:

    重要潛在壯語活動參加者(II):這類壯語使用者是第 II類潛在壯語活動參加者,是特征分析圖中為橘色線代表,性別為“0”表示為女性,民族為“1”表示該類人群為壯族人,壯語感興趣程度為“2”代表該類壯語使用者對壯語非常感興趣,綜上這類群體主要是女性,年齡在18-30歲之間,是會說壯語且長期居住在柳州的壯族人,已經(jīng)對壯語有了一定的掌握程度,并且她們對壯語很感興趣在參加壯語文化活動方面非常愿意。結(jié)合這類人的問卷分析,這一類人是非常重要的潛在壯語活動參加者,在未來最有可能參加眾多壯語文化活動的人群之一。

    重要發(fā)展壯語使用者(III):在特征分析圖中灰色圖線代表該類人群,性別為“1”表示為男性,民族為“1”表示該類人群為壯族人,年齡為“3”代表類人群年齡在31到50歲之間,壯語感興趣程度為“2”代表該類壯語使用者對壯語非常感興趣,該類壯語使用者是年齡在31-50歲之間長期居住與柳州的壯族男性,由于這類壯語使用者的家庭成員已擁有一定的壯語聽說能力,因此,這類男性自身對壯語也有一定的掌握,這類壯語使用者對壯語很感興趣,也很樂意參加壯語文化活動。針對這一人群,由于這類壯語使用者的年齡稍微偏大,更多的會關注于壯語文化活動的意義,因此,可以為這類人群可以推薦一些性價比極高的壯語文化活動。

    次要潛在壯語使用者(I):這類人群為第I類,在特征分析圖中為藍色線條,第I類主要是年齡在18-30歲的女性群體,這類壯語潛在使用者是居住于柳州的漢族女性,這類壯語潛在使用者中大部分沒有過壯語學習經(jīng)驗,對壯語的掌握程度幾乎為零。這類人群對壯語感興趣,但是感興趣程度不高,這類群體對參加壯語文化活動具有極高的意愿,這類壯語潛在使用者愿意參加壯語文化活動,因此,很有必要發(fā)展該群體,壯語文化活動可以適當針對這類壯語使用者的特點,增大壯語文化短視頻在該類群體的投放量,來刺激這類人群的壯語學習欲望,進而參加壯語文化活動。

    低價值潛在壯語活動參加者(IV):這類低價值潛在壯語活動參與者為第IV類,是特征分析圖中淡黃色線條所代表的一類人群,該類人群最為特殊,是長居住于柳州且為其他民族年齡大于50歲的女性,這類人群自身會說壯語,但是對壯語的感興趣程度一般,該類的壯語使用者也不愿意參加壯語文化活動,對壯語文化活動沒有特別強烈的意愿和關注,因此這類壯語使用者相對于壯語文化活動研究的價值不大。

    三、結(jié)論

    基于整個調(diào)查過程中的問題及分析的結(jié)果來看,對于壯語這門語言,大多數(shù)人對壯語的掌握程度為零,漢族人幾乎沒有人會說壯語,在被調(diào)查的壯族人中有百分之七十四的壯族人是對壯語有一定的掌握的,但是大多數(shù)對壯語有一定掌握的壯語使用者使用壯語的頻率極低。大多數(shù)壯語使用者的壯語學習與家庭成員對壯語的掌握程度息息相關,大部分壯語使用者還是通過家庭成員祖代相傳學習得到了壯語,大部分對壯語感興趣的壯語潛在使用者尚未參加過壯語文化活動,大部分壯語潛在使用者愿意參加壯語文化活動,幾乎所有的壯語潛在使用者非常支持壯語以短視頻自媒體形式傳播,大家對傳承壯語文化,鄉(xiāng)村振興,美麗壯族新農(nóng)村建設都十分的支持。因此,提出以下幾個方面觀點:

    (一)擴大壯語學習輔導機構(gòu)的規(guī)模

    經(jīng)過調(diào)查,在對壯語有一定掌握程度的壯語使用者中,祖代相傳的比例最高且為28.92%,而通過課程學習的比例最少且為0.30%,除了家人祖代相傳,耳濡目染,學習壯語的方式還需要打開市場的大門。因此,在壯語學習課程這方面,還需要教育機構(gòu)擴大規(guī)模,將相關課程推薦給對壯語有極高興趣但是從沒學習過的壯語潛在使用者,進而擴大壯語輔導課程的市場規(guī)模。

    (二)增大壯語自媒體傳播的范圍

    在自媒體蓬勃發(fā)展的時代,大家享受快餐式的數(shù)據(jù)輸入,大部分人都喜歡幾分鐘能夠吸引人眼球的短視頻例如抖音,快手等。在壯語通過短視頻自媒體傳播的調(diào)查中,持反對意見的用戶占調(diào)查總?cè)藬?shù)的2%,因此,要增加壯語自媒體的傳播范圍,加大視頻投放量,短視頻的內(nèi)容層出不窮,從壯語單詞語法趣味教學視頻,到大眾一起唱壯語山歌的文藝短視頻,再到以壯語來宣傳特色農(nóng)產(chǎn)品的直播短視頻,只有讓更多的人們看到壯語的價值,才會有更多的壯語潛在使用者參與其中,繼續(xù)弘揚壯族文化,開發(fā)傳統(tǒng)壯語。

    (三)優(yōu)化壯語文化旅游服務

    廣西是一個風景優(yōu)美,四季宜人的省份,旅游業(yè)也是廣西的發(fā)展重要途徑之一,經(jīng)調(diào)查,大部分壯語潛在使用者對文化旅游活動有著參加的意愿,本文建議可以在旅游業(yè)中加入壯語特色文化,在各旅游景點優(yōu)化旅游服務,引入“壯語解說”,“壯語山歌大舞臺”等,加大對旅游業(yè)和文化結(jié)合探索,開發(fā)文化旅游新模式,不僅是山美水美人美,更是壯語美文化美,美美與共。同時,在不同的景區(qū)建立更多的壯語文化紀念館,提供給游客們參觀學習;開展家家說壯語的農(nóng)家樂活動,讓游客在旅游的同時,也感受到更加淳樸的壯族文化,來吸引更多的游客,增加游客的體驗感和滿足感,為壯族旅游代言。

    (四)深化以壯語文化為基礎的鄉(xiāng)村振興改革

    經(jīng)過調(diào)查,認為會帶動經(jīng)濟發(fā)展的用戶占調(diào)查總?cè)藬?shù)的82%。大多數(shù)壯語潛在使用者也愿意參加壯語文化活動,根據(jù)大家的積極性,十分推薦壯語文化義演走進各大鄉(xiāng)村,讓大家不忘初心,不忘自己本民族的文化,各村建立起壯語文化學習室,將傳統(tǒng)語言文化傳承下去,并在現(xiàn)有的基礎上開發(fā)創(chuàng)新更多的新時代壯語文化。除此之外,在經(jīng)濟方面,各村的農(nóng)產(chǎn)品可以在營銷模式上加入壯語短視頻的創(chuàng)新營銷方式,打開壯族特色農(nóng)產(chǎn)品通過自媒體走出壯族的市場大門。

    峨边| 多伦县| 青田县| 高阳县| 繁昌县| 宁陕县| 平定县| 建德市| 名山县| 霍州市| 洮南市| 固原市| 桃源县| 晋中市| 琼中| 尤溪县| 天镇县| 木兰县| 成都市| 福泉市| 四会市| 英山县| 南投市| 三穗县| 乐山市| 阿克苏市| 德庆县| 海原县| 江源县| 隆子县| 丰镇市| 久治县| 龙海市| 吴川市| 登封市| 灵川县| 安陆市| 江达县| 桓台县| 舞阳县| 慈溪市|