• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)背景下服裝品牌知識(shí)挖掘研究

    2022-04-14 10:19:08楊麗麗劉靜偉
    西部皮革 2022年7期
    關(guān)鍵詞:服裝品牌語料語料庫

    楊麗麗,劉靜偉

    (西安工程大學(xué) 服裝與藝術(shù)設(shè)計(jì)學(xué)院,陜西 西安 710048)

    大數(shù)據(jù)時(shí)代產(chǎn)生了海量的數(shù)據(jù),但是數(shù)據(jù)類型多元異構(gòu)、網(wǎng)頁發(fā)布不規(guī)范等因素導(dǎo)致數(shù)據(jù)價(jià)值密度低,信息造價(jià)昂貴。大數(shù)據(jù)分析和數(shù)據(jù)挖掘是基于統(tǒng)計(jì)分析學(xué)的從數(shù)據(jù)中獲取知識(shí)的一種研究方法,在互聯(lián)網(wǎng)、金融、醫(yī)療等多個(gè)行業(yè)都有很好的發(fā)展與應(yīng)用。語料庫分析法在國外已有三十年以上的研究歷史,目前服裝領(lǐng)域內(nèi)多使用學(xué)術(shù)文獻(xiàn)作為研究語料庫進(jìn)行行業(yè)信息發(fā)現(xiàn)和預(yù)測,缺乏對其他行業(yè)數(shù)據(jù)的探索與使用;為了提高服裝行業(yè)對開源數(shù)據(jù)的利用率,構(gòu)建行業(yè)語料庫、通過合理的數(shù)據(jù)分析工具對行業(yè)數(shù)據(jù)進(jìn)行知識(shí)挖掘,對行業(yè)知識(shí)工程的建設(shè)具有重要的實(shí)踐意義。

    1 服裝品牌研究語料庫構(gòu)建

    1.1 數(shù)據(jù)渠道選擇

    為保證語料庫中服裝品牌數(shù)據(jù)的多樣性和全面性需對采集渠道進(jìn)行評估篩選,最終確定的數(shù)據(jù)源類型如下:

    (1)服裝專業(yè)平臺(tái)和品牌網(wǎng)站:如WGSN、POP 流行趨勢平臺(tái),中國時(shí)尚網(wǎng)、中國報(bào)告大廳等網(wǎng)站。

    (2)學(xué)術(shù)資源平臺(tái):CNKI 數(shù)據(jù)庫。

    (3)通用知識(shí)網(wǎng)站:如百度百科知識(shí)庫。

    1.2 研究樣本選擇

    進(jìn)行品牌調(diào)研,圍繞“服裝品牌排行”檢索知名度較高、數(shù)據(jù)信息分布較多的服裝品牌。共選擇了60 個(gè)服裝品牌,主要可分為以下幾種類型。

    (1)國際奢侈品牌。如阿瑪尼、巴寶莉等共32 個(gè)。

    (2)國內(nèi)具有一定創(chuàng)建歷史與知名度的服裝品牌。如勁霸、七匹狼等共10 個(gè)中國品牌。

    (3)潮牌與戶外品牌。如LARGE、SUPREME、戶外品牌始祖鳥、哥倫比亞等共18 個(gè)。

    1.3 數(shù)據(jù)采集與整理

    網(wǎng)絡(luò)爬蟲是進(jìn)行大數(shù)據(jù)收集的主要技術(shù)手段。采集過程以爬蟲(后裔采集器)采集為主,人工采集為輔。

    通用類數(shù)據(jù)平臺(tái)結(jié)構(gòu)簡單,先用采集器進(jìn)行數(shù)據(jù)爬取,再對結(jié)果進(jìn)行人工篩選降重,以減少數(shù)據(jù)噪音;專業(yè)類平臺(tái),如WGSN、POP,CNKI 有權(quán)限限制,平臺(tái)結(jié)構(gòu)復(fù)雜,采集過程主要依賴人工。

    采集過程中總結(jié)出如下數(shù)據(jù)分布特點(diǎn):

    通用網(wǎng)絡(luò)平臺(tái)如百度百科、品牌、服裝網(wǎng),數(shù)據(jù)重復(fù)率高類型單一;學(xué)術(shù)平臺(tái)的數(shù)據(jù)語料,類型豐富但噪音大。通用網(wǎng)絡(luò)上國際服裝品牌的數(shù)據(jù)量和信息價(jià)值多于國內(nèi)的服裝品牌,學(xué)術(shù)平臺(tái)數(shù)據(jù)則呈現(xiàn)相反趨勢。奢侈等級越高,其受眾群體小,數(shù)據(jù)缺乏,如定制類品牌Brioni。

    表1 采集數(shù)據(jù)統(tǒng)計(jì)Tab.1 Data collection statistics

    2 服裝品牌數(shù)據(jù)挖掘

    2.1 數(shù)據(jù)預(yù)處理

    數(shù)據(jù)研究過程使用的是定量內(nèi)容分析和數(shù)據(jù)挖掘軟件KH Coder,該軟件有特征抽取、語義共現(xiàn)、文本聚類、主題分析等功能,適用于大量型非結(jié)構(gòu)化文本的分析。為提高數(shù)據(jù)挖掘的效率和質(zhì)量,數(shù)據(jù)預(yù)處理步驟如下:

    (1)數(shù)據(jù)集成與格式規(guī)范:數(shù)據(jù)格式整理為單個(gè)CSV/Excel表格或批量TXT 文本。以品牌為例,每一個(gè)品牌數(shù)據(jù)合并在一個(gè)TXT 文檔里,以品牌名稱和定義的序號命名,匯總在文件夾下。CSV 文件中,第一列為分析數(shù)據(jù),第二列第三列可設(shè)置外部變量。

    (2)詞類篩選與定義:選擇跟分析目的相關(guān)的詞性,排除無意義詞匯對數(shù)據(jù)結(jié)果的影響。一般主要選擇名詞、專業(yè)用詞、形容詞、標(biāo)簽。

    (3)編碼規(guī)則編寫:KH 編碼器可以自定義編碼規(guī)則,執(zhí)行編碼。如“*博柏利Burberry|博寶利/巴寶莉”表示只要出現(xiàn)這些詞匯則認(rèn)為該文檔與品牌“博柏利”有關(guān),借助編碼可協(xié)助品牌語料識(shí)別。

    2.2 關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析

    語義網(wǎng)絡(luò)是全局性的數(shù)據(jù)結(jié)構(gòu)觀察方法。在KH coder 設(shè)置不同的分析系數(shù)與變量因素,執(zhí)行共現(xiàn)網(wǎng)絡(luò)分析可發(fā)現(xiàn)隱形關(guān)聯(lián),從不同的角度進(jìn)行數(shù)據(jù)特征挖掘,發(fā)現(xiàn)語料庫的數(shù)據(jù)特征和隱藏的知識(shí)結(jié)構(gòu)。

    共現(xiàn)分析是按照關(guān)鍵詞在每篇文章中的共同出現(xiàn)的情況生成的語義網(wǎng)絡(luò)。設(shè)置參數(shù)時(shí)將共現(xiàn)網(wǎng)絡(luò)設(shè)置為無向網(wǎng),共現(xiàn)結(jié)果(圖1~圖3)中圈的大小代表頻次,顏色代表聚類情況。

    語義網(wǎng)絡(luò)呈現(xiàn)的共現(xiàn)關(guān)系可以是詞匯與外部變量之間的。

    以圖1 為例,該圖是以品牌語料作為分析文本,以“品牌名稱”作為外部變量,基于語義相似度計(jì)算的語義網(wǎng)絡(luò)。品牌間由特征詞關(guān)聯(lián)起來形成不同的遠(yuǎn)近關(guān)系,其關(guān)聯(lián)與人工劃分的品牌類型相符;由品牌的共現(xiàn)相似性可對競爭關(guān)系展開知識(shí)推理。

    語義網(wǎng)絡(luò)呈現(xiàn)的共現(xiàn)關(guān)系也可以是詞匯與詞匯之間的。

    圖2 是沒有設(shè)置外部變量,由服裝綜合性語料分析后展開的語義網(wǎng)絡(luò),可借此知道文本中存在較多的信息類型。由圖可知,分析文本中包含較多的“市場”“色彩”“元素”“造型”“圖案”等信息類型。

    圖3 是以“雅格獅丹”的品牌語料為分析文本導(dǎo)出的語義網(wǎng)絡(luò)。雅格獅丹是英國倫敦的御用皇家品牌,戰(zhàn)爭期間為軍隊(duì)設(shè)計(jì)的防水大衣是品牌的經(jīng)典設(shè)計(jì)。在共現(xiàn)結(jié)果中,與雅格獅丹品牌相關(guān)的關(guān)鍵詞和信息點(diǎn)在語義網(wǎng)絡(luò)中都有明顯表現(xiàn)。通過語義網(wǎng)絡(luò),可觀察到每個(gè)品牌的數(shù)據(jù)特征詞;得到基于大數(shù)據(jù)文本的“品牌數(shù)據(jù)畫像”。

    語義網(wǎng)絡(luò)中的共現(xiàn)詞匯在一定程度上體現(xiàn)了數(shù)據(jù)的主題,可挖掘語料庫的行業(yè)信息,實(shí)現(xiàn)行業(yè)的知識(shí)發(fā)現(xiàn)。

    2.3 集群聚類與KWIC 檢索

    通過聚類分析和KWIC 檢索可在詞匯語境下進(jìn)行數(shù)據(jù)的分析觀察。

    集群就是把相似的個(gè)體(樣本語料)歸于一群。通過集群聚類,可以得到不同場景的文本集群,并可得到不同集群下的特征詞匯表(表2,表3)。

    Jaccard 數(shù)值越高證明該詞在這一集群中的權(quán)重越大。如表2 所示,由特征詞可知該集群的文本語料與“顏色”密切相關(guān);如表3 所示,該集群的語料與戶外運(yùn)動(dòng)密切相關(guān)。以此為依據(jù)可進(jìn)行語料分類和行業(yè)術(shù)語抽取。

    表2 特征詞匯集群示例(部分)Tab.2 example ofcharacteristic vocabulary cluster(part)

    表3 特征詞匯集群示例(部分)Tab.3 example ofcharacteristic vocabulary cluster(part)

    KWIC 檢索也是基于語義相似度計(jì)算的統(tǒng)計(jì)分析,可輸入關(guān)鍵詞(研究對象)直接查詢該詞的上下文語境。分?jǐn)?shù)越高意味著在分析樣本中該詞與風(fēng)格搭配越頻繁。

    由上述結(jié)果可知,在KH coder 中執(zhí)行集群聚類可對文本語料進(jìn)行分類;借助集群聚類和KWIC 檢索還可獲取特征詞匯,“品牌”“顏色”“單品”“圖案”、“面料”“風(fēng)格”“功能”“場景”等服裝行業(yè)的知識(shí)信息都可借此進(jìn)行聚類、提煉。

    3 結(jié)論

    文章借助爬蟲技術(shù)和文本挖掘工具,對60 個(gè)服裝品牌進(jìn)行了數(shù)據(jù)采集與語料庫構(gòu)建,發(fā)現(xiàn)了不同服裝品牌的數(shù)據(jù)分布特征。在語料庫基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘,從不同角度繪制了語料文本的語義網(wǎng)絡(luò),并獲取了基于語料庫的服裝品牌知識(shí)集群。結(jié)果表明,運(yùn)用大數(shù)據(jù)技術(shù)在服裝品牌開源數(shù)據(jù)上進(jìn)行知識(shí)抽取具備科學(xué)性和可行性。實(shí)驗(yàn)結(jié)果對知識(shí)工程建設(shè)者或數(shù)據(jù)分析人員具有一定的借鑒或參考價(jià)值。

    猜你喜歡
    服裝品牌語料語料庫
    《語料庫翻譯文體學(xué)》評介
    名人效應(yīng)在運(yùn)動(dòng)服裝品牌傳播中的應(yīng)用研究
    把課文的優(yōu)美表達(dá)存進(jìn)語料庫
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    基于服裝品牌的個(gè)性化快速定制研究——以李寧服裝為例
    華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
    互聯(lián)網(wǎng)時(shí)代的服裝品牌“粉絲”營銷
    基于社會(huì)化媒體的服裝品牌營銷新思路
    基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    《苗防備覽》中的湘西語料
    东平县| 黑河市| 客服| 昆明市| 武邑县| 东莞市| 读书| 宁国市| 新兴县| 镇巴县| 洪洞县| 兴海县| 黄陵县| 大兴区| 科技| 辽中县| 彭泽县| 洛扎县| 乌鲁木齐市| 泽库县| 罗甸县| 巴彦县| 漳浦县| 辉县市| 南宁市| 达尔| 八宿县| 六枝特区| 云浮市| 海城市| 咸阳市| 南华县| 宁明县| 汝阳县| 山西省| 洛扎县| 清徐县| 新昌县| 汽车| 肇庆市| 富裕县|