呂明倫,王國剛,潘多濤,袁德成
(沈陽化工大學(xué) 信息工程學(xué)院,沈陽 110142)
回歸和分類是機(jī)器學(xué)習(xí)的兩項(xiàng)基本任務(wù)?;貧w主要是面向連續(xù)變化數(shù)據(jù)的建模和推理,而分類主要是針對(duì)離散變化數(shù)據(jù)建模和推理。二者的工作目標(biāo)是將在訓(xùn)練數(shù)據(jù)集上學(xué)習(xí)得到的模型,用于測(cè)試數(shù)據(jù)集以預(yù)報(bào)個(gè)體的回歸或分類。在許多應(yīng)用領(lǐng)域,存在與回歸相對(duì)應(yīng)的一類建模任務(wù)稱作組合學(xué)習(xí)或分式學(xué)習(xí)[1];與分類相對(duì)應(yīng)的一類建模任務(wù)稱作量化學(xué)習(xí)[2];二者的工作目標(biāo)是面向數(shù)據(jù)輸出類別分布的建模和預(yù)報(bào),與針對(duì)個(gè)體樣例建模的回歸或分類方法既有聯(lián)系也有區(qū)別。組合或量化學(xué)習(xí)主要為適應(yīng)宏觀層面的定量建模需求,如社交網(wǎng)絡(luò)用戶意見的語義分析、慢性疲勞綜合征的流行率估計(jì)、由口述癥狀對(duì)死亡率病因的分布估計(jì)等定量評(píng)價(jià)問題。這些在各自領(lǐng)域被廣泛重視的應(yīng)用場(chǎng)景,都可被統(tǒng)一歸入到應(yīng)用統(tǒng)計(jì)學(xué)的組合學(xué)習(xí)或量化學(xué)習(xí)的細(xì)類[3-4]。
葡萄酒消費(fèi)評(píng)論數(shù)據(jù)包含葡萄品種、釀造工藝、飲酒喜好、價(jià)格、服務(wù)等很多信息。其中葡萄品種受產(chǎn)地的土壤、日照、氣候等環(huán)境條件影響大,具有強(qiáng)烈的地區(qū)性特征。釀造工藝包括采摘、破碎、壓榨、發(fā)酵、熟化和裝瓶等多項(xiàng)單元操作,具有典型批次加工特征。飲酒喜好則表現(xiàn)為每個(gè)地區(qū)人們對(duì)酒的愛好差異性。應(yīng)用AI技術(shù),打造面向品種優(yōu)育和釀造工藝優(yōu)產(chǎn)的精準(zhǔn)全流程葡萄酒智能生產(chǎn)模式[5],代表了這個(gè)行業(yè)發(fā)展的新方向。受個(gè)體味覺、主觀意識(shí)等因素影響,在飲酒喜好信息方面的智能化相對(duì)復(fù)雜。目前有兩類信息可用,一是通過開發(fā)葡萄酒質(zhì)量的理化分析數(shù)據(jù)(輸入)與品酒師品嘗給出的品級(jí)(輸出)之間的分類或回歸模型,可以更快捷實(shí)施銷售引導(dǎo)和工藝管控方案[6];二是在各類酒品博覽會(huì)和社交媒體上存儲(chǔ)大量葡萄酒消費(fèi)評(píng)論(文本)數(shù)據(jù),開發(fā)這些與葡萄酒生產(chǎn)和消費(fèi)緊密相關(guān)的信息資源。文獻(xiàn)[7]借助快速文本(FastText)詞嵌入向量的文本特征化方法,把葡萄酒評(píng)論意見轉(zhuǎn)換為數(shù)字圖像,導(dǎo)入深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練,得到了用于指導(dǎo)消費(fèi)者品嘗選酒的分類模型(個(gè)體歸屬)。本文研究如何把第二類信息用于葡萄酒生產(chǎn)的精細(xì)化管理:首先給出相關(guān)基礎(chǔ),包括量化學(xué)習(xí)概述、文本自動(dòng)分析、量化學(xué)習(xí)計(jì)算公式等,然后論述基于非參數(shù)估計(jì)的量化學(xué)習(xí)研究和面向葡萄酒評(píng)論的量化學(xué)習(xí)模型設(shè)計(jì)及計(jì)算評(píng)價(jià)等。
量化學(xué)習(xí)最先由Forman G提出[8],是一類相對(duì)新的監(jiān)督學(xué)習(xí)算法,其定義為:給定有標(biāo)簽訓(xùn)練數(shù)據(jù),導(dǎo)出一個(gè)以無標(biāo)簽測(cè)試數(shù)據(jù)集為輸入、類別分布最佳估計(jì)為輸出的量化器。這是與分類問題相對(duì)應(yīng)的定義,量化方法也可以用于其它統(tǒng)計(jì)學(xué)習(xí)任務(wù),如回歸計(jì)算、序數(shù)分類、成本敏感性問題等,一個(gè)共同特征是在無需個(gè)例預(yù)報(bào)的情況下獲得測(cè)試數(shù)據(jù)集類別分布的最佳估計(jì)。量化學(xué)習(xí)的思想是在一些應(yīng)用場(chǎng)合不關(guān)心個(gè)體屬于哪一類,而是獲得每一類占比的估計(jì)。量化學(xué)習(xí)在文獻(xiàn)中有不同的名稱,如:先驗(yàn)概率轉(zhuǎn)移估計(jì)、后驗(yàn)概率估計(jì)、類先驗(yàn)估計(jì)、類先驗(yàn)變化、流行性估計(jì)、類占比估計(jì)等,這些分散在不同領(lǐng)域的研究沒有按照量化學(xué)習(xí)的要求主動(dòng)關(guān)聯(lián)在一起,而是主要強(qiáng)調(diào)在各自領(lǐng)域內(nèi)如何改善分類的準(zhǔn)確度。直觀上,如果分類模型足夠準(zhǔn)確,簡(jiǎn)單統(tǒng)計(jì)每個(gè)類別中所有個(gè)體的數(shù)量總和即可求得類別占比,但問題遠(yuǎn)不是這么簡(jiǎn)單。一是追求高精度分類器需要付出成本代價(jià),分類模型有誤差不可避免;二是所謂的概念漂移或數(shù)據(jù)轉(zhuǎn)移現(xiàn)象[9],普遍存在于各類機(jī)器學(xué)習(xí)或深度學(xué)習(xí)算法中,即由訓(xùn)練數(shù)據(jù)集建立的模型,在用于測(cè)試數(shù)據(jù)集的預(yù)報(bào)任務(wù)時(shí),隱含于兩個(gè)數(shù)據(jù)集中的統(tǒng)計(jì)特征可能已發(fā)生變化,此時(shí)量化學(xué)習(xí)需要構(gòu)建適應(yīng)性策略[10-11],以減輕不確定性量化的不利影響。
文本自動(dòng)分析是自然語言處理的一個(gè)分支,主要是從海量非結(jié)構(gòu)化文本語料中提取、組織、理解、概念化,并最終提供模型化知識(shí)服務(wù)的理論和方法。其中,提取主要是實(shí)施原始文檔導(dǎo)入、清洗、預(yù)處理、規(guī)范化等一系列操作。葡萄酒評(píng)論與其它網(wǎng)上語料庫一樣,一般是文字、圖片、表情、語音等多種表達(dá)方式混雜在一起。本文主要研究采用Matlab的文本分析工具提供的常規(guī)數(shù)據(jù)清洗及預(yù)處理技術(shù),將葡萄酒評(píng)論轉(zhuǎn)化為純文字的文本表達(dá),使用多種格式存儲(chǔ)預(yù)處理后的文檔文件,以方便后續(xù)在R語言環(huán)境的建模和分析工作。組織主要是完成特征提取、文檔數(shù)字化、訓(xùn)練和驗(yàn)證等建模任務(wù)。目前常用的R語言、Python以及Matlab等語言平臺(tái),提供了豐富的特征提取和文檔數(shù)字化函數(shù),可歸納為4種:一是字袋表達(dá),有one-hot、tf-idf等;二是主題模型表達(dá),有輔助語義分析或概率輔助語義分析、3層貝葉斯網(wǎng)絡(luò)等;三是基于詞向量的固定表達(dá),有Glove[12]、FastText[13]等;四是基于詞向量的動(dòng)態(tài)表達(dá),有elmo、GPT、bert等。文獻(xiàn)[7]使用FastText表達(dá),實(shí)現(xiàn)詞干化與詞性還原、詞嵌入、映射為實(shí)數(shù)域上的向量等數(shù)字化要求,具有結(jié)構(gòu)簡(jiǎn)單、訓(xùn)練快等優(yōu)勢(shì)。但由于FastText文本表達(dá)多了一個(gè)向量維度,導(dǎo)致后續(xù)非參數(shù)估計(jì)的量化學(xué)習(xí)設(shè)計(jì)變得復(fù)雜困難,故本文選擇Glove詞向量表達(dá)。理解主要是指構(gòu)造各種可視化表達(dá)等技術(shù),如有2D詞云圖、2D或3D散點(diǎn)圖、詞嵌入預(yù)訓(xùn)練表達(dá)等手段可用。概念化主要是挖掘出隱含的新信息、文本自動(dòng)生成、模型適應(yīng)不確定性場(chǎng)景的試驗(yàn)評(píng)價(jià)等。知識(shí)服務(wù)實(shí)現(xiàn)諸如信息檢索、語義分析、文本總結(jié)、機(jī)器翻譯等功能。
對(duì)文本進(jìn)行詞干化與詞性還原處理后,得到一組長度為W的特征詞組表達(dá),進(jìn)一步構(gòu)造詞-詞共現(xiàn)矩陣X∈W×W,其元素Xi,j為在詞i的上下文語境中詞j出現(xiàn)的次數(shù);再定義特征詞組中任意詞k出現(xiàn)在詞i的上下文語境中的次數(shù)最后定義在詞i的上下文語境中詞j出現(xiàn)次數(shù)的概率Pi,j=P(j|i)=Xi,j/Xi。進(jìn)一步分析發(fā)現(xiàn):詞向量的學(xué)習(xí)從構(gòu)造詞-詞共現(xiàn)概率的比值關(guān)系開始學(xué)習(xí),比單純學(xué)習(xí)詞-詞共現(xiàn)概率更有效,其中引入的詞向量w∈d和上下文詞向量d也為優(yōu)化問題提供了更有針對(duì)性的設(shè)計(jì)選項(xiàng)。限定比值關(guān)系F在群(,+)和群(>0,×)之間滿足同態(tài)條件,則有公式
(1)
(2)
(3)
式(3)中,文獻(xiàn)[12]建議初始訓(xùn)練時(shí)可采用經(jīng)驗(yàn)值:α=3/4,xmax=100,后續(xù)結(jié)合具體問題再適當(dāng)調(diào)整。
語料文本由多個(gè)文檔組成,而文檔由多個(gè)特征詞組成,提取特征詞后再經(jīng)1.2節(jié)論述的詞嵌入向量計(jì)算,可得到每個(gè)詞的表達(dá)值(實(shí)數(shù))。一個(gè)特征詞可能在待分析語料文本的文檔中出現(xiàn)一次、多次或不出現(xiàn),直觀上,其平均值可直接計(jì)算,也可以按其出現(xiàn)在語料文本的某一類文檔中的表達(dá)值再乘上相應(yīng)類別分布的總和而得到,這正是文本類量化學(xué)習(xí)的簡(jiǎn)單邏輯所在。機(jī)器學(xué)習(xí)面臨的主要困難是每個(gè)文檔的類別分布要事先已知,但這需要很大工作量和持續(xù)投入。一種合理可行的做法是針對(duì)已收集到的語料文本,僅對(duì)其中一小部分進(jìn)行標(biāo)注,即把語料文本分解成兩部分:一部分是文檔和對(duì)應(yīng)類別已標(biāo)注;另一部分是有文檔但所屬類別未標(biāo)注。在監(jiān)督學(xué)習(xí)框架內(nèi),還有一種做法是文檔-標(biāo)注已知部分作為訓(xùn)練數(shù)據(jù)集(對(duì)應(yīng)建模階段任務(wù));而文檔-未標(biāo)注部分作為測(cè)試數(shù)據(jù)集(對(duì)應(yīng)應(yīng)用階段任務(wù)),按統(tǒng)計(jì)上的推理學(xué)習(xí)模式求解,把該思路表達(dá)成數(shù)學(xué)公式如下。
(4)
(5)
根據(jù)量化學(xué)習(xí)的簡(jiǎn)明邏輯要求,可構(gòu)造
要改進(jìn)造林方法,應(yīng)把減少人工造林、促進(jìn)人工林自然更新和重視森林自然更新三項(xiàng)任務(wù)結(jié)合起來,拓寬造林渠道。在退耕還林過程中,存在著許多認(rèn)知誤區(qū),如:天然林不如人工林,闊葉林不如針葉林等。這些誤差導(dǎo)致單向造林、闊葉林物種減少、采伐后相應(yīng)樹種數(shù)量減少、不均勻甚至稀少的情況。也就是說,樹種的結(jié)構(gòu)是不合理的。因此,人工造林、人員促進(jìn)森林自然更新與自然更新的有機(jī)結(jié)合,可以補(bǔ)充樹種,有利于生物多樣性和生態(tài)平衡;鼓勵(lì)多樣化造林,合理規(guī)劃森林資源。鼓勵(lì)企業(yè)投資林業(yè)建設(shè),加大扶持力度,提高天然林生產(chǎn)力;此外,還要對(duì)職工進(jìn)行技術(shù)知識(shí)指導(dǎo),調(diào)整林木結(jié)構(gòu),積極改變?cè)炝址绞?,造林方法?yīng)創(chuàng)新和更新。
(6)
或?qū)懗筛o湊的矩陣形式
(7)
式中Ξ是誤差向量。這是典型的最小二乘問題,在各類量化學(xué)習(xí)算法中,顯性或隱含假設(shè)V=VU=VL近似成立后,則可以采用多種優(yōu)化算法求解,再加上量化學(xué)習(xí)固有的類別約束條件,得到優(yōu)化問題的一般形式。
目標(biāo)函數(shù)為
(8)
約束條件為
(9)
(10)
在這個(gè)最優(yōu)問題中,與誤差相關(guān)的目標(biāo)函數(shù)F可選二次型、絕對(duì)值、梅林格距離等形式。
量化學(xué)習(xí)建??煞譃閰?shù)估計(jì)方法和非參數(shù)估計(jì)方法兩類,即基于參數(shù)估計(jì)方法的建模(參數(shù)固定,如廣義貝葉斯量化學(xué)習(xí)[11])訓(xùn)練快;而基于非參數(shù)估計(jì)方法的建模(模型中的參數(shù)取決于數(shù)據(jù)集大小,如本文采用的ReadMe方法[14]等)有更好的解讀性等特征。
不考慮約束條件,式(7)對(duì)應(yīng)問題的最小二乘解析解為
(11)
更一般的解法是通過構(gòu)造拉格朗日函數(shù),轉(zhuǎn)化成非線性規(guī)劃問題加以求解。文獻(xiàn)[15]針對(duì)經(jīng)典的由口述病癥現(xiàn)象估計(jì)死亡原因占比問題,建立一種非參數(shù)估計(jì)解法。由于受多種因素限制,只有一小部分死亡病例有確切的致亡臨床原因診斷(輸入),而大部分死亡原因只有口述的病癥現(xiàn)象。在應(yīng)用統(tǒng)計(jì)學(xué)領(lǐng)域,這類問題有普遍代表性,也是量化學(xué)習(xí)的一類典型案例。文獻(xiàn)[14]構(gòu)造面向定量社會(huì)學(xué)或定量政治學(xué)等人文學(xué)科的宏觀需求,基于非參數(shù)統(tǒng)計(jì)方法,構(gòu)造了更一般的文本自動(dòng)分析理論、方法和軟件ReadMe,其中隱含了V=VU=VL的條件成立。文獻(xiàn)[16]強(qiáng)調(diào)語料文本的語義漂移、不易鑒別、類別模糊等應(yīng)用統(tǒng)計(jì)學(xué)必須處置的挑戰(zhàn)性問題,給出了把隱含條件VU=VL放寬到VU=E(VL)的構(gòu)造原理、一致性估計(jì)分析等內(nèi)容;由此發(fā)布的開源量化學(xué)習(xí)R語言軟件包ReadMe2,受到該研究領(lǐng)域的廣泛關(guān)注。
葡萄酒評(píng)論數(shù)據(jù)[17]由14項(xiàng)條目組成,分別是來源國家、品酒人給出的描述、葡萄園、品酒人給出的評(píng)分、市場(chǎng)價(jià)格、釀酒省份、種植省份及區(qū)域細(xì)分、葡萄酒種類、釀酒廠名、品酒人姓名、賬號(hào)及評(píng)論標(biāo)題、無標(biāo)注等。其中,品酒人給出的描述以文字?jǐn)⑹鰹橹?;專業(yè)機(jī)構(gòu)給出的葡萄酒評(píng)分采用《葡萄酒觀察家》雜志倡導(dǎo)的百分制標(biāo)準(zhǔn)居多,即打分在50~59為次品(不推薦、不能喝)、60~69為較一般(可以喝但不推薦)、70~79為一般(可飲用但有小缺點(diǎn))、80~89為較好(有特點(diǎn))、90~95為優(yōu)秀(有個(gè)性有風(fēng)格)、96以上的為最佳。釀酒廠名是眾多的各國葡萄酒生產(chǎn)廠家信息。研究者可以根據(jù)不同的應(yīng)用需求,挖掘出這些數(shù)據(jù)條目中蘊(yùn)含的關(guān)聯(lián)或關(guān)系。
文獻(xiàn)[7]建立的是以“品酒人給出的描述”為輸入、以“葡萄酒種類”為輸出標(biāo)注之間的分類學(xué)習(xí)模型。消費(fèi)者輸入自己喜愛的葡萄酒“描述”信息,深度分類學(xué)習(xí)模型將向消費(fèi)者推薦最恰當(dāng)?shù)摹捌咸丫品N類”。經(jīng)統(tǒng)計(jì)分析,“品酒人給出的描述”基本是由不超過80個(gè)文字組成的文本?!捌咸丫品N類”共出現(xiàn)707種,數(shù)量排在前十的分別是:黑皮偌(13272條)、霞多麗(11753條)、赤霞珠(9472條)、紅葡萄混釀(8946條)、波爾多(6915條)、雷司令(5189條)、白蘇維翁(4967條)、西拉(4142條)、玫瑰(3564條)、墨爾樂(3102條)。實(shí)施的數(shù)據(jù)清洗包括剔除無標(biāo)簽的評(píng)論、移除不在“葡萄酒種類”前200位的評(píng)論、未標(biāo)注類的評(píng)論等三項(xiàng)。分割數(shù)據(jù)集為85%訓(xùn)練集+7.5%驗(yàn)證集+7.5%測(cè)試集;選擇小批次為128,按文字等于80個(gè)轉(zhuǎn)換文本。經(jīng)過預(yù)處理后,調(diào)用快速文本詞向量嵌入工具,把每個(gè)文本轉(zhuǎn)換成詞嵌入特征維數(shù)乘以文字維數(shù)的向量,本文選擇300×80。
準(zhǔn)備好輸入的圖像數(shù)據(jù)后,設(shè)計(jì)和預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)CNN,網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)借鑒文獻(xiàn)[7]的成果。訓(xùn)練過程如圖1所示。圖1中最后的訓(xùn)練準(zhǔn)確度達(dá)到了93%,但驗(yàn)證的準(zhǔn)確度僅為63%,泛化性能欠佳,需要進(jìn)一步深入研究。從測(cè)試數(shù)據(jù)集中隨機(jī)選擇8個(gè)“品酒人給出的描述”的文本,導(dǎo)入訓(xùn)練好的分類模型,給出了接近6個(gè)正確的預(yù)報(bào)結(jié)果,該準(zhǔn)確度可以作為消費(fèi)者參考“品酒人給出的描述”,選擇自己喜歡的葡萄酒。
圖1 CNN訓(xùn)練進(jìn)程
如果建立的是“消費(fèi)者飲酒描述”為輸入、以“葡萄酒種類”為輸出標(biāo)注之間的量化學(xué)習(xí)模型,則此時(shí)量化學(xué)習(xí)模型將向消費(fèi)者推薦的是“葡萄酒種類”分布的排序,這樣的預(yù)測(cè)信息對(duì)消費(fèi)者選酒的參考作用不大,但對(duì)釀酒廠的生產(chǎn)管理來說有引導(dǎo)價(jià)值,即廠家可了解自己生產(chǎn)的“葡萄酒種類”在消費(fèi)者選擇中所處的位置。
本文建立的是以“消費(fèi)者飲酒描述”為輸入、以“品酒人給出的評(píng)分”為輸出標(biāo)注之間的量化學(xué)習(xí)模型?!跋M(fèi)者飲酒描述”是文本類信息,采用的文本清洗和預(yù)處理等步驟與3.1節(jié)相同。“品酒人給出的評(píng)分”是符號(hào)標(biāo)注,分為:最佳、優(yōu)秀、較好、一般、較一般、次品等六類,不在這個(gè)范圍內(nèi)的得分標(biāo)注為“NA”。
3.2.1 仿真計(jì)算示例1(總體預(yù)報(bào))
在葡萄酒評(píng)論數(shù)據(jù)集[17]中,選擇其中約85%的樣例構(gòu)成訓(xùn)練數(shù)據(jù)集,其余的樣例作為模型測(cè)試數(shù)據(jù)集。葡萄酒評(píng)論意見與得分的量化學(xué)習(xí)訓(xùn)練進(jìn)程如表1所示。在表1中,根據(jù)評(píng)論得分分成4個(gè)類別,由于所用的數(shù)據(jù)集中沒有得分在79以下的樣例,在數(shù)據(jù)構(gòu)造時(shí)把80~89分之間的樣例又細(xì)分成兩個(gè)類別。為演示,也假設(shè)測(cè)試數(shù)據(jù)集的總體分布已知,作為真實(shí)值(參考)示于表1的第2列中,估計(jì)值是非參數(shù)估計(jì)量化學(xué)習(xí)算法經(jīng)訓(xùn)練計(jì)算得到。由表1觀察到,估計(jì)值與參考的真實(shí)值之間存在誤差,即與3.1節(jié)分類學(xué)習(xí)遇到的泛化性能欠佳有關(guān)。量化學(xué)習(xí)同樣面臨改善泛化性能的難題。
表1 葡萄酒評(píng)論意見與得分的量化學(xué)習(xí)結(jié)果
3.2.2 仿真計(jì)算示例2(單個(gè)葡萄酒種類總體預(yù)報(bào))
針對(duì)某一類葡萄酒,仿真觀察量化學(xué)習(xí)效果。分別從訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集中挑選出對(duì)應(yīng)的某一類葡萄酒評(píng)論和得分,建立量化學(xué)習(xí)模型。黑皮偌、赤霞珠和霞多麗三種葡萄酒的量化學(xué)習(xí)結(jié)果如表2所示。表2中第二列的樣例數(shù),是從訓(xùn)練和測(cè)試數(shù)據(jù)集中分別抽取得到三種葡萄酒對(duì)應(yīng)的訓(xùn)練和測(cè)試樣例總數(shù);估計(jì)值是非參數(shù)估計(jì)量化學(xué)習(xí)算法經(jīng)訓(xùn)練計(jì)算得到。由表2可知,估計(jì)值與參考的真實(shí)值之間存在誤差。
表2 面向單個(gè)葡萄酒種類量化學(xué)習(xí)結(jié)果
在表1、表2的仿真計(jì)算結(jié)果中,真實(shí)值(參考)和估計(jì)值存在誤差,可能是受數(shù)據(jù)集類別[17]限制,其中評(píng)分96以上的樣例較少,數(shù)據(jù)集內(nèi)樣例數(shù)在各個(gè)類別上的分布不平衡。正如文獻(xiàn)[18]所述,樣例不平衡,對(duì)類別總體分布估計(jì)將會(huì)產(chǎn)生不利影響,需要在試驗(yàn)設(shè)計(jì)和數(shù)據(jù)預(yù)處理等量化學(xué)習(xí)的前期任務(wù)實(shí)施中加以仔細(xì)考慮和完善。另外,本文主要研究基于非參數(shù)的量化學(xué)習(xí)建模方法,其它量化學(xué)習(xí)手段在這個(gè)案例實(shí)施中的表現(xiàn)也值得進(jìn)一步探索。量化學(xué)習(xí)模型的計(jì)算結(jié)果反映出消費(fèi)者評(píng)論的文本描述和離散得分之間存在相關(guān)關(guān)系,可以實(shí)施數(shù)據(jù)挖掘技術(shù),為企業(yè)生產(chǎn)決策提供更精準(zhǔn)的信息化支撐。
以消費(fèi)量巨大的葡萄酒質(zhì)量管控為例,在“用分類學(xué)習(xí)指導(dǎo)消費(fèi)者選擇自己喜愛的葡萄酒品牌”相關(guān)研究的基礎(chǔ)上,研究把消費(fèi)者品酒評(píng)論的量化學(xué)習(xí)用于企業(yè)生產(chǎn)質(zhì)量管控的新方法,以此挖掘出可能蘊(yùn)含在海量非結(jié)構(gòu)化數(shù)據(jù)信息中、宏觀層面上的相關(guān)關(guān)系甚至因果關(guān)系,構(gòu)建更精細(xì)、更精準(zhǔn)的生產(chǎn)信息管理系統(tǒng)。可以預(yù)期,結(jié)合具體的工業(yè)應(yīng)用,可能有更多的量化學(xué)習(xí)實(shí)際應(yīng)用問題需要加以解決。