馬宏艷,楊保銀,彭仁杰
摘要:聚類算法是一種典型的無監(jiān)督學(xué)習(xí)算法。本文分析了樣本度量算法及類間的度量方法,機器學(xué)習(xí)中的聚類數(shù)據(jù)劃分算法有k-平均算法、k-中心點算法,分析了兩種算法的優(yōu)缺點,最后說明算法在scikit-learn中的應(yīng)用。
關(guān)鍵詞:機器學(xué)習(xí);聚類;劃分方法
中圖分類號:TP301? ? ? 文獻標(biāo)識碼:A
文章編號:1009-3044(2021)20-0009-02
Research on Clustering Data Partition Algorithm Based on Machine Learning
MA Hong-yan
(Information Engineering College, Longdong University, Qingyang 745000, China)
Abstract: Clustering Algorithm is a typical unsupervised learning algorithm. This paper analyzes the sample measurement algorithm and the measurement method between classes, The clustering data partition algorithm in machine learning includes k-something average algorithm and k-something central point algorithm. The advantages and disadvantages of the two algorithms are analyzed.
Key words: machine learning; clustering; partition method
機器學(xué)習(xí)分為四大塊,分別是classification (分類),clustering (聚類), regression (回歸), dimensionality reduction (降維)。對于一個樣本特征x,預(yù)測其對應(yīng)的屬性值y,如果y是離散的,那就是分類,如果y是連續(xù)的實數(shù),就是回歸。對于一組樣本特征S={x∈RD},沒有對應(yīng)的y, 要發(fā)掘這組樣本在D維空間的分布,就是聚類問題。如果想用維數(shù)更低的子空間來表示原來高維的特征空間, 那么就是降維問題。
聚類分析在市場銷售研究、模式識別、大數(shù)據(jù)分析以及圖形圖像處理等方面被廣泛應(yīng)用。在醫(yī)療中,聚類能夠幫助醫(yī)生分析已有患者病例從中發(fā)現(xiàn)不同的患者群;在精準(zhǔn)扶貧的大數(shù)據(jù)中,根據(jù)已脫貧人員的實例獲得對有相同致貧原因的貧困人員定制準(zhǔn)確的脫貧措施。
聚類是一種重要的人類活動,也是數(shù)據(jù)挖掘中用來發(fā)現(xiàn)數(shù)據(jù)分布和模式的一項重要技術(shù)。將物理或抽象的集合分成相似的對象類的過程稱為聚類[1](Clustering),同一類數(shù)據(jù)也稱其為簇(Cluster),這些數(shù)據(jù)對象在簇內(nèi)相似,簇間相異。
定義:給定一數(shù)據(jù)集合D={P1,P2,...,Pn},其中Pi(i=1,2,...,n)稱為數(shù)據(jù)點(或?qū)ο螅鶕?jù)數(shù)據(jù)點間的相似程度將數(shù)據(jù)集合分成k組Ci(i=1,2,...,k)(也稱為簇)的過程稱為聚類。
1 聚類中樣本度量方法
相異性度量標(biāo)準(zhǔn)的選擇是一個聚類分析質(zhì)量的關(guān)鍵,聚類算法是通過計算樣本特征空間中的距離來衡量兩個樣本間的相異度[2],當(dāng)兩個樣本相異較?。ㄏ嗨戚^大)時,距離值小,反之則大。
假設(shè)a和b是相應(yīng)的特征向量,m是特征的維數(shù),則計算距離度量常用的函數(shù)有幾種:
(1) 明可夫斯基距離
a和b的明可夫斯基距離度量:
[d(a,b)=i=1m|ai-bj|r1r]? ? ? ? ? ? ? ? ? ? ? ? ?(1)
當(dāng)r=1時,轉(zhuǎn)化為明可夫斯基距離的絕對值距離:
[d(a,b)=i=1m|ai-bj|]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)
當(dāng)r=2時,轉(zhuǎn)化為明可夫斯基距離的歐氏距離:
[d(a,b)=i=1m|ai-bj|212]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)
當(dāng)r趨向于無窮大時,轉(zhuǎn)化為切比雪夫距離:
[d(a,b)=max|ai-bi|(1≤i≤n)]? ? ? ? ? ? ? ? ?(4)
在以上三種距離中,經(jīng)常用的距離是歐氏距離,是因為對坐標(biāo)系進行平移和旋轉(zhuǎn)變換之后,其值不變,對象的結(jié)構(gòu)和原來相似。
(2) 二次距離
二次型距離測度的形式:
[d(a,b)=(a-b)TA(a-b)12]? ? ? ? ? ? ? ? ? ? ? ?(5)