孫 妍,任 勇,袁靖飛
(蘇州大學(xué) 應(yīng)用技術(shù)學(xué)院,江蘇 昆山 215325)
隨著科技的日新月異,科學(xué)家們?cè)诳萍嫉缆飞嫌龅降膯?wèn)題越來(lái)越復(fù)雜,人們對(duì)人工智能解決復(fù)雜問(wèn)題的期望值越來(lái)越高,由此應(yīng)運(yùn)而生的機(jī)器學(xué)習(xí)相關(guān)技術(shù)得到迅猛發(fā)展。機(jī)器學(xué)習(xí)技術(shù)通過(guò)模擬、延伸和擴(kuò)展等方法,機(jī)器學(xué)習(xí)可以作為人工智能的一個(gè)子集。其次機(jī)器學(xué)習(xí)是基于大數(shù)據(jù)的,它的“智能”需要海量的數(shù)據(jù),為了應(yīng)對(duì)COVID-19大流行,美國(guó)等主要研究團(tuán)隊(duì)開(kāi)放了COVID-19研究數(shù)據(jù)集。COVID-19的資源超過(guò)300 000篇學(xué)術(shù)文章,涉及COVID-19,SARSCoV-2和相關(guān)的冠狀病毒。本文采用的就是該數(shù)據(jù)集,并對(duì)這些文獻(xiàn)進(jìn)行分組,簡(jiǎn)化相關(guān)出版物的檢索,對(duì)聚類的內(nèi)容進(jìn)行限定。
TF-IDF通常被用作為信息檢索的加權(quán)和文本挖掘的加權(quán)。TF-IDF作為一種常用的統(tǒng)計(jì)方法,通常被用作評(píng)估一份文件集或語(yǔ)料庫(kù)中某個(gè)字詞的重要程度。這個(gè)字詞的重要程度會(huì)隨著它在文件集中出現(xiàn)次數(shù)的增加呈正比增長(zhǎng),而與它在語(yǔ)料庫(kù)中出現(xiàn)次數(shù)的增加呈反比增長(zhǎng)。TF-IDF通常被用作分類,原因在于:當(dāng)某一字詞在一份文件集中出現(xiàn)的頻率TF高,而在其他文件集中出現(xiàn)的頻率低時(shí),就可以認(rèn)為這個(gè)字詞可以將兩份文件集有效地區(qū)分開(kāi)來(lái)[1]。
使用TF-IDF,這將把字符串格式化的數(shù)據(jù)轉(zhuǎn)換為衡量每個(gè)詞對(duì)整個(gè)文獻(xiàn)中的實(shí)例的重要性,矢量化數(shù)據(jù)。根據(jù)正文的內(nèi)容進(jìn)行聚類,特征的最大數(shù)量將受到限制。只有前212個(gè)特征將被使用,本質(zhì)上作為一個(gè)噪聲過(guò)濾器。此外,更多的特征會(huì)導(dǎo)致長(zhǎng)運(yùn)行時(shí)間[2]。
主成分分析(Principal Component Analysis,PCA)是一種常用的數(shù)據(jù)分析方法。PCA通常被用于高維數(shù)據(jù)的降維操作,是利用線性變換的方法,將原始的數(shù)據(jù)轉(zhuǎn)換為一組線性無(wú)關(guān)的維度表示,利用這種表示可以提取出相關(guān)數(shù)據(jù)的主要特征分量。PCA可以將數(shù)據(jù)的維數(shù)在保持0.95的方差內(nèi)投影到多個(gè)維數(shù),同時(shí)消除嵌入時(shí)的噪聲和離群值。通過(guò)PCA保持大量的維度,不會(huì)破壞很多信息[3]。
t-SNE是用于降維的一種機(jī)器學(xué)習(xí)算法,由Laurens van der Maaten 和 Geoffrey Hinton在2008年提出。作為一種非線性的降維算法,t-SNE算法常被用于流形學(xué)習(xí)的降維過(guò)程。t-SNE算法通常被用于高維數(shù)據(jù)降維到2或3維數(shù)據(jù),便于可視化操作。
使用t-SNE,可以將高維特征向量縮減到2維,通過(guò)使用這2個(gè)維度作為x,y坐標(biāo),可以繪制body_text。t-SNE在降低維度的同時(shí),盡量讓相似的實(shí)例靠近,而不相似的實(shí)例分開(kāi)。它主要用于可視化,特別是可視化高維空間中的實(shí)例集群[4]。
K均值聚類算法通常被用于數(shù)據(jù)迭代求解中的聚類分析(見(jiàn)圖1)。聚類是指將數(shù)據(jù)分組并集中于某些相似的數(shù)據(jù)成員的過(guò)程。人們通常稱這種發(fā)現(xiàn)內(nèi)在結(jié)構(gòu)的操作為無(wú)監(jiān)督學(xué)習(xí)。K均值聚類算法是將隨機(jī)選取的K個(gè)對(duì)象作為起始的聚類節(jié)點(diǎn),通過(guò)計(jì)算其余各個(gè)對(duì)象與聚類節(jié)點(diǎn)的相對(duì)距離,選取各個(gè)對(duì)象最小的相對(duì)距離分配給各自對(duì)象。聚類節(jié)點(diǎn)和分配給對(duì)象的相對(duì)距離就代表一個(gè)聚類。所有對(duì)象都被分配完成之后,每個(gè)聚類相對(duì)應(yīng)的聚類節(jié)點(diǎn)都會(huì)被重新計(jì)算。重復(fù)以上步驟直到滿足相應(yīng)的條件,這個(gè)條件可以為以下任意一種:(1)沒(méi)有(或最小數(shù)目)對(duì)象被重新分配給不同的聚類;(2)沒(méi)有(或最小數(shù)目)聚類中心再發(fā)生變化;(3)誤差平方和局部最小。
首先,該工具保存為html文件,它可以下載并在本地使用;其次,維度的減小將減小數(shù)據(jù)集的訪問(wèn)難度。論文都在圖上,可以通過(guò)懸停在它們上面進(jìn)行快速檢查,如果摘要看起來(lái)很有趣,用戶就可以通過(guò)點(diǎn)擊該點(diǎn),得到一個(gè)包含更加詳細(xì)信息的文本框鏈接。再者,通這些無(wú)監(jiān)督的技術(shù)可以向人們展示文獻(xiàn)中隱藏的聯(lián)系;最后,這項(xiàng)工作可以很容易地根據(jù)需要進(jìn)行復(fù)制和修改,以便作為未來(lái)項(xiàng)目的基礎(chǔ)。但是研究中也同樣存在著一些問(wèn)題值得深思,例如可能出現(xiàn)假陽(yáng)性,難以在主體之間劃出準(zhǔn)確的界限;K-means和t-SNE是無(wú)監(jiān)督的方法,不一定會(huì)以可預(yù)測(cè)的方式對(duì)實(shí)例進(jìn)行分組,同樣正是由于它們的無(wú)監(jiān)督性質(zhì),對(duì)于如何對(duì)論文進(jìn)行聚類,沒(méi)有一個(gè)“標(biāo)準(zhǔn)的答案”,一旦出現(xiàn)問(wèn)題,可能很難調(diào)試;本文中使用的算法是隨機(jī)的,因此結(jié)果可能會(huì)隨著算法的變化而變化;并且會(huì)增加其在大型數(shù)據(jù)集文獻(xiàn)的運(yùn)行時(shí)間。
對(duì)關(guān)于COVID-19的文獻(xiàn)進(jìn)行分組,減少數(shù)據(jù)集的維度,這樣就得到了一幅散點(diǎn)圖,其中類似主題的文獻(xiàn)被歸為一組,其背后連接著一個(gè)更大的主題群。聚類和關(guān)鍵詞都是通過(guò)無(wú)監(jiān)督學(xué)習(xí)模型找到的,可以揭示人類可能根本沒(méi)有想到的模式。在這個(gè)項(xiàng)目的任何部分,不必手動(dòng)組織論文。K-means(用顏色表示)和t-SNE(用點(diǎn)表示)能夠獨(dú)立地找到聚類,這表明論文之間的關(guān)系可以被識(shí)別和測(cè)量。在多數(shù)情況下,相似的研究領(lǐng)域都被聚類,最后的評(píng)估方法是分類,通過(guò)用K-means標(biāo)簽訓(xùn)練一個(gè)分類模型,然后在一個(gè)單獨(dú)的數(shù)據(jù)子集上進(jìn)行測(cè)試,可以看到聚類并不是完全任意的。需要說(shuō)明的是,不評(píng)估文獻(xiàn)的質(zhì)量,僅僅將其分類,創(chuàng)建這個(gè)工具是為了幫助專門(mén)人員更方便地篩選出許多與新冠病毒有關(guān)的文獻(xiàn),解決他們的需求。