韓田宇
(遼寧師范大學地理科學學院,遼寧 大連 116029)
由于船舶自動識別系統(tǒng)( Automatic Identification System,AIS)數(shù)據(jù)中存在著大量的海洋特征信息,通過與數(shù)據(jù)挖掘與分析技術進行結合,對船舶的行駛軌跡進行聚類研究,從而尋找出典型航行軌跡特征規(guī)律,進一步將軌跡綜合為多個運動規(guī)律相似的對象所構成的空間簇,最終通過典型軌跡航線表示船舶航行規(guī)律信息。本系統(tǒng)是進一步分析和預測船舶航行軌跡、為船舶合理航行提供參考、對部分船舶的異常行為軌跡及時發(fā)現(xiàn)且調控的先決條件,并且為最終實現(xiàn)船舶智能交通監(jiān)管系統(tǒng)監(jiān)管船舶航行提供有力支持。
在現(xiàn)有的聚類算法中,DBSCAN 算法作為一種典型的基于密度的無監(jiān)督聚類算法。其認為簇是密度相連的點的最大集合[1]。在沒有規(guī)定聚類簇個數(shù)的前提下,可以發(fā)現(xiàn)任意形狀和大小的軌跡簇。對于DBSCAN 算法而言,其聚類精度取決于鄰域半徑參數(shù)ε 和鄰域密度閾值MinPts 的取值[2]。為了降低這兩個參數(shù)對于聚類精度的影響,本文參考了層次聚類的思想,最終采用了基于層次聚類的對DBSCAN 進行改進的算法--HDBSCAN(Hierarchical-based DBCSAN)算法[3]。
DBSCAN 算法作為基于密度聚類算法中的經(jīng)典算法。其可以發(fā)現(xiàn)任意形狀的簇,并且在不指定聚類簇個數(shù)的前提下生成若干簇。DBSCAN 算法將軌跡點分為三類:
小學科學強調以探究性教學為核心,要想保證教學的效果,就必須要為學生提供探究的機會,鼓勵學生在探究過程中體會學習的樂趣,培養(yǎng)思考能力和動手能力,從而更好的應用科學知識來解決生活中遇到的各種問題。例如,在對“保護環(huán)境”一課進行教學時,教師即使長篇大論的說明環(huán)境污染的嚴重性,并以數(shù)據(jù)來證實保護環(huán)境的迫切性,但對身處農(nóng)村和西部農(nóng)業(yè)區(qū)域的學生而言,不會有任何的感觸;對東部發(fā)達城市和沿海沿江城市的學生而言,缺水問題同樣是一個難以理解的問題。因此,教師可以鼓勵學生自主分組,然后利用計算機訪問相應的環(huán)保網(wǎng)站,對資料進行收集和對比,使其切身感受到環(huán)境保護的迫切性。
(1)核心點:在半徑Eps 鄰域內含有超過MinPts 數(shù)目的點。
由于HDBSCAN 的目標是發(fā)現(xiàn)密度可變的集群,因此它轉而構建復雜層次樹的簡化版本,即壓縮集群樹。這種方法遵循了樹修剪的概念。從根節(jié)點開始,只有當兩個子集群中至少包含minPts 對象時,HDBSCAN 才認為每個集群的分裂是真正的分裂。如果它們都包含少于minPts 的對象,則認為集群在此密度級別上已經(jīng)消失。如果只有一個子集群的對象小于minPts,則解釋為父集群只是丟了分,但仍然存在?!皝G失”分被視為噪音。這種簡化過程產(chǎn)生了不同密度級別的候選簇的層次結構。
(3)噪音點:既不是核心點也不算邊界點的點。
DBSCAN 算法的核心思想就是找出所有密度相連的軌跡點,并各自組成簇(見圖1)。該算法需要人為指定兩個參數(shù)MinPts 與Eps。因此,直接影響聚類精度的因素在于參數(shù)的選取。
圖1 DBSCAN 流程圖
HDBSCAN 算法參考了層次聚類的思想。HDBSCAN是對于DBSCAN 的改進,它聲明邊界點為噪聲點。與DBSCAN 不同,HDBSCAN 不基于全局的eps 閾值選擇集群,而是創(chuàng)建一個層次結構,將所有可能的eps 值與minPts 作為最小集群大小。
在正式抽水試驗前進行試抽水試驗,第一次試抽持續(xù)14 h,水量、動水位、水溫已處于穩(wěn)定狀態(tài)。后下油管探底,采用泵沖洗循環(huán),提油管至上部再次氣舉洗井。熱水變清后進行了第二次試抽水試驗,試抽延續(xù)時間18 h,水量、動水位、水溫也已處于穩(wěn)定狀態(tài),經(jīng)過對兩次試抽試驗的數(shù)據(jù)對比分析,兩次試抽水溫相同,水位與水量的變化規(guī)律符合設計中試抽水試驗的要求,同時證明洗井工作達到了要求。
其有效降低了聚類參數(shù)對于DBSCAN 算法聚類精度的影響;同時,由于HDBSCAN 不會依此對軌跡點進行檢測,而是判斷部分核心點從而生成結果簇,以至于減少了查詢次數(shù),降低了對讀寫的壓力。實現(xiàn)流程如圖2。
媒介的發(fā)展與社會的進步是分不開的,隨著社會的發(fā)展,新的媒介逐漸產(chǎn)生,為了區(qū)分之前的媒介,引入了新的名詞“新媒介”。麥克盧漢指出,“新媒介”是數(shù)字化是互動的。與傳統(tǒng)媒介相比較而言,新媒介具有雙向傳播、信息容易獲取和傳播、有利于繼續(xù)學習等特點。波爾特和格魯森[1]認為:將一種媒介在另一種媒介里再現(xiàn)稱為補救,補救是新數(shù)字媒介的界定性特征。一個問題出現(xiàn)之后,新媒介重塑傳統(tǒng)媒介的解決方式,如互聯(lián)網(wǎng)、電子郵件、博客,不僅僅是信息的被動接受,而是主動參與進來,與學習者分享,雙向交流的過程,就可以稱為“新媒介”。新媒介就是一個不斷融合的過程。
圖2 HDBSCAN 流程圖
1.2.1 相互可達距離
08: endfor
在HDBSCAN 中,核心距離dmreach-k被定義為一個對象與其minPts 最近鄰的距離。構建的層次結構基于兩個對象的可達距離為:
周轉材料租賃主要在于對施工項目的主體結構起到輔助成型的作用,租賃公司的租賃材料主要覆蓋了建筑施工項目多次周轉的施工材料,包括主體施工中的模板腳手架的各項材料,這類材料在主體施工的過程中存在用量大、損耗大的問題,由于其用量大及損耗大的施工問題,對于承租單位(施工單位)來說工程造價中所占的比例也大,稍微管理不當對于租賃單位及承租單位都會出現(xiàn)不可預估的經(jīng)濟損失。
其中d(a,b)表示根據(jù)所選度量的“正?!本嚯x,如歐氏距離。該方法通過至少核心距離將稀疏點與其他點分離,使聚類可以有效地識別噪聲。然后,數(shù)據(jù)集可以表示為一個圖,數(shù)據(jù)對象作為頂點,用相互可達距離作為權值的加權邊連接,結果如圖3 所示。用這個圖構造一棵最小生成樹,并根據(jù)相互可達距離對它的邊進行排序,得到一個層次化的樹結構(樹形圖)。通過選擇一個作為全局水平切割值,并選擇在這個密度級別上至少有minPts 點的所有集群,我們可以從層次結構中檢索這個eps 的DBSCAN 集群,即如圖4 所示。
MIN Mi-ke, ZHOU Peng, ZHU Min-hui, SONG Xian-min, ZHENG Hong-liang
光催化法是在光照條件下使催化劑與VOCs發(fā)生氧化反應,將其分解成無污染的H2O和CO2[18]。常用 催 化 劑 有 TiO2,ZnO,WO3,CdS,ZnS,SnO2,F(xiàn)e2O3等,其中TiO2因催化活性好、價格低廉、無毒無害而應用廣泛。
圖3 數(shù)據(jù)加權圖
圖4 權值樹狀圖
1.2.2 壓縮聚類層次結構
圖5 聚類層次結構
(2)邊界點:在半徑Eps 內點的數(shù)目小于MinPts,但是該點位于核心點的Eps 鄰域內。
04:Mark Clusters as noise
Input:ClusterConstruction = {h1,…,hi},MinPts
Output:TreeConstruction with ClusterLabels
01:for each(Construction ∈ClusterConstruction)do
02:for each(Clusters ∈Construction)do
03:if(Clusters ≤MinPts)then
3.6 放療/手術切除 放療適用于局灶性EBV-PTLD患者,主要用于縮小腫瘤。最近Murad等用局部放療聯(lián)合RI成功治療1例皮膚PTLD患者,隨訪3個月,無復發(fā)[26]。手術切除多用于局灶非侵襲性和急癥PTLD患者,包括穿刺失敗以及出現(xiàn)腸穿孔、腸梗阻和胃腸道出血等患者;而復雜性腸道PTLD患者手術切除后早期具有較高的死亡率。研究[27]顯示,EBV-PTLD患者經(jīng)利妥昔單抗治療聯(lián)合化療后,腸穿孔的發(fā)病率較高,因此建議對這些患者進行密切隨訪,及早發(fā)現(xiàn)腸道并發(fā)癥。
壓縮聚類層次結構偽代碼實現(xiàn)如下:
05:set Clusters'distance to ClustersLabel
06: endif
07: endfor
7、new MME繼續(xù)維護從old MME收到的UE的EPS承載上下文。MME會驗證來自UE的EPS承載狀態(tài),并釋放非活動態(tài)EPS承載關聯(lián)的網(wǎng)絡資源。如果沒有承載上下文,MME將拒絕TAU請求。
人力資源管理人員要根據(jù)組織和員工特性,有規(guī)劃地引導開發(fā)和調任,滿足崗位設置的基本要求,結合人才的特點,分析周圍的工作環(huán)境,合理規(guī)劃崗位,激發(fā)人才的內部潛能,鼓勵他們就參與企業(yè)決策中來,提升信息的對稱性和人才的主人翁意識,滿足當前企業(yè)發(fā)展的基本要求。
1.2.3 基于穩(wěn)定性的簇提取
設簇的穩(wěn)定性為距離的倒數(shù)λ。總λ 值越大,越接近最佳效果。其公式如下:
我的家鄉(xiāng)萍鄉(xiāng)是一片擁有光輝革命歷史的紅色土地。在我童年的生活里,到處都可以聽到紅色的故事、見到紅色的舊址、感受到革命的基因。學校組織活動的時候,也經(jīng)常是帶我們去紅色遺址。有一次,學校組織我們去安源紀念館參觀。到了那兒,我大概地看了一下安源紀念館的外觀。紀念館主館的正前方豎立著一根筆直的旗桿,旗桿上的國旗迎風飄揚;再往后一點,是一座毛主席石雕;而主館的大門上方是一幅毛主席肖像。跟隨著講解員阿姨的腳步,我仿佛回到了過去,逐漸了解了少年兒童團的起源,知道了安源故土的紅色故事,我才漸漸明白自己脖子上系著的紅領巾蘊含了多少層含義、多少的故事。
對于給定的簇,若λbirth是其父簇劃分為該簇的λ值,以及λdearth為該簇劃分出其子簇時的λ 值。則簇M穩(wěn)定性λM可表示為:
HDBSCAN 的選擇算法自下而上遍歷簇樹。將每個節(jié)點的穩(wěn)定性值與其穩(wěn)定性值之和進行比較。若節(jié)點穩(wěn)定性大于其穩(wěn)定性之和,則剔除其子節(jié)點并認定該節(jié)點為穩(wěn)定節(jié)點。若節(jié)點穩(wěn)定性小于其穩(wěn)定性之和,則該節(jié)點穩(wěn)定性設為其穩(wěn)定性之和通過這種方式,在樹中向上傳播和更新穩(wěn)定性,直到在每個分支上找到并選擇穩(wěn)定性最高的集群簇。
為了驗證該聚類方法對于船舶軌跡數(shù)據(jù)的有效性,本文基于Python 語言以中國渤海部分海區(qū)的574023 條AIS 軌跡數(shù)據(jù)作為樣本對象進行了試驗。
在數(shù)據(jù)庫中篩出研究范圍水域的全部數(shù)據(jù),對數(shù)據(jù)進行投影轉換、噪聲清洗等預處理。采用道格拉斯-普克算法(Douglas-Peucker,DP)算法對航跡點進行了壓縮,采用歐式距離進行了軌跡線段間距離的度量。最后,完成基于HDBSCAN 的聚類研究。
圖6 HDBSCAN 試驗結果圖
試驗經(jīng)算法共得到9 個類簇,由于研究區(qū)范圍因素,右下兩個類簇連通研究區(qū)外的航路,故不作為本次研究的重點。分析試驗結果,可得到以下結論。
(1)該方法能夠發(fā)現(xiàn)具有相似性的軌跡類簇,例如聚類可以有效識別出從黃河港與天津港交匯,進入渤海主航道等。
(2)類簇結果能夠反映出海域的交通情況。從圖中可知,天津港附近的軌跡數(shù)量較多,說明該海域交通流量大。此外相向軌跡的分布存在著部分重合,說明該海域的交通流混亂、不分明,可能存在著較多的會遇局面。盤錦至老鐵山角之間的軌跡類簇數(shù)量較少,航路較為固定,說明該海域交通相對較為通暢,軌跡分布規(guī)律。這些類簇結果都與渤海區(qū)域部分海域當時的交通情況相符。天津港作為渤海灣的交通樞紐,連通其與蓬萊角附近航路。以及由盤錦出發(fā),經(jīng)老鐵山角,通向黃海。途經(jīng)渤海海峽的兩條主要航路軌跡清晰。
本文針對于傳統(tǒng)DBSCAN 算法中對于參數(shù)過于敏感的問題,采用一種基于層次聚類的思想對其進行改進的,且適用于船舶軌跡數(shù)據(jù)的聚類算法。通過對渤海部分海區(qū)內的實船AIS 聚類試驗,充分證明了該算法具有良好的性能:該算法可以對大數(shù)據(jù)量下的船舶航跡點進行數(shù)據(jù)挖掘,從中提取出具有相似性軌跡并將其聚類成簇,且與實際情況相符,在航道規(guī)劃、航行預測、船舶行為監(jiān)測等方面具有一定的參考價值。
在時間復雜度方面,該算法需要獲取每個層次中所有船舶點相互之間的距離以及多次遍歷行為使得時間復雜度較高,執(zhí)行速度較慢。在相似性度量方面,聚類過程中如何考慮船舶航跡段包括的時間和空間特征的距離計算方法有待優(yōu)化,在此基礎上對聚類算法如何優(yōu)化有待后續(xù)研究,最終實現(xiàn)船舶行為的高效聚類。