• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Gephi的航運(yùn)招聘信息可視化分析

      2018-06-01 18:11:48王揚(yáng)田野李鐵山陳俊龍彭東成周義華
      大數(shù)據(jù) 2018年3期
      關(guān)鍵詞:頻數(shù)職位船員

      王揚(yáng),田野,李鐵山,陳俊龍,2,彭東成,周義華

      1. 大連海事大學(xué)航海學(xué)院,遼寧 大連 116026;

      2. 澳門大學(xué)科技學(xué)院,澳門 999078;

      3. 大連灣遼漁集團(tuán)港務(wù)分公司,遼寧 大連 116026

      1 引言

      隨著大數(shù)據(jù)的提出,各行各業(yè)對于數(shù)據(jù)的重視程度達(dá)到了前所未有的高度,航運(yùn)業(yè)也不例外。航運(yùn)招聘信息作為航運(yùn)市場信息的重要組成部分,對于海事部門的資源調(diào)度以及應(yīng)聘者的求職都有著非常重要的參考價值。數(shù)據(jù)可視化作為數(shù)據(jù)分析以及數(shù)據(jù)呈現(xiàn)的重要手段,受到各界越來越多的重視。傳統(tǒng)的數(shù)據(jù)可視化仍然多以條形圖、折線圖、餅圖為主,形式相對來說過于單一,而且呈現(xiàn)的信息仍然較為抽象,較難反映各因素各水平之間的關(guān)聯(lián)性。如何將海量的船員招聘信息進(jìn)行統(tǒng)計處理并以合理的方式呈現(xiàn)出來成為一個亟待解決的問題。

      作為專業(yè)的航運(yùn)類網(wǎng)站,航運(yùn)在線網(wǎng)基本涵蓋了航運(yùn)產(chǎn)業(yè)鏈的各個環(huán)節(jié),包括散雜貨租船、集裝箱訂艙、船舶買賣、備件物料供應(yīng)、船員招聘、陸上管理人才招聘、船舶管理、船舶保險等。

      本文以航運(yùn)在線網(wǎng)站上的船員招聘信息為例,借助復(fù)雜網(wǎng)絡(luò)可視化分析軟件Gephi對航運(yùn)招聘信息中的主要因素進(jìn)行分析以及可視化,以發(fā)現(xiàn)各因素之間的聯(lián)系。通過直觀地展現(xiàn)各因素各水平之間關(guān)聯(lián)的強(qiáng)弱,揭示航運(yùn)招聘信息的特點(diǎn),以期為海事部門的管理以及應(yīng)聘者提供直觀的分析參考。

      2 數(shù)據(jù)可視化準(zhǔn)備

      在數(shù)據(jù)可視化之前,首先需要獲取所需數(shù)據(jù),其次進(jìn)行數(shù)據(jù)預(yù)處理,為數(shù)據(jù)可視化做好充分的準(zhǔn)備。

      2.1 數(shù)據(jù)獲取

      本文數(shù)據(jù)的主要來源是航運(yùn)在線網(wǎng)上的船員招聘信息,利用Python編程工具和網(wǎng)絡(luò)爬蟲技術(shù)對其進(jìn)行批量獲取,并存儲到本地Excel文件中,以便進(jìn)行后續(xù)的可視化分析。其中,獲取到的部分?jǐn)?shù)據(jù)見表1,獲取到的數(shù)據(jù)主要有編號、職位、證書、月薪、總噸、航線區(qū)域、招聘船型、招聘公司、日期共9列信息(這里只選取其中一個月的數(shù)據(jù),以2017年4月為例進(jìn)行分析,經(jīng)初步的數(shù)據(jù)清洗之后一共有1 864條數(shù)據(jù))。

      2.2 數(shù)據(jù)預(yù)處理

      本文使用的數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)去重、數(shù)據(jù)異常值剔除以及精簡研究對象。本文使用Excel對數(shù)據(jù)進(jìn)行去重處理。對于異常值的處理,由于其數(shù)量不是很多(占比不到5%),對于要分析的數(shù)據(jù)總體幾乎沒有影響,所以這里采用的方法是直接從總體中剔除。由于月薪一列的觀測值多為“面議”以及各種非標(biāo)準(zhǔn)的數(shù)據(jù),所以在這里不予考慮,全部刪除。此外,船員編號和招聘公司信息以及招聘日期在本文中用處不大,予以刪除。這樣處理之后,可以將需要的信息進(jìn)行集中整合,見表2。

      本節(jié)主要通過Python爬取航運(yùn)在線網(wǎng)上的船員招聘信息,并使用Excel對爬取到的數(shù)據(jù)做簡單的數(shù)據(jù)預(yù)處理工作,為后續(xù)的數(shù)據(jù)可視化做好相應(yīng)的數(shù)據(jù)準(zhǔn)備。

      3 數(shù)據(jù)可視化分析

      3.1 基于Gephi的初步可視化

      首先將數(shù)據(jù)加工成Gephi需要的CSV格式。Gephi的圖形要素為節(jié)點(diǎn)和邊,相應(yīng)地,需要導(dǎo)入節(jié)點(diǎn)數(shù)據(jù)和邊數(shù)據(jù)。導(dǎo)入數(shù)據(jù)之后,Gephi默認(rèn)的布局算法是正方形輪廓的隨機(jī)布局算法[1],如圖1所示。節(jié)點(diǎn)之間顯得比較擁擠和混亂,部分節(jié)點(diǎn)被遮擋,因此效果不是很好。為了使可視化的效果更好一些,先使用Force Atlas算法[2],再使用改進(jìn)的彈簧模型(FruchtermanReingold)算法以優(yōu)化節(jié)點(diǎn)的布局。由于節(jié)點(diǎn)較多,F(xiàn)orce Atlas算法的運(yùn)行速度和效果都不太理想,所以改用Force Atlas2和FruchtermanReingold結(jié)合的方式進(jìn)行布局[3],最后穩(wěn)定下來的預(yù)覽圖如所示。

      表1 獲取的部分?jǐn)?shù)據(jù)

      利用Gephi進(jìn)行初步可視化有助于了解數(shù)據(jù)的整體情況和大致分布。如圖2所示,不難看出數(shù)據(jù)在幾個點(diǎn)比較集中。由于節(jié)點(diǎn)較多,初步可視化的效果并不是很好,也很難從繁雜的連線中進(jìn)一步解讀信息。針對這些問題,需要對數(shù)據(jù)進(jìn)行進(jìn)一步加工。

      表2 預(yù)處理之后的部分?jǐn)?shù)據(jù)集

      3.2 數(shù)據(jù)二次加工

      對于初步可視化的結(jié)果,為了有一個定量的判斷,這里使用統(tǒng)計分析的利器——R語言進(jìn)行數(shù)據(jù)的進(jìn)一步加工。首先將數(shù)據(jù)表導(dǎo)入R軟件中進(jìn)行必要的描述統(tǒng)計,結(jié)果如圖3所示,可以看出每一個因子的主要水平以及沒有列全的許多次要水平。為了消除次要水平的干擾,這里只對主要水平進(jìn)行統(tǒng)計分析。經(jīng)過第二次刪減之后,數(shù)據(jù)精簡到1 417個觀測值。

      3.3 基于Gephi的可視化分析

      除了使用進(jìn)一步加工的數(shù)據(jù)源,Gephi的基本操作和第4.1節(jié)中的描述幾乎一致,這里不再贅述。接下來依據(jù)實(shí)際收集到的數(shù)據(jù)的特點(diǎn)對Gephi進(jìn)行可視化方案的設(shè)計。

      圖1 正方形輪廓的隨機(jī)布局概覽

      在權(quán)重設(shè)計階段,因為每兩個不同因素水平之間的頻數(shù)最小為1,最大為534,相差較大,所以這里將頻數(shù)處理為邊的權(quán)重,以體現(xiàn)兩個水平之間的緊密程度是不合理的。但是,為了在一定程度上反映它們之間聯(lián)系的緊密程度,在權(quán)重的設(shè)置上采取參考頻數(shù)的做法進(jìn)行權(quán)重劃分。將頻數(shù)在1~100的權(quán)重設(shè)置為1,其比例占到了所有統(tǒng)計量的92.77%;將頻數(shù)在101~200的權(quán)重設(shè)置為2,其比例為4.34%;將頻數(shù)在201~300的權(quán)重設(shè)置為3,其比例為1.2%;將頻數(shù)在301~400的權(quán)重設(shè)置為4,其比例為0.96%;將頻數(shù)在401~500的權(quán)重設(shè)置為5,其比例為0.48%;將頻數(shù)在501~600的權(quán)重設(shè)置為6,其比例為0.24%。當(dāng)然也可根據(jù)實(shí)際的分析需求對權(quán)重的劃分采取更精確更細(xì)致的算法,在這里只是做一個相對簡單的劃分。因為本文重點(diǎn)考察各水平之間的相互關(guān)系,而各因素之間的聯(lián)系是相互的,如果采取有向邊的設(shè)置,就會導(dǎo)致不必要的重復(fù)計數(shù),所以本文采取無向邊的設(shè)置。這樣做不僅可以少計算一半邊的數(shù)量,大大簡化構(gòu)建的網(wǎng)絡(luò)圖的復(fù)雜度,同時還能保證分析的精度。為了充分顯示兩個水平之間具體的關(guān)聯(lián)程度,將統(tǒng)計的兩個水平同時出現(xiàn)的頻數(shù)以邊標(biāo)簽的形式映射到圖中,而將每個水平出現(xiàn)的總頻數(shù)以點(diǎn)標(biāo)簽的形式映射到圖中。此外,結(jié)合專業(yè)知識對職位因素進(jìn)一步細(xì)分為甲板部船員和輪機(jī)部船員并區(qū)別顯示。

      圖2 數(shù)據(jù)的初步可視化預(yù)覽

      圖3 R軟件進(jìn)一步處理之后的數(shù)據(jù)統(tǒng)計信息

      經(jīng)過進(jìn)一步的數(shù)據(jù)可視化準(zhǔn)備,通過Gephi進(jìn)行可視化的整體效果如圖4所示,一共得到了36個節(jié)點(diǎn)以及415條無向邊(數(shù)據(jù)僅限航運(yùn)在線網(wǎng)2017年4月的招聘信息)。經(jīng)過簡單的統(tǒng)計計算,可以得到以下參數(shù)值。

      ● 平均度:23.056。

      ● 平均加權(quán)度:26.111。

      ● 網(wǎng)絡(luò)直徑:2。

      ● 圖密度:0.659。

      ● 模塊化:0.075。

      ● 平均聚類系數(shù):0.608。

      ● 平均路徑長度:1.341。

      通過無向圖的濾波功能,可以很方便地通過人機(jī)交互的方式查看需要考察的各因素之間的關(guān)系。

      在本文的研究中,將同一變量下的不同水平(即同一變量的不同取值,如船型變量下有油船、散貨船、集裝箱船等取值)作為節(jié)點(diǎn),節(jié)點(diǎn)的大小代表該水平在招聘信息中出現(xiàn)的次數(shù)。本研究中的邊代表的是不同變量的不同水平在招聘信息中成對出現(xiàn)的次數(shù),即邊反映了兩端節(jié)點(diǎn)同時出現(xiàn)的次數(shù)。

      3.3.1 船員職位與航線因素之間的關(guān)系

      接下來按照類似的方法可以考察職位因素和航線因素之間各水平的聯(lián)系。首先由圖5可以看出,節(jié)點(diǎn)數(shù)為19(占比52.78%),邊的個數(shù)為83(占比20%),平均度為8.737,平均加權(quán)度為8.842,圖密度達(dá)到0.485。通過邊的占比不難發(fā)現(xiàn),航線與職位因素的聯(lián)系較為緊密。通過計算平均度或平均加權(quán)度也能較清晰地看到這一點(diǎn),它們之間是比較一致的。職位因素的各水平在航線上的分布相對均勻。輪機(jī)部船員各水平與航線因素各水平同時出現(xiàn)的頻數(shù)均不超過100。由圖5可以看到,三副在眾多職位水平中對航線因素中的國內(nèi)南北線水平貢獻(xiàn)較大,貢獻(xiàn)比為105/670=15.7%,反過來說,在各航線水平中,國內(nèi)南北線對三副的貢獻(xiàn)也最大,貢獻(xiàn)比為105/163=64.4%。

      上述計算結(jié)果表明國內(nèi)南北線對三副的需求巨大。

      3.3.2 航線與船員證書因素之間的關(guān)系

      圖6是對航線因素和船員證書因素各水平之間關(guān)系的可視化呈現(xiàn)。圖6中共有11個節(jié)點(diǎn)(占比30.56%),其中,航線因素有7個水平(占比19.44%),證書因素有4個水平(占比11.11%),邊的個數(shù)是17(占比4.1%)。若以航線為考察對象,則對國內(nèi)南北線貢獻(xiàn)最大的是丙一證書,貢獻(xiàn)比約為79.7%,接近80%,而環(huán)球航線、東南亞航線等國際航線對于證書的需求主要是甲類證書,甲類證書對以上兩條航線的貢獻(xiàn)比分別約為89.85%和90.35%。

      上述計算結(jié)果表明國內(nèi)南北線需要的證書類型主要是丙一證書,這與丙一證書適用于國內(nèi)沿海航線的服務(wù)范圍是高度一致的。對于國際航線來說,證書絕大多數(shù)都是甲類證書。這也與甲類證書適用于全球航線的規(guī)定相一致。

      3.3.3 船員職位與船型因素之間的關(guān)系

      圖7顯示的是船型因素與船員職位之間的關(guān)系。若以船型為考察對象,可以很明顯地看出三副和水手對散雜貨船的貢獻(xiàn)相對較大,占比分別達(dá)到10.64%和11.96%。反過來說,在所有統(tǒng)計的船型中,散雜貨船對三副和水手貢獻(xiàn)也最大,分別達(dá)到了63.8%和73.58%,占比都超過了2/3。以油輪來說,高級船員(二副、二管輪及以上)占比約為53.85%(42/78),低級船員占比約為25.64%(20/78)。

      上述計算結(jié)果從側(cè)面反映了對于機(jī)械化和信息化水平都不是很高的散雜貨船來說,它對三副和水手的需求量都是很大的。這也在一定程度上解釋了坊間常說的“有經(jīng)驗的水手比剛剛畢業(yè)的高級船員要受歡迎”的現(xiàn)象。對于自動化水平較高的船舶來說,例如集裝箱船和油輪,這種現(xiàn)象則很不明顯,甚至不存在,高級船員的需求仍是主流。

      3.3.4 船員職位與船員證書因素之間的關(guān)系

      圖8展示了職位因素與證書因素各水平之間的關(guān)系。其中,只有三副和丙一共同出現(xiàn)的頻數(shù)超過100。若以前者為考察對象,則占比約為69.94%(114/163);若以后者為考察對象,則占比約為18.69%(114/610)。

      圖4 整體效果

      圖5 航線—職位網(wǎng)絡(luò)關(guān)系

      圖6 航線—船員證書網(wǎng)絡(luò)關(guān)系

      圖7 船型—職位網(wǎng)絡(luò)關(guān)系

      圖8 船員職位—船員證書網(wǎng)絡(luò)關(guān)系

      上述結(jié)果表明在所考察的數(shù)據(jù)中,三副的證書以丙一居多。換句話說,這里統(tǒng)計的資料表明,低水平的三副占了大多數(shù),超過2/3,對于高水平的三副來說,數(shù)量還是不多。

      3.3.5 船員職位與船舶噸位因素之間的關(guān)系

      圖9展示了船員的職位因素和船舶噸位因素各水平之間的聯(lián)系。從可以看出,所有的水平并沒有明顯的集中趨勢,至少頻數(shù)并沒有超過100的。為了更進(jìn)一步探索船員職位因素和船舶噸位因素各水平之間的聯(lián)系,需要重新設(shè)置權(quán)重。本文為進(jìn)一步探究船員職位和船舶噸位各水平之間的關(guān)系,采用頻數(shù)與10的比值進(jìn)行權(quán)重設(shè)置。為了使頻數(shù)小于10的邊也能在網(wǎng)絡(luò)圖中有所顯示,本文在Excel中采用表達(dá)式weight=INT(n/10+1)對邊進(jìn)行權(quán)重設(shè)置。其中n代表邊兩端的節(jié)點(diǎn)同時出現(xiàn)的次數(shù),加1是為了對計算的結(jié)果進(jìn)行平滑處理。通過重新設(shè)置權(quán)重,可以將船員職位水平與船舶噸位水平之間關(guān)系的差異放大,以便進(jìn)行對比分析。圖10是權(quán)重調(diào)整之后的網(wǎng)絡(luò)關(guān)系。其中,節(jié)點(diǎn)數(shù)為18(占比為50%),邊的個數(shù)為68(占比為16.4%),平均度為7.556,平均加權(quán)度為19.889,網(wǎng)絡(luò)直徑達(dá)到3,圖密度達(dá)到0.444。從圖10中不難看出,在船舶噸位的分布中,1萬~2萬噸級的船舶招聘船員的職位占比為644/(644+207+337+148+17+64)=45.4%,對船員職位招聘崗位的貢獻(xiàn)接近一半。其中,對三副崗位的貢獻(xiàn)達(dá)到12.4%(80/644),在其提供的所有崗位中占比最大。對于考察的三副崗位總體來說,該噸級提供的80個崗位也接近三副總體崗位的一半,占比達(dá)49.1%(80/163),可以說1萬~2萬噸級的船舶對三副的需求量最大。因為權(quán)重的閾值設(shè)小之后,權(quán)重的取值也隨之增多,所以為了進(jìn)一步看清楚,可以通過Gephi的濾波功能,逐步篩選出權(quán)重大于3的邊以及權(quán)重大于6的邊,分別如圖11和圖12所示。通過圖12可以很明顯地看到,1萬~2萬噸級的船舶提供的崗位主要是大副、二副、三副、二管輪和三管輪,這些崗位占了1萬~2萬噸級船舶提供崗位的52.8%((64+62+80+72+62)/644),占據(jù)了所有招聘崗位的一半以上。雖然提供的三副崗位是最多的,但是提供占比較大的崗位卻是二副、二管輪、三管輪,提供的崗位占比分別達(dá)到了53.9%(62/115)、55.4%(72/130)、56.4%(62/110),提供占比最大的崗位是三管輪。

      3.3.6 基于度范圍的網(wǎng)絡(luò)拓?fù)鋱D

      通過過濾器中的拓?fù)溥x項卡可以查看本關(guān)系網(wǎng)絡(luò)的度范圍是14~31,即各水平至少與14個其他水平相關(guān),至多與31個其他水平相關(guān)。調(diào)節(jié)度范圍進(jìn)行濾波,可以看出,將度范圍的起始值設(shè)為25,可以保留大部分顯著水平,同時精簡網(wǎng)絡(luò)結(jié)構(gòu)。隨著逐步提升度范圍的起始值,可以逐步過濾度少于起始值的節(jié)點(diǎn),而保留那些度大于或等于起始值的節(jié)點(diǎn)。圖13展現(xiàn)的是度的起始值為27的結(jié)果。直到最后,可以發(fā)現(xiàn),度范圍在28~31的水平只有3個,如圖14所示。圖14中顯示的分別為船型水平(散雜貨船)、證書水平(甲類)、噸位水平(1萬~2萬噸級),這3個因素水平具有與其他因素水平聯(lián)系多且頻數(shù)大的特點(diǎn),可以說是整個招聘信息網(wǎng)絡(luò)的核心。

      圖9 船員職位—船舶噸位網(wǎng)絡(luò)關(guān)系

      圖10 調(diào)整邊權(quán)重后船員職位—船舶噸位網(wǎng)絡(luò)關(guān)系

      圖11 邊權(quán)重>3的船員職位—船舶噸位網(wǎng)絡(luò)關(guān)系

      圖12 邊權(quán)重大于6的船員職位—船舶噸位網(wǎng)絡(luò)關(guān)系

      圖13 度范圍為27~31的網(wǎng)絡(luò)拓?fù)?/p>

      圖14 度范圍為28~31的網(wǎng)絡(luò)拓?fù)?/p>

      4 結(jié)束語

      本文基于數(shù)據(jù)可視化技術(shù)以及可視化工具Gephi,利用網(wǎng)絡(luò)爬蟲工具采集了航運(yùn)在線網(wǎng)上的航運(yùn)招聘數(shù)據(jù),并對數(shù)據(jù)進(jìn)行必要的清洗、過濾及加工等預(yù)處理操作,得到了相對粗糙的數(shù)據(jù)。基于Gephi對船員數(shù)據(jù)進(jìn)行了初步的可視化分析。在得到數(shù)據(jù)大致分布之后,使用R語言對數(shù)據(jù)進(jìn)行二次加工,將處理好的數(shù)據(jù)再次通過Gephi進(jìn)行可視化呈現(xiàn)。從分析結(jié)果中可以很直觀地看出航運(yùn)招聘信息中各因素的主要水平值。此外,通過交互式分析,探索了船員數(shù)據(jù)中各個屬性之間的關(guān)聯(lián)程度以及航運(yùn)招聘信息網(wǎng)絡(luò)的核心屬性,以期為海事部門探索船員市場需求和應(yīng)聘者的求職提供一定的借鑒及參考。

      [1]劉勇, 杜一. 網(wǎng)絡(luò)數(shù)據(jù)可視化與分析利器:Gephi中文教程[M]. 北京: 電子工業(yè)出版社,2017: 163-164.LIU Y, DU Y. Network data visualization and analysis tool: Gephi Chinese Tutorial[M]. Beijing: Publishing House of Electronics Industry, 2017: 163-164.

      [2]關(guān)迎暉, 向勇, 陳康. 基于Gephi的可視分析方法研究與應(yīng)用[J]. 電信科學(xué), 2013(S1):112-119.GUAN Y H, XIANG R, CHEN K. Research and application of visual analysis method based on Gephi[J].Telecommunications Science, 2013(S1): 112-119.

      [3]李學(xué)蘭. 基于Gephi的物流金融研究可視化[J].牡丹江大學(xué)學(xué)報, 2017(1): 26-28, 46.LI X L. Visualization of logistics finance research based on Gephi[J]. Journal of Mudanjiang University, 2017(1): 26-28,46.

      猜你喜歡
      頻數(shù)職位船員
      領(lǐng)導(dǎo)職位≠領(lǐng)導(dǎo)力
      我國注冊船員超170萬
      水上消防(2021年4期)2021-11-24 15:29:42
      闖海盜老巢接船員
      職位之謎與負(fù)謗之痛:柳治徵在東南大學(xué)的進(jìn)退(1916—1925)
      中考頻數(shù)分布直方圖題型展示
      學(xué)習(xí)制作頻數(shù)分布直方圖三部曲
      論船員在海事污染中的刑事責(zé)任
      頻數(shù)和頻率
      美最高就業(yè)率地鐵圈
      海外星云 (2014年22期)2015-01-19 09:34:28
      盜汗病治療藥物性味歸經(jīng)頻數(shù)分析
      甘泉县| 许昌市| 崇左市| 磐安县| 万年县| 定安县| 青冈县| 大方县| 逊克县| 香港 | 北宁市| 吕梁市| 石家庄市| 枝江市| 荔波县| 广灵县| 喀喇沁旗| 章丘市| 丰城市| 固镇县| 扬州市| 东山县| 交口县| 朝阳区| 延川县| 云安县| 萍乡市| 武安市| 逊克县| 宁安市| 巴青县| 彰武县| 福鼎市| 承德县| 舞阳县| 前郭尔| 兰西县| 景洪市| 旬邑县| 南木林县| 灵山县|