于 洋
(遼寧省交通高等??茖W(xué)校, 遼寧 沈陽 110122)
自從工業(yè)和信息化部正式印發(fā)了 《軟件和信息技術(shù)服務(wù)業(yè)發(fā)展規(guī)劃(2016—2020 年)》 以后,該規(guī)劃就作為指導(dǎo)“十三五” 時期軟件和信息技術(shù)服務(wù)業(yè)發(fā)展的綱領(lǐng)性文件, 對推動軟件和信息技術(shù)服務(wù)業(yè)由大變強、 實現(xiàn)發(fā)展新跨越具有重要意義。 高職院校軟件技術(shù)專業(yè)一直承擔(dān)著為軟件和信息技術(shù)服務(wù)業(yè)提供高素質(zhì)技術(shù)技能型的一線技術(shù)人員的社會責(zé)任。 如何培養(yǎng)學(xué)生, 使畢業(yè)生更好地滿足軟件信息技術(shù)服務(wù)于各企事業(yè)單位的需要是高職院校軟件技術(shù)專業(yè)的最終培養(yǎng)目標(biāo)。
軟件技術(shù)專業(yè)的專業(yè)調(diào)研和目標(biāo)崗位的確立在整個人才培養(yǎng)方案中具有突出的地位, 起著關(guān)鍵性的作用, 是人才培養(yǎng)方案中的直接導(dǎo)向和指揮棒。 只有進行大量的充分的專業(yè)崗位調(diào)研, 從中提取挖掘有效數(shù)據(jù), 才能正確確立目標(biāo)崗位。通過對目標(biāo)崗位的調(diào)研, 確立軟件技術(shù)專業(yè)的人才培養(yǎng)目標(biāo)需求, 在將其轉(zhuǎn)換為知識點和技能點, 而后落實到課程, 形成完整的課程體系。 因此, 軟件技術(shù)專業(yè)的專業(yè)調(diào)研和目標(biāo)崗位的確立是人才培養(yǎng)方案中的入手點和起始點, 對整個專業(yè)人才培養(yǎng)起著至關(guān)重要的作用。
目前, 高職院校軟件技術(shù)專業(yè)崗位需求調(diào)研普遍采用傳統(tǒng)的調(diào)研方式, 如濟寧職業(yè)技術(shù)學(xué)院的劉迎春在 《高職軟件技術(shù)專業(yè)調(diào)研與數(shù)據(jù)分析》 中提出的查閱資料法、 問卷調(diào)查法、 實地調(diào)研法、 座談法、 電話訪談法等方法; 貴州電子信息職業(yè)技術(shù)學(xué)院的朱希偉在 《高職院校計算機網(wǎng)絡(luò)技術(shù)專業(yè)(網(wǎng)站開發(fā)方向) 人才需求調(diào)研——以貴州電子信息職業(yè)技術(shù)學(xué)院為例》 中提出的對從事該行業(yè)的往屆畢業(yè)生進行電話采訪; 對從事該行業(yè)的IT 企業(yè)和相關(guān)技術(shù)人員進行實地走訪交流。 因此, 在高職同類院校中軟件技術(shù)專業(yè)的人才需求調(diào)研和崗位調(diào)研大多采用傳統(tǒng)的調(diào)研方式, 如問卷、 訪談等。 傳統(tǒng)調(diào)研方式具有一定的普適性和可行性, 但也存在以下弊端:
(1) 采樣數(shù)據(jù)小, 無法規(guī)?;?。
(2) 人為因素多, 存在主觀片面性。
(3) 缺乏合理規(guī)劃, 調(diào)研內(nèi)容不完整。
在數(shù)字為王的時代背景下, 大數(shù)據(jù)技術(shù)正在被廣泛的應(yīng)用到各行各業(yè), 被大數(shù)據(jù)技術(shù)所捕捉、 處理、 分析和挖掘后是評估、 決策、 戰(zhàn)略部署等的重要依據(jù)。
利用大數(shù)據(jù)技術(shù)對數(shù)據(jù)的處理流程為: 大數(shù)據(jù)采集、 大數(shù)據(jù)預(yù)處理、 大數(shù)據(jù)存儲及管理、 大數(shù)據(jù)分析和挖掘、 大數(shù)據(jù)可視化和展示。
根據(jù)數(shù)據(jù)源的不同, 數(shù)據(jù)采集技術(shù)可以分為三大類: 日志采集、 網(wǎng)絡(luò)數(shù)據(jù)采集和數(shù)據(jù)庫信息采集。
我們?nèi)粘9ぷ鳌?生活和學(xué)習(xí)的環(huán)境中, 各種平臺、 系統(tǒng)和程序會產(chǎn)生大量的日志用于記錄我們的行為、 系統(tǒng)的反饋和程序運行的各種狀態(tài)等, 因此, 有效的對日志數(shù)據(jù)進行采集、分析和挖掘具有重要的意義。 目前常見的日志采集技術(shù)有Flume、 Scribe 等。 Apache Flume 是一個分布式的、 高可靠的、 高擴展的基于流式數(shù)據(jù)的日志采集架構(gòu), 具有強大的容錯能力。Scribe 是Facebook 開源的一款基于分布式共享隊列的日志采集技術(shù), 它不但提供容錯能力,還具有將日志數(shù)據(jù)持久化存儲到本地磁盤的功能。
對于來自于網(wǎng)絡(luò)中的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)而言, 可以采用網(wǎng)絡(luò)爬蟲技術(shù)從網(wǎng)頁中對數(shù)據(jù)進行提取、 清洗和轉(zhuǎn)換 (ETL), 將其轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù), 然后用于后期的處理、 分析和挖掘。 常見的網(wǎng)絡(luò)爬蟲工具有分布式網(wǎng)絡(luò)爬蟲Apache Nutch、 Java 網(wǎng) 絡(luò) 爬 蟲Crawler4j、 WebMagic、WebCollector 和非Java 網(wǎng)絡(luò)爬蟲Scrapy 等。 Apache Nutch 是一款高度可擴展、 高度可伸縮的分布式多任務(wù)框架, 支持Hadoop, 通過提交MapReduce 任務(wù)抓取網(wǎng)頁數(shù)據(jù), 并將他們存儲在HDFS 分布式文件系統(tǒng)中。 Crawler4j 和Scrapy 是通過提供的爬蟲API 接口來實現(xiàn)的數(shù)據(jù)爬取, 不需關(guān)心內(nèi)部的實現(xiàn)原理, 大大減少開發(fā)周期, 提高了開發(fā)效率。
也有一部分?jǐn)?shù)據(jù)來源于數(shù)據(jù)庫, 這里的數(shù)據(jù)庫可以是像MySQL 和Oracle 等的關(guān)系數(shù)據(jù)庫,也 可 以 是 像 Redis、 MongoDB 和 HBase 等NoSQL 非關(guān)系數(shù)據(jù)庫。 這部分?jǐn)?shù)據(jù)通過在采集端部署的數(shù)據(jù)庫進行負(fù)載的均衡和分片來完成大數(shù)據(jù)的采集工作。
大數(shù)據(jù)預(yù)處理是指在對數(shù)據(jù)進行分析和挖掘前, 先對采集上來的原始數(shù)據(jù)進行的一系列如清洗、 填補、 平滑、 合并、 規(guī)格化、 一致性檢驗等操作, 使數(shù)據(jù)質(zhì)量得以提高, 以達到減輕后期數(shù)據(jù)分析的難度, 提高數(shù)據(jù)分析的質(zhì)量的作用。 大數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、 數(shù)據(jù)集成、 數(shù)據(jù)轉(zhuǎn)換、 數(shù)據(jù)規(guī)約四部分內(nèi)容。
大數(shù)據(jù)存儲是指以數(shù)據(jù)庫的形式將采集和預(yù)處理好的數(shù)據(jù)存儲到存儲器的過程, 主要包括三種情況: 基于MPP 架構(gòu)的新型數(shù)據(jù)庫集群、 基于Hadoop 的技術(shù)擴展和封裝和大數(shù)據(jù)一體機。
與傳統(tǒng)數(shù)據(jù)庫不同, 采用Shared Nothing 技術(shù)結(jié)合MPP 架構(gòu)的新型數(shù)據(jù)庫通過列存儲、 粗粒度索引等技術(shù), 具有低成本、 高性能、 高擴展性等特點, 成為新一代數(shù)據(jù)倉庫的最佳選擇之一。
針對傳統(tǒng)關(guān)系型數(shù)據(jù)庫難以處理和解決的如非結(jié)構(gòu)化數(shù)據(jù)的場景, 現(xiàn)在普遍采用基于Hadoop 技術(shù)的NoSQL 來實現(xiàn)數(shù)據(jù)的存儲。 在整個Hadoop 架構(gòu)中, HDFS 是出于底層的用于具體存儲的分布式文件存儲系統(tǒng), 在其上有分布式實時列式存儲數(shù)據(jù)庫Hbase 和數(shù)據(jù)倉庫系統(tǒng)HIVE。 Hbase 可以理解為HDFS 的封裝, 是一種基于key/value 對性質(zhì)的面向列的非關(guān)系NoSQL數(shù)據(jù)庫, 側(cè)重于最大化利用內(nèi)存。 Hive 是基于Hadoop 的數(shù)據(jù)倉庫, 將結(jié)構(gòu)化數(shù)據(jù)文件映射為數(shù)據(jù)庫表, 提供類似SQL 語言的針對靜態(tài)數(shù)據(jù)的動態(tài)查詢。 HDFS 主要用于解決大尺寸文件在磁盤上的存儲, Hbase 和Hive 數(shù)據(jù)一般都存儲在HDFS 上, 用來提供高可靠的底層的存儲, 達到磁盤的利用率最大化。
大數(shù)據(jù)分析可以分為廣義上的數(shù)據(jù)分析和狹義上的數(shù)據(jù)分析。 廣義上的數(shù)據(jù)分析包括狹義上數(shù)據(jù)分析和數(shù)據(jù)挖據(jù)。 這里所指的數(shù)據(jù)分析是指狹義上的。 大數(shù)據(jù)分析是指根據(jù)分析目的, 通過適當(dāng)?shù)姆治龇椒▽κ占降臄?shù)據(jù)進行處理和分析, 并得到相應(yīng)結(jié)論的過程。 大數(shù)據(jù)分析分為現(xiàn)狀分析、 原因分析、 預(yù)測分析 (定量), 常采用對比分析、 分組分析、 交叉分析、 回歸分析等分析方法, 最終得到如總和、 平均值等指標(biāo)統(tǒng)計結(jié)果。
大數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中, 通過統(tǒng)計學(xué)、 人工智能、 機器學(xué)習(xí)等方法, 挖掘出未知的、 且有價值的信息和知識的過程。 大數(shù)據(jù)挖掘主要采用決策樹、 神經(jīng)網(wǎng)絡(luò)、 關(guān)聯(lián)規(guī)則、 聚類分析等統(tǒng)計學(xué)、 人工智能、 機器學(xué)習(xí)等方法, 解決分類、 聚類、 關(guān)聯(lián)和預(yù)測 (定量、 定性) 等問題, 著重于對未知模式和規(guī)律的發(fā)現(xiàn), 從而挖掘出有價值的信息。
經(jīng)過分析和挖掘后的信息通過直觀的圖、 報表等形式展示出來的過程稱之為大數(shù)據(jù)的可視化, 也稱為大數(shù)據(jù)展示。 目前常用的可視化方式有兩種: 基于Web 前端+Web 應(yīng)用程序的可視化方法和現(xiàn)成的可視化工具來實現(xiàn)數(shù)據(jù)展示。 前者具有定制性強, 可以以任何形式對數(shù)據(jù)加以展示的優(yōu)點, 但開發(fā)難度相對較大、 開發(fā)周期較長。后者具有開發(fā)簡單、 展示形式豐富效果絢麗等優(yōu)點, 但定制能力較差, 難于擴展。
針對傳統(tǒng)調(diào)研方式存在的弊端和問題, 本文提出了一種基于大數(shù)據(jù)技術(shù)的高職院校軟件技術(shù)專業(yè)目標(biāo)崗位調(diào)研模型。 該模型通過大數(shù)據(jù)網(wǎng)絡(luò)爬蟲手段大規(guī)模爬取人才市場數(shù)據(jù), 通過對爬取數(shù)據(jù)的清洗和加工, 形成有效的海量的招聘崗位信息庫; 收集近五年畢業(yè)生的崗位信息和崗位職責(zé), 形成畢業(yè)生崗位信息庫; 通過對招聘崗位信息庫和畢業(yè)生崗位信息庫中的崗位職責(zé)和崗位技能進行對比、 分析和挖掘, 最終確定形成軟件技術(shù)專業(yè)人才培養(yǎng)規(guī)格的目標(biāo)崗位和崗位知識能力技術(shù)要求。
基于大數(shù)據(jù)技術(shù)的高職院校軟件技術(shù)專業(yè)目標(biāo)崗位調(diào)研模型中包括4 個實體對象: 招聘單位、 就業(yè)單位、 畢業(yè)生、 同類院校相關(guān)專業(yè)。 其中, 招聘單位的參數(shù)信息包括: 單位名稱、 招聘單位地區(qū)及地址、 招聘崗位名稱、 崗位所需人數(shù)、 招聘崗位需求、 薪資待遇等; 就業(yè)單位的參數(shù)信息包括: 單位名稱、 就業(yè)單位地區(qū)及地址、就業(yè)崗位名稱、 就業(yè)崗位接納畢業(yè)生人數(shù)、 就業(yè)崗位需求、 薪資待遇等; 畢業(yè)生的參數(shù)信息包括: 畢業(yè)生學(xué)號、 就業(yè)單位名稱、 就業(yè)崗位名稱、 就業(yè)崗位技能要求、 在崗時間、 薪資待遇等; 同類院校相關(guān)專業(yè)的參數(shù)信息包括: 學(xué)校名稱、 專業(yè)名稱、 學(xué)校地點、 目標(biāo)崗位名稱、 核心課程等。
目標(biāo)崗位調(diào)研模型中除了包括上述的4 個實體對象, 還包括實體對象間的關(guān)聯(lián)關(guān)系。 招聘單位與就業(yè)單位是包含和被包含關(guān)系, 通過他們間的比對一方面可以反應(yīng)出就業(yè)方向是否符合招聘市場的趨勢, 根據(jù)招聘市場適時調(diào)整人才培養(yǎng)方案和課程體系使就業(yè)方向順應(yīng)招聘市場, 另一方面著重分析就業(yè)單位崗位所需人數(shù)、 崗位要求和崗位職責(zé), 為目標(biāo)崗位的確立提供依據(jù)。 通過畢業(yè)生、 就業(yè)單位與同類院校間的比對發(fā)現(xiàn)同一崗位本校軟件技術(shù)專業(yè)畢業(yè)生與其它同類院校相關(guān)專業(yè)畢業(yè)生在就業(yè)崗位上的差異, 從而提取自身的優(yōu)勢和特色。
根據(jù)目標(biāo)崗位調(diào)研模型中各實體的相關(guān)參數(shù), 利用大數(shù)據(jù)的爬蟲技術(shù)如Python 或Java,對以上信息進行爬取和采集。 采集時有些數(shù)據(jù)來源于已有的數(shù)據(jù)庫, 如畢業(yè)生數(shù)據(jù)庫、 就業(yè)單位數(shù)據(jù)庫等; 有些數(shù)據(jù)來源于互聯(lián)網(wǎng), 這里主要是來源于一些招聘類網(wǎng)站, 如智聯(lián)招聘、 51Job、Boss 直聘等, 這類數(shù)據(jù)的獲取主要采用爬蟲技術(shù)實現(xiàn)。
對爬取和采集到的數(shù)據(jù)進行清洗和整理, 形成相應(yīng)的招聘崗位信息庫、 就業(yè)崗位信息庫、 相關(guān)院校目標(biāo)崗位信息庫等數(shù)據(jù)倉庫。 數(shù)據(jù)清洗和整理是大數(shù)據(jù)分析、 挖掘前必不可少的工作之一, 只有完整準(zhǔn)確的數(shù)據(jù)才能為分析和挖掘打下有意義的數(shù)據(jù)基礎(chǔ)。 數(shù)據(jù)清洗和整理主要解決采集數(shù)據(jù)的不完全性、 噪聲大、 不一致的問題。
利用大數(shù)據(jù)分析和挖掘算法對數(shù)據(jù)倉庫中的各類數(shù)據(jù)進行比對、 分析和挖掘, 得到軟件技術(shù)專業(yè)的目標(biāo)崗位和相應(yīng)的崗位技能需求, 為軟件技術(shù)專業(yè)人才培養(yǎng)規(guī)格中的目標(biāo)崗位提供科學(xué)的數(shù)據(jù)依據(jù), 為課程體系的建立提供數(shù)據(jù)參考。
大數(shù)據(jù)作為新的生產(chǎn)要素在各行各業(yè)得到廣泛的應(yīng)用。 本文將大數(shù)據(jù)應(yīng)用于高職院校軟件專業(yè)人才培養(yǎng)規(guī)格的目標(biāo)崗位調(diào)研中去具有以下意義:
(1) 以海量數(shù)據(jù)為基礎(chǔ), 更加凸顯數(shù)據(jù)的客觀性。
(2) 利用大數(shù)據(jù)網(wǎng)絡(luò)爬蟲技術(shù), 形成招聘崗位信息庫, 體現(xiàn)全面性。
(3) 根據(jù)近幾年畢業(yè)生崗位信息, 形成就業(yè)崗位信息庫, 體現(xiàn)基準(zhǔn)比對性。
(4) 對比招聘崗位信息庫和就業(yè)崗位信息庫, 修正人才培養(yǎng)規(guī)格的目標(biāo)崗位, 體現(xiàn)可修正性。
遼寧省交通高等??茖W(xué)校學(xué)報2021年2期