, , , ,
(同濟(jì)大學(xué) 1.教育技術(shù)與計(jì)算中心;2.海洋科學(xué)技術(shù)研究中心;3.信息化辦公室,上海 200092;4.電子與信息工程學(xué)院,上海 201804)
我國高校信息化經(jīng)過30年左右的快速發(fā)展,逐步重視業(yè)務(wù)流程優(yōu)化和服務(wù)整合以適應(yīng)智慧校園建設(shè)的需求[1]。由于缺乏統(tǒng)一標(biāo)準(zhǔn)、系統(tǒng)分散管理,造成數(shù)據(jù)不一致和不完整[2,3]。高校信息化需要通過有效的數(shù)據(jù)治理手段進(jìn)一步提高數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)數(shù)據(jù)資源在各業(yè)務(wù)部門的有效整合和共享,使高校變得更加智慧和敏捷[4,5]。
為有效解決當(dāng)前高校信息化中的數(shù)據(jù)質(zhì)量問題,主數(shù)據(jù)管理受到重視,較好地實(shí)現(xiàn)了數(shù)據(jù)的深度共享和價值發(fā)現(xiàn)[6-8]。所謂主數(shù)據(jù)是信息系統(tǒng)中描述核心業(yè)務(wù)、實(shí)體并且在不同業(yè)務(wù)系統(tǒng)間共享使用的數(shù)據(jù),是企業(yè)內(nèi)部能夠跨業(yè)務(wù)、跨系統(tǒng)重復(fù)使用的高價值數(shù)據(jù)[9]。高校信息化圍繞“人”、“財(cái)”、“物”產(chǎn)生了大量的數(shù)據(jù),而“人”的數(shù)據(jù)是最基本最核心的主數(shù)據(jù)。因此,同濟(jì)大學(xué)在進(jìn)行主數(shù)據(jù)管理時也從人員出發(fā),設(shè)計(jì)適合高校人員的主數(shù)據(jù)模型[10]。高校的人員類型較一般企業(yè)復(fù)雜,同一個人同時存在多種身份,同時人員管理上也很分散,造成系統(tǒng)數(shù)據(jù)分散和重復(fù),同一個人在不同的業(yè)務(wù)系統(tǒng)中,用不同的ID號表達(dá)。不同部門信息化管理水平的不同,也使得人員信息的質(zhì)量參差不齊。只有人員信息經(jīng)過整合后,才能使高校真正從以業(yè)務(wù)為核心向以人為核心的轉(zhuǎn)化成為可能[11]。
將不同業(yè)務(wù)系統(tǒng)中以不同方式記錄的人員數(shù)據(jù),通過一定的算法識別為現(xiàn)實(shí)世界中的同一個人,是人員信息整合的基礎(chǔ)??梢芍貜?fù)處理作為主數(shù)據(jù)管理的關(guān)鍵技術(shù)之一,通過設(shè)置匹配關(guān)鍵元素或預(yù)置算法發(fā)現(xiàn)可能重復(fù)的記錄[12]。高校人員的關(guān)鍵屬性包括姓名、證件類型、證件號碼、學(xué)號/工號等,本文在深入分析這些關(guān)鍵屬性及其各種組合下出現(xiàn)的數(shù)據(jù)質(zhì)量問題,提出一種基于關(guān)鍵屬性匹配的高校人員信息整合方法,對人員賦予唯一編號標(biāo)識,在實(shí)踐中取得很好的應(yīng)用效果,并促進(jìn)高校人員的主數(shù)據(jù)管理工作。
高校人員指在高校中學(xué)習(xí)和工作過的學(xué)生和教職工,高校人員數(shù)據(jù)是由學(xué)校相應(yīng)管理部門納入業(yè)務(wù)管理系統(tǒng)的人員基本數(shù)據(jù),諸如:人員的基本信息、學(xué)業(yè)信息、崗位信息等。
高校分而治之的管理以及各部門管理力度不一,使得高校中人員數(shù)據(jù)分散,缺乏統(tǒng)一的人員信息模型,沒有進(jìn)行一體化管理,造成數(shù)據(jù)質(zhì)量問題。主要體現(xiàn)在以下幾個方面:
(1) 人員數(shù)據(jù)來源多個系統(tǒng)且使用不同的主鍵標(biāo)識
目前高校人員管理的主要部門為:人事處、教務(wù)處、研究生院、留學(xué)生辦公室,分別對應(yīng)管理:教職工、本科生、研究生、留學(xué)生,分別對應(yīng)不同的管理系統(tǒng),并使用不同的學(xué)號或工號(下稱“學(xué)工號”)作為主鍵標(biāo)識。
(2) 同一人員在不同階段角色不一
同一系統(tǒng)中同一人不同階段存在多個身份,如:研究生系統(tǒng)中不同的培養(yǎng)層次,如碩士生升入博士生,同一個人有不同的學(xué)號對應(yīng);人事系統(tǒng)中,從博士后、到派遣人員、到編制類人員或高研院人員,同一個人不同階段有不同的工號對應(yīng)。同一人同一身份在不同系統(tǒng)中,如本科長學(xué)制學(xué)生,在完成學(xué)業(yè)申請碩士學(xué)位前會以同一學(xué)號進(jìn)入研究生系統(tǒng),同一身份同時存在于兩個系統(tǒng)。不同時期擁有相同的身份,如未取得學(xué)位的博士生幾年后重新考取繼續(xù)博士學(xué)位攻讀,博士生階段就有不同的學(xué)號對應(yīng)。
(3) 源頭數(shù)據(jù)錄入帶來的數(shù)據(jù)質(zhì)量問題
源頭數(shù)據(jù)甚至是關(guān)鍵數(shù)據(jù)都可能出現(xiàn)重復(fù)、不一致、不完整的情況。如:姓名拼寫錯誤,證件號等關(guān)鍵信息為空,簡體或繁體,縮寫或全稱,重復(fù)分配學(xué)工號,文本字段的不規(guī)范填寫等。
(4) 歷史數(shù)據(jù)遺留帶來的數(shù)據(jù)質(zhì)量問題
高校的人員管理系統(tǒng)已經(jīng)運(yùn)行多年,早期存在一些數(shù)據(jù)質(zhì)量相對較低的人員信息,特別是人事系統(tǒng)中,上百年的教職工信息以及并校等原因,使得有些人員的關(guān)鍵信息不完整、不準(zhǔn)確,且無從追查。
高校數(shù)據(jù)治理中最重要的一環(huán)是人員數(shù)據(jù)的治理,而人員信息的整合是數(shù)據(jù)治理的第一步。
人員數(shù)據(jù)是高校所有核心數(shù)據(jù)中的主數(shù)據(jù),是學(xué)校所有業(yè)務(wù)運(yùn)行的基礎(chǔ),其數(shù)據(jù)質(zhì)量的好壞直接影響到對師生管理和服務(wù)水平的提高。
將一個人多個系統(tǒng)中不同階段的多個身份,通過算法將其識別為同一個人,并用校內(nèi)唯一的人員唯一編號PID(Person ID)予以標(biāo)識,即將人次轉(zhuǎn)化為人,根據(jù)設(shè)計(jì)的一體化人員信息模型,對其全生命周期進(jìn)行管理,將不同階段的信息作為其全生命周期的一個片段,即達(dá)到人員整合的目的,如圖1所示。
圖1 高校人員信息整合的總體思路
解決思路的關(guān)鍵在于從現(xiàn)有紛繁復(fù)雜的人員信息中判斷是否為同一個人。從圖1看出同一個人的學(xué)工號并不唯一,只能作為重要參考信息。而作為人員的關(guān)鍵屬性如身份證、姓名等理論上是可以唯一確定的,但是因各種數(shù)據(jù)質(zhì)量問題使得判斷依據(jù)變得復(fù)雜。
(1) 姓名問題
相同的證件號,在不同系統(tǒng)甚至同一個系統(tǒng)中,姓名存在各種差異,如同音字、生僻字用符號或拼音代替、少數(shù)名族姓名中間點(diǎn)等等。
(2) 證件號問題
除很多由于歷史遺留問題或留學(xué)生護(hù)照號獲取有延遲,造成證件號為空的情況外,對于有證件號的數(shù)據(jù),也存在身份證號不是15或18位的、年份生日不合規(guī)的、含有特殊字符的等問題。
(3) 復(fù)合問題
從姓名、證件號單一來看,數(shù)據(jù)都是規(guī)范的,但將數(shù)據(jù)綜合起來分析時,會發(fā)現(xiàn)較多的問題,諸如:兩人共用證件號、兩人共用學(xué)工號、同一個人在不同系統(tǒng)中的證件號不同等。
針對前文所述的數(shù)據(jù)特點(diǎn)和數(shù)據(jù)質(zhì)量的現(xiàn)狀,提出人員信息整合的原則:1)定期獲取業(yè)務(wù)系統(tǒng)的人員數(shù)據(jù),并獲得增量變化數(shù)據(jù);2)選取關(guān)鍵屬性進(jìn)行組合判斷:姓名+證件號+證件類型+學(xué)工號;3)在算法中多層次考慮組合屬性數(shù)據(jù)質(zhì)量可能造成的影響判斷的因素;4)算法能處理相對規(guī)范化的情況,對于個別異常情況的數(shù)據(jù),增加可疑數(shù)據(jù)人工處理的環(huán)節(jié);5)歷史無從確認(rèn)的數(shù)據(jù),對于關(guān)鍵屬性不全的,為其執(zhí)行一次性的初始化算法,當(dāng)其后續(xù)信息不再改變時,這些歷史人員不再納入算法。
根據(jù)這些原則,人員整合的算法流程分為3個步驟實(shí)施。如圖2所示。
(1) 數(shù)據(jù)預(yù)處理
數(shù)據(jù)倉庫每天從源頭系統(tǒng)中獲取增量數(shù)據(jù),檢查數(shù)據(jù)關(guān)鍵信息的完整性,對證件號進(jìn)行必要的規(guī)范化處理,梳理出具備條件進(jìn)入下一環(huán)節(jié)的數(shù)據(jù),其過程如圖3所示。
(2) 基于關(guān)鍵屬性匹配的人員唯一性識別
采用人員的關(guān)鍵屬性:姓名、證件類型、證件號碼(下稱“名”、“類”、“號”)作為基本的判斷條件,輔以學(xué)工號作為補(bǔ)充判斷依據(jù),詳細(xì)過程如圖4所示。
圖2 高校人員信息整合的算法流程
圖3 高校人員信息整合數(shù)據(jù)預(yù)處理
圖4 基于關(guān)鍵屬性匹配規(guī)則的人員識別
將不同階段用不同身份標(biāo)識的一個人識別為同一個人,整合后將為其分配唯一編號PID,區(qū)別于源業(yè)務(wù)系統(tǒng)中的學(xué)工號(源業(yè)務(wù)系統(tǒng)為管理需要為人員分配的ID號,下稱“SID”)。
人員整合后,將產(chǎn)生一個完整的PID列表存放一個人的PID及對應(yīng)的關(guān)鍵屬性(即PID信息表,下稱“info表”),另外還有一個表達(dá)PID和SID之間關(guān)系的列表(即PID與SID關(guān)聯(lián)表,下稱“rela表”)。通過這兩個列表,可以將人的所有信息表達(dá)完整。
對于所有的人員,正常流程主要有兩類,一類是全新的人,第一次進(jìn)入某一個人員系統(tǒng),在關(guān)鍵組合信息規(guī)范完整的情況下,算法為其分配一個新PID;一類是新的身份,諸如升學(xué)本校研究生、留校任教、轉(zhuǎn)編等環(huán)節(jié),在關(guān)鍵組合信息規(guī)范一致的情況下,算法將現(xiàn)有PID和新SID進(jìn)行關(guān)聯(lián)。
流程中的異常分支,主要用于處理和識別非正常的情況,如證件號、學(xué)工號被共用,錄入時證件號、姓名等關(guān)鍵字段不一致等。算法中將這些無法自動識別的信息記錄到異常表中,進(jìn)入可疑處理環(huán)節(jié)。
(3) 可疑數(shù)據(jù)人工處理
對于算法無法處理的異常問題,將其詳細(xì)展示并進(jìn)行人工處理,如圖5所示。由專門人員進(jìn)行核查,確認(rèn)需要新增的人員為其分配新的PID,確認(rèn)是原先存在的人員,將信息合并到原PID中。對于錯誤的信息,則提交源頭系統(tǒng)修正,對于無效的信息,則將異常記錄忽略。
對于與源頭確認(rèn)修改正確的人員數(shù)據(jù),實(shí)現(xiàn)合并、失效、更新等操作,將確定正確的修改直接作用到人員整合結(jié)果集中。如:當(dāng)源頭修改了一個現(xiàn)有人員(PID、SID已有)的證件號時,算法拋出Q202異常,并將異常詳細(xì)信息展示出來。異常信息經(jīng)過源業(yè)務(wù)管理員確認(rèn),若是該人員修改了證件號,則將新證件號關(guān)聯(lián)到原PID上;若是該SID給了一個新進(jìn)人員使用,則為該人員分配一個新PID,將證件號與新PID進(jìn)行關(guān)聯(lián);若是本次證件號修改為一個誤操作,則將該異常忽略,不做任何改動。
經(jīng)過人工確認(rèn)后的異常,如果是需要源系統(tǒng)修改的問題,源頭管理人員操作修改后的數(shù)據(jù)將進(jìn)入下一輪的算法整合,正確的修改便直接作用到人員整合結(jié)果集中。
主要問題包含:1)數(shù)據(jù)完整性不夠:如身份證號為空或不符合規(guī)范,這類問題須源頭將數(shù)據(jù)進(jìn)行完整化后再行處理。2)源頭糾錯產(chǎn)生的各種異常情況需要確認(rèn):如源頭發(fā)現(xiàn)同一個人分配了多個工號后,將其中一個工號重新分給了另外一個新進(jìn)校人員等。此類非常規(guī)性問題,需要數(shù)據(jù)源頭進(jìn)行確認(rèn)后進(jìn)行對應(yīng)操作。3)全量檢查異常問題:源頭系統(tǒng)中人員或歷史數(shù)據(jù)經(jīng)過人員整合步驟后,并未為其生成PID的情況。有些異常數(shù)據(jù)由于師生離校時間太長,源業(yè)務(wù)管理人員也無法確認(rèn)其數(shù)據(jù)的正確性,這些數(shù)據(jù)將保留在異常數(shù)據(jù)歷史表中存放,管理人員可方便地在平臺上查看,待時機(jī)成熟時再行處理,如圖5所示。
圖5 可疑數(shù)據(jù)處理
以同濟(jì)大學(xué)為例,從2014年開始建設(shè)數(shù)據(jù)倉庫,現(xiàn)已將所有重要業(yè)務(wù)系統(tǒng)的重要數(shù)據(jù)都入倉,并每天抽取一份全量數(shù)據(jù),人員整合方案便是建立在數(shù)據(jù)倉庫的基礎(chǔ)上進(jìn)行的。
通過人員整合算法,第一步對學(xué)校所有在系統(tǒng)中管理的人員實(shí)施整合,截止2017年10月20日,將原有的234 519人整合為205 732人,效果如圖6所示。
圖6 高校人員信息整合效果
一個人在校園生活中存在的多個身份也能直觀地展示出來,如圖7所示。
結(jié)合人員整合的運(yùn)維功能,從運(yùn)維平臺界面上可以直觀地查看每天整合完成的情況,如圖8所示。
人員信息整合后形成的人員“黃金視圖”,是精確的、完整的、可信任的人員信息,是提供個性化、精細(xì)化、精準(zhǔn)服務(wù)的基礎(chǔ)。同濟(jì)大學(xué)于2015年開始引入同心云平臺,成為了學(xué)校正式使用的官方云平臺,其中聚集著各類師生的服務(wù)應(yīng)用,有專門針對教師的、有針對學(xué)生的、有向全體開放的、有只對研究生開放的等等,這些應(yīng)用統(tǒng)一通過整合后人員對外提供接口,自動識別用戶是否為該應(yīng)用的合法用戶。除此之外,整合后的人員信息還正在用于支撐學(xué)校的身份認(rèn)證系統(tǒng)、校級的綜合性應(yīng)用、校友的精準(zhǔn)服務(wù)等。
圖7 高校人員的多重身份展示效果
圖8 高校人員信息整合運(yùn)維平臺
目前人員信息整合還是數(shù)據(jù)治理的第一步初探工作,焦點(diǎn)主要集中在梳理人員既有數(shù)據(jù),致力于形成一套經(jīng)過整合可信賴的人員庫,目前已經(jīng)基本達(dá)到該既定目標(biāo)。但人員信息整合和數(shù)據(jù)治理的目標(biāo)還遠(yuǎn)遠(yuǎn)沒有達(dá)到,接下來主要從以下兩個方面進(jìn)一步探索:1)與主數(shù)據(jù)管理相結(jié)合,在人員信息的產(chǎn)生環(huán)節(jié)就進(jìn)行人員整合,減少產(chǎn)生數(shù)據(jù)質(zhì)量問題的源頭,從而形成更加有效的整合機(jī)制;2)探索逐步形成數(shù)據(jù)治理閉環(huán)機(jī)制,從數(shù)據(jù)的產(chǎn)生、整合處理、應(yīng)用各環(huán)節(jié)形成閉環(huán),完善數(shù)據(jù)處理的管理規(guī)范,從而長效地促進(jìn)治理體系和治理能力的提升。