任寅姿
摘要:給出了一種面向業(yè)務(wù)側(cè)的數(shù)據(jù)資產(chǎn)建設(shè)新方法。數(shù)據(jù)資產(chǎn)是數(shù)據(jù)中臺概念中核心一環(huán),需要一種業(yè)務(wù)導(dǎo)向的資產(chǎn)映射來完成資產(chǎn)業(yè)務(wù)化過程。標簽類目體系方法論是一種將數(shù)據(jù)資產(chǎn)按照樹狀結(jié)構(gòu)組織的方法,根目錄為對象,枝干分支為類目,葉/花末端為標簽。各種對象樹之間存在能量連接,并通過業(yè)務(wù)供給生長。標簽類目體系實例化可以采用整體規(guī)劃、局部截取兩種模式。資產(chǎn)結(jié)果分為資產(chǎn)清單和資產(chǎn)實體兩大部分,它們可以通過服務(wù)管理工具快速配置成可供業(yè)務(wù)使用的數(shù)據(jù)服務(wù)結(jié)果,以實現(xiàn)數(shù)據(jù)資產(chǎn)價值。
關(guān)鍵詞:標簽類目體系;樹狀結(jié)構(gòu):數(shù)據(jù)服務(wù):資產(chǎn)價值
中圖分類號:TP391 文獻標志碼:A DOI:10.3969/j.issn。1000-5641.202091009
0引言
在數(shù)據(jù)中臺概念中,數(shù)據(jù)資產(chǎn)位于核心位置。首先要對數(shù)據(jù)資產(chǎn)定義有正確的認知:廣義上,企業(yè)擁有所有權(quán)的數(shù)據(jù)資源都是其數(shù)據(jù)資產(chǎn)。但是這個廣義定義過于寬泛:所有資源都有價值等于所有資源都沒有價值。因此需要更多關(guān)注其精準定義——企業(yè)所擁有的能夠帶來經(jīng)濟價值的數(shù)據(jù)資源。數(shù)據(jù)資產(chǎn)一般都有較好的組織形式來保障完成“看-選-用一治-評”的經(jīng)濟價值鏈路。對數(shù)據(jù)資產(chǎn)的最佳“組織形式”研究成為數(shù)據(jù)中臺建設(shè)的重中之重。
大數(shù)據(jù)行業(yè)內(nèi)至今衍生出了眾多的數(shù)據(jù)資產(chǎn)建設(shè)管理辦法。但是當(dāng)前主流方法,包括國際數(shù)據(jù)管理協(xié)會DAMA、數(shù)據(jù)倉庫管理、數(shù)據(jù)治理等多偏向于底層技術(shù)實現(xiàn),而非從上層業(yè)務(wù)應(yīng)用角度對資產(chǎn)進行整合優(yōu)化。
數(shù)據(jù)資產(chǎn)之所以稱為資產(chǎn),必須從價值出發(fā),整理、管理、優(yōu)化對業(yè)務(wù)真正有幫助、能給企業(yè)帶來效益的數(shù)據(jù)資源。把數(shù)據(jù)資源封裝成業(yè)務(wù)人員能理解的形態(tài),是后續(xù)資產(chǎn)價值化的必要前提。因此迫切需要一種新的思路來研究面向業(yè)務(wù)側(cè)的數(shù)據(jù)資產(chǎn)建設(shè)方法。
1基礎(chǔ)結(jié)構(gòu)
標簽類目體系方法論是一種面向業(yè)務(wù)的數(shù)據(jù)資產(chǎn)建設(shè)方法:用“標簽”來作為數(shù)據(jù)資產(chǎn)的最小單元組織載體,用“標簽類目體系”作為數(shù)據(jù)資產(chǎn)目錄的整體組織結(jié)構(gòu)載體。
1.1根目錄
標簽類目體系的基礎(chǔ)結(jié)構(gòu)就像一棵樹,如圖1所示,樹的根決定了這是一顆什么樹。
設(shè)計、管理、使用標簽類目體系必須從根目錄開始。根目錄所對應(yīng)的數(shù)據(jù)含義為對象,對象分兩大類型:實體對象(人、物)和關(guān)系對象(強關(guān)系、弱關(guān)系),因此存在兩大類標簽類目樹:實體樹和關(guān)系樹。
1.2枝干分支
樹的枝干部分對應(yīng)于標簽類目體系中的類目分層,因此類目是一種分形結(jié)構(gòu),可以不斷地分化下去,也可以根據(jù)需要截取任意一個子系統(tǒng)出來作為獨立的標簽體系(小系統(tǒng)范圍)使用。
1.3葉/花末端
樹的葉/花部分,對應(yīng)的就是對象的各種屬性,即標簽,物理存儲中映射為字段粒度,是通過大量經(jīng)驗驗證后最合適的數(shù)據(jù)資產(chǎn)最小單元粒度。葉和花都屬于枝干延伸的末端組織分化,相互之間存在聯(lián)系。標簽也可以分為動態(tài)標簽和靜態(tài)標簽,動靜區(qū)分點在于某個個體在這個標簽下的標簽取值是否具有經(jīng)常發(fā)生變化的可能。
某一類對象的標簽類目體系的構(gòu)建實際上完成了對某一類對象的模式設(shè)計。設(shè)計好的標簽類目體系就像模具一樣,能將該類對象下的具體個體的形象特征快速標準地刻畫出來。例如,消費者標簽類目體系設(shè)計好后,所有的消費者都擁有相同的標簽及標簽類目結(jié)構(gòu),但具有不同的標簽取值,如圖2所示,每個個體的標簽取值不同,用顏色來示意區(qū)分不同的標簽取值。
通過標簽體系設(shè)計,可以把個體觀察升級為群體觀察。找到了一種統(tǒng)一的數(shù)據(jù)描述方法來對對象進行本質(zhì)刻畫,而非過去現(xiàn)象的總結(jié),更具有場景化適應(yīng)能力。
2連接賦能
標簽類目體系是基于“對象”的標簽分類刻畫,“對象”是類目體系的奇點。
2.1實體樹間通過關(guān)系樹連接
例如,消費者(實體)與商品(實體)之間會通過某些瀏覽、交易、評價等行為(關(guān)系)產(chǎn)生連接,通過這種連接,消費者(實體)與商品(實體)除了靜態(tài)標簽之外,還衍生出了許多動態(tài)標簽,實體對象360度的全面刻畫變得更為豐富和完整,如圖3所示。
2.2關(guān)系樹是一種能量賦予
實體對象身上的標簽,會隨著關(guān)系對象的增多而相應(yīng)地增多。每新增一種動作、行為、連接,即關(guān)系樹,就會在實體樹上映射出一片新類型的葉子,如圖4所示。
實體樹要想長出足夠多類型的葉/花就需要通過關(guān)系樹的能量映射。關(guān)系樹自身越茂盛,能映射孵化出的實體樹葉/花也會越繁多;反之,關(guān)系樹自身枯萎、能量不足,實體樹的葉/花也會隨之枯萎消失。
2.3業(yè)務(wù)使用是養(yǎng)分供給
標簽如果在業(yè)務(wù)中被廣泛使用則生長非常牢固,得到了業(yè)務(wù)的重視而獲得更多資源傾斜。而某些標簽如果只被使用一次即擱置,則會因為營養(yǎng)不足而凋零下架。
3生長優(yōu)化
經(jīng)典標簽類目體系的完整結(jié)構(gòu)是一棵可以不斷分化下去的樹形結(jié)構(gòu)。因此可以通過不斷地增加、修剪、插枝等方式來完善。
標簽類目樹就像生命進化樹一樣,類目分支受到能量環(huán)境影響形成豐富的標簽簇,標簽會經(jīng)歷優(yōu)勝劣汰的自然選擇。整個標簽類目樹需要自己生長出來,而非人為控制得到最終形態(tài)。
最終的標簽類目樹形態(tài)是適應(yīng)環(huán)境自然生長的結(jié)果,但是不意味著不能提前規(guī)劃一個較好的標簽類目樹初始形態(tài)。通過在實驗室環(huán)境中將植被進行理想的扦插塑形,可以使得樹木在真實環(huán)境中更好地生長。
因此當(dāng)一家企業(yè)需要構(gòu)建其自身的標簽類目體系時,可以基于一個已沉淀好的××行業(yè)某對象標簽類目體系模板,進行快速的規(guī)劃設(shè)計和修正優(yōu)化。根據(jù)建設(shè)數(shù)據(jù)資產(chǎn)的目的節(jié)奏不同,有以下兩種模式可以參考借鑒。
3.1完整規(guī)劃,由淺入深
當(dāng)企業(yè)構(gòu)建資產(chǎn)的目的是形成數(shù)據(jù)資產(chǎn)的完整規(guī)劃,指導(dǎo)數(shù)據(jù)收集、整理、加工、挖掘等各階段工作,并愿意花費較長時間來實施數(shù)據(jù)資產(chǎn)的整體規(guī)劃時可以選用下述模式。
(1)首先選取藍色圈內(nèi)主要枝干體系,添加少量標簽并完成數(shù)據(jù)開發(fā)和映射工作,形成V1.0版本的消費者標簽類目體系,如圖5所示。
(2)再根據(jù)企業(yè)現(xiàn)有數(shù)據(jù)情況及業(yè)務(wù)需求,進行黃圈、綠圈……的全面擴展,此時標簽類目樹上掛有的標簽越來越豐富,如圖6所示。
(3)當(dāng)現(xiàn)有基礎(chǔ)數(shù)據(jù)/業(yè)務(wù)比較單一,或某一業(yè)務(wù)發(fā)展迅速滋養(yǎng)某一類型的標簽快速發(fā)展,也可能會出現(xiàn)紅圈式的指向性單側(cè)擴展,如圖7所示。
不管以上哪種具體實施方法都是從根部最基礎(chǔ)樹干到分支再到細支,體現(xiàn)了一種整體規(guī)劃的完整思路。這種模式的好處是全面規(guī)劃、面向未來,可以指導(dǎo)企業(yè)在數(shù)據(jù)端的全面布局;缺點是建設(shè)周期長,見效慢,因此遇到的阻力也會很大,必須是一把手工程才能完成全面的數(shù)據(jù)資產(chǎn)從規(guī)劃到落地實施。
3.2縱深打穿,從局部直接截取
當(dāng)企業(yè)構(gòu)建資產(chǎn)的目的是完成對業(yè)務(wù)場景的支撐,特別是多個業(yè)務(wù)場景間能快速復(fù)用標簽資產(chǎn),希望可以快速見到數(shù)據(jù)對業(yè)務(wù)產(chǎn)生的商業(yè)價值時可以選用下述模式。
直接從經(jīng)典的完整對象標簽類目樹上截取所需的部分分支即可。因為標簽類目體系是一種分形結(jié)構(gòu),整體和局部有同構(gòu)性,任何一個局部分支都可以剪切出來作為獨立的標簽類目樹。例如,當(dāng)前某業(yè)務(wù)部門只需要研究用戶的基礎(chǔ)特征,就可以直接從經(jīng)典類目樹上截取左上角的基礎(chǔ)特征分支作為獨立的類目樹,如圖8中圈選部分所示。此時該用戶的一級類目就是基礎(chǔ)特征,直接跳過“靜態(tài)特征”和“動態(tài)特征”這兩個更基礎(chǔ)的類目。
這種模式的優(yōu)點是:標簽直接作用于業(yè)務(wù),可以快速得到業(yè)務(wù)滋養(yǎng)并得到數(shù)據(jù)價值的認可,阻力較小。但缺點是:當(dāng)業(yè)務(wù)、標簽不斷生長變化時,整個類目結(jié)構(gòu)可能會有較大的變動,甚至是重構(gòu),帶來的影響較大。
標簽類目樹的優(yōu)化過程可以參考生物進化論,是遺傳變異+自然選擇的作用結(jié)果。
企業(yè)構(gòu)建具有其自身特點的標簽類目樹,在初始創(chuàng)建時,可以遺傳自經(jīng)典標簽類目樹的基因組:從經(jīng)典標簽類目樹結(jié)構(gòu)中篩選出合適的類目結(jié)構(gòu)進行設(shè)計組裝(遺傳);并根據(jù)企業(yè)自身實際情況進行變異調(diào)整(變異);將設(shè)計好的具體標簽類目樹放到實踐業(yè)務(wù)中去使用優(yōu)化,完成環(huán)境選擇的過程(自然選擇);并最終不斷地進化迭代。
在進化過程中,重要的不是對某一條線的極致進化,而是不斷分化的分支。因此對于數(shù)字化轉(zhuǎn)型的企業(yè),面對未來變化莫測的環(huán)境場景時,需要做的不是在某個單一領(lǐng)域上將數(shù)據(jù)治理透徹。因為極致和典型態(tài)未必就是方向和出路。而應(yīng)該梳理出全集團多業(yè)態(tài)多部門數(shù)據(jù),不斷通過能量影響、基因交叉形成豐富有趣的標簽簇,使其能夠適應(yīng)將來各種場景對數(shù)據(jù)標簽的使用需求,同時自身具有非常旺盛的生命力和延續(xù)性。
4資產(chǎn)結(jié)果
通過標簽類目方法論所形成的企業(yè)數(shù)據(jù)資產(chǎn)庫包括資產(chǎn)清單和資產(chǎn)實體兩部分。
4.1資產(chǎn)清單
資產(chǎn)清單類似資產(chǎn)門戶,可以在門戶集市中,清晰明了地看到企業(yè)中一共構(gòu)建了哪些對象的標簽類目體系,并在選中某種樹后,可以看到這種樹的具體枝干輪廓:一級類目、二級類目、三級類目……選中某級標簽類目后,可以看到其下所涵蓋的標簽列表,如圖9所示。
每個標簽就像每一片不同的葉子一樣,擁有自己的ID、名稱、邏輯、類型、值字典等元標簽信息,元標簽就是對標簽的屬性描述。例如,百科全書要讓讀者對某一事物有充分全面的正確認識,則必須要有充分全面的信息描述,并且以通俗易懂的方式描述。因此標簽是否能讓業(yè)務(wù)人員、信息人員、技術(shù)人員等理解認知,重點就在于元標簽信息是否充足及描述是否符合讀者的心理認知。
元標簽中涉及業(yè)務(wù)元標簽部分的,應(yīng)該以業(yè)務(wù)人員日常溝通交流的方式來進行描述,如標簽名、標簽業(yè)務(wù)邏輯、標簽場景示例、標簽價值等都屬于業(yè)務(wù)元標簽范疇。涉及技術(shù)元標簽部分的,應(yīng)該以技術(shù)人員日常工作溝通的方式來進行刻畫,如標簽血緣、標簽質(zhì)量、標簽加工邏輯、標簽源表、標簽物理存儲方式、標簽映射字段、標簽所在葉子類目ID等都屬于技術(shù)元標簽范疇。
4.2資產(chǎn)實體
資產(chǎn)實體是指在設(shè)計好的標簽類目體系規(guī)范下的每個具體個體實例。實例可以簡單認為是具體不同顏色的樹,因此在實體庫中,會存在非常多的顏色各異但是輪廓形狀相同的樹所組成的樹林,如圖10所示。在物理存儲層面可以映射為加工后的數(shù)據(jù)表中每一條具體的數(shù)據(jù)記錄,這些數(shù)據(jù)記錄擁有統(tǒng)一、相同的列信息,但是具體的列取值各不相同。
5落地實用
數(shù)據(jù)資產(chǎn)構(gòu)建完成后,需要把資產(chǎn)合理高效地使用起來。這里列舉最常見的3種數(shù)據(jù)服務(wù)方式:查詢、分析、圈選,來解釋經(jīng)標簽類目體系梳理后的數(shù)據(jù)資產(chǎn)是如何快速實現(xiàn)這3種數(shù)據(jù)服務(wù)過程的。
5.1查詢服務(wù)
查詢服務(wù)經(jīng)常會運用在業(yè)務(wù)系統(tǒng)中的聯(lián)機事務(wù)處理(on-Line Transaction Processing,OLTP)事務(wù)型數(shù)據(jù)操作中,如在海量數(shù)據(jù)中快速查找某輛汽車的違章信息,或在營銷活動中實時判斷某位消費者是否達到準入門檻或完成活動任務(wù)。
因此首先要確定需要查找的對象是什么,是車輛、消費者還是訂單記錄?
選中對象(某種樹),如“消費者”后,可以在服務(wù)管理中選中“查詢”服務(wù)類型,進入“消費者查詢”服務(wù)的創(chuàng)建過程中。
查詢服務(wù)有幾個配置項必須選擇:查詢輸入項的ID標簽和查詢輸出項的標簽。其中ID標簽指的是能作為唯一識別屬性的標簽,即每個實例在該標簽下的標簽值,不允許出現(xiàn)標簽取值相同的兩個不同個體,如會員號、身份證號、駕照號、指紋圖形等都屬于ID標簽。例如,我們可以選擇【會員號】標簽作為輸入項,【戶籍地】標簽作為輸出項。
查詢服務(wù)創(chuàng)建好后生成API接口或交互界面,具體業(yè)務(wù)系統(tǒng)或業(yè)務(wù)人員即可調(diào)用或通過界面系統(tǒng)操作使用該服務(wù):輸入一個具體的會員號碼1000234,后臺系統(tǒng)即可通過該ID標簽取值,在資產(chǎn)實體庫中找到唯一對應(yīng)的個體實例,并根據(jù)所需要輸出的標簽信息,定位到該個體在【戶籍地】標簽上的具體取值
浙江,并將該取值傳遞到接口輸出或通過界面呈現(xiàn),如圖11所示。
5.2分析服務(wù)
分析服務(wù)經(jīng)常會運用在業(yè)務(wù)系統(tǒng)中的聯(lián)機分析處理(0n-Line Analytical Processing,OLAP)分析型數(shù)據(jù)操作中,如對消費者群體進行客戶透視畫像或?qū)ζ髽I(yè)經(jīng)營狀況進行財務(wù)分析等。
和資產(chǎn)構(gòu)建過程一樣,對象的確認仍然是第一位的。分析也要先梳理清楚分析的對象是什么??蛻舢嬒竦膶ο蟊容^單一,就是客戶;企業(yè)財務(wù)報表的對象比較多,有資產(chǎn)、訂單、項目、商品等。
選中對象(某種樹),如“消費者”后,可以在服務(wù)管理中選中“分析”服務(wù)類型,進入“消費者分析”服務(wù)的創(chuàng)建過程中。
分析服務(wù)有幾個配置項可以選擇:待分析的維度(標簽)及分析類型(求和、求平均、最大值、最小值、取值分布等)。例如,我們可以選擇【性別】這一維度并設(shè)置“取值分布”這一分析類型。
分析服務(wù)創(chuàng)建好后生成API接口或交互界面,具體業(yè)務(wù)系統(tǒng)或業(yè)務(wù)人員即可調(diào)用或通過界面系統(tǒng)操作使用該服務(wù)。后臺系統(tǒng)根據(jù)“消費者”對象的確認,找到消費者對象庫中的所有具體實例樹(具體消費者個體);根據(jù)【性別】標簽的類目信息索引找到所有實例樹中“性別”樹葉位置;將所有有顏色的“性別取值”樹葉提出來排列好,根據(jù)“取值分布”的要求對不同顏色的樹葉進行顏色歸類并進行分類匯總計算,最終業(yè)務(wù)人員可以在API接口或界面系統(tǒng)中查看到消費者在性別上的取值分布圖,如圖12所示。
從以上的處理過程中,我們可以發(fā)現(xiàn),數(shù)據(jù)分析就是對某一對象群體在某一屬性標簽上的取值處理,即對有顏色的樹葉在某一維度切面上的不同變形,取值分布就是將顏色分布變形為不同數(shù)據(jù)軸上的數(shù)量表示,求平均就是將各種顏色在數(shù)量上差異變形為最終的調(diào)和色彩。處理數(shù)據(jù)的最終結(jié)果和數(shù)據(jù)資產(chǎn)不同,是數(shù)據(jù)資產(chǎn)實體在不同維度切面上的變形結(jié)果。
5.3圈選服務(wù)
圈選服務(wù)經(jīng)常會運用在對特定目標對象的操作中,如廣告系統(tǒng)中的精準營銷,或LBS服務(wù)中的地理圍欄,或數(shù)據(jù)化運營中的定向投放等。
同樣需要先確認對象,如“消費者”,然后可以在服務(wù)管理中選中“圈選”服務(wù)類型,進入“消費者圈選”服務(wù)的創(chuàng)建過程中,選擇需要作為圈選條件的標簽,并設(shè)置圈選的目標群體輸出時需要帶有的標簽信息。例如,選擇【性別】、【年齡】等標簽作為目標群體圈選的條件維度,設(shè)置【會員號】標簽作為目標群體的輸出信息項。
圈選服務(wù)創(chuàng)建好后生成API接口或交互界面,具體業(yè)務(wù)系統(tǒng)或業(yè)務(wù)人員即可調(diào)用或通過界面系統(tǒng)操作使用該服務(wù),如選擇【性別】等于“女”且【年齡】小于“30"的消費者群體。后臺系統(tǒng)根據(jù)“消費者”對象的確認,找到消費者對象庫中的所有具體實例樹(具體消費者個體);根據(jù)【性別】標簽的類目信息索引找到所有實例樹中“性別”樹葉位置,篩選留下“性別”樹葉具體取值為“女”的實例樹集合;同樣操作篩選留下“年齡”樹葉取值小于“30”的實例樹集合;將以上兩個實例樹集合取交集(業(yè)務(wù)人員制定規(guī)則為“且”);對最終交集中的每個個體樹上找出【會員號】標簽上的具體取值;并將該取值集合傳遞到接口輸出或通過界面呈現(xiàn),如圖13所示。
6結(jié)論
本文給出了一種面向業(yè)務(wù)、以數(shù)據(jù)價值實現(xiàn)為核心目標導(dǎo)向的數(shù)據(jù)資產(chǎn)建設(shè)方法論,具有3個特征:①是一種橋接數(shù)據(jù)和業(yè)務(wù)的中間邏輯層,讓數(shù)據(jù)變得可閱讀、易理解;②是一種統(tǒng)一的對象數(shù)據(jù)描述方法,把個體刻畫升級為群體刻畫,研究本質(zhì);③是一種構(gòu)建數(shù)據(jù)資產(chǎn)的第一性原理,通過學(xué)習(xí)方法論+演繹推導(dǎo)即可構(gòu)建具體的企業(yè)資產(chǎn)。
通過標簽類目體系方法構(gòu)建的數(shù)據(jù)資產(chǎn),可以將難以理解的數(shù)據(jù)信息轉(zhuǎn)化為業(yè)務(wù)人員“看一選一用一治一評”的資產(chǎn)操作對象,降低了數(shù)據(jù)資產(chǎn)使用門檻,加快了試錯和使用頻率,能夠切實有效地保障數(shù)據(jù)資產(chǎn)價值真正在業(yè)務(wù)端得到實現(xiàn),并保持長久運營的生命力。