冀博裕
在當今世界,數(shù)據(jù)對任何一家企業(yè)的成功都起著關鍵作用。企業(yè)的目標受眾、競爭對手產(chǎn)生的數(shù)據(jù)、工作領域的信息以及企業(yè)自己收集的數(shù)據(jù)可能會幫助找到更多客戶、分析業(yè)務決策、重新優(yōu)化業(yè)務模型或進入到其他市場。數(shù)據(jù)將幫助企業(yè)定義其可以解決的問題,并提供更好的服務,準確了解客戶的需求。
根據(jù)麥肯錫全球研究所發(fā)布的研究報告,與傳統(tǒng)企業(yè)相比,數(shù)據(jù)驅動的企業(yè)獲得客戶的可能性是23倍,留住客戶的可能性是6倍,盈利的可能性是19倍。
近年來,全球數(shù)據(jù)量大幅增長。90 %的數(shù)據(jù)是在過去2年中產(chǎn)生的。IDC的研究表明,到2025年,大數(shù)據(jù)將達到約1 ZB。根據(jù)最近發(fā)布的一份研究報告,全球每天產(chǎn)生的數(shù)據(jù)量約為2.5萬億字節(jié)。
但是數(shù)據(jù)本身沒有任何意義,除非它是根據(jù)企業(yè)的業(yè)務想要實現(xiàn)的目標或想要解決的問題進行收集和分析的,這就是數(shù)據(jù)科學面臨挑戰(zhàn)的地方。
本文將重點介紹處理數(shù)據(jù)的第一步,也可能是最重要的一步———數(shù)據(jù)收集。定義企業(yè)需要哪些數(shù)據(jù)以及如何收集這些數(shù)據(jù)至關重要,因為企業(yè)所有進一步操作都將基于這些數(shù)據(jù)。收集錯誤的數(shù)據(jù)意味著其他所有工作都將徒勞無功,因為它不會帶來正確的見解或為企業(yè)提供所需的信息。
先從數(shù)據(jù)科學的簡要概述開始,因為從數(shù)據(jù)中提取有洞察力的信息是其核心。
數(shù)據(jù)科學發(fā)現(xiàn)并揭示了趨勢,揭示了企業(yè)可用于更好決策、創(chuàng)造創(chuàng)新產(chǎn)品和服務以滿足客戶需求的見解。
數(shù)據(jù)科學結合了不同的領域,如統(tǒng)計學、科學方法、人工智能和數(shù)據(jù)分析。數(shù)據(jù)科學家獲得從互聯(lián)網(wǎng)、智能手機、客戶和其他服務收集的數(shù)據(jù)分析的各種知識和技能,以提供見解。
數(shù)據(jù)科學家從數(shù)據(jù)庫中收集相關數(shù)據(jù),然后清理、處理、分析以及指定有用的數(shù)據(jù)。下一個任務是找到能夠引導企業(yè)獲得豐富見解的模式。
因此,數(shù)據(jù)科學家負責收集數(shù)據(jù)、制定分析策略、可視化數(shù)據(jù),并使用Python和R等編程語言使用數(shù)據(jù)構建模型。他們將模型部署到應用程序中。
在進一步的數(shù)據(jù)操作之前,先專注于數(shù)據(jù)收集。
數(shù)據(jù)收集是在特定的成熟技術幫助下,測量和分析不同類型信息的同時收集數(shù)據(jù)。收集的數(shù)據(jù)類型取決于需要解決的問題,這是任何一個數(shù)據(jù)科學家開展項目的起點,因為總有一些東西可以修復或改進。
數(shù)據(jù)收集有多種方法,具體取決于要獲取的數(shù)據(jù)類型。其中一些使用技術收集,而另一些則通過人工收集,包括:
在應用程序和網(wǎng)站中內置數(shù)據(jù)收集工具;
用于從車輛或機械等設備收集數(shù)據(jù)的傳感器;
跟蹤社交媒體、博客、評論、論壇和其他渠道上的活動,幫助企業(yè)了解有關客戶的更多信息;
在線完成的調查和問卷調查;
焦點小組、訪談、研究性學習時的直接觀察。
但在開始使用任何數(shù)據(jù)收集方法之前,需要完成一些重要的步驟。
問自己一個準確的問題
定義需要解決的一個問題是數(shù)據(jù)收集過程路線圖的第一步,在開始整個過程之前,應該制定明確的目標。例如企業(yè)是一個在線服裝銷售平臺,但是客戶較少,因此,其目標將是吸引更多人訪問網(wǎng)站,并增加銷售額。
現(xiàn)在有多種改進方法,例如通過吸引老年客戶或來自特定地區(qū)的人員來擴大目標受眾。這就是企業(yè)采用大數(shù)據(jù)的原因和著力之處,以找出其客戶是誰,以及什么可以引起其他客戶的注意。
或者,可以通過實施更多技術解決方案或簡單地改善交付流程來改善他們的購物體驗。
眾所周知的是,數(shù)據(jù)收集在于質量不在于數(shù)量,質量決定對最終目標的理解,收集數(shù)據(jù)的目的是什么,以及它應該如何為解決確切的問題提供幫助。
指定數(shù)據(jù)類型
根據(jù)企業(yè)的目標,下一步將是定義哪種數(shù)據(jù)對其更有利。它可以是定量的或定性的。第一個包含數(shù)字,而第二個更復雜,可能會因客戶反饋到?jīng)Q策過程而異。
需要記住的是,并不需要所有的數(shù)據(jù),因為需要回答一個準確的問題,指定其需要的數(shù)據(jù)類型將幫助處理數(shù)據(jù)。
概述消息來源
根據(jù)需要的數(shù)據(jù),應該決定可以在哪里收集數(shù)據(jù),在企業(yè)內部、第三方或外部來源。
這種趨勢表明,使用外部數(shù)據(jù)可以獲得更好的結果,因為它可以讓企業(yè)跟蹤競爭對手,并為其提供更廣闊的前景。選擇這條道路在法律法規(guī)和道德標準方面似乎更為復雜。但是,如果想更廣泛地了解情況,這是值得的,該領域已經(jīng)做了什么,競爭對手面臨什么問題,以及企業(yè)如何改進其服務以使他們做得更好。
此外還要牢記道德問題,企業(yè)必須確保其客戶了解從他們那里收集的數(shù)據(jù)。否則,可能會卷入數(shù)據(jù)丑聞。其次,企業(yè)的法律團隊應跟蹤他們的數(shù)據(jù)收集方法是否遵守使用第三方數(shù)據(jù)源的法律。
企業(yè)還可以聯(lián)系政府機構或開始調查,這是收集數(shù)據(jù)科學數(shù)據(jù)的標準工具。
最后但同樣重要的是,企業(yè)可以根據(jù)現(xiàn)有數(shù)據(jù)創(chuàng)建用戶角色。了解客戶的行為和需求可以開發(fā)強大的洞察力來推動其下一個商業(yè)理念,當無法從其他來源獲取更多數(shù)據(jù)時,通常使用這一工具。
定義時間范圍
這不僅僅是關于企業(yè)需要什么數(shù)據(jù),當數(shù)據(jù)最有益時,衡量時間線也很重要。例如,需要指定客戶在其網(wǎng)站上的行為或確定他們在特定時期內的地理位置和搜索歷史。雖然用戶一直在生成數(shù)據(jù),但企業(yè)有責任確定數(shù)據(jù)何時對其有效。
不要忘記數(shù)據(jù)存儲
在收集數(shù)據(jù)之前,企業(yè)應該定義如何存儲數(shù)據(jù),許多工具將幫助其收集和組織結構化和非結構化數(shù)據(jù)。結構化數(shù)據(jù)主要由數(shù)字和數(shù)值組成,而非結構化數(shù)據(jù)更為復雜,包括傳感器、文本文件、音頻和視頻文件等。找到合適的數(shù)據(jù)管理工具對于進一步處理和管理至關重要。
收集數(shù)據(jù)
最后,企業(yè)可以進行實際的數(shù)據(jù)收集,考慮可能發(fā)生的要求和隱私問題以及安全問題,然后進行重復。
數(shù)據(jù)收集遵循每個步驟,這是升級業(yè)務的無限過程。隨著新工具和技術幾乎每天都在出現(xiàn),企業(yè)客戶的行為可能會發(fā)生變化,可能會出現(xiàn)新的渠道,并且會出現(xiàn)新的問題。因此,企業(yè)可能將不得不重復這些步驟,以獲取有關客戶或業(yè)務處理領域的更多信息,改進解決方案并開發(fā)新的解決方案,為此還需要了解數(shù)據(jù)收集之后的步驟。