周子晴/上海大學文化遺產(chǎn)與信息管理學院
2012年,聯(lián)合國發(fā)布的白皮書《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇》鄭重宣告:“大數(shù)據(jù)時代已然降臨,社會各個行業(yè)和各個領域?qū)⒁虼髷?shù)據(jù)的介入而發(fā)生深刻改變。”[1]面對大數(shù)據(jù)的沖擊,整個社會都發(fā)生顛覆性變革,數(shù)據(jù)成為國際社會的搶奪點和現(xiàn)代化生存的邏輯起點。2013年,維克托·邁爾-舍恩伯格(Viktor Mayer-Schonberger)和肯尼思·庫克耶(Kenneth Cukier)在其著作《大數(shù)據(jù)時代》中,首次將“數(shù)據(jù)化”(datafication)作為一個有特定內(nèi)涵的專業(yè)術(shù)語引入大眾的視野。“所以我們姑且稱其為‘數(shù)據(jù)化’吧——這是指一種把現(xiàn)象轉(zhuǎn)變?yōu)榭芍票矸治龅牧炕问降倪^程,數(shù)據(jù)化和數(shù)字化大相徑庭”[2]。數(shù)據(jù)化旨在挖掘數(shù)字信息更復雜、更高級、更直觀的存在形態(tài)和數(shù)據(jù)內(nèi)涵價值。同樣舍恩伯格也首次提出大數(shù)據(jù)技術(shù)催生了“數(shù)據(jù)化生存”這一論斷,“明天,我們的下一代,一群被‘大數(shù)據(jù)觀念’陶冶長大的家伙,會發(fā)自肺腑地認為‘量化一切’并從中學習對于社會是至關(guān)重要的”[3]。正如南京大學唐正東教授所言,“當今世界已經(jīng)處在一個數(shù)據(jù)化生存的語境中,數(shù)據(jù)的中介使個體聯(lián)系在一起,也使主客體世界延伸”[4]。因此與時俱進轉(zhuǎn)變思維、提前布局尋求突破,方是明智之舉。
截至2022年4月1日,筆者以主題為檢索字段、以“檔案AND數(shù)據(jù)化”為檢索式,獲得高度相關(guān)文獻51篇,對其研讀梳理,發(fā)現(xiàn)相關(guān)研究主要聚焦以下幾點:一是對檔案數(shù)據(jù)化的概念、內(nèi)涵、特征和意義、建設困境和路徑的闡釋;二是比較檔案數(shù)字化和檔案數(shù)據(jù)化的側(cè)重點,探討二者演進關(guān)系,提出檔案領域從數(shù)字化檔案向數(shù)據(jù)化檔案的轉(zhuǎn)向;三是探索特定檔案如人事檔案、高校檔案、非遺檔案的數(shù)據(jù)化建設路徑。檔案數(shù)據(jù)化進程既有高歌猛進的一面,也呈現(xiàn)出檔案部門一家之言、沒有在大數(shù)據(jù)時代背景下考量檔案數(shù)據(jù)化生存問題的態(tài)勢。本文將鋪敘從數(shù)字化生存到數(shù)據(jù)化生存的環(huán)境嬗變和時代背景,爬梳大數(shù)據(jù)時代檔案數(shù)據(jù)化生存困境,力圖尋求檔案數(shù)據(jù)化生存的出路和突圍之徑。
2020年4月發(fā)布的《中共中央 國務院關(guān)于構(gòu)建更加完善的要素市場化配置體制機制的意見》要求“加快培育市場要素,提升社會數(shù)據(jù)資源價值”[5]。檔案部門應以資源優(yōu)勢為競爭內(nèi)驅(qū)力,成為當今數(shù)據(jù)驅(qū)動型社會的積極參與者和建設者。因此,透析當代數(shù)據(jù)化生存的時代背景,厘清檔案數(shù)據(jù)化生存的理論內(nèi)涵就顯得尤為重要。
一方面,信息方式的非結(jié)構(gòu)化發(fā)展催生了數(shù)據(jù)化生存。隨著人類對物質(zhì)世界認知的縱深發(fā)展,物理學家對夸克等微小微粒的探索持續(xù)推進,微觀物質(zhì)世界的神秘面紗被逐步揭開。而人類對外部環(huán)境的認知也從信息層面發(fā)展到數(shù)據(jù)層面,更接近了“信息”的本質(zhì)[6]。信息處理和傳播方式經(jīng)歷了從附著在紙張上的圖文形式到模擬信號的模擬時代,再到以0、1的計算機識別處理符號的數(shù)字時代,最后再向萬物萬聯(lián)、時空關(guān)系被打破、數(shù)量龐大且不規(guī)則的非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)時代演化。5G測試點遍地開花,2019年成為5G元年,視頻流這一信息表達方式漸成主流,成為孕育數(shù)據(jù)化生存的沃土。
另一方面,計算機技術(shù)、云計算技術(shù)、電子媒介技術(shù)等現(xiàn)代化技術(shù)的發(fā)展和演進催生大數(shù)據(jù)時代的到來。計算機的出現(xiàn)帶來了數(shù)字測量和存儲設備,帶來了計量和記錄的革命,也使得通過數(shù)學分析挖掘數(shù)據(jù)的更大價值變成了可能,大大提高了數(shù)據(jù)化的效率[7]。以云計算為基礎的信息存儲、分享和挖掘手段,可以降低多變的終端數(shù)據(jù)存儲、分析和計算的成本、誤差以及時間,為其提供處理數(shù)據(jù)的手段和方法。大數(shù)據(jù)將一切數(shù)據(jù)化并儲存起來以便隨時進行量化分析,電子媒介技術(shù)為其提供技術(shù)支持。通過電子媒介,過去作為“人的延伸”的技術(shù)都會轉(zhuǎn)變成“信息系統(tǒng)”,“將人類的意識遷移到電腦中去”,“給人的各種感覺編制程序,使之更接近于人的意識”[8]?;ヂ?lián)網(wǎng)的普及和移動終端及第五代信息技術(shù)的快速發(fā)展,全面提升了互聯(lián)網(wǎng)應用平臺對個人數(shù)據(jù)的采集和處理能力,數(shù)據(jù)化生存時代悄然而至。
“數(shù)字化”和“數(shù)據(jù)化”議題密不可分,它們是不同的信息方式,前者是信息社會的技術(shù)前提,后者是信息社會的信息基礎,二者缺一不可。數(shù)字化是把模擬數(shù)據(jù)變成計算機可讀的、以0和1表現(xiàn)出來的數(shù)據(jù),以比特的形式存在,和數(shù)據(jù)化有本質(zhì)上的不同[9]。數(shù)據(jù)化關(guān)注的是信息內(nèi)涵的剖析、信息內(nèi)在價值的挖掘、信息發(fā)展規(guī)律的把控以及信息決策的預判,數(shù)據(jù)化是對數(shù)字化的拓展與深化以及更高形態(tài),二者無法相互替代。
大數(shù)據(jù)技術(shù)、人工智能技術(shù)的發(fā)展極大地推動了社會“深度數(shù)據(jù)化”的進程。一般而言,數(shù)據(jù)化是近代自然科學的基本特征,但這里的“數(shù)據(jù)化”不再局限于科學意義上的數(shù)據(jù)化,特指人類行為和社會活動的數(shù)據(jù)化,即將社會行為轉(zhuǎn)換成在線量化的數(shù)據(jù),從而能夠?qū)λM行實時跟蹤和預測分析[10]。我們也可將這種數(shù)據(jù)化稱為社會數(shù)據(jù)化,其目的在于將人類行為和社會活動計算機數(shù)據(jù)化,通過數(shù)據(jù)挖掘和處理,創(chuàng)造新的價值,即將數(shù)據(jù)轉(zhuǎn)換成新的價值形式[11]。關(guān)于數(shù)據(jù)化生存和檔案數(shù)據(jù)化生存,目前學界尚無統(tǒng)一明晰的定義。因此基于以上理論基礎,筆者將“檔案數(shù)據(jù)化生存”定義為“以檔案價值挖掘、滿足檔案受眾需求和決策預判為宗旨,以數(shù)據(jù)思維為意識形態(tài)引領,將豐富多樣的檔案形態(tài)轉(zhuǎn)換成數(shù)據(jù)態(tài)并對其進行操控、跟蹤、關(guān)聯(lián)性分析和處理以及風險管理的全過程”。
尼克·庫爾德里(Nick Couldry)和尤利西斯·A.梅西亞斯(Ulises A. Mejias)在《連接的成本:數(shù)據(jù)是如何殖民人類生活并使其為資本主義所用的》一書中,重新定義了數(shù)字時代的數(shù)據(jù)殖民主義:“隨著當前對數(shù)據(jù)的收集、處理和提取價值的普遍化,形成的一種新的促進經(jīng)濟增長的分配和掠奪世界資源的方式?!盵12]利用數(shù)據(jù)技術(shù)對用戶開展精準畫像、控制社會輿論導向甚至操縱政治選舉或外交決策已屢見不鮮,“2021年臉書封殺澳大利亞政府”事件、“哈薩克斯坦因天然氣漲價問題出現(xiàn)大規(guī)模騷亂”事件、“英國脫歐”事件等背后暗含的資本邏輯和數(shù)據(jù)管控、體現(xiàn)的數(shù)據(jù)殖民本質(zhì)給我們敲響了警鐘,大多數(shù)國家由于無力反抗已在無形中淪為數(shù)據(jù)殖民地。檔案部門作為不可或缺的數(shù)據(jù)管控者和數(shù)據(jù)治理參與者,數(shù)據(jù)主權(quán)安全風險成為大數(shù)據(jù)時代的重要議題。檔案數(shù)據(jù)生成、采集與存儲過程中面臨過度采集利用、泄露或被竊取的風險,檔案數(shù)據(jù)跨境管理和流動存在諸多風險,本國數(shù)據(jù)流失、情報泄露等隱患逐漸凸顯,檔案數(shù)據(jù)監(jiān)管問題未有定論。此外如何推進檔案數(shù)據(jù)治理、助力檔案部門融入國家數(shù)據(jù)治理體系、建立新的國際秩序等,也需要探索。
習近平總書記指出:“數(shù)據(jù)是新的生產(chǎn)要素,是基礎性資源和戰(zhàn)略性資源,也是重要生產(chǎn)力?!盵13]互聯(lián)網(wǎng)技術(shù)日新月異,數(shù)字經(jīng)濟時代悄然而至,數(shù)據(jù)的資產(chǎn)性特征日益凸顯,數(shù)據(jù)逐步成為企業(yè)之間、企業(yè)和政府之間以及新一輪國際競爭中爭奪的戰(zhàn)略性資源和核心,與之相伴的數(shù)據(jù)資本化運作、數(shù)據(jù)資源被搶占等問題不斷沖擊現(xiàn)有的信息格局,大數(shù)據(jù)時代新的數(shù)字鴻溝由此產(chǎn)生。此外,政府與公民、企業(yè)與消費者之間因數(shù)據(jù)不對稱而導致的隱性不公等問題日益嚴峻。大數(shù)據(jù)時代的數(shù)據(jù)革命、數(shù)據(jù)思維和數(shù)據(jù)文明,與人們的生存發(fā)展邏輯關(guān)聯(lián)性較強。我國檔案學發(fā)展過程本身就是一部技術(shù)變革史,然而在此輪與企業(yè)、政府和公民的數(shù)據(jù)博弈中,檔案部門似乎并未占據(jù)制高點,技術(shù)匱乏帶來的內(nèi)驅(qū)力不足的問題亟待解決。一方面,檔案館原有的檔案資源數(shù)字化程度還不夠高,而各地的大數(shù)據(jù)中心建設正如火如荼,無數(shù)據(jù)可管或?qū)⒊蔀槲磥頇n案部門數(shù)據(jù)化生存的最大威脅和挑戰(zhàn);另一方面,檔案部門的技術(shù)、人員和資金支持等相較于其他數(shù)據(jù)掌控者稍顯落后。
21世紀是大數(shù)據(jù)的時代,更是數(shù)據(jù)可視化的時代。這不僅因為各領域的專家學者都能利用數(shù)據(jù)可視化開展學術(shù)研究,也因為信息技術(shù)作為一種普遍的技能為大多數(shù)公眾所掌握甚至精通,數(shù)據(jù)可視化越來越“親民”[14]。數(shù)據(jù)可視化作為技術(shù)實現(xiàn)和藝術(shù)表達的綜合結(jié)果,對數(shù)據(jù)進行分析、視覺呈現(xiàn)、傳播、預測,輔助決策和記錄居民日常生活。在媒介融合語境下,大眾早已進入了“讀圖時代”,這標志著圖像主因型文化取代了傳統(tǒng)的語言主因型文化[15]。現(xiàn)如今短視頻作為數(shù)據(jù)的最新呈現(xiàn)方式,抖音、快手、小紅書等短視頻社交媒體平臺異軍突起,重新形塑人類社會的交往方式和運行秩序。檔案資源開發(fā)利用是檔案工作重要環(huán)節(jié),目前存在開發(fā)利用力度不強、覆蓋面較窄、數(shù)據(jù)化成果匱乏等問題。青島市檔案局承擔了國家檔案局科技項目“大數(shù)據(jù)背景下檔案信息資源挖掘策略與方法研究”,形成“數(shù)字圖像+檔案目錄數(shù)據(jù)庫”,成為推動檔案數(shù)字化進程的重要舉措,但檔案的數(shù)據(jù)化開發(fā)、檔案數(shù)據(jù)的圖像、視頻等可視化表達等仍處于起步階段,且極具影響力的成果較為匱乏。
近年來,隨著計算機和信息技術(shù)的發(fā)展,大數(shù)據(jù)挖掘正深刻地改變?nèi)祟惖纳睢4罅繑?shù)據(jù)流與日益提升的算法分析和技術(shù)能力相結(jié)合,使人們能夠利用基于機器學習的算法來解決復雜問題[16]。智能算法在一定程度上能克服人類決策的主觀性,但也帶來了算法時代數(shù)據(jù)化生存的深度疑慮:誰有能力和權(quán)力控制數(shù)據(jù)?誰在實際控制著數(shù)據(jù)?控制了數(shù)據(jù)意味著什么?這些問題背后隱藏著算法傳播的興趣偏向和渾然不覺的符號暴力,更復雜、更隱蔽的歧視帶來了檔案數(shù)據(jù)化生存的傳播新困境。一方面,凱茜·奧尼爾在《數(shù)學毀滅武器:大數(shù)據(jù)增加不平等和威脅民主》中警告,算法存在著不透明、可擴展且不公平的特點,可能會把我們引入歧途,如強化針對窮人的歧視、強化種族主義和擴大不平等[17],而這與檔案維護社會公平正義、消除種族歧視和各種不平等現(xiàn)象的初衷與使命相悖。另一方面,隨著算法與資源分配深度融合,算法歧視進一步惡化了分配不公的情況。如商業(yè)算法運作中普遍推行“動態(tài)差異化定價”即殺熟等消費歧視,以及信息繭房等信息歧視,都讓檔案的網(wǎng)絡化傳播之路荊棘叢生。檔案主動推送機制不成熟且起步較晚,當今平臺為吸引用戶以實現(xiàn)流量變現(xiàn)而打造的傳播環(huán)境對于檔案部門這類起步晚的新用戶十分不利,因此檔案較難實現(xiàn)個性化精準投送和互聯(lián)網(wǎng)大范圍傳播。
在《大數(shù)據(jù)時代》一書中,舍恩伯格斷言應樹立大數(shù)據(jù)思維,指出“一旦思維轉(zhuǎn)變過來,數(shù)據(jù)就能被巧妙地用來激發(fā)新產(chǎn)品和新型服務”。數(shù)據(jù)、技術(shù)和思維是大數(shù)據(jù)價值鏈的主要構(gòu)成要素。大數(shù)據(jù)思維是其中的一個要素,可以直接創(chuàng)造價值,“所謂大數(shù)據(jù)思維,是指一種意識,認為公開的數(shù)據(jù)一旦處理得當就能為千百萬人急需解決的問題提供答案”[18]。對于檔案工作者來說,樹立大數(shù)據(jù)思維包括三個層次:第一層次需要認識到利用大數(shù)據(jù)技術(shù)可以解決許多檔案問題,如實現(xiàn)檔案的跨時空傳播和共享,提供高質(zhì)量、深層次的檔案數(shù)據(jù)資源、數(shù)據(jù)服務和知識服務。此外,還需要充分認識檔案數(shù)據(jù)化的必要性和重要性。第二層次意在認識大數(shù)據(jù)如何解決檔案問題,如在思維方法上,傳統(tǒng)思維方式以因果關(guān)系分析為主,大數(shù)據(jù)思維方式則轉(zhuǎn)向相關(guān)關(guān)系分析,通過分析受眾需求的關(guān)聯(lián)性,實現(xiàn)檔案從被動服務向主動推送的轉(zhuǎn)變。第三層次需要樹立關(guān)于檔案大數(shù)據(jù)的反思和批判思維,實現(xiàn)從感性認知向理性分析的思維轉(zhuǎn)變,剖析大數(shù)據(jù)背景下檔案數(shù)字化建設誤區(qū),強調(diào)檔案數(shù)字化不能代替檔案數(shù)據(jù)化,并且避免檔案大數(shù)據(jù)被過度炒作。檔案數(shù)字化建設應以著錄標引等標準化和規(guī)范化工作為基礎,以推動檔案數(shù)據(jù)化,進而創(chuàng)新檔案服務模式[19]。因此檔案工作者樹立數(shù)據(jù)思維和創(chuàng)新思維,能打破原有的思維僵局,彰顯想象力經(jīng)濟時代的大智慧。
數(shù)字人文是一種將數(shù)據(jù)化思維及其工具、方法作用到傳統(tǒng)人文學科中的一門新興學科,其將量化思維與實證傳統(tǒng)相結(jié)合,彌補了傳統(tǒng)人文學科實證研究中對于量化分析的觀照不足[20]。隨著數(shù)字轉(zhuǎn)型升級和新技術(shù)環(huán)境變遷,檔案管理對象由數(shù)字態(tài)轉(zhuǎn)向數(shù)據(jù)態(tài)[21],檔案部門也逐漸發(fā)覺二者在資源、目標上的高度契合,檔案與數(shù)字人文的跨界融合日益縱深,數(shù)字人文為檔案的數(shù)據(jù)化呈現(xiàn)和人文開發(fā)提供新視角,數(shù)字人文技術(shù)為檔案數(shù)據(jù)層的挖掘與關(guān)聯(lián)、檔案知識服務提供新方法?,F(xiàn)如今我們每個人都不可避免地生活在技術(shù)社會中,科技迅猛發(fā)展帶來的“內(nèi)卷”、害怕被時代拋棄而產(chǎn)生的焦慮心理等帶來了許多問題,人們的生活被技術(shù)社會所肢解。檔案部門開展數(shù)字人文項目能彌合科學與人文的裂痕,利用科技傳播人文關(guān)懷和人文理療,甚至帶來美學體驗。歐洲“時光機”項目、浙江臺州高遷古村落數(shù)字記憶項目等,都是數(shù)字人文項目的經(jīng)典案例,都提供了很好的經(jīng)驗。但可以發(fā)現(xiàn),數(shù)字人文的困境和痛點也已顯現(xiàn),我國數(shù)字人文研究因文本與語言的特殊性,要求基礎技術(shù)、數(shù)據(jù)庫和專業(yè)軟件的研發(fā)必須匹配中文語境,由此導致了技術(shù)開發(fā)困境[22]。除此之外,對數(shù)據(jù)的過度信任和依賴、對算法的過度崇拜,會遮蓋數(shù)字人文研究的人文屬性。因此檔案部門應堅守人文治療的初心和使命,在技術(shù)社會中發(fā)現(xiàn)自身特性。
當前人工智能蓬勃發(fā)展,已廣泛應用于醫(yī)療、企業(yè)、教育、城市建設等領域,并取得成效。人工智能的廣泛應用必將為檔案管理帶來深遠而全面的變革,利用“大數(shù)據(jù)+AI”或?qū)樾乱惠喼腔蹤n案館建設提供新的著力點。第一,對人工智能技術(shù)、大數(shù)據(jù)技術(shù)等進行深入研究,如機器學習、大數(shù)據(jù)關(guān)聯(lián)分析、大數(shù)據(jù)分類等技術(shù),并將其與智慧檔案館建設深度融合,為檔案利用時的精準查找、用戶畫像、檔案數(shù)字化、檔案智能編研等提供技術(shù)支持。第二,助力智慧檔案館運營,人工智能為數(shù)字檔案的信息安全和紙質(zhì)檔案安全提供監(jiān)控和保障,為智慧檔案館的能級提升和大數(shù)據(jù)競爭等提供決策依據(jù)。第三,推進智慧檔案隊伍建設,人工智能助力提升檔案從業(yè)人員的科技素養(yǎng)和信息素養(yǎng),完善檔案用戶對檔案服務質(zhì)量的評價與反饋體系。第四,打造面向用戶的服務型智慧平臺,以用戶的數(shù)據(jù)需求為索引,以用戶的檢索軌跡為依據(jù),通過打造AI在線客服、AI對話型服務機器人等,為用戶提供多感官、多層次的檔案服務,打造一個人文關(guān)懷、沉浸式多感官體驗、情感觀照和記憶重現(xiàn)的綜合性公共空間。需要把握好人工智能的價值審度、倫理調(diào)試以及賦權(quán)限度,堅持以人為本的思想,遵循人工智能的倫理。
信息的推廣和傳播從模擬時代向全媒體時代邁進。自媒體平臺的興起引發(fā)了傳播方式的重大變革,實現(xiàn)了信息的供需適配,在提升信息匹配效率的同時,也帶來了算法和規(guī)則下新的信息“黑箱”和數(shù)據(jù)資本化視域下的信息霸凌,檔案信息的傳播與擴散也深受其害。因此,一方面,檔案的數(shù)據(jù)化轉(zhuǎn)型必將借勢5G時代,利用“視頻流”這一檔案數(shù)據(jù)化生存的重要突破口,尤其是短視頻,在抖音、快手、小紅書、知乎、嗶哩嗶哩等社交媒體網(wǎng)絡上傳播內(nèi)容簡短但受人青睞的視頻,響應平臺活動和話題,吸引大量用戶參與討論,達到引流的目的。此外還需推進用戶精準化管理,通過分析其社會地位、興趣偏好、行為表征、社群特征或行為結(jié)構(gòu),提供相應的檔案數(shù)據(jù)個性化推送服務。另一方面,數(shù)據(jù)化時代“算法+規(guī)則”的平臺運營機理的精神內(nèi)核就是數(shù)據(jù)相關(guān)性,要想實現(xiàn)算法逃逸,需要將目光重新聚焦在“為什么”等問題上。
大數(shù)據(jù)技術(shù)、人工智能和第五代信息技術(shù)的迅猛發(fā)展,使得信息產(chǎn)業(yè)原有邊界模糊甚至消失。大數(shù)據(jù)時代將驅(qū)動一場新的信息生態(tài)革命,信息技術(shù)不僅會改變檔案數(shù)據(jù)生產(chǎn)和分發(fā)的流程及模式,也將觸發(fā)檔案部門運行機制的改革和產(chǎn)業(yè)結(jié)構(gòu)的優(yōu)化升級。檔案數(shù)據(jù)化生存是時代發(fā)展的必然結(jié)果,檔案部門更應順勢而為。