王 奕 張 靜 王正興
(1.南京特殊教育師范學院圖書館 南京 210038;2.中國藥科大學圖書館 南京 210009;3.江蘇海洋大學圖書館 連云港 222005)
當今信息時代,世界在追蹤多樣化的人類信息活動。人們的行為和偏好被用許多方式獲取,并以數(shù)據(jù)的方式記錄。在給定的數(shù)據(jù)運用賦權范圍內,對大量數(shù)據(jù)的理解和分析,可以影響到個人和社會生活的所有領域決策,特別是在知識創(chuàng)新、科學創(chuàng)造的數(shù)據(jù)學術和情報分析活動中發(fā)揮著重要的作用。
人類信息活動過程中產(chǎn)生的數(shù)據(jù)理解和分析,尤其是通過數(shù)據(jù)間的交互、融合而產(chǎn)生新的知識信息是數(shù)據(jù)科學的前沿領域,其中最大的挑戰(zhàn)是因生態(tài)系統(tǒng)的復雜性帶來的數(shù)據(jù)產(chǎn)生、收集、編輯和使用[1]問題。這是因為生態(tài)系統(tǒng)中的數(shù)據(jù)收集、編輯和用戶需要存在多人甚至群體參與的復雜場景,其“場景制作”要求與單一個人的數(shù)據(jù)制作的情況是不同的,它的復雜性引發(fā)了如何促進對大量數(shù)據(jù)的操作、分析,理解的問題。如果不能解決對數(shù)據(jù)的理解,人們就無法與數(shù)據(jù)交互,必然影響到個人和組織充分利用這些數(shù)據(jù),更談不上數(shù)據(jù)價值的挖掘和增值。知識信息創(chuàng)新、數(shù)據(jù)情報分析、科學信息利用、復用、再生使用,呼吁在海量數(shù)據(jù)分析的基礎上研究人們如何與數(shù)據(jù)交互,由此,在人-機交互(HCI)基礎上的一個新的研究領域“人-數(shù)交互”(human-data interaction HDI)研究正在興起( HDI目前尚無公認的中文譯名,本文僅根據(jù)其含義譯作“人-數(shù)交互”)。
第一篇使用到術語“人-數(shù)交互”(HDI)的文章發(fā)表在2006年,這是一篇題為《一種用于基因組數(shù)據(jù)中的集群建模、可視化和發(fā)現(xiàn)的可視化統(tǒng)計數(shù)據(jù)分析器(VISDA)工具》的文章[2],2008年,Simoff等人在介紹可視化數(shù)據(jù)挖掘的書籍中提及術語HDI[3],2010年,Cafaro 等人在《RFID本地化有形和健全的多用戶交互與博物館展品》中將“人與數(shù)據(jù)的交互”作為關鍵詞列出,但它沒有明確地在正文中使用。較早定義HDI一詞和相關概念,并在接下來的幾年中經(jīng)常被引用的出版物主要是Elmqvist[4]和Cafaro[5]的成果。
1.1概念與定義HDI字面意義明確了兩個關鍵性概念:一是側重對“數(shù)據(jù)”的定義,即:“人類信息活動過程中產(chǎn)生的數(shù)據(jù)”的交互,二是側重對“數(shù)據(jù)交互”操作者的定義,即:是“人類通過某種方法主動干預或促成”數(shù)據(jù)交互。由于產(chǎn)生、收集和使用數(shù)據(jù)的環(huán)境不同,以及人們對于數(shù)據(jù)交互的理解與使用的交互方法不同,一些關于HDI的相關研究試圖解釋闡明該領域的目標、邊界和前沿,Elmqvist, N.;Cafaro,; Mortier、Hornung等人介紹了問題,討論了概念。這就產(chǎn)生了HDI的幾種概念[6]。
Elmqvist(2011)認為HDI指的是“對大型、非結構化和復雜數(shù)據(jù)集的人為操作、分析和感測”。他提出了一種通過創(chuàng)建物理推理環(huán)境來支持人類數(shù)據(jù)交互的方法[4]。類似的,Cafaro (2012)使用HDI一詞來表示“大型數(shù)據(jù)集中提供個性化、上下文感知和可理解的數(shù)據(jù)”的問題。他解釋HDI涉及的是“使用體現(xiàn)交互來促進用戶探索豐富數(shù)據(jù)集的技術”[5]。Mortier等人(2013)定義HDI通常涉及人類、數(shù)據(jù)集和分析之間的相互作用……,無論是作為在線系統(tǒng)的用戶還是作為數(shù)據(jù)收集的對象,HDI都是對我們(個人或集體)決策以及采取的行動的分析。他們強調,這個術語意味著個人和他們發(fā)出的信號之間的明確聯(lián)系。根據(jù)作者的說法,HDI涉及數(shù)據(jù)和用于分析數(shù)據(jù)的算法,以及數(shù)據(jù)的使用方式和使用者[7]。他們主張HDI側重于個人數(shù)據(jù)和開放數(shù)據(jù)。并提出了與數(shù)據(jù)進行有意義的交互的三個關鍵方面:a.易讀性:涉及使數(shù)據(jù)分析算法對人透明和可理解,涉及數(shù)據(jù)和處理;b.代理:與處理數(shù)據(jù)的能力相關,與處理數(shù)據(jù)的系統(tǒng)相關,使人們有能力控制、通知和糾正數(shù)據(jù)和推論;c.可協(xié)商性:關注在數(shù)據(jù)方面出現(xiàn)的動態(tài)關系,以及個人理解和態(tài)度如何隨時間變化[8]。
1.2特定觀點Hornung等人使用了以人為中心的視角[1]。認為HDI除了可能適用于數(shù)據(jù)的法律和監(jiān)管框架外,還涉及社會規(guī)范的形成。提出HDI的主要目標之一應該是設計交互,使利益相關者能夠促進期望的、并避免不期望的數(shù)據(jù)使用后果。他們認為,有必要考慮復雜的背景因素,包括信仰體系,參與方的價值觀和規(guī)范?!盀榱四軌蚶斫饨Y果,甚至設計出促進或抑制某些結果的‘數(shù)據(jù)交互’”。參與方不僅限于直接訪問和使用數(shù)據(jù)的人員,還包括影響和受其使用結果影響的人員。
Hornung等人還從數(shù)據(jù)生命周期的角度闡明HDI應是完整的數(shù)據(jù)生命周期:數(shù)據(jù)源、選擇、清理、映射和顯示。并可根據(jù)符號學方法[9]提供一些符號學框架,以推動理解數(shù)據(jù)意義的系統(tǒng)過程,包括物理層、經(jīng)驗層、句法層、語義層、語用層和社會層。他們提出,HDI的設計問題必須考慮到符號框架中的一個層、數(shù)據(jù)生命周期中的一個階段和一個涉眾的組合。
Locoro豐富了HDI概念,提出了一種區(qū)分不同數(shù)據(jù)狀態(tài)的方法,將其分為三類:a.原始數(shù)據(jù),深深植根于工作實踐的信息。這些數(shù)據(jù)與衍生數(shù)據(jù)不同,從原始數(shù)據(jù)中產(chǎn)生,目的不同于那些與原始數(shù)據(jù)生產(chǎn)和使用實踐相關的數(shù)據(jù)。b.衍生數(shù)據(jù)分為二級數(shù)據(jù)(通過轉換和研究生成,使其更適合其特定的專業(yè)解釋)。c.三級數(shù)據(jù)(從二級數(shù)據(jù)轉換而成,使其易于使用和有價值)。后者可用于不可預測和非結構化的任務,并在信息服務方面?zhèn)鬟_給更廣泛的消費者群體[10]。
此外,Crabtree提出了一個愿景,強調“通過設計實施隱私保護措施”,要使個人或群體的數(shù)據(jù)社會價值得到保護、經(jīng)濟價值得到回報,就沒必要實現(xiàn)數(shù)據(jù)監(jiān)管的社會學功能,也就沒有什么可監(jiān)管的了[11]。
2020年Eliane Zambon Victorelli等人綜述了上述基本概念與特定觀點[6],并分析認為:大多數(shù)時候,HDI這個術語是用人類操縱的辦法來處理大型和復雜的數(shù)據(jù)集中的數(shù)據(jù)交互問題的。該定義涉及個性化、語境的上下文識別和理解,并需采用具體的交互方法。這個術語的定義帶來了實際的好處是它鼓勵數(shù)據(jù)重用、組合和不同人群、不同目標共用數(shù)據(jù)協(xié)調在相關領域的實踐,實現(xiàn)“人-數(shù)交互”的目標。他們還滿懷信心地相信:定義HDI術語另一個好處是強調了研究人員和實踐者從各個相關領域為HDI設計建立一個更好的基礎框架,服務于HDI理論研究和實際應用的理解溝通。
根據(jù)上述研究者對的HDI的概念描述和觀點表達,按照定義是“對于一種事物的本質特征或一個概念的內涵和外延所作的簡要說明”(參見百度百科“定義”)。本文將HDI定義為:人類通過創(chuàng)建物理推理環(huán)境,在給定的數(shù)據(jù)運用賦權范圍內,對人類信息活動過程中產(chǎn)生的大型、非結構化和復雜數(shù)據(jù)集中不易理解、不具備自行交互能力的數(shù)據(jù)的主動干預。以人對數(shù)據(jù)的操作、分析和感測,實現(xiàn)提供個性化、上下文感知和可理解的數(shù)據(jù)的交互過程。按照“術語是與某一知識活動或領域中的概念相聯(lián)系的詞與詞組。”(參見俄羅斯學者格里尼奧夫著《術語學》,商務印書館,2011,P25)將HDI定義與術語“人-機交互”(HCI)定義:人與計算機之間使用某種對話語言,以一定的交互方式,為完成確定任務的人與計算機之間的信息交換過程”(參見百度百科“人機交互”)對應,用中文表述HDI為“人-數(shù)交互”。
Eliane Zambon Victorelli等人采取文獻檢索方法,在Web of Science、Scopus、IEEEXplore,ACM數(shù)字圖書館,愛思唯爾科學指導和施普林格鏈接等數(shù)據(jù)庫中對HDI研究相關論文與作者進行文獻調研,他們以“人—數(shù)據(jù)交互”作為搜索詞,以2017年5月30日前出版,用英語寫作為條件。通過讀取數(shù)據(jù)庫文章的標題,摘要,關鍵詞,結論和章節(jié)(必要時全文)。篩選具有HDI研究信息背景的相關論文和作者,并提取相關論文的出版年份、出版物來源和類型(會議或期刊文章)、作者、研究名稱、論文影響力(谷歌學者引文)、研究貢獻類型、研究方法、研究背景、應用領域、分析問題的類型、對個人數(shù)據(jù)的看法、數(shù)據(jù)生命周期的各個階段、研究的結果類型等10多種文獻形式和內容特征,用文獻綜述和可視化分析的方法從研究領域與主題等方面概述了HDI研究進展[6],初步勾勒出了“HDI”研究的現(xiàn)狀和趨勢概貌。
2.1研究領域從文獻發(fā)表的期刊看,涉及的主要期刊有《顆粒計算》《BMC 生物信息學》《計算機和地球科學 》《人類行為中的計算機》《國際生產(chǎn)經(jīng)濟學雜志》《口譯》《人工智能》《多媒體工具和應用 》《個人和無處不在的計算》等等。
從文獻發(fā)表的所在會議看:有“計算系統(tǒng)中的人為因素會議(2017) ”“ 歐洲計算機支持合作工作會議(2015) ”“腦信息學與健康國際會議(2014 年)”“ 國際計算機信息系統(tǒng)和工業(yè)管理會議(2015)”“人機交互國際會議設計和評估、用戶和上下文(2015) ”“走向有意義的互聯(lián)網(wǎng)系統(tǒng)國際會議(2014)”“社會意識組織和技術的影響和挑戰(zhàn)會議(16) ”“語義網(wǎng)會議(2017) “等等。
從文獻題名看:有概論性的《人-數(shù)據(jù)交互的挑戰(zhàn)與機遇》《人與數(shù)據(jù)交互的體現(xiàn)》《交互用戶研究的價值和質量 》《探索開放數(shù)據(jù)的交互性—一種基于實證的方法》等。有人文社會科學領域的《視覺參數(shù)交互(V2PI) 》《從內部解讀數(shù)據(jù):通過透視法支持博物館展品中的人與數(shù)據(jù)交互 》《了解、發(fā)現(xiàn)、獲取—在國內環(huán)境中處理和組織音樂》等、經(jīng)濟與管理領域的《扶持新的經(jīng)濟參與者:個人數(shù)據(jù)監(jiān)管和數(shù)字經(jīng)濟》《物聯(lián)網(wǎng)中的人類數(shù)據(jù)交互:所有權方面 》,也有自然科學領域的《通過人類與數(shù)據(jù)的相互作用分析,確定磁性數(shù)據(jù)的有效解釋方法》、還有與醫(yī)療健康相關的《關于生物醫(yī)學信息學中交互式知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的熱點思想高級教程 》《通過飲食配方交互追蹤健康》等等,可見HDI 研究涉及學科領域非常廣泛。
另外,從涉及的研究層次看,基礎性研究普遍受到關注,如與數(shù)據(jù)交互利益相關者的個人資料研究[7-8, 12]等,數(shù)據(jù)所有權和同意研究,具體交互研究,數(shù)據(jù)可視化、挖掘和分析。其次是各領域應用研究,如:健康信息學、城市化與智慧城市、地質和石油[13]、博物館等,最后是相關研究,包括學習和教育[14]、圖像處理等[15]。
再從研究的類型看,47種研究成果中,28項為實證研究, 14項成果為理論研究,15項研究成果是實證研究與“應對挑戰(zhàn)”的對策研究(研究類型有交叉)[6]。
2.2研究主題
2.2.1 基礎性研究主題 a.個人數(shù)據(jù)研究。總的來說,術語“個人數(shù)據(jù)”是指其他人創(chuàng)建的關于我們的數(shù)據(jù)或我們創(chuàng)建的數(shù)據(jù)[8]。已經(jīng)發(fā)表的論文中,首先,有7篇是關注這類數(shù)據(jù)產(chǎn)生和收集、以及使用所帶來的隱私和道德相關問題。強調要以一種合乎道德和可操作的方式鼓勵個人公開自己的數(shù)據(jù)和吸引用戶,從有關各方之間的對話開始,圍繞易讀性、代理性和可協(xié)商性推進個人數(shù)據(jù)的HDI[8]。作者們還提請注意:一是要保護高度敏感的個人數(shù)據(jù)不受未經(jīng)授權的訪問和損害。特別是個人信息在與健康相關的數(shù)據(jù)集中,數(shù)據(jù)隱私和安全保護尤其重要[16-17]。二是需要開發(fā)社會模型和數(shù)據(jù)共享機制,使用戶能夠在這一過程中發(fā)揮積極作用[18]。其次,許多文章對個人數(shù)據(jù)及其與數(shù)字技術設計的關系提出了建設性意見[7]。第三,是圍繞個人數(shù)據(jù)的發(fā)布,跟蹤和研究用戶在網(wǎng)絡中的交互[19]。另外,還有4篇文章涉及包括音樂[20]食物和飲食習慣[21]以及健康相關的特定類型的個人數(shù)據(jù)[16-17]。
b.數(shù)據(jù)所有權和許可研究。有9篇文章涉及到關于數(shù)據(jù)所有權的討論。一些作者指出:需要設計專門的傳感器,以跟蹤、監(jiān)測人類日?;顒赢a(chǎn)生的數(shù)據(jù)在網(wǎng)絡上與用戶的交互情況,以解決特定領域數(shù)據(jù)的所有權問題。例如衛(wèi)生領域[16]學習分析[14]或跨部門行為[22]。還有一些作者對屬于團體的數(shù)據(jù)進行了所有權討論。包括合作工作產(chǎn)生的數(shù)據(jù)來源分組、管理、談判、授權和透明度/意識機制[18],以及數(shù)據(jù)的權利管理[14]。Chowdhury 和 Dhawan還提出了一些特定情況下的數(shù)據(jù)所有權模型,比如不同維度的智慧城市下的數(shù)據(jù)所有權模型[23]、與互聯(lián)網(wǎng)相關的設備物聯(lián)網(wǎng)數(shù)據(jù)所有權模型[24]。此外,還有文章針對有明確的個人知道或許可的數(shù)據(jù)收集活動,對改進數(shù)據(jù)收集許可提出了有價值建議[25]。
c.體驗式交互研究。數(shù)據(jù)交互的常見主題是沉浸式物理體驗交互設計。Cafaro等人的研究考慮了一種系統(tǒng)直接由人控制的用戶交互的方法。根據(jù)這種方法,人們成為自己交互的對象, 這一主題推動了人類數(shù)據(jù)交互及其定義的進一步研究。在體驗交互理念的驅動下,HDI被定義為探索體驗交互,以方便用戶探索豐富數(shù)據(jù)集的技術[5]。值得注意的是,其他HDI定義并沒有完全明確這種類型的交互,這個定義不僅涉及內置交互,而且還涉及與數(shù)據(jù)的不同交互形式。一些學者,研究了體驗式交互的不同方面,例如使用被動標簽(RFID)技術[26]或增強現(xiàn)實設備[27];此外,還研究了輔助交互的相關設備,例如有形透鏡或幾何體[5],甚至包括地毯的質地和顏色[28]。還有研究者以寓言或手勢隱喻為例,分析從多維度、多視角促進交互,以便更容易地學習交互方法和提升交互效果[6]。目前這些交互研究的動機和實驗環(huán)境大多發(fā)生在博物館。它們的結果是體驗式交互的設計指南。
d.數(shù)據(jù)可視化、挖掘和分析。有12項研究涉及數(shù)據(jù)可視化交互實現(xiàn)問題。一些研究者提出了支持可視化交互的框架,以促進領域專家知識的整合。其思想是結合人類智能,幫助實現(xiàn)精確和有意義的數(shù)據(jù)可視化及建模。這類研究的例子有Zhu等人構建的基因組數(shù)據(jù)可視化工具和理解研究[2, 29];Prado等人開發(fā)的科研究數(shù)據(jù)發(fā)布、共享、發(fā)現(xiàn)和重用的工具[30]。此外,Holzinger提出了在復雜的高維數(shù)據(jù)集(如生物醫(yī)學數(shù)據(jù))中發(fā)現(xiàn)知識的有用工具[31]。Freitas和Curry以提高數(shù)據(jù)質量為重點,提出了博物館策展人與數(shù)據(jù)交互的方法,以提高策展效率,減少領域專家在策展數(shù)據(jù)時的障礙[32]。 Hall等人研究設計了一些方法來解決缺乏關注重要數(shù)據(jù)的能力的問題。例如,將信息可視化技術與數(shù)據(jù)轉換和分析技術相結合,幫助因緊急請求而不知所措的風險分析人員發(fā)現(xiàn)相關數(shù)據(jù)[33]。一些作者研究了適合“外行人”日?;顒痈泄倩臄?shù)據(jù)可視化制作。 Pacheco 等人創(chuàng)建了一個基于位置的增強現(xiàn)實系統(tǒng),以增強在戶外環(huán)境中具有文化遺產(chǎn)內容的HDI[27, 34]。另一方面,Locoro描述了第三方用戶在零星和短期交互中視覺化的適用性需求,并探討如何使可視化能夠適應這種需求[10]。還有一些作者討論了用于數(shù)據(jù)可視化的交互式工具的可用性評估。他們強調信息質量及其對洞察力的價值。Cabitza等人進行了一項用戶研究,以評估圖表形式呈現(xiàn)的常見開放式醫(yī)學專家數(shù)據(jù)集其感知效用是否會增加[35]。Locoro等人提出了一個模型來評估信息復雜性和美學之間的權衡,他們的工作衡量了信息圖形的質量對信息感知和用戶交互的影響程度[36]。 此外,Leman等人為HDI創(chuàng)建了一種方法,根據(jù)該方法,用戶被嵌入到生成可視化效果的環(huán)境中,對設計支持數(shù)據(jù)生命周期的交互式數(shù)據(jù)可視化工具和應用程序作出了貢獻[37]。而Hornung等人 通過調查與HCI相關的數(shù)據(jù)生成、收集、編輯和使用問題,提出了符號學視角的數(shù)字可視化框架[1]。
2.2.2 應用性研究主題 a.健康信息學。衛(wèi)生部門需要似乎是HDI研究的重要動力之一。交互式數(shù)據(jù)可視化工具被認為是醫(yī)療領域大數(shù)據(jù)分析不可或缺的工具,人們可以通過這些工具,理解復雜的人類生態(tài)特征、醫(yī)藥、健康數(shù)據(jù)[35]。
b.城市化與智慧城市。HDI的第一篇論文,就是以幾何體和桌面顯示的交互,模擬城市教育規(guī)劃應用的實例。今后,智能城市建設和服務仍然是HDI研究的激勵因素和熱門話題,并且研究通常會與物聯(lián)網(wǎng)應用、公共空間中的傳感器運用相關。當人們在公共空間活動時,他們必須感到自己的隱私不會受到侵犯,也就是說,不能以犧牲個人隱私為代價實現(xiàn)智慧城市的預期目標。Chowdhury和Dhawan和Mashhadi還提出了稱為“設計隱私”的關于空間設備和所有權模型的建議[24,38]。Cavoukian和CibBA,建議在協(xié)同城市規(guī)劃中使用粒度計算來提高數(shù)據(jù)的易讀性和增強智慧城市設施智能。Wilke和Portmann,的關于智慧城市環(huán)境研究的論文,展示了一個運用自動化數(shù)據(jù)處理迭代程序,通過用戶數(shù)據(jù)輸入和交互實現(xiàn)支持集體決策的案例[39]。
c.博物館。這一領域的研究包括博物館中的人類數(shù)據(jù)交互,側重于體現(xiàn)人的交互。這個話題在文章《從內部解讀數(shù)據(jù):支持博物館展品的人—數(shù)據(jù)交互》[28]中有詳細報道和討論。
由于HDI研究正處于早期研究階段,在基礎、應用和相關三個層次,基礎性研究主題是當前研究熱點,應用研究尚顯稚嫩,相關研究亟待展開(本文不作研究主題介紹)。
Eliane Zambon Victorelli等人根據(jù)文獻綜述,結合可視化分析和對HDI領域的理解,認為,目前與HDI研究仍然處于初級階段,在基礎性研究、過程性研究、影響因素研究和應用領域拓展上呈現(xiàn)出復雜的研究挑戰(zhàn),他們整合了一系列開放性的研究挑戰(zhàn)方向[6]。
3.1基礎性研究挑戰(zhàn)
3.1.1 個人數(shù)據(jù)的易讀性和代理性 個人資料的概念及其含義已被廣泛討論,但仍有許多問題有待研究。個人數(shù)據(jù)的HDI提出了研究如何使人們理解數(shù)據(jù)及其含義的必要性。一個復雜的挑戰(zhàn)是,如何利用以人為中心的數(shù)據(jù)驅動世界觀,滿足人們了解數(shù)據(jù)本身及其影響的需求[8]。一個人在某一特定時間的有效觀點可能不具有另一個人或另一時間的相同解釋。為了實現(xiàn)感知目標,重要的是如何根據(jù)所考慮的視角變化去以有效視圖的方法理解數(shù)據(jù)。同時,它還與提供的HDI機制相關,這些機制應該允許用戶通過反饋(交互),影響和修正相關數(shù)據(jù)的意義演變。未來的挑戰(zhàn)包括設計支持數(shù)據(jù)編輯和數(shù)據(jù)呈現(xiàn)的機制,以使用戶能夠在獲得推論的基礎上糾正和改進數(shù)據(jù)[8]。Crabtree和Mortier進一步的研究建議是:允許以用戶為中心的機制支持個人通過積極參與維護自己的數(shù)據(jù)來自主行動。個人數(shù)據(jù)易讀性的挑戰(zhàn)包括可視化處理器將從數(shù)據(jù)源中獲取什么?必須找到測量或模擬個人數(shù)據(jù)收集效果的方法,并且必須考慮到此收集的效果可能跨越多個實體和多個時間段。從其他角度看,應該對個人數(shù)據(jù)發(fā)現(xiàn)進行研究,包括元數(shù)據(jù)發(fā)布、消費者分析、可發(fā)現(xiàn)性政策、身份機制和個人數(shù)據(jù)跟蹤,也包括數(shù)據(jù)共享過程的實時連接[18]。
3.1.2 數(shù)據(jù)所有權模型與價值 人們通過各種方式收集的數(shù)據(jù)具有經(jīng)濟價值,必須由法律和監(jiān)管框架加以考慮。研究界需要通過促進相關行業(yè)和用戶之間的交流來解決數(shù)據(jù)所有權的微妙問題。 在大數(shù)據(jù)世界里,多樣性和速度,再加上公共空間被人操縱監(jiān)控器,需要討論什么是個人數(shù)據(jù)及其經(jīng)濟價值。用戶必須能夠扮演重要角色。他們應該能夠協(xié)商收集到的信息使用權,以推動重要決策[24]。同時,考慮到有意或無意共享的數(shù)據(jù),有必要繼續(xù)討論個人數(shù)據(jù)的概念[40]。需要考慮如何授權用戶從共享數(shù)據(jù)中獲取價值的模型。應該評估如何讓人們意識到他們正在保護哪些數(shù)據(jù),他們同意使用哪些數(shù)據(jù),以及可以從他們的數(shù)據(jù)中得出哪些推論。挑戰(zhàn)在于提高用戶的這種意識,同時尊重分析算法生產(chǎn)者的商業(yè)和經(jīng)濟利益。需要在不破壞新商業(yè)模式的情況下重新平衡個人權利,但要避免經(jīng)濟力量過度集中在數(shù)據(jù)聚合商手中[7]。 增加和更新的數(shù)據(jù)收集可以改變已經(jīng)做出數(shù)據(jù)許可和所有權決定的環(huán)境,這需要重新審視和重新整理上下文[8]。重要的是研究如何支持人們在環(huán)境變化時重新評估他們的決定。需要進一步研究支持個人數(shù)據(jù)所有權和控制的機制,包括數(shù)據(jù)源的組織管理、協(xié)商、授權、透明度/意識機制和權限管理[18]。盡管政府和學術界都對這一問題進行了廣泛的討論,但由于技術的不斷進步,這可能還是一個持續(xù)的挑戰(zhàn)。隨著新技術的出現(xiàn),將不得不重新考慮商業(yè)模式,以期既能符合道德規(guī)范,又允許經(jīng)濟價值的開發(fā)。
3.1.3 數(shù)據(jù)的語義理解 盡管大量數(shù)據(jù)的易讀性相關研究取得了有希望的實際成果,但還需要進一步研究,以減少數(shù)據(jù)挖掘的困難和對信息的充分了解,以普及使用和分析數(shù)據(jù)的能力。 為此,需要提高解釋數(shù)據(jù)含義的能力。兩個或多個數(shù)據(jù)之間的關系可能呈現(xiàn)相似或相反的特征,并根據(jù)上下文對相同信息進行多種解釋。有必要進一步研究,數(shù)據(jù)的豐富語義內涵是如何影響數(shù)據(jù)交互和人們的感知的。
3.2過程性研究挑戰(zhàn)
3.2.1 用戶參與交互設計過程的參與度 除了允許用戶理解、更正和改進數(shù)據(jù)的發(fā)布接受機制之外,有作者還研究了在設計數(shù)據(jù)消費環(huán)境的過程中,通過創(chuàng)建可視化或通過動態(tài)創(chuàng)建、配置個性化基于數(shù)據(jù)的產(chǎn)品和服務,以實現(xiàn)最終用戶參與。挑戰(zhàn)在于確保最終用戶(無論是外行還是專家)有能力使數(shù)據(jù)消費空間適合他們,從而滿足他們的需求并提供見解。這就需要以更有價值的方式提供數(shù)據(jù),并提高最終用戶在數(shù)據(jù)使用周期(就更好的解釋而言)和生產(chǎn)(就質量改進而言)中的參與度[10]。進一步的研究將轉向HDI如何支持用戶服務的協(xié)同創(chuàng)建。在此背景下,HDI應提供捕捉用戶對服務的實際需求、更好地理解服務上下文(自動)和直接參與服務設計(直接反饋)的方法[41]??紤]到利益相關者的參與是所有設計階段的基礎,有必要研究有利于人們參與設計的設計方法,也有利于人們參與設計的構思和施工步驟,這樣用戶就是數(shù)據(jù)消費空間設計的合作者。
3.2.2 在數(shù)據(jù)分析中超越人和機器的限制 理解如何設計可視化是很重要的,它允許人們(包括那些沒有受過統(tǒng)計培訓的人)提取各種各樣的信息,并讓用戶遠離潛在的誤導性解釋。為了使可視化設計成功,設計者需要知道用戶如何理解可視化信息,以創(chuàng)建數(shù)據(jù)的統(tǒng)計視圖。研究的目的是了解和尋找彌補人類在視覺數(shù)據(jù)分析方面的局限性的方法。Correll, M.和Newman, G.E根據(jù)視覺系統(tǒng)提取信息(如平均值、變化和趨勢)能力的知識,對可視化設計進行了探索[42-43]。今后需要在克服統(tǒng)計數(shù)量的統(tǒng)計視覺估計偏差的技術方面深入研究,同時,數(shù)據(jù)分析應該進行實驗評估,要評估哪些類型的數(shù)據(jù)交互有助于超越人類在數(shù)據(jù)分析方面的局限性,并使用戶能夠為自己構建大量數(shù)據(jù)的統(tǒng)計視圖,這是一項開放性的挑戰(zhàn)。通常的數(shù)據(jù)分析,預測函數(shù)的選擇是由自動算法執(zhí)行的,這些算法很少能夠很好地捕捉數(shù)據(jù)集的特征。通過計算機產(chǎn)生計算和圖表。 這兩種類型的結果都有其類型的局限性,應加以分析和研究。在某些情況下,觀察數(shù)據(jù)比摘要統(tǒng)計量更能顯示數(shù)據(jù)集的結構和更清晰的圖像。需要通過創(chuàng)建可用于預測和促進決策的可視化觀測數(shù)據(jù)模型來進一步理解信息或數(shù)據(jù),這也從一個側面說明了可視化在數(shù)據(jù)分析中的重要性,在HDI研究中,可以通過將這兩種分析結合、交互的途徑,以協(xié)作的方式為取得最終解決方案作出貢獻。
3.2.3 體驗式交互 虛擬現(xiàn)實(Virtual Reality,VR)支持的三維信息的可視化和復雜數(shù)據(jù)導航能力在一些科學應用中起到了促進作用。虛擬現(xiàn)實技術在科學數(shù)據(jù)可視化方面的一個優(yōu)點是賦予用戶直觀探索和與環(huán)境交互的自由。盡管如此,在虛擬現(xiàn)實中,仍有一些與HDI相關的挑戰(zhàn)需要面對,包括如何與數(shù)據(jù)進行恰當?shù)慕换ァR中的數(shù)據(jù)處理和數(shù)值模擬,特別是那些與數(shù)據(jù)、人類認知和自動化算法的混合相互作用,必須由多學科人員組成的研究團體協(xié)同解決[44]。Shin等人指出的另一個重要的研究空白是通過采用可穿戴活動跟蹤器(WAT)來理解豐富的人類信息交互。有必要確定認知、社會和生態(tài)維度,并解釋用戶、WAT和WAT中包含的信息工具之間的動態(tài)關系[45]。目前對社會活動系統(tǒng)進行的研究已經(jīng)涉及這類問題。 2019年Caceffo等人從技術對人的代理的影響、人類經(jīng)驗對技術的影響和群體社會互動對環(huán)境的影響角度研究了社會活動系統(tǒng)與技術遞進的交互過程問題[46],今后這一領域的研究將向制度設計和評估方向推進。
3.2.4 完整數(shù)據(jù)生命周期的系統(tǒng)視圖 一些學者從消費的角度廣泛討論HDI,認為需要找到一種概念框架,允許各種利益相關者系統(tǒng)地查看數(shù)據(jù)生命周期內數(shù)據(jù)狀態(tài)和變化,從句法、語義甚至是上下文中確定數(shù)據(jù)的作用,得以從社會層面判斷數(shù)據(jù)使用的意圖和影響。 因此,必須對數(shù)據(jù)的生產(chǎn)、收集、處理和使用進行系統(tǒng)的調查,重點是它們所引起的社會影響[1]。另外,數(shù)據(jù)的生成、收集、編輯和使用過程,場景可以有很大的不同,在設計用于數(shù)據(jù)操作的工具時必須考慮它們。必須找到設計一種方法,以便更好地了解誰是與數(shù)據(jù)交互的人員,誰是這次交互中的其他利益相關者,以及哪些任務與數(shù)據(jù)交互的完整場景中涉及的每個角色相關。在人機交互和數(shù)據(jù)可視化領域,有關于設計指南或啟發(fā)式的研究都需從生產(chǎn)到使用的數(shù)據(jù)生命周期的完整視圖。同時還應考慮到數(shù)據(jù)生命周期的各個階段不是獨立的,需要了解它們是如何相互影響的。例如,如果數(shù)據(jù)收集階段持續(xù)了很長一段時間,對已經(jīng)創(chuàng)建并提供給用戶的數(shù)據(jù)可視化產(chǎn)生了什么影響?
3.3影響因素研究挑戰(zhàn)
3.3.1 社會和文化因素影響考量 HDI的一個重要因素是判斷模糊性和跨社會和文化邊界交叉引用術語的人為因素[12]。重要的是讓用戶能夠理解和參與數(shù)據(jù)的基礎設施和接口,要從人們認識數(shù)據(jù)方式的角度推理并去創(chuàng)建和使用類比類型,并以此為據(jù),決定如何在不同社區(qū)和文化中使用、發(fā)布和分發(fā)個人數(shù)據(jù)[4]。
3.3.2 決策過程中的數(shù)據(jù)影響 目前,關于如何評估使用可視化支持決策的有效性的研究很少。一個關鍵的挑戰(zhàn)是尋找方法來評估所使用的技術如何影響所做決策的質量。決策往往涉及個人偏好,而這些偏好本身確實難以捕捉,這使得決策的質量難以衡量[47]。在識別決策質量的客觀和主觀指標方面需要深入研究。以進一步確定評估數(shù)據(jù)的各個維度如何、在多大程度上影響決策過程的方法,以及它們所傳遞的信息的附加值。
3.4應用領域相關研究挑戰(zhàn)HDI的一個重要挑戰(zhàn)是研究支持與特定領域的數(shù)據(jù)互動,重點是這些領域活動所需的背景和任務,例如:a.自然語言接口或模式無關的查詢公式,以支持醫(yī)療保健專業(yè)人員對數(shù)據(jù)過程性質量評估,因為它們促進了交互的易用性,這些交互完全集成在特定的工作流中[16];b.HDI對于圖形數(shù)據(jù)庫查詢和結果分析至關重要,特別是對于大規(guī)模圖形數(shù)據(jù)的可視化[48]。 c.HDI如何提高大數(shù)據(jù)質量,充分支持領域專家和臨時用戶進行數(shù)據(jù)管理。 比如醫(yī)療領域治療活動在很大程度上取決于大數(shù)據(jù)背景下突出顯示的規(guī)模和多樣性[22]。
我國圖書情報界圍繞云計算和物聯(lián)網(wǎng)技術、大數(shù)據(jù)技術、圖書館下的大數(shù)據(jù)以及大數(shù)據(jù)應用等五個方面推進信息組織研究的數(shù)據(jù)化變革[49]。不同學科領域的數(shù)據(jù)組織必須根據(jù)其特點采取特定組織方式,才能使數(shù)據(jù)形成用戶需要的情報和知識,服務于數(shù)據(jù)運用。目前,國內外數(shù)據(jù)加工和情報組織主要沿著完整的數(shù)據(jù)鏈流程,在不同的環(huán)節(jié)采取相應的方式處理數(shù)據(jù)關系。如在數(shù)據(jù)搜集到數(shù)據(jù)整合階段,采取海量文獻信息分析整合技術、面向學科信息集成的領域分析數(shù)據(jù)集構建方法[50];在數(shù)據(jù)分析階段,采取建模、知識圖譜構建和可視化數(shù)據(jù)挖掘方法[51];在知識組織階段,采取本體組織法、集成構建法、概念網(wǎng)絡組織法,知識信息與基礎語義信息融合法[52]。這些方法在不同程度上把數(shù)據(jù)轉換為知識,以利情報服務機構提供更加有效的數(shù)據(jù)運用服務。但是還面臨著“許多數(shù)據(jù)本身不易理解、數(shù)據(jù)之間不具備自行交互能力,人們無法充分利用這些數(shù)據(jù)”的問題[6]。圖情學科應該關注這一社會需求,堅守人文傳統(tǒng),重視交叉融合。發(fā)揮人文優(yōu)勢、加強理論創(chuàng)新,積極在以下幾個方面參與HDI研究。
4.1基礎性概念定義HDI是數(shù)據(jù)在人與機器的協(xié)同干預或者參與下的相互作用。要站在圖書情報學科立場上,借鑒符號學、社會認知學和認識論等去理解分析信息和數(shù)據(jù)[53]。從人與人、人與數(shù)據(jù)、數(shù)據(jù)與數(shù)據(jù)之間的交互,實現(xiàn)數(shù)據(jù)復用、再生增殖、知識創(chuàng)造角度拓展研究HDI基本問題,豐富現(xiàn)有基本理論成果:a.HDI概念(定義);b.HDI原理,針對不同層級領域數(shù)據(jù)、不同生命周期狀態(tài)數(shù)據(jù)探尋其交互原理;c.HDI要素:數(shù)據(jù)交互環(huán)境(復雜的背景因素包括信仰體系、參與方的價值觀和規(guī)范)、數(shù)據(jù)交互施動者(數(shù)據(jù)生產(chǎn)者、使用者)、參與交互的數(shù)據(jù)(采集、表示、存儲和數(shù)據(jù)處理邏輯);d.HDI與相關概念:HDI與知識組織、HDI與數(shù)據(jù)關聯(lián)、HDI與HCI(人機交互)、HDI與模型-數(shù)據(jù)交互(MDI)等等。
4.2個人(團體)數(shù)據(jù)的“資源化”對個人數(shù)據(jù)的研究是 HDI走向人的“支持”和“參與”交互的根本。數(shù)據(jù)生產(chǎn)者的支持是開放科學政策許可、環(huán)境優(yōu)化的首要環(huán)節(jié),從事知識創(chuàng)新、科學創(chuàng)造的專家及其群體用戶的參與,是實現(xiàn)人類與數(shù)據(jù)互動,使利益相關者能夠促進期望的、并避免不期望的數(shù)據(jù)使用后果[1]的“科學施動”保障。所以需要將個人數(shù)據(jù)作為 HDI的資源來研究[1]。早在2013年國家社會科學基金項目“大數(shù)據(jù)時代圖書館用戶信息的資源化研究”已經(jīng)涉及[54],需要進一步拓展研究:a.個人(團體)基本數(shù)據(jù)研究。對數(shù)據(jù)的產(chǎn)生、收集、處理和使用過程中的個人和團體進行數(shù)據(jù)調查,包括各利益相關者身份特征、發(fā)現(xiàn)政策、信息消費分析等,以便更好地了解誰是與數(shù)據(jù)交互的人員,誰是此交互中的其他涉眾,以及數(shù)據(jù)交互的完整場景中涉及的每個角色。b.個人(團體)動態(tài)數(shù)據(jù)研究。用戶動態(tài)數(shù)據(jù)的收集和科學處理直接決定HDI可能行、可行性和可達性。在數(shù)據(jù)共享過程中,用戶可能跨越多個實體和多個時間段形成實時連接的行為數(shù)據(jù)[15],需要跟蹤這些數(shù)據(jù),確定有可能經(jīng)過人工數(shù)據(jù)交互產(chǎn)生新知識的那些數(shù)據(jù)的生產(chǎn)者、使用者和再生增殖的施動者,重用、復用者。以便發(fā)現(xiàn)和支持用戶發(fā)起和參與HDI。
4.3數(shù)據(jù)語義理解的“人文化”與技術HDI的核心問題是通過“人文化”的方式,對那些不易理解和相互之間不具備自行交互能力的數(shù)據(jù)及其數(shù)據(jù)集的“人工干預”,消彌兩者間交互的“人文”障礙,打通兩者技術方法的“語義理解”溝通路徑。其研究包括:a.數(shù)據(jù)調查。搜索、調查內容在語義含混不清的原始數(shù)據(jù)和包含豐富語義的異構和非結構化數(shù)據(jù)格式文本或圖像,并分類分析,使得這類數(shù)據(jù)可訪問和處理。 b.數(shù)據(jù)的語義理解的“人文化”研究,選擇不同學科領域樣本數(shù)據(jù),從多維度、多視角研究,如,兩個或多個數(shù)據(jù)之間的關系可能呈現(xiàn)相似或相反的特征,要根據(jù)上下文對相同信息進行多種解釋。以探索數(shù)據(jù)的語義豐富性機理,并從影響數(shù)據(jù)交互和感知的角度去演繹、推理。探索語義豐富的潛力,提高數(shù)據(jù)的易讀性和集成度,以加強和實現(xiàn)人類數(shù)據(jù)交互。c.數(shù)據(jù)語義理解技術研究。嘗試采用單詞計算方法、感知模型形式推理方法或者粒度分析方法,探討通過語義標簽對數(shù)據(jù)進行豐富化的預處理,從原始數(shù)據(jù)中提取相關信息并使其語義明確[55]。數(shù)據(jù)的語義理解涉及到結構性、半結構性及非結構性數(shù)據(jù),人類認知和自動化算法的混合相互作用非常復雜,需要資深領域數(shù)據(jù)專家引領并確認,圖書情報界作為知識信息數(shù)據(jù)的組織者、整合者應該在這方面主動配合,成為數(shù)據(jù)學術的參與者、合作者。
4.4數(shù)據(jù)的“多維度”關聯(lián)路徑與策略在近年來的數(shù)據(jù)科學研究中,數(shù)據(jù)的語義層研究發(fā)生了很大變化,如資源層的URI,元數(shù)據(jù)記錄層的RDA、DCMI抽象模型、DACS、CCO,詞表層級的RDF詞匯表、簡單知識組織系統(tǒng)SKOS、OWL語言等等[56]。語義網(wǎng)的表現(xiàn)形式關聯(lián)數(shù)據(jù)的發(fā)布標準也從四星模型升級到七星模型[57];這些都為數(shù)據(jù)的“多維度”關聯(lián)改善了路徑提供了優(yōu)化策略。參考國外相關研究進展,今后我國圖情界應該在以下方面扎實推進HDI路徑與策略研究:a.按照符號學框架方法下的數(shù)據(jù)層級交互原理分別從物理層、經(jīng)驗層、句法層、語義層、語用層和社會層,設計問題并形成推動理解各層意義的過程路徑。b.按照不同數(shù)據(jù)生命周期狀態(tài)(階段),分別從原始數(shù)據(jù)、二級數(shù)據(jù)、三級數(shù)據(jù)角度討論策略體系構成。c.涉眾的組合。遵循社會學的人與人之間的價值觀趨同為交互條件,計算機科學的人與機器之間、人與數(shù)據(jù)之間、數(shù)據(jù)與數(shù)據(jù)之間有相互依賴的必要性和可行性為交互條件,并依據(jù)信息科學的擬人律、輔人律和共生律構建策略體系。
4.5數(shù)據(jù)的“可視化”分析與“體驗式交互”實踐“數(shù)據(jù)可視化”分析和“體驗式交互”是綜合提高HDI能力的有效工具和方法。本世紀以來,我國圖情界在利用可視化工具方面,通過把數(shù)據(jù)轉化為可以交互的圖形圖像,利用自動計算與緊密耦合可視化交互界面,理解、分析復雜的數(shù)據(jù)對象,降低了對復雜數(shù)據(jù)的認知壁壘,提高洞察數(shù)據(jù)內在規(guī)律的能力,在知識挖掘、知識發(fā)現(xiàn)方面有了長足進展,積累了比較豐富的經(jīng)驗。今后在HDI研究上應更加重視可視化工具運用。a.數(shù)據(jù)分析可視化。借助功能強大的可視化數(shù)據(jù)分析平臺,將比較分散、數(shù)據(jù)結構有可能不統(tǒng)一的、不易理解的數(shù)據(jù)輔以人工操作,將數(shù)據(jù)進行關聯(lián)分析,做出完整的分析圖表,展示數(shù)據(jù)分析的過程和數(shù)據(jù)鏈走向,盡量滿足數(shù)據(jù)在信息系統(tǒng)中有良好的交互性特征,為HDI奠定運作基礎。b.可視化數(shù)據(jù)“人文化”分析。了解和尋找彌補人類在視覺數(shù)據(jù)分析方面的局限性的方法,以克服概念模型和可視化圖表統(tǒng)計數(shù)量的統(tǒng)計視覺估計偏差。在體驗式交互實踐方面,我國圖情界還未涉及,需要尋求多種技術方法推動數(shù)據(jù)交互場景構建,關注運用虛擬(增強)現(xiàn)實技術的在體驗式互動中運用的進展及其對HDI的作用,創(chuàng)造條件投入HDI增強現(xiàn)實體驗。
4.6HDI影響因素數(shù)據(jù)多樣性源于跨領域研究對應的研究方法的廣泛性,更因為數(shù)據(jù)來源的多樣性,因此,研究環(huán)境的很多因素都會影響到數(shù)據(jù)來源、記錄和表現(xiàn)形式[54]影響事物何時以及如何轉換為數(shù)據(jù)的因素包括兩大類,其中,第一類因素是學者與數(shù)據(jù)起源的距離,包括數(shù)據(jù)源source和數(shù)據(jù)資源resource,元數(shù)據(jù)以及數(shù)據(jù)溯源provenance,第二類因素是影響事物轉換為數(shù)據(jù)的外部影響因素,包括經(jīng)濟學與數(shù)據(jù)價值、數(shù)據(jù)產(chǎn)權以及倫理觀、互動理論與方法。因此,a.需要研究數(shù)據(jù)從起源到使用之間的距離,即從時間、地點、背景、方法、理論、語言和專業(yè)知識維度去“度量”這個“信息距離”[58](當然還包括合作者之間的地理距離),并從元數(shù)據(jù)、數(shù)據(jù)溯源和分類機制等角度研究數(shù)據(jù)內部的HDI。b.外部影響因素研究,一是數(shù)據(jù)的價值研究,包括數(shù)據(jù)如何、 為何具有社會價值,數(shù)據(jù)如何、為何以及能否成為經(jīng)濟商品。二是數(shù)據(jù)產(chǎn)權與倫理與情景之間的關系,三是研究跨社會、學科和文化邊界交叉引用數(shù)據(jù)的人為判斷模糊性[18]因素,探索新的思考和理解數(shù)據(jù)的方式,使用戶能夠理解和參與HDI。
4.7多領域探索的應用性研究在國外,HDI研究正不斷拓展學科領域和應用范圍。目前看在醫(yī)藥、健康、智慧城市、智慧公共設施(博物館、展覽館)、化工、地質地理眾多領域都有應用嘗試,我國圖情界可以借鑒國外研究:a.選擇一些代表性領域(如中醫(yī)、中藥、中西醫(yī)結合?;瘜W化工,有機與無機互補),一方面通過數(shù)據(jù)檢索搜索和析出樣本領域數(shù)據(jù)庫中HDI若干實例(盡管以往學界主觀上沒有提出HDI,而在用戶的知識生產(chǎn)和科技創(chuàng)新實踐中客觀上已經(jīng)有HDI成果存在)。另一方面通過田野調查、走訪請教專家,搜集HDI成功案例,探索其基本規(guī)律。b.在現(xiàn)有領域數(shù)據(jù)庫中按照數(shù)據(jù)組織規(guī)則,提取一批本身不易理解、不具備自行交互能力的數(shù)據(jù)樣本,在HDI路徑和策略引導下,依靠領域專家及其科研團隊有意識地對樣本數(shù)據(jù)通過數(shù)據(jù)可視化賦予用戶直觀探索和與環(huán)境交互展開HDI實驗,實證。
HDI研究剛剛在起步階段,目前僅在國外刊物上有相關概念討論和觀點綜述的報導。只要我國圖書情報界以大數(shù)據(jù)時代為背景,以領域數(shù)據(jù)庫為支撐,堅持新文科建設背景下的HDI理論創(chuàng)新、圖書情報學科立場上的HDI研究方向、數(shù)據(jù)學術視角下的HDI應用目標、人文數(shù)字理念下的HDI實踐探索,兼顧技術理性與人文價值,兼顧時代氣息與傳統(tǒng)特色,兼顧本土情境和全球視野[59],就能做到打破數(shù)據(jù)封閉和數(shù)據(jù)局限的傳統(tǒng)模式,全面正確地利用自身產(chǎn)生的數(shù)據(jù),充分合理地利用外界所有的大量相關數(shù)據(jù),科學有效地交互各種不易理解的數(shù)據(jù)、服務于科研和產(chǎn)業(yè)創(chuàng)新,逐步形成“數(shù)據(jù)情報交互”服務模式,豐富圖書情報學情報分析和知識服務理論和方法體系。提升新一代圖書情報機構信息技術新能力和繁榮知識服務新業(yè)態(tài)。