鄧勝利 王浩偉 夏蘇迪
關鍵詞:算法素養(yǎng);皮亞杰認知階段理論;IRT項目反應理論;熵權法;評價體系
在當今社會的大部分領域,算法的應用越來越廣泛。在互聯(lián)網(wǎng)中,個性化推薦算法影響著用戶的所見所得。2022年,“基于算法的個性化內(nèi)容推送已占整個互聯(lián)網(wǎng)信息內(nèi)容分發(fā)的70%左右”。算法在工業(yè)生產(chǎn)領域的應用,一方面帶來了自動化生產(chǎn)下的效率提升:另一方面也引發(fā)公眾對于就業(yè)崗位減少的擔憂。與此同時,算法也在改變著社會未來的發(fā)展。例如在出行上,我國以及許多發(fā)達國家(地區(qū))已經(jīng)開始了對無人駕駛汽車的研究,并且在可行性和實用性方面取得了一定的進展。更便捷的信息交流,更高效的工業(yè)生產(chǎn),更豐富的生活方式,使人們已經(jīng)無法簡單地拒絕算法。但同時算法帶來的問題也愈發(fā)嚴重,例如隱私侵害、倫理道德問題、社會就業(yè)損失等。
剖析算法問題產(chǎn)生的原因,一是由于算法本身的缺陷:目前,大部分的算法開發(fā)設計仍然無法避免算法的不確定性、魯棒性、易被攻擊性和不可解釋性的問題;二是由于算法不合理使用:例如,網(wǎng)絡平臺利用監(jiān)管漏洞,使用算法對用戶的個人信息進行收集分析,在此過程中,用戶的知情權可能受到損害,容易產(chǎn)生個人信息泄露問題。同時,算法濫用帶來了內(nèi)容與真實需求間的偏差,形成“信息繭房”:三是由于用戶對于算法的認知不完善導致對算法的盲從。
算法問題影響的不斷加深對網(wǎng)絡平臺、用戶、開發(fā)設計人員、監(jiān)管部門、政府等多主體的算法能力提出新的目標要求。從算法的主體多元性出發(fā),算法素養(yǎng)可以界定為“在特定需求和環(huán)境下,不同算法利益相關主體依據(jù)特定的思維、態(tài)度和知識,運用算法認識世界和改造世界”。算法素養(yǎng)評價從人與算法交互中的人本主義出發(fā),幫助了解多元算法主體的算法素養(yǎng)情況,為算法社會背景下的政策制定和算法素養(yǎng)教育提供依據(jù),有助于更好地發(fā)揮算法高效、智能的優(yōu)勢,并降低算法應用對個人權益的危害,減輕其在社會發(fā)展的不利影響。
在研究不同主體的算法素養(yǎng)時,需關注主體間的差異性問題。例如,對于普通的互聯(lián)網(wǎng)用戶和專業(yè)算法開發(fā)人員,對兩者的算法能力要求是不同的,普通互聯(lián)網(wǎng)用戶很少參與到算法的開發(fā)設計,而更多的是對算法的使用,因此不能要求其擁有和專業(yè)算法開發(fā)人員一樣的技術能力和創(chuàng)造性的算法設計思維。為了解決在算法素養(yǎng)研究中的主體差異性問題,需要在算法素養(yǎng)評價中加入分級思想,通過對不同主體的算法能力要求級別的劃分來細化算法素養(yǎng)評價體系。
本文結合皮亞杰認知發(fā)展階段理論,將認知發(fā)展的時序階段轉(zhuǎn)變?yōu)檎J知發(fā)展水平的等級劃分,提出了一種多維分級的算法素養(yǎng)評價體系,包含了意識、理解、評估、應對、創(chuàng)造5個維度和感知與經(jīng)驗、總結與歸納、可逆與擴展、形式與抽象4個級別,之后以普通社會大眾這一典型主體為例,進行算法素養(yǎng)的多維分級評價。首先通過測驗問卷收集樣本的得分,之后通過IRT項目反應理論計算出算法素養(yǎng)潛在能力估值,最后通過熵權法得到各維度的權重系數(shù),匯總得到樣本的最終算法素養(yǎng)估值。
1相關工作
算法素養(yǎng)構建起算法社會中人與算法之間的橋梁。在算法素養(yǎng)評價相關研究中,關于算法素養(yǎng)的概念的界定已有初步發(fā)展,并且算法素養(yǎng)評價體系的構建也愈受重視。在以往的研究中,關于算法素養(yǎng)概念主要與算法意識、算法知識和算法評估相關,并且大部分研究主要關注個體算法素養(yǎng),缺乏對于算法的開發(fā)、設計和應用等階段相關主體的關注。但關于政府、企業(yè)等主體的算法素養(yǎng)的研究同樣不容忽視。
在算法素養(yǎng)相關概念的界定上,Dogruel L等將算法素養(yǎng)歸納為能夠意識到在線服務中算法的廣泛應用并理解其工作原理,能夠批判性地評估其帶來的影響并合理應對。但隨著算法從一種技術手段逐漸變?yōu)橐环N社會背景,算法全生命周期中的多方主體參與愈發(fā)重要,因此,算法素養(yǎng)概念的界定需要考慮到算法設計者、開發(fā)者、應用平臺、監(jiān)管者和個人等不同主體。同時,“以人為中心”的理念要求算法素養(yǎng)不僅能夠被動地應對算法帶來的問題,也要求能夠主動地發(fā)揮算法作用。夏蘇迪等學者從算法的相關主體和素養(yǎng)內(nèi)涵出發(fā),依據(jù)HCAI思想和KC框架界定了面向多元主體的算法素養(yǎng)內(nèi)涵,“在特定需求和環(huán)境下,不同算法利益相關主體依據(jù)特定的思維、態(tài)度和知識運用算法認識世界和改造世界”。
素養(yǎng)評價方法相關研究中,通常采用文獻分析法、德爾菲法、扎根理論等,通過凝練相關文獻或者概念中的核心要素,對其進行進一步闡釋,通過層次分析法構建素養(yǎng)評價體系。目前,算法素養(yǎng)評價體系構建中同樣以層次評價體系為主,從算法素養(yǎng)概念出發(fā)劃分維度,將各個維度的得分與算法素養(yǎng)之間的關系視為無界的線性函數(shù)關系,并未考慮各個維度間的階段性劃分,以及在針對不同主體進行評價時各維度的能力要求差異。
因此,雖然面向不同主體的差異化算法素養(yǎng)評價逐漸引起了學者們的重視,但過去的以層次評價體系為主的算法素養(yǎng)評價體系無法體現(xiàn)出對不同主體的算法相關能力要求的差異。因此,在算法素養(yǎng)評價體系構建中納入了分級思想,對算法素養(yǎng)評價的等級進行劃分,并結合算法素養(yǎng)評價的維度構建多維分級的算法素養(yǎng)評價體系。
2算法素養(yǎng)的多維分級評價體系
2.1算法素養(yǎng)評價的維度構建
本研究通過對現(xiàn)有文獻中的算法素養(yǎng)界定出發(fā),構建算法素養(yǎng)評價的維度。Dogruel L等將算法素養(yǎng)分為4個方面:意識和知識、批判性評估、應對和策略、創(chuàng)造和設計。同時,Dogruel L等在對算法素養(yǎng)的意識和知識維度研究中,發(fā)現(xiàn)意識和知識之間對個體算法素養(yǎng)存在不同的影響路徑。對于算法而言,意識和知識具有明顯的區(qū)別,算法的意識強調(diào)對算法存在的感知,并不需要對于算法復雜機制的認知,算法的知識則強調(diào)對于算法的運行機制、內(nèi)在邏輯等的理解。在當今算法環(huán)境中,用戶在與算法的接觸中,有時會意識到算法正在產(chǎn)生影響,但并不理解算法的具體機制內(nèi)涵,或者雖然知道算法的機制內(nèi)涵,但無法意識到算法的存在。例如,對于優(yōu)秀的算法開發(fā)者,即使對于算法的運行機制有深刻的理解,也不能及時發(fā)現(xiàn)所有在周圍網(wǎng)絡環(huán)境中存在的算法。而對于一些普通的網(wǎng)絡用戶,日常生活中頻繁的個性化廣告推薦也會讓其意識到應用在軟件中的推薦算法。因此,在本文中,將意識和知識分為兩個單獨的維度,即意識維度和理解維度,從而形成算法素養(yǎng)的5個維度:
1)意識即意識到算法存在哪些軟件、領域以及其之間的關系。
2)理解即理解算法的機制、內(nèi)涵。
3)評估即對于算法對于自身、社會的影響進行判斷、評估。
4)應對即正確處理算法帶來的各種問題。
5)創(chuàng)造即具有選擇、開發(fā)、設計算法相關的能力。
2.2算法素養(yǎng)評價的等級構建
在算法素養(yǎng)的評價中,針對評價對象的不同,算法素養(yǎng)在各維度上的要求也不同。對于不同的評價對象,其在算法素養(yǎng)不同維度上的目標存在差異性,例如對于普通社會大眾而言,對其在算法素養(yǎng)創(chuàng)造維度上的水平要求低于開發(fā)者。因此,在對不同對象進行算法素養(yǎng)評價時,需要考慮算法素養(yǎng)評價的等級問題。
本研究通過凝練皮亞杰認知發(fā)展階段理論中的階段內(nèi)涵構建算法素養(yǎng)評價等級。皮亞杰認知發(fā)展階段理論將思維的發(fā)展劃分為4個階段:感知運算階段、前運算階段、具體運算階段和形式運算階段:
1)感知運算階段:思維的萌芽期,能用發(fā)射、循環(huán)、協(xié)調(diào)組合發(fā)現(xiàn)新方法。
2)前運算階段:以符號為中介描述外部世界,能夠進行延緩地模仿。
3)具體運算階段:思維具有守恒、去中心化、可逆、層次、序列、綜合特點。
4)形式運算階段:思維能力超出事物的具體內(nèi)容或感知的事物,思維具有更大的靈活性,具有假設一演繹推理能力和命題思維。
雖然認知發(fā)展在個體間的差異或特殊性較為顯著,可能存在“滯差”等情況,但皮亞杰認知發(fā)展階段論的邏輯數(shù)學結構具有普遍性,其階段的劃分既代表認知的不同發(fā)展階段,也反映認知水平的高低差異。皮亞杰認知發(fā)展階段理論的邏輯結構能夠為制定算法素養(yǎng)不同維度的級別劃分的標準提供參考,其中,感知運算階段的特點為即時性與具體性,即在單一情境下的認知。前運算階段能夠?qū)⒃诓煌瑫r刻感知到的一個個情景進行積累,但仍然局限在個人的角度,即積累性與個體性。在具體運算階段,體現(xiàn)了思路的可逆性與擴展性。形式運算階段最大的特點便是抽象性,在算法素養(yǎng)中即可以視為對各個維度的抽象概括能力與深層次分析能力。因此,本文通過歸納皮亞杰認知理論各個階段的特點并結合現(xiàn)在的素養(yǎng)評價實踐,總結了算法素養(yǎng)不同維度的4個等級評判標準及其特點:
1)感知與經(jīng)驗:個人的、經(jīng)驗性的、即時的、具體的。
2)總結與歸納:個人的、經(jīng)驗性的、累積的、具體的。
3)可逆與擴展:群體的、預見性的、擴展的、具體的。
4)形式與抽象:群體的、預見性的、擴展的、抽象的。
其中,從感知與經(jīng)驗到形式與抽象,各個等級的內(nèi)涵從認知發(fā)展的不同階段中提取,也反映了算法素養(yǎng)水平的由低到高。
2.3算法素養(yǎng)不同維度與不同等級的結合
算法素養(yǎng)的5個維度是對算法素養(yǎng)內(nèi)容的解構,算法素養(yǎng)評價的4個等級則是對發(fā)展程度進行區(qū)分,對于算法素養(yǎng)評價中的維度,其中每個維度不僅包含算法素養(yǎng)各方面的內(nèi)涵,也要考慮其程度差異,因此需要將算法素養(yǎng)的不同維度與不同等級結合,構建算法素養(yǎng)的多維分級評價體系。
在算法素養(yǎng)的多維分級評價體系中,算法素養(yǎng)評價的5個維度對算法能力的各個方面進行區(qū)分,評價對象在不同維度上的能力要求差異通過各維度上的等級來體現(xiàn)。例如,對于社會大眾來說,在算法的開發(fā)設計上能力要求較低,則在算法素養(yǎng)評價時,在創(chuàng)造維度選擇較低的等級。通過不同維度與不同等級的結合,能夠在對不同對象進行算法素養(yǎng)評價時根據(jù)目標能力要求的不同在各維度上選擇不同的等級,從而實現(xiàn)算法素養(yǎng)評價目標的可調(diào)節(jié)性和評價對象良好的適應性。
3實證研究
3.1測驗設計與數(shù)據(jù)收集
實驗以算法素養(yǎng)中的典型對象社會大眾為例,對其進行算法素養(yǎng)的多維分級評價。首先測定其在算法素養(yǎng)各個維度的等級要求。對于社會大眾來說,意識到算法的存在是其開展其他算法相關活動的基礎,因此對于意識能力具有一定要求,需達到可逆與擴展等級。同時其作為社會中的一員,需要能夠評估算法對自身和社會帶來的影響,因此在評估維度上選擇可逆與擴展等級。在理解、創(chuàng)造維度,對于社會大眾來說,通常涉及算法的理解和創(chuàng)造能力的情況較少,因此選擇感知與經(jīng)驗等級。在應對維度,社會大眾面對的算法問題往往以個人為主,較為分散,因此選擇感知與經(jīng)驗等級。通過以上分析,最終得到本次研究的測評標準,如表3所示。
測驗包含基本信息和5個維度的測驗問題,各個維度下包含若干題項,基本信息包含:性別、職業(yè)、學歷;意識維度針對算法的應用領域進行測驗,包含12個題項:理解維度以常見的算法運行影響因素為主題進行測驗,包含9個題項:評估維度針對算法對社會的影響進行測驗,包含8個題項:應對維度針對減少算法危害的方法措施進行測驗,包含9個題項:創(chuàng)造維度針對如何使用常見的算法進行測驗,包含9個題項。在測驗中,每個題項有“是”“否”和“不清楚”3種選項,“不清楚”用于減少測驗對象在作答中進行猜測的可能。在進行結果統(tǒng)計時,回答正確記1分,“不清楚”和回答錯誤記0分。
測驗通過網(wǎng)上問卷的形式進行,共收集問卷204份,剔除異常問卷19份,最終有效問卷185份。
本次問卷中性別比例為男性占比52.43%,女性占比47.57%,職業(yè)中的學生占比58.92%,互聯(lián)網(wǎng)行業(yè)相關人員占比32.43%,其他人員占比8.65%,學歷中,高中及以下占比11.3%,大?;虮究普急?7.3%,碩士及以上占比11.35%。
3.2信效度檢驗
信度檢驗能夠考察問卷的可靠性,對于測量結果的內(nèi)部一致性程度進行了解,本文使用Cronbach'sa(克隆巴赫)系數(shù)法來檢測數(shù)據(jù)信度是否達標,一般認為問卷的Cronbach's儀系數(shù)大于0.8說明其信度較好。本次問卷中5個維度的信度均大于0.8,如表4所示,證明問卷具有良好的可靠性。
效度檢驗用于檢驗問卷的有效性,其反映了測量工具預測目標測量變量的準確性。測量結果與目標變量越吻合,效度則越高。本文對于問卷結果進行KMO檢驗與巴特利特球體檢驗。一般認為,KMO檢驗系數(shù)大于0.8,P值(巴特利特球體檢驗的x2統(tǒng)計值的顯著性概率)小于0.05,問卷才有結構效度。本問卷中的5個維度的KMO檢驗系數(shù)均大于0.8,P值均小于0.05,如表5所示。
3.3IRT分析
項目反應理論(Item Response Theory,IRT)是心理測量的方法之一,與之相對的常見的心理測量方法還有真分數(shù)理論(Classical Test Theory,CTT)以及可概括性理論(Generalizability Theory,GT)。IRT理論基本思想是認為測量對象的潛在特質(zhì)即潛在能力估值與其對于測量項目的反應即測驗真實分數(shù)之間存在關系,并通過概率型模型來表示兩者之間的關系。IRT理論相較于CTT理論和GT理論有以下幾個方面的優(yōu)點:①不依賴于特定的樣本與測驗題目,測驗結果比較方便;②可以發(fā)現(xiàn)異常現(xiàn)象;③具有等值處理和自適應功能:④提供了項目篩選的功能。目前,項目反應理論被廣泛用于醫(yī)學、心理學、教育學和計算機等領域相關的測量或評價。
因此,在算法素養(yǎng)評價中,項目反應理論能夠?qū)y驗問卷中的實際得分通過項目特征模型轉(zhuǎn)化為樣本的潛在能力估值。本研究中采用項目反應理論的雙參數(shù)模型(2PL),2PL模型能夠分析測驗項的區(qū)分系數(shù)a和難度系數(shù)B。難度系數(shù)B體現(xiàn)了受測對象正確回答測驗題項的難度,區(qū)分系數(shù)a體現(xiàn)了該測驗題項對于樣本的區(qū)分能力。其項目反應函數(shù)如式(1):
在計算出各維度下的所有題項的項目反應模型后,匯總得到各維度的測驗特征曲線[29],如圖1所示。測驗特征曲線反映了實際測驗分數(shù)與算法素養(yǎng)在該維度的潛在估值之間的關系,特征曲線在零點處的潛在能力估值對應的真實分數(shù)越高,說明測驗題項難度越大,特征曲線越陡峭,說明測驗題項醫(yī)分能力越強。
如圖2所示,各個維度的測驗信息函數(shù)反映了該維度下所有題項在各個位置的信息量的大小總和,用于分析該維度各區(qū)間的信息量變化,體現(xiàn)了測驗題項中的信息價值。測驗信息函數(shù)通過各項信息函數(shù)之和計算。具體公式如式(2)‘30]:
在理解維度的特征曲線中,(-2,O)區(qū)間的特征曲線較其他部分更為陡峭,說明在該區(qū)間區(qū)分度較大。在理解維度的信息函數(shù)中,整體上呈現(xiàn)正態(tài)分布,同樣在零點附近區(qū)間信息量較大,區(qū)分度較好。對于評估維度的特征曲線,大于0的區(qū)間大部分區(qū)間較為陡峭,在潛在能力估值小于0的區(qū)間較為平緩,說明測驗項對于較高水平的樣本區(qū)分度好于較低水平樣本的區(qū)分度。在評估維度的信息函數(shù)中,大部分在(O,2)的區(qū)間上較為陡峭,說明測驗題項在該區(qū)間的區(qū)分度較高。在應對維度的特征曲線中,零點右側陡峭程度加劇,其他部分陡峭程度均較低,說明測驗項在中等水平上的區(qū)分度較好,在低水平和高水平上的區(qū)分度一般。應對維度的信息函數(shù)在零點附近的信息量遠高于其他維度,說明其測驗項目在中等水平具有較高的信息價值,能夠較好地區(qū)分算法素養(yǎng)的各個水平。在創(chuàng)造維度的特征曲線上,其在(-1,1)區(qū)間上的陡峭程度較高,其信息函數(shù)在(-1,1)區(qū)間達到峰值,均說明其對中低水平區(qū)間的樣本區(qū)分度較好。在5個維度中,應對維度的信息函數(shù)在零點附近信息量遠大于其他維度,說明應對維度下的測驗題項在中等水平樣本上的區(qū)分度優(yōu)于其他4個維度。
3.4權重計算
在獲得各個維度的估值后,為了獲得算法素養(yǎng)上的整體潛在能力估值,需要根據(jù)熵權法計算各個維度的權重,具體過程如下:
第一,在使用熵權法之前,首先需要對數(shù)據(jù)進行歸一化,本文采用Z-Score方法進行標準化,用于評估樣本點到總體均值的距離,見式(4):關,一般k= 1/ln(m)。
最終計算出意識、理解、評估、應對和創(chuàng)造5個維度權重分別為0.123、0.132、0.457、0.110、0.178。從各個維度的權重可以發(fā)現(xiàn)評估維度的權重較大,其反映出在評估維度得分的差異較為明顯。各維度權重由高到低排序依次為評估、創(chuàng)造、理解、意識、應對,基本與各維度的得分分布差異大小相符。從權重結果中可以看出,在評估維度上,受測對象的水平差異較大,可能由于評估維度選定的目標等級較高,測驗題項具有良好的區(qū)分度。在其他維度上,權重差異較小,大部分受測對象的回答正確率均較高。
3.5結果討論
在本次測驗中,首先通過項目反應理論計算出算法素養(yǎng)各個維度潛在能力估值結果,如表6、圖3所示。
在意識維度,估值在[-0.5,-1)區(qū)間的樣本數(shù)占比超過70%,說明受測對象在意識維度的能力差距較小。在理解維度,各個區(qū)間的樣本數(shù)分布相對平均,說明受測對象在理解維度的能力差異較大,理解維度中感知與經(jīng)驗等級要求能夠理解遇到的具體算法,受測對象在理解維度的顯著能力差異的形成可能由于不同的對象遇到的算法問題數(shù)量和影響存在差異,因此其對具體算法的理解意愿不同,在長期實踐中形成了理解能力的差異。在評估維度,整體估值較高,但在[-1,0.5)區(qū)間上人數(shù)較多,說明受測對象中,算法素養(yǎng)評估能力中等水平的樣本較多,其反映出算法問題已經(jīng)在社會中引起一定程度重視,而且算法在就業(yè)和個人隱私等方面的潛在危害對社會大眾有著直接影響,因此其對算法的影響也較為關注。在應對維度的估值整體分布與評估維度相似,但應對維度有極少部分受測對象素養(yǎng)潛在能力估值分布在[-2,-1)區(qū)間,說明這部分受測對象在應對維度可能在面對算法問題時幾乎沒有應對能力,為算法弱勢群體,因此需持續(xù)關注在算法的應用和推廣中對算法弱勢群體的影響,推動以人為中心的算法發(fā)展。在創(chuàng)造維度上,整體上各個區(qū)間差距較小,同時相比于其他維度,創(chuàng)造維度在[-2,-1)即低水平區(qū)間樣本較多,說明算法素養(yǎng)的創(chuàng)造能力完全達到感知與經(jīng)驗等級難度較高,但隨著算法在社會各行業(yè)的應用普及,算法社會中的每個個體均無法避免接觸和使用算法,其創(chuàng)造能力也可能在與算法的接觸中逐漸提高。
之后需計算加權后的算法素養(yǎng)整體估值,根據(jù)算法素養(yǎng)整體估值=各維度估值×各維度權重,得到匯總后的算法素養(yǎng)潛在能力估值,如表7、圖4所示。
在總樣本中,負分值樣本數(shù)為96,占總樣本數(shù)比約51%,其中,在負分樣本中,大部分樣本估值集中在零點附近,說明受測對象算法素養(yǎng)基本滿足預期目標。一部分原因可能由于受測對象受教育水平較高,其具有一定的算法相關的知識儲備,因此在測驗中得分較高:另一部分原因可能是算法在生產(chǎn)生活中應用已經(jīng)較為廣泛,算法已經(jīng)從一個抽象概念演變?yōu)槿粘I钪胁豢杀苊獾囊徊糠?,隨著社會大眾與算法的不斷接觸,算法素養(yǎng)也隨之提升。同時,雖然結果中低分區(qū)間的樣本較少,但不能忽視對算法弱勢群體的關注,算法弱勢群體對于算法發(fā)展中各類問題的敏感性更高,算法相關能力更為不足,因此需著重提高算法弱勢群體在算法社會中的適應性,進一步加強并完善算法相關的教育普及與算法引導工作。
4總結
算法社會不僅僅是算法單方面地發(fā)揮作用,同時強調(diào)人的因素,算法技術的發(fā)展與社會中各類主體算法素養(yǎng)的提高均是推動算法社會進步的重要動力。本研究結合素養(yǎng)評價中的層次評價體系與皮亞杰認知階段理論,通過分析算法素養(yǎng)評價的不同維度與等級,提出了多維分級的算法素養(yǎng)評價體系。該評價體系結合層次評價體系的維度劃分,有助于了解不同主體的算法素養(yǎng)水平,針對性地制定算法素養(yǎng)培養(yǎng)策略,從而幫助形成多主體共建共治的算法社會。
目前,算法素養(yǎng)評價中,在算法素養(yǎng)的多維分級評價體系的各維度的等級選定上主要依據(jù)經(jīng)驗總結。后續(xù)利用定量方法分析不同對象在算法素養(yǎng)評價體系各維度上的等級定位,有助于算法素養(yǎng)評價準確性的進一步提高。