唐宗,周悟,楊顥,謝曉瑜,胡月明*
1. 華南農(nóng)業(yè)大學(xué)資源環(huán)境學(xué)院,廣東 廣州 510642;2. 廣東省土地利用與整治重點實驗室,廣東 廣州 510642;3. 廣東省土地信息工程技術(shù)研究中心,廣東 廣州 510642;4. 自然資源部建設(shè)用地再開發(fā)重點實驗室,廣東 廣州 510642
耕地與人類的生活息息相關(guān),是農(nóng)作物賴以生存的土地,直接決定了糧食的產(chǎn)量、質(zhì)量和農(nóng)業(yè)生產(chǎn)的可持續(xù)性(毛雪等,2019)。中國耕地質(zhì)量問題日益突出,一方面,隨著進入城市化、工業(yè)化和全球化快速發(fā)展的新階段,大量耕地被占用、非農(nóng)化和非糧化利用,中國1.2億公頃耕地“安全底線”面臨嚴峻考驗;另一方面,工業(yè)廢氣廢水排放、農(nóng)業(yè)面源污染等加劇了耕地環(huán)境的惡化,導(dǎo)致土壤退化,作物生產(chǎn)能力下降,威脅糧食安全,并影響生物多樣性(German et al.,2017)。在耕地數(shù)量和質(zhì)量不斷下降的背景下,積極開展耕地質(zhì)量評價研究,成為中國未來耕地保護和糧食增產(chǎn)的優(yōu)先選擇和關(guān)鍵途徑之一。
在耕地質(zhì)量評價工作中,根據(jù)所選指標和分析目標的不同,評價方法也不盡相同,據(jù)目前研究來看,主要可以分為3種,第一種方法是基于樣本信息,主要包括特爾菲法(明亮,2016)、經(jīng)驗判斷指數(shù)和法(彭一平等,2019)、層次分析法(明亮,2016;汪雨琴等,2017)、灰色關(guān)聯(lián)度分析法(葉青等,2008)、模糊評價法(蘭民均等,2015)等,國土資源部開展農(nóng)用地分等工作多采用這種方法,但是這種方法在對評價指標權(quán)重設(shè)定上以及相關(guān)信息的取舍上需要依靠專家經(jīng)驗來確定,主觀性較強,影響評價結(jié)果準確性(林子聰?shù)龋?020)。第二種方法主要是利用GIS空間分析和RS快速監(jiān)測技術(shù),GIS為標準化耕地數(shù)據(jù)的銜接、時空分析提供了基礎(chǔ),RS技術(shù)用于耕地質(zhì)量評價,能不斷提供地表信息,對耕地進行動態(tài)監(jiān)測,但第二種方法評價步驟較為繁瑣,數(shù)據(jù)處理工作量大,人工成本高。第三種是利用數(shù)據(jù)挖掘技術(shù),從數(shù)據(jù)挖掘的角度來看,耕地評價實質(zhì)上屬于分類預(yù)測問題,如應(yīng)用關(guān)聯(lián)規(guī)則(楊敬鋒等,2008)、決策樹模型(張孟容等,2016)、遺傳算法、神經(jīng)網(wǎng)絡(luò)模型(吳利等,2019;葉云等,2018)等對耕地質(zhì)量進行等級劃分,這些方法在處理耕地質(zhì)量各種指標綜合作用的非線性關(guān)系時具有良好的適用性,其避免了設(shè)置指標權(quán)重,人為因素影響較?。ㄈ~云等,2018),借助于計算機技術(shù)的迅猛發(fā)展,擁有良好的評價效率。因此,探索基于數(shù)據(jù)挖掘技術(shù)的耕地質(zhì)量評價方法已成為當(dāng)前研究的熱點。其中,Logistic回歸模型是數(shù)據(jù)挖掘的一項重要技術(shù),也是解決分類問題的常用方法。
在地學(xué)研究領(lǐng)域,對Logistic回歸模型的研究多集中于利用二元Logistic回歸模型的良好適用性(自變量可以是定性數(shù)據(jù)或是定量數(shù)據(jù)),進行土地利用變化模擬(周晨晴等,2018;林曉丹等,2017;田義超等,2019),對于多分類Logistic回歸模型在耕地質(zhì)量評價工作中的應(yīng)用研究還少有報道。該模型同樣適用于多個自變量與一個類別變量的非線性問題處理,通過對一組自變量和一個類別變量進行回歸分析確定該類別變量發(fā)生的概率大小,該模型的計算量僅和變量特征的數(shù)目相關(guān),因此較于其他數(shù)據(jù)挖掘模型有易于實現(xiàn)、訓(xùn)練高效等特點,在社會學(xué)(梁琪等,2014)和醫(yī)學(xué)(劉立忠等,2017)等領(lǐng)域廣泛應(yīng)用。然而耕地質(zhì)量系統(tǒng)是一個自然、經(jīng)濟、生態(tài)等因素相互作用相互影響的巨系統(tǒng),各指標間并不是相互獨立的,當(dāng)某一指標(如耕地土壤pH值)對耕地質(zhì)量的影響因第二個指標(如地形坡度)的不同而不同時,指標間就存在交互效應(yīng)。目前大多數(shù)耕地質(zhì)量評價方法中指標的選取都基于指標之間的獨立性原則,未能考慮到耕地質(zhì)量指標間的交互效應(yīng)。因此,本文以從化區(qū)耕地為研究對象,在使用Logistic回歸模型預(yù)測耕地質(zhì)量等別時,考慮指標間的交互效應(yīng),將指標與指標間的交互效應(yīng)同時納入Logistic回歸模型,對耕地質(zhì)量進行評價,旨在解決現(xiàn)行耕地評價方法中受人為主觀影響因素大的問題,探尋一種準確、高效的耕地質(zhì)量評價方法。
從化區(qū)位于廣東省中部(圖 1),珠江三角洲北緣,是廣州市最北部的一個市轄區(qū),全區(qū)總面積1974.5 km2。其經(jīng)緯度為 113°17′—114°04′E,23°22′—23°56′N。東與增城區(qū)、惠州市龍門縣接壤,南與廣州郊區(qū)白云區(qū)、黃浦區(qū)毗鄰,西面和廣州市花都區(qū)、清遠市接壤,北面與清遠市佛岡縣、韶關(guān)市新豐縣相連,以珍稀溫泉聞名于世,素有“中國溫泉之都”的美譽。該區(qū)地勢自北向南傾斜,東北高,西南地,地形呈階梯狀,東北部以山地、丘陵為主,中南部以丘陵、谷地為主,西部以丘陵、臺地為主。轄區(qū)有耕地1.36萬公頃,主要利用方式為水田、水澆地和旱地。
1.2.1 數(shù)據(jù)來源
本文采用 2015年廣州市耕地質(zhì)量評價指標數(shù)據(jù)庫,數(shù)據(jù)主要來源于國民經(jīng)濟統(tǒng)計數(shù)據(jù)、第二次全國土壤調(diào)查數(shù)據(jù)以及實地測量結(jié)果。其中,廣州市耕地質(zhì)量評價指標數(shù)據(jù)庫記錄了包括從化區(qū)在內(nèi)的廣州市 11個下轄區(qū)耕地的地形狀況、土壤條件、水資源狀況、農(nóng)田基礎(chǔ)設(shè)施條件,包括耕地利用類型、地形坡度、田面坡度、地下水位、有效土層厚度、表層土壤質(zhì)地、剖面構(gòu)型、土壤有機質(zhì)含量、土壤酸堿度、地表巖石露頭、障礙層距地表深度、鹽漬化程度、灌溉保證率、排水條件 14個指標,數(shù)據(jù)綜合體現(xiàn)了廣州市耕地質(zhì)量現(xiàn)狀及其影響因素的實際情況,是保證廣州市耕地質(zhì)量評價研究順利開展工作的基礎(chǔ)。本研究以從化區(qū) 2015年耕地質(zhì)量評價數(shù)據(jù)庫劃定的 16664個耕地圖斑為評價單元。
圖1 從化區(qū)地理位置Fig. 1 Geographical location map of Conghua District
1.2.2 樣本選取
為保證數(shù)據(jù)挖掘的樣本數(shù)據(jù)具有代表性,采用分層抽樣法,依據(jù)數(shù)據(jù)庫內(nèi)用因素法劃定的耕地質(zhì)量等別在從化區(qū)依比例隨機選取不同等級的耕地作為樣本,同時考慮樣本屬性,總共選取6000個訓(xùn)練樣本,訓(xùn)練樣本用于交互效應(yīng)的發(fā)現(xiàn)與Logistic回歸模型的構(gòu)建,測試樣本采用全部的耕地評價單元,即16664個評價單元。
為方便對數(shù)據(jù)進行交互效應(yīng)Logistic回歸建模,首先進行評價指標分級量化,對從化區(qū)耕地質(zhì)量評價數(shù)據(jù)庫中的數(shù)據(jù)進行分級。該數(shù)據(jù)庫中所采用的指標大部分來源于《農(nóng)用地質(zhì)量分等規(guī)程 GBT 28407—2012》(以下簡稱規(guī)程)中的指標體系,其中包括有效土層厚度、表層土壤質(zhì)地、剖面構(gòu)型、鹽漬化程度、土壤有機質(zhì)含量、土壤pH值、障礙層距地表深度、排水條件、地形坡度、灌溉保證率和地表巖石露土,其因子級別臨界值和等級劃分標準參考規(guī)程。地下水位與田面坡度為區(qū)域性指標,其標準劃分參考《廣東省縣級耕地質(zhì)量等別更新評價技術(shù)規(guī)范》(以下簡稱規(guī)范)(2012)。一般來說,耕地利用類型不影響耕地質(zhì)量,因此將其作為一個分類變量,不進行分級。部分指標的說明如下:
地表巖石露土:是指基巖出露地面之間的間距,規(guī)程根據(jù)露頭之間的間距來進行等級劃分,其間距越高表明對耕作的干擾程度越低,規(guī)程將其分為3個等別。
鹽漬化程度:該指標一般根據(jù)土壤中易溶鹽的鹽分含量和其與作物生長的關(guān)系劃分,1級表示土壤無鹽化,作物沒有因為鹽漬化引起缺苗斷壟現(xiàn)象,表層土壤鹽含量根據(jù)土壤易溶鹽類型分別為蘇打、氯化物、硫酸鹽,標準分別為:小于0.1%、小于0.2%、小于0.3%。其他等級規(guī)程依照其含量劃分為輕度鹽化、中度鹽化和重度鹽化。
障礙層距地表深度:土壤障礙層指在耕層以下出現(xiàn)的阻礙根系伸展或影響水分滲透的層次,其距地表距離越遠,則對耕作影響越小,規(guī)程根據(jù)其距地表的距離分為3個等別。
灌溉保證率:指預(yù)期灌溉用水量在多年灌溉中能得到充分滿足的年數(shù)出現(xiàn)的幾率。規(guī)程將其分為4個等級,1級表示可隨時灌溉的耕地,2級為在關(guān)鍵需水生長季節(jié)有灌溉保證的耕地,3級表示有灌溉系統(tǒng),但在大旱年不能保證灌溉的耕地,4級屬于無灌溉條件的耕地,為惡劣范圍。
排水條件:耕地受地形、排水體系兩者共同影響下地表積水狀況,很多農(nóng)作物在雨水充足時也會減產(chǎn)甚至絕收,因此該項指標也很重要。依據(jù)規(guī)程劃分為4個級別,一級表示有健全的干、支、斗、農(nóng)排水溝道,無洪澇災(zāi)害;2級表示豐水年暴雨后有短期洪澇發(fā)生(田面積水1—2 d);3級表示豐水年大雨后有洪澇發(fā)生(田面積水2—3 d);4級表示一般年份在大雨后發(fā)生洪澇(田面積水≥3 d)。
地下水位:是指地下含水層中水面的高程,該項指標是一個正向指標。依據(jù)規(guī)范劃分為3個等別,1級屬于優(yōu)質(zhì)水位,2級屬于及格水位,3級屬于危險水位。
其余指標等級劃分情況如表1所示。
2.2.1 交互效應(yīng)的定義
目前學(xué)術(shù)界對交互效應(yīng)有多種定義方法,使用最廣泛的一種方法是將交互效應(yīng)置于因變量、自變量和調(diào)節(jié)變量(Moderator variable)的框架中進行討論(Lewis et al.,2014)。其中,因變量是結(jié)果變量,由自變量決定或者受到自變量的影響。自變量被認為是因變量的原因,當(dāng)自變量對因變量的影響因為第三個變量的取值不同而不同時(第三個變量稱之為“調(diào)節(jié)變量”),認為兩者間存在交互效應(yīng)。
2.2.2 尋找交互效應(yīng)
Logistic回歸中的交互效應(yīng)分析一般采用多層次完全(Hierarchically Well-Formulated,HWF)模型,該模型包含了最高階交互項的所有低階組成部分(Kleinbaum,2011)。例如,我們要研究X和Z兩個自變量的交互效應(yīng),多層次完全模型就包含了X、Z和XZ。如果X包含虛擬變量X1和X2,那么多層次完全模型就包括了X1、X2、X1Z、X2Z。由此可見,耕地質(zhì)量影響因素包含15項指標,隨著主要效應(yīng)的增長,此時若利用常規(guī)的多層次完全模型,最后將得到包含 15個主效應(yīng)以及所有階數(shù)交互效應(yīng)在內(nèi)的32767個變量,這不僅加大了計算機的運算量,而且得出的Logistic回歸結(jié)果無法進行判讀和解釋,因此,利用多層次完全模型無法分析耕地質(zhì)量的交互效應(yīng)。
Changpetch et al.(2013)提出利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則分析幫助從大量可能性中選擇變量之間潛在交互效應(yīng)的方法,其對 MONK數(shù)據(jù)集的驗證表明關(guān)聯(lián)規(guī)則能有效發(fā)現(xiàn)主效應(yīng)間的潛在交互效應(yīng),將關(guān)聯(lián)規(guī)則應(yīng)用到耕地評價中,可有效提高耕地評價知識的可解釋性(楊敬鋒等,2008)。因此,本研究采用關(guān)聯(lián)規(guī)則方法挖掘耕地質(zhì)量影響因素間的潛在交互效應(yīng)。
表1 從化區(qū)耕地質(zhì)量評價因子級別指標值Table 1 Grade index value of cultivated land quality evaluation factors in Guangzhou
關(guān)聯(lián)規(guī)則分析中,參數(shù)的閾值對于關(guān)聯(lián)規(guī)則結(jié)果尤為重要。由于影響耕地質(zhì)量的變量較多,須通過不斷調(diào)整參數(shù),即關(guān)聯(lián)規(guī)則的最小支持度和置信度來獲取滿意的挖掘結(jié)果(Pradhan et al.,2017)。關(guān)聯(lián)規(guī)則是形如X→Y的蘊含式,其反映X中的項目出現(xiàn)時,Y中的項目也跟著出現(xiàn)的規(guī)律。支持度(support)指的是同時包含X和Y的事務(wù)集數(shù)與所有事務(wù)集數(shù)之比;置信度是包含X和Y的事務(wù)集數(shù)與所有包含X的事務(wù)集數(shù)之比,其反映了包含X的事務(wù)中,出現(xiàn)Y的條件概率。
通過對數(shù)據(jù)進行統(tǒng)計分析發(fā)現(xiàn),從化區(qū)耕地鹽漬化程度、地表巖石露土度均為等級 1,障礙層距地表深度為等級3,因此不將這3個影響因素納入分析。本研究中,將耕地質(zhì)量等別(Y)作為后項,各項評價指標作為前項,通過MATLAB實現(xiàn)FP-G(Frequent Pattern-Growth)算法挖掘關(guān)聯(lián)規(guī)則,該算法通過構(gòu)造一個樹結(jié)構(gòu)來壓縮數(shù)據(jù)記錄,使得挖掘關(guān)聯(lián)關(guān)系只需要掃描兩次數(shù)據(jù)記錄,且不需要生成候選集合,對于屬性較多的耕地質(zhì)量數(shù)據(jù)較于以往的關(guān)聯(lián)規(guī)則算法有更高的處理效率,由于該算法已十分成熟,讀者可參考相關(guān)文獻(邱小倩等,2020;Lin et al.,2011),此處不再贅述。本研究以最小置信度為 95%時,逐漸降低最小支持度并觀察其結(jié)果。結(jié)果發(fā)現(xiàn)當(dāng)最小支持度分別設(shè)置為0.05、0.03、0.01時,挖掘出關(guān)聯(lián)規(guī)則數(shù)分別為8、35、78條,涉及到的交互效應(yīng)個數(shù)分別為6、32、75個。由于文章篇幅有限,僅列出在最小支持度為0.05的情況下,挖掘出的8條關(guān)聯(lián)規(guī)則,如表2所示。
根據(jù)強關(guān)聯(lián)規(guī)則表,第1、3條規(guī)則表示表層土壤質(zhì)地、土壤酸堿度與耕地質(zhì)量存在強關(guān)聯(lián)關(guān)系,提示表層土壤質(zhì)地與土壤酸堿度之間可能存在某些潛在交互效應(yīng),同理,第4、8條規(guī)則分別提示耕地利用方式與土壤酸堿度、有效土層厚度與土壤酸堿度之間可能存在某些交互效應(yīng),與檀滿枝等(2007)基于信息熵原理得出的土壤酸堿度影響因素的結(jié)論類似,因而針對這3項交互效應(yīng),分別將表層土壤質(zhì)地、耕地利用方式、有效土層厚度作為調(diào)整變量。第2、6條規(guī)則提示地形坡度與土壤有機質(zhì)含量之間可能存在某些潛在交互效應(yīng),與周一鵬等(2019)對土壤有機質(zhì)空間變異性及其驅(qū)動因素間交互效應(yīng)的研究結(jié)論類似,因此將地形坡度作為該交互效應(yīng)的調(diào)整變量。第5條規(guī)則提示耕地排水條件與灌溉保證率之間可能存在潛在交互效應(yīng),通過對廣州市耕地實地走訪調(diào)查發(fā)現(xiàn),從化區(qū)耕地的灌溉系統(tǒng)與排水系統(tǒng)是密切配合的,在布置灌渠時,就同時布置了排水系統(tǒng),因此將灌溉保證率作為該交互效應(yīng)的調(diào)整變量。此外,第7條規(guī)則提示,表層土壤質(zhì)地、土壤酸堿度、地形坡度三者之間存在三階交互效應(yīng),將表層土壤質(zhì)地與地形坡度作為該三階交互的調(diào)整變量。
表2 耕地質(zhì)量影響因素的強關(guān)聯(lián)規(guī)則Table 2 Strong association rules of influencing factors of cultivated land quality
2.2.3 交互效應(yīng)Logistic評價模型
耕地質(zhì)量等別是一個多分類變量,耕地質(zhì)量評價的目的就是依據(jù)耕地質(zhì)量的好壞進行有序分類。因此研究采用有序多分類 Logistic回歸模型對耕地質(zhì)量進行評價。
對于有序多分類Logistic回歸,模型首先定義了因變量的某一個水平為參照水平(SPSS軟件默認最后一項為參照水平),其他水平均與其相比,建立水平數(shù)-1個廣義Logit模型。
基于廣州市耕地劃分為6個等別,即反應(yīng)變量有6個水平,分別取值為1、2、3、4、5、6,以等別6的耕地單元為參考類別,相應(yīng)概率為P1、P2、P3、P4、P5、P6,對n個自變量擬合成5個模型。
式中,Gi為解釋變量X1,X2, …,Xn的線性函數(shù)。
式中,βi1,βi2…,βin為耕地質(zhì)量等別為i時,各個解釋變量的回歸系數(shù),αi為截距。
對Pi進行Logit變換,則有:
最后,運用極大似然估計法可求得各個等級模型的參數(shù)估計系數(shù)αi,βi1,βi2,…,βin(Zhang et al.,2010;Del Hoyo et al.,2011)。
在分析交互效應(yīng)時,我們需要有清晰的理論假設(shè)來界定何為調(diào)節(jié)表量,以及何為關(guān)鍵自變量(focal independent variable),即對因變量的作用受到調(diào)節(jié)變量影響的自變量。根據(jù)關(guān)聯(lián)分析所得到的結(jié)果,此處以地形坡度和土壤有機質(zhì)含量之間的交互效應(yīng)為例,說明如何在Logistic回歸中加入交互效應(yīng)。
在Logistic回歸中加入交互效應(yīng)最常見的方法就是加入一個乘積項(James,2014)。以下是耕地質(zhì)量等別為1的全局Logistic回歸模型(不包含交互項),其中X1表示土壤有機質(zhì)含量,X2表示地形坡度,已知二者存在交互效應(yīng),其中X2是調(diào)節(jié)變量,X1對結(jié)果變量的影響因X2取值不同而不同。
為了表示這種關(guān)系,我們可以將β11(反映了X1對結(jié)果變量的影響)寫成一個關(guān)于X2的線性函數(shù):
這個公式表示,X2每變化一個單位,β11就變化β1(n+1)個單位。將公式代入原方程并整理轉(zhuǎn)換得到含交互項的方程:
最后,運用極大似然估計法求得包含交互效應(yīng)的Logistic回歸模型的參數(shù)估計系數(shù)。
對于一個交互項是否有必要納入模型,通過比較兩個模型——包含該交互項和不包含該交互項的模型擬合優(yōu)度即可,對于本實驗,我們使用赤池信息準則(Akaike Information Criterion,AIC)和決定系數(shù)R2來衡量一個模型的擬合優(yōu)度,AIC值越小,R2越接近于1,表示損失的信息越少,模型擬合程度越好。如果兩個模型的擬合優(yōu)度有顯著差別,就說明交互項是有意義的;如果差別不大,就沒有必要加入交互項。通過直接檢驗交互項的Logistic系數(shù)的統(tǒng)計顯著性,如果該系數(shù)在統(tǒng)計上不顯著,就說明該交互效應(yīng)在統(tǒng)計上不顯著。
2.2.4 模型驗證
Logistic回歸模型對測試樣本的分類結(jié)果可通過混淆矩陣(confusion matrix)反映。本研究涉及到的耕地分類等別較多,應(yīng)用模型劃分需要注意多個類別是否混淆,因此需要對該算法的分類結(jié)果做出總結(jié)?;煜仃囈卜Q錯誤矩陣,是精度評價的一種標準格式,其應(yīng)用特殊的矩陣來呈現(xiàn)Logistic模型的精度,主要用于比較分類結(jié)果和實際測得的值,每一列代表Logistic模型的預(yù)測值,每一行代表等別數(shù)據(jù)庫中運用因素法劃定的實際等別,模型分類精度可直觀地反映于該矩陣。
ROC(Receiver Operating Characteristic Curve)即受試者工作特征曲線,該曲線的橫坐標為特異性指標假陽性率(False Positive Rate,F(xiàn)DR),縱坐標為其敏感性指標真陽性率(True Positive Rate,TDR)繪制而成的曲線,本文根據(jù) ROC曲線計算出的假陽性率和真陽性率,可求得約登指數(shù),約登指數(shù)=假陽性率+真陽性率-1,進而計算出各個耕地質(zhì)量等別的最佳臨界值(cut-off值)。以1等地的ROC曲線為例,如果某塊評價單元其1等地模型預(yù)測概率P1大于該臨界值,則模型判別該塊耕地為1等地,小于該值則認為該塊耕地不是1等地。此外,通過這條曲線可以反映多分類Logistic模型和因素法兩者的關(guān)系,可直觀看出受試工作的準確性情況。該曲線越靠近左上角,ROC曲線下方面積大小即(Area Under ROC Curve,AUC)越接近于1,受試者工作越準確,說明該模型性能越好,一般AUC的值超過0.9時說明該模型具有較高的準確性。
圖2為模型性能曲線,即納入不同交互效應(yīng)個數(shù)的模型性能對比圖。其赤池信息準則與決定系數(shù)的變化情況如圖2所示,將關(guān)聯(lián)規(guī)則篩選得到的75個耕地質(zhì)量交互效應(yīng)逐個加入Logistic模型,在加入前5個交互效應(yīng)時,R2上升趨勢明顯,AIC值不斷下降,模型擬合度變化明顯,在第5個交互效應(yīng)時,R2超越了 0.95,達到了 0.998,模型擬合度良好。當(dāng)加入第6個交互效應(yīng)時,模型擬合度開始下降,但總體變化不大,此外,擁有5個交互效應(yīng)的Logistic回歸模型,交互效應(yīng)系數(shù)的顯著性水平都滿足P≤0.05,分別為0.00、0.00、0.00、0.01、0.00,因此得出從化區(qū)耕地質(zhì)量評價指標間交互效應(yīng)有 5個,分別是:表層土壤質(zhì)地與土壤酸堿度、耕地利用方式與土壤酸堿度、有效土層厚度與土壤酸堿度、地形坡度與土壤有機質(zhì)含量、排水條件與灌溉保證率之間的交互效應(yīng)。
圖2 交互效應(yīng)Logistic模型性能曲線Fig. 2 Performance curve of logistic model based on interaction effect
為驗證基于交互效應(yīng)Logistic模型的適用性與準確性,將未加入交互效應(yīng)的全局Logistic模型與基于5個交互效應(yīng)的Logistic模型進行對比,結(jié)果見表3。
表3 模型參數(shù)結(jié)果對比Table 3 Comparison of model parameters
PE為模型對訓(xùn)練樣本中耕地單元等別預(yù)測誤差。關(guān)聯(lián)是預(yù)測等別與因素法劃分等別之間的斯皮爾曼關(guān)聯(lián)(Spearman’s correlation),其值越高,說明預(yù)測等別越接近常規(guī)法劃分的等別,模型效果就越好。赤池信息準則通過考慮模型的自由度,對比不同模型的差異性(張金牡等,2010),其值越小則模型擬合度越高(梁慧玲等,2017),損失的信息越少。
由表3可知,交互效應(yīng)Logistic模型的R2優(yōu)于全局Logistic模型,即模型的擬合優(yōu)度較高。更小的預(yù)測誤差和更大的相關(guān)性表明該模型能更好地解釋自變量和因變量間的關(guān)系,模型的精度更高。由于考慮了耕地質(zhì)量評價指標間的交互效應(yīng),所以模型的AIC值明顯下降。從模型的綜合表現(xiàn)看,該模型比全局Logistic模型更能反映耕地質(zhì)量指標與耕地質(zhì)量之間相互作用相互影響的關(guān)系,用于耕地質(zhì)量評價損失的信息更少,從而更加準確地對耕地質(zhì)量進行評價。
因此,選取加入前5個交互效應(yīng)的Logistic回歸模型作為本次耕地質(zhì)量評價最優(yōu)模型,進行耕地質(zhì)量等別劃分。
對基于5個交互效應(yīng)的Logistic回歸模型進行精度評價。
圖3 等別劃分混淆矩陣Fig. 3 Confusion matrix of gradation
如圖 3,對角線上的值是各類別應(yīng)用基于最優(yōu)Logistic回歸模型方法分類正確的數(shù)量占比。各等別劃分正確率均達到了95%以上,其中1等耕地和3等耕地劃分準確率為100%,而2等地、4等地、5等地和6等地劃分正確率分別為97%、98%、97%、99%。
從圖 4a—f可以看出 ROC曲線趨勢均向左上偏,1、2、3、4、5、6等耕地的 AUC值分別為1.00、0.990、1.00、0.9985、0.9983、0.9999。說明包含5個交互效應(yīng)的Logistic回歸模型性能良好,得到的結(jié)果精度高。
將 16664個測試樣本耕地單元輸入到所建立的交互效應(yīng)Logistic回歸模型中,進行耕地質(zhì)量等別計算。經(jīng)過等別的計算,統(tǒng)計應(yīng)用因素法和應(yīng)用交互效應(yīng) Logistic模型的耕地質(zhì)量等別一致性數(shù)量。該模型對16664個耕地評價單元的評價準確率為92.2%。雖然該模型在區(qū)分不同等別耕地區(qū)分上仍然存在一些問題,但總體來看,耕地質(zhì)量等別的劃分結(jié)果準確度較高。
圖4 不同等別耕地的ROC曲線圖Fig. 4 Receiver operating characteristic curve of cultivated land of different grades
分類情況如表 4,對于 1等地、4等地、5等地、6等地這四類耕地單元較多的樣本來說,其分類正確率均達到了90%以上,4等耕地的劃分正確率最高,達到了97.26%。根據(jù)劃分錯誤情況,其中1等地錯劃為2等地和3等地,4等地錯劃分為3等地和5等地,5等地錯劃分為4等地和6等地,6等地部分被劃入5等地,由此可見,大多數(shù)等別劃分誤差都集中在1等別,跨級誤差占比極小。但對于2等地和3等地這兩類耕地單元較少的樣本,正確率分別只有66.63%和76.63%,跨級誤差也較大,分類精度不理想。因此,樣本數(shù)量的不均衡將影響模型的分類精度。
耕地質(zhì)量評價工作中指標體系的構(gòu)建是重點難點。耕地質(zhì)量評價指標體系構(gòu)建已由偏重于自然屬性向較為全面考慮自然與生態(tài)環(huán)境、社會經(jīng)濟等眾多方面完善(沈仁芳等,2012)。然而,由于耕地質(zhì)量的影響因素較多,各因素之間也會相互產(chǎn)生影響,耕地質(zhì)量所呈現(xiàn)的實際上是各種驅(qū)動因素作用共同疊加的結(jié)果。
本研究通過關(guān)聯(lián)規(guī)則分析與Logistic回歸模型得知耕地表層土壤質(zhì)地與土壤 pH、耕地利用方式與土壤pH、有效土層厚度與土壤pH、地形坡度與土壤有機質(zhì)含量之間存在交互效應(yīng),這與近年來有些學(xué)者針對耕地質(zhì)量中的幾個主要驅(qū)動因素的交互效應(yīng)研究結(jié)論類似。如黃平等(2009)通過DEM模型圖與土壤有機質(zhì)空間分布圖進行空間疊置分析以探討坡度、坡向?qū)Ω赝寥烙袡C質(zhì)空間變異的影響,結(jié)果表明坡度對土壤有機質(zhì)含量的影響比坡向更明顯,部分地區(qū)存在坡度與坡向交互影響顯著的情況。王亞男等(2018)利用ArcGIS軟件和地統(tǒng)計學(xué)方法對耕地土壤pH的空間分布特征進行半變異函數(shù)分析,結(jié)果表明土層厚度和土壤類型對耕地土壤pH影響較大,坡度對耕地土壤pH的影響呈弱相關(guān)。檀滿枝等(2007)基于信息熵原理對土壤pH與母質(zhì)、地形和土地利用方式之間的空間相關(guān)性進行定量分析,結(jié)果表明其相關(guān)性順序為土地利用方式>地形>母質(zhì)。因此,關(guān)聯(lián)規(guī)則與Logistic回歸模型對于耕地質(zhì)量評價指標間交互效應(yīng)的發(fā)現(xiàn)是一種行之有效的方法,該方法針對傳統(tǒng)多層次完全模型在尋找交互效應(yīng)時自變量數(shù)量較多時的局限性,通過關(guān)聯(lián)規(guī)則分析找到了耕地質(zhì)量指標間的交互效應(yīng),將其作為Logistic回歸分析的待選解釋變量,這樣既克服了全局Logistic回歸分析無法發(fā)現(xiàn)變量間交互效應(yīng)的問題,也解決了關(guān)聯(lián)規(guī)則無法給出模型和參數(shù)估計值的缺陷。當(dāng)然,可用于檢測耕地質(zhì)量指標間(低階和高階)交互效應(yīng)的其他方法也可以在這里使用,關(guān)于和其他交互效應(yīng)發(fā)現(xiàn)的方法比較有待下一步的討論分析。
耕地質(zhì)量評價結(jié)果的可靠性高低依賴于評價方法的優(yōu)劣。在耕地質(zhì)量工作中,雖早有學(xué)者針對耕地質(zhì)量相關(guān)影響因素間的交互效應(yīng)開展研究,但未見將交互效應(yīng)理論應(yīng)用于實際耕地質(zhì)量評價工作,其根本原因在于傳統(tǒng)的耕地質(zhì)量評價方法難以對耕地質(zhì)量與耕地質(zhì)量影響因素間的交互效應(yīng)進行有效表達,數(shù)據(jù)挖掘方法為其交互效應(yīng)的表達提供了可能性。本文采用基于納入具有統(tǒng)計學(xué)意義的5個交互效應(yīng)的多分類Logistic回歸模型對耕地質(zhì)量等別進行劃分,該模型在對耕地質(zhì)量數(shù)據(jù)的擬合優(yōu)度和預(yù)測準確率上均優(yōu)于全局 Logistic回歸模型,用于耕地質(zhì)量評價準確度更高。但該模型在對個別等別的耕地質(zhì)量識別準確率較其他等別偏低,原因在于訓(xùn)練樣本的選擇上,對于訓(xùn)練樣本較小的耕地質(zhì)量評價單元的精度不理想,本文僅采用分層抽樣法選擇樣本,因此下一步可討論不同方式的樣本選擇方法進行深入對比分析。
表4 多分類Logistic回歸模型劃分耕地質(zhì)量等別分布表Table 4 Classification of cultivated land quality by multi-classification Logistic regression model
耕地質(zhì)量的影響因素眾多,要保證耕地質(zhì)量等別的科學(xué)劃分,就必須對各類因素給予客觀評價。傳統(tǒng)的耕地質(zhì)量評價方法大多采用特爾菲法、層次分析法、指數(shù)和法、灰色關(guān)聯(lián)度分析法和GIS方法等,這類方法在評價過程中主觀性大,易受人為因素干擾,且工作量大。據(jù)此,本研究引入一種基于交互效應(yīng)的Logistic回歸模型評價方法,將其應(yīng)用到耕地質(zhì)量評價中,得到以下主要結(jié)論:
(1)通過構(gòu)建基于交互效應(yīng)的耕地質(zhì)量評價指標體系,將關(guān)聯(lián)規(guī)則技術(shù)與Logistic模型結(jié)合,既可快速挖掘耕地質(zhì)量影響因素間的交互效應(yīng),又可通過Logistic回歸模型驗證交互效應(yīng)是否具有統(tǒng)計學(xué)意義,從而得到從化區(qū)耕地質(zhì)量評價指標的交互效應(yīng):表層土壤質(zhì)地與土壤酸堿度、耕地利用方式與土壤酸堿度、有效土層厚度與土壤酸堿度、地形坡度與土壤有機質(zhì)含量、排水條件與灌溉保證率之間的交互效應(yīng)。
(2)對于耕地質(zhì)量這一綜合系統(tǒng)而言,基于交互效應(yīng)的Logistic回歸模型比全局Logistic回歸模型擁有更好的模型擬合優(yōu)度。將該模型應(yīng)用到耕地質(zhì)量評價領(lǐng)域,最終選取具有 5個交互效應(yīng)的Logistic回歸模型,應(yīng)用此模型進行耕地質(zhì)量等別劃分,評價結(jié)果精度為92.2%,達到了較高的精度等級,可滿足實際應(yīng)用需求。