[摘 " "要]旅游是在非慣常環(huán)境的活動,但非慣常環(huán)境要由慣常環(huán)境來定義。無論學術上還是技術上,慣常環(huán)境自身也都缺少相對統(tǒng)一和明確的定義,使得我國旅游統(tǒng)計執(zhí)行錯亂頻生,各類負面輿情不斷。文章探討了慣常環(huán)境技術定義的國際實踐、原則和推薦的表達,認為慣常環(huán)境是由以居所為中心和以職學地為中心的兩類慣??臻g的合集,一個以不等圓組成的不受行政區(qū)劃限定的不規(guī)則區(qū)域。研究還發(fā)現(xiàn):1)為減少位置噪聲點干擾使得簇質點偏移,對兩個慣??臻g進行具有噪聲的基于密度的空間聚類時掃描半徑宜限定在1 km以內;2)以居所為中心的慣??臻g不超過1個,以職學地為中心的慣常空間個數小于等于2,根據位置點衰減情況判斷,前者空間半徑以40 km為宜,后者空間半徑以2 km~3 km更為合理;3)無需用全樣本位置數據進行標記,通過代表性用戶出游率或抵達率擴樣實現(xiàn)總體推算;4)不能標記慣常環(huán)境的用戶,可假定其出游率或抵達率與能標記的用戶相同,即符合同一性假定。該研究可為大數據的旅游統(tǒng)計規(guī)范化應用提供技術參考,為基于大數據的旅游流研究夯實了基礎。
[關鍵詞]慣常環(huán)境;技術定義;空間標記
[中圖分類號]F59
[文獻標識碼]A
[文章編號]1002-5006(2024)05-0161-10
DOI: 10.19765/j.cnki.1002-5006.2024.05.015
0 引言
旅游學能否成為一門獨立的學科,取決于能否構成一個相對獨立的知識體系,也就是具有特有的概念、原理、命題、規(guī)律等所構成的嚴密的邏輯化的理論體系[1]。1999年,聯(lián)合國世界旅游組織在定義旅游時首次引入慣常環(huán)境概念,此后各國陸續(xù)將慣常環(huán)境確立為定義旅游的概念要件。聯(lián)合國主導的《2008年國際旅游統(tǒng)計建議》,定義“游客指出于任何主要目的(出于商務、休閑或其他個人目的,而非在被訪問國家或地點受聘于某個居民實體),在持續(xù)時間不足一年的期間內,出行到其慣常環(huán)境之外某個主要目的地的旅行者。”[2]實際上,慣常環(huán)境并不指向旅游,慣常環(huán)境之外才指向旅游。張凌云開創(chuàng)性地將慣常環(huán)境之外定義為“非慣常環(huán)境”,引發(fā)了關于旅游的本質和游客在非慣常環(huán)境中游憩行為的深入探討。一方面,張凌云提出了旅游就是人們在非慣常環(huán)境下的體驗和在此環(huán)境下的一種短暫的生活方式,并將旅游的本質定義為“對非慣常環(huán)境的體驗”[3]。一些學者也認同非慣常環(huán)境核心概念是旅游學的邏輯起點之一[4]。另一方面,更多學者確實以非慣常環(huán)境概念為邏輯起點,對旅游者非理性行為、旅游欺詐現(xiàn)象、價格感知、生命的意義、體驗差異等現(xiàn)象進行了深入研究[3,5-7],顯著推動了對旅游活動的學術理解。旅游在非慣常環(huán)境發(fā)生,學術研究也更多聚焦于此。仔細觀察相關研究發(fā)現(xiàn),廣域環(huán)境減去慣常環(huán)境后就是非慣常環(huán)境,世界上每個人的廣域環(huán)境在空間上是相等的,也就是所處發(fā)展階段面向人類生活的全部活動空間。這意味著,非慣常環(huán)境是依靠慣常環(huán)境來定義和理解的。從而定義項中的另一個概念“慣常環(huán)境”應該要有一個比較準確的已知定義,才能避免被定義項陷入定義模糊[8]。
無論是從地理上還是心理上定義,慣常環(huán)境勢必存在理論上的空間邊界,否則慣常環(huán)境就與廣域環(huán)境重合,也就失去了討論旅游的邏輯起點。遺憾的是,慣常環(huán)境的理論邊界仁者見仁。Govers等定義慣常環(huán)境,與其說是從地方、空間、流動的多視角出發(fā),通過網絡、電話、留置問卷等方法進行超大樣本的調查,對傳統(tǒng)觀點的慣常環(huán)境進行重置,不如說他們引入游客感知,提出了“讓旅游者決定用何種時間和地點的數據來劃分慣常環(huán)境和旅游、旅行的界限?!盵9]自此,慣常環(huán)境需要從社會地理、環(huán)境心理等多視角進行綜合考察的觀點趨于主流,確定其空間邊界的分歧越來越大,而不是相反。甚至出現(xiàn)認為交通的快捷、舒適、方便程度左右人們的心理距離,交通格局的變化可以達到“天涯若比鄰”的效果的觀點[10],過度強調個體對距離的心理感知,而忽視出行頻率。這一邏輯正如韓炳哲所說“電子郵件以此方式造就出即時性,即它完全除掉作為空間間歇的諸多道路。它擺脫了空間本身……每一個遠方、每一段距離都要被滅除。要做的是,使一切在此時此地即可得以被支配?!盵11]隨著虛擬現(xiàn)實、元宇宙等數字化技術發(fā)展,慣常環(huán)境似乎就真的可以與廣域環(huán)境重合了,屆時,繼續(xù)探討旅游就沒什么實際價值了。學術上百家爭鳴是旅游研究之幸,對于旅游統(tǒng)計則可能意味著不知所措和頻繁的統(tǒng)計數據質疑。因為,如果人人有自己的慣常環(huán)境理解以及在此基礎上的旅游活動認知,就難以建立一套各方認可的統(tǒng)計規(guī)則。如果技術定義中也依賴游客感知,慣常環(huán)境就變成了一個因人而異的主觀概念,關于旅游人數的統(tǒng)計就只能經由游客抽樣調查這一種方法了,因為能且只能在游客自己感知是否離開慣常環(huán)境的基礎上進行擴樣推算。由于不同經濟發(fā)展水平、不同文化風俗、不同生長階段的人對慣常環(huán)境大小的感知不同,區(qū)域旅游統(tǒng)計數據之間就完全失去可比性了。管婧婧等也認為慣常環(huán)境的地理邊界應該是開放和發(fā)散的,但是從統(tǒng)計操作角度可強行劃定物理距離尺度[8]。國際上并沒有關于慣常環(huán)境的統(tǒng)一技術定義,聯(lián)合國世界旅游組織建議各國根據交通便利情況、人口密度、文化行為、距離行政邊界的距離遠近等確定一個“唯一的個人慣常環(huán)境”[2]。一些國家用“出城”“異地”“外地”“離開本地”“離家40 km(或50 km、80 km等)”等表述,含糊其辭。我國自1993年開展國內旅游統(tǒng)計、2000年出臺旅游統(tǒng)計制度至今,從來沒有對慣常環(huán)境下過定義,使得很多學者不理解旅游人次怎么統(tǒng)計得來,也不能準確向學生和基層旅游統(tǒng)計人員傳授講解,特別是各地爭相用位置數據監(jiān)測假日游客接待情況,方法各不相同,且都不是在標記游客慣常環(huán)境基礎上展開,新一輪旅游數據亂象有愈演愈烈之勢。
1 基于位置大數據的慣常居住及職學空間標記
1.1 慣常環(huán)境技術定義的國際隱喻
慣常環(huán)境的出現(xiàn)經歷了數十年演變,根據張凌云對國際上主流旅游定義的梳理,“非定居地”“離開自己的住地”“離開定居地點較遠的地方”“離家”“離開日常生活圈”等表述都出現(xiàn)過(表1)。從表1可以看出,學術上對旅游的定義多從離開居住地展開。各國雖然盡量回避定義慣常環(huán)境,但為了統(tǒng)計需要都采用隱喻的方式大致勾勒慣常環(huán)境的空間規(guī)則。美國對游客出行的時空要求是50 miles(約80 km)1,法國則是離開住所超過100 km2,日本要求游客離開日常生活環(huán)境達到單程80 km3,澳大利亞要求過夜游客離家40 km以上,對一日游則為離家往返50 km4,西班牙規(guī)定游客必須出行至行政邊界(市)以外5。這些國家雖沒有明確定義慣常環(huán)境,但有兩方面的隱喻:1)個體只擁有一個慣常環(huán)境;2)住所是多數國家從技術上定義慣常環(huán)境的核心。我國官方頒布的旅游統(tǒng)計調查制度使用慣常環(huán)境概念,但從來沒有對慣常環(huán)境進行過界定。2020年頒布的《全國文化文物和旅游統(tǒng)計調查制度》中出現(xiàn)了“慣常環(huán)境”“慣常生活環(huán)境”“慣常居住地”“慣常居住環(huán)境”等多種表述,但沒有對慣常環(huán)境進行完整定義。從制度的表述中,統(tǒng)計操作上的慣常環(huán)境是從居住地展開的。各國技術上對慣常環(huán)境的界定可以分為3種:第一種是整圓說,法國、日本和澳大利亞等將慣常環(huán)境明確為住所或家周邊一定半徑距離范圍,呈圓圈狀;第二種是不規(guī)則生活地說,英國限定為游客所在鎮(zhèn)或者鄉(xiāng)村,西班牙為市政邊界內;第三種是“懸置”說,中國、美國和加拿大等都對慣常環(huán)境進行模糊處理。
《2008年旅游統(tǒng)計國際建議》關于慣常環(huán)境的表述最為全面,但都是抽象性建議,而不是關于時空的具體規(guī)定,如“一個人的慣常環(huán)境是旅游的一個關鍵概念,被定義為一個人日常生活的地方(不一定是一個毗鄰的地方)。”[2]“一個人的慣常環(huán)境包括其所屬住戶的慣常居住地,其自身的工作或學習地以及其定期和經常光顧的任何其他地方,即使該地遠離其慣常居住地或在另一地區(qū)時也是如此?!盵2]“每個住戶都有一個主要住所(有時稱為首要或基本住所),這種住所通常根據逗留的時間確定,其所在位置用來確定居住國和該住戶及其所有成員的慣常居住地?!盵2]可以知道,慣常環(huán)境至少應由住戶的慣常居住地和其工作或學習地兩部分組成。離開某層級行政區(qū)或離家40 km是多數國家進行旅游統(tǒng)計的最低空間標準,居住地和工作或學習地往往都在這一空間范圍內。我國則不然,沒有定義慣常環(huán)境,但把離開居住地10 km作為游客統(tǒng)計的基本準則,甚至低于一些城市居民的平均通勤距離,很多人工作和學習地與居住地不在以居所為中心的10 km范圍內,就造成了由居住地去往超過10 km的工作地周邊多大范圍外才計入旅游的技術障礙。把以居所為中心的那部分慣常環(huán)境稱為以主要居所為中心的慣常空間,半徑為[Rh],根據我國目前的制度規(guī)定[Rh]暫時等于10 km。把以職學地為中心的那部分慣常環(huán)境稱為以職學地為中心慣常空間,半徑為[Rw]。如何通過大數據的方法對兩個空間進行界定和標記,是本文研究的主要內容。
1.2 以居所為中心的慣常空間標記
通過攔訪居所所在地住戶受訪者可能介意隱私避而不答,對于其活動范圍又因對距離感知較為含糊難以精確化處理,本文選取位置大數據進行客觀標記。隨機選取2022年6月南京電信某用戶M信令位置點,位置點每半小時提取一次,合計提取到該用戶位置點1188個(每個點都由經緯度刻畫),可以大致看出該用戶主要在兩個區(qū)域活動,位置點總體分布如圖1所示。
先用K均值聚類算法(K-Means clustering algorithm)進行空間聚類,算法步驟是預先將數據分為K組,隨機選取K個點作為初始的聚類中心,然后計算每個點與各個種子聚類中心之間的距離,把每個點分配給距離它最近的聚類中心(或簇質心),該聚類中心以及分配給該中心的點集就代表一個聚類(或簇)。一旦全部點都被分配了,每個聚類的聚類中心會根據聚類中現(xiàn)有的點被重新計算,如此反復迭代直至滿足誤差平方和(各簇內的樣本點到所在簇質心的距離平方和)局部最小。簡便起見,各簇內的樣本點到所在簇質心的距離以兩點之間的直線距離表征,即歐幾里得距離。設有X點(lat1 "long1)和C點(lat2 "long2),lat1和lat2分別為兩點的緯度,long1和long2分別為兩點的經度,則:
[d=r×arccos[sin(lat1)×sin(lat2)+cos(lat1)× " " "cos(lat2)×cos(long2-long1)]J(c,u)=mini=1n||Xi-u2Ci||](1)
式(1)中,d為X點和C點之間的距離(單位為m);[r]=6371.004 km,為地球半徑;i為某個簇的位置點個數,[Xi]和[Ci]是某個簇位置點的位置屬性標記,[uCi]為簇質心點;本文聚類中,[||Xi-uCi||]以式(1)中d表征。
對夜晚22:00至次日早晨5:00期間位置點進行聚類,當K值為2時(圖2左上),位置點可以聚類為紅色和藍色2簇。K值為3時(圖2右上),可以聚類為藍色、綠色和紅色3簇;K值為4時(圖2左下),可以聚類為藍色、紅色、黑色和綠色4簇;K值為5時(圖2右下),則可以聚類為藍色、紅色三角、紅色圓、綠色和黑色5簇。實際上,簇數越多并不見得越好,K值增多后反而將更多的偽中心標記出來造成更多干擾。如圖1所示,該用戶在A點(緯度:32.05413°,經度:118.76824°)、B點(緯度:32.053888°,經度:118.765833°)和C點(緯度:32.10333°,經度:118.9408°)3個位置點出現(xiàn)頻繁,6月出現(xiàn)次數分別為436次、265次和103次。計算兩個經緯度點之間的距離,A點與B點相距228.43 m,A點與C點相距17.15km,B點與C點相距17.38 km,進一步考察表2可以有以下發(fā)現(xiàn)。1)加入時間標簽,A和B兩點為白天活動點,C點為夜晚活動點。2)A點為該用戶工作地附近的可能性較大,B點以及周邊位置點(緯度:32.043841°,經度:118.78541°;緯度:32.05726°,經度:118.770929°;緯度:32.05404°,經度:118.76583°等)距離A點很近,多數僅相距數百米,大概率為該用戶在工作地周邊吃飯、商務談判等活動點。需要說明的是,A點是與該用戶白天時段手機“握手”最頻繁的基站所在位置,并不是該用戶辦公室所在位置。城市區(qū)域,兩者相距一般不會超過1 km。3)C點為該用戶居住點附近的可能性較大,緯度:32.09859°,經度:118.9344°為該用戶在居住地周邊主要活動點。也就是當K值增加時,將從B、C等點附近標記出簇質心,造成更多干擾。
經過K-Means聚類,發(fā)現(xiàn)該用戶住所所在地活動點的簇質心為緯度:32.104218°,經度:118.940296°。由于人們居所或職學地個數事先不可知,在聚類前設定K值較為不妥。特別是K-Means方法容易收到離散點干擾。設K=2,需要從圖2所示紅色位置點中聚類出簇質心,一些離散的位置點容易使得簇質心遠離用戶真實居所所在地。如果將離散的位置點去除后進行空間聚類,就能減少簇質心與用戶真實居所所在地之間的偏離。為此,改用具有噪聲的基于密度的空間聚類算法(density-based spatial clustering of applications with noise,DBSCAN)進行簇質心標記。該方法將簇定義為密度相連的點的最大集合,能夠把具有足夠高密度的區(qū)域劃分為簇,并可在噪聲的空間數據庫中發(fā)現(xiàn)任意形狀的聚類。聚類過程中需要提前設定兩個參數:掃描半徑(eps)和最小包含點數(minPts)。任選一個未被訪問的點開始,找出與其距離在eps之內(包括eps)的所有附近點。如果附近點的數量大于等于minPts,則當前點與其附近點形成一個簇,并且出發(fā)點被標記為已訪問。然后遞歸,以相同的方法處理該簇內所有未被標記為已訪問的點,從而對簇進行擴展。如果附近點的數量小于minPts,則該點暫時被標記作為噪聲點。如果簇充分地被擴展,即簇內的所有點被標記為已訪問,然后用同樣的算法去處理未被訪問的點。也就是說,DBSCAN通過參數設定只針對圖2左上角密集區(qū)域紅色點位進行聚類,而將離散點干擾作為噪聲點排除在外。對照圖3中位置點坐標,通過百度地圖坐標反查和測距工具大致觀察主要位置點簇心與邊界之間的距離和點位數,設置eps=1000 m,minPts=100個進行聚類,通過Python代碼迭代聚類出兩個簇及其質心1。發(fā)現(xiàn)該用戶居住地在萬山庭院小區(qū)北門附近樓宇,簇質點坐標為緯度:32.105472°,經度:118.94066°,與用K-Means方法聚類結果直線距離約143.59 m,與C點之間相距238.54 m。
加入用戶以其住所為中心,東南西北各方向活動分布均勻,則DBSCAN空間聚類后簇質點將非??拷脩舻恼鎸嵕铀?。但多數情況下各方向的活動分布是不均勻的,DBSCAN空間聚類得到的簇質點往往與用戶居所所在地存在偏差,但由于基站(包括地下停車場、大型商超等安裝的小基站)較為密集,幾百米偏離不會對用戶慣常環(huán)境的空間劃分構成顯著影響。而且偏離往往出現(xiàn)在用戶活動相對頻繁的方向,也就是簇質點成為居所與周邊活動密集點之間的某個位置,理論上來說,作為用戶在住地周邊停留和活動的中心位置更有代表性。找到代表居所的簇質點后,就需要確定以居所為中心的慣??臻g應該多大。我國旅游統(tǒng)計制度規(guī)定,離開慣常居住地10 km,也就是[Rh]=10 km,與世界各國的規(guī)定存在明顯差異。比較或探討哪一個距離標準更合適不是本文研究重點,主要為了提出用上述空間聚類法研究人們的活動位置點在不同距離尺度的分布情況是今后研究距離標準的可用參考。繼續(xù)在南京隨機選取500名電信活躍用戶,占同期南京市活躍用戶總數的萬分之一,用戶平均年齡38.1歲,男性占比50.7%。對這些用戶夜晚22:00至次日早晨5:00間軌跡點,利用DBSCAN在不同eps參數下進行空間聚類,發(fā)現(xiàn)人們絕大多數位置點在居所所在地簇質點附近數千米以內(表3),93.36%的位置點在10 km范圍內。筆者曾通過位置大數據監(jiān)測了國人一年內平均旅游天數約為7天,假設旅游和非旅游時間每天的位置點數相同,則旅游的位置點占比約1.92%。對照表1,恐怕40 km標準對于消除非旅游活動干擾更加有效。
1.3 以職學地為中心的慣常空間標記
考慮到K-Means法存在的適用性弊端,直接用DBSCAN對電信用戶M白天自上午10:00至下午17:00點之間的位置點進行空間聚類(以下所稱白天均指上午10:00至下午17:00點聚類時段),eps和minPts參數設定同上。聚類出的簇質點在南京師范大學隨園校區(qū)內(圖3),具體位置為緯度:32.059223°,經度:118.775472°,該用戶可能為南京師范大學職工或走讀的學生。
該用戶白天和夜晚只各聚類出一個簇質點,分別作為該用戶的職學地中心位置和主要居所活動區(qū)域的中心位置,兩個中心位置點之間的距離為16.39 km。如前所述,以居所活動區(qū)域的中心位置為圓心半徑10 km(即[Rh]=10),可以理解為我國目前使用的以居所為中心的慣常空間,但如果[Rw=Rh]=10 km,則家住五環(huán)外在北京前門附近上班的人,到四環(huán)以內的全部區(qū)域,包括去動物園、什剎海、玉淵潭等在內都不能算旅游。人們往往在居所附近的活動半徑會大于在職學地的活動半徑,也就是[Rwlt;Rh]可能更加符合實際。中國旅游研究院(文化和旅游部數據中心)研究居民休閑時,通過連續(xù)數年問卷調查發(fā)現(xiàn),居民多數休閑活動在距家3 km范圍內開展。浙江省文化和旅游廳相關部門與中國移動合作,通過觀察用戶不同時間段停留的柵格數(柵格范圍為250 m×250 m),借助K-Means和LSTM(Long short-term memory,長短記憶網絡)相融合的聚類方法,結合短信調查,認定將[Rw]=2 km作為當地大數據旅游客流監(jiān)測的試用標準。
筆者利用信令數據對500名隨機電信用戶10:00—17:00軌跡點,利用DBSCAN在不同eps參數下進行空間聚類,發(fā)現(xiàn)用戶的白天活動軌跡點中,88.7%在日常工作或學習中心點2 km以內,90.5%的軌跡點在3 km范圍內。其中,81.6%的行為軌跡點在2 km范圍內的用戶達到7成(表4)。由于人們白天行為軌跡更加分散,規(guī)律性相對不明顯,軌跡點聚類的要求應適當放寬。更為重要的是,如前所述,慣常環(huán)境包括兩類慣??臻g,即以居所為中心的慣??臻g和以職學地為中心的慣??臻g,前者為主,后者為輔。也就是說,在非慣常環(huán)境的旅游活動,從空間移動上而言,首先或者主要是對以居所為中心的慣??臻g的否定,從形態(tài)上而言,旅游作為異地的短期生活主要是對居住地常態(tài)化生活的否定。以職學地為中心的慣??臻g,在更多情境下不是作為非慣常環(huán)境的對立面存在,而是作為將慣常環(huán)境不同區(qū)域之間的通勤等出行排除出旅游而存在。也就是說,以職學地為中心的慣常空間首要的作用不是為了否定旅游,而是為了否定某些經常性的空間移動。這也是表1中多數旅游的學術定義中指向離開住地,以及前文所述各國在旅游統(tǒng)計中大多規(guī)定離開住所的原因。因此,[Rw]不宜過大,否則可能將很多旅游活動排除在外。表4可以看出,[Rw]等于2 km或3 km軌跡聚類占比差異不大,將[Rw]設置為2 km或者3 km都具有較強的解釋力。
1.4 空間標記中的特例處理
按照技術定義,通常每個人都有一個慣常環(huán)境,由于有的人沒有手機、不同移動運營商底層數據無法融合、有的用戶位置點提取較少(較長時間關機、信號不穩(wěn)定、手機硬件故障等各種原因)被minPts參數過濾等,不是每個用戶都可以標記出以居所為中心的慣??臻g或以職學地為中心的慣??臻g,但并不顯著影響位置大數據在旅游統(tǒng)計中的應用,3種特殊情境需要特別處理。第一種情境,標記不出以居所為中心的慣??臻g(無論是用戶本就沒有主要居所,還是因為技術和數據的原因標記不出,下同),但可以標記出以職學地為中心的慣??臻g。這類用戶可以直接剔除暫不予標記(后期可標記出再進行標記),按照相似性假定,可認為這些用戶的出游率或者到某個目的地的抵達率,與其所在省域、市域或縣域活躍用戶(可標記明確慣常環(huán)境)類似。第二種情境,標記不出以職學地為中心的慣常空間,但可以標記出以居所為中心的慣??臻g。這類用戶以沒有固定工作地點的用戶居多,慣常環(huán)境等于居所為中心的慣??臻g。第三種情境,兩個慣??臻g都標記不出,處理方法參照第一種情境。
需要解釋的是,實踐中沒有任何一種位置大數據可以覆蓋全部人口,往往能夠脫敏后接入使用的只有某一家數據商的位置數據,距離全樣本覆蓋更是相去甚遠。此外,就算標記出來慣常環(huán)境,依此計算得到的非慣常環(huán)境出行也不見得都是旅游,比如出租車司機、貨運車司機等每天無規(guī)律長距離移動,僅通過位置數據是難以剔除非旅游活動的。為此,需要兩方面技術補充。1)通過出游率或游憩抵達率進行反演擴樣,比如本文利用中國電信不到3億用戶作為樣本,標記其慣常環(huán)境后計算電信活躍用戶的總體出游率作為全國人口的初始出游率。在計算地方旅游接待時,則計算各客源地(根據需要確定不同區(qū)域尺度)電信活躍用戶到某目的地的不同初始抵達率,并分別作為各客源地全體居民至該目的地的初始抵達率。2)通過短信推送調查剔除非旅游活動。為了認定旅游動機的出行活動,需要針對離開慣常環(huán)境最低時間標準以上的用戶進行動機調查,計算非旅游動機占比,并以此將初始出游率和抵達率修正為最終出游率和抵達率。未來可以通過機器學習這類人工智能技術判定出游動機,目前來說短信調查的實用性更強。
2 慣常環(huán)境的技術定義表達
2.1 定義原則
對慣常環(huán)境進行盡可能簡單、最容易理解的技術規(guī)定,應該遵循4個方面的原則。第一,遵循共性認知原則,也就是符合盡可能多的人的直覺或經驗判斷。比如怎樣頻率的抵達或駐足才能稱為慣常,不用坐班的人工作地算不算,一周只有很少幾天有課的老師工作地算不算,如果算,那么去單位幾天才算,每次去要不要達到一定的時間標準。外賣員、快遞員、貨車司機、出租車司機等,白天要不要有慣常環(huán)境,有的話又需要怎樣的標準。對這些問題的規(guī)定,要盡可能符合大眾的常識性認知。第二,遵循最小理解障礙原則,不能過于繁瑣、晦澀。比如將慣常環(huán)境界定為居住地、居住環(huán)境、常住地、定居地等,讀者并不能快速據此確定空間范圍。第三,遵循最少特例原則,就是不能針對很多不同的人群或情境設置不同的規(guī)則,隨著社會發(fā)展,人群和情境劃分越來越多樣,無法窮盡。第四,統(tǒng)計手段高適配原則,就是既有的統(tǒng)計抽樣或大數據等手段能操作。
2.2 定義表達
經過上述關于慣常環(huán)境大數據標記的討論,為明確慣常環(huán)境的技術定義打下了基礎,雖然仍舊容易招致爭議,但對深化相關研究不可或缺?;谝陨详P于白天和夜間用戶活動軌跡的聚類實證,綜合考慮《2008年旅游統(tǒng)計國際建議》的概念性表達,以及各國在統(tǒng)計工作中的實際做法和表述上的“隱喻”,以及便于未來大數據旅游統(tǒng)計應用,按照“奧卡姆剃刀”(Occams Razor)1原理盡可能化繁為簡,避免陷入無窮無盡的特例考量之中。因此,建議將慣常環(huán)境的技術定義闡述為:一個人日常生活和工作的地方,具體為主要住所周邊一定范圍和職學地周邊一定范圍構成的空間合集。這一表述需要進行以下說明。1)不再專門強調定期和經常光顧的區(qū)域空間。因為“經?!焙汀岸ㄆ凇睙o法衡量,每個人都有自己認為的標準,選擇任何標準都可能招致非議且不符合“奧卡姆剃刀”原理。為了不把去往定期和經常光顧的地方算作旅游,將在抽樣調查中獲得此項活動占比并予以剔除。當然,如果光顧確實較為頻繁,空間聚類中容易將該地記錄為用戶的職學慣常空間,不影響旅游統(tǒng)計結果。2)住所和職學空間的空間合集,為兩個空間的并集,存在包含、相交和分離3種狀況,分離的狀況可以跨越行政區(qū),如在天津生活卻在北京工作的人,慣常環(huán)境涉及天津和北京兩地。3)沒有慣常居住地的難民、流離失所者或一些行商(駕車巡回表演、維修、游牧、養(yǎng)蜂等群體),其逗留地視為其慣常環(huán)境,不計入游客之列。4)一個人有且只有1個慣常環(huán)境,且慣常環(huán)境=以居所為中心的慣??臻g+以職學地為中心的慣??臻g。世界旅游組織在慣常環(huán)境的認定中推薦唯一的主要居所,本文的樣本測試中,夜間慣??臻g識別結果為2的用戶數是0,建議以居所為中心的慣??臻g不超過1個,1個以上視為度假居所。而有多達25.3%的樣本用戶識別出兩個職學慣??臻g,識別出3個職學慣常空間的樣本用戶不到1%,建議以職學地為中心的慣??臻g可以不超過兩個。5)住所周邊距離標準與職學周邊距離標準不要求相等,需要根據人們活動的位置點分布確定。6)慣常環(huán)境不受國境線制約,即邊境工人的慣常環(huán)境可以包括其工作的鄰國一定區(qū)域。
3 結論與展望
第一,慣常環(huán)境=以居所為中心的慣常空間+以職學地為中心的慣??臻g,兩個慣??臻g分別是以居所和職學地周邊1km(過大容易受噪聲點干擾使得簇質點發(fā)生偏移)范圍內位置點的空間聚類簇質點,以居所為中心的慣??臻g不超過1個,以職學地為中心的慣??臻g個數小于等于2。因此,從空間形態(tài)來說,慣常環(huán)境是一個以個人不同時段主要活動點簇質心為中心的大小不同、數量不等的圓組成的不規(guī)則區(qū)域,且可跨越邊境。
第二,以居所為中心的慣??臻g是慣常環(huán)境的核心,以職學地為中心的慣??臻g主要不在于表征人們的活動分布,而在于將慣常環(huán)境不同區(qū)域之間的通勤、求學等出行排除出旅游活動。因此,前者的距離半徑要明顯大于后者,否則容易將旅游活動過濾掉?!?008年旅游統(tǒng)計國際建議》承認,“各國在人口密度、交通便利情況、文化行為、離國家或行政邊界的遠近程度等方面通常有差異,這些差異不利于為全球統(tǒng)計確定一個唯一的個人慣常環(huán)境。”[2]但也“建議領國或屬于超國家組織的國家相互磋商,以確保編制的統(tǒng)計數據具有可比性?!盵2]無論從國際可比還是活動位置點分布來看,采用40 km作為以居所為中心的慣??臻g的半徑,較10 km更優(yōu)。如此,在大數據識別中,大多數用戶的居所慣??臻g與職學慣??臻g出現(xiàn)包含關系,只需按照居所慣??臻g標記用戶的慣常環(huán)境,可以大大節(jié)省排除通勤活動方面的算力。
第三,對比兩種常用的空間聚類方法,發(fā)現(xiàn)K-Means法操作簡單,迭代速度快,可以任意設置聚類數量,但也存在容易受異常點干擾、K值難以先驗設定等缺點。DBSCAN方法操作性和迭代速度沒有優(yōu)勢,但有利于去除異常點干擾。本著質量服從于速度的原則,筆者認為DBSCAN方法在居民慣常環(huán)境大數據標記中適用性更強。
第四,DBSCAN聚類中的參數設置對結果影響較大,可以根據城市或農村、城市大小及其交通條件、不同季節(jié)人們出行空間分布情況、周末和平時等進行差異化設置,標記的精度將更高。
第五,存在少量夜晚上班白天休息的人群。在進行居所慣常空間聚類的時候,有的人應該聚類白天的空間軌跡,而聚類職學慣常空間的時候也應該聚類夜晚的空間軌跡。有待于利用圖神經網絡技術,根據聚類出的簇質點屬于小區(qū)、寫字樓等特征進行自動區(qū)分標記。
本文關于慣常環(huán)境的技術性定義及其設定的大數據標記方法可用于實踐,筆者的本職工作也是每月依此生成全國357個城市(不含港澳臺)矢量旅游流矩陣,支撐全國假日旅游統(tǒng)計、旅游熱度預報等工作。未來將進一步考慮城鄉(xiāng)、城市體量、季節(jié)等因素以及利用誤差更小的GPS位置數據進行標記,提高慣常環(huán)境的標記精度。以慣常環(huán)境大數據標記為基礎的矢量旅游流監(jiān)測,憑借計算快、精度高、信息量大、研究的拓展性強等優(yōu)勢,將推動旅游流研究進入新的層次。
參考文獻(References)
[1] 張凌云. 走出混沌: 旅游學科的歸屬與性質探索[J]. 中大管理研究, 2012, 7(1): 13-34. [ZHANG Lingyun. Out of confusion: An exploration of the attribution and nature of the subject of tourism[J]. China Management Studies, 2012, 7(1): 13-34.]
[2] United Nations. International Recommendations for Tourism Statistics 2008[M]. New York: United Nations Publication, 2010: 9-34.
[3] 張凌云. 旅游學研究的新框架: 對非慣常環(huán)境下消費者行為 和現(xiàn)象的研究[J]. 旅游學刊, 2008, 23(10): 12-16. [ZHANG Lingyun. A study on consumers’ behavior and phenomenon under unusual environment[J]. Tourism Tribune, 2008, 23(10): 12-16.]
[4] 張朝枝. 面向旅游學一級學科的核心課程設置探討[J]. 旅游學刊, 2015, 30(9): 2-4. [ZHANG Chaozhi. A study on the core curriculum design for thefirst—Level discipline of tourism[J]. Tourism Tribune, 2015, 30(9): 2-4.]
[5] 李慶雷, 呂文藝. 非慣常環(huán)境下的歷史文化古鎮(zhèn)旅游再開發(fā)研究——以昆明市官渡古鎮(zhèn)為例[J]. 武陵學刊, 2013, 38(1): 61-65. [LI Qinglei, LYU Wenyi. Study on the tourism development of ancient towns in the unusual environment: Taking the Guandu ancient town in Kunming as an example[J]. Journal of Wuling, 2013, 38(1): 61-65.]
[6] 李春曉, 馮浩妍, 呂興洋, 等. 窮家富路? 非慣常環(huán)境下消費者價格感知研究[J]. 旅游學刊, 2020, 35(11): 42-52. [LI Chunxiao, FENG Haoyan, LYU Xingyang, et al. The impact of unusual environmental differences on price perception from the perspective of construal level theory[J]. Tourism Tribune, 2020, 35(11): 42-52.]
[7] 王欣, 鄒統(tǒng)釬. 非慣常環(huán)境下體驗的意義[J]. 旅游學刊, 2011, 26(7): 19-23. [WANG Xin, ZOU Tongqian. On the significance of experience under unusual environment[J]. Tourism Tribune, 2011, 26(7): 19-23.]
[8] 管婧婧, 董雪旺, 鮑碧麗. 非慣常環(huán)境及其對旅游者行為影響的邏輯梳理[J]. 旅游學刊, 2018, 33(4): 24-32. [GUAN Jingjing, DONG Xuewang, BAO Bili. A logical disentangling of the concept“unusual environment”and its influence on tourist behavior[J]. Tourism Tribune, 2018, 33(4): 24-32.]
[9] GOVERS R, HECKE E V, CABUS P. Delineating tourism: Definingthe usual environment[J]. Annals of Tourism Research, 2008, 35(4): 1053-1073.
[10] 張凌云. 國際上流行的旅游定義和概念綜述——兼對旅游質的再認識[J]. 旅游學刊, 2008, 23(1): 86-91. [ZHANG Lingyun. Review on the definitions and concept of tourism currently popular in the world—Recognition of the nature of tourism[J]. Tourism Tribune, 2008, 23(1): 86-91.]
[11] 韓炳哲. 時間的味道[M]. 包向飛, 徐基太, 譯. 重慶: 重慶大學出版社, 2017: 82-83. [HAN Byung-Chul. Scent of Time: A Philosophical Essay about the Art of Lingering[M]. HAN Bingzhe, BAO Xiangfei, XU Jitai, trans. Chongqing: Chongqing University Press, 2017: 82-83.]
Understanding the Usual Environment in Tourism:
A Technical Definition Based on Big Data Space Marking
MA Yiliang1, SONG Yanting2
(1. China Tourism Academy, Beijing 100005, China;
2. Academy of Agricultural Planning and Engineering, Ministry of Agriculture and Rural Affairs
of the Peoples Republic of China, Beijing 100125, China)
Abstract: The term “tourism” refers to various forms of activities that take place in an unusual environment. This “unusual” environment needs to be defined in terms of its opposite, i.e., the “usual” environment. However, the lack of a relatively homogeneous and unambiguous description of the usual environment, both academically and technically, has led to frequent and repeated mistakes in the implementation of tourism statistics in China. As a result, there has been a continual flood of negative public opinion and a variety of controversies relating to the concept of tourism. This study attempts to address the aforementioned issues through the following procedure. First, we present a review of the international practices, principles, and recommended expressions of the “usual environment” in a technical context. Second, we identify an individual’s usual environment as an ensemble of two distinct types of usual spaces, namely the direct vicinity of a person’s residential address and the region surrounding a person’s place of employment or education. Geographically speaking, the usual environment is an irregular area made up of uneven circles without the limitation of administrative subdivisions. Third, based on the labeling of big data, we employ several spatial clustering algorithms to label the usual environment, and apply the method of inversion and expansion sampling for the monitoring of tourism flows. Finally, we present a preliminary determination of the feasible radius for the two types of usual spaces by comparing the operational parameters of different scanning radii in the density-based spatial clustering of applications with noise (DBSCAN) algorithm. The findings reveal that the scanning radius should be restricted to less than 1 km for the optimal DBSCAN clustering of two usual spaces, as this will minimize the positional noise interference that leads to a mean shift. Moreover, there is typically no more than a single usual residential space, and the number of usual locations relating to a person’s place of employment or education is generally only one or two. Based on the attenuation of location points, the usual environment for a place of residence has a maximum radius of 40 km, whereas that for a place of employment or education has a maximum radius of 2 km~3 km. An inference about the statistical population is reached by expanding the sample space to include representative user travelling rates or arrival rates, rather than labeling with a full sample of location data. In addition, it can be assumed that users who are unable to identify their usual environments have the same travelling or arrival rates as those who are able to specify their usual locations, which is consistent with the assumption of homogeneity. The findings of this study serve as a reference for the standardized and consistent application of big data in tourism statistics, and reinforce the basis for big data-based research on tourism flows. Several significant policy and practical implications can be determined from these findings.
Keywords: usual environment; technical definition; space marking
[責任編輯:吳巧紅;責任校對:周小芳]