魏建龍 方 卿 楊 洲 王城仁
正向強化,是以美國心理學家斯金納的操作性條件反射理論結合普雷馬克原理(利用頻率較高的活動來強化頻率較低的活動,從而促進低頻活動的發(fā)生)作為警犬訓練的核心原理。訓導員提供犬想要的東西,如食物、玩具、撫摸、夸贊等等讓犬感到美好的事物作為犬正確行為后的獎勵,犬為了得到獎勵就會時刻保持積極、向上的心態(tài)嘗試做出訓導員要求的行為。常見的犬體態(tài)語言就是視覺、聽覺注意力高度集中在訓導員身上且尾巴高翹搖擺,訓導員就專門抓住犬做出與我們心目中標準一致的好的行為瞬間提供獎勵,一次又一次強化犬好的行為,不使用或者盡量少使用懲罰,忽略和包容犬做出與我們心目中標準相差甚遠的不好的行為。犬出現好的行為因獎勵的強化,出現的次數會越來越多,而不好的行為得不到強化就會行為逐漸消退,出現的次數會越來越少。若過多使用懲罰如牽引繩的控制、嚴厲的口令、刺激相應的犬體等,利用讓犬感到難過的事物來讓犬為了逃避懲罰而做出相應的行為,長此以往犬就容易感到壓抑、恐懼,甚至抑郁,最常見的犬體態(tài)語言就是注意力分散,經常打哈欠、身體微躬、尾巴下垂。
我們的警犬訓練經常會遇到一些麻煩,比如∶ 延緩服從科目中警犬會自主提前挪動或離開原有的位置;搜毒、搜爆犬在搜索中可能會出現咬、扒、拱等攻擊目標物的行為;撲咬服從訓練中警犬不能很好聽從訓導員的口令而表現出主動攻擊助訓員以及不能吐口的行為。警犬在看似“毫無警示”的狀態(tài)下往往會做出一些吠叫或攻擊動物、人、物品的行為等。這些不良的行為常常困擾著訓導員,筆者以前第一反應是運用懲罰或負強化的手法予以糾正,在多年的工作中深刻感受到,運用“武力”或懲罰來糾正犬的不良行為不僅非常容易破壞訓導員與警犬之間好不容易建立起的信任關系,同時也使得警犬在實際運用中不敢大膽嘗試一些積極的、自主的行為,從而導致警犬在實際工作中的表現下降,那么正向強化訓練是否就能達到比懲罰手段更好的訓練效果呢?筆者將從兩個實際訓練中常遇到的情況做經驗分享:
服從中的坐、臥、立、延緩訓練,犬在沒有得到訓導員允許的情況下主動放棄位置或偷偷挪動,筆者以前過多運用懲罰或負強化的訓練方法:訓導員面對著犬訓練距離坐臥立延緩,若延緩過程中犬出現離開位置或挪動,訓導員重新控制犬回到原延緩位置,提拉牽引繩下嚴厲口令,同時刺激相應犬體位置(按壓犬髖骨使犬坐下、按壓犬肩胛骨使犬臥下、手伸到犬后肢腋下提起犬股骨使犬站立),再次站回原位置延緩數秒,拋球獎勵或者返回犬身邊位置獎勵,但訓練效果事倍功半。
訓導員面對著犬訓練延緩,逐漸增加延時并回到犬坐的右側位置上獎勵犬(犬保持不動時獎勵)。訓導員離開犬1米,縮短延時回到犬身邊獎勵犬,然后逐步增加離開犬的距離并依然要回到犬身邊獎勵犬。逐漸增加離開犬距離的同時慢慢增加延時,回到犬身邊位置獎勵犬。教會犬聽到釋放口令后,做釋放行為并得到獎勵。如果在上一步中,犬挪動了位置,不懲罰犬,也不與犬互動,重新開始。一旦犬不挪動并一直保持,無論是位置獎勵還是釋放獎勵,給它一個大獎。
當犬在服從科目中訓練失敗,訓導員要保持冷靜的心態(tài),不要用提拉牽引繩、嚴厲的口令、重力拍打懲罰犬逼迫犬做出行為,可以重新再來幾次或降低難度標準直到犬某次表現很好時好好獎勵它。在此期間,訓導員一定要有足夠的耐心包容犬的錯誤行為,允許犬犯錯,只獎勵它好的行為,經過一次又一次的正向強化,犬會非常樂意做出行為“獲取”相應的“報酬”。但要知道犬是一種沒有耐心的動物,如果訓導員安排的一輪訓練時間過長,懲罰手段過多,犬會感到無聊,出現打哈欠、扭頭轉身離開的體態(tài)語言,若繼續(xù)強迫或長時間訓練,會得到反效果,犬就會感到厭倦甚至恐懼,想要逃離訓導員的控制,長此以往就會破壞犬與訓導員之間的信任關系。那么就要控制訓練時間,短暫約3~5分鐘一輪,根據犬的狀態(tài)安排每次訓練3~4輪。無論什么樣的訓練一定要時刻保持犬的積極性,因為警犬不僅僅只是訓練服從就足夠了,我們還需要運用它其他方面的能力如嗅覺,如果犬在某一科目的訓練被訓導員懲罰過多,感覺到與訓導員之間相處并不輕松,犬就會不敢積極嘗試做出行為而是等待訓導員的引導。訓導員需要給予犬自我學習的時間,讓犬明白這是一種愉快又短暫的游戲而不是痛苦又無聊的工作,做出相應的行為就能得到相應的獎勵,而不是因為逃避訓導員的懲罰而必須做出相應的行為。
在搜毒、搜爆訓練過程中,犬出現咬、扒、拱箱包的行為,筆者以前過多運用懲罰或負強化的訓練方法:訓導員收短、拉緊牽引繩并用鑷子引導控制犬搜索,犬重嗅有正確目標的箱包時下口令并按壓犬髖骨使犬坐下或按壓犬肩胛骨使犬臥下,助訓員在一旁拋球到箱包獎勵,訓練效果不盡如人意。
當犬自己搜索嗅聞辨別出有正確目標的箱包時出現某種行為的瞬間,訓導員可以下口令坐、臥下的替代行為來教導犬,當它坐下或臥下時,才能得到獎勵。或者采用不懲罰、不理睬,耐心等待犬放棄這一不合適的行為,自己坐下或臥下時獎勵犬。
不要通過拉扯牽引繩或者按壓犬體的懲罰手法強制犬做出坐下、臥下的行為去糾正犬的不好行為,也不要通過抽打、嚴厲的口令來威懾犬,這會讓犬不敢積極做出行為。其實犬出現咬、扒、拱的行為是一種十分期待獎勵出現的行為,這意味著它從眾多的箱包中辨別出正確的目標,只不過它還不理解訓導員并不想要這個不良的行為出現。我們應當允許犬在學習過程中犯錯,忽略犬不良的行為,通過獎勵來強化它好的行為,一次又一次強化犬好的行為,犬好的行為出現的次數會越來越多,而且犬自己在訓練過程中習得的行為會比人為糾正出來的行為更為牢固,不好的行為就會漸漸消退。否則犬在學習過程中,會聯想到大量的負面記憶,特別對于一些膽量不大的犬來說負面記憶尤為深刻,比如犬每次一聽到坐口令,先聯想到會被鞭打一下屁股的懲罰,犬每次嗅聞正確目標后先聯想到會被按壓犬體的懲罰,為了逃避這個懲罰才做出相應的行為。犬在許多次訓練當中感覺到壓抑的話,累積起許多的“負能量”,到那時候訓導員想把犬的積極性調整回來就相當困難。我們希望犬是積極主動地做出我們心目當中的標準行為,特別是與氣味相關的訓練,訓導員并不能代替犬去嗅聞,我們并不知道犬嗅聞正確目標時候是對該目標什么氣味做出反應,假如是一包信封紙包著的冰毒實物或TNT實物,犬若只是剛識別出來信封紙氣味就被按壓下去做出坐下、臥下的行為后得到獎勵,那么我們就在強化犬嗅聞到信封紙氣味而不是冰毒、TNT目標氣味就坐下、臥下的行為了。甚至出現原本訓導員是希望犬通過嗅覺搜索出正確目標物的訓練變質成一種服從訓練,犬只不過對著一排箱包轉悠隨便假裝嗅聞幾下找個箱包坐下、臥下“騙取”獎勵,這也是筆者之前過多運用懲罰手法訓練犬搜毒、搜爆,受訓了相當長一段時間犬依舊會出現錯示警的原因之一。
筆者在近幾年學習國內外先進的警犬技術經驗當中發(fā)現,隨著全世界各國警犬技術的發(fā)展,以糾正為主導地位的訓練技術正逐步被摒棄,許多國內外警犬單位開始轉而采用正向強化方法,取得良好的訓練成效。筆者也在現實的工作與訓練中深刻感受到,新的訓練理念與技術無論給訓導員還是犬都帶來一種全新的體驗!