Úvod do klikr tréninku a pozitivního posilování

Úvod do klikr tréninku a pozitivního posilování

Učení

Trénink koní na jakékoli úrovni výcviku je ve své podstatě nekončící proces, ve kterém učíme koně nové chování, „vylepšujeme“ ty, které už umí, nebo nahrazujeme ty, které nám nevyhovují. Mimo to, učení probíhá i v době kdy netrénujeme. Učení jsou v podstatě jakékoli interakce s okolním prostředím.

Tyto interakce v podstatě neustále formují osobnost a chování jedince. Pro koně, stejně jako pro všechny živé tvory člověka nevyjímaje, platí, že se učí pomocí zkušeností, které získávají z těchto interakcí. Proto je nesmírně důležité alespoň částečně rozumět souvislostem.

Existuje celá řada typu učení, které je možné při tréninku koní využít. Běžně se setkáme s desenzitivizací (znecitlivění), habituací (navykání), senzomotorickým učením (smyslově pohybovým) a podmiňováním (pavlovovským či operantním). V tuto chvíli nás bude zajímat typ označovaný jako podmiňování.

Klasické podmiňování

Původní myšlenky pocházejí z výzkumů profesora Ivan Petrovič Pavlov.

Klasické podmiňování jako proces učení přidává dříve neutrálnímu – bezvýznamnému podnětu význam, díky kterému se spustí chování, které dříve nemělo s tímto podnětem žádnou spojitost. Toho se dosáhne tím, že se mnohokrát společně vyskytnou podnět a odměna.

Jako příklad se uvádí Pavlovův experiment, při kterém psi mnohokrát uslyšeli zvonek a dostali potravu. Přítomnost potravy spouští přirozeně reflex, při kterém se vylučují sliny. Psi při experimentu začali po zaslechnutí zvonku slinit, přestože už žádnou potravu nedostávali. Reakce (slinění) se stala podmíněným reflexem, objevujícím se “automaticky” po podmiňujícím podnětu (zvuku zvonku).

U koní se můžeme setkat s podmíněným reflexem na šustění pytlíku, nebo rachtání kyblíků s krmením. Dokud koně opakovaně nezažili, že tyto zvuky znamenají blížící se krmení, pravděpodobně jim nevěnovali žádnou pozornost a dál se věnovali svému. Podobně se koně naučí odhadovat dobu krmení. Nemusí nutně vnímat čas, ale mohou si všímat jiných okolností, které se těsně před krmením pravidelně opakují. Vymývání nádob, otvírání skladu s krmivem, charakteristické zvuky z přípravny.

Operantní podmiňování

Myšlenky Edward Thorndike, které dále rozvinul Burrhus Frederic Skinner.

  • Řídíme a obměňujeme svoje chování na základě důsledků plynoucích z našeho chování.  
  • Chování, které vedly k dosažení úspěchu, se v dalším pokusu vyskytnou pravděpodobněji než chování, která k úspěchu nevedla.  
  • Úspěšné chování přetrvává, neúspěšné naopak mizí. Úspěšné chování se stává prostředkem pro dosažení uspokojení.

Operantní podmiňování využívá toho, že každé i náhodné chování koně je reakcí na podnět. Přičemž existuje důvod, proč kůň reaguje na podněty, označujeme jej jako posílení. Jinak řečeno, chování se stává posíleným, jestliže důsledek tohoto chování motivuje koně k tomu, aby chování zopakoval. Pokud tato motivace chybí, chování se neopakuje.

Chceme-li, aby za námi kůň v ohradě přicházel, dáme mu, pokaždé když přijde, jablko, které miluje. Podnětem je má přítomnost v ohradě, chování je příchod koně, a důsledek jeho chování je získání jablka. Každým získaným jablkem je chování více posíleno. Čím častěji kůň získá tuto zkušenost, tím ochotněji k nám bude přicházet.

Trénink/učení je tedy proces založený na tom, že každé chování má jistý důsledek. A tento důsledek rozhoduje o tom, zda se kůň bude pokoušet chování opakovat nebo ne. Na první pohled se zdá všechno jednoduché. Pojďme se ale podívat na důsledky chování poněkud hlouběji.

Podnět – chování – důsledek

Jistě jste se už nejednou zamýšleli nad tím, jak toho dosáhnout, potřebujeme-li koně nějaké chování naučit, anebo naopak nějaké chování odnaučit. V té souvislosti jste si určitě vzpomněli na odměny a tresty.

V první řadě je důležité si uvědomit, že odměny a tresty v tréninku jsou součásti celku. Nefungují jen samy o sobě. Ten celek tvoří „podnět-chování-důsledek“.

  • podnět přestavuje je příležitost použít chování
  • chování je reakce na podnět
  • důsledek je to, co následuje po chování a co přinese anebo nepřinese uspokojení – tedy odměna anebo trest

K tomu aby trest či odměna fungovaly, musí kůň rozumět, jakého chování se týkají.

Operantní podmiňování jako teorie o učení

Operantní podmiňování k vysvětlení vztahů a souvislostí mezi podnětem, chováním a důsledkem používá rozdělení na čtyři kvadranty.

V tento okamžik je potřeba zmínit, že v operantním podmiňování se používají slova pozitivní a negativní jiným způsobem, než v běžné hovorové řeči. Zjednodušeně se dá říct, že vyjadřují přičítání a odečítání, jako zkratka se dokonce používá znaménko plus a mínus. Pozitivní znamená „něco přidávat“ a negativní znamená „něco ubírat“.

První dva kvadranty zabývající se posílením chování jsou totiž označované jako pozitivní a negativní posilování. Druhé dva jako pozitivní a negativní tresty.

Odměna a trest

Tyto dvě slova jsou na první pohled snadno pochopitelná a určitě jste si je již spojili s tím, co jste četli před chvílí. Nejspíše vyvolají určité představy, co by mohlo být odměnou a co naopak trestem.

Pojďme se na odměnu a trest podívat trošku jinak, ne jako na konkrétní situace, ale pouze jako na něco abstraktního. Zapomeňme vše, co jsme si o odměnách a trestech mysleli. Od této chvíle budou pro nás označovat důsledky chování, fungující takto:

  • Odměna – posílení je vše, co přinese koni uspokojení.
  • Trest je vše, co koni uspokojení nepřinese.

Pozitivní posilování

Jako důsledek chování koně přidáváme něco příjemného, žádoucího, co tím přinese koníkovi uspokojení. Zvyšuje se pravděpodobnost, že kůň bude své chování příště opakovat.

Pokud budeme pravidelně odměňovat koně poté, co za námi přijde k ohradě, pozitivně posílíme “přicházení” koně k nám. Pozitivně posíleno může být ale také vytržení otěží z rukou jezdce, ať už za účelem sklonit hlavu a napást se, anebo třeba nacválat – pokud se koníkovi podaří.

Pro pozitivní posilování (positive reinforcement) používáme zkratku R+ .

Negativní posilování

Jako důsledek chování koně odebíráme něco nepříjemného, nežádoucího pro trénovaného, a tím mu přinášíme uspokojení. Také zde se zvyšuje pravděpodobnost, že kůň bude své chování příště opakovat.

Klasickým příkladem negativního posílení je vykročení koně učené pomocí přiložení holeně, případně zesílené tušírkou, kdy holeň uvolníme v okamžiku, kdy kůň vykročí. Dalším příkladem je kůň, který se vykročením a následováním vodítka vyhýbá tahu na ohlávce, tím se u něj negativně posiluje následování vodítka.

Pro negativní posilování (negative reinforcement) se používá zkratka R-.

Pozitivní trest

Jako důsledek chování koně se přidáme něco nepříjemného a nežádoucího, tím znemožníme jeho uspokojení. Snižuje se pravděpodobnost, že chování bude kůň příště opakovat.

Obvykle pod pojmem trest vnímáme fyzické ublížení, např. zacukání za vodítko, otěže. Často ale bývají pozitivní tresty mnohem nenápadnější. Například jen hrozba korekce –  zkušenost koně, že nesplní-li požadovaný úkol, může být potrestán fyzicky, způsobí, že i pouhý náznak pozvednutí jezdeckého bičíku zřejmě přeruší jeho chování.

Pro pozitivní tresty (positive punishment) používáme zkratku P+.

Negativní trest

Znamená, že jako důsledek chování koně se odebereme něco příjemného a pro koně žádoucího, tím se znemožní jeho uspokojení. Snižuje se pravděpodobnost, že kůň bude své chování opakovat i příště.

Odnaučit vzít si pamlsek dřív, než mu jej sami nabídneme, můžeme tím, že pokud se kůň pokusí si pamlsek z ruky sám vzít, ruku zavřeme, případně skryjeme za záda, čímž se pamlsek stane nedostupný, a to je onen negativní trest. Pokračovat bychom mohli tím, že jakmile se koník na okamžik přestane snažit dostat do ruky, jen trochu odkloní hlavu a povolí jeho zájem, ruku otevřeme a pamlsek mu nabídneme (a to už je pozitivní posílení toho, že se do ruky nedobývá).

Pro negativní tresty (negative punishment) používáme zkratku P-.

Klikr trénink

Chceme-li posílit určité chování, potřebujeme, aby odměnu kůň získal v okamžiku, kdy chování proběhlo nebo velmi brzy po něm. Jen tehdy si kůň dokáže spojit získanou odměnu s chováním, které právě provedl. Ve většině situací je ale téměř nemožné dát odměnu okamžitě.  Proto trenéři pozitivního posilování používají tzv. marker.

Marker

Pomocí markeru označujeme chování, které se nám líbí a které chceme odměnit. Marker zároveň vytváří bridge (= přemostění) mezi chováním a odměnou. Má za úkol označit okamžik kdy probíhá chování, a tím spojit chování s okamžikem, kdy se nám podaří „doručit“ odměnu. Původní řetězec popisující tvorbu chování se rozšíří takto “podnět – chování – marker – důsledek”.

Většina trenérů k tomu používá pomůcku, které se říká klikr. Je to malá plastová krabička, která při stisknutí vydává zvuk – kliknutí.

Kůň brzy zjistí, že po kliknutí následuje odměna. Proto začne dávat opravdu dobrý pozor, aby přišel na to, kdy zazní tento zvuk. Následně začne opakovat chování, které markeru předcházelo, aby tím získal další kliknutí.

Například chceme-li naučit koně nedobývat se do naší zavřené dlaně s pamlskem, použijeme marker v okamžiku, kdy na moment odkloní hlavu od naší ruky, a odměníme. Koně mají rádi pocit, že jsou to oni, kdo kontroluje situaci. Že jsou to právě oni, kdo ovlivní, kdy získají odměnu. Odklonění hlavy od naší ruky je jeho volba chování, kterou nás “donutí” otevřít dlaň a dát mu odměnu.

Proč použít právě klikr?

Kliknutí je rychlé a velmi přesné. Není ovlivněno emocemi lidského hlasu. Zvíře nepotřebuje udržovat oční kontakt s trenérem. Nezáleží na tom, kdo klikr stiskne, zní to vždy stejně.

Často je využívaný i jiný zvukový marker – píšťalka, a ještě častěji nějaké slovo: ”Šikovná“, „Áno”, “Hodný!”. Výhody takového slovního markeru jsou zřejmé. Budeme jej mít vždy s sebou a umožní mít volné obě ruce, což oceníme například při jezdeckém tréninku. Vhodné je vybrat si pouze jedno slovo ve specifické intonaci, a to pak používat. Ideálně takové, které nepoužíváme v běžné řeči, například místo “Ano!”, anglické ”Yes!”.

Nicméně hlasový marker (slovo) má oproti klikru i nějaké nevýhody: má vždy malé zpoždění, obvykle dokážeme pohnout prstem rychleji, než dokážeme promluvit. Hlas se navíc liší v závislosti na okolnostech, může jej ovlivnit nemoc, nebo naše emoce, změní se tím naše intonace. Pro nás to není tak zásadní problém, protože známe význam slova jako takového. Pro koně může být ale změna intonace matoucí.

V samém začátku, kdy se seznamujete s pozitivním posilováním vy i kůň, je šikovné, i když nikoliv nezbytně nutné, začít používat právě klikr. Jednoduše proto, že je to pro vás oba snadnější. Od vás to vyžaduje méně soustředění na to, co děláte vy sami. Po pár kliknutích už na stisknutí klikru nebude potřeba myslet a bude snazší soustředit se na koně. Pro koně bude snazší pochopit souvislost mezi jediným zřetelným, docela nezaměnitelným zvukem, a následnou odměnou.

Způsoby práce s  klikrem

Využití klikru jako označovače chování (markeru) je spojené převážně s pozitivním posilováním. Třebaže může být velmi nápomocné i u negativního posílení, pro práci s pozitivním posilováním je užití markeru klíčové. Než poprvé klikneme, měli bychom vědět ještě jednu věc. Vytvoření a užití podmíněného reflexu “klik = odměna“, provází tři věci:

  • kůň dostane informaci: tohle chování je správně
  • zároveň ukončuje chování
  • protože ví, že odměna je na cestě a očekává ji

Tedy to, že kůň po kliknutí přeruší chování v okamžiku, kdy uslyší marker, není chyba, ale logická součást klikr tréninku, se kterou počítáme a pracujeme s ní. Je to také obvykle známka toho, že kůň klikru správně rozumí coby markeru chování a coby mostu k odměně (bridge).

Existují tři základní způsoby práce s klikrem, na jejich základě lze vytvořit mnoho variant užití. Těmito třemi způsoby jsou zachycení (capturing), navádění (luring) a jeho verze “cílení” (targeting), a tvarování (shaping).

Zachycení

Pomocí zachycení označujeme a následně posilujeme chování, které koník již používá, je pro něj přirozené. V podstatě jde o to, že vidím-li zajímavé chování koně, mohu jej označit a začít posilovat.

Také je možné situaci naplánovat tak, aby bylo jisté, že kůň zamýšlené chování použije. Například lehání. Je poměrně jisté, že zpocený kůň dostane nápad vyválet se v písku jízdárny. Pokud budeme chtít naučit lehání na povel, jedna z možností pak je počkat si na tuto situaci, odkliknout a odměnit. Po několika takto “zachycených” a odměněných situacích je docela pravděpodobné, že si kůň na pískové jízdárně, bude se pokoušet si lehnout, aby nás znovu přesvědčil ke kliknutí a odměně.

Proto je u zachyceného chování důležité dostat toto chování co nejdříve pod kontrolu povelem. Tzn. co nejdřív naučit koníka, že má dané chování provádět, pouze pokud k tomu dostane povel, jindy ne. Povel přidáme snadno v okamžiku, kdy máme skoro jistotu, že kůň si bude lehat – řekneme povel pro lehnutí, koník si lehne (už měl tento úmysl), my klikneme a odměníme. Po několika opakováních přestaneme odměňovat ty koníkovy pokusy, kterým nepředcházel náš povel, a dále budeme odměňovat jen ty, kdy nejprve povel řekneme. Postupně by se měl povel stát jediným podnětem pro chování: “Hurá, člověk už řekl “lehni”, to znám, lehnu si a on mi klikne a dá mi odměnu!”

Navádění a cílení

Navádění – luring, je navedení zvířete na cvik pomocí následování odměny. Koník ohne krk za mrkví, klikneme a dáme odměnu. V každém dalším pokusu chceme, aby koník ohnul hlavu ještě o kousek dál, postupně tak můžeme koníka naučit protahovat si krk do stran.

Osvědčuje se během druhého třetího pokusu, v okamžiku kdy koník pochopí, že jde o to, aby ohnul krk za vaší rukou, navádět už pouze prázdnou rukou. V pozici kliknout a následně odměnit.

Poměrně často se při navádění potravou stává, že zvíře díky potravě „unikající“ mu před nosem, nepřemýšlí nad chováním, které po něm chceme, ale pouze nad tím jak co nejrychleji dostihnout potravu a získat ji. Občas také koně zjistí, že když se za kouskem mrkve nepohnou, člověk se lekne, že neuspěje, a nabídne mrkve víc. Nakonec pak máchá svazkem mrkví koníkovi před nosem, a ten se místo snahy o získání odměny, rozmýšlí, jestli mu slibovaná odměna stojí za to, nebo ne.  Ve většině případů bude lepším řešením využít targeting.

Targeting, neboli cílení, využívá různých předmětů k tomu, aby se koně naučili dotknout targetu konkrétní části těla, nebo od nich udržovali určitou vzdálenost, následovali je nebo naopak od nich uhýbali.

Použijeme opět příklad s ohnutím krku, tentokrát postup mírně obměníme. Místo lákadla, mrkve, ukážeme target, může jim být třeba hůlka s tenisákem na konci, vařečka nebo plácačka na mouchy. Předpokládejme, že koník už ví, že se předmětu má dotknout (jak na to, si povíme později). Tedy koník ví, že se má dotknout targetu.  A tak jestliže mu místo mrkve ukážeme plácačku, on ohne krk a dotkne se jí, můžeme kliknout a odměnit. V dalším kole opět ukážeme target, tentokrát o kousek dál směrem, ve kterém se kůň má ohnout. Pohyb hlavy koně směrem k targetu opět označíme, target schováme, podáme odměnu. V každém dalším kole target posuneme dál a dál, až k výsledné pozici, do které se má krk koně ohnout.  Výhoda užití targetu je v tom, že od počátku pracujeme pod heslem “nejprve chování, potom odměna”.

Pokud koník target ještě nezná, snadno ho to naučíme pomocí tvarování.

Tvarování (shaping)

Je vytváření výsledného – cílového chování pomocí skládání a navazování malých dílků, které jsou kroky vedoucí k cílovému chování. Cílové chování se skládá z řady kritérií, kterými si pro sebe „popisujeme“ vlastnosti chování.

Výše jsme se naučili využívat targeting. Pokud kůň target ještě vůbec nezná, je nejjednodušším způsobem jak je to naučit tvarování.  Koníkovi ukážeme target – třeba vařečku, nebo plácačku. Označíme a odměníme jakýkoli náznak zájmu o něj. Napoprvé to může být třeba jen pohled směrem k targetu.  Většina koní je zvědavých, a když target dáme dostatečně blízko jeho čumáku, rovnou se k němu natáhne, můžeme tedy kliknout, target schovat a koníka odměnit.

Jako příklad složitějšího chování, při kterém můžeme využít tvarování a na kterém si ukážeme, na co všechno je potřeba si u tvarování dávat pozor, je klidné stání koně na místě, zatím co jej budeme obcházet. Prvním kritériem bude „způsob“, tedy vyjádření toho, co znamená, že kůň stojí. V našem příkladu to bude to, že má všechny čtyři nohy na zemi. Dalším kritériem bude pohyb člověka – kůň stojí i když člověk kolem něj obloukem obchází, a vydrží tak jedno kolečko okolo sebe.

Tvarovat začneme tím, že z pozice kdy stojíme u plece koně, začneme postupně vycházet obloukem na jednu stranu.

Při tvarování se soustředíme na následující:

Zvyšování kritérii po malých krocích, zvolených tak, aby kůň měl vždy šanci na úspěch.  V našem případě bude malými kroky to, že pouze naznačíme náš pohyb od koně na jednu stranu a hned se vrátíme do výchozí pozice, klikneme a odměníme. Protože chceme, aby kůň uspěl, bude to skutečně jen půlkrok, vykročíme a ihned dáme nohu zpět. Případně ještě méně, je-li to potřeba, aby bylo jisté, že se kůň skutečně nestihne pohnout. Pokud to zvládneme my i kůň, klikneme a koně odměníme. V dalším kole tento „krok“ uděláme o malý kousek větší a vrátíme se do původní pozice, opět tak aby bylo jisté, že se kůň nepohne = uspěje v úkolu.

Pracujeme vždy pouze na jednom kritériu chování, teprve po jeho zvládnutí přidáme další – teprve až bude možné udělat celý oblouk kolem koně až zpět do výchozí pozice, přidáme další kritérium, tím může být oblouk na opačnou stranu, oblouk ve větší vzdálenosti od koně, nebo to že se okolo koně pohybujeme rychleji. Při učení nového kritéria se může schopnost koně dodržet první kritérium dočasně zhoršit.

Pokud se například budeme chtít kolem koně pohybovat rychleji, je možné, že koník nevydrží stát hned od začátku celý jeden náš okruh.  U nového kritéria budeme opět postupovat po malých krocích, budeme se okolo koně pohybovat rychleji, ale vzdálenost, do které doběhneme (a z ní se vrátíme do původní pozice) budeme zvyšovat postupně.

Přestože to může na první pohled vypadat zdlouhavě, čím více zkušeností s tímto tréninkem kůň získá, tím rychleji bude u dalších kriterií a chování postupovat.

Jedno chování, jeden trenér. Se zvířetem může trénovat více lidí, ale konkrétní chování trénuje vždy jen jeden z nich.

Pokud v tréninku nenastává pokrok, vraťte se o několik kroků zpět, k chování které zvíře dobře chápe a umí. To zopakujte, odměňte a upravte dřívější postupné kroky. Existuje nespočet cest jak se dostat ke stejnému cíli. Ne každá musí být ta správná právě pro váš tým. Zkuste jinou.

Lekci zbytečně nepřerušujeme, když trénujete, věnujte se zvířeti. Popovídat si nebo telefonovat můžete po tréninku. Ztráta vaší pozornosti směrem ke koníkovi nezůstane nepovšimnuta. Zvíře může přerušení vnímat jako negativní trest (přichází o naši pozornost, tedy o možnost získat odměnu), může pak velmi snadno ztratit zájem o spolupráci s námi.

V plánování jsme vždy o krok před zvířetem, máme naplánováno, co bude dalším postupným krokem (a pro jistotu i několik dalších). Může se stát, že kůň hned při prvním pokusu předvede chování, o kterém jsme si mysleli, že bude potřeba vytvořit pomocí více postupných kroků. Kdybychom v ten moment trénink ukončili, koník by mohl zůstat zklamaný – vždyť jsme sotva začali, kde je očekávaná zábava? Mohl by pak ukončení lekce opět vnímat jako negativní trest.

Tréninkovou lekci ukončete „propouštěcím cvikem nebo povelem“. U koní se osvědčuje používat signál jako informaci „konec práce“, a zároveň položit několik kousků odměn v dosahu koně a vzdálit se dříve, než je sní.

Příště se podíváme podrobně na to jak s klikr tréninkem začít. Jaké si vybrat první, jednoduché a zároveň praktické chování. Na co si dát pozor, čemu se vyhnout, jak předejít zlozvykům spojených s odměnou v podobě potravy. A řadě s tím souvisejících věcí.