Leçon 1, Chapitre 1
En cours

Apprentissage sans erreur

https://vimeo.com/805988374

⚠️ Quelques notions à retenir :

Un stimulus discriminatif est un stimulus en présence duquel la probabilité ou la fréquence d’une réponse est modifiée dans le sens d’une augmentation (positif) ou d’une diminution (négatif).

Expérience par essai et erreur versus apprentissage sans erreur :

Pigeons version erreur et essai :

Les pigeons sont renforcés quand ils picorent le signal rouge. Quand ce comportement est bien établi, le signal rouge (SD) est remplacé par un signal vert (SDelta), qui n’est pas renforcé pour le comportement de picorer. Cela amène à extinction du comportement. Les deux signaux sont ensuite présentés de façon alternative.

La procédure d’extinction amène beaucoup de frustration, d’agression et l’abandon… elle est considérée comme processus aversif.

Pigeons dans la version apprentissage sans erreur :

Le SDelta (vert) est introduit beaucoup plus tôt dans l’apprentissage, avant que le signal picoré en rouge ne soit pas complètement acquis. Le Stimulus Delta a également été introduit avec une procédure de « disparition » (fading in) avec augmentation de la luminosité du signal, de longueur d’onde et durée du signal. Ces deux procédures ont eu pour résultat un apprentissage de la discrimination plus rapide avec très peu d’erreurs.

Contingence à 3 termes :

A: antécédent

B: comportement (behavior)

C: conséquence

Grâce à la description de la relation entre un comportement observé, ses antécédents et conséquences, une corrélation peut être mise en évidence entre une réponse, un stimulus antécédent et une conséquence.

Pour un renforcement efficace, on doit avoir une contingence claire comme une dépendance entre le comportement et son résultat = renforcement conséquent, surtout en phase d’apprentissage.

La contingence à 3 termes peut faire l’objet d’un apprentissage. Il est parfois nécessaire d’ajouter une guidance juste avant le comportement afin de fournir l’opportunité de recevoir du renforcement. Elle est ensuite progressivement estompée afin de favoriser l’autonomie.

Voici un exemple :

Voici la présentation téléchargeable au format pdf du powerpoint que vous avez dans la vidéo ci-dessus.

Renforçateur:

Pour être efficace, le renforcement doit être distribué aussi immédiatement que possible et de manière contingente.

Le renforçateur peut varier d’un apprenant à l’autre. Il est donc primordial d’évaluer les renforçateurs. Ils n’ont pas tous la même valeur : récompense (alimentaire) n’est pas toujours égal à renforçateur. Il faut être vigilant sur les renforçateurs puissants qui ne doivent pas être délivrés trop fréquemment afin d’éviter un effet de satiété.

Renforçateur conditionné : Aussi appelés « renforçateurs secondaires » (Rivière, 2006), les renforçateurs conditionnés sont devenus renforçants par association avec d’autres agents renforçateurs. Un exemple de renforçateur conditionné peut être l’argent. En effet, pour un très jeune enfant, l’argent n’a aucune valeur renforçante. C’est à force d’expérimenter l’argent associé à des agents renforçateurs (des bonbons, des jouets, des vêtements, des sorties, etc.) que l’argent devient un agent renforçateur conditionné. Sa valeur est d’autant plus importante qu’il peut permettre d’accéder à une variété considérable d’agents renforçateurs.

Renforcement différentiel :

Il existe plusieurs types de renforcement différentiel. Le renforcement différentiel d’autres comportements (Differential Reinforcement ofOther behavior) consiste à donner un renforçateur potentiel lorsqu’un comportement cible n’apparaît pas pendant un intervalle donné (Cooper et al., 2007). Le comportement cible est alors un comportement problème que l’on souhaite voir diminuer. Par exemple, si l’on prend les aboiements comme comportement cible, et que l’on détermine un intervalle de 15 minutes, un renforçateur sera délivré à terme de cet intervalle si aucune occurrence d’aboiement n’est relevée. Un intervalle réalisable pour le chien est proposé en première intention, pour offrir l’opportunité d’obtenir du renforcement, puis progressivement les intervalles seront allongés pour éviter une dépendance au renforcement. Le renforcement différentiel des comportements alternatifs (Differential Reinforcementof Alternative behavior) a pour objectif de remplacer un comportement problème par un comportement adapté (Cooper et al., 2007). Pour cela, le comportement alternatif est renforcé, et le comportement cible est ignoré.

strong>Contingence & contiguïté:

Contingence : délivrer le renforçateur – fréquence du renforçateur

Contiguïté : rapidité /immédiateté avec laquelle le renforçateur est donné. On peut améliorer la contiguïté en utilisant un marqueur auditif ou visuel (pont) tel que clicker, sifflet, son bref, ce qui permet de marquer la réponse précisément quand elle apparaît.

Renforcement versus punition :

Renforcement : Augmentation de la force d’un comportement dû à sa conséquence.

Punition : Diminution de la force d’un comportement dû à sa conséquence.

Implication de la punition en nosework:

Nous allons aborder les 3 raisons majeures pour lesquelles la punition n’a aucune place en nosework. Lorsque je parle de punition, j’inclus le marqueur de non-comportement tel que “m-m”, “hein hein”, “non”, traditionnellement utilisés pour indiquer au chien qu’il ne fait pas le bon comportement. Bien que ce marqueur ne soit pas considéré la plupart du temps comme une punition, elle en est une si on se réfère à la définition de la punition (cf. ci-dessus).

Pourquoi ne doit-on jamais utiliser de punition en nosework ?

  1. Une punition indique au chien qu’on sait mieux que lui où se trouve l’odeur (ce qui est le cas lorsqu’on place ses caches soi-même). Ce faisant, cela peut conduire à une erreur du conducteur : le chien va se mettre à lire votre comportement pour deviner où se trouve l’odeur au lieu de chercher avec son flair.
  2. Inhibe la capacité du chien à prendre des initiatives. On prend le risque de retomber dans le schéma de l’apprentissage par essai et erreur.
  3. Défavorise le travail du chien en toute indépendance. Ce qui l’amènera à vous demander de l’aide (et vous regarder constamment dans les cas les plus extrêmes).

Les étapes de l’apprentissage:

  1. Acquisition : apprendre un nouveau comportement. Il peut être appris (de façon générale) par le leurre, la cible, le modelage, la capture ou le façonnage.
  2. Généralisation : la voie vers la fluidité (cf les 5D – abordés dans le module 4)
  3. Fluidité : l’animal effectue le comportement sur signal, dans une variété de situations – répondant correctement au signal dans au moins 80% du temps.