Overblog Suivre ce blog
Administration Créer mon blog
20 décembre 2009 7 20 /12 /décembre /2009 22:46

I.Les facteurs temporels
- Rôle du délai SC-SI ou R-Rft (Rtft= renforcement):
- Plus le délai est court, plus l'apprentissage est rapide (acquisition plus rapide donc).
- L'optimum (de délai ex: le temps entre Si la cloche et SC la viande)entre les apprentissages se situe vers 0,5 secondes.

- Intervalle entre essai:

Dans les procédures à essais discrets (conditionnement classique) l'intervalle inter-essais (ITI) doit être assez long (plusieurs dizaines de secondes à plusieurs minutes), alors qu'en conditionnement opérant cet intervalle peut être très bref et ne dépend que du comportement du sujet.

II.Persistance de l'apprentissage:
L'apprentissage subit une extinction dès la suppression du renforcement. Toutefois la persistance de l'apprentissage dépend de nombreux facteurs, et, principalement de la fréquence de renforcement pendant la phase d'acquisition.Si le sujet est soumis à des conditions de renforcement intermittent alors la persistance de l'apprentissage est plus importante, et on observe une extinction moins rapide que dans le cas du renforcement continu.


 Exemple 1 (peu éthique):
        
Des machines à sous ont été truqués dans des casinos, certaines délivraient des sous de manière régulière (renforcement continu) et dans un autre cas de manière régulière (renforcement intermittent).
C'est  les machines qui délivraient des renforcements intermittents qui marchaient le mieux, car dès que les machines qui délivraient des renforcements continu ne distribuaient plus de sous, les gens s'arrêtaient de jouer.

Exemple 2,l'éducation
:

      
Ainsi dans l'éducation il ne faut pas trop récompenser car dès qu'on ne récompense plus, il y a extinction de l'apprentissage.


III.Mémoire et oubli:
Ces effets dépendent également du fonctionnement de la mémoire lors de l'acquisition du matériel à apprendre. Ce type de matériel à apprendre( la manière d'organisation des séquences etc) à une incidence sur la rétention du matériel appris. avant dans l'enseignement, il y avait beaucoup de « par coeur ».

IV.Rôle des agents de renforcement:un rappel
- Le renforcement comme procédure: maintien, consolidation ou extinction des réponses.

- Le renforcement comme mécanisme: loi empirique de l'effet (Thorndike) : « quand un agent de renforcement a un effet favorable sur l'organisme la réponse à tendance à se maintenir et dans le cas inverse (défavorable donc),la réponse à tendance à disparaître. »

- Le renforcement comme principe théorique: la loi théorique de l'effet: si une réponse à un effet positif alors elle va se maintenir et si elle a un « effet négatif » elle va disparaître.
Les êtres vivant recherchent l'hédonie et pas la souffrance/anhédonie : principe explicatif de base du contrôle du comportement.

- Apprentissage et réapprentissage: Après oubli on a un effet d'extinction et si on recommence l'apprentissage plus tard le sujet recommence à un certain niveau mais n'a pas tout perdu (on dit bien que « faire du vélo ça ne s'oublie pas »).

- Effets quantitatifs de renforcement: la quantité de la récompense ou autre peut avoir une influence sur l'apprentissage.

- Effets qualitatifs du renforcement : les organismes ne sont pas seulement sensible à la quantité mais aussi à la qualité (les rats préfèrent des biscuits LU plutôt que de la nourriture de synthèse).

- Effets de la fréquence du renforcement
: sur l'acquisition des réponses et sur l'extinction des réponses.

- Effets de la présentation,du retrait ou de l'omission du renforcement:

exemple des renforçateurs apétitifs: au bout d'un moment il y a satiété.
exemple des renforçateurs aversifs:  échappement et évitement. Mais attention les agents aversifs doivent être utilisés "prudemment" (s'ils deviennent agents de stress ils peuvent empêcher des apprentissages de se produire; cf le "freezing").


V.Rôle des facteurs motivationnels:
- Besoins, motivation set incitateurs (drives & incentives):  Un agent de renforcement ne joue son rôle seulement que si l'organisme est motivé : ex il faut que l'animal ait faim pour que la nourriture joue son rôle de renforcement: si ce n'est pas le cas ce ne sera pas un renforçateur!

- Nécessité de la motivation?

Nature de la motivation en corrélation avec la performance de réponse. Un incitateur peut donner une réponse même en l'absence de motivation (par exemple même quand on a pas faim et qu'on passe devant une boulangerie qui « sent bon », il est probable qu'on achète une pâtisserie.)

Si elle est trop faible (on parle toujours de la motivation là), elle ne va pas permettre à l'organisme de faire son apprentissage, si elle augmente cela va favoriser l'apprentissage, mais si on augmente trop ça va donner à nouveau l'effet inverse (on va  gêner l'apprentissage de se produire ).Donc pour des niveaux de motivations trop faibles ou trop fort ça ne donne pas grand chose, il y a un niveau optimum.

- Nature de la motivation et performance: Avec un renforçateur appétitif (motivation appétitive donc) on a un effet de saturation rapide qu'on a pas avec un renforçateur aversif.

- Critique du besoin motivationnel pour l'apprentissage,l'apprentissage latent (Tolman & Honzik):
On utilise 3 groupe d'animaux, des rats en général, (un en renforcement constant, l'autre ne reçoit aucune récompense quand ils arrivent au bout du labyrinthe et le groupe test lui ne reçoit rien au début puis dès qu'on donne une récompense la performance augmente de manière fulgurante).

      
                                 AXE DES ORDONNES: ERREURS
                                 AXE DES ABSICCES : APPRENTISSAGE


L'interprétation: en réalité les animaux avaient appris quelque chose pendant les 10 premiers essais et que dès qu'on déclenche la motivation ce qu'ils ont appris est mis en évidence et ils arrivent à faire mieux que les sujets du groupe de contrôle.

Contre-argumentation:
le seul fait d'offir aux animaux une activité motrice.

VI.Autres facteurs de l'apprentissage:

- Niveau de développement phylogénétique et ontogénétique (Piaget).
- Equipement neurosensoriel et moteur (il y a contraintes de comportement chez une espèce lié à son anatomie/ équipement par ex: capacité de discrimination possible chez d'autres espèces mais pas possible chez l'humain)
- Contraintes éthologiques, écologiques et comportementales. Il y a des stimuli associables à certains agents de renforcements mais pas d'autres (par ex pour les récompenses alimentaires elles sont facilement associables à des stimuli sonores ou lumineux chez certaines espèces et idem pour les renforçateurs aversifs.

Repost 0
20 décembre 2009 7 20 /12 /décembre /2009 22:45

INTRODUCTION
Ces apprentissages sont censés être à la base de la cognition. Ils sont fondés sur un codage sensoriel et symbolique. Ils répondent souvent sur des mécanismes à base de règles. Code et représentation: codage symbolique et sensoriel.
Acquisition de l'expertise (joueur d'échec).

I.Acquisition des habilités cognitives:
Stade cognitif:  connaissances déclaratives, traitement explicite (j'apprends à passer les vitesses en théorie, mais aussi à tourner le volant)
stade associatif: coordinations des composantes de l'habilité  (pour conduire ma voiture je passe les vitesse et je tourne le volant en même temps mais je dois encore me concentrer sur mes gestes).
Stade de l'automatisme: automatisation de la tâche, traitement implicite (je sais conduire ma voiture automatiquement et je peux me concentrer sur la route)
===>Compilations de connaissances et réglages fin (tuning)
===>Accroissements de la vitesse d'exécution de la vitesse d'exécution et de la précision
===>L'apprentissage mène à l'automatisme

II.Acquisition de l'expertise: exemple de l'échequier
    

Proceduralisation de l'expertise lors de l'apprentissage: passages des connaissances déclaratives à l'usage de connaissances procédurales (je sais que mon cavalier doit faire 2 cases+1 case en -1 avant et je vais me servir de cela « proceduralement » quand je joue)
Tactical learning: Apprendre des règles spécifiques pour résoudre des problèmes spécifiques (dans tel cas il faut faire tel tactique)
Strategic learning : Développement de stratégies générales de traitement (un peu plus global que précédemment par exemple avoir une représentation mentale de l'échequier).
Pattern learning: Identification, reconnaissance et mémorisation de configurations des données (on a montré que ce qui fait la force des joueurs d'échec c'est le fait qu'ils aient mémorisé la configuration de l'échéquier).

Repost 0
20 décembre 2009 7 20 /12 /décembre /2009 22:42

I.Principe
Le conditionnement opérant (aussi appelé conditionnement instrumental, apprentissage skinnerien ou conditionnement de type II) est un concept du behaviorisme qui s'intéresse à l'apprentissage duquel résulte une action, tenant compte des conséquences de cette dernière rendant plus ou moins probable la reproduction du  comportement. Skinner distingue le conditionnement opérant du conditionnement classique (de type I ou Pavlovien) par ses conséquences sur l'environnement et par le fait que la réponse ne soit pas une réaction réflexe de l'organisme.

I.1>Procédures expérimentales

          "Boîte à problèmes" (Thorndike)                                              "Conditionnement opérant"  (Skinner)


I.2>Principe de l'apprentissage instrumental:
- L'apprentissage s'effectue suite à une réponse active de l'organisme. Par exemple pour obtenir un renforçateur positif (de la nourriture, de l'affection etc) ou éviter un renforçateur négatif (décharge électrique par exemple), l'organisme va devoir produire une réponse. Et de par ce fait, la réponse elle-même est agent de renforcement.

NB: Attention à ne pas confondre renforçement négatif qui cherche à entretenir une réponse de l'organisme et punition, (par exemple la féssée que l'on administre à l'enfant) qui cherche à faire disparaître ou diminuer un comportement.

II. Programmes de renforcement de l'apprentissage instrumental

II.1>Programme à renforcement continu et constant:(CRf)
C'est un programme de renforcement surtout utilisé en laboratoire et donc quasiment jamais observé en situation écologique.L'agent de renforcement est constant et est délivré de manière régulière (programme à intervalles fixes) et/ou aussi en même proportions c'est à dire proportions fixes (par exemple on récompense toujours le pigeon quand il aura donné 5 coups de bec)

Les effets c'est que cela permet l'acquisition et le maintien de la réponse instrumentale avec un débit de réponse certes stable mais modéré. Ce type de « programme » de renforcement est peu observé dans la nature. La plupart du temps l'agent de renforcement est intermittent (par période et dans une certaine proportion).
-Avantage: l'organisme aprend plus vite
-Inconvénient: Réponse "modérée" et extinction rapide du comportement en l'absence de renforçateur.


II.2>Programmes à renforcement intermittent.
C'est ce qui est normalement observé en situation naturelle. L'agent de renforcement n'est pas délivré de manière continu mais irrégulière (programme à intervalles variables) et en poportions variables (programme à proportions variables: par exemple on va donner la récompense au pigeon une fois pour 10 coups de becs, une autre fois pour 2, une autre fois pour 7 etc)
-Avantage: Le comportement est mieux conservé car l'organisme n'est pas toujours sur d'obtenir (ou non) rapidement (ou non) le renforçateur.
-Inconvénient: Le renforcement intermittent permet un apprentissage moins rapide que pour le renforcement continu.

II.3>Programme en chaînes:
Quand il a appris à répondre à une programme, l'animal ensuite va apprendre à répondre à un second programme puis il est récompensé au second. Ensuite on lui fait apprendre un troisième puis à sa troisième réponse il est récompensé. Puis une quatrième programme, puis récompensé à la quatrième réponse etc etc.... Du coup après on peut faire faire des trucs de fou aux animaux (du genre pigeon, rats...).

II.4>Programme concurrents:( choix et décision) :
On donne à l'animal la possibilité de répondre sur des programmes qui fonctionnent en même temps (par ex un levier à droite et un autre à gauche). Les 2 programmes se déclenchent donc en même temps. Comment l'animal répartir les réponses?

En fonction des conditionnements sur chacun d'eux!:

Sur l'un il a une récompense une fois sur 5 et l'autre 1 fois sur 10. Les résultats montrent que les rats utilisent les deux programmes et ils vont les utiliser de telle sorte que les renforcements obtenus sur les deux programmes soient équivalents.
Soit les rats augmentent leur débit de réponse sur le programme le plus exigeant et va un peu plus doucement sur l'autre soit ils vont passer beaucoup plus de temps sur un programme que sur l'autre
===>L'animal répartit son temps! Il passe 2 fois plus de temps sur le programme qui est deux fois plus exigeant. l'intérêt de cette stratégie est que l'énergie qu'il dépense est équivalente dans les deux cas. Pourquoi dans cette situation où les probabilités de renforcements (récompenses) ils utilisent tout de même les deux programmes au lieu du plus rentable? Il semble que ce soient des stratégies utilisés par les espèces animales pour leur approvisionnement.....

III.Un type d'apprentissage du conditionnement opérant: l'apprentissage instrumental discriminatif
Cela consiste à apprendre à un organisme à produire un réponse quand on présente un stimulus et ne pas répondre quand on lui présente un autre stimulus.
(ex: le pigeon doit appuyer sur le bouton rouge s'il veut manger mais pas sur le bouton bleu qui donne rien: il doit discriminer.).


  



On présente un stimulus lumineux d'une longueur d'onde donnée, le pigeon va répondre également à des valeurs de stimuli relativement proches en longueur d'ondes. Mais petit à petit lors de l'apprentissage les réponses vont se limiter progressivement à la valeur plus ou moins « exacte » du stimulus.

               Ca pourrait être sympa de leur apprendre certains trucs aux pigeons =)

Repost 0
20 décembre 2009 7 20 /12 /décembre /2009 22:40

I.Principe
Le conditionnement  Pavlovien (conditionnement classique ou répondant, de type I) est LE MODELE de beaucoup de théories de l'apprentissage, et ce sera le prototype d'étude des psychologues pendant 70 ans.
Découvert fortuitement par Pavlov, le « conditionnement » va passer dans le langage scientifique et d'ailleurs la terminologie .

 
Description en 4 étapes:
- Un Stimulus Inconditionnel (viande) entraîne une Réponse Inconditionnée (réflexe de salivation automatique) RI : la salivation  SI===>RI
- Un stimulus neutre SN (cloche), n'entraîne pas de réponse particulière. SN===> 0
- Si l'on fait précéder le stimulus inconditionnel (ou absolu) du stimulus neutre, plusieurs fois on observera que plus tard même en l'absence du stimulus inconditionnel(la viande) alors le chien salivera quand il entendra le SN (le son). SN+SI==>R
- Ainsi on peut observer après un conditionnement: SN devient SC (stimulus conditionnel) et donc SC===>RC (réponse conditionnelle).

L'animal va apprendre que la récompense régulière lui est présenté dans un intervalle de temps régulier (« horloge interne »).Il va baser son comportement sur des caractéristiques temporelles.
Cette acquisition d'un comportement conditionné est réversible car quand on présente plus le son (la clochette) pendant un moment le comportement salivaire du chien diminue jusqu'à extinction (mais pas totale).La réponse conditionnelle n'est pas oublié mais est du à un processus actif : inhibition.
Il faut un temps/délai court entre stimulus conditionnel et inconditionnel si on veut que ça marche.
Mais la simultanéité totale ne marche pas très bien. Quant à la présentation à partir d'un intervalle long ça ne marche pas.

Le stimulus absolu va devenir un agent de renforcement temporel c'est à dire que la présentation de ce type de stimulus va augmenter les caractéristiques de la réponse conditionnelle. On dit que c'est un agent de renforcement. Il y a différents agents de renforcements de satisfaction (ou "appétitif") ou aversif (comme dans ce dernier cas électrocuter le chien si on veut plus qu'il aboie).

On peut donc jouer sur des agents « positifs » ou de satisfaction ou « négatif » c'est à dire de répulsion/punitifs. Ces derniers peuvent faire disparaître des réponses.
Peut-on apprendre sans ces agents de renforcements? Il semble que non, car l'apprentissage nécessiterait des agents de renforcement (feed back + et feed back -).


II.Effet du renforcement :conséquences sur le comportement    
Pour que ces agents jouent leur rôle l'organisme doit être "motivé". C'est à dire que pour notre chien, il faut bien entendu qu'il ait faim (qu'il soit « motivé ») pour obtenir un bon renforcement.
- Avec les renforçateurs "appétitifs" on rencontre une limite (à un moment le chien n'a plus faim)
- Avec les renforçateurs "aversifs" ils conservent leur pouvoir indéfiniment.

S appétitif S aversif
Approche + renforcement: 
évitement passif + punition  
supression puntion - :
échappement renforcement- :
Omission, délai du Renforcateur ou omission : Evitement actif renforcement - :


NB (tableau): Toute procédure qui amène à présenter un S est dite positive.
                      Toute procédure qui amène a retirer un S est dite négative.

Le renforcement est une procédure qui entraîne une augmentation de la probabilité de réponse.

III.Le conditionnement (répondant) rétrograde:

On présente d'abord le stimulus absolu (viande) et on le fait suivre d'un stimulus conditionnel (en général le son); on fait donc l'inverse que ce qu'on fait en général (SN+SI : son puis nourriture).
L'idée c'est que les associations entre SC et R (si c'est uniquement une question temporelle)  devraient marcher dans le sens antérograde (SC>R) ou rétrograde (R<SC). On a trouvé des résultats assez variable et même aujourd'hui on n'est pas au clair avec l'effet de ce conditionnement.
Une hypothèse pertinente: « Dans le conditionnement normal ou antérograde, on a un conditionnement excitateur et dans le conditionnement rétrograde, il serait inhibiteur.
Pourquoi?
Car dans le conditionnement classique le son est un signal qui annonce la récompense (viande) et dans le Conditionnement rétrograde, le son au lieu d'annoncer la récompense il annonce une période de temps pendant lequel l'animal n'aura pas de récompense.

IV.Le conditionnement (répondant) discriminatif
Le conditionnement discriminatif consiste à présenter entre les couplages SC+SN un autre stimulus associé lui à rien du tout (nouveau stimulus neutre donc). Que va-t-il se produire? Le réflexe salivaire conditionné va s'établir en réponse au SC  mais pas au SN (celui qui sert à rien).
Comme tous les types de conditionnement sont étroitement liés dans la nature, on peut obtenir des enchaînements de conditionnements successifs. Un conditionnement de second ordre est réalisé en deux temps successifs; exemple ou SN est un son:
- dans une première phase on associe un son à une récompense (alimentaire)
- une fois ce conditionnement établit on va utiliser le son à la place de la nourriture dans un deuxième temps:
 ===> le stimulus conditionnel de la phase 1 devient l'agent renforçateur de la phase 2!!!

      
 
Tout ça expliquerait les apprentissages humains et en particulier les apprentissages symboliques car ils ne mettent pas en jeux la plupart des renforcements.
On a discuté de l'hyphothèse de ces enchaînements de conditionnement de Pavlov , c'est très vraisemblablement inapplicable.
Probabilité que le SN soit présenté plus ou moins régulièrement à la suite du SC c'est la contingence SC-SN.
Dans ce cas là le renforçateur n'est pas toujours la cause de la réponse. Les corrélation SC/SI ne sont pas des corrélations absolues:ça ne marche pas à 1OO% des cas (exemple de la sonnette).
Facteurs temporels+la suite des évènements + les effets de renforcements et le rapport de fréquence contingent des stimuli sont tous les facteurs principaux à l'oeuvre dans les procédures d'apprentissage.

Repost 0
20 décembre 2009 7 20 /12 /décembre /2009 22:36

L'apprentissage est un ensemble de changements (plus ou moins observabes) cmportemental et/ou cognitif d'un organisme résultant d'une ou plusieurs expériences interactionnelles de ce dernier avec le milieu environnant.
C'est un phénomène associatif (car il associe des réponses comportementales à des stimuli environnementaux présentés antérieurement).

Piaget : « L'intelligence se construit par interaction avec le milieu ».

ATTENTION:  Tous les comportements ne sont pas dû à l'apprentissage. Certains (comme la faculté langagière chez l'humain par exemple) sont déterminés génétiquement.


I.L'habituation:
C'est la diminution générale d'une réponse comportementale d'un organisme, due à la répétition d'un stimulus, ce dernier n'ayant pas d'effet (ni d'intérêt particulier) sur lui. Cela permet de ne pas utiliser ses ressources attentionnelles pour rien. C'est un phénomène indispensable pour s'adapter et apprendre!
Toute habituation implique bien évidemment une possibilité de déshabituation.
L'habituation (et donc par conséquent aussi déshabituation) concerne plus généralement les comportements sensori-moteurs.

C'est également un phénomène non-associatif:
Dans toutes les procédures d'apprentissage, elles mettent en jeu soit deux ou plusieurs stimuli et réponses qui sont couplés et les apprentissages reposent sur la formation d'association (empirisme associationniste:: l'activité mentale est associative).
Cette idée n'est pas envisageable  pour l'habituation car lors de la présentation du stimulus il n'y a rien d'associé avec. Il n'a aucun effet positif ou négatif sur l'organisme.

II.L'empreinte:
"Marque indélébile reçue au cours d'une expérience précoce du développement et fixant les caractéristiques supra-individuelles (de la classe d'êtres ou d'objets), à laquelle le sujet réservera ultérieurement ses conduites filiales, sociales et instinctuelles (sexuelle par exemple)."
C'est un phénomène qui se produit chez l'organisme jeune au cours de son développement précoce et ce phénomène a lieu pendant la période sensible (période courte), qui peut être de durée variable selon les espèces mais reste très courte dans la durée de vie de chaque espèce. L'empreinte ne sera efficace que si elle a lieu pendant la période sensible. L'empreinte est une réponse comportementale à un stimulus donné (ex : le petit caneton va pendant la période sensible, se mettre à suivre tout objet ou animal qui se déplace devant lui, il suit sa mère en général mais peut suivre aussi un éleveur, ou un canard mécanique.
Cette réaction, quand elle déclenchée à des conséquences sur toute la vie de l'organisme (le caneton peut suivre l'objet toute sa vie, le canard adulte va essayer de s'accoupler avec ce qu'il suit... comme ce pauvre Lorenz par exemple).

                         


- C'est un stimulus qui déclenche l'empreinte :chez le caneton c'est le déplacement( à une vitesse raisonnable). Le comportement déclenché sera irréversible. (de nature non associative également).
Apparemment l'empreinte est assez rare et chez l'homme on en sait pas beaucoup de chose (pas de preuves formelles (à part quelques enfants-loup).
Il y a des périodes sensibles chez L'humain (on l'infère d'après les expériences) mais ça n'implique pas forcément des empreintes!
En revanche on sait aujourd'hui que beaucoup de compétences humaines cognitives prennent leur sources dans les derniers mois de vie foetale.

III.Apprentissage sensori-moteur:
Ce sont des apprentissages pour laquelle la contribution des processus cognitifs supérieurs sont peu impliqués. effet de rétroaction: les informations en retour sont fournis par le système musculaire, sensoriel etc. Ca donne des boucles de rétroaction.
III.1>Exemple de la théorie du schéma de Schmidt:

   
III.2>>Effet du délai entre réponse et connaissances du résultat (Greenspoon, 1956):
Dans cette expérience on fait faire 50 essais d'ajustement au sujet: quand il n'y a pas de contrôle rétroactif les résultats sont mauvais mais quand il y rétroaction on a ajustement et encore mieux quand il y a délai entre la réponse produite et l'information donnée en retour : évolution des performances les plus rapides.

III.3>Throwbride & Casson 1932: mesure de l'erreur moyenne absolue) nature de l'information fournie:


Quand l'information fournie est quantitative il y a peu d'erreur, quand elle est qualitative les erreurs diminuent beaucoup mais se situe à un niveau d'erreur plus important que le cas précédent).

III.4>Johnson & al 1982: Erreur de positionnement pour les essais consécutifs à la connaissance du résultat:


(schéma de gauche: condition « acquisition ») et lors d'un test de réapprentissage (schéma à droite: condition « retention »)

III.5>Transfert inter-hémisphérique:


Quand on entraîne un individu de la main gauche et qu'ensuite on teste sa main droite elle a atteint un bon niveau de performances)=> Coordination sensori-motrice: ce qui est appris dans un hémisphère peut se « copier » dans l'autre.
exemples: Labyrinthe digital, poursuite de cibles....

Repost 0

Présentation

  • : site-psychologie (ressources)
  • site-psychologie (ressources)
  • : psychologie générale, psychologie cognitive et expérimentale, psychologie sociale, psychologie clinique/psychopathologie, psychologie du développement et différentielle, Psychophysiologie/Neuropsychologie.
  • Contact

Recherche