Difficultés liées à l’établissement d'une note chiffrée pour une production écrite
Prenons l’exemple d’une épreuve de mathématiques qui comporte quarante questions simples que nous devons évaluer.
La réponse attendue pour chacune de ces questions consiste en une information unique et précise. Un point est attribué ou non selon l’exactitude de la réponse en tant que critère unique d’attribution du point. Nous ne tenons pas compte de la méthode utilisée ni d’aucun autre facteur (lisibilité, erreur de calcul, imprécisions, etc.).
Dans une telle situation, si cent enseignants de mathématiques corrigent cette épreuve, nous pouvons nous attendre sauf erreur d’inattention, de manipulation ou délibérée, à ce qu’ils puissent s’accorder sur la même note globale pour une copie donnée.
Cela peut rester vrai même s’ils ne sont jamais rencontrés auparavant ou n’ont jamais discuté des questions et du contenu attendu des réponses. Il suffit qu’ils disposent d’une référence spécifique commune pour la correction et d’une grille de critères stricts.
Malheureusement, cette situation est hypothétique. La situation est extrêmement rare ou tout du moins artificielle et ne correspond pas à une évaluation mobilisant des tâches authentiques correspondant à des objectifs d’apprentissage définis. Une telle évaluation serait conçue pour faciliter l’établissement d’une note sommative, mais la qualité de l’information serait réduite, car elle ne serait qu’une somme d’items singuliers.
Dans la plupart des cas, dans des situations réalistes d’évaluation, quand il s’agit d’évaluer de manière fiable une production écrite et de déterminer une notation chiffrée, l’uniformité parmi les correcteurs n’est jamais absolue.
Imaginons que l’on demande à un groupe d’élèves du même âge d’écrire une courte description de la ville où ils vivent. Ensuite, ces descriptions sont confiées à cent enseignants de français, accompagnées d’une grille de correction présentant des critères précis. Il leur est demandé d’établir et attribuer à chaque élève une note sur quarante.
Si nous comparons cette situation dans un cours de français à la première situation en mathématiques, il sera nettement moins probable que tous les enseignants s’accordent pareillement sur chacune des notes attribuées.
Cette situation se maintiendrait même si tous ces enseignants avaient suivi préalablement une même formation sur le mode de cotation. Elle ne disparaitrait pas, même s’ils s’étaient réunis à l’avance pour discuter et s’accorder sur leur compréhension fine des critères de correction. En réalité, peu importe les précautions prises, il est fort peu probable qu’ils puissent tous s’accorder indépendamment sur la notation qu’une description donnée mérite. Trop de facteurs personnels et contextuels influenceront leurs interprétations.
Dans une certaine mesure, c’est inévitable. Il n’y a souvent pas une seule bonne façon de répondre à une telle question, d’autant plus qu’une dimension créative et subjective existe. Différents enseignants auront de par leur sensibilité, des conceptions différentes, d’une validité globalement équivalente sur la façon de pondérer les différents aspects qui composent un texte.
Il est relativement acceptable que différents enseignants ne parviennent jamais à aboutir naturellement tous au même résultat, dans la mesure où les résultats obtenus se répartissent à l’intérieur d’une marge étroite. Il n’est pas possible d’obtenir une note absolue dans le cadre d’une telle démarche.
Cependant, dans un tel scénario, nous en arriverions à une situation où un élève obtiendrait par exemple 20/40 plus ou moins un certain nombre de points. Si pour de nombreux élèves avoir quelques points en moins ou quelques points en plus ne change pas la donne, pour ceux proches du seuil de réussite, l’impact est énorme. Pour certaines élèves, il est probable qu’ils réussiront (de peu) avec une part des évaluateurs et qu’ils rateront de peu avec l’autre part des évaluateurs.
Au plus la marge de distribution des notes entre évaluateurs s’accentue, au plus grand est le nombre d’élèves concernés. Plus cette marge devient importante, au moins le résultat obtenu conserve de sens et de pertinence. Un élève devient potentiellement susceptible d’échouer nettement avec un enseignant alors qu’il réussirait tout aussi nettement s’il était évalué par un autre. Quel sens trouver dans ce genre de situation ?
Si la difficulté se pose dans l’évaluation d’une tâche sommative, elle existe également lorsqu’elle est formative. L’existence d’une marge rend plus difficile le fait de mettre en évidence si un élève fait des progrès ou de déterminer la forme d’une rétroaction adéquate.
Au-delà de tout cela, nous pouvons finalement estimer qu’une note chiffrée n’a souvent que peu de sens en elle-même pour sanctionner un apprentissage. C’est d’autant plus le cas lorsqu’elle est voisine de la valeur limite qui distingue une réussite d’un échec. Nous avons besoin d’alternatives et les modèles du jugement comparatif et de la note constructive en sont.