Tests nationaux : de nouvelles analyses sont importantes

Ce que montrent les nouvelles analyses du Frisch Center, contrairement aux chiffres officiels, c'est que les compétences des étudiants ont changé : ils sont devenus bien meilleurs en anglais et légèrement plus faibles en calcul et en lecture, écrivent les auteurs du billet. — Ce que montrent les nouvelles analyses du Frisch Center, contrairement aux chiffres officiels, c’est que les compétences des étudiants ont changé : ils sont devenus bien meilleurs en anglais et légèrement plus faibles en calcul et en lecture, écrivent les auteurs du billet. Photo d’illustration : Anders Martinsen

La Direction de l’Éducation et le Centre Frisch travaillent tous deux pour trouver les meilleures méthodes d’analyse pour les tests nationaux. Les différences ne sont en aucun cas dues à une simple « erreur de calcul ».

Publié : 11/09/2023 20:00

Ceci est un article de débat. Toutes les opinions exprimées dans le texte engagent la responsabilité de l’auteur. Si vous souhaitez participer au débat, vous pouvez lire comment procéder ici.

La semaine dernière, Aftenposten a expliqué comment les chercheurs qui ont analysé l’évolution du temps dans les tests nationaux sont arrivés à une conclusion différente de celle des chiffres officiels de la Direction de l’Éducation (Udir).

Ensemble, nous vous expliquerons en quoi consistent les différences.

La différence concerne principalement les comparaisons entre les étudiants qui ont passé le test au cours d’années différentes.

Même avec les chiffres officiels d’aujourd’hui, les élèves, les écoles et les municipalités ont une bonne idée de leur situation par rapport aux autres cette année.

Il est trompeur d’y parler d’une simple « erreur de calcul ».

Ce que montrent les nouvelles analyses du Frisch Center, contrairement aux chiffres officiels, c’est que les compétences des élèves ont changé : ils sont devenus bien meilleurs en anglais et légèrement plus faibles en calcul et en lecture.

Un tel couplage d’échantillons au fil des années utilise des modèles statistiques et de nombreuses données. Lorsque les résultats sont différents, il est donc trompeur de parler d’une simple « erreur de calcul ».

Probablement – nous n’en sommes pas encore sûrs – les différences sont dues à des choix différents de « paramètres » dans les outils d’analyse statistique.

Nous travaillons pour clarifier la raison des différents résultats.

Aucune erreur ou omission à signaler

Au cours de ces travaux, le Centre Frisch a partagé des analyses et des conclusions provisoires. Udir a partagé les données, les résultats et les estimations des années précédentes.

Ce dialogue a été constructif, mais naturellement aussi exigeant.

Udir n’a pas d’erreurs ni de lacunes à signaler dans les analyses désormais proposées par les chercheurs, mais doit également s’y familiariser davantage en collaboration avec ses propres environnements d’expertise.

Du côté de l’Udir, cela a été une aide utile et précieuse dans un processus que nous avons entamé au printemps 2022 pour réviser le travail d’analyse effectué sur les tests nationaux.

Cela signifie également que les problèmes désormais découverts n’affectent pas les étudiants de cette année, puisque les méthodes d’analyse ont de toute façon été modifiées.

Udir tient à féliciter les chercheurs du Frisch Center et tous ceux qui s’intéressent à l’analyse de ces échantillons. Dans ce contexte, il convient de souligner que le débat d’Udir intitulé « Spéculative sur les tests nationaux » (Aftenposten 7 septembre) n’était pas destiné à critiquer les chercheurs. Il a été soumis sous le titre « Spéculative d’Aftenposten sur les tests nationaux », faisant référence à la présentation du sujet par Aftenposten.

Les statistiques autrement

Au cours des dix dernières années, on a assisté à une évolution progressive vers plus de transparence dans la recherche et la production statistique.

Il y a probablement plusieurs raisons à cela : de nouveaux logiciels avec du code open source, une expertise plus élevée en matière de codage et des exigences accrues en matière de transparence et de reproductibilité, tant de la part des revues de recherche que du public plus critique.

En pratique, cela signifie que de nouvelles analyses, comme celle que les chercheurs ont réalisée ici sur des échantillons nationaux, peuvent être partagées, documentées et vérifiées. Ce n’est souvent pas le cas des analyses du passé, comme les calculs de points d’échelle lors des tests nationaux de 2014 à 2021.

À l’avenir, Udir créera des statistiques pour les points d’échelle d’une manière différente, en utilisant un programme d’analyse et un code librement disponibles qui peuvent être librement partagés. Le cadre méthodologique ici sera le même que celui utilisé par les chercheurs du Frisch Center et du CEMO (Center for Educational Measurements).