Corpus ÉMA, écrits scolaires

Les textes réunis sous le titre Corpus ÉMA, écrits scolaires constituent un ensemble régulièrement augmenté pour constituer un grand corpus longitudinal d’écrits scolaires destinés à la connaissance de la langue écrite des élèves de l’enseignement primaire et secondaire. Il se compose actuellement de 22 dossiers, du CP à la classe de première, recueillis selon une démarche écologique par des chercheurs et des enseignants en formation.

Chaque sous-corpus comporte, pour la totalité des élèves d’une classe donnée, les textes produits dans une séquence. On trouve donc dans des dossiers distincts :

  • les scans des écrits d’élèves anonymés (après autorisation parentale) : format JPG ;
  • leur transcription : format texte brut ;
  • les textes annotés : format texte brut ;
  • des métadonnées au format PDF, permettant de restituer le contexte de production des écrits scolaires : informations sur l’établissement, l’enseignant, la classe, la séquence d’enseignement (textes lus en amont, consigne d’écriture, aides fournies au moment de l’écriture, modalités d’évaluation).

Le protocole de transcription et d’annotation est celui d’ÉCRISCOL, du nom de l’équipe universitaire dirigée par Claire Doquet, qui développe à Paris 3-Sorbonne Nouvelle le projet du même nom, et avec laquelle l’équipe d’ÉMA est liée par une convention. La version scannée conserve l’écriture manuscrite des élèves. La version transcrite reste au plus près de leurs choix graphiques, tandis que la version annotée permet de mettre en relation les formes non normées avec les formes normées correspondantes. Les textes sont ainsi exploitables à l’aide de différents logiciels de textométrie, notamment Le TRAMEUR développé par Serge Fleury.

Les chercheurs impliqués dans ce projet ont contribué au numéro 16 de la revue Corpus qui a fait un point très complet des équipes nationales travaillant sur les corpus scolaires. Ils contribuent à la revue en ligne Scolagram dont l’objectif est de valoriser des recherches qui, s’appuyant sur des connaissances actualisées en sciences du langage, articulent un enseignement de la langue à une évaluation des besoins langagiers des élèves et à une analyse des pratiques des enseignants dans les cadres institutionnels existants.

Pour consulter le corpus : https://www.ortolang.fr/market/corpora/ema-ecrits-scolaires