Peu importe qui l’a fait pour eux – parents, amis, indépendants ou même agences professionnelles telles que les usines à dissertations embauchant des prête-plume – en 2020, les enseignants du monde entier ont assisté à une énorme augmentation de travaux soumis qui n’étaient pas écrits par les étudiants qui prétendaient les avoir rédigés. Bien souvent, ce sont des prête-plume professionnels qui ont rédigé le contenu à leur place.
Peut-on détecter si un texte n’a pas été écrit par une personne spécifique mais par un prête-plume ?
C’est à partir de cette question qu’Ouriginal a commencé à développer une fonctionnalité permettant à tous ceux qui en ont besoin d’évaluer l’authenticité d’un document et d’en vérifier l’auteur. Au cours de la phase de recherche du processus de développement, notre équipe de R&D a découvert de manière expérimentale que l’hypothèse de la similitude des groupes de pairs pouvait être appliquée pour résoudre le problème de la vérification de l’auteur. Par rapport à la solution traditionnelle de détection du plagiat visant à préserver l’intégrité universitaire, la fonction Ouriginal ‘Metrics’ offre une vue d’ensemble d’un groupe de documents. Lorsque nous entrons dans le système un ensemble de documents écrits par un groupe d’étudiants de la même classe qui rédigent le même devoir, nos données préliminaires suggèrent une distribution gaussienne pour les métriques que nous calculons sur les documents. Nous constatons que la plupart des élèves se situent au milieu des valeurs, avec quelques élèves ayant obtenu des scores élevés et d’autres des scores faibles, dont les performances se situent généralement à un écart type de la moyenne. Les valeurs aberrantes dans la zone des scores faibles sont considérées comme des étudiants peu performants, mais nous ne les signalons pas. Les valeurs aberrantes élevées sont toutefois signalées pour une inspection plus approfondie. Une performance aberrante élevée dans une série de mesures peut indiquer soit un étudiant particulièrement brillant, soit un prête-plume potentiel. C’est à l’enseignant qu’il incombe de déterminer dans laquelle des deux catégories l’étudiant se situe. Notre signalement attire simplement l’attention sur certaines soumissions d’étudiants qui semblent inhabituelles. Nous sommes pleinement conscients que la façon dont nous considérons les scores élevés ou faibles pour ces paramètres peut être le résultat d’hypothèses pédagogiques culturellement spécifiques, qui seront abordées à une date ultérieure. Pour l’instant, afin d’atténuer ces hypothèses, nous basons notre note sur huit paramètres au total et pas seulement sur un seul.
Analyse du style d’écriture : comparaison des travaux d’un seul auteur
À long terme, il est prévu que Ouriginal’s ‘Metrics’ effectue la validation en comparant un travail avec les autres travaux que l’étudiant a précédemment téléchargés. Les participants aux concours annuels PAN ont déjà beaucoup étudié ce problème, et la tâche de vérification de l’identité des auteurs commence à dater. Cependant, notre méthode est plus solide, n’est pas aussi sujette à des fluctuations avec les différents antécédents de chaque étudiant ; elle n’est pas non plus aussi sensible aux interférences de genre ou d’actualité. Néanmoins, pour qu’elle fonctionne, il faut d’abord établir les données de base pour chaque étudiant. C’est pourquoi Ouriginal procède actuellement à des comparaisons entre classes pour collecter des données et signaler avec prudence les documents.
« Le concept de communauté de parole »
Pour situer notre travail par rapport à ce qui a été fait auparavant, nous nous nous sommes tournés vers la dialectologie– qui adopte une approche quantitative pour identifier les locuteurs « prototypiques » tout en cartographiant géographiquement la prévalence des variantes linguistiques et les caractéristiques de la langue qui forment les groupes de dialectes, ainsi que vers l’anthropologie linguistique– un domaine qui s’intéresse à la variation de la langue qui existe au sein des communautés et aux significations sociales qui sont construites à travers différentes formes de communication. Dans ces deux domaines passionnants, il existe le concept de recherche de « communauté de parole », où des groupes de locuteurs qui interagissent régulièrement partagent des modèles d’utilisation de la langue qui les identifient comme membres de leurs communautés respectives.
Détection de travaux « fantômes » au sein de groupes d’étudiants
Les données préliminaires d’Ouriginal ont permis d’introduire les travaux d’un prête-plume professionnel provenant d’un forum en ligne de tricherie contractuelle dans un ensemble de documents rédigés par des groupes d’étudiants d’une même classe, écrivant tous sur le même sujet. À l’aide de cet ensemble de données, nous avons pu identifier le prête-plume, car il a obtenu des résultats très différents et très aberrants pour presque toutes les mesures actuellement mises en œuvre dans Metrics d’Ouriginal. La recherche pédagogique sur l’éducation linguistiquement diversifiée, également appelée classe multiculturelle, peut apporter des nuances importantes à notre compréhension de ce qui constitue les communautés de parole et les groupes de pairs, car nous devons reconnaître la réalité de classes de plus en plus mondialisées et hétérogènes. Quel est votre avis sur l’utilisation des technologies avancées et de la stylométrie pour évaluer l’authenticité d’un texte ? Quelles méthodes utilisez-vous pour vérifier l’auteur d’un document ? Nous serons heureux d’avoir votre retour !