June 22, 2021

Datorlingvistik hjälper till att upptäcka spökskrivare och ”contract cheating”: Fördelar och begränsningar

Vi ledde ett experiment med en gymnasieklass som vi känner sedan tidigare, dessa elever fick i uppgift att skriva en uppsats till ett tema som valts ut på förhand. Detta var steg ett i experimentet, steg två blev sedan att engagera en professionell spökskrivare, som vi kallar för R, som fick precis samma uppgift som gymnasieklassen. Innan uppsatsen skrevs ihop fick R även ta del av samma akademiska artiklar som eleverna, samt att han fick samma specifikationer – gällande sättet att skriva på och begränsningar – att förhålla sig till. Vi laddade därefter upp elevernas dokument, samt dokumentet som skrivits av R, till Ouriginal för att låta dokumenten analyseras med vår ”Metrics” funktion.

Att känna igen spökskrivare med hjälp av datorlingvistik

I enlighet med tidigare diskussioner och resultat i stylometri så kan genre och ämne försvåra möjligheten att se skillnaden mellan olika författare. Identiskt val av ord och lika meningsbyggnad, vilket är en vanlig följd när du skriver på samma ämne, och med samma restriktioner för specifika genrer försvårar att identifera en stark författarsignatur som kan användas i författaridentifieringen. Vi observerade under vårt experiment att R alltid visade sig vara ett högt avvikande värde för praktisk taget varje mätning som Ouriginals ”Metrics” funktion tog i beaktning.

Vi hade kontroll över experimentet som genomfördes, vi hade trots allt valt ut ämnet och genren, och vi kunde därför anta att ökningarna, gällande varje mätning, hade att göra med utbildningen och den sociala bagrunden av den professionella spökskrivaren. I den stund som det spökskrivna dokumentet togs åt sidan, och vår Ouriginal Metrics funktion återigen fick granska elevernas dokument, så flaggades inget av de inlämnade dokumenten för vidare granskning.

”Lexical Ouriginality” som en möjlig åtgärd att stödja ”Peer Group Similarity” hypotesen

I ett försök att förtydliga och illustrera resultatet så tar vi nu en närmare titt på en av mätvärderna som vi använde oss av för att få fram ovanstående antagande nämligen Lexical Ouriginality, som jämför de totala antalet unika ord i ett dokument mot andra dokument som laddas upp till Ouriginal, och som väljs ut att bli del av jämförelsegruppen. Om vi nu tar ”Peer Group Similarity” hypotesen – som beskriver karakteristiska likheter inom en grupp, i detta fall en grupp individer, som exempelvis deras socioekonomiska status, grad av utbildning eller etniska bakgrund – i beaktande, vilket har diskuterats och tagits upp i del ett av denna blogg serie om ”contract cheating” och att identifera och upptäcka spökskrivning, så förväntade vi oss att se en klass, som givits exakt samma utbildningsmaterial, och som fått skriva ett svar på samma uppgift med samma direktiv, att vara lågt avvikande i förhållande till ”Lexical Ouriginality” mätvärdet. Utan det spökskrivna dokumenten visade sig denna förväntning vara berättigad.

Vi noterade dock, i den stund som vi återigen inkluderade Rs spökskrivna dokument i experimentet, att sättet som R uttryckte sig på stod i kontrast gentemot de andra elevernas sätt att formulera sig. R fick precis samma resurser att utgå ifrån, men sättet som individen valde att uttrycka sig på gav liv till följande antaganden; antingen är R någon som är begåvad, eller så är individen i fråga ingen jämlike till de andra eleverna rent akademiskt. Självklart så är mätningen i sig själv inte ett tillräckligt svar för att få fram en helhetsbild av den som skrivit dokumentet. Då Rs dokument skilde sig så pass kraftigt från resten av eleverna gav detta upphov till en flaggning inom ”Metrics” och blev något som vi behövde inspektera närmare.

Hypotesens begränsningar: Tvåspråkighet, socioekonomiska faktorer och mindre homogena klassrum

Vi har utfört liknande experiment, vilket har gett oss jämförbara resultat, och dessa resultat stöttar ”Peer Group Similarity” hypotesen som vi valt att kalla den. Vi är däremot fullt medvetna om att vidare experiment som redovisar för ”linguistically diverse education” (multikulturella klassrum) kan ha möjligheten att både finslipa eller helt motbevisa vår hypotes. Exempelvis så kan det finnas kulturella och socioekonomiska skillnader som påverkar elevernas prestationsförmåga över diverse olika mätningar. Diskussioner kring nya pedagogiska tillvägagångssätt har väckt möjligheter och är till hjälp för att främja insikten att klassrummen blivit alltmindre homogena med tiden.

Redan nu så utmanar multukulturella klassrum pedagoger att hitta lösningar för att lära ut och förmedla de negativa effekterna av plagering till sina studenter. En av dessa utmaningar är att pedagogen har ett ansvar att vara medveten om alla de olika bakgrunder i ett klassrum och att ta med dessa i beräkningen när utbildning är vad som ska förmedlas. Det multikulturella perspektivet är utan tvekan perspektivet som kommer att sätta sin prägel på den framtida utbildningen – och detta är någonting Ouriginal med helhjärtad övertygelse stöttar.

Vi är otroligt nyfikna på att höra er åsikter kring spökskrivning och datorlingvistik! Diskutera gärna ämnena med oss på Twitter.