March 9, 2021

Grunden i att förhindra förekomsten av spökskrivare och analyser av skribentens unika stil

Oavsett vem som skrev dokumentet åt dem i slutändan – släktingar, vänner, frilansare eller till och med professionella företag, så kallade ”essay mills”, med spökskrivare – under 2020 så såg lärare världen öven en ökning av inlämnade dokument som inte skrivits av studenterna som påstod sig ha skrivit dokumenten. En stor ökning av spökskrivet material, eller så kallad ”contract cheating” blev något som lärare fick göra sitt bästa för att ta itu med.

Går det att upptäcka om en text inte har skrivits av en viss person?

Frågan blev Ouriginals grund för att börja utveckla en funktion som kan besvara ovanstående fråga och verifiera ett dokuments rättmätige skribent. Svaret på frågan är lika komplex som frågan i sig självt, det är trots allt ett djärvt antangade att med säkerhet kunna säga ”du kan absolut upptäcka om en text är spökskriven”, då så många olika faktorer måste tas med i beräkningen när du har att göra med människor. Möjligheten, att upptäcka att en text inte har skrivits av en viss person, finns – men att nå fram till ett självklart svar är inte så lätt som man skulle önska.

Språket, om tal eller skrift, genomsyrar allting i vårt samhälle och är någonting unikt för just människan. Lingvistik (språkvetenskap) sysselsätter sig med ramverk för enskilda språk eller teorier för allmängiltiga aspekter av språk, dessa teorier tillämpas på praktiska problem i exempelvis språkundervisning eller talterapi.
Men vad har ovanstående med Ouriginals fråga att göra? Med att upptäcka spökskrivning?
Som tidigare nämt så är språket någonting som du konfronteras med dagligen, oavsett om tal eller skrift, och Ouriginals automatiserade textmatchningssystem använder sig också av ett språk, nämligen datorlingvistik (”computerlinguistic”), som undersöker hur språket kan bearbetas med algoritmers och datorns hjälp. Algoritmerna försöker hitta mönstret i texten, ”den röda tråden” som kan agera som ett skriftligt ”fingeravtryck”.

Under den tid som vi undersökte och forskade för utvecklingsprocessen av vår nya funktion så upptäckte vårt forsknings- och utvecklingsteam en möjlig hypotes som kan lösa författarverifikationsproblemet och namngav denna hypotes ”Peer Group Similarity” hypotesen.
”Peer groups”, när det handlar om individer, innebär likheter i exempelvis deras intressen, socioekonomiska status, graden av utbildning eller deras etniska bakgrund, och dessa likheter gör att det väljer att bilda vänskapsgrupper. I Ouriginals fall så utgick vi ifrån att det fanns likheter i gruppernas sätt att skriva och uttrycka sig.

Ouriginals “Metrics” funktion

Jämfört med traditionella lösningar för att upptäcka plagiering, tänkta att först och främst skydda den akademiska integriteten, så betraktar Ouriginals ”Metrics” funktion en grupp dokument ur ett fågelperspektiv. När vi matade in en mängd dokument, skrivna av en grupp studenter i samma klass och som skrivit på exakt samma uppgift, så föreslog vår preliminära data en normalfördelning (”Gaussian distrubution”) utifrån de mätvärden vi beräknade i dokumenten. De allra flesta hamnade i mitten av mätningen, med några utomordentligt låga och höga värden.

Extremvärden med lågt resultat anses vara lågpresterande elever, som vi inte väljer att flagga för vidare granskning. Höga extremvärden, däremot, flaggas för vidare inspektion. Höga extremvärlden över flera mätvärlden kan indikera antingen en otroligt begåvad elev eller en potentiell spökskrivare. Att avgöra i vilken kategori denna elev slutgiltigen kommer hamna är upp till instruktören.

Ouriginals textmatchningsprogramvara har inte för avsikt att klassificera, vår flaggning är inte heller tänkt att vara bestraffande – vi vill bara hänvisa till inlämningar som kan vara suspekta just för att de är så avvikande.
Vi är också fullt medvetna att hur vi ser på höga eller låga avvikelser för dessa mätvärden kan ha färgats av våra kulturbetingade, specifikt pedagogiska antaganden. Vi vill, och kommer att befatta oss med dessa antaganden vid ett senare tillfälle. För närvarande, och för att dämpa dessa antaganden något, har vi valt att basera våra resultat utifrån totalt åtta olika mätvärden.

Jämföra uppgifter utifrån en enda unik författare

På lång sikt är planen för Ouriginals Metrics funktion att kunna genomföra en författarvalidering utifrån tidigare uppgifter som denna elev eller student lämnat in. Det årliga deltagarna i PAN-tävlingarna har forskat intensivt kring detta problem, så den så kallade ”författarverifikationen” har diskuterats grundligt på en vetenskaplig bas. För att arbeten ska kunna analyseras på detta vis, och vara något som kan jämföras med, måste det först och främst finnas en grundläggande databas för varje enskild elev eller student. Detta är anledningen för Ouriginals nuvarande jämförelser mellan olika klssrum och årskurser; så att vi får in den data som behövs för att vi ska kunna implementera vår långsiktiga plan.

Konceptet av “Speech Communities”

För att vi ska kunna ordna in vårt tillvägagångssätt inom ramen för olika vetenskapliga teorier, vänder vi oss först till dialektologin. Dialektologi följer en kvantitativ metod för att identifiera språkliga skillnader som ger upphov till dialekter. De olika språkvariationerna och språkliga kännetecken, som dialektgrupper bildar, ordnas sedan in geografiskt. Den andra teorin, lingvistisk antropologi, behandlar hur språk formar våra sociala liv och utforskar språkvariationer inom grupper och den sociala betydelsen, som skapas utifrån olika kommunikationsformer. Inom dessa två otroligt intressanta områden finns konceptet ”Speech Communities”, som är något svårdefinierat, men som vanligtvis beskrivs som en grupp av individer som delar värderingar och förväntningar på hur språket ska användas och att dessa delade värderingar definierar dem som medlemmar i deras respektive gemenskap. Vi valde att överföra detta koncept på individernas skrivstil och kombinerade detta sedan med vår ”Peer Group Similiarity” hypotes.

Kan man upptäcka en spökskrivare i en grupp med flera skribenter?

Vi genomförde ett test där vi bifogade ett spökskrivet dokument bland en mängd dokument som skrevs av en gymnasieklass som vi känner till sedan tidigare. Vårt system kunde identifiera spökskrivaren, då han i nästan alla Ouriginals nuvarande implimenterade Metrics mätvärden påvisade högre värden än någon av de andra eleverna. Pedagogisk forskning om språkligt varierande utbildning, som alternativt betecknas som det multikulturella klassrummet, kan ge oss viktiga indikationer på vad som utgör talgemenskaper och effekten av kamratgrupper – och detta blir allt viktigare i takt med att klassrummen blivit alltmer globaliserade och heterogena än tidigare.

Vad är din åsikt om att använda avancerade tekniker och stilometri för att bedöma en texts originalitet? Vilka metoder använder du för att verifiera författarskapet till ett dokument? Vi ser fram emot att höra från dig!

Del två av vår serie om spökskrivning, och möjligheten att upptäcka dessa dokument, hittar du här: Datorlingvistik hjälper till att upptäcka spökskrivare och ”contract cheating”: Fördelar och begränsningar