August 3, 2021

„False Positives“: Warum digitale Tools unbedingt dazulernen müssen

Plagiate sind eine immer allgegenwärtige Gefahr für kritisches Denken und die akademische Integrität. Wenn Textstellen oder Referenzen  nicht korrekt zitiert werden, können sie dem Autor nicht mehr eindeutig zugeordnet werden. Um jedoch genaue und verlässliche Ergebnisse zu erhalten, braucht es eine Software, die aus analysierten Daten lernt und sogenannte False Positives erkennt. 

Wissen muss fundiert sein und geprüft werden, bevor es weitervermittelt wird. Auf diesem Grundsatz beruhen ganze Forschungszweige, wissenschaftliche Ideen und Strukturen. Plagiats-Erkennungs-Systeme sind hilfreich, um eine gezielte und durchgehende Qualitätsprüfung zu bieten. Außerdem hilft diese Art von Software, Verdachtsfälle von Plagiarismus schnell zu erkennen – ohne eine zeitaufwändige manuelle Onlinesuche.

Dennoch kann das Finden von potenziellen Plagiaten in Texten, Hausarbeiten oder auch Habilitationen eine Herausforderung sein. Eine dieser Herausforderungen sind sogenannte False Positives – vermeintlich positive Testergebnisse. Um zu verstehen, warum die Erkennung von False Positives wichtig ist, sollten wir uns erst einmal genauer anschauen, was sie überhaupt sind.

Wie werden „False Positives“ in Texten erkannt?

Wenn im Zusammenhang mit Plagiats-Erkennung von „False Positives“ gesprochen wird, bezieht sich das meist auf Inhalte, in denen das Programm Ähnlichkeit zu einer anderen Stelle in der Datenbank des Systems festgestellt hat. Diese Kennzeichnung als ähnliche oder kopierte Textstelle kann je nach Fall nicht richtig sein. An dieser Stelle spielt der gesamte Kontext des überprüften Werks eine wichtige Rolle.

Schauen wir uns als erstes folgendes Beispiel an. Eine ähnliche Textpassage ist in rot hervorgehoben.

  • “Salz und Pfeffer”<> “Katzen und Hunde” – 33%
  • “Drei Männer in einer misslichen Situation” <> “Leben in einer mittelalterlichen Stadt” – 40%
  • “Die Abenteuer von Tom Sawyer” <>  “Die Abenteuer  von Sherlock Holmes” – 60%

Die hervorgehobenen Stellen wurden von einer Textanalyse-Software als umgangssprachliche und oft gebrauchte Phrasen und Wörter erkannt, was bedeutet, dass sie nicht im Analysereport aufgezeigt werden sollten. Dies ist wichtig, da durch eine fälschliche Inklusion dieser Stellen der Gesamtprozentsatz der ähnlichen Textstellen höher ausfallen würde. Das Endergebnis der Analyse würde somit verfälscht werden. Zudem würde die Relevanz der Stellen sinken, wenn der Prozentsatz der im Text gefundenen Ähnlichkeiten steigt.

Oft sind „False Positives“ Wörter, die in einer Sprache oft auftauchen. Es kann sich dabei auch um häufig angewandte Konjunktionen oder Appositionen handeln. Dadurch häufigen sich wiederholte Passagen im Text. Es ist schwer zu beurteilen, wo genau der Scheidepunkt zwischen Kopie oder originaler Textstelle liegt. Die größte Herausforderung dabei ist, die genaue Relevanz von Wörtern zu berechnen, die in einem Text vorkommen, und diese Häufigkeit in einem Prozentsatz wiederzugeben.

Die Ergebnisse einer Textanalyse können auf den ersten Blick undurchsichtig sein

Alle gefundenen Textstellen aufzuzeigen bedeutet Unübersichtlichkeit im Text und Unsicherheit – was widerum von echten Plagiaten ablenkt. Ein Beispiel dafür wäre es, den Satz „Weiß ich nicht“ auf Google zu suchen: Hier würden einem Millionen von Treffern angezeigt werden.

Oder aber der Satz: „Diese Seite wurde freigelassen.“ Macht es Sinn, diesen Satz im Analysereport aufzuzeigen? Eine Erfassung von „False Positives“ kann dazu führen, dass mehr Zeit als nötig in die Beurteilung nicht relevanter Funde fließt, als angebracht ist. Dies untergräbt den Sinn und Nutzen einer Textanalyse-Software. Wenn ein Nutzer Stunden damit verbringen müsste, sich durch Funde zu lesen, würde das vermutlich für mehr Frust sorgen, als den Artikel selbst zu lesen manuell zu überprüfen.

False Positives“: Eine Herausforderung, der wir uns stellen sollten

„False Positives“ können akademische Arbeit und die Entfaltung eigener Ideen gefährden – aus diesem Grund lohnt es sich, sich mehr damit zu beschäftigen. Ein Möglichkeit, „False Positives“ zu verringern, ist Textanalyse-Software wie Ouriginal einzusetzen, bei der Algorithmen ständig dazulernen und die Ergebnisse weiter verfeinern. Mithilfe dieser Technologie können Sie Ihre Entscheidungen auf Grundlage von genau gefiltertem Datenmaterial treffen. Dies spart nicht nur wertvolle Arbeitszeit, sondern macht eine tiefgehende Überprüfung eingereichter Texte für jeden Nutzer möglich.

Lesen Sie weitere Blogs:

This website uses cookies to improve the site’s overall user experience and performance. Read more here.