Researcher des Technologiekonzerns IBM haben einen neuen Algorithmus entwickelt, der anstößige Sprache auf Websites wie Reddit und Twitter überwachen kann. Anstatt beleidigende Phrasen direkt zu entfernen, schlägt der Algorithmus alternative, höflichere Formulierungen vor, die an ihrer Stelle verwendet werden können.
Die Forscher haben rund zehn Mio. Tweets und Reddit-Beiträge gesammelt und entweder als anstößig oder nicht anstößig eingestuft. Die IBM-Researcher entschieden sich für die Methode des Tausches, anstatt Beleidigungen vollständig zu ersetzen, um autoritäre Regierungen oder Unternehmen daran zu hindern, das Werkzeug zu missbrauchen. Der Algorithmus würde sich insbesondere dafür eignen, kritische oder politische Kommentare zu unterdrücken. Diesen Missbrauch wollten die Forscher von Anfang an umgehen.
Das große Ziel mit dem neuen Algorithmus war es, die Verbreitung von Hassreden auf populären Social-Media-Plattformen wie Twitter, Reddit und Facebook zu reduzieren. "Die Verwendung beleidigender Phrasen ist ein häufiges Problem des Missbrauchsverhaltens in sozialen Online-Netzwerken", erklären die Forscher. "In der Vergangenheit haben verschiedene Ansätze dieses Problem lösen wollen, indem verschiedene maschinelle Lernmodelle zur Erkennung von missbräuchlichem Verhalten eingesetzt wurden. Die meisten dieser Projekte folgen jedoch der Annahme, dass es ausreicht, den gesamten offensiven Post herauszufiltern."
Erneute Analyse
"Ein Benutzer, der Online-Inhalte konsumiert, möchte jedoch möglicherweise keine vollständig ausgefilterten Nachrichten erleben, sondern stattdessen in einem Stil lesen, der nicht beleidigend und trotzdem in einem höflichen Ton zu verstehen ist", resümieren die Researcher. Der neue Algorithmus analysiert eingangs die Bedeutung eines Satzes und ob er beleidigende Sprache enthält. Sobald der Text als beleidigend bestätigt wird, generiert der Algorithmus eine weniger anstößige Phrase. Im dritten Schritt wird automatisch analysiert, ob sich der neue Satz im Ton geändert hat. Beinahe in allen Fällen konnte der Algorithmus "zuverlässige, nicht offensive Sätze" erzeugen.
Die IBM-Forscher betonen jedoch, dass der Algorithmus bislang ein paar Beschränkungen unterliegt, wie zum Beispiel der Tatsache, dass die zu analysierenden Sätze grundlegend Schimpfwörter enthalten müssen. Aus diesem Grund sei das System wahrscheinlich im Moment noch weniger erfolgreich darin, Hassreden zuverlässig zu identifizieren. Ein sarkastischer Unterton und andere Stilmittel entgehen dem Algorithmus bislang. (pte)
www.ibm.com
www.pressetext.com