Une nouvelle étude révèle une divergence dans la détection des discours haineux par les modèles d'IA

Une étude de l’Annenberg School for Communication révèle des différences substantielles entre les modèles d’IA, notamment ceux d’OpenAI, DeepSeek et Google, dans la détection des discours de haine, ce qui pourrait avoir de graves conséquences sur la modération du contenu et la sécurité de la communauté en ligne.

L'intelligence artificielle s'est imposée comme un acteur clé de la modération des contenus en ligne, notamment des discours de haine, alors que les plateformes cherchent à limiter la polarisation politique et à préserver la santé mentale. Cependant, une étude récente de l'Annenberg School for Communication de l'Université de Pennsylvanie met en lumière un problème crucial : l'évaluation des discours de haine par les principaux modèles d'IA est loin d'être cohérente.

« Les entreprises technologiques privées sont devenues les arbitres de facto de ce qui est autorisé dans l’espace public numérique, mais elles le font sans aucune norme cohérente », a déclaré Yphtach Lelkes, professeur associé à l’Annenberg School for Communication, dans un communiqué de presse.

Neil Fasching, étudiant au doctorat à Lelkes et Annenberg, a mené la première analyse comparative à grande échelle des systèmes de modération de contenu d'IA, examinant leur cohérence dans l'évaluation des discours de haine.

Leur étude, publié dans les conclusions de l'Association for Computational Linguistics, sept modèles importants ont été analysés : les deux modèles d'OpenAI, les deux modèles de Mistral, Claude 3.5 Sonnet, DeepSeek V3 et Google Perspective API.

Les chercheurs ont analysé un nombre impressionnant de 1.3 million de phrases synthétiques couvrant 125 groupes, utilisant divers termes, y compris des termes neutres et des insultes, liés à la religion, au handicap, à l'âge et plus encore.

Principaux points à retenir de l'étude

1. Décisions incohérentes entre les modèles

« L'étude montre que les systèmes de modération de contenu présentent des incohérences dramatiques lorsqu'ils évaluent des contenus de discours haineux identiques, certains systèmes signalant un contenu comme nuisible tandis que d'autres le jugent acceptable », a déclaré Fasching, membre du Groupe Démocratie et Information, dans le communiqué de presse.

Lelkes, qui est également codirecteur du Laboratoire de recherche sur la polarisation et du Centre pour les réseaux d'information et la démocratie, ajoute que cette incohérence peut éroder la confiance du public et créer une impression de partialité. L'étude a révélé des variations dans la cohérence interne des modèles, soulignant la difficulté de trouver un équilibre entre précision de détection et prévention d'une modération excessive.

2. Incohérences prononcées pour certains groupes

« Ces incohérences sont particulièrement prononcées pour des groupes démographiques spécifiques, laissant certaines communautés plus vulnérables aux dommages en ligne que d’autres », a ajouté Fasching.

La recherche indique des évaluations plus cohérentes des discours de haine pour les groupes basés sur l’orientation sexuelle, la race et le sexe, tandis que la variabilité a augmenté pour les groupes définis par le niveau d’éducation, les intérêts personnels et la classe économique.

3. Traitement différent des phrases neutres et positives

Il est à noter qu'une minorité de phrases étaient neutres ou positives, ce qui permettait de tester la fausse identification des discours de haine. Des systèmes comme Claude 3.5 Sonnet et la classification de contenu spécialisée de Mistral ont traité toutes les insultes comme préjudiciables, tandis que d'autres se sont concentrés sur le contexte et l'intention.

Les auteurs ont été surpris par la nette division dans la manière dont les modèles classaient ces cas, avec peu de terrain d’entente.

Source: École de communication Annenberg, Université de Pennsylvanie