Une nouvelle étude analyse les capacités des outils d'IA Midjourney et DALL·E à générer des images à partir de textes. Les chercheurs ont constaté que si ces programmes d'IA peuvent créer des images esthétiquement plaisantes, ils éprouvent souvent des difficultés avec des instructions simples et reflètent des biais culturels.
Dans un monde où l'intelligence artificielle progresse rapidement, une équipe de chercheurs s'est lancée dans une mission visant à comprendre les capacités et les limites des outils d'IA populaires Midjourney et DALL·E. Ces programmes d'IA générative ont attiré l'attention pour leur capacité à transformer des descriptions écrites en art visuel, mais peuvent-ils vraiment saisir l'essence de nos idées ?
Une étude collaborative menée par des scientifiques de l'Université de Liège (Belgique), de l'Université de Lorraine et de l'EHESS (France) a cherché à répondre à cette question. En combinant leurs compétences en sémiotique, en informatique et en histoire de l'art, les chercheurs ont analysé avec minutie les images produites par ces systèmes d'intelligence artificielle selon différents critères, tels que les formes, les couleurs et l'agencement des éléments.
« Notre approche repose sur une série de tests rigoureux », a déclaré Maria Giulia Dondero, sémioticienne et directrice de recherche au FNRS à l’Université de Liège, co-auteure de l’étude, dans un communiqué. « Nous avons soumis des requêtes très précises à ces deux systèmes d’IA et analysé les images produites selon des critères issus des sciences humaines, tels que l’agencement des formes, des couleurs, des regards, le dynamisme propre à l’image fixe, le rythme de son déploiement, etc. »
Les résultats, publié Dans la revue Semiotic Review, des études révèlent que si des outils d'IA comme Midjourney et DALL·E peuvent générer des images visuellement attrayantes, ils rencontrent souvent des difficultés lorsqu'ils suivent des instructions simples.
Par exemple, les consignes impliquant une négation, comme « un chien sans queue », donnent souvent lieu à des images de chiens avec une queue ou à d'autres inexactitudes. De même, la représentation de relations spatiales complexes, comme « deux femmes derrière une porte », présente des difficultés importantes.
L'IA a également du mal avec les actions et les séquences temporelles, interprétant parfois « combattre » comme de la danse ou ne parvenant pas à représenter la progression d'actions comme « commencer à manger » ou « avoir fini de manger ».
« Ces intelligences artificielles globales nous permettent de réfléchir à notre propre manière de voir et de représenter le monde », ajoute Enzo D'Armenio, auteur principal de l'étude, ancien chercheur à l'ULiège et aujourd'hui maître de conférences à l'Université de Lorraine. « Elles reproduisent des stéréotypes visuels issus de leurs bases de données, souvent construites à partir d'images occidentales, et révèlent les limites de la traduction entre le langage verbal et le langage visuel. »
L'équipe de recherche a validé ses résultats par la répétition, en effectuant jusqu'à 50 générations par invite afin d'assurer la robustesse statistique. Elle a découvert des signatures esthétiques distinctes dans les modèles : Midjourney tend à produire des images « esthétisées » avec des embellissements, tandis que DALL·E offre un plus grand contrôle de la composition mais varie dans le nombre et l'orientation des objets.
Malgré leurs capacités fascinantes, les modèles d'IA sont par nature statistiques ; ils produisent les résultats les plus probables en fonction de leurs ensembles de données d'entraînement et des configurations définies par leurs créateurs. Cela conduit souvent au renforcement des stéréotypes culturels.
Par exemple, la requête « PDG prononçant un discours » pourrait générer des images majoritairement masculines pour certains modèles et majoritairement féminines pour d'autres, mettant ainsi en évidence les biais inhérents à leurs données d'entraînement.
« Les GAI produisent le résultat le plus plausible en fonction de leurs bases de données d’entraînement et des paramètres (parfois éditoriaux) de leurs concepteurs », a ajouté le co-auteur Adrien Deliège, mathématicien à l’ULiège, « ces choix peuvent standardiser le regard et transmettre ou réorienter les stéréotypes ».
Les chercheurs soulignent l'importance d'utiliser des outils interdisciplinaires issus des sciences humaines pour évaluer ces technologies.
« Les outils d’IA ne sont pas de simples outils automatiques », a conclu D’Armenio. « Ils traduisent nos mots selon leur propre logique, influencée par leurs bases de données et leurs algorithmes. Les sciences humaines ont un rôle essentiel à jouer pour les comprendre et les évaluer. »
L'étude souligne à la fois le potentiel et les limites actuelles des images générées par l'IA, suggérant que si ces outils peuvent faciliter la visualisation des idées, ils ne permettent pas encore une traduction parfaite. L'intégration des sciences humaines dans le processus d'évaluation est essentielle pour une compréhension globale de leurs implications culturelles et symboliques.
Source: Université de Liège

