Une nouvelle étude menée par des scientifiques de l'Université de New York révèle un modèle d'IA capable de prédire la fluidité et le plaisir des visioconférences en analysant les tours de parole et les expressions faciales. Cette avancée pourrait considérablement améliorer les réunions virtuelles, les rendant plus efficaces et plus agréables.
Depuis le début de la pandémie de COVID-19, les plateformes de visioconférence comme Zoom et MS Teams sont devenues incontournables dans notre vie professionnelle et sociale. Malgré leurs avantages, ces plateformes souffrent souvent de moments gênants ou improductifs. Une équipe de scientifiques de l'Université de New York propose aujourd'hui une solution high-tech pour rendre les réunions virtuelles plus agréables et efficaces.
Les chercheurs ont développé un modèle d'intelligence artificielle capable d'évaluer le comportement humain lors des visioconférences. Cela inclut l'analyse des tours de parole et des expressions faciales afin de prédire si ces interactions sont fluides et agréables.
« Notre modèle d'apprentissage automatique révèle la dynamique complexe des interactions sociales de haut niveau en décodant des schémas subtils au sein des signaux audio et vidéo de base des visioconférences », a déclaré Andrew Chang, auteur principal et chercheur postdoctoral au département de psychologie de l'Université de New York, dans un nouveau communiqué. « Cette avancée représente une étape importante vers l'amélioration dynamique des expériences de visioconférence en montrant comment éviter les dérapages conversationnels avant qu'ils ne surviennent. »
Pour créer cette merveille d'apprentissage automatique, plus de 100 heures d'enregistrements Zoom ont été analysées. Le modèle a pris note de la voix, des expressions faciales et des mouvements corporels afin d'identifier les éléments perturbateurs qui rendaient les conversations moins fluides ou moins agréables.
Il est intéressant de noter que le modèle a constaté que les « silences gênants » étaient plus préjudiciables à la qualité des réunions que les conversations qui se chevauchent, ce qui suggère que les débats énergiques sont plus favorables que les périodes de silence.
Pour valider le modèle, plus de 300 juges humains ont examiné les mêmes séquences de visioconférence et ont évalué la fluidité et le plaisir des échanges. Leurs évaluations correspondaient étroitement aux prédictions de l'IA, confirmant la fiabilité du modèle.
« La visioconférence occupe désormais une place importante dans nos vies. Comprendre et gérer ses aspects négatifs est donc essentiel, non seulement pour favoriser une meilleure communication et des liens interpersonnels, mais aussi pour améliorer l'efficacité des réunions et la satisfaction professionnelle des employés », a ajouté Dustin Freeman, auteur principal et chercheur invité au département de psychologie de l'Université de New York. « En prédisant les moments de rupture de conversation, ces travaux pourraient ouvrir la voie à des systèmes de visioconférence capables d'atténuer ces ruptures et de fluidifier les échanges, soit en manipulant implicitement les délais de transmission pour s'adapter, soit en fournissant explicitement des indications aux utilisateurs, ce que nous expérimentons actuellement. »
Les recherches de l'équipe, publié dans les actes de la Conférence internationale IEEE sur l'acoustique, la parole et le traitement du signal (ICASSP), présente une avancée significative dans le domaine de la communication virtuelle, avec des applications potentielles qui pourraient s'étendre au-delà des vidéoconférences à diverses formes de communication à distance.
L'article a été co-écrit par Viswadruth Akkaraju et Ray McFadden Cogliano, tous deux étudiants diplômés de la Tandon School of Engineering de l'Université de New York à l'époque, ainsi que par David Poeppel, professeur de psychologie à l'Université de New York et à la Max Planck Society de Munich, en Allemagne.
Source: Université de New York