L'ETH Zurich dévoile un nouveau moteur de recherche ADN

Des scientifiques de l'ETH Zurich ont développé MetaGraph, un moteur de recherche d'ADN pionnier, comparable à « Google pour l'ADN ». Cette innovation promet d'accélérer considérablement la recherche génétique en permettant des recherches rapides et complètes dans de vastes bases de données de séquences d'ADN et d'ARN.

Des chercheurs de l'ETH Zurich ont dévoilé un outil révolutionnaire appelé MetaGraph, conçu pour révolutionner la recherche génétique en permettant des recherches rapides et efficaces dans de vastes bases de données de séquences d'ADN et d'ARN.

Cette nouvelle méthode, dont les détails sont publié dans la revue Nature, promet d'accélérer l'identification de maladies héréditaires rares et de mutations spécifiques dans les cellules tumorales, annonçant une nouvelle ère pour la recherche biomédicale.

MetaGraph fonctionne de manière similaire à un moteur de recherche Internet, permettant aux chercheurs de saisir une séquence d’intérêt et de localiser rapidement où elle est apparue dans les bases de données mondiales.

« C'est une sorte de Google pour l'ADN », a déclaré Gunnar Rätsch, professeur au département d'informatique et membre du groupe d'informatique biomédicale de l'ETH Zurich, dans un communiqué de presse.

L'outil recherche dans les données brutes de toutes les séquences stockées, évitant ainsi la nécessité de télécharger de vastes ensembles de données, ce qui était auparavant chronophage et gourmand en ressources.

L’importance du séquençage de nouvelle génération a été soulignée ces dernières années, notamment en permettant le décodage et la surveillance rapides du génome du SARS-CoV-2 pendant la pandémie de COVID-19.

Cependant, le volume considérable de données – environ 100 pétaoctets stockés dans des bases de données comme l’American Sequence Read Archive (SRA) et l’European Nucleotide Archive (ENA) – représentait un défi de taille pour les chercheurs.

Désormais, l'outil innovant MetaGraph, développé par des scientifiques de l'ETH Zurich, relève ce défi. Il peut compresser les données jusqu'à un facteur 300, ce qui le rend très efficace tout en préservant l'intégrité des informations.

« Mathématiquement parlant, c'est une matrice énorme avec des millions de colonnes et des milliards de lignes », a ajouté Rätsch.

Le nouveau moteur de recherche simplifie et accélère non seulement le processus, mais le rend également économique. Les requêtes plus volumineuses avec MetaGraph ne coûtent pas plus de 0.74 $ par mégabase.

Ce prix abordable, associé à la précision et à l'efficacité de l'outil, pourrait considérablement stimuler la recherche sur les agents pathogènes peu connus ou les maladies émergentes. Il est prometteur pour les avancées de la recherche sur la résistance aux antibiotiques grâce à l'identification des gènes de résistance et des bactériophages bénéfiques à partir des bases de données existantes.

« Nous repoussons les limites du possible afin de garder les ensembles de données aussi compacts que possible sans perdre les informations nécessaires », a ajouté André Kahles, scientifique principal au Département d'informatique et membre du groupe d'informatique biomédicale.

Présenté pour la première fois en 2020 et continuellement amélioré depuis, MetaGraph est déjà accessible aux requêtes et a indexé près de la moitié des jeux de données séquentielles mondiaux. Les chercheurs prévoient d'inclure les données restantes d'ici la fin de l'année.

Étant open source, MetaGraph offre de vastes avantages potentiels, notamment des applications pour les sociétés pharmaceutiques et peut-être même une utilisation privée à l'avenir.

Réfléchissant aux futures applications de l'outil, Kahles a ajouté : « Au début, même Google ne savait pas exactement à quoi servait un moteur de recherche. Si le séquençage de l'ADN se poursuit à un rythme soutenu, il pourrait devenir courant d'identifier plus précisément ses plantes de balcon. »

Source: ETH Zurich