Agenda

Contacts

Notre equipe

L'agenda partagé

Le 7 mai 2021

Soutenance de thèse de Romain MENEGAUX

Représentations pour l'apprentissage statistique à grande échelle en génomique

Soutenance de thèse de Romain MENEGAUX

Résumé de la thèse en français

Le coût du séquençage de l'ADN a été divisé par 100 000 en seulement 15 ans. Grâce à cette révolution technologique, des volumes de données de plus en plus grands arrivent de domaines variés, posant de nouvelles problématiques informatiques. Comment analyser et stocker les séquences d'ADN de manière efficiente? Un domaine ayant grandement bénéficié de cette avancée est la métagénomique, qui cherche à caractériser et identifier les microbes -- bactéries, virus -- en séquençant puis analysant leur ADN. Or le résultat d'une expérience de séquençage se compte en milliards de petits fragments d'ADN (reads), mélangés aléatoirement. Une étape cruciale en bioinformatique est d'identifier le génome d'origine de chacun de ces fragments, problème dit du taxonomic binning. Jusqu'à récemment, les méthodes étaient basées sur l'alignement des séquences à des génomes de référence. Le nombre de ces génomes augmentant, ces méthodes d'alignement sont devenues trop lentes et on laissé place à un nouveau standard: le pseudo-alignement. Celui-ci consiste à chercher des sous-séquences du read dans une base de donnée constituée au préalable.

Résumé de la thèse en anglais

The cost of DNA sequencing has been divided by 100,000 in the past 15 years. Brought along by this technological revolution, ever larger volumes of data are coming in from diverse fields and problems, raising new computational challenges. How can we efficiently store and analyze DNA sequences? A modern DNA sequencing experiment outputs billions of short DNA fragments (reads), in random order. A crucial step in the bioinformatics analysis pipeline is to match those fragments to their parent genomes, a problem called taxonomic binning. Up until a few years ago alignment-based strategies were the norm, which were largely based on string-matching algorithms. However these have become too slow for the ever-growing amount of available sequenced genomes. More recently so-called pseudo-alignment strategies have become standard. These hold databases of large sub-strings and look for matches in the query sequences. Machine learning methods have shown promising success in classifying biological sequences and in this thesis we will investigate these methods for taxonomic binning. Firstly, we present an algorithm, fastDNA{}, that embeds sequences in a continuous vector space by first splitting them into short kmers{} (substrings of length $k$) and learning an embedding for each kmer{}. The embedding is then run through a linear classifier. In the second part of this thesis we will present Brume{}, an extension to fastDNA{} that allow for longer k-mers, using the de Bruijn graph. Finally we will introduce Phylo-HS, a structured loss for neural network-based taxonomic classification.

 

Titre anglais : Continuous embeddings for large-scale machine learning in genomics
Date de soutenance : vendredi 7 mai 2021 à 14h00
Adresse de soutenance : 60 Boulevard Saint-Michel, 75272 Paris - Zoom
Directeur de thèse : Jean-Philippe VERT

> plus d'informations sur le site dédié Soutenance de thèse de Romain MENEGAUX - MINES ParisTech

Partager

Nos horaires

Du lundi au vendredi, de 9h à 18h30. Fermeture en août.

Plus d'informations ...

actualité

Festival de l'histoire de l'art

Festival de l'histoire de l'art   « D'Edo à Meiji : images du Japon entre industrie…
> En savoir +

DigiTraining lance un appel aux musées européens

International DigiTraining lance un appel aux musées européens Innover grâce aux nouvelles technologies Le consortium…
> En savoir +

Nuits de la lecture, avec Laurent Gaudé

Formation Nuits de la lecture, avec Laurent Gaudé  « Que le souvenir de ceux qui se sont battus pour notre…
> En savoir +

 3<sup>e</sup> au classement de L'Usine Nouvelle

Formation 3 e au classement de L'Usine Nouvelle MINES ParisTech se classe à la 3 e place du Palmarès des…
> En savoir +

Cobaz, la nouvelle plateforme de l'Afnor

Formation Cobaz, la nouvelle plateforme de l'Afnor A compter de janvier 2021, retrouvez les normes françaises…
> En savoir +

+ Toutes les actualités

 

 

Plan du site
Mentions légales efil.fr © 2014 MINES ParisTech