Comment gérer l'hétérozygotie lors du polissage de l'assemblage du génome basé sur de longues lectures?

Question:

Comment gérer l'hétérozygotie lors du polissage de l'assemblage du génome basé sur de longues lectures?

Kamil S Jaron

2017-05-21 16:49:59 UTC

view on stackexchange narkive permalink

Toutes les plates-formes de séquençage à lecture longue sont basées sur le séquençage à une seule molécule, ce qui entraîne des taux d'erreur par base plus élevés. Pour cette raison, une étape de polissage a été ajoutée aux pipelines d'assemblage du génome - mappage des lectures brutes vers l'assemblage et correction des détails de l'assemblage.

J'ai un ensemble de données PacBio RSII décent d'un génome individuel d'espèces non modèles fortement hétérozygotes . L'assemblage s'est bien passé, mais quand j'ai essayé de peaufiner l'assemblage en utilisant quiver, il n'a pas pu converger sur quelques itérations et je parie que c'est à cause d'une trop grande divergence des haplotypes.

Existe-t-il un autre moyen de polir un génome avec de telles propriétés? Par exemple, existe-t-il un moyen de séparer les longues lectures par haplotype, afin que je puisse polir en utilisant un seul haplotype?

Deux réponses:

roblanf

2017-05-22 08:36:12 UTC

view on stackexchange narkive permalink

Quelques possibilités:

Falcon

Essayez Falcon et Falcon-Unzip. Ils sont conçus exactement pour votre problème et vos données: https://github.com/PacificBiosciences/FALCON

Pas Falcon

Si vous pensez avoir assemblé des haplotypes (ce qui semble raisonnable d'attendre étant donné une couverture suffisante), vous devriez être en mesure de voir les deux haplotypes en faisant simplement tous les alignements par paires de vos contigs. Les haplotypes devraient apparaître comme des paires de contigs qui sont BEAUCOUP plus similaires (même avec beaucoup de divergence entre haplotypes) que les autres paires. Une fois que vous avez toutes ces paires, vous pouvez simplement sélectionner l'une de chaque paire à polir.

J'ai en effet les deux séquences d'haplotypes. Je les ai obtenus en utilisant l'outil appelé [haplomerger2] (http://www.ncbi.nlm.nih.gov/pubmed/22555592). Mais cet outil produit un assemblage haploïde chimérique, donc ce ne sont pas vraiment des haplotypes correctement phasés. Falcon-unzip est en effet un logiciel qui pourrait fonctionner. C'était trop jeune pour essayer à l'époque, mais je pourrais essayer de lui donner une autre chance maintenant.

gringer

2017-05-22 13:12:38 UTC

view on stackexchange narkive permalink

Vous pouvez également essayer Canu. Il est conçu pour un assemblage à lecture longue (PacBio et Nanopore), mais pas spécifiquement pour le séquençage de population complexe. Il essaie de dépouiller un génome en ses composants uniques et génère des chemins à partir de ces composants qui sont bien pris en charge à partir des lectures.

En ce qui concerne le polissage, il semble que le polissage ne convergent, et il y aura beaucoup de variantes qui oscillent juste entre deux possibilités. Pour moi et au moins une autre personne à London Calling cette année, il n'y avait fondamentalement aucun gain de précision pour le polissage au-delà de la troisième itération. J'ai utilisé mon propre algorithme de correction d'erreur, mais ils ont utilisé le polissage plus "standard" avec Pilon. Pour ce que ça vaut, le consortium nanopore WGS a utilisé Racon pour polir ses assemblages Canu.

En fait, j'ai assemblé le génome en utilisant Canu, j'ai eu ~ 2x la taille haploïde du génome, que j'ai réduit en haplotypes en utilisant [HaploMerger2] (http://www.ncbi.nlm.nih.gov/pubmed/22555592). sachez que globalement le montage est bon. Il a juste besoin d'être poli.

Oh oui. Désolé, j'ai regardé la première réponse et j'avais supposé que c'était juste une question d'assemblage. Je me rends compte maintenant que la question portait sur le * polissage *, plutôt que sur l'assemblage.

@gringer J'essayais également de polir un assemblage génomique hautement hétérozygote (généré par canu), en utilisant Racon (Quiver réduirait les haplotypes), mais je n'ai pas pu obtenir un résultat satisfaisant (en gros, aucune statistique n'a changé). aucun conseil?

Ma recommandation générale pour le moment serait d'utiliser le nanopolish en mode méthylation pour corriger, puis Pilon avec Illumina lit pour * seulement * corriger les fragments d'homopolymère (c'est-à-dire pas de correction SNP, et pas d'échafaudage à longue portée). Sur la base de ceci: https: //github.com/rrwick/Basecalling-comparison#methylation

ⓘ

Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.

À propos - jargon juridique

Loading...