Question:
Rechercher des paralogues dans un projet de génome
aechchiki
2018-07-05 15:29:30 UTC
view on stackexchange narkive permalink

Nous avons généré un génome (diploïde, chordata, hautement hétérozgue) en utilisant PacBio et nous voulions voir s'il contenait des duplications spécifiques à la lignée (paralogues, essentiellement). Le génome n'est pas encore dans Ensembl.

Les seules données dont nous disposons pour le moment sont:

  • génome
  • annotation de transcription
  • RNAseq

Nous avons trouvé quelques méthodes dans des articles:

  • utilisez Blast
  • détectez les duplications segmentaires dans des génomes complets avec SDDdetector
  • détection de duplications segmentaires putatives récentes ou d'organismes homozygotes diploïdes basés sur les données NGS DuplicationDetector
  • (je viens de trouver ceci, mais cela devrait fonctionner ) mappe les lectures à l'assemblage & analyse la profondeur de lecture pour détecter les portions dupliquées

Je prendrai volontiers conseil.

Chordata ... hautement hétérozygote ... Est-ce que je sens un tunicier?
non, une lancelette;)
S'il existe d'autres génomes ou transcriptomes proches de votre taxon, vous pouvez essayer de regrouper des homologues et de déduire des arbres génétiques à partir de groupes d'homologues pour détecter les duplications.
merci @NatWH. oui j'ai un génome / transcriptome (les stats sont moins bonnes que notre montage, mais ça ne devrait pas être un problème terrible)
Un répondre:
conchoecia
2018-07-09 09:48:22 UTC
view on stackexchange narkive permalink

C'est vraiment difficile à faire avec les animaux très hétérozygotes. Quelles sont vos statistiques d'assemblage du génome? Plus précisément, quel est votre nombre de contigs, d'échafaudages, de taille d'assemblage et de N50?

Si vous avez des données de ligature de proximité, il sera plus facile de déterminer si les paralogues potentiels proviennent vraiment de différentes régions du génome ou sont juste à partir d'emplacements homologues sur des chromatides soeurs qui se sont retrouvées non regroupées dans votre assemblage final.

Si j'étais vous et que j'avais un bon génome, je commencerais par annoter les modèles de gènes en utilisant les données RNAseq, puis en explosant chaque gène dans le modèle contre tous les gènes du modèle. Cela vous donnerait des paralogues potentiels à examiner de plus près.

Merci. À propos de mon génome PacBio: taille haplo ~ 550Mbp (canu + purge haplotigs), ~ 1000 contigs, ~ 1,6 Mbp N50, pas encore échafaudé mais pas sûr que ce soit pertinent. Pas de données de ligature de proximité, malheureusement - mais je pensais vérifier la fiabilité des paralogues en m'assurant qu'ils se trouvent dans un assemblage alternatif que nous avons (même espèce, mais Illumina, donc assez fragmentée). Je vais également tester ce que vous suggérez dans le 3ème paragraphe, merci pour votre contribution!
Ce sont de très bons chiffres - je m'assurerais de polir avec pilon puis racon pour supprimer les indels avant de cartographier les lectures RNAseq et de générer des modèles de gènes.
Aussi @conchoecia pouvez-vous suggérer une alternative au pilon? il n'est apparemment "pas actuellement réglé sur le modèle d'erreur des lectures brutes de PacBio, et leur utilisation peut introduire de fausses corrections" (https://github.com/broadinstitute/pilon/wiki/Methods-of-Operation)
Ah, pour pilon, je veux dire utiliser les données d'Illumina. Vous pouvez utiliser Arrow (pb lit) puis pilon (Illumina lit).
Ah d'accord! Je n'ai pas encore de données Illumina. J'essaierai avec Arrow (j'ai déjà essayé avec Racon mais il semble seulement que le montage soit pire - je ne sais pas pourquoi)


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.
Loading...