Quelle est la manière standard de travailler avec un génome de référence diploïde? Des brins complémentaires?

winni2k

2017-06-26 12:23:26 UTC

view on stackexchange narkive permalink

Pour le moment, les génomes de référence standard (par exemple hg19, hg38) sont des génomes haploïdes. Nous savons que le génome humain est diploïde. Naturellement, ce dernier serait la représentation respectivement correcte du génome humain.

La prémisse de la question du PO est fausse. La représentation de référence naturelle du génome humain n'est pas diploïde.

Pensez à un génome de référence comme une carte, et non comme un exemple spécifique de l'ADN d'un être humain.

Non seulement l'haploïde de référence du génome humain, mais c'est aussi un génome composite. Cela signifie que la séquence de référence du génome humain est composée de séquences provenant de plusieurs individus. En d'autres termes, la référence humaine ne correspond à aucune séquence humaine.

Toute lecture particulière d'un séquenceur d'ADN sera une lecture d'un génome humain qui diverge du génome de référence. Ainsi, un algorithme qui essaie de faire correspondre la lecture au génome de référence devra toujours gérer les écarts potentiels. L'ajout d'une deuxième carte avec laquelle faire correspondre une lecture ne changerait pas ce fait. Par conséquent, il est peu utile de fournir un deuxième génome de référence haploïde.

Note complémentaire : certaines parties du génome humain "sont trop complexes pour être représentées par un seul chemin ", et le Genome Reference Consortium fournit des" locus alternatifs "pour ces régions du génome.

Réponse à la deuxième question du PO

Plus et surtout, comment les études génomiques à grande échelle ont-elles traité le fait que le génome de référence haploïde est une "moitié" consensuelle d'un génome humain?

J'interprète cette question comme suit: "Comment faire les grandes études génomiques représentent une diversité génomique qui ne peut être représentée par un génome de référence haploïde?

Une approche standard qui a été très populaire dans les études d'association à l'échelle du génome est l'utilisation d'un panel d'haplotypes de référence, comme par exemple dans le Projet 1000 Genomes. Les programmes de mise en phase modernes exploitent l'ascendance commune des échantillons dans une étude et des haplotypes de référence pour mettre en phase les échantillons d'une étude. Un programme de mise en phase populaire est Impute2

Bien que techniquement composite, 70% de GRCh38 provient de RP11, un seul donneur masculin (ref: http://genome.cshlp.org/content/27/5/849.full).

user172818

2017-06-25 07:00:17 UTC

view on stackexchange narkive permalink

Pour appeler de petites variantes, la méthode standard consiste simplement à appeler des génotypes diploïdes. Vous pouvez déjà faire une variété de recherches avec des génotypes non phasés. Vous pouvez mettre en phase davantage les génotypes avec imputation, généalogie ou avec de longues lectures / lectures liées, mais peu le font car le phasage est plus difficile, peut ajouter des coûts et peut ne pas toujours vous donner un nouvel aperçu de vos données. Pour ces analyses, nous utilisons un génome haploïde. Pour les échantillons humains, la grande majorité des «études génomiques à grande échelle» sont effectuées de cette façon.

Une référence diploïde n'aide en fait pas beaucoup avec une analyse basée sur des références; cela ne fait que compliquer les algorithmes. Ce qui pourrait beaucoup aider est une référence de population, qui peut être représentée par un graphique ou un index de texte intégral compressé ou les deux. En théorie, si vous disposez d'une référence de population complète et d'un algorithme de cartographie capable, vous pouvez appeler des variantes supplémentaires qui ne seraient pas appelables avec de courtes lectures. Dans la pratique, cependant, il existe de nombreux défis techniques. La gestion des références de population est un sujet de recherche. Il n'y a pas encore de "standards".

Si le but est d'assembler un nouveau génome de référence à partir d'un échantillon diploïde, nous préférons presque toujours produire un assemblage diploïde. Malheureusement, je crois qu'il n'y a pas non plus de procédures «standard». SuperNova de la génomique 10x construit les informations diploïdes dans un graphique. Falcon de PacBio utilise "unzip". Je ne pense pas qu'ils aient été largement utilisés et évalués jusqu'à présent.

PS: vu votre modification en écrivant ce qui précède. Le fait que le génome ne représente qu'un seul brin ne signifie pas que nous devons créer le brin du complément explicitement dans les analyses. Nous faisons la plupart du complément inverse à la volée dans les algorithmes ainsi que dans l'esprit.

les génomes de référence ne sont pas vraiment haploïdes

Cela dépend de la façon dont la référence est assemblée. Si vous séquencez un échantillon haploïde (par exemple des bactéries), votre assemblage sera haploïde. Si vous séquencez une souche de laboratoire consanguine qui est presque homozygote (par exemple, la souris et la mouche des fruits), votre assemblage sera presque haploïde. Si vous séquencez un échantillon diploïde, votre assemblage sera très probablement une mosaïque des deux haplotypes. Dans le cas du génome humain de référence, c'est plus compliqué. Il s'agit en grande partie d'une mosaïque de plusieurs humains en cousant des haplotypes d'environ 150 ko à partir de ces échantillons.

Désolé, mais beaucoup de groupes mettent en phase leurs échantillons. En effet, le phasage des génotypes est une condition préalable à l'imputation génotypique de pointe à partir d'un panel d'haplotypes de référence. L'article d'un tel panel a 3437 citations selon le site Web de l'éditeur (https://www.nature.com/articles/nature11632)

1000g juste * devait * faire le phasage. Il n'avait pas vraiment le choix. Cependant, peu de projets suivent la conception de 1000g de nos jours. Je parlais des nouveaux projets de séquençage du génome.

Je ne parle pas de 1000g. Je parle du grand sous-ensemble des 3437 études qui ont utilisé le panneau de référence de 1000g (phase1). Et puis il y a les 224 citations de l'article 2015 sur 1000g phase3 https://www.nature.com/articles/nature15394, et les 63 citations de l'article 2016 Haplotype Rereferenc Consortium https://www.nature.com/articles /ng.3643. Je pense que cela dépend vraiment de ce que vous essayez de réaliser. Pour les grands GWAS, les puces SNP + phasage + imputation sont encore la voie à suivre. Cela peut bien sûr être différent dans votre domaine. Divulgation complète: je suis un auteur sur les deux derniers articles.

Notez le contexte de ma phrase: "pour appeler de petites variantes". C'est juste un exemple que vous pouvez travailler directement avec des génotypes. Je sais bien sûr que GWAS utilise l'imputation tout le temps.

gringer

2017-06-25 08:48:53 UTC

view on stackexchange narkive permalink

Certains assembleurs produisent des graphes d'assemblage qui tentent de décrire tous les chemins haploïdes possibles dans un ensemble de lectures. Un tel assemblage tente de capturer toute la variation diploïde (et / ou la variation de population) dans un échantillon au détriment de ne pas avoir de chromosomes de pleine longueur.

Canu (par exemple) produira des contigs qui sont étendus comme tant que le consensus est maintenu à travers différentes lectures, mais quand il y a une rupture fiable dans la couverture (c'est-à-dire une zone où les chromosomes sont hétérozygotes) alors les contigs seront rompus. Canu fournit en sortie un fichier GFA (graphe d'assemblage) qui peut être utilisé pour déterminer quels chemins peuvent se combiner en un seul chromosome.

burger

2017-06-27 01:07:17 UTC

view on stackexchange narkive permalink

Pour ajouter à toutes les autres bonnes réponses, je voudrais mentionner que la question est quelque peu trompeuse. Si le génome de référence concerne un seul individu, il doit être diploïde. Cependant, c'est une référence pour tous les humains. Il devrait vraiment contenir des milliards d'exemplaires pour rendre pleinement compte de toute la diversité. Comme cela n’est pas réaliste, la référence sert d’approximation simple.

Ce point a été abordé par le récent article sur le génome coréen:

Humain les génomes sont systématiquement comparés à une référence universelle. Cependant, cette stratégie pourrait passer à côté de variations génomiques propres à la population et personnelles, qui peuvent être détectées plus efficacement en utilisant une référence ethnique ou personnelle. ... La comparaison systématique des assemblages humains montre l'importance de la qualité de l'assemblage, suggérant la nécessité de nouvelles technologies pour cartographier de manière exhaustive les variations de la structure génomique ethnique et personnelle.

heathobrien

2018-01-25 18:41:34 UTC

view on stackexchange narkive permalink

Puisque personne ne vous a abordé la deuxième question, je vais essayer:

Le brin complémentaire d'une séquence génomique est le complément inverse 5'-3 ', pas le complément 3'-5 '. Cette séquence n'est pas capturée dans les génomes de référence standard, mais les informations le sont. Étant donné une séquence, il est simple de calculer son complément inverse, et tout outil conçu pour fonctionner avec des données de séquence prend en compte cette fonctionnalité.