Pour appeler de petites variantes, la méthode standard consiste simplement à appeler des génotypes diploïdes. Vous pouvez déjà faire une variété de recherches avec des génotypes non phasés. Vous pouvez mettre en phase davantage les génotypes avec imputation, généalogie ou avec de longues lectures / lectures liées, mais peu le font car le phasage est plus difficile, peut ajouter des coûts et peut ne pas toujours vous donner un nouvel aperçu de vos données. Pour ces analyses, nous utilisons un génome haploïde. Pour les échantillons humains, la grande majorité des «études génomiques à grande échelle» sont effectuées de cette façon.
Une référence diploïde n'aide en fait pas beaucoup avec une analyse basée sur des références; cela ne fait que compliquer les algorithmes. Ce qui pourrait beaucoup aider est une référence de population, qui peut être représentée par un graphique ou un index de texte intégral compressé ou les deux. En théorie, si vous disposez d'une référence de population complète et d'un algorithme de cartographie capable, vous pouvez appeler des variantes supplémentaires qui ne seraient pas appelables avec de courtes lectures. Dans la pratique, cependant, il existe de nombreux défis techniques. La gestion des références de population est un sujet de recherche. Il n'y a pas encore de "standards".
Si le but est d'assembler un nouveau génome de référence à partir d'un échantillon diploïde, nous préférons presque toujours produire un assemblage diploïde. Malheureusement, je crois qu'il n'y a pas non plus de procédures «standard». SuperNova de la génomique 10x construit les informations diploïdes dans un graphique. Falcon de PacBio utilise "unzip". Je ne pense pas qu'ils aient été largement utilisés et évalués jusqu'à présent.
PS: vu votre modification en écrivant ce qui précède. Le fait que le génome ne représente qu'un seul brin ne signifie pas que nous devons créer le brin du complément explicitement dans les analyses. Nous faisons la plupart du complément inverse à la volée dans les algorithmes ainsi que dans l'esprit.
les génomes de référence ne sont pas vraiment haploïdes
Cela dépend de la façon dont la référence est assemblée. Si vous séquencez un échantillon haploïde (par exemple des bactéries), votre assemblage sera haploïde. Si vous séquencez une souche de laboratoire consanguine qui est presque homozygote (par exemple, la souris et la mouche des fruits), votre assemblage sera presque haploïde. Si vous séquencez un échantillon diploïde, votre assemblage sera très probablement une mosaïque des deux haplotypes. Dans le cas du génome humain de référence, c'est plus compliqué. Il s'agit en grande partie d'une mosaïque de plusieurs humains en cousant des haplotypes d'environ 150 ko à partir de ces échantillons.