Définition de "graine" dans l'alignement de séquence

Question:

user3138373

2019-03-16 08:22:52 UTC

view on stackexchange narkive permalink

Je voudrais savoir ce que signifie "graine" pour différents aligneurs de séquence. En quoi est-ce important?

Deux réponses:

Devon Ryan

2019-03-16 17:52:40 UTC

view on stackexchange narkive permalink

La graine est le sous-ensemble d'une lecture utilisée dans la première étape d'un alignement. De nombreux aligneurs fonctionnent selon un modèle d'amorçage et d'extension, dans lequel ils trouvent d'abord toutes les régions correspondant à la «graine», puis étendent l'alignement autour de celle qui permet les erreurs de correspondance et les indels jusqu'à ce qu'il abandonne (et utilise donc une graine différente) ou trouve alignement suffisamment bon.

Merci devon pour l'explication. J'ai une question un peu similaire: pourquoi trouver une graine pour des exons très courts est difficile? Considérant un exon de 3 nt, est-ce parce qu'une graine aussi petite a une probabilité de cartographie toutes les 4 ^ 3 = 64 bases et pratiquement impossible à rechercher dans le génome? Votre opinion à ce sujet

Habituellement, les graines sont plusieurs fois plus longues, car vous voulez peu de résultats pour limiter rapidement votre espace de recherche.

Daniel Standage

2019-03-18 22:57:34 UTC

view on stackexchange narkive permalink

La réponse de Devon donne une bonne définition concise. Mais il est également utile de se demander pourquoi seed-and-extend est utilisé et quels avantages il offre.

Trouver des correspondances de chaînes approximatives nécessite des opérations coûteuses en calcul. D'autre part, la recherche de correspondances de chaînes exactes peut être effectuée en utilisant des opérations beaucoup moins coûteuses, c'est-à-dire qu'elle peut être effectuée plus rapidement avec moins de mémoire. Trouver rapidement l'emplacement de toutes les correspondances de départ, puis appliquer la correspondance approximative UNIQUEMENT À CES LIEUX (la stratégie d'amorçage et d'extension) permet de perdre moins de temps à rechercher de fausses similitudes. devrait être une graine? Riffer votre commentaire, une graine de 3 pb de longueur serait totalement inefficace puisque cette même séquence de 3 pb va se produire TOUT SUR LE GÉNOME DANS DES LIEUX ALÉATOIRES: gènes, pseudogènes, éléments transposables, séquences régulatrices, vous nommez il. D'un autre côté, une graine de 51 pb de longueur serait également inefficace puisque presque chaque graine contiendrait au moins une erreur de séquençage ou une variante / polymorphisme, empêchant ainsi une correspondance parfaite.

En pratique, les mappeurs conçus pour l'alignement 100 à 300 pb qu'Illumina lit utilise généralement des graines dans l'adolescence ou la vingtaine.

ⓘ

Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.

À propos - jargon juridique