Question:
Calcul de la couverture: lectures longues (RNA-seq)
aechchiki
2017-10-31 13:15:38 UTC
view on stackexchange narkive permalink

Supposons que votre objectif soit de calculer la couverture d'une expérience RNA-seq générée avec un séquençage à lecture longue (donc, longueur de lecture inégale).

Jusqu'à présent, je me suis appuyé sur l ' équation Lander / Waterman:

$$ C = L * N / G $$

où:

$ C $ = couverture finale
$ G $ = longueur du génome haploïde (ou transcriptome)
$ L $ = longueur de lecture
$ N $ = nombre de lectures

J'ai deux problèmes conceptuels majeurs avec cette formule:

  • $ L $ est inégal dans ce cas. Devrions-nous utiliser la longueur de lecture médiane / moyenne à la place? Si tel est le cas, question secondaire: si l'expérience RNA-seq a été exécutée selon le protocole fractionné par taille (PacBio), est-il conseillé de fusionner toutes les fractions avant le calcul de la couverture ou doit-elle être calculée séparément pour chaque fraction?
  • Est-ce que $ N $ devrait être constitué des lectures mappées à la référence ou simplement du nombre de lectures trouvées dans l'ensemble de données des sous-livres?
Un répondre:
gringer
2017-10-31 14:49:04 UTC
view on stackexchange narkive permalink

La longueur de lecture n'est pas pertinente lors du calcul de la statistique de couverture moyenne. C'est simplement le nombre total de bases séquencées divisé par la longueur du Xome cible .

Dans l'exemple fourni dans la question, $ L * N $ est exprimé de manière équivalente comme $ \ sum ^ {N} l_x $, ou la longueur totale des lectures séquencées. Pour les lectures de longueur égale, cela est plus facile à calculer comme nombre de lectures $ * $ longueur de lectures , mais la somme complète est nécessaire si les longueurs de lecture ne sont pas égales.

Pour ce qu'elle vaut, cette valeur, $ L * N $, équivaut également à la longueur moyenne de lecture multipliée par le nombre de lectures, c'est-à-dire

$$ \ frac {\ sum ^ {N} l_x} {N} * N $$

... ce qui rend un peu plus évident pourquoi la longueur totale des bases séquencées est très légèrement plus facile à calculer .

En réponse à la deuxième partie de la question, $ N $ devrait idéalement correspondre uniquement aux séquences issues de la référence. Pour un assembly, seules les lectures utilisées pour créer l'assembly doivent compter lors de l'examen de la couverture. Lorsqu'il n'y a pas de probabilité de contamination (et en particulier pour RNASeq avec une couverture variable par transcription), une statistique utilisant le nombre total de lectures devrait être assez bonne pour la plupart des fins auxquelles je peux penser. Le séquençage à haut débit est un processus tellement flou que quelques dizaines de millions de bases ici ou là ne devraient pas faire de différence.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...