Supposons que votre objectif soit de calculer la couverture d'une expérience RNA-seq générée avec un séquençage à lecture longue (donc, longueur de lecture inégale).
Jusqu'à présent, je me suis appuyé sur l ' équation Lander / Waterman:
$$ C = L * N / G $$
où:
$ C $ = couverture finale
$ G $ = longueur du génome haploïde (ou transcriptome)
$ L $ = longueur de lecture
$ N $ = nombre de lectures
J'ai deux problèmes conceptuels majeurs avec cette formule:
- $ L $ est inégal dans ce cas. Devrions-nous utiliser la longueur de lecture médiane / moyenne à la place? Si tel est le cas, question secondaire: si l'expérience RNA-seq a été exécutée selon le protocole fractionné par taille (PacBio), est-il conseillé de fusionner toutes les fractions avant le calcul de la couverture ou doit-elle être calculée séparément pour chaque fraction?
- Est-ce que $ N $ devrait être constitué des lectures mappées à la référence ou simplement du nombre de lectures trouvées dans l'ensemble de données des sous-livres?