J'ai un fichier gff comme celui-ci (j'ai modifié le nom):
scaffold_x source exon 2987526 2987805. -. nom "foobar"; transcriptId 68892scaffold_x source CDS 2987526 2987805. - 1 nom "foobar"; proteinId 68892; exonNumber 5scaffold_x source exon 2988610 2988745. -. nom "foobar"; transcriptId 68892scaffold_x source CDS 2988610 2988745. - 2 nom "foobar"; proteinId 68892; exonNumber 4scaffold_x source exon 2989157 2989645. -. nom "foobar"; transcriptId 68892scaffold_x source CDS 2989157 2989645. - 2 nom "foobar"; proteinId 68892; exonNumber 3scaffold_x source exon 2990903 2991541. -. nom "foobar"; transcriptId 68892scaffold_x source CDS 2990903 2991541. - 2 nom "foobar"; proteinId 68892; exonNumber 2scaffold_x source stop_codon 2990903 2990905. - 0 nom "foobar" scaffold_x source exon 2991587 2992430. -. nom "foobar"; transcriptId 68892scaffold_x source CDS 2991587 2992430. - 0 nom "foobar"; proteinId 68892; exonNumber 1scaffold_x source start_codon 2992428 2992430. - 0 nom "foobar"
Donc le start_codon
est 2992428 2992430
et le stop_codon
est 2990903 2990905
; Je m'attendrais donc à tous les exons dans cette gamme, cependant, par ex. l'exon 5 se trouve dans 2987526 2987805
qui est clairement en dehors de cette plage.
Y a-t-il quelque chose qui ne va pas avec le fichier gff lui-même ou y a-t-il une explication plausible à cela?
EDIT:
Dans le fasta protéique correspondant, je trouve une séquence d'acides aminés associée à cet identifiant et à ce nom de prtein:
>68892 | foobarMHTGD ...