Question:
Les exons peuvent-ils être situés en dehors de la séquence codante?
Cleb
2017-10-20 12:29:16 UTC
view on stackexchange narkive permalink

J'ai un fichier gff comme celui-ci (j'ai modifié le nom):

  scaffold_x source exon 2987526 2987805. -. nom "foobar"; transcriptId 68892scaffold_x source CDS 2987526 2987805. - 1 nom "foobar"; proteinId 68892; exonNumber 5scaffold_x source exon 2988610 2988745. -. nom "foobar"; transcriptId 68892scaffold_x source CDS 2988610 2988745. - 2 nom "foobar"; proteinId 68892; exonNumber 4scaffold_x source exon 2989157 2989645. -. nom "foobar"; transcriptId 68892scaffold_x source CDS 2989157 2989645. - 2 nom "foobar"; proteinId 68892; exonNumber 3scaffold_x source exon 2990903 2991541. -. nom "foobar"; transcriptId 68892scaffold_x source CDS 2990903 2991541. - 2 nom "foobar"; proteinId 68892; exonNumber 2scaffold_x source stop_codon 2990903 2990905. - 0 nom "foobar" scaffold_x source exon 2991587 2992430. -. nom "foobar"; transcriptId 68892scaffold_x source CDS 2991587 2992430. - 0 nom "foobar"; proteinId 68892; exonNumber 1scaffold_x source start_codon 2992428 2992430. - 0 nom "foobar"  

Donc le start_codon est 2992428 2992430 et le stop_codon est 2990903 2990905 ; Je m'attendrais donc à tous les exons dans cette gamme, cependant, par ex. l'exon 5 se trouve dans 2987526 2987805 qui est clairement en dehors de cette plage.

Y a-t-il quelque chose qui ne va pas avec le fichier gff lui-même ou y a-t-il une explication plausible à cela?

EDIT:

Dans le fasta protéique correspondant, je trouve une séquence d'acides aminés associée à cet identifiant et à ce nom de prtein:

  >68892 | foobarMHTGD ...  
Merci pour l'édition, mais cela ne nous dit rien. Nous avons besoin de connaître l'adhésion de la protéine et / ou du gène que vous regardez. Qu'est-ce que «68892»? Est-ce l'identifiant du gène? Aussi, pourquoi n'y aurait-il pas de séquence protéique qui lui serait associée? Ce ne sont que les UTR qui ne sont pas traduits, le reste des exons le sera.
@terdon Voir mon commentaire ci-dessous votre réponse. Et merci pour l'indice; il existe en effet des exons dans la région «correcte» qui peuvent ensuite être traduits en protéine. N'hésitez pas à développer votre réponse et je serai heureux de l'accepter.
Je ne comprends pas ce qui vous déroute, pour être honnête. Je serais heureux de développer, mais je ne sais pas dans quelle direction. Cela pourrait être plus simple si vous entrez dans [chat] (https://chat.stackexchange.com/rooms/58858/bioinformatics) pendant une seconde et envoyez-moi un ping (`@terdon`) pour que nous puissions comprendre ce qui vous déroute.
Trois réponses:
terdon
2017-10-20 13:03:44 UTC
view on stackexchange narkive permalink

Oui, bien sûr. Les exons ne sont pas limités aux régions codant pour les protéines. De nombreux UTR sont dans des exons. En fait, vous avez même plusieurs cas d'UTR étant plusieurs exons et épissés.

Ce qui est étrange dans votre fichier n'est pas tant que vous ayez des exons au-delà du codon stop, mais que vous les ayez également marqués comme CDS (séquence codante). Ce n'est pas possible, non. Bien qu'il puisse effectivement y avoir des exons dans les UTR, ceux-ci ne sont pas codants et ne devraient pas être appelés CDS. C'est probablement juste un problème de nomenclature mineur et ce que vous regardez est un UTR épissé.

Ainsi, les exons (ou les parties des exons) qui se situent entre les codons de départ et d'arrêt seront traduits, tandis que ceux qui tombent en dehors de ces régions ne le seront pas (UTR).

Par exemple, voici la structure exonique montrée pour ENST00000617185, l'un des transcriptions du gène P53 humain:

TP53 exonic structure

Les cases sont des exons et les lignes sont des introns. Les cases colorées sont des exons codant pour les protéines, tandis que les vides sont des exons UTR. Notez comment ils sont également épissés et que ce transcrit particulier a 3 exons non codants à l'extrémité 5 'et un à l'extrémité 3'.

@Cleb non, les UTR ne sont pas traduits. Mais je ne peux pas vraiment vous aider si vous ne nous donnez pas le gène que vous regardez. Veuillez modifier votre question et nous dire d'où proviennent les données afin que nous puissions également comparer votre gff à la protéine prévue.
Merci déjà pour votre réponse (+ 1). Donc, si je comprends bien, ces régions ne devraient pas coder pour une protéine, correct !? Le plus drôle est, cependant, si je regarde la protéine fasta correspondante, il y a une séquence d'acides aminés qui lui est associée (voir ma modification). Mais comme il ne s'agit pas d'une séquence codante, cela ne devrait pas être le cas alors?
Malheureusement, il n'est pas accessible au public, lorsque je recherche le nom du gène sur Google, je n'obtiens aucun résultat. Mais pour l'instant, il est déjà bon de savoir qu'il se passe quelque chose de louche (?) Pour que je puisse contacter les auteurs; je voulais juste m'assurer de ne pas manquer quelque chose d'évident.
@Cleb il n'y a rien de louche du tout. Tous (ou, du moins, la grande majorité) des transcriptions codant pour les protéines ont des régions non traduites (UTR) et c'est ce que vous montrez. Cela ne veut pas dire que toute la transcription n'est pas traduite, seulement que les régions UTR ne sont pas traduites. Et que voulez-vous dire qu'il n'est pas accessible au public? Est-ce une prédiction génétique? Tous les gènes sont accessibles au public.
Oui, merci pour cette clarification, je ne suis pas très familier avec ce sujet, donc je demande probablement quelques choses idiotes :) Eh bien, j'ai obtenu le fichier d'un site Web où l'on ne peut télécharger des fichiers que si on est enregistré et pour autant que je compris on n'est pas autorisé à diffuser les informations sans autorisation.
Je me demande si le CDS en dehors de la plage start-stop est lié à différentes isoformes? Les exons ont un identifiant de transcription et les entrées CDS ont un protein_id, mais les lignes de début et d'arrêt n'ont que des identifiants de gène. Il se peut que les entrées CDS et les entires start / stop_codon proviennent d'isoformes de transcription différentes du même gène.
Emily_Ensembl
2017-10-20 12:57:49 UTC
view on stackexchange narkive permalink

Ce sont les régions non traduites (UTR). Tous les ARNm ont un 5 'UTR et un 3' UTR. Ceux-ci donnent au ribosome quelque chose à saisir et contiennent souvent des sites réglementaires importants tels que des sites cibles miARN.

Je me suis souvent posé des questions à ce sujet. Êtes-vous sûr à 100% que * tous * les ARNm auront deux UTR? Ou, du moins, tous les ARNm de mammifères, pour garder les choses simples. La grande majorité le fait, bien sûr, mais c'est la biologie, le pays des nuances de gris et des exceptions. N'y a-t-il absolument pas d'ARNm sans UTR?
Tous ne les ont pas identifiés (encore) mais fonctionnellement, je pense que les UTR sont nécessaires. Je ne suis pas un expert en traduction, mais même en ignorant l'aspect réglementaire, je pense qu'ils sont nécessaires simplement pour permettre au ribosome de se fixer.
Oui, c'est ce que je me demande aussi. Je ne suis pas non plus un expert en traduction, mais je ne me souviens pas d'une telle fonction. Cela, cependant, n'implique en aucun cas qu'il n'y en a pas, c'est pourquoi j'ai pensé demander. Je suis presque sûr que j'ai vu des transcriptions sans UTR annotées, mais comme vous le dites, cela pourrait simplement être une faute dans l'annotation plutôt qu'un phénomène biologique réel.
Merci déjà pour votre réponse (+ 1). Donc, si je comprends bien, ces régions ne devraient pas coder pour une protéine car il s'agit d'une région non traduite, correct !? Cependant, dans le fichier de protéine fasta correspondant, je trouve une séquence amino associée au nom et à l'ID de la protéine (voir ma modification). Comment se peut-il?
Oui, la région codante code pour une protéine. À chaque extrémité de la région de codage se trouve un UTR.
holmrenser
2017-10-26 11:34:55 UTC
view on stackexchange narkive permalink

Bien que l'explication selon laquelle les régions UTR (non transcrites) peuvent être constituées de plusieurs exons couvre la plupart des situations, je pense qu'il est bon de mentionner stop codon readthrough.

Cela entraînerait une partie CDS (séquence codante) de votre ARNm (ARN messager) après un codon stop.

Cependant, suivant la spécification du format gff3, cela devrait probablement être codé différemment, en utilisant des termes SO ( ontologie de séquence) comme SO: 0000697 (gène avec codon d'arrêt lu) et SO: 0000883 (lecture de codon d'arrêt).



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...