Question:
Comment obtenir tous les homologues PDB d'Uniprot (mapping + BLAST)?
Zubo
2017-12-12 19:33:06 UTC
view on stackexchange narkive permalink

Je voudrais créer un jeu de données composé de toutes les séquences qui sont soit présentes dans la PDB, soit dont l'homologue est présent dans la PDB. En d'autres termes, toute séquence de la PDB ou toute séquence qui lui est liée. La marge de similitude doit être très large, donc tout ce qui est au-dessus, par exemple, 25% d'identité de séquence est accepté (peut-être qu'il y a de meilleurs critères, mais vous voyez le point).

Aucune autre limitation, donc tout organisme, avec ou sans données expérimentales, ne se limite pas à l'ensemble Swissprot organisé manuellement.

J'ai essayé la base de données SIFTS, mais celle-ci contient, pour autant que je sache, uniquement des mappages pour l'identité de séquence> 85%. Je voudrais aller bien en dessous de cela.

Merci pour la modification, c'est beaucoup plus clair! Alors, question suivante: comment définissez-vous les «homologues»? Recherchez-vous uniquement l'homologie fonctionnelle? L'homologie de séquence est-elle suffisante? Je suppose que vous supposerez que les séquences homologues partageront une structure, mais ce n'est certainement pas toujours le cas. Y a-t-il une raison pour laquelle vous ne faites pas l'inverse? Obtenir toutes les séquences de la PDB et les mapper aux accessions UniProt?
Les homologues @terdon sont définis ici comme une identité de séquence> 25%, donc très très largement. Je serais, en fait, prêt à lancer une recherche BLAST pour chaque entrée PDB vs Uniprot, mais je suppose que cela prendra un certain temps, donc je vérifie pour éviter de réinventer la roue.
Deux réponses:
marcin
2018-04-25 20:06:41 UTC
view on stackexchange narkive permalink

Pour la correspondance entre les entrées PDB et Uniprot, vous pouvez utiliser SIFTS - un mappage semi-automatisé entre PDB et UniProt maintenu par PDBe.

Le pipeline qui crée les mappages utilise BLAST et quelques autres critères pour décider quelle entrée UniProt doit être attribuée à chaque entrée PDB. Le site Web SIFTS contient toutes les données dans des fichiers CSV.

Merci pour le conseil! J'ai regardé. Dans la publication référencée, je n'ai trouvé qu'une mention indiquant qu'ils recherchent une identité de séquence à 90% pour accepter une référence croisée; cela ne me suffit pas - j'ai besoin de toutes les entrées UniProt avec, par exemple, une identité de séquence supérieure à 25%. Si je comprends bien, c'est ce qui est contenu dans les fichiers du serveur ftp ftp://ftp.ebi.ac.uk/pub/databases/msd/sifts/, notamment les uniprot_segments_observed.
Raw Dawg
2018-02-22 04:17:13 UTC
view on stackexchange narkive permalink

Vous pouvez télécharger une base de données BLAST contenant toutes les séquences de protéines dans Uniprot et dans la PDB. La façon dont je procéderais est d'abord de télécharger les bases de données pour uniprot et PDB, puis d'interroger la base de données PDB pour chaque séquence depuis Uniprot. Si vous obtenez un coup BLAST au-dessus d'un certain seuil (quoi que vous définissiez comme homologue), ajoutez cette séquence à un fichier, et voilà, vous avez un ensemble complet de séquences qui remplissent vos critères. Les seuls outils dont vous auriez besoin pour cela sont les exécutables BLAST ( trouvés ici) et les bases de données (des informations sur la façon de télécharger peuvent être trouvées ici).

Je dois noter que vous n'avez pas vraiment besoin de Python pour que cela fonctionne, seulement de quelques scripts shell. Bien que vous puissiez exécuter ces commandes via un wrapper Python si vous le souhaitez vraiment.

Bonne chance!

C'est donc comme des requêtes BLAST de 60M? Combien de temps cela prendrait-il?


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...