Question:
Comment sélectionner des structures de haute qualité dans la banque de données sur les protéines?
marcin
2017-06-01 18:04:41 UTC
view on stackexchange narkive permalink

La qualité des modèles de structures déposées dans la banque de données sur les protéines varie, en fonction à la fois de la qualité des données et de l'expertise et de la patience de la personne qui a construit le modèle. Existe-t-il un sous-ensemble bien accepté d'entrées PDB qui n'a que des structures «de haute qualité»? Idéalement, ces structures seraient représentatives des classes de protéines dans l'ensemble de la BDP.

basée sur une vraie question de biology.SE

Deux réponses:
Davidmh
2017-06-01 18:55:33 UTC
view on stackexchange narkive permalink

Il existe une très belle base de données, pdbcull (également connue sous le nom de serveur PISCES dans la littérature). Il filtre le PDB pour une haute résolution et une identité de séquence réduite. Il semble également être mis à jour régulièrement. En fonction des seuils, vous obtenez entre 3000 et 35000 structures.

Si vous êtes spécifiquement intéressé par les rotamères, vous pouvez plutôt regarder top8000, où ils ont vérifié pour une haute résolution et de bons scores MolProbity. Ils fournissent également une base de données rotamère.

PDB fournit également leur propre clustering. Ils regroupent d'abord les séquences, puis extraient une structure représentative pour chacune d'elles, en fonction du facteur de qualité ( 1 / résolution - R_value ). Cela a l’avantage d’être complet, mais vous aurez de mauvaises structures alors qu’aucune bonne n’a jamais été obtenue.

Rosalind Was Robbed
2017-06-15 03:56:46 UTC
view on stackexchange narkive permalink

Si vous choisissez d'effectuer votre propre sélection de la PDB, la résolution est probablement la première chose que vous voudrez regarder, qui, comme le mentionne Davidmh, est le principal critère de sélection pour PISCES. Les structures de haute qualité auront également de meilleures valeurs de facteur R. Vous pouvez également donner la préférence en fonction de la technique expérimentale, par ordre décroissant de qualité:

Diffraction neutronique, diffraction des rayons X, RMN solution / état solide, microscopie électronique / cristallographie, diffraction sur fibre, diffusion de solution.

oui, ce sont des critères de PISCES, bien qu'ils semblent assez simplistes. Le facteur R est utilisé mais l'écart entre le facteur R et Rfree est ignoré. La résolution (d_min dans la presse) est le seul critère de qualité des données (l'exhaustivité des données est ignorée). Aucune validation de géométrie.
L'écart entre les facteurs R et sans R est une bonne chose à regarder, mais d'après mon expérience, le nombre de structures rapportant les deux de manière standardisée est plutôt faible. BioJava ne les a mis à disposition que récemment, IIRC, et c'est généralement l'outil que j'utilise.
[80,7%] (http://mmcif.wwpdb.org/dictionaries/mmcif_pdbx_v50.dic/Items/_refine.ls_R_factor_R_free.html) des rapports de structures PDB sans R, légèrement moins de [86,8%] (http: // mmcif .wwpdb.org / dictionaries / mmcif_pdbx_v50.dic / Items / _refine.ls_d_res_high.html) qui signale la résolution.


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...