Je voudrais créer un jeu de données composé de toutes les séquences qui sont soit présentes dans la PDB, soit dont l'homologue est présent dans la PDB. En d'autres termes, toute séquence de la PDB ou toute séquence qui lui est liée. La marge de similitude doit être très large, donc tout ce qui est au-dessus, par exemple, 25% d'identité de séquence est accepté (peut-être qu'il y a de meilleurs critères, mais vous voyez le point).
Aucune autre limitation, donc tout organisme, avec ou sans données expérimentales, ne se limite pas à l'ensemble Swissprot organisé manuellement.
J'ai essayé la base de données SIFTS, mais celle-ci contient, pour autant que je sache, uniquement des mappages pour l'identité de séquence> 85%. Je voudrais aller bien en dessous de cela.