Pour un ensemble de données de plusieurs centaines d'individus, j'ai appliqué un clustering hiérarchique pour générer des clusters basés sur un trait fonctionnel qui les distingue.
Ma tâche est maintenant d'évaluer si ces clusters peuvent être pris en charge par le données de séquence nucléotidique du gène correspondant, c'est-à-dire y a-t-il plus de similitude génétique dans chaque cluster qu'entre les clusters.
Pour une première approche, j'ai créé un alignement de séquences multiples pour chaque cluster et calculé le% de sites identiques valeur. Il y a plus de sites identiques dans chaque cluster que dans un alignement de toutes les séquences.
Connaissez-vous de bons outils (de préférence python) qui peuvent effectuer une évaluation plus sophistiquée des clusters existants en fonction des données de séquence? d'autres méthodes de notation avec lesquelles je peux évaluer la similarité de séquence au sein des clusters (encore une fois de préférence python)?