Question:
Classification des échantillons en fonction de l'expression du gène marqueur
GWW
2017-05-24 20:41:28 UTC
view on stackexchange narkive permalink

J'ai quelques ensembles de gènes marqueurs que je peux classer les échantillons ARN-seq en utilisant le clustering semi-supervisé. Je voudrais automatiser le processus, cependant, j'ai du mal à trouver l'algorithme idéal qui pourrait générer une sorte de score pour l'ensemble de gènes marqueurs à partir d'un échantillon donné.

Je suppose qu'il s'agit d'une analyse standard dans de nombreux groupes, mais je ne sais pas quelle (s) méthode (s) donnent de bons résultats en pratique.

Il y a eu récemment une question similaire sur Biostars qui n'a donné aucune réponse: https://www.biostars.org/p/239228/
Je suis surpris. Cela semble être un problème si important. Surtout avec scRNA-seq qui gagne en popularité.
Puisque vous avez mentionné les données scRNA-seq, vous pourriez être intéressé par [Buettner * & al. *] (Https://www.nature.com/nbt/journal/v33/n2/full/nbt.3102.html): " L'analyse informatique de l'hétérogénéité de cellule à cellule dans les données de séquençage d'ARN monocellulaire révèle des sous-populations cachées de cellules ». Cela ne résout pas tout à fait votre problème, mais cela montre certains des problèmes associés à l'identification des populations de cellules dans scRNA-seq en particulier, qui sont en grande partie lissées dans l'ARN-seq en masse.
Un répondre:
Peter Humburg
2017-05-25 04:32:41 UTC
view on stackexchange narkive permalink

J'envisagerais d'utiliser des signatures d'expression génique pour classer les échantillons (en particulier les sous-types de cancer mais les mêmes principes s'appliquent à d'autres problèmes de ce type) l'un des problèmes classiques de la bioinformatique. Beaucoup de travail a été fait sur les méthodes pour dériver des ensembles de gènes qui fournissent de bonnes performances de classification. Ceci est légèrement différent de votre problème puisque vous avez déjà une signature génétique, mais cela peut quand même s'avérer utile.

Ces méthodes conviennent généralement à un modèle qui sélectionne un (petit) nombre de gènes à partir de données d'expression à l'échelle du génome qui distinguent les types / conditions cellulaires en question, c'est-à-dire qu'ils dérivent une signature génétique. Le modèle résultant permet alors la classification de nouveaux échantillons. J'ai eu du succès en utilisant GeneRave à cette fin (mais notez que cela a été conçu pour les données de microarray, je ne l'ai pas utilisé avec les données RNA-seq et je ne sais pas à quel point cela tient là-haut ). Un article plus récent concernant ce problème est disponible ici.

Alors, comment cela vous aide-t-il? Une option serait d'ajuster l'un de ces classificateurs aux données d'expression génique pour les gènes que vous connaissez déjà pour obtenir un modèle qui peut ensuite être appliqué automatiquement à de nouveaux échantillons.

C'est vraiment utile merci beaucoup. Je vais les essayer ou du moins voir comment je peux adapter leurs méthodes.
En vous basant sur la mise en garde d'@Peter Humberg selon laquelle GeneRave est conçu pour les données de microarray, vous pouvez «voom» transformer vos comptes en utilisant «limma» pour les rendre * comme des microarray *.
Quand j'ai besoin de comparer l'expression cDNASeq avec microarray, j'utilise une normalisation de la longueur de transcription appliquée à la transformation VST de DESeq (que j'appelle «VSTPk»). Plus de détails à ce sujet peuvent être trouvés dans la section méthodes de notre article Th2 RNASeq: http: //dx.doi.org/10.1084/jem.20160470


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...