Question:
Filtrer les valeurs aberrantes du scRNA-seq (cellules hétérogènes)
Nikita Vlasenko
2017-12-18 04:11:39 UTC
view on stackexchange narkive permalink

Je suis nouveau dans la science des données. J'ai un ensemble de données sur l'expression de gènes unicellulaires à partir de plusieurs types de cellules dans C. Elegans . L'ensemble de données provient de l'article Profilage transcriptionnel unicellulaire complet d'un organisme multicellulaire

Ma question principale est: Quelles approches dois-je utiliser pour filtrer les mauvaises cellules dans ce cas où nous avons plusieurs types de cellules dans l'ensemble de données?

Jusqu'à présent, j'ai essayé de filtrer les gènes qui ont un contenu en gènes mitochondriaux trop élevé en suivant le flux de travail Bioconductor «simpleSingleCell».

Cependant, le tutoriel indique spécifiquement que la méthode de filtrage basée sur les gènes mitochondriaux ne fonctionnera probablement pas lorsque l'ensemble de données a plusieurs types de cellules:

Analyse de tout les types de cellules ensemble gonfleraient inutilement le MAD et compromettraient au mieux l'élimination des cellules de mauvaise qualité; ou conduire à la perte totale d'un type de cellule, au pire.

Toute suggestion serait grandement appréciée.

Par filtrage, que voulez-vous dire: retirer l'échantillon de l'analyse lorsqu'il y a trop de gènes mithocondriaux ou supprimer les gènes mitochondriaux? (Cela semble important dans scRNAseq et je n'ai pas travaillé avec, alors excusez-moi si c'est une question naïve)
suppression des échantillons de mauvaise qualité
Ce n'est pas une norme, mais j'ai trouvé ce cours utile http://hemberg-lab.github.io/scRNA.seq.course/. Personnellement, je filtre les cellules avec un nombre de transcrits trop bas ou trop élevé, les cellules avec un faible nombre de gènes détectés et les cellules avec un rapport ARN de pointe / endogène élevé. Avant ce pipeline, je filtre également l'ARN ribosomal. Prenez-le avec un grain de sel car j'expérimente toujours dessus. En outre, cette réponse peut aider https://bioinformatics.stackexchange.com/a/3171/1771
Un répondre:
plat
2018-01-10 19:44:39 UTC
view on stackexchange narkive permalink

D'après ce que je sais, il n'y a pas de consensus clair sur le terrain et cela dépend du type de cellules que vous interrogez.

Cependant, si le rapport mitoARN / ARN endogène ne correspond pas à vos besoins, une autre option est de vérifier le nombre total de gènes / transcriptions détectés dans chaque cellule. De cette façon, vous pouvez filtrer les cellules qui ont considérablement moins de gènes / transcrits détectés que les autres, car cela peut indiquer des cellules de mauvaise qualité pour une raison quelconque (apoptose, dégradation de l'ARN, séquençage lui-même, etc.). Par exemple, pour mettre un seuil de> 1000 gènes / transcriptions dans une cellule à prendre en compte pour une analyse plus approfondie.

Pensez également à examiner le nombre de lectures mappées pour chaque cellule, car les cellules avec des lectures mappées faibles par rapport au reste peuvent être potentiellement problématiques.

Que signifie «lectures mappées»? En quoi est-il différent de la matrice d'expression elle-même?
Si vous utilisez des UMI, je filtre généralement ceux qui sont pris en charge par moins de 3 lectures et certains qui ne répondent pas aux exigences de contrôle qualité. Dans ce cas, les UMI et les lectures mappées ne correspondent pas (bien que cela devrait être très similaire). À la fin, il y a une autre façon de réaliser le CQ des données mais à un stade plus précoce de l'analyse (avant de compter les molécules et de les attribuer à des gènes).


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...