Question:
Ordre de suppression des effets de lot, imputation des données et normalisation de la taille de la bibliothèque dans les données scRNA-seq
gc5
2018-01-04 02:22:15 UTC
view on stackexchange narkive permalink

Je prétraite les données scRNA-seq. Quelle est la meilleure pratique à utiliser pour exécuter à la fois ComBat pour la suppression des effets par lots, l'imputation des données (pour atténuer le décrochage) et la normalisation de la taille de la bibliothèque?

J'ai pensé que la taille de la bibliothèque devrait être exécutée en premier, car elle est par- normalisation des cellules, puis suppression des effets par lots ComBat. Sur le papier original - Johnson et al. (2007) - il est indiqué que:

Nous supposons que les données ont été normalisées et que les valeurs d'expression ont été estimées pour tous les gènes et échantillons.

Cependant, je souhaite l'appliquer aux données scRNA-seq. Cette déclaration tient-elle toujours? De plus, je prévois d'appliquer l'imputation (par exemple avec MAGIC) à la fin. Y a-t-il un problème que vous pouvez repérer?

Mise à jour

Je joins la PCA concernant un exemple de jeu de données Mus Musculus dans lequel différentes couleurs représentent différentes souris. Il me semble clair que les deux premiers composants principaux sont affectés par les lots (id de la souris).

pca

Update 2

J'ai réexécuté l'ACP sur les données brutes de comptage (la première PCA était sur des données transformées en log) et j'obtiens une description différente de l'ensemble de données, dans laquelle les effets de lots ne semblent pas être répandus.

pca_raw

D'après ce que je peux dire, MAGIC devrait être exécuté sur des données brutes, ce serait donc la première étape.
@burger MAGIC normalise les données avant l'imputation, il doit donc être exécuté au moins après la normalisation de la taille de la bibliothèque. Ma préoccupation est que l'utilisation de MAGIC avant ComBat amplifiera les effets de lots. En lisant l'article, je n'ai trouvé aucune référence à l'élimination des effets par lots.
Le conseil que j'ai reçu était que le mieux serait d'ajuster l'effet de lot au lieu de les supprimer. Avez-vous essayé d'ajuster vos effets par lots? Quelle est la taille de votre effet batch? (Le PCA ou MDS ou les dendogrammes montrent-ils une distinction claire par votre effet de lot (ou plusieurs lots)?)
@Llopis oui, en fait pour la suppression des effets par lots, je voulais dire ajuster l'effet par lots avec ComBat, c'est ce que vous vouliez dire?
Non, comBat ne règle pas l'effet batch, il le «supprime» (malgré la première ligne de la page d'aide). De la (même) page d'aide: "Les utilisateurs reçoivent une matrice d'expression qui a été corrigée pour les effets de lots"; il modifie les données pour les "ajuster", au lieu d'ajouter / calculer un facteur à prendre en compte pour les étapes ultérieures. Ce dernier peut être fait dans limma, DESeq2 et d'autres packages mais ce n'est pas le même ajustement que la suppression.
@Llopis ok merci, je ne connaissais pas cette distinction. Cependant, mon PCA montre une distinction claire entre les lots. Je vais mettre à jour la question avec le chiffre. Pouvez-vous donner plus de détails sur le calcul d'un facteur à prendre en compte pour les étapes ultérieures? Voulez-vous extraire le composant principal corrélé avec le lot et en faire quelque chose plus tard?
Eh bien, ce que je fais, c'est inclure les effets de lots connus sur les modèles linéaires. Cela peut se faire via le composant du PCA ou les catégories que vous connaissez de vos lots. Pourriez-vous développer vos lots? Que font 3_8, 3_38 ... (je suppose que M est un homme et F est une femme).?
@Llopis, malheureusement, je n'ai pas d'informations de métadonnées concernant la première partie de l'identifiant de la souris. Ils ne fournissent que le sexe (H / F), comme vous l'avez supposé.
Votre PC2 sépare les cellules des souris mais ne représente que 0,6% de la variation, donc je dirais qu'il n'y a pas d'effet batch. La première dimension est assez élevée, mais je ne sais pas si cela est normal dans scRNA-seq. Je n'ajusterai ni ne supprimerai l'effet de lot ici si ce serait RNA-seq. Mais je n'ai jamais analysé de scRNA
Laissez-nous [continuer cette discussion dans le chat] (http://chat.stackexchange.com/rooms/71464/discussion-between-gc5-and-llopis).
d'après mon expérience, la première chose à faire est de normaliser la taille de la bibliothèque. Je soupçonne que si vous colorez vos cellules en fonction de leur taille, vous remarquerez une corrélation claire avec PC1.
Un répondre:
Scott Gigante
2018-10-21 23:35:04 UTC
view on stackexchange narkive permalink

MAGIC suppose que les données d'entrée ont été à la fois normalisées à la taille de la bibliothèque et transformées en log ou en sqrt avant l'imputation (voir aussi: didacticiel MAGIC). De plus, toutes les méthodes basées sur des graphes (MAGIC, PHATE, t-SNE, UMAP, clustering spectral, Louvain, etc.) donneront des résultats erronés si vos données contiennent un effet de lot, car le graphe de voisinage refléterait cette structure de votre effet de lot. , et pire encore, l'imputation renforcerait encore cet effet de lot.

Je recommanderais donc le pipeline suivant:

  • Normalisation de la taille de la bibliothèque
  • Racine carrée (ou log) transformation
  • Suppression de l'effet par lots
  • Imputation

Concernant votre mise à jour , la raison pour laquelle vous ne le faites pas Pour voir l'effet de lot dans les données de dénombrement brutes, c'est simplement que l'effet de lot n'est pas visible dans les gènes les plus exprimés. Avant la transformation, la principale source de variation de vos données est simplement l'expression des gènes les plus exprimés - il s'agit essentiellement de masquer la source de l'effet batch, et non de la supprimer. Je recommande de ne jamais travailler avec le nombre de molécules brutes dans scRNAseq, car les données de comptage brutes cachent une grande partie de l'hétérogénéité de votre ensemble de données, ce qui est précisément ce que vous recherchez en faisant un RNA-seq unicellulaire.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...