Je prétraite les données scRNA-seq. Quelle est la meilleure pratique à utiliser pour exécuter à la fois ComBat pour la suppression des effets par lots, l'imputation des données (pour atténuer le décrochage) et la normalisation de la taille de la bibliothèque?
J'ai pensé que la taille de la bibliothèque devrait être exécutée en premier, car elle est par- normalisation des cellules, puis suppression des effets par lots ComBat. Sur le papier original - Johnson et al. (2007) - il est indiqué que:
Nous supposons que les données ont été normalisées et que les valeurs d'expression ont été estimées pour tous les gènes et échantillons.
Cependant, je souhaite l'appliquer aux données scRNA-seq. Cette déclaration tient-elle toujours? De plus, je prévois d'appliquer l'imputation (par exemple avec MAGIC) à la fin. Y a-t-il un problème que vous pouvez repérer?
Mise à jour
Je joins la PCA concernant un exemple de jeu de données Mus Musculus dans lequel différentes couleurs représentent différentes souris. Il me semble clair que les deux premiers composants principaux sont affectés par les lots (id de la souris).
Update 2
J'ai réexécuté l'ACP sur les données brutes de comptage (la première PCA était sur des données transformées en log) et j'obtiens une description différente de l'ensemble de données, dans laquelle les effets de lots ne semblent pas être répandus.