Question:
Explication intuitive de l'analyse GSVA
J. Doe
2018-03-11 02:33:00 UTC
view on stackexchange narkive permalink

J'essaie de comprendre comment l'analyse GSVA fonctionne dans les coulisses et je me demandais s'il y avait un moyen de comprendre plus intuitivement l'ensemble du processus.

Donc, au début, selon papier il commence par évaluer si un gène i est fortement ou faiblement exprimé dans l'échantillon j dans le contexte de la distribution de la population de l'échantillon. Ils utilisent ces estimations par noyau des fonctions de densité cumulées pour transformer les valeurs initiales afin de ne pas être affecté par les intensités problématiques.

Après cette "transformation" et une normalisation suivante, GSVA calcule les scores d'enrichissement en utilisant le Kolmogorov-Smirnov (KS) comme aléatoire statistique de marche .

Comme je le sais, Kolmogorov-Smirnov vérifie les différences dans les distributions. Quelles distributions vérifie-t-il? Le jeu de gènes est contre tous les autres gènes? Et quel est le rôle de la marche aléatoire?

Existe-t-il donc un moyen intuitif de comprendre ce type de Kolmogorov-Smirnov (KS) comme une statistique de marche aléatoire? Comment ça marche réellement? Laquelle est nulle et quelle est l'hypothèse alternative dans ce cas?

Un répondre:
llrs
2018-03-14 22:08:33 UTC
view on stackexchange narkive permalink

L'explication la plus intuitive est également expliquée dans la section de fond:

Conceptuellement, cette méthodologie peut être comprise comme un changement des systèmes de coordonnées pour les données d'expression génique, des gènes aux ensembles de gènes.

Ce qui, je pense, est expliqué dans la figure 1 de l'article, qui est également l'une des méthodes les plus informatives que j'ai trouvées sur les méthodes d'un algorithme 1 . GSVA figure 1 Je vais l'utiliser pour expliquer ce qui se passe.

  1. Ajuster une fonction de distribution par gène

Pour chaque profil d'expression génique ... une fonction d'estimation du noyau non paramétrique ... est effectuée.

Je ne peux pas donner plus de détails car je ne l'ai pas bien compris

  1. Ensuite, ils sont normalisés pour rendre les rangs symétriques autour de zéro

    C'est une formule en ligne entre les équations 2 et 3.

  2. La statistique de marche aléatoire de Kolmogorov-Smirnov est appliquée à ces estimations du noyau aux distributions normalisées.

    Quelles sont les deux distributions comparées? Les gènes dans un ensemble de gènes et tous les autres (mais je ne suis pas tout à fait sûr)

    Le rôle de la marche aléatoire est expliqué un peu plus tard à partir de votre citation:

    [la marche aléatoire] produit une distribution sur les gènes pour évaluer si les gènes de l'ensemble de gènes sont plus susceptibles de se trouver à l'une ou l'autre des extrémités de la distribution des rangs

    Ce qui est plus tard utilisé pour calculer le score d'enrichissement en regardant l'écart maximal par rapport à zéro, ou en additionnant les écarts les plus grands et les plus faibles.

Pour répondre à d'autres questions:

GSVA calcule les scores d'enrichissement de l'ensemble de gènes par échantillon en fonction des gènes à l'intérieur et à l'extérieur du gène set, de manière analogue à un test d'ensembles de gènes compétitif


1: Essayez de trouver les ajustements et approximations qui sont effectués à l'intérieur de limma



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...