Je recherche des services de cloud computing pouvant être utilisés pour faire de la bioinformatique. Un exemple que j'ai trouvé est InsideDNA et il y a bien sûr Amazon. Une petite description de ceux-ci serait appréciée.
Je recherche des services de cloud computing pouvant être utilisés pour faire de la bioinformatique. Un exemple que j'ai trouvé est InsideDNA et il y a bien sûr Amazon. Une petite description de ceux-ci serait appréciée.
J'ai essayé la version gratuite d'InsideDNA, et voici mes remarques:
wget
étaient lentes et scp
était bloqué. Cependant, ces problèmes peuvent être résolus. Dans l'ensemble, j'ai pensé qu'InsideDNA pourrait être utile pour les groupes sans leur propre infrastructure de calcul et pourrait être utilisé pour partager facilement des ressources entre groupes. Les packages proposés ne semblent pas chers, mais j'ai eu quelques problèmes, et je ne sais pas à quel point leur support d'administration système serait bon.
Je n'ai pas utilisé le service Amazon, donc je ne peux pas commenter au-delà des détails sur leur site Web. Il existe également quelques sociétés alternatives, telles que Genestack et DNAnexus, mais je ne les ai pas testées directement non plus.
Je ne suis pas sûr du type de tâches bioinformatiques que vous aimeriez effectuer, il est donc difficile de donner une bonne recommandation.
Si vous travaillez spécifiquement sur la génétique statistique, je peux vous recommander Grêle [1]. Hail est un outil open-source pour analyser les données génétiques à l'échelle des dizaines de téraoctets. La plupart des utilisateurs de Hail font leur science dans des blocs-notes Jupyter qui sont soutenus par des clusters Google Cloud Platform Dataproc. La grêle vous permet d'effectuer diverses tâches de génétique statistique, notamment:
Pour en savoir plus sur l'utilisation de Hail avec Google Cloud Platform et Jupyter notebooks, je recommande vivement le message de Liam's Hail sur son référentiel d'outils cloud.
Voici un exemple, tiré du tutoriel Hail, de en utilisant Hail pour effectuer un contrôle qualité et afficher un nuage de points des deux premiers composants principaux des individus:
from grêle import * import m atplotlib.pyplot as pltimport matplotlib.patches as mpatcheshc = HailContext () table = hc.import_table ('data / 1kg_annotations.txt', impute = True) .key_by ('Sample') common_vds = (hc.read ('data / 1kg .vds ') .annotate_samples_table (table, root =' sa ') .sample_qc () .filter_samples_expr (' sa.qc.dpMean > = 4 && sa.qc.callRate > = '0.97' abilter '). = g.ad [1] / g.ad.sum () dans ((g.isHomRef && ab < = 0.1) ||
(g.isHet && ab > = 0,25 && ab < = 0,75) || (g.isHomVar && ab > = 0.9)) '' ') .variant_qc () .filter_variants_expr (' va.qc.AF > 0.01 ') .ld_prune (memory_per_ca = 512, num_pores = 4vd. 'sa.pca', k = 5, valeurs propres = 'global.eigen') pca_table = pca.samples_table (). to_pandas () couleurs = {'AFR': 'vert', 'AMR': 'rouge', 'EAS ':' noir ',' EUR ':' bleu ',' SAS ':' cyan '} plt.scatter (pca_table ["sa.pca.PC1"], pca_table ["sa.pca.PC2"], c = pca_table ["sa.SuperPopulation"]. map (couleurs), alpha = .5) plt.xlim (-0.6, 0.6) plt.xlabel ("PC1") plt.ylabel ("PC2") legend_entries = [mpatches.Patch (color = c, label = pheno) pour phéno, c dans colors.items ()] plt.legend (handles = legend_entries, loc = 2) plt.show ()
[1 ] Clause de non-responsabilité: je travaille sur Hail
En fonction de vos applications et de vos utilisations, vous pourriez être intéressé par CyVerse. Il s'agit d'une initiative financée par la NSF qui vous offre un stockage de données, des ressources informatiques haute performance et un accès facile aux outils couramment utilisés. Autant que je sache, son utilisation est gratuite une fois que vous avez un compte. Je le rencontre aussi généralement utilisé avec la génomique végétale et microbienne, donc je ne sais pas comment cela fonctionnera avec quelque chose comme des projets de génomique humaine. Mais cela vaut peut-être la peine de vérifier au moins. :)
Plus d'informations: http://www.cyverse.org/about
Cela dépend vraiment de ce que vous essayez de faire, mais voici quelques services que je connais.
Google a une API appelée Google Genomics.
"SNPedia est un wiki qui étudie la génétique humaine . "snpedia.com
" Promethease est un système de recherche documentaire qui crée un rapport ADN personnel "promethease.com
"Comparez l'ADN avec des données de référence de différentes populations" dna.land
Et, il y a le projet CyDAS qui a une API qui peut analyser les formules ISCN. Selon leur site web: leur API "vous permet d'analyser un caryotype pour pratiquement toutes les informations qui peuvent être extraites des caryotypes et des réarrangements qu'il contient: gains et pertes de matière chromosomique, points de rupture, jonctions ..." C'est un service gratuit , mais je ne sais pas à quel point il est à jour.
DNAnexus - http://dnanexus.com
BaseSpace - http://basespace.illumina.com
Seven Bridges Genomics - http://www.sbgenomics.com
Curoverse http://curoverse.com
InsideDNA http://insidedna.me/
Il y en a des tonnes. En plus des excellents que tout le monde a mentionnés
iRods
Arvados
Galaxie