Question:
Quels sont les services de cloud computing disponibles pour la bioinformatique?
Peter
2017-06-12 16:51:35 UTC
view on stackexchange narkive permalink

Je recherche des services de cloud computing pouvant être utilisés pour faire de la bioinformatique. Un exemple que j'ai trouvé est InsideDNA et il y a bien sûr Amazon. Une petite description de ceux-ci serait appréciée.

Pouvez-vous également mentionner Google Compute et préciser ce que vous souhaitez savoir exactement? Comme je m'attends à ce que cela finisse par se fermer autrement.
À quoi souhaitez-vous utiliser les services informatiques? Avez-vous accès à une université, un institut de recherche ou un autre établissement universitaire? Y a-t-il une raison particulière pour laquelle votre ordinateur de bureau ou ordinateur portable n'est pas approprié?
Quel type de calcul vous intéresse? Il existe des sociétés spécialisées dans la bioinformatique qui sous-traitent les calculs sur Google Cloud ou Amazon. Je pense que pour différents types de calculs, vous devriez contacter une entreprise différente ...
Pour le moment, c'est une question purement théorique, car les installations informatiques de mon université sont plus que suffisantes pour l'analyse des données RNA-seq. Je cherche juste une simple liste d'entreprises qui fournissent ce service, car une simple recherche ne renvoie pas beaucoup. Dans mon environnement idéal, je ne dépend pas de logiciels préinstallés (c'est-à-dire que je peux installer des logiciels), l'interaction en ligne de commande (bash) est rapide et je peux faire confiance à l'entreprise pour les sauvegardes, etc. - donc je suis également intéressé par l'emplacement de le fournisseur, depuis combien de temps il existe et les ressources informatiques dont il dispose.
Je ne pense pas que ce soit une bonne question car il n'y a pas une seule bonne réponse (ou du moins la réponse devrait être une liste, pas un fournisseur unique), donc je vais juste lier les fournisseurs que je connais: [DNAnexus] (https: / /www.dnanexus.com/) (privé) et [Vital-it] (http://www.vital-it.ch/) (universitaire)
Ce message est trop large.
Article connexe: https://www.biostars.org/p/86463/
Quel type d'analyse bioinformatique envisagez-vous de faire?
@arupgsh Voir mon commentaire ci-dessus
J'ai mis cela en attente car demander des listes comme celle-ci n'est vraiment pas un très bon choix pour le format de questions et réponses et mieux adapté à quelque chose comme un forum où une discussion peut avoir lieu. Voir [cet ancien article de blog] (https://stackoverflow.blog/2010/11/23/qa-is-hard-lets-go-shopping/) pour une explication de la justification générale derrière l'examen de ce type de question hors sujet .
Sept réponses:
Chris_Rands
2017-06-12 17:51:04 UTC
view on stackexchange narkive permalink

J'ai essayé la version gratuite d'InsideDNA, et voici mes remarques:

  • Coût: \ 225 $ / mois pour une équipe de 5 personnes avec 50 To de stockage ou \ 45 $ / mois avec 10 To de stockage pour les particuliers (en supposant un package de 6 mois: https://insidedna.me/pricing).
  • Logiciels installés: environ 600 outils bioinformatiques disponibles et outils de ligne de commande standard; certains outils populaires manquent (comme CD-HIT), mais devraient pouvoir être installés sur demande.
  • Tâches: 32 CPU et 208 RAM maximum par soumission de travail. Les tâches de test ont généralement fonctionné, même si une tâche de test plus importante a échoué.
  • Autres points: la ligne de commande était parfois lente, les requêtes wget étaient lentes et scp était bloqué. Cependant, ces problèmes peuvent être résolus.

Dans l'ensemble, j'ai pensé qu'InsideDNA pourrait être utile pour les groupes sans leur propre infrastructure de calcul et pourrait être utilisé pour partager facilement des ressources entre groupes. Les packages proposés ne semblent pas chers, mais j'ai eu quelques problèmes, et je ne sais pas à quel point leur support d'administration système serait bon.

Je n'ai pas utilisé le service Amazon, donc je ne peux pas commenter au-delà des détails sur leur site Web. Il existe également quelques sociétés alternatives, telles que Genestack et DNAnexus, mais je ne les ai pas testées directement non plus.

Daniel King
2017-07-25 18:07:46 UTC
view on stackexchange narkive permalink

Je ne suis pas sûr du type de tâches bioinformatiques que vous aimeriez effectuer, il est donc difficile de donner une bonne recommandation.

Si vous travaillez spécifiquement sur la génétique statistique, je peux vous recommander Grêle [1]. Hail est un outil open-source pour analyser les données génétiques à l'échelle des dizaines de téraoctets. La plupart des utilisateurs de Hail font leur science dans des blocs-notes Jupyter qui sont soutenus par des clusters Google Cloud Platform Dataproc. La grêle vous permet d'effectuer diverses tâches de génétique statistique, notamment:

  • filtrage et agrégation pour le contrôle qualité
  • sous-ensembles, régression linéaire, régression de modèle mixte linéaire et test de charge linéaire
  • utilitaires pour calculer diverses mesures de relation
  • analyse des principaux composants
  • fractionnement de variantes
  • import / export à partir de divers formats, y compris PLINK , VCF et BGEN, et
  • une API python qui permet d'utiliser des bibliothèques comme matplotlib pour tracer les résultats d'analyse

Pour en savoir plus sur l'utilisation de Hail avec Google Cloud Platform et Jupyter notebooks, je recommande vivement le message de Liam's Hail sur son référentiel d'outils cloud.

Voici un exemple, tiré du tutoriel Hail, de en utilisant Hail pour effectuer un contrôle qualité et afficher un nuage de points des deux premiers composants principaux des individus:

  from grêle import * import m atplotlib.pyplot as pltimport matplotlib.patches as mpatcheshc = HailContext () table = hc.import_table ('data / 1kg_annotations.txt', impute = True) .key_by ('Sample') common_vds = (hc.read ('data / 1kg .vds ') .annotate_samples_table (table, root =' sa ') .sample_qc () .filter_samples_expr (' sa.qc.dpMean > = 4 && sa.qc.callRate > = '0.97' abilter '). = g.ad [1] / g.ad.sum () dans ((g.isHomRef && ab < = 0.1) ||
(g.isHet && ab > = 0,25 && ab < = 0,75) || (g.isHomVar && ab > = 0.9)) '' ') .variant_qc () .filter_variants_expr (' va.qc.AF > 0.01 ') .ld_prune (memory_per_ca = 512, num_pores = 4vd. 'sa.pca', k = 5, valeurs propres = 'global.eigen') pca_table = pca.samples_table (). to_pandas () couleurs = {'AFR': 'vert', 'AMR': 'rouge', 'EAS ':' noir ',' EUR ':' bleu ',' SAS ':' cyan '} plt.scatter (pca_table ["sa.pca.PC1"], pca_table ["sa.pca.PC2"], c = pca_table ["sa.SuperPopulation"]. map (couleurs), alpha = .5) plt.xlim (-0.6, 0.6) plt.xlabel ("PC1") plt.ylabel ("PC2") legend_entries = [mpatches.Patch (color = c, label = pheno) pour phéno, c dans colors.items ()] plt.legend (handles = legend_entries, loc = 2) plt.show ()  

[1 ] Clause de non-responsabilité: je travaille sur Hail

G_Hannigan
2017-06-12 18:56:06 UTC
view on stackexchange narkive permalink

En fonction de vos applications et de vos utilisations, vous pourriez être intéressé par CyVerse. Il s'agit d'une initiative financée par la NSF qui vous offre un stockage de données, des ressources informatiques haute performance et un accès facile aux outils couramment utilisés. Autant que je sache, son utilisation est gratuite une fois que vous avez un compte. Je le rencontre aussi généralement utilisé avec la génomique végétale et microbienne, donc je ne sais pas comment cela fonctionnera avec quelque chose comme des projets de génomique humaine. Mais cela vaut peut-être la peine de vérifier au moins. :)

Plus d'informations: http://www.cyverse.org/about

woemler
2017-06-14 01:46:40 UTC
view on stackexchange narkive permalink

Cela dépend vraiment de ce que vous essayez de faire, mais voici quelques services que je connais.

  • GATK sur Google Genomics Cloud: Google et the Broad propose une instance cloud adaptée aux pipelines GATK.
  • Génomique sur Amazon Web Services: je ne pense pas qu'il y ait quoi que ce soit qui rend cela unique, mais Amazon propose des ressources pour vous aider à démarrer avec des solutions cloud axées sur la génomique et les sciences de la vie.
  • Illumina Bioinformatics: Illumina travaille sur toute une suite de logiciels de bioinformatique pour le cloud.
  • Cancer Genomics Cloud: ceci est spécifique à la génomique du cancer, mais je pense que Seven Bridges vous permet de transférer toutes sortes de données dans l'outil et de les analyser.
exaudio
2017-06-13 01:17:58 UTC
view on stackexchange narkive permalink

Google Genomics

Google a une API appelée Google Genomics.

SNPedia

"SNPedia est un wiki qui étudie la génétique humaine . "snpedia.com

Promethease

" Promethease est un système de recherche documentaire qui crée un rapport ADN personnel "promethease.com

DNA Land

"Comparez l'ADN avec des données de référence de différentes populations" dna.land

Le projet CyDAS

Et, il y a le projet CyDAS qui a une API qui peut analyser les formules ISCN. Selon leur site web: leur API "vous permet d'analyser un caryotype pour pratiquement toutes les informations qui peuvent être extraites des caryotypes et des réarrangements qu'il contient: gains et pertes de matière chromosomique, points de rupture, jonctions ..." C'est un service gratuit , mais je ne sais pas à quel point il est à jour.

alpha_989
2017-08-07 03:47:17 UTC
view on stackexchange narkive permalink

Il y en a des tonnes. En plus des excellents que tout le monde a mentionnés

  1. iRods

  2. Arvados

  3. Galaxie

Ni Galaxy ni iRods ne sont des services de cloud computing. Je soupçonne qu'Arvados ne l'est pas non plus, mais je ne l'ai jamais utilisé.


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...