转载

大数据工作流开源系统一览表

以下是各类数据分析的工作流pipeline管道模型的框架和库包,包含特定科学等业务领域行业或者通用领域,结合大数据big data分析的各种开放源码项目。包括下一代测序技术(NGS)打开了数据分析的空间,生物学成为数据密集领域,越来越多的生物数据需要通过复杂的计算工具(集群、云端和网格计算)进行NGS处理和分析。

  1. Arvados  http://arvados.org
    产品级的数据科学平台,能处理大数据集,由两个主要系统组成以及涵盖很多相关服务与组件,包括API SDK和虚拟化工具。
  2. Taverna  http://www.taverna.org.uk/
    一个与具体领域无关的独立的工作流管理系统,包括一系列工具用于设计和科学工作流程的实现。
  3. Galaxy  http://galaxyproject.org/
    基于web用于数据密集的生物医学研究
  4. SHIWA  http://www.erflow.eu/
    跨国的欧洲工作流用户社区推出的用于科学研究的工作流。
  5. Oozie  https://oozie.apache.org/
    是一个用于管理Apache Hadoop job的工作流调度系统。
  6. DNANexus  https://wiki.dnanexus.com/API-Specification-v1.0.0/IO-and-Run
    不仅能在云端存储和分析文件,也有助于协助 注释和虚拟化你的数据。
  7. BioDT  http://www.biodatomics.com/
    下一代生物信息学工具
  8. Agave  http://agaveapi.co/live-docs/
    一个Science-as-a-Service API平台
  9. DiscoveryEnvironment  http://www.iplantcollaborative.org/ci/discovery-environment
    iPlant 的信息基础平台
  10. Wings  http://www.wings-workflows.org/
    是一个语义工作流系统,辅助科学家进行计算体验设计。
  11. Knime  https://www.knime.org/
    强大的大数据分析和挖掘能力。
  12. Drake  https://github.com/Factual/drake
    易于使用可扩展 基于文本的数据工作流工具,组织围绕数据的命令行执行,类似GNU的 Make
  13. Snakemake  https://bitbucket.org/johanneskoester/snakemake
    是一个工作流管理系统,降低创建工作流的难度复杂性,提供快速舒服的执行环境。
  14. BPipe  http://bpipe.org
    用于生物学领域的任务运行,用以替代各种脚本任务。
  15. Ruffus  https://code.google.com/p/ruffus/
    Python可计算的Pipeline,用于生物信息学在并行流程中管理依赖。
  16. NextFlow  http://nextflow.io
    借鉴Unix管道模型,提供一个流畅的DSL,允许你处理复杂的流交互。
  17. Luigi  http://github.com/spotify/luigi
    Luigi是一个Python (2.7, 3.3, 3.4, 3.5)库包,帮助你建立复杂的批工作的管道模型pipeline,它处理依赖问题,工作流管理,虚拟化,处理失败,集成命令行等很多功能。
  18. SciLuigi. http://github.com/samuell/sciluigi
  19. GATK Queue  https://www.broadinstitute.org/gatk/guide/topic?name=queue
    建立一个分析管道模型有效率运行GATK和其他工具
  20. Yabi  https://ccg.murdoch.edu.au/yabi
  21. seqware  https://seqware.github.io/   https://seqware.github.io/docs/6-pipeline/
    seqware工作流是使用java编写,在Oozie工作流引擎中执行,运行在Hadoop或SGE集群,使用Zip64文件分组工作流定义文件 包括取样设置和包含数据依赖性的单个文件。是下代基于网格和云端的数据序列分析。
  22. Ketrew 
    https://github.com/hammerlab/ketrew
    一个提供EDSL API的OCaml库
  23. Pegasus  http://pegasus.isi.edu/
    工作流管理系统,自动恢复和调式科学计算。
  24. Airflow  https://github.com/airbnb/airflow (重复)
  25. Cosmos/ Cosmos2:  https://github.com/LPM-HMS/COSMOS2 http://cosmos.hms.harvard.edu/COSMOS2/
    主流的并行工作流Python库包,生物科学领域下一代序列流管道模型,提供命令行工具自动利用计算集群能力,提供Web仪表板监视,调试,分析你的job。
  26. Pinball  https://github.com/pinterest/pinball
    Pinball是个可伸缩扩展的工作流管理器,基于组件,状态以可读格式保存,可靠,管理友好。
  27. bcbio  https://bcbio-nextgen.readthedocs.org/en/latest/
    提供高吞吐量数据序列流分析,只要编写高层配置指定输入和分析参数,输入会驱动并行管道模型处理被分发的执行任务,幂等处理可重新启动,透明的事务步骤。
  28. Chronos  https://github.com/mesos/chronos
    Chronos是一个linux cron的替代,它是分布式的失败容错的调度器,运行在  Apache Mesos 之上,支持定制优化Mesos执行器作为默认的命令执行器。
  29. Azkaban  https://azkaban.github.io/
    是一个批工作流任务调度器,由LinkedIn创建,用于运行Hadoop job,解决了job的依赖顺序,提供易于使用的Web用户界面维护和跟踪你的处理流程。
  30. Apache NiFi  https://nifi.apache.org/docs/nifi-docs/html/overview.html
    系统之间数据流程的自动化,当数据流使用在各种场合,使用它自动化和管理系统之间信息流动。
  31. flowr (R-based)
      http://docs.flowr.space/   https://github.com/sahilseth/flowr
    Flowr让你设计和实现复杂的管道模型,部署在你的计算集群,满足生物信息学需要。
  32. Mistral  https://github.com/arteria-project
    从主流并行序列流中处理序列数据,提供组件实现自动分析和数据管理任务作为下一代序列流中心,平衡微服务架构,使用 StackStorm 创建一个事件驱动的自动化系统。灵活可伸缩。
  33. nipype  http://nipy.org/nipype/
  34. End of Day  https://github.com/joestubbs/endofday
    docker 容器的可执行工作流,可以使用yaml文件定义。
  35. BioDSL  https://github.com/maasha/BioDSL
    用于生物学的领域特定语言。
  36. BigDataScript  http://pcingola.github.io/BigDataScript/
    在笔记本上开发的数据分析管道模型可以运行在大数据几千节点集群上。
  37. Omics Pipe:
      http://sulab.scripps.edu/omicspipe/
    开源模块计算平台,自动化multi-omics数据分析管道模型的最佳实践。
  38. Ensembl Hive  https://github.com/Ensembl/ensembl-hive
    eHive是一个在分布式计算资源运行计算管道模型的系统。
  39. QuickNGS  http://bifacility.uni-koeln.de/quickngs/web
    下一代测序数据的高吞吐量的数据分析。
  40. GenePattern  http://www.broadinstitute.org/cancer/software/genepattern/
    提供数百个分析工具,分析 gene expression ( RNA-seq  和  microarray ),  sequence variation and copy number ,  proteomic ,  flow cytometry , 和网络分析
  41. Chipster  http://chipster.csc.fi/
    新一代测序(NGS),提供超过350分析工具
  42. The Genome Modeling System  https://github.com/genome/gms
  43. Cuneiform,   https://github.com/joergen7/cuneiform
    函数式工作流语言
  44. Anvaya  http://www.ncbi.nlm.nih.gov/pubmed/22809419
    自动化基因分析的工作流环境
  45. Makeflow  http://ccl.cse.nd.edu/software/makeflow/
    在集群 云端和网格之上执行大型复杂工作流引擎
  46. Airavata  http://airavata.apache.org/
    基于集群,云端和网格之上组合,管理,执行和监视大规模可伸缩应用和工作流引擎
  47. Pyflow  https://github.com/Illumina/pyflow
    一个轻量的并行任务引擎
  48. Clusterflow  https://github.com/ewels/clusterflow
    一个管道模型工具,在集群环境自动化和标准化生物分析。
  49. Unipro UGENE  http://ugene.net/   https://dx.doi.org/10.7717/peerj.644
    运行在windows Mac和Linux。
  50. CloudSlang  http://www.cloudslang.io/
    管理协调Docker和CoreOS应用,快速化自动DevOps 
  51. Stacks  http://catchenlab.life.illinois.edu/stacks/
    用于构建Ioci的软件管道模型
  52. Leaf  http://www.francesconapolitano.it/leaf/index.html
    用于数据流 Bioinformatic Protocol 的设计和管理的Python工具
  53. omictools  http://omictools.com/
    提供11573 种分析工具
  54. Job 描述语言
    . https://edms.cern.ch/ui/file/590869/1/WMS-JDL.pdf
  55. YAWL http://www.yawlfoundation.org/
    一个BPM/工作流系统,基于简明和强大的模型语言,处理复杂数据转换,完全集成各种Web服务。
  56. Triquetrum
    https://github.com/eclipse/triquetrum/
    科学工作流的管理和执行。
  57. Kronos  https://github.com/jtaghiyar/kronos
    癌症和肿瘤信息分析
  58. qsubsec 
    https://github.com/alastair-droop/qsubsec
    基于 SGE grid system 的模板语言,产生用于提交任务的脚本语言。
  59. YesWorkflow  http://yesworkflow.org
    将工作流模型带到脚本语言中
  60. GWF - Grid WorkFlow  https://github.com/mailund/gwf   http://mailund.github.io/gwf/
    小的类似make的通过qsub提交工作流的工具。
  61. Fireworks.  https://pythonhosted.org/FireWorks/
    是一个定义 管理和执行工作流的框架,能使用 Python, JSON, 或 YAML定义复杂工作流,存储在MongoDB中,能够通过Web界面监视,工作流执行能自动跨无数个计算资源执行。
  62. NGLess  https://github.com/luispedro/ngless
    是下一代测序NGS 的领域特定语言。

大数据

原文  http://www.jdon.com/bigdata/pipeline.html
正文到此结束
Loading...