一个用于高性能工作负载场景下基于Kubernetes的容器批量调度引擎
Volcano是CNCF首个云原生批量计算项目,专注于AI、大数据、基因分析等高性能计算场景。核心能力涉及:
• 统一调度:支持 Kubernetes 原生负载及主流计算框架(如 TensorFlow、Spark、PyTorch、Ray、Flink等)的一体化作业调度。
• 队列管理:提供多层级队列管理能力,实现精细化资源配额控制和任务优先级调度。
• 异构设备支持:高效调度GPU、NPU等异构设备,充分释放硬件算力潜力。
• 网络拓扑感知:支持网络拓扑感知调度,显著降低跨节点间的应用通信开销,在AI分布式训练场景中大幅提升模型训练效率
• 多集群调度:支持跨集群作业调度,提升资源池管理能力,实现大规模负载均衡。
• 在离线混部:实现在线与离线任务混合部署,提升集群资源利用率。
• 负载感知重调度:支持负载感知重调度,优化集群负载分布,提升系统稳定性
作为业界首个云原生批量计算引擎,Volcano已广泛应用于人工智能、大数据、基因测序等高性能计算场景,为企业构建弹性、高效、智能的计算平台提供了强大支持。
在Kubernetes集群中部署高性能应用的最佳解决方案
Apache Spark™是用于大规模数据处理的统一分析引擎.
Apache Flink是一个框架和分布式处理引擎,用于无限制和有限制的数据流上的状态计算.
端到端开源机器学习平台.
一个开源的机器学习框架,可加快从研究原型到生产部署的过程.
Argo Workflows是一个开源容器原生工作流引擎,用于在Kubernetes上协调并行作业。 Argo Workflows作为Kubernetes CRD实施.
华为开发的全场景深度学习框架.
Ray是一个高性能分布式计算框架,支持机器学习、深度学习和分布式应用程序。
Kubeflow项目致力于使Kubernetes上的机器学习(ML)工作流部署简单,可移植且可扩展.
OpenMPI项目是一个开源消息传递接口实现,由学术,研究和行业合作伙伴联盟开发和维护.
Horovod是针对TensorFlow,Keras,PyTorch和Apache MXNet的分布式深度学习培训框架.
一个真正的开源深度学习框架,适用于灵活的研究原型和生产.
PaddlePaddle是一个由百度发起的工业实践衍生的开源深度学习平台.