一个用于高性能工作负载场景下基于Kubernetes的容器批量调度引擎
Volcano是CNCF首个云原生批量计算项目,专注于AI、大数据、基因分析等高性能计算场景。核心能力涉及:
• 统一调度:支持 Kubernetes 原生负载及主流计算框架(如 TensorFlow、Spark、PyTorch、Ray、Flink等)的一体化作业调度。
• 队列管理:提供多层级队列管理能力,实现精细化资源配额控制和任务优先级调度。
• 异构设备支持:高效调度GPU、NPU等异构设备,充分释放硬件算力潜力。
• 网络拓扑感知:支持网络拓扑感知调度,显著降低跨节点间的应用通信开销,在AI分布式训练场景中大幅提升模型训练效率
• 多集群调度:支持跨集群作业调度,提升资源池管理能力,实现大规模负载均衡。
• 在离线混部:实现在线与离线任务混合部署,提升集群资源利用率。
• 负载感知重调度:支持负载感知重调度,优化集群负载分布,提升系统稳定性
作为业界首个云原生批量计算引擎,Volcano已广泛应用于人工智能、大数据、基因测序等高性能计算场景,为企业构建弹性、高效、智能的计算平台提供了强大支持。