Volcano 社区共建计划
· 阅读需 9 分钟
随着人工智能技术的高速发展,以及大语言模型的推广应用,各行各业对智能算力的需求呈爆发式增长,除了AI芯片等硬件设备的支持,对于AI任务的高性能智能调度也是重中之重。
随着人工智能技术的高速发展,以及大语言模型的推广应用,各行各业对智能算力的需求呈爆发式增长,除了AI芯片等硬件设备的支持,对于AI任务的高性能智能调度也是重中之重。
本文2021年9月6日首发于容器魔方微信公众号,原文链接Volcano v1.4.0-Beta发布,支持NUMA-Aware等多个重要特性
北京时间9月4日,CNCF首个批量计算项目Volcano发布v1.4.0-Beta版本。该版本发布了“支持GPU节点多维度资源比例分片”、“支持NUMA-Aware”、“支持多调度器混合部署”等多个重要特性,并在稳定性方面具有显著提升。
上手Volcano最容易的方式是使用Helm。
首先,将代码库克隆到本地。
# mkdir -p $GOPATH/src/volcano.sh/
# cd $GOPATH/src/volcano.sh/
# git clone https://github.com/volcano-sh/volcano.git
可用的官方镜像请参考: DockerHub, 您也可以在本地自己制作镜像:
cd $GOPATH/src/volcano.sh/volcano
make images
## Verify your images
# docker images
REPOSITORY TAG IMAGE ID CREATED SIZE
volcanosh/vk-admission latest a83338506638 8 seconds ago 41.4MB
volcanosh/vk-scheduler latest faa3c2a25ac3 9 seconds ago 49.6MB
volcanosh/vk-controllers latest 7b11606ebfb8 10 seconds ago 44.2MB
请注意: 您需要确保镜像被正确的加载到您的Kubernetes集群。举个例子,如果您使用的是kind cluster ,
为每个镜像执行命令kind load docker-image <image-name>:<tag> 。
| 组织 | 联系方式 (Github用户名) | 环境 | 用户描述 |
|---|---|---|---|
| 百度 | @tizhou86 | 生产环境 | 自研机器学习框架PaddlePaddle的离线训练调度器 |
| 图森未来 | @suleisl2000 | MXNet离线训练的调度器 | |
| IBM | @animeshsingh | ||
| 蘑菇街 | @jiaxuanzhou | 生产环境 | Tiny+离线训练的调度器 |
| 蘑菇街 | @jiaxuanzhou | 生产环境 | Tiny+离线训练的调度器 |
本文档将展示如何将kube-batch作为基于Kubernetes的批量调度引擎运行起来。代码请参考master 。