跳到主要内容

2 篇博文 含有标签「kubecon」

查看所有标签

Volcano 如何提升分布式训练和推理性能

· 阅读需 3 分钟

The Growing Demand for LLM Workloads and Associated Challenges

The increasing adoption of large language models (LLMs) has led to heightened demand for efficient AI training and inference workloads. As model size and complexity grow, distributed training and inference have become essential. However, this expansion introduces challenges in network communication, resource allocation, and fault recovery within large-scale distributed environments. These issues often create performance bottlenecks that hinder scalability.

Volcano 在 AI 和大数据场景下的云原生批量计算实践

· 阅读需 4 分钟

云原生批量计算引擎 Volcano 专为 AI、大数据、基因测序、渲染等高性能计算应用场景而设计,并支持各类主流的通用计算框架。目前,全球已有超过 58,000 名开发者加入了 Volcano 社区,其中核心贡献者来自华为、AWS、百度、腾讯、京东、小红书等知名企业。该项目在 GitHub 上已获得超过 3700 个 Star 和 800 多个 Fork。Volcano 已被证实能够胜任 AI、大数据、基因测序等领域的海量数据计算与分析任务。其支持的计算框架涵盖 Spark、Flink、TensorFlow、PyTorch、Argo、MindSpore、PaddlePaddle、Kubeflow、MPI、Horovod、MXNet、KubeGene 以及 Ray。随着越来越多的开发者和应用案例涌现,Volcano 的生态系统正呈现出蓬勃发展的态势。