安装与设置¶
本文将介绍如何部署 HAI Platform,构建可以支持大规模加速卡并可以分时调度的深度学习训练集群。
基础设施¶
一个部署 Kubernetes 的算力集群,包括管理节点(k8s master)、算力节点、服务节点(用于服务部署、数据库、监控等)
一个或多个存储集群,让所有算力节点可访问的文件系统,如
nfs
,ceph
,weka
,3FS
等。存储信息包括:用户的运行代码
用户的训练数据
代码运行输出的日志
部署需要的 k8s 配置文件
…
算力集群与存储集群之间所有节点通过高速网络互联,建议使用 RDMA
容器化部署¶
按照如下几步流程您可以构建部署起 HAI Platform:
获取平台镜像
registry.cn-hangzhou.aliyuncs.com/hfai/hai-platform:latest
;安装命令行工具
hai-up
,hai-cli
$ pip3 install hai --extra-index-url https://pypi.hfai.high-flyer.cn/simple --trusted-host pypi.hfai.high-flyer.cn
生成配置文件
bash hai-up.sh dryrun --provider k8s
配置文件可以按照您的需求进行调整,各配置项详细内容参见这里;
部署并启动服务
bash hai-up.sh up --provider k8s
使用
hai-cli
初始化和提交任务。
更详细的配置指引可以阅读 HAI Platform 开源仓库。