部署指南
设计架构

文档说明
为了能正常使用「一站式开发平台」来进行训练,你需要进行如下部署:
安装 NVIDIA 显卡驱动
note
「一站式开发平台」支持使用 GPU 进行训练,如果你没有安装相关驱动,请参照 安装NVIDIA显卡驱动 进行安装。
部署 Kubernetes 集群
note
详细部署文档参照 部署 Kubernetes 集群 进行部署。
安装 NFS
note
安装 NFS 可以使你更方便地进行挂载,详细安装文档参照 部署 NFS。
部署 Nginx Ingress Controller
note
为了方便管理 Kubernetes 集群暴露的服务,我们需要安装 Nginx Ingress Controller,详细安装文档参照 部署 Nginx Ingress Controller。
部署 Harbor 私有云仓库
note
为了方便管理镜像,需要部署 Harbor 来管理镜像,详细部署文档参照 部署 Harbor 私有云仓库。
管理集群日志
note
可以采集训练过程中产生的日志,并打印出来,方便了解训练进度和状况,详细部署文档参照 管理集群日志。
部署 Metrics Server
note
监控集群资源使用情况,详细部署文档参照 部署 Metrics Server。
部署 Prometheus 和 Grafana 监控 Pod 指标信息
note
监控训练对应 Pod 的 CPU、内存以及GPU使用情况,并展示出来,详细部署文档参照 部署 Prometheus 和 Grafana 监控 Pod 指标信息。
部署分布式训练 operator
note
管理分布式训练容器,详细部署文档参照 部署分布式训练 operator。
部署算法
note
常用算法部署,详细部署文档参照 部署算法。
部署可视化服务
note
用于可视化的展示,详细部署文档参照 部署可视化服务。
部署项目后端
note
部署项目的后端,详细部署文档参照 部署项目后端。
部署 MinIO
note
部署 MinIO,详细部署文档参照 部署 MinIO。
部署项目前端
note
部署项目的前端,详细部署文档参照 部署项目前端。