部署指南

设计架构

部署架构
部署架构

文档说明

为了能正常使用「一站式开发平台」来进行训练,你需要进行如下部署:

  • 安装 NVIDIA 显卡驱动

    note

    「一站式开发平台」支持使用 GPU 进行训练,如果你没有安装相关驱动,请参照 安装NVIDIA显卡驱动 进行安装。

  • 部署 Kubernetes 集群

    note

    详细部署文档参照 部署 Kubernetes 集群 进行部署。

  • 安装 NFS

    note

    安装 NFS 可以使你更方便地进行挂载,详细安装文档参照 部署 NFS

  • 部署 Nginx Ingress Controller

    note

    为了方便管理 Kubernetes 集群暴露的服务,我们需要安装 Nginx Ingress Controller,详细安装文档参照 部署 Nginx Ingress Controller

  • 部署 Harbor 私有云仓库

    note

    为了方便管理镜像,需要部署 Harbor 来管理镜像,详细部署文档参照 部署 Harbor 私有云仓库

  • 管理集群日志

    note

    可以采集训练过程中产生的日志,并打印出来,方便了解训练进度和状况,详细部署文档参照 管理集群日志

  • 部署 Metrics Server

    note

    监控集群资源使用情况,详细部署文档参照 部署 Metrics Server

  • 部署 Prometheus 和 Grafana 监控 Pod 指标信息

    note

    监控训练对应 Pod 的 CPU、内存以及GPU使用情况,并展示出来,详细部署文档参照 部署 Prometheus 和 Grafana 监控 Pod 指标信息

  • 部署分布式训练 operator

    note

    管理分布式训练容器,详细部署文档参照 部署分布式训练 operator

  • 部署算法

    note

    常用算法部署,详细部署文档参照 部署算法

  • 部署可视化服务

    note

    用于可视化的展示,详细部署文档参照 部署可视化服务

  • 部署项目后端

    note

    部署项目的后端,详细部署文档参照 部署项目后端

  • 部署 MinIO

    note

    部署 MinIO,详细部署文档参照 部署 MinIO

  • 部署项目前端

    note

    部署项目的前端,详细部署文档参照 部署项目前端

Last updated on