标签 openEuler 下的文章

本文在鲲鹏920和openEuler，从0开始使用Containerd部署k8s1.30.13+Ks。

1.说明

关于kt

kt是基于kk二次开发的产物，具备kk的所有功能。二开主要为适配信创国产化环境、简化arm部署过程和国产化环境离线部署。支持arm64和amd64架构国产操作系统，已适配芯片+操作系统如下。

kt新增功能点

适配arm架构harbor和支持，部署体验与X86一样简单。
离线环境部署增强。常用国际和国产操作系统依赖，内置到安装包中。已适配芯片和操作系统如下
- ./kt init-os 一条命令完成操作系统依赖安装和初始化操作。
- CPU：鲲鹏、飞腾、海光、兆芯、intel、amd等。
- OS：Centos、Rocky Linux、Ubuntu、Debian、银河麒麟V10、麒麟V11、麒麟国防版、麒麟信安、中标麒麟V7、统信UOS、华为欧拉、移动大云、阿里龙蜥、TencenOS等。
支持开启防火墙，只暴露30000-32767端口，其他k8s端口添加到节点白名单。
- ./kt firewall 一条命令自动获取节点信息开白名单和防火墙。

kt版本更新和下载地址

kt： kt
关注我不迷路

2.环境准备

服务器基本信息

主机名	架构	OS	配置	IP
master	arm64	openEuler	2核4G	192.168.0.101
node	arm64	openEuler	2核4G	192.168.0.133
harbor	arm64	openEuler	2核4G	192.168.0.232

2.1 上传离线制品

操作系统不需要安装docker,不需要设置selinux,swap等操作，全新的操作系统即可。

将离线制品、配置文件、kt和sh脚本上传至服务器其中一个节点(本文以master为例)，后续在该节点操作创建集群。本文使用kt:3.1.13.1版本

2.2 修改配置文件

根据实际服务器信息，配置到生成的config-sample.yaml中

kind: Cluster
metadata:
  name: sample
spec:
  hosts:
  - {name: master, address: 192.168.0.101, internalAddress: 192.168.0.101, user: root, password: "123213", arch: "arm64"}
  - {name: node1, address: 192.168.0.133, internalAddress: 192.168.0.133, user: root, password: "123213", arch: "arm64"}
  - {name: harbor, address: 192.168.0.232, internalAddress: 192.168.0.232, user: root, password: "123213", arch: "arm64"}
  roleGroups:
    etcd:
    - master
    control-plane:
    - master
    worker:
    - node1
    # 如需使用 kt 自动部署镜像仓库，请设置该主机组 （建议仓库与集群分离部署，减少相互影响）
    # 如果需要部署 harbor 并且 containerManager 为 containerd 时，由于部署 harbor 依赖 docker，建议单独节点部署 harbor
    registry:
    - harbor
  controlPlaneEndpoint:
    ## Internal loadbalancer for apiservers 
    internalLoadbalancer: haproxy

    domain: lb.kubesphere.local
    address: ""
    port: 6443
  kubernetes:
    version: v1.30.14
    clusterName: cluster.local
    autoRenewCerts: true
    containerManager: containerd
  etcd:
    type: kubekey
  network:
    plugin: calico
    kubePodsCIDR: 10.233.64.0/18
    kubeServiceCIDR: 10.233.0.0/18
    ## multus support. https://github.com/k8snetworkplumbingwg/multus-cni
    multusCNI:
      enabled: false
  registry:
    type: harbor
    registryMirrors: []
    insecureRegistries: []
    privateRegistry: "dockerhub.kubekey.local"
    namespaceOverride: "kubesphereio"
    auths: # if docker add by `docker login`, if containerd append to `/etc/containerd/config.toml`
      "dockerhub.kubekey.local":
        username: "admin"
        password: Harbor@123 # 此处可自定义，kk3.1.8新特性
        skipTLSVerify: true # Allow contacting registries over HTTPS with failed TLS verification.
        plainHTTP: false # Allow contacting registries over HTTP.
        certsPath: "/etc/docker/certs.d/dockerhub.kubekey.local"
  addons: []

2.3 系统初始化

解压kt-centos.tar.gz文件后执行./kt init-os -f config-sample.yaml 已适配操作系统和架构见1.说明

该命令kt会根据配置文件自动判断操作系统和架构以完成所有节点的初始化配置和依赖安装。

3 创建 Harbor私有仓库

3.1 创建镜像仓库

./kt init registry -f config-sample.yaml -a artifact-arm-k8s13014-ks3.4.1.tar.gz

此命令会在harbor节点自动安装docker和docker-compose

3.2 创建harbor项目

说明：

Harbor 管理员账号：admin，密码：Harbor@123。密码同步使用配置文件中的对应password

harbor 安装文件在 /opt/harbor 目录下，可在该目录下对 harbor 进行运维。

创建 Harbor 项目

chmod +x create_project_harbor.sh && ./create_project_harbor.sh

4 创建k8s和KubeSphere

./kt create cluster -f config-sample.yaml -a artifact-arm-k8s13014-ks3.4.1.tar.gz

此命令kt会自动将离线制品中的镜像推送到harbor 私有仓库

执行后会有如下提示,输入yes/y继续执行

等待一段时间，直至出现熟悉的等待安装完成的小箭头>>--->

期间可以另开一个窗口用以下命令查看部署日志

kubectl logs -n kubesphere-system $(kubectl get pod -n kubesphere-system -l 'app in (ks-install, ks-installer)' -o jsonpath='{.items[0].metadata.name}') -f

继续等待一段时间，可以看到在内核3.10.0上面使用containerd成功部署了1.30.14版本+ks

5 验证

ps:default-http-backend那个pod显示：ImagePullBackOff，没啥用，不需要理会。

登录页面

集群管理

集群节点

监控告警

集群信息

节点情况

配置文件默认只安装了监控，如果需要安装其他组件，可以自行在自定义资源中开启

1 引言：为何选择MindSpore与昇腾生态

作为一名长期从事计算机视觉应用的开发者，我最近全面转向华为的MindSpore深度学习框架与昇腾NPU硬件平台。这一选择不仅源于对国产AI生态的支持，更是考虑到其在分布式训练和推理性能上的独特优势。

与主流框架相比，MindSpore采用了全新的自动并行技术，能够在分布式训练中实现极佳的效率。特别是在处理大模型时，其6维混合并行算法（数据并行、模型并行、流水并行等）可以智能切分模型和数据，显著降低训练时间。而昇腾NPU凭借其达芬奇架构，在AI工作负载上表现出色，尤其在推理场景下能实现低延迟、高吞吐的表现。

下面，我将分享从环境搭建到模型部署的全流程实战经验。

2 环境配置与最佳实践

2.1 硬件平台选择

在实际项目中，我们使用了Atlas 800 AI服务器（配置8颗Ascend 910 NPU），运行openEuler 22.03 LTS SP1操作系统。这一配置为我们训练YOLOv5等大型视觉模型提供了坚实基础。

2.2 MindSpore安装与配置

安装过程相对 straightforward，但有几个关键点需要注意：

# 安装MindSpore Ascend版本（需与CANN版本匹配）
pip install mindspore==2.1.0 mindspore_ascend==2.1.0

# 验证安装
import mindspore as ms
print(ms.__version__)
print(f"Devices: {ms.context.get_context('device_num')}")  # 查看可用设备数量

特别注意，要确保CANN（Compute Architecture for Neural Networks）组件的版本与MindSpore兼容。我们遇到过因版本不匹配导致模型无法正常初始化的问题。

3 数据准备与高效加载策略

3.1 数据集优化处理

以COCO数据集上的目标检测任务为例，我们发现了几个提升数据流水线效率的方法：

首先，使用MindSpore的GeneratorDataset类可以显著简化数据加载过程。重要的是，要合理设置prefetch_size参数，避免内存溢出同时保持NPU高利用率。

from mindspore.dataset import GeneratorDataset

class COCODataset:
    def __init__(self, data_dir, label_dir, img_size=640):
        self.data_dir = data_dir
        self.label_dir = label_dir
        self.img_size = img_size
        
    def __getitem__(self, idx):
        # 图像加载与预处理
        img = cv2.imread(f"{self.data_dir}/{idx}.jpg")
        img = cv2.resize(img, (self.img_size, self.img_size))
        # 标准化操作
        img = (img - mean) / std
        labels = np.loadtxt(f"{self.label_dir}/{idx}.txt")
        return img, labels

# 创建数据集实例
dataset = GeneratorDataset(
    COCODataset("datasets/coco/train2017", "labels"), 
    ["image", "label"],
    prefetch_size=32  # 优化缓存大小
)

其次，启用DVPP（Digital Vision Pre-Processing）硬件加速可以将图像解码和缩放等操作卸载到专用硬件，进一步释放NPU计算资源。在实际测试中，这一优化使数据预处理速度提升了约40%。

4 模型构建与训练技巧

4.1 YOLOv5在MindSpore上的实现

我们基于MindSpore重新实现了YOLOv5s模型，发现了几点关键差异：

首先，MindSpore的动态图模式（PYNATIVE_MODE）更便于调试，而静态图模式（GRAPH_MODE）则能提供更佳的性能。建议开发阶段使用动态图，部署阶段切换至静态图。

import mindspore as ms
from mindspore import nn, ops

# 设置运行模式
ms.context.set_context(mode=ms.GRAPH_MODE, device_target="Ascend")

class YOLOv5(nn.Cell):
    def __init__(self, num_classes=80):
        super(YOLOv5, self).__init__()
        # 骨干网络
        self.backbone = self._build_backbone()
        # 颈部网络
        self.neck = self._build_neck() 
        # 检测头
        self.head = YOLOv5Head(num_classes)
        
    def construct(self, x):
        feat = self.backbone(x)
        feat = self.neck(feat)
        output = self.head(feat)
        return output

4.2 混合精度训练实践

为提升训练速度并降低内存占用，我们广泛使用了混合精度训练。MindSpore通过LossScaler类有效解决了FP16数值范围小的问题：

from mindspore import amp
from mindspore.nn import Momentum

# 定义模型
net = YOLOv5()
optimizer = Momentum(filter(lambda p: p.requires_grad, net.get_parameters()), 
                    learning_rate=0.01, momentum=0.9)

# 转换为混合精度模型
net = amp.build_train_network(net, optimizer, loss_fn, level="O2", 
                              loss_scale_manager=ms.FixedLossScaleManager())

在实际训练中，混合精度训练不仅将内存占用降低了30%，还保持了与原模型相当的精度（mAP差异小于0.2%）