基于 LWS 部署推理服务

LWS 推理服务是一种轻量级、高性能的分布式模型推理服务。本部署基于 Kubernetes + vcluster + RoCE 网络，通过 LeaderWorkerSet 管理多副本推理节点，使用 hostNetwork 模式兼容 RoCE RDMA 高性能通信。

特点：

VERSION=v0.5.1
kubectl apply --server-side -f https://github.com/kubernetes-sigs/lws/releases/download/$VERSION/manifests.yaml

kubectl apply -f open_webui.yaml

输出以下代码就是运行成功：

persistentvolumeclaim/open-webui-data-pvc created
deployment.apps/open-webui-deployment created
service/open-webui-service created

本章目录