基于 LWS 部署推理服务

LWS 推理服务是一种轻量级、高性能的分布式模型推理服务。本部署基于 Kubernetes + vcluster + RoCE 网络,通过 LeaderWorkerSet 管理多副本推理节点,使用 hostNetwork 模式兼容 RoCE RDMA 高性能通信。

特点:

  • 支持大模型分布式推理
  • GPU 和 RDMA 高性能优化
  • 提供 REST API 接口,支持外部访问

安装

VERSION=v0.5.1
kubectl apply --server-side -f https://github.com/kubernetes-sigs/lws/releases/download/$VERSION/manifests.yaml

运行

kubectl apply -f open_webui.yaml 

输出以下代码就是运行成功:

persistentvolumeclaim/open-webui-data-pvc created
deployment.apps/open-webui-deployment created
service/open-webui-service created
本章目录