Skip to content

Kylin V10 + Ascend 310P 上 xw-cli 运行时异常(vllm/mindie unhealthy,mlguider 镜像缺失) #25

@XXRicardo

Description

@XXRicardo

环境如下:
OS:Kylin Linux Advanced Server V10 (Tercel)
Kernel:4.19.90-23.62.v2101.ky10.aarch64
Arch:aarch64
AI设备:Ascend 310P × 8(xw device list 可正常识别)
xw:配置版本显示 0.0.2(xw serve -v)
Docker:静态安装 29.2.1(Client/Server 都是 29.2.1)
containerd v2.2.1
runc 1.3.4
docker-init 0.19.0

1.执行:
xw start deepseek-r1-distill-qwen-7b --engine vllm:docker -d
xw start deepseek-r1-distill-qwen-7b --engine mindie:docker -d
现象:
xw 提示实例已启动、容器已创建并运行;
但 xw ps 长时间显示 unhealthy;
curl http://127.0.0.1:/health 连接被重置;
docker inspect 看到容器是 running,但没有健康检查配置,且容器命令表现为环境脚本 + /bin/bash,像是推理服务主进程未真正拉起;
docker logs 基本无有效业务日志。

2.执行:
xw start deepseek-r1-distill-qwen-7b --engine mlguider:docker -d
报错:
No such image: harbor.tsingmao.com/xw-cli/mlguider:0123-310p-arm64

Docker 权限问题已排除(当前可正常访问 daemon)。
docker-init 缺失已修复(docker run --rm --init hello-world 可正常执行)。
Ascend 设备透传已验证(容器内能看到 /dev/davinci0~7、/dev/davinci_manager、/dev/hisi_hdc)。
Docker 服务本身正常(dockerd active,API 正常监听)。

请问:
在 Kylin V10 + 310P 上,vllm:docker / mindie:docker 是否需要额外 runtime 参数或模板修正(比如启动命令、环境变量、健康检查路径)?
是否有已验证可用的 模型 + 引擎 + 命令模板(310P)可供对照?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions