EchoMimic V2 API wrapper。
docker-compose up -d# 1. 设置环境变量
export ECHOMIMIC_PATH=./echomimic_v2
export PRETRAINED_WEIGHTS=./echomimic_v2/pretrained_weights
# 2. 安装依赖
pip install -r requirements.txt
# 3. 启动服务
python -m uvicorn echomimic_api.app:app --host 0.0.0.0 --port 8000音频驱动数字人视频生成。
请求体:
{
"ref_image_url": "http://example.com/portrait.jpg",
"audio_url": "http://example.com/speech.wav",
"config": {
"width": 768,
"height": 768
},
"prompt": "",
"seed": -1
}响应:
{
"success": true,
"output_path": "/app/outputs/20241225_120000_audio.mp4"
}健康检查。
获取生成的视频文件。
| 环境变量 | 说明 | 默认值 |
|---|---|---|
ECHOMIMIC_PATH |
echomimic_v2 目录路径 | ./echomimic_v2 |
PRETRAINED_WEIGHTS |
预训练权重路径 | ./echomimic_v2/pretrained_weights |
SHARED_DIR |
共享目录(输入输出) | /app/shared |
API_HOST |
监听地址 | 0.0.0.0 |
API_PORT |
监听端口 | 8000 |
ECHOMIMIC_ACC_MODE |
加速模式 | false |
CUDA_VISIBLE_DEVICES |
指定 GPU | - |
设置 ECHOMIMIC_ACC_MODE=true 启用加速模式,使用 *_acc.pth 权重文件,推理速度更快。
只需修改环境变量:
export ECHOMIMIC_URL=http://localhost:8000/a2v现有 EchoMimicProvider 代码无需修改。
┌─────────────────┐ ┌──────────────────┐ ┌─────────────────┐
│ portrait-to- │ │ echomimic-api │ │ echomimic_v2 │
│ talking │────▶│ (FastAPI) │────▶│ (本地目录) │
│ EchoMimicProvider│ │ │ │ │
└─────────────────┘ └──────────────────┘ └─────────────────┘
权重文件不纳入 git 管理,需手动下载放置到 pretrained_weights/ 目录。
| 文件路径 | 大小 |
|---|---|
sd-image-variations-diffusers/unet/diffusion_pytorch_model.bin |
3.3G |
denoising_unet_acc.pth |
3.2G |
motion_module_acc.pth |
1.7G |
reference_unet.pth |
1.6G |
pose_encoder.pth |
1.6G |
denoising_unet.pth |
1.6G |
sd-image-variations-diffusers/safety_checker/pytorch_model.bin |
1.2G |
sd-image-variations-diffusers/image_encoder/pytorch_model.bin |
1.2G |
motion_module.pth |
867M |
sd-vae-ft-mse/diffusion_pytorch_model.safetensors |
320M |
sd-vae-ft-mse/diffusion_pytorch_model.bin |
320M |
sd-image-variations-diffusers/vae/diffusion_pytorch_model.bin |
320M |
audio_processor/tiny.pt |
73M |
从 HuggingFace 或模型源下载后放置到 pretrained_weights/ 目录。
- 集成 EchoMimic V1(面部模型,支持只有头部的输入)
MIT