GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis | ICLR'23

| | |

这个仓库是我们ICLR-2023论文的官方PyTorch实现，我们在其中提出了GeneFace 算法，用于高泛化高保真的音频驱动的虚拟人视频合成。

我们的GeneFace对域外音频（如不同说话人、不同语种的音频）实现了更好的嘴唇同步和表现力。推荐您观看此视频，以了解GeneFace与之前基于NeRF的虚拟人合成方法的口型同步能力对比。您也可以访问我们的项目页面以了解更多详细信息。

Quick Started!

在这个release中，我们提供了预训练的GeneFace模型和处理好的数据集，以便您能快速上手。在本小节的剩余部分我们将介绍如何分4个步骤运行这些模型。如果您想在您自己的目标人物视频上训练GeneFace，请遵循 docs/prepare_env、docs/process_data 、docs/train_models 中的步骤。

步骤1：根据我们在docs/prepare_env/install_guide_nerf.md中的步骤，新建一个名为geneface的Python环境。

步骤2：下载lrs3.zip和May.zip文件，并将其解压在checkpoints文件夹中。

步骤3：下载我们处理好的May.mp4的数据集文件trainval_dataset.npy（大约3.5GB），链接，并将其移动到data/binary/videos/May/trainval_dataset.npy路径中。

做完上面的步骤后，您的 checkpoints和data 文件夹的结构应该是这样的：

> checkpoints
    > lrs3
        > lm3d_vae
        > syncnet
    > May
        > postnet
        > lm3d_nerf
        > lm3d_nerf_torso
> data
    > binary
        > videos
            > May
                trainval_dataset.npy

Step4. 在终端中执行以下命令：

bash scripts/infer_postnet.sh
bash scripts/infer_lm3d_nerf.sh

你能在以下路径找到输出的视频 infer_out/May/pred_video/zozo.mp4.

搭建环境

请参照docs/prepare_env文件夹中的步骤 .

准备数据

请参照docs/process_data文件夹中的步骤.

训练模型

请参照docs/train_models文件夹中的步骤.

在其他目标人物视频上训练GeneFace

除了本仓库中提供的 May.mp4，我们还提供了8个实验中使用的目标人物视频。你可以从这个链接下载。

要训练一个名为 <video_id>.mp4的新视频，你应该把它放在 data/raw/videos/目录下，然后在 egs/datasets/videos/<video_id>目录下创建一个新文件夹，并根据提供的示例文件夹 egs/datasets/videos/May添加对应的yaml配置文件。

除了使用我们提供的视频进行训练外，您还可以自己录制视频，为自己训练一个独一无二的GeneFace虚拟人模型！

待办事项

GeneFace使用3D人脸关键点作为语音转动作模块和运动转图像模块之间的中介变量。但是，由Post-net生成的3D人脸关键点序列有时会出现不好的情况（如时序上的抖动，或超大的嘴巴），进而影响NeRF渲染的视频质量。目前，我们通过对预测的人脸关键点序列进行后处理，部分缓解了这一问题。但是目前的后处理方法还是略显简易，不能完美解决所有bad case。因此我们鼓励大家提出更好的后处理方法。
基于NeRF的图像渲染器的推理过程相对较慢(使用RTX2080Ti渲染250帧512x512分辨率的图像需要大约2个小时)。目前，我们可以通过多GPU加速或者将'——n_samples_per_ray '和'——n_samples_per_ray_fine' 设置为较低的值来部分缓解这个问题。在未来，我们将添加加速NeRF推理的技术。

引用我们的论文

@article{ye2023geneface,
  title={GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis},
  author={Ye, Zhenhui and Jiang, Ziyue and Ren, Yi and Liu, Jinglin and He, Jinzheng and Zhao, Zhou},
  journal={arXiv preprint arXiv:2301.13430},
  year={2023}
}

致谢

本工作受到以下仓库的影响：

NATSpeech (参考了其中的代码框架)
AD-NeRF (参考了NeRF相关的代码实现)
style_avatar (参考了3DMM相关的代码实现)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis | ICLR'23

Quick Started!

搭建环境

准备数据

训练模型

在其他目标人物视频上训练GeneFace

待办事项

引用我们的论文

致谢

FilesExpand file tree

README-zh.md

Latest commit

History

README-zh.md

File metadata and controls

GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis | ICLR'23

Quick Started!

搭建环境

准备数据

训练模型

在其他目标人物视频上训练GeneFace

待办事项

引用我们的论文

致谢