ER-nerf

主要写er-nerf从零到一所有部署过程

原github链接

https://github.com/Fictionarry/ER-NeRF
如有需要，请运行命令->

git clone https://github.com/Fictionarry/ER-NeRF.git

安装依赖

1.git本项目源码

git clone https://github.com/notiom/ER-nerf.git

2.进入项目目录

cd ER-nerf

3.创建到自己服务器下的链接

conda create -p /home/xxx/.conda/envs/ernerf python=3.10

4.使用conda安装cuda环境，这里不能使用conda安装torch，conda默认安装torch+cpu

conda install cudatoolkit=11.3 -c pytorch

5.使用pip安装torch1.12.1+cu113

pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 --extra-index-url https://download.pytorch.org/whl/cu113

6.安装其他依赖

pip install -r requirements.txt

7.安装pytorch3d

pip install --no-index --no-cache-dir pytorch3d -f https://dl.fbaipublicfiles.com/pytorch3d/packaging/wheels/py310_cu113_pyt1121/download.html

下载pytorch3d源码,如果下载不，按上面的百度网盘下载：链接：pytorch3d
提取码：1422

8.安装tensorflow-gpu

pip install tensorflow-gpu==2.8.0

预训练准备

1.下载人脸解析模型79999_iter.pth放到data_utils/face_parsing/这个目录

wget https://github.com/YudongGuo/AD-NeRF/blob/master/data_util/face_parsing/79999_iter.pth?raw=true -O data_utils/face_parsing/79999_iter.pth

在data_utils/face_tracking目录下新建一个3DMM文件夹，并下载头部姿态估计模型到data_utils/face_tracking/3DMM/

wget https://github.com/YudongGuo/AD-NeRF/blob/master/data_util/face_tracking/3DMM/exp_info.npy?raw=true -O data_utils/face_tracking/3DMM/exp_info.npy
wget https://github.com/YudongGuo/AD-NeRF/blob/master/data_util/face_tracking/3DMM/keys_info.npy?raw=true -O data_utils/face_tracking/3DMM/keys_info.npy
wget https://github.com/YudongGuo/AD-NeRF/blob/master/data_util/face_tracking/3DMM/sub_mesh.obj?raw=true -O data_utils/face_tracking/3DMM/sub_mesh.obj
wget https://github.com/YudongGuo/AD-NeRF/blob/master/data_util/face_tracking/3DMM/topology_info.npy?raw=true -O data_utils/face_tracking/3DMM/topology_info.npy

3.下载01_MorphableModel.mat模型到data_utils/face_trackong/3DMM/目录

wget https://github.com/notiom/ER-nerf/releases/download/mat/01_MorphableModel.mat

在下载模型之后，运行

cd data_utils/face_tracking
python convert_BFM.py

若网络下载缓慢，->模型链接百度网盘下载链接
4.这一步可以省略，因为在代码运行过程中也会自动下载，但是在运行时下载会很慢，建议下载

cd .cache/torch/hub/checkpoints
wget https://download.pytorch.org/models/resnet18-5c106cde.pth
wget https://www.adrianbulat.com/downloads/python-fan/s3fd-619a316812.pth
wget https://www.adrianbulat.com/downloads/python-fan/2DFAN4-cd938726ad.zip
wget https://download.pytorch.org/models/alexnet-owt-7be5be79.pth

数据集准备

1.获取一个5分钟左右的视屏，这里获取奥巴马的视屏

mkdir -p data/obama
wget https://github.com/YudongGuo/AD-NeRF/blob/master/dataset/vids/Obama.mp4?raw=true -O data/obama/obama.mp4

2.使用openface制作csv文件，openface推荐使用windows，openface网盘链接如下->
openface
提取码为g105

打开OpenFace目录下的OpenFaceOffline.exe

选择要获取眨眼数据的视频

运行完之后，在processed目录下就有与视频名相同的csv文件

此处我已经生成完毕。运行以下命令获得csv文件。

wget https://github.com/notiom/ER-nerf/releases/download/mat/obama.csv

3.原始图片，此处我准备了一个ori_imgs(这一步可以省略，由process生成)

wget https://github.com/notiom/ER-nerf/releases/download/mat/ori_imgs.zip

若想下载完整的数据集，可以去阿里云找到rad-nerf-data.zip
4.下载track_params.pt

wget https://github.com/notiom/ER-nerf/releases/download/mat/track_params.pt

5.生成其他的图片路径文件夹

python data_utils/process.py data/obama/obama.mp4

其中task的作用为:
--task 1 #分离音频

--task 2 #生成aud_eo.npy

--task 3 #把视频拆分成图像

--task 4 #分割人像

--task 5 #提取背景图像

--task 6 #分割出身体部分

--task 7 #获取人脸landmarks lms文件

--task 8 #获取人脸跟踪数据，这步要训练一个追踪模型，会很慢

--task 9 #保存所有数据

5.重命名处理完成之后，把OpenFace处理出来的眨眼数据复制到当前目录，重新命名成au.csv，把原本的aud.npy重新命名成aud_ds.npy。

测试

1.先下载检查点压缩文件

wget https://github.com/Fictionarry/ER-NeRF/releases/download/ckpt/checkpoints.zip

将文件夹压缩为trial_obama，trial_obama_torso
文件夹路径应为

|ER-nerf/
|--data/
|    |--obama
|         |--gt_imgs/
|         |--ori_imgs/
|         |--parsing/
|         |--toro_imgs/
|         |--au.csv
|         |--aud_ds.npy
|         |--aud.wav
|         |--bc.jpg
|         |--obama.mp4
|         |--track_params.pt
|         |--transfroms_train.json
|         |--transfroms_val.json
|--......
|--trial_obama/
|    |--checkpoints/
|          |--ngp_ep0017.pth
|          |--ngp.pth
|    |--log_ngp.txt
|--......
|--trial_obama_torso/
|    |--checkpoints/
|          |--ngp_ep0028.pth
|          |--ngp.pth
|--results/
|--......

全部运行完成之后，可以开始测试结果。

python main.py data/obama/ --workspace trial_obama/ -O --test --ckpt trial_obama/checkpoints/ngp.pth   # head
python main.py data/obama/ --workspace trial_obama_torso/ -O --test --torso --ckpt trial_obama_torso/checkpoints/ngp.pth   # head+torso

测试结果为:

setting	PSNR	LPIPS	LMD
head	35.607	0.0178	2.525
head+torso	26.594	0.0446	2.550

--模型训练输入:一段mp4视频，包含原有的语音
--模型预测输入:原有的视频 + 一段新的wav语音
--模型输出:合成出的新视频

音频预处理

原文使用 DeepSpeech特征进行评估在训练和测试--asr_model <deepspeech, esperanto, hubert>时指定音频特征的类型。
深度语音

python data_utils/deepspeech_features/extract_ds_features.py --input data/<name>.wav # save to data/<name>.npy

波形向量
尝试通过 Wav2Vec（如RAD-NeRF）提取音频特征：

python data_utils/wav2vec.py --wav data/<name>.wav --save_feats # save to data/<name>_eo.npy

Hubert 在我们的测试中，HuBERT 提取器对于更多语言表现更好，并且已经在GeneFace中使用。

Geneface的预训练模型

python data_utils/hubert.py --wav data/<name>.wav # save to data/<name>_hu.npy

训练

# 头部训练
python main.py data/obama/ --workspace trial_obama/ -O --iters 100000
# 微调嘴型动作
# 训练结束后会保存一个权重文件，用于下一步训练身体时使用
python main.py data/obama/ --workspace trial_obama/ -O --iters 125000 --finetune_lips --patch_size 32

# 训练身体
# 训练身体时，导入上一步生成的头部模型
python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --head_ckpt <head>.pth --iters 200000

测试

python main.py data/obama/ --workspace trial_obama/ -O --test # 只渲染头部，并使用GT图像来呈现躯干
python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --test # 渲染头部和躯干

目标音频推理

# 添加“--smooth_path”可能有助于减少头部的抖动，但可能会减少对原始姿势的准确性。
python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --test --test_train --aud <audio>.npy

Web-UI

# 用于训练
python ui/run.py --is_train

# 用于推理
python ui/run.py

展示图如下所示

其他问题解决

1.若报错 libopenh264.so.5的问题，则将conda环境下的lib文件夹下的libopenh264.so改名为libopenh264.so.5
2.若报g++版本问题，运行

conda install 'gxx[version=">=5,<10.2.1"]'

3.报错cuda问题，设置环境变量，在.bashrc下设置

export LD_LIBRARY_PATH=/usr/local/cuda-11.7/lib64
export PATH=/usr/local/cuda-11.7/bin:$PATH
export CUDA_HOME=/usr/local/cuda-11.7

4.运行process第8步时的生成错误:nvrtc: error: invalid value for --gpu-architecture (-arch)
解决方案，新建一个新的环境用于生成track_params.pt，报错原因为显卡可能为4090，版本太高，不兼容cuda
测试安装torch==2.1.1+cu118 torchvision==0.16.1+cu118 pytorch3d==0.7.5可以正常运行
5.ffmeg报错

conda install ffmpeg

参考文档

数字人解决方案更好的分割

有其他问题，欢迎联系作者

->邮箱 meimeidemeng@outlook.com

Name		Name	Last commit message	Last commit date
Latest commit History 67 Commits
Myworkspace		Myworkspace
data		data
data_utils		data_utils
figs		figs
freqencoder		freqencoder
gridencoder		gridencoder
nerf_triplane		nerf_triplane
raymarching		raymarching
scripts		scripts
shencoder		shencoder
ui		ui
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
encoding.py		encoding.py
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ER-nerf

原github链接

安装依赖

预训练准备

数据集准备

测试

音频预处理

Geneface的预训练模型

训练

测试

目标音频推理

Web-UI

其他问题解决

参考文档

有其他问题，欢迎联系作者

About

Releases 1

Packages

Languages

License

notiom/ER-nerf

Folders and files

Latest commit

History

Repository files navigation

ER-nerf

原github链接

安装依赖

预训练准备

数据集准备

测试

音频预处理

Geneface的预训练模型

训练

测试

目标音频推理

Web-UI

其他问题解决

参考文档

有其他问题，欢迎联系作者

About

Resources

License

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages