实时互动GPT数字人
- 视频分段
- TransNetV2:最好的镜头分割模型
- 人脸人体检测识别
- insightface + buffalo_l:人脸检测、识别、对齐、人脸属性。
- https://github.com/1adrianb/face-alignment:里面有人脸检测和对齐。 wav2lip用的这个
- yolov8n-face:wav2lip-256用的这个
- openface
- 分割与抠图Matting
- face-parsing
- DeepLabV3
- https://github.com/PeterL1n/RobustVideoMatting
- 最强AI一键抠图,BiRefNet V2
- SAM2
- https://github.com/ZHKKKe/MODNet
- 去字幕
- 表情识别
- ocr
- AI语音-01-概述
- k2语音识别.md
- whisper
- funasr+Paraformer:https://github.com/modelscope/FunASR
- SenseVoice:https://github.com/FunAudioLLM/SenseVoice
- wenet
- 角色扮演模型
- Index-1.9B-Character :https://github.com/bilibili/Index-1.9B
- Character-LLM:https://github.com/choosewhatulike/trainable-agents
- 小模型
- miniCPM
- MiniCPM-V
- Phi-3-v
- gemna2b
- tts
- vits,vits2
- bert-vits2
- gpt-sovits
- fish-speech
- CosyVoice: https://github.com/FunAudioLLM/CosyVoice
- F5
- maskgct牛逼:https://maskgct.github.io/,https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
- Matcha-TTS
- 唱歌tts(singing voice conversion):
- so-vits-svc
- NeuCoSVC
- https://github.com/Zejun-Yang/AniPortrait
- 聊天tts
- ChatTTS: https://github.com/2noise/ChatTTS
- 其他
- XTTS
- openvoice与MeloTTS
- https://github.com/PaddlePaddle/PaddleSpeech
- 支持超过 7000 种语言的文本转语音模型ToucanTTS
- 真人数字人项目
- 动捕
- 虚拟数字人
- 三维重建数字人
- 学习NeRF(新视角合成)
- 3D高斯gaussian-splatting
- 苹果联合德国马普所推出的,基于高斯函数的3D数字人合成工具HUGS
- https://machinelearning.apple.com/research/hugs
- 训练45秒,渲染300+FPS!MVSGaussian:高效泛化的混合Gaussian
- 超越AnimateAnyone!Meta提出全身3D虚拟人ExAvatar,可由简短视频建模转化为3D数字形象