Skip to content

yangkang2021/I_am_a_person

Repository files navigation

I_am_a_person

实时互动GPT数字人

零. 数据预处理

  1. 视频分段
    • TransNetV2:最好的镜头分割模型
  2. 人脸人体检测识别
  3. 分割与抠图Matting
  4. 去字幕
  5. 表情识别
  6. ocr

一. 数字人形象生成与定制

  1. 视频生成
  2. 换脸
  3. AI绘图(stableDiffusion)
  4. 写真生成

二. 数字人输入--语音识别

  1. AI语音-01-概述
  2. k2语音识别.md
  3. whisper
  4. funasr+Paraformer:https://github.com/modelscope/FunASR
  5. SenseVoice:https://github.com/FunAudioLLM/SenseVoice
  6. wenet

三. 数字人大脑--大语言模型

  1. 角色扮演模型
  2. 小模型
    • miniCPM
    • MiniCPM-V
    • Phi-3-v
    • gemna2b

四. 数字人讲话唱歌--语音合成

  1. tts
  2. 唱歌tts(singing voice conversion):
  3. 聊天tts
  4. 其他

五. 数字人驱动

  1. 真人数字人项目
  2. 动捕
  3. 虚拟数字人
  4. 三维重建数字人
    • 学习NeRF(新视角合成)
    • 3D高斯gaussian-splatting
    • 苹果联合德国马普所推出的,基于高斯函数的3D数字人合成工具HUGS
    • https://machinelearning.apple.com/research/hugs
    • 训练45秒,渲染300+FPS!MVSGaussian:高效泛化的混合Gaussian
    • 超越AnimateAnyone!Meta提出全身3D虚拟人ExAvatar,可由简短视频建模转化为3D数字形象

六. 部署

  1. 梅尔普算法及其python和c++实现

七. 其他

  1. 参考项目

About

实时互动的GPT数字人

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages