Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

2024腾讯犀牛鸟开源人才培养计划—HunyuanDiT #51

Open
tencent-adm opened this issue Jun 26, 2024 · 3 comments
Open

2024腾讯犀牛鸟开源人才培养计划—HunyuanDiT #51

tencent-adm opened this issue Jun 26, 2024 · 3 comments

Comments

@tencent-adm
Copy link
Member

tencent-adm commented Jun 26, 2024

腾讯犀牛鸟开源人才培养计划

欢迎广大高校学子加入2024腾讯犀牛鸟开源人才培养计划!腾讯犀牛鸟开源人才培养计划面向全国高校学生发布实践及研学项目,由教育部计算机类专业教学指导委员会、教育部软件工程专业教学指导委员会、教育部电子信息类专业教学指导委员会作为联合指导单位,腾讯开源和腾讯高校合作联合主办,表现优异的高校学生将有机会获得腾讯颁发的荣誉证书、现金奖励以及腾讯特色礼包。

期待同学们在本次研学旅程中,和腾讯一起探索未知、学习技术,让开源伴你成长,收获满满一夏!

更多项目信息请看:腾讯开源活动官网腾讯开源研学基地

项目简介

我们提出了混元DiT,一个基于Diffusion transformer的文本到图像生成模型,此模型具有中英文细粒度理解能力。为了构建混元DiT,我们精心设计了Transformer结构、文本编码器和位置编码。我们构建了完整的数据管道,用于更新和评估数据,为模型优化迭代提供帮助。为了实现细粒度的文本理解,我们训练了多模态大语言模型来优化图像的文本描述。最终,混元DiT能够与用户进行多轮对话,根据上下文生成并完善图像。目前已对外开放技术报告、工程代码、加速框架、插件生态、基础模型&标签模型等。

项目导师

qinglinlu 腾讯高级算法总监
zhiminli 腾讯高级算法研究员
jarvizhang 腾讯高级算法研究员

导师寄语

我非常高兴地向大家介绍我们的项目——混元DiT,这是一个基于Diffusion transformer的文本到图像生成模型,具有中英文细粒度理解能力。这个项目不仅能够提供一种创新的文生图技术解决方案,而且能够为大家提供一个学习、交流和成长的平台。无论你是一个有经验的开发者,还是一个热衷于探索新技术的探索者,我都热烈欢迎你加入我们的项目。
让我们一起携手,共同推动混元DiT项目的发展,以我们的技术和热情,为开源社区和技术进步做出我们的贡献。
期待与你们在这个旅程中共同进步!

培养概览

1️⃣ 参与“腾讯开源基础课程”
完成考试可获得《腾讯开源研学结课证书》

2️⃣ 参与“腾讯开源issue实战”
完成任意issue即可获得专属《腾讯开源实战证书》+ 腾讯周边精美礼包一套。其中issue难度对应礼包大小

3️⃣ 参与“腾讯开源课题实战”
任务奖金从6K、8K到12K不等、腾讯犀牛鸟开源人才培养研学专属《优秀学生证书》、全球限量《腾讯开源贡献者证书》

如何贡献

参与“腾讯混元DiT issue实战”

进入“研学基地-issue营地”,选择发布方“混元DiT" Issue 任务,认领和完成它。腾讯混元DiT于7月2日正式开放 issue ,学生可无门槛参与和认领,欢迎共建共创!

  1. 如果你愿意解决issue,请在腾讯开源研学基地领取你感兴趣的混元DiT issue
  2. 请将混元DiT repo Fork 到你个人的仓库下
  3. 请参考验收标准,在个人仓库解决完对应的任务后,提交 PR 至混元DiT仓库
  4. PR提交后,项目导师将进行Code Review, PR 被合并后即视为任务完成
  5. 如有任何疑问,您可在研学基地报名后,加入本次混元导师微信群沟通,入群请备注”中文名&GitHubID“确认报名身份。导师将集中答疑
image

参与“腾讯开源课题实战”

时间安排:6月28日至7月28日为活动报名期,8月12日公布入围名单,8月12日至10月12日为课题实战期,通过筛选的学生即可参与此模块

开源课题实战
基于混元DiT的文生图项目优化

项目简介
我们的开源项目,是一个基于Diffusion transformer的文本到图像生成模型,它可以帮助大家更好地理解和应用业界最前沿的文生图大模型。我们希望通过这个课题实战,让更多的同学熟悉我们的代码,了解基于dit的文生图的原理以及算法工程的细节。最重要的是,我们希望通过你们的努力,能够极大地提升模型的易用性。

项目目标
我们希望从以下两个方面提升易用性:

算法优化:降低工程使用成本。我们希望可以提出新的算法/工程优化,可以进一步降低训练/推理所需显存,以及进一步提升训练/推理速度。包括但不限于蒸馏、量化、稀疏、LCM、hyper sd等加速策略。

工程优化:一键完成环境部署。我们希望可以在多种消费级显卡上进行部署,例如3090,4090,a6000,我们也希望能在windows/mac/ubuntu等平台一键部署,尽量降低工程的启动门槛。

联系导师

qinglinlu@tencent.com
zhiminli@tencent.com
jarvizhang@tencent.com

💁🏻‍♀️ 如有项目任何疑问,欢迎加入腾讯开源犀牛鸟官方QQ群859260607,期待你来!

@tencent-adm
Copy link
Member Author

tencent-adm commented Jul 1, 2024

🥳 欢迎同学共建共创腾讯混元DiT,此次我们提出如下8个issue,从文档翻译到技术实现,全部为现网待解决问题,欢迎大家挑战与认领。

待解决问题1:

技术文档翻译:readme的“环境配置”部分 (初级难度)

问题描述:

我们希望与您共创一份纯中文版的HunyuanDiT readme。感谢您的翻译!您需要协助共创的部分是 readme“环境配置”部分:
📜 Requirements
🛠 Dependencies and Installation
🧱 Download Pretrained Models

验收标准:

  • 请您留意在您贡献的过程中:技术文档的翻译需考虑技术实现过程、语言环境、措辞结构等,我们希望您提交的翻译是一个可交付的成熟中文版本。机器翻译仅作为辅助工具;
  • 请您在Fork了混元DiT仓库之后,在个人仓库下新增一个命名为README_zh.md的文件,您即可着手开始贡献并提交PR至混元Dit仓库。

待解决问题2:

技术文档翻译:readme的“训练”部分 (初级难度)

问题描述:

我们希望与您共创一份纯中文版的HunyuanDiT readme。感谢您的翻译!您需要协助共创的部分是 readme“训练”部分 :
🚚 Training
Data Preparation
Full Parameter Training
LoRA

验收标准:

  • 请您留意在您贡献的过程中:技术文档的翻译需考虑技术实现过程、语言环境、措辞结构等,我们希望您提交的翻译是一个可交付的成熟中文版本。机器翻译仅作为辅助工具;
  • 请您在Fork了混元DiT仓库之后,在个人仓库下新增一个命名为README_zh.md的文件,您即可着手开始贡献并提交PR至混元Dit仓库。

待解决问题3:

技术文档翻译:readme的“推理”部分 (初级难度)

问题描述:

我们希望与您共创一份纯中文版的HunyuanDiT readme。感谢您的翻译!您需要协助共创的部分是 readme“推理”部分:
🔑 Inference
6GB GPU VRAM Inference
Using Gradio
Using Diffusers
Using Command Line
More Configurations
Using ComfyUI

验收标准:

  • 请您留意在您贡献的过程中:技术文档的翻译需考虑技术实现过程、语言环境、措辞结构等,我们希望您提交的翻译是一个可交付的成熟中文版本。机器翻译仅作为辅助工具;
  • 请您在Fork了混元DiT仓库之后,在个人仓库下新增一个命名为README_zh.md的文件,您即可着手开始贡献并提交PR至混元DiT仓库。

待解决问题4:

技术文档翻译:readme的“功能应用”部分 (初级难度)

问题描述:

我们希望与您共创一份纯中文版的HunyuanDiT readme。感谢您的翻译!您需要协助共创的部分是 readme“功能应用”部分 :
🏗️ Adatper
ControlNet
🎨 Hunyuan-Captioner
🚀 Acceleration (for Linux)
🔗 BibTeX

验收标准:

  • 请您留意在您贡献的过程中:技术文档的翻译需考虑技术实现过程、语言环境、措辞结构等,我们希望您提交的翻译是一个可交付的成熟中文版本。机器翻译仅作为辅助工具;
  • 请您在Fork了混元DiT仓库之后,在个人仓库下新增一个命名为README_zh.md的文件,您即可着手开始贡献并提交PR至混元Dit仓库。

待解决问题5:

优化混元DiT模型启动配置流程(中级难度)

问题描述:

优化模型启动配置流程:熟悉HunyuanDiT的repo,优化参数配置文件。让用户可以清晰的通过参数配置方式启动模型训练。可参考成熟的开源项目,例如mmdetection。

验收标准:

提交PR合入代码仓库

待解决问题6:

为混元DiT增加一个设置,在训练时不使用T5 encoder(中级难度)

问题描述:

为混元DiT增加一个设置,在训练时不使用T5 encoder ,具体参见社区issue出处

验收标准:

提交PR合入代码仓库

待解决问题7:

为混元DiT开发开箱即用的训练、推理配置环境(高级难度)

问题描述:

期望帮助混元DiT优化训练部署: 开发开箱即用的训练、推理配置环境。尽量支持更多的硬件版本cuda11/12、操作平台windows/wsl/mac os。环境尽可能简洁,提升整体repo易用性。

验收标准:

提交PR合入代码仓库

待解决问题8:

让混元DiT支持webui平台(高级难度)

问题描述:

期望帮助混元DiT适配社区平台webui:尽量支持webui上sd的功能生态

验收标准:

提交PR合入代码仓库

@yhyhdyb
Copy link

yhyhdyb commented Jul 2, 2024

凑个热闹

@donglinzhou
Copy link

领取issue-待解决问题1

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants