Description
活动说明
飞桨套件快乐开源常规赛活动旨在让众多开发者能参与到各大CV/NLP套件的建设工作中(也是我们原有Issue攻关活动的升级版本),包括不限于新增基础功能、论文复现、Issue回复等,任何有利于社区意见流动和问题解决的行为都热切希望大家的参与。让我们共同成长为成为飞桨CV/NLP套件的重要contributors。🎉🎉
在套件快乐开源常规赛活动中,我们会结合技术研讨和任务发布两种活动形式互相促进。任何愿意参与社区贡献(新增代码、Issue解答等),对增长在分割、OCR方向(后续我们会持续开放包括图像检测、部署、图像分类、3D、自然语言处理等方向)知识感兴趣的开发者都可以加入😊。在这个过程中,让大家保持对各大视觉方向知识的持续积累是我们的不变的主旨🔥。
技术研讨会
为了帮助大家循序渐进地了解、建议、开发飞桨模型方向的开源项目,我们搭建了技术研讨会,参与活动的开发者每周可以参与到飞桨RD分享的技术研讨会中,研讨内容包括不限于:
- 套件代码结构剖析,read the code。
- OCR、Segmentation方向算法综述分享。
- OCR、Segmentation方向前沿论文解读。
- 讨论新增需求的重要程度,让你的发言推动飞桨套件的发展。
活动价值
研讨会学习的知识可以帮助大家参与我们的各项代码和Issue解答任务,任务完成排行榜将在下方每天更新,期待大家的参与。完成任务的贡献者可以获得:
- 技术提升:学习行业内的新动态新方向,让自己的技术实力得以提升;
- 荣誉奖励:
a. 成为极具影响力的视觉套件的重要contributor。
b. 获得开源贡献证书、社区曝光度、奖状徽章等;
c. 快乐开源共享奖品,包括PS5,airpods等。 - 优秀的开源贡献者可以获得实习内推机会,成为飞桨模型套件方向实习生;
任务攻克排行榜(Issue解答、代码开发)
开发者github id | issue解答数量 | 解答issue 产生的PR数量 (🌟) | 完成命题任务的数量 (:dart:) |
---|---|---|---|
冲呀呀呀-livingbody | 41 | 🌟 | 🎯 🎯 |
ToddBear | 11 | 🎯 🎯 | |
强盛大队-MINGtoMING | 🎯 🎯 | ||
曲项向天歌-Asthestarsfalll | 69 | 🌟 🌟 🌟 🌟 🌟 🌟 | 🎯 |
德布罗意波-marshall-dteach | 3 | 🎯 | |
flytocc | 🎯 | ||
Liyulingyue | 2 | 🌟 🌟 | |
冲锋小队-Gmgge | 7 | 🌟 | |
风清扬-WilliamQf-AI | 6 | 🌟 | |
GreatX-GreatV | 4 | 🌟 | |
kerneltravel | 1 | 🌟 | |
xu-peng-7 | 1 | 🌟 | |
明月心-raoyutian | 8 | ||
bltcn | 1 |
任务列表
1. 命题任务(持续更新中):
命题任务是我们经过在 #10334 进行需求征集、在技术研讨会上经过大家讨论确定重要的需求。欢迎对这些需求也感兴趣的开发者参与到这些任务的开发✌️✌️。在开发过程中,你能进行包括任务分解、代码撰写等工作,还会有飞桨的研发全程和你一起解决可能遇到的问题。还等什么,快来参与吧。🎉🎉
-
做任务流程:
- 在本条Issue页面进行报名。
- 加一下飞桨套件研发的微信:transy-k,加入到CV套件建设总群,在完成任务中有任何问题都可以进行反馈,会有模型套件方向的RD进行解答。
- 完成任务后,在任务对应跟踪Issue页面进行回复完成,RD验收通过后即视作完成,并在当天更新在issue排行榜。
-
任务达成标准:完成尽可能多的任务,完成情况每天都会更新到任务攻克总榜(Issue解答、代码开发),完成命题任务的数量由:dart:认证
-
任务列表
23年Q4任务
任务名称 (需求提出者) |
任务描述 | tracking issue | mentor | 报名 |
---|---|---|---|---|
MedicalSeg增加滑窗推理功能(@tangshiyu) | 3D医疗图像中缺少滑窗推理推理功能,滑窗推理可以进一步增强任意模型的精度 | PaddleSeg#3536 | @shiyutang | |
~~early stop作为一种正则化的工具,可以用于模型开发的优化过程中,作为新增功能增加paddleseg中 | PaddleSeg#3537~~ | @shiyutang | @ooooo-create (已完成) | |
增加类激活图 (@tangshiyu) | 激活图可视化能够可以帮助理解深度学习模型任务中的决策过程。通过观察模型关注的区域,可以了解模型是如何根据不同区域的特征来进行分类决策的,是一项十分有意义且重要的功能 | PaddleSeg#3538 | @shiyutang | |
增加训练图像、推理图像、标签图像可视化(@Wst-sd) | 飞桨支持强大的训练可视化工具VisualDL,用于记录和监控训练过程,可以在每次模型保存过程中,增加训练图像、推理图像、标签图像可视化,更直观地感受训练效果 | PaddleSeg#3545 | @shiyutang | |
CAT-Seg (CVPR'2023)模型复现(@tangshiyu) | CAT-Seg是open-vocabulary semantic segmentation的前沿模型,其提出了一种cost aggregation方法将CLIP表征应用于像素级分割任务,在多个数据集上达到了开放集分割的SOTA | PaddleSeg#3535 | @shiyutang | |
VPD模型+下游任务(视觉感知、图像分割、深度估计)(@tangshiyu) | VPD是结合Diffusion Models的图文预训练模型,可以广泛的应用于下游任务,如视觉感知、图像分割、深度估计等等,且均取得了不错的效果。可以将VPD接入PaddleSeg中,并应用于下游任务中 | PaddleSeg#3540 | @shiyutang | |
新增图文对话模型X-GPT (@tangshiyu) | X-Decoder 集成了图像理解的多类任务,结合GPT和SD相关生成模型就可以实现All-in-One的图文对话式agnet | PaddleSeg#3541 | @shiyutang | |
验证并提升SAM+Clip在语义分割场景下的zero-shot分割精度 (@tangshiyu) | 以语义分割为代表的视觉任务存在泛化性差的问题,即每次在新数据上都需要重新训练。大模型的发展利用图文链接的形式大大提升了模型的泛化性,但是前沿论文对于zero-shot的研究表明,完全的zero-shot的分割精度依旧较低。因此我们借用clip中对zero-shot的定义,即在未见过的图片而非是未见过的类别上,查看CLIP+SAM模型的分割效果(这一定义也十分有实用意义),并借用前沿论文的思想对baseline进一步优化。这一举动将验证并优化语义分割模型在未见过的数据上的泛化性 | PaddleSeg#3542 | @shiyutang | |
【Bug Fix】humanseg显存泄漏(@enemy1205) | 使用PaddleSeg进行人像分割时,对大批量数据进行人像分割推理时,内存释放不充分,出现内存堆积问题,触发Linux OOM机制导致程序被kill。 | PaddleSeg#3543 | @shiyutang | |
【Bug Fix】modnet推理问题(@munibkhanali) | 使用modnet进行image matting,在将其转换为 paddlelite 兼容模型时,出现报错,具体参考(#3477) | PaddleSeg#3544 | @shiyutang | |
新增的Satrn识别模型缺少说明文档,适合开源贡献经历较少的同学了解提交PR过程并熟悉OCR文档 | PaddleOCR#11131 | @shiyutang | @wkml | |
补充Satrn识别模型TIPC(@tangshiyu) | 新增的Satrn模型缺少TIPC,完成tipc有利于上手训推全流程自动化脚本验证过程 | PaddleOCR#11133 | @shiyutang | |
增加多卡评估(@flytocc) | 目前PaddleDetection仅支持单卡评估,希望支持多卡评估 | PaddleDet#8682 | @shiyutang | @MINGtoMING |
为PaddleOCR增加训练时周期性验证的开关(@tangshiyu) | 为PaddleOCR增加训练时周期性验证的开关;为PaddleOCR增加eval_epoch_step参数。与PaddleCV的其它基础套件PaddleSeg、PaddleDetection、PaddleClas、Paddle3D等不同,PaddleOCR不支持上述功能,这导致包括但不限于如下问题:用户有时只想要将模型训练一定的迭代轮数,并不希望在训练时进行精度评估(这可能带来额外的时间开销),而目前PaddleOCR无法优雅地满足这个需求,只能通过设定一个较大的eval_batch_step数值来实现。更换数据集后,由于数据集大小发生改变,用户往往也需要修改eval_batch_step配置,以使得eval频率合适。PaddleOCR中实现的是epoch-based trainer,在配置文件中设置的也是epoch_num而不是num_iters,但eval_batch_step却是iters粒度的控制,存在风格不契合的问题。 | PaddleOCR#11132 | @shiyutang |
23年Q3任务
任务名称 (需求提出者) |
任务描述 | tracking issue | mentor | 报名 |
---|---|---|---|---|
在文本识别之后,增加对单字位置坐标的返回,可以用于文档比对、合同篡改等大量场景中。 | PaddleOCR#10377 | @shiyutang | @ToddBear #10515 | |
各大CV套件目前在依赖库、模型保存路径等问题上存在很多不一致性,导致没有办法达到环境统一,使用知识迁移等效果,体验效果变差。此任务致力解决这个问题,同时解决难度不高,是一个非常适合上手的任务 | PaddleOCR#10380 | @shiyutang @Bobholamovic | @livingbody | |
根据原作者提出的issue https://github.com/PaddlePaddle/PaddleSeg/issues/3346, 复现论文MobileSAM。该模型为火爆的SAM模型的加速版本,大大提升了SAM的使用体验,该模型目前已经有2.9k star,模型、代码已经开源,只需进行前向对齐即可 | PaddleOCR#10451 | @shiyutang | @Asthestarsfalll PaddleSeg#3349 | |
该模型将视觉和语义信息结合,实现精度和速度的双重提升,对比前沿模型SVTR有进一步优势 | PaddleOCR#10452 | @shiyutang | @ToddBear | |
为Paddledet增加前沿策略SQR,可以应用在多个模型中 | PaddleDetection#8498 | @shiyutang @juncaipeng | @flytocc | |
该论文提出的可扩展通用分类头在多标签分类、zero-sho以及单标签分类任务上表现出很好的效果。本任务的完成可以扩充PaddleClas多标签分类相关视觉任务,并有众多应用场景。作者团队基于不同数据集验证不同任务的性能,充分证明ML-Decoder分类头的性能以及泛用性。 | PaddleClas#2896 | @cuicheng01 @shiyutang | @MINGtoMING | |
【模型压缩推全计划】为六大套件新增模型压缩功能(@shiyutang) | 目前各套件的模型压缩能力参差不齐,而模型压缩作为部署之前的一步,可以在不损害或者少量损害模型精度的情况下,对模型的能耗,速度、大小都有显著的改善。因此为了对各套件的模型压缩进行推全,我们提出了基于PaddleSlim的ACT为各大套件新增模型压缩功能的计划。 | PaddleOCR#10657 | @shiyutang | 在issue页面报名 |
多标签分割是分割中的一个分支,常用于医疗分割中,通过修改分割头和损失函数即可实现。 | PaddleSeg#3456 | @shiyutang | @MINGtoMING |
2. Good first issue
-
任务说明:通常是一些对于文档不熟悉、代码运行报错、bug 的修复等,你可以通过完成这个 ISSUE/PR 来踏出贡献代码的第一步。
-
做任务流程:
- 在本条Issue页面进行报名。
- 加一下飞桨套件研发的微信:transy-k 加入到CV套件建设总群,在完成任务中有任何问题都可以进行反馈,会有模型套件方向的RD进行解答。
- 回复issue,认为回答正确后本页面进行回复完成,RD验收通过后即完成一条,并在当天更新在任务完成排行榜。
-
任务达成标准:完成尽可能多的issue,完成情况每天都会更新到任务攻克总榜(Issue解答、代码开发),如果在此基础上额外提出了PR并合入的进行额外加星🌟。
-
任务列表:
- PaddleOCR Repo: good first issue
- PaddleSeg Repo:good first issue
报名模版
队伍名:XXX
队伍成员微信昵称:XX
功能描述:(可选)描述想要实现的功能
【提交时补充】issue/PR地址:Github链接
💡 欢迎提出你的想法
- 欢迎向套件方向的建设提出你的想法,无论是对各大套件想提出新的需求,还是对我们建设方向的建议,都欢迎踊跃提出你的意见。关于新增需求或问题可以在issue中提出。你的需求和建议也可能成为我们后续发布的任务,大家可以群策群力一起实现。
Metadata
Assignees
Labels
Type
Projects
Status
Done
Status
Done