一个轻量级的 Web 工具,用于从 Danbooru 下载图像数据集并进行后处理,专为 AI 模型训练(如 LoRA/Stable Diffusion)的数据准备工作而设计。它提供了一个直观的用户界面,集成了下载、自动打标、批量编辑和图像清理等功能。
- 高效下载: 基于
gallery-dl核心,稳定快速。 - 标签过滤: 支持指定 Danbooru 标签进行精确搜索和下载。
- 灵活配置: 可自定义下载目录和下载数量限制(1-1000 张)。
- 实时反馈: 实时显示下载进度和状态。
- 自动重命名: 一键将杂乱的文件名重命名为顺序编号(如
1.jpg,2.jpg...),并保持对应的.txt标签文件同步重命名。 - 标签标准化: 自动清理标签中的下划线、转义字符等,使其符合通用的 AI 训练格式。
- 批量标签管理:
- 批量删除特定标签。
- 批量删除包含特定内容的标签(模糊匹配)。
- 批量添加新标签。
- 在线预览: 内置图像浏览器,点击左侧文件树即可预览图片和标签。
- 手动标签编辑: 针对单张图片进行标签的增删改查,支持保存。
- 内置绘图工具: 提供画笔、橡皮擦、吸管、取色器等工具,可直接在浏览器中对图片进行简单的修补和清理。
- 撤销/重做: 支持绘图操作的撤销功能。
- 智能缩放: 将文件夹下的所有图片等比例缩放至指定的最大边长(使用 Lanczos 高质量重采样算法),统一素材尺寸。
- 背景填充与格式转换: 自动检测透明背景的图片(如 PNG),填充指定的背景色(白色/灰色),并统一转换为 JPG 格式,方便模型训练。
- Python 3.8+
- Web 浏览器 (推荐 Chrome/Edge)
-
克隆或下载本项目
-
安装依赖 打开终端或命令提示符,运行以下命令安装所需的 Python 库:
pip install -r requirements.txt pip install Pillow # 如果 requirements.txt 中未包含主要依赖: Flask, gallery-dl, Pillow
-
运行应用
- Windows 用户: 直接双击运行
launch.bat脚本。 - 通用方式: 在终端中运行:
python app.py
- Windows 用户: 直接双击运行
-
访问界面 程序启动后会自动打开浏览器,或手动访问:
http://localhost:5678
app.py: Flask 后端主程序,处理 API 请求。danbooru_downloader.py: 封装gallery-dl的下载逻辑。post_processor.py: 处理文件重命名、标签清洗等后处理逻辑。templates/index.html: 前端界面源码。dataset/: 默认的图片下载目录。logs/: 程序运行日志。
- 批量处理图片前建议备份原始数据,虽然程序会尽量保证安全,但涉及文件修改的操作始终存在风险。
MIT License
