Noyze-AI / Fast-Danbooru-Dataset Public

Notifications You must be signed in to change notification settings
Fork 3
Star 45

Fast download tags and images from Danbooru, and automatically process them into a dataset for training models efficiently!

45 stars 3 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
dataset		dataset
logs		logs
templates		templates
.gitignore		.gitignore
LICENSE.txt		LICENSE.txt
README.md		README.md
README.png		README.png
app.py		app.py
danbooru_downloader.py		danbooru_downloader.py
launch.bat		launch.bat
post_processor.py		post_processor.py
requirements.txt		requirements.txt

Repository files navigation

Fast-Danbooru-Dataset-DL

一个轻量级的 Web 工具，用于从 Danbooru 下载图像数据集并进行后处理，专为 AI 模型训练（如 LoRA/Stable Diffusion）的数据准备工作而设计。它提供了一个直观的用户界面，集成了下载、自动打标、批量编辑和图像清理等功能。

主要功能

1. Danbooru 下载器

高效下载: 基于 gallery-dl 核心，稳定快速。
标签过滤: 支持指定 Danbooru 标签进行精确搜索和下载。
灵活配置: 可自定义下载目录和下载数量限制（1-1000 张）。
实时反馈: 实时显示下载进度和状态。

2. 数据集后处理

自动重命名: 一键将杂乱的文件名重命名为顺序编号（如 1.jpg, 2.jpg...），并保持对应的 .txt 标签文件同步重命名。
标签标准化: 自动清理标签中的下划线、转义字符等，使其符合通用的 AI 训练格式。
批量标签管理:
- 批量删除特定标签。
- 批量删除包含特定内容的标签（模糊匹配）。
- 批量添加新标签。

3. 图像编辑与查看

在线预览: 内置图像浏览器，点击左侧文件树即可预览图片和标签。
手动标签编辑: 针对单张图片进行标签的增删改查，支持保存。
内置绘图工具: 提供画笔、橡皮擦、吸管、取色器等工具，可直接在浏览器中对图片进行简单的修补和清理。
撤销/重做: 支持绘图操作的撤销功能。

4. 批量图像处理

智能缩放: 将文件夹下的所有图片等比例缩放至指定的最大边长（使用 Lanczos 高质量重采样算法），统一素材尺寸。
背景填充与格式转换: 自动检测透明背景的图片（如 PNG），填充指定的背景色（白色/灰色），并统一转换为 JPG 格式，方便模型训练。

环境要求

Python 3.8+
Web 浏览器 (推荐 Chrome/Edge)

安装与运行

克隆或下载本项目
安装依赖 打开终端或命令提示符，运行以下命令安装所需的 Python 库：
```
pip install -r requirements.txt
pip install Pillow  # 如果 requirements.txt 中未包含
```
主要依赖: Flask, gallery-dl, Pillow
运行应用
- Windows 用户: 直接双击运行 launch.bat 脚本。
- 通用方式: 在终端中运行：
```
python app.py
```
访问界面 程序启动后会自动打开浏览器，或手动访问: http://localhost:5678

项目结构

app.py: Flask 后端主程序，处理 API 请求。
danbooru_downloader.py: 封装 gallery-dl 的下载逻辑。
post_processor.py: 处理文件重命名、标签清洗等后处理逻辑。
templates/index.html: 前端界面源码。
dataset/: 默认的图片下载目录。
logs/: 程序运行日志。

注意事项

批量处理图片前建议备份原始数据，虽然程序会尽量保证安全，但涉及文件修改的操作始终存在风险。

License

MIT License

About

Fast download tags and images from Danbooru, and automatically process them into a dataset for training models efficiently!

Report repository

Releases

No releases published

Packages

No packages published

Languages