Skip to content

Fast download tags and images from Danbooru, and automatically process them into a dataset for training models efficiently!

License

Notifications You must be signed in to change notification settings

Noyze-AI/Fast-Danbooru-Dataset

Repository files navigation

Fast-Danbooru-Dataset-DL

Fast-Danbooru-Dataset-DL

一个轻量级的 Web 工具,用于从 Danbooru 下载图像数据集并进行后处理,专为 AI 模型训练(如 LoRA/Stable Diffusion)的数据准备工作而设计。它提供了一个直观的用户界面,集成了下载、自动打标、批量编辑和图像清理等功能。

主要功能

1. Danbooru 下载器

  • 高效下载: 基于 gallery-dl 核心,稳定快速。
  • 标签过滤: 支持指定 Danbooru 标签进行精确搜索和下载。
  • 灵活配置: 可自定义下载目录和下载数量限制(1-1000 张)。
  • 实时反馈: 实时显示下载进度和状态。

2. 数据集后处理

  • 自动重命名: 一键将杂乱的文件名重命名为顺序编号(如 1.jpg, 2.jpg...),并保持对应的 .txt 标签文件同步重命名。
  • 标签标准化: 自动清理标签中的下划线、转义字符等,使其符合通用的 AI 训练格式。
  • 批量标签管理:
    • 批量删除特定标签。
    • 批量删除包含特定内容的标签(模糊匹配)。
    • 批量添加新标签。

3. 图像编辑与查看

  • 在线预览: 内置图像浏览器,点击左侧文件树即可预览图片和标签。
  • 手动标签编辑: 针对单张图片进行标签的增删改查,支持保存。
  • 内置绘图工具: 提供画笔、橡皮擦、吸管、取色器等工具,可直接在浏览器中对图片进行简单的修补和清理。
  • 撤销/重做: 支持绘图操作的撤销功能。

4. 批量图像处理

  • 智能缩放: 将文件夹下的所有图片等比例缩放至指定的最大边长(使用 Lanczos 高质量重采样算法),统一素材尺寸。
  • 背景填充与格式转换: 自动检测透明背景的图片(如 PNG),填充指定的背景色(白色/灰色),并统一转换为 JPG 格式,方便模型训练。

环境要求

  • Python 3.8+
  • Web 浏览器 (推荐 Chrome/Edge)

安装与运行

  1. 克隆或下载本项目

  2. 安装依赖 打开终端或命令提示符,运行以下命令安装所需的 Python 库:

    pip install -r requirements.txt
    pip install Pillow  # 如果 requirements.txt 中未包含

    主要依赖: Flask, gallery-dl, Pillow

  3. 运行应用

    • Windows 用户: 直接双击运行 launch.bat 脚本。
    • 通用方式: 在终端中运行:
      python app.py
  4. 访问界面 程序启动后会自动打开浏览器,或手动访问: http://localhost:5678

项目结构

  • app.py: Flask 后端主程序,处理 API 请求。
  • danbooru_downloader.py: 封装 gallery-dl 的下载逻辑。
  • post_processor.py: 处理文件重命名、标签清洗等后处理逻辑。
  • templates/index.html: 前端界面源码。
  • dataset/: 默认的图片下载目录。
  • logs/: 程序运行日志。

注意事项

  • 批量处理图片前建议备份原始数据,虽然程序会尽量保证安全,但涉及文件修改的操作始终存在风险。

License

MIT License

About

Fast download tags and images from Danbooru, and automatically process them into a dataset for training models efficiently!

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published