Skip to content
#

data-deduplication

Here are 26 public repositories matching this topic...

RepoCapsule is a Python toolkit for turning GitHub, local, and other text/code sources into clean JSONL corpora for LLM pre-training, fine-tuning, or RAG. It provides structure-aware chunking, robust Unicode decoding, pluggable quality/safety screening, and optional dataset card + deduplication support.

  • Updated Dec 7, 2025
  • Python

Этот проект представляет собой мощный инструмент для поиска и анализа дублирующихся файлов в указанной директории. Программа позволяет эффективно выявлять одинаковые файлы на основе их содержимого, используя алгоритм хеширования SHA-256. Она поддерживает настройку параметров, таких как минимальный размер файла для проверки и игнорирование определен

  • Updated Feb 14, 2025
  • Python

The HR Roster Change Detection Pipeline is an automated solution for processing HR roster data. Leveraging Apache Airflow and PostgreSQL, it enables seamless data ingestion, deduplication, and change detection, streamlining HR operations.

  • Updated Dec 4, 2024
  • Python

Improve this page

Add a description, image, and links to the data-deduplication topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the data-deduplication topic, visit your repo's landing page and select "manage topics."

Learn more