data-processing-pipelines

Here are 9 public repositories matching this topic...

NVIDIA-NeMo / Curator

Scalable data pre processing and curation toolkit for LLMs

python data data-processing data-preparation deduplication data-quality data-curation data-prep fine-tuning fast-data-processing data-processing-pipelines datacuration large-language-models llm llmapps large-scale-data-processing datarecipes semantic-deduplication llm-data-quality

Updated Sep 23, 2025
Python

graphbookai / graphbook

Star

Visual AI development framework for training and inference of ML models, scaling pipelines, and automating workflows with Python.⭐ Leave a star to support us!

workflow data-science machine-learning framework research ai ml pytorch data-processing data-processing-pipelines

Updated Apr 11, 2025
Python

westandskif / convtools

Star

convtools is a specialized Python library for dynamic, declarative data transformations with automatic code generation

python csv-converter csv parsing transformations conversions data-analysis code-generation data-processing-pipelines

Updated Sep 21, 2025
Python

kaburia / filter-stations

Star

Making it easier to navigate and clean TAHMO weather station data for ML development

pypi-package api-development data-processing-pipelines

Updated Sep 7, 2024
Python

tamasgal / thepipe

Star

A simplistic, general purpose pipeline framework.

python data-science pipelines provenance data-processing hacktoberfest data-processing-pipelines

Updated Jul 21, 2022
Python

Plato-solutions / artifician

Star

Artifician is an event-driven framework designed to simplify and accelerate the process of preparing datasets for Artificial Intelligence models.

python machine-learning artificial-intelligence data-processing dataset-preparation data-processing-pipelines

Updated Jan 30, 2024
Python

chandnii7 / Big-Data-Processing-Pipeline

Star

A pipeline that consumes twitter data to extract meaningful insights about a variety of topics using the following technologies: twitter API, Kafka, MongoDB, and Tableau.

kafka big-data mongodb twitter-api data-visualization zookeeper data-analytics kafka-consumer kafka-producer tableau nosql-database kafka-streaming big-data-processing data-processing-pipelines

Updated Aug 2, 2021
Python

caddickzac / Plex-Music-Organizer

Star

Streamlit app to export Plex music metadata and bulk-update tags from CSV

metadata plex plex-server plex-media-server data-processing plex-api plexapi data-processing-pipelines

Updated Aug 27, 2025
Python

Lucky-akash321 / Resume-Application-Tracker-System-ATS-using-Gemini-Pro-Vision

Star

The Resume Application Tracking System uses Google Gemini Pro Vision to automatically parse, analyze, and categorize resumes for efficient recruitment. It integrates AI-driven vision capabilities to enhance resume processing and candidate selection.

python machine-learning natural-language-processing data-visualization data-processing-pipelines ai-based-resume-parsing google-gemini-pro-vision automated-candidate-categorization cloud-based-solutions

Updated Feb 13, 2025
Python

Improve this page

Add a description, image, and links to the data-processing-pipelines topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the data-processing-pipelines topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data-processing-pipelines

Here are 9 public repositories matching this topic...

NVIDIA-NeMo / Curator

graphbookai / graphbook

westandskif / convtools

kaburia / filter-stations

tamasgal / thepipe

Plato-solutions / artifician

chandnii7 / Big-Data-Processing-Pipeline

caddickzac / Plex-Music-Organizer

Lucky-akash321 / Resume-Application-Tracker-System-ATS-using-Gemini-Pro-Vision

Improve this page

Add this topic to your repo