🎬 Video Dubbing Pipeline

Professional video dubbing solution with automated transcription, translation, and text-to-speech generation using Parakeet-TDT-0.6b-v2, Gemini AI, and Edge TTS.

✨ Features

🎬 Step-by-Step Dubbing

Automatic Transcription: Extract and transcribe audio from videos using Parakeet-TDT-0.6b-v2
AI Translation: Translate content using Google Gemini AI
Manual Translation: Support for custom translations in JSON format
TTS Generation: High-quality text-to-speech with multiple voice options
Video Synchronization: Automatically sync dubbed audio with original video

🎵 Batch Video Creation

Multiple Audio Processing: Upload one video and multiple audio files
Batch Output: Generate multiple dubbed videos automatically
Efficient Workflow: Process multiple variations quickly

🚀 Quick Start

Installation via Pinokio

Install through Pinokio platform
Click "Install" to set up dependencies
Click "Start Application" to launch

Manual Installation

# Clone repository
git clone <repository-url>
cd video-dubbing-pipeline

# Create virtual environment
python -m venv env
source env/bin/activate  # On Windows: env\Scripts\activate

# Install dependencies
pip install -r requirements.txt

# Start application
python app.py

📋 Requirements

System Requirements

Python 3.8+
FFmpeg (for video/audio processing)
CUDA GPU (recommended for optimal performance)
4GB+ VRAM (for ASR model)

API Requirements

Google Gemini API Key (for translation and TTS)
- Get your API key from Google AI Studio
- Multiple keys supported for higher rate limits

🎯 Usage

Step-by-Step Dubbing

Configure API Keys: Enter your Gemini API keys (one per line)
Upload Video: Select your video file for dubbing
Choose Voice: Select voice name (e.g., Kore, Puck, Zephyr)
Select Mode:
- Automatic: AI-powered translation
- Manual: Provide custom JSON translation
Run Pipeline: Click "Run Dubbing Pipeline"
Download Results: Get dubbed video and audio files

Batch Video Creation

Configure API Keys: Enter your Gemini API keys
Upload Video: Select base video file
Upload Audio Files: Select multiple audio files
Choose Voice: Select voice configuration
Create Batch: Click "Create Batch Videos"
Download All: Get all generated videos

📁 Project Structure

├── app.py                     # Main Gradio application
├── requirements.txt           # Python dependencies
├── README.md                 # This file
├── PINOKIO.MD               # Pinokio platform documentation
├── install.js               # Pinokio installation script
├── start.js                 # Pinokio startup script
├── pinokio.js              # Pinokio configuration
├── real_gemini_service.py   # Gemini AI translation service
├── final_working_tts.py     # TTS generation service
├── simple_edge_tts.py       # Edge TTS integration
└── batch_dubbed_videos/     # Output directory for batch processing

🔧 Configuration

Voice Options

Kore: Balanced, natural voice
Puck: Energetic, youthful voice
Zephyr: Calm, professional voice
Custom: Specify your own voice name

Translation Settings

Target Language: Currently optimized for Hindi
Tone: Neutral, professional tone
Dialect: Hindi Devanagari script
Genre: General content adaptation

🎵 Supported Formats

Input Formats

Video: MP4, AVI, MOV, MKV, WebM
Audio: WAV, MP3, FLAC, M4A, OGG

Output Formats

Video: MP4 (H.264 + AAC)
Audio: WAV (16-bit, 16kHz)

🚨 Troubleshooting

Common Issues

Model Loading Errors: Ensure sufficient VRAM (4GB+)
FFmpeg Not Found: Install FFmpeg and add to PATH
API Key Errors: Verify Gemini API key validity
CUDA Issues: Install CUDA toolkit for GPU acceleration

Performance Tips

Use GPU for faster transcription
Provide multiple API keys for higher rate limits
Process shorter videos for faster results
Ensure stable internet connection for API calls

📝 License

This project is licensed under the MIT License - see the LICENSE file for details.

🤝 Contributing

Contributions are welcome! Please feel free to submit a Pull Request.

📞 Support

For issues and questions:

Check the troubleshooting section
Review the documentation
Open an issue on GitHub

Made with ❤️ for content creators and developers

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
.gitignore		.gitignore
ENVIRONMENT		ENVIRONMENT
LICENSE		LICENSE
PINOKIO.MD		PINOKIO.MD
README.md		README.md
app.py		app.py
audio_utils.py		audio_utils.py
config.py		config.py
edge_tts_service.py		edge_tts_service.py
edge_tts_voice_parser.py		edge_tts_voice_parser.py
error_handler.py		error_handler.py
final_working_tts.py		final_working_tts.py
gemini_voice_library.py		gemini_voice_library.py
icon.png		icon.png
install.js		install.js
link.js		link.js
manual_mode_utils.py		manual_mode_utils.py
pinokio.js		pinokio.js
pinokio_meta.json		pinokio_meta.json
pipeline_controller.py		pipeline_controller.py
real_gemini_service.py		real_gemini_service.py
requirements.txt		requirements.txt
reset.js		reset.js
simple_edge_tts.py		simple_edge_tts.py
single_request_tts.py		single_request_tts.py
start.js		start.js
state_manager.py		state_manager.py
torch.js		torch.js
transcript_chunker.py		transcript_chunker.py
translation.py		translation.py
tts.py		tts.py
update.js		update.js

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🎬 Video Dubbing Pipeline

✨ Features

🎬 Step-by-Step Dubbing

🎵 Batch Video Creation

🚀 Quick Start

Installation via Pinokio

Manual Installation

📋 Requirements

System Requirements

API Requirements

🎯 Usage

Step-by-Step Dubbing

Batch Video Creation

📁 Project Structure

🔧 Configuration

Voice Options

Translation Settings

🎵 Supported Formats

Input Formats

Output Formats

🚨 Troubleshooting

Common Issues

Performance Tips

📝 License

🤝 Contributing

📞 Support

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

License

Paxurux/Videodubbing-with-gemini

Folders and files

Latest commit

History

Repository files navigation

🎬 Video Dubbing Pipeline

✨ Features

🎬 Step-by-Step Dubbing

🎵 Batch Video Creation

🚀 Quick Start

Installation via Pinokio

Manual Installation

📋 Requirements

System Requirements

API Requirements

🎯 Usage

Step-by-Step Dubbing

Batch Video Creation

📁 Project Structure

🔧 Configuration

Voice Options

Translation Settings

🎵 Supported Formats

Input Formats

Output Formats

🚨 Troubleshooting

Common Issues

Performance Tips

📝 License

🤝 Contributing

📞 Support

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages