LangChain Multimedia

Overview

This project leverages LangChain to process and generate multimedia content (audio, video, images) with plugin-based extensions and custom model integration.

Features

Text-to-Audio/Video/Image
OCR
Audio-to-Text
Configurable Parameters Management

Support Model Providers

Xinference
OpenAI
Stable Diffusion

Installation

Clone the repository

git clone https://github.com/zhcn000000/langchain-multimedia.git
cd langchain-multimedia

Create and activate a virtual environment

python3 -m venv venv
source venv/bin/activate

Install dependencies
```
pip install -r requirements.txt
```

Usage

Edit config.yaml to set your API key, model parameters, etc.
Run an example script:
```
python examples/audio_to_text.py
```

OpenAIAudioGenerator Example

from langchain_core.messages import HumanMessage, AIMessage
from langchain_multimedia import OpenAIAudioGenerator

model = OpenAIAudioGenerator(
    base_url="https://api.example.com",
    api_key="YOUR_API_KEY",
    model="voice-1",
)
model.voice = "en-US-Wavenet-D"  # Set the voice model
prompt = "Hello, world"
response = model.invoke(input=prompt)

'''
response = "/path/to/generated_audio.mp3"
'''

OpenAIImageGenerator Example

from langchain_core.messages import HumanMessage, AIMessage
from langchain_multimedia import OpenAIImageGenerator

model = OpenAIImageGenerator(
    base_url="https://api.example.com",
    api_key="YOUR_API_KEY",
    model="vision-1",
)

prompt = "Generate a landscape photo with mountains and a river"
response = model.invoke(input=prompt)
'''
response = "/path/to/generated_image.png"
'''

OpenAITranscriber Example

from langchain_multimedia import OpenAITranscriber
from pathlib import Path
audio_file = "/path/to/audio.mp3"
audio_data = Path(audio_file).read_bytes()

model = OpenAITranscriber(
    base_url="https://api.example.com",
    api_key="YOUR_API_KEY",
    model="whisper-1",
)

response = model.invoke(input=audio_data)
'''
response = "Transcribed text from the audio file"
'''

Configuration

In tests/api.json, you can configure:

api_key: API key for model service
model_name: Selected model name
timeout: Request timeout in seconds
Parameters for plugins and extensions

Tested Models

Currently only OpenAI and XInference image and audio models have been tested; other models are not yet tested.

Project Structure

.
├── examples/               Example scripts
├── langchain_multimedia/   Core modules
├── tests/                  Unit tests
├── tests/api.json         tests api config file
├── requirements.txt        Dependencies
└── README.md               Project documentation

License

This project is licensed under the MIT License.

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
langchain_multimedia		langchain_multimedia
tests		tests
.gitignore		.gitignore
README.md		README.md
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

LangChain Multimedia

Overview

Features

Support Model Providers

Installation

Usage

OpenAIAudioGenerator Example

OpenAIImageGenerator Example

OpenAITranscriber Example

Configuration

Tested Models

Project Structure

License

About

Uh oh!

Releases

Packages

Languages

zhcn000000/langchain-multimedia

Folders and files

Latest commit

History

Repository files navigation

LangChain Multimedia

Overview

Features

Support Model Providers

Installation

Usage

OpenAIAudioGenerator Example

OpenAIImageGenerator Example

OpenAITranscriber Example

Configuration

Tested Models

Project Structure

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages