#

evaluation

Here are 584 public repositories matching this topic...

explodinggradients / ragas

Supercharge Your LLM Application Evaluations 🚀

evaluation llm llmops

Updated Apr 24, 2025
Python

open-compass / opencompass

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

benchmark evaluation openai llm chatgpt large-language-model llama2 llama3

Updated Apr 30, 2025
Python

AutoRAG

Marker-Inc-Korea / AutoRAG

AutoRAG: An Open-Source Framework for Retrieval-Augmented Generation (RAG) Evaluation & Optimization with AutoML-Style Automation

python open-source qa benchmarking ops pipeline analysis optimization evaluation embeddings automl document-parser rag llm retrieval-augmented-generation llm-ops llm-evaluation rag-evaluation

Updated May 4, 2025
Python

evo

MichaelGrupp / evo

Python package for the evaluation of odometry and SLAM

benchmark robotics tum mapping metrics evaluation ros slam trajectory-analysis odometry trajectory ros2 kitti euroc trajectory-evaluation

Updated Mar 20, 2025
Python

Kiln

Kiln-AI / Kiln

The easiest tool for fine-tuning LLM models, synthetic data generation, and collaborating on datasets.

python windows macos machine-learning ai evaluation prompt ml collaboration openai dataset-generation synthetic-data fine-tuning prompt-engineering chain-of-thought rlhf evals ollama

Updated May 3, 2025
Python

zzw922cn / Automatic_Speech_Recognition

End-to-end Automatic Speech Recognition for Madarian and English in Tensorflow

audio deep-learning tensorflow paper end-to-end evaluation cnn lstm speech-recognition rnn automatic-speech-recognition feature-vector data-preprocessing phonemes timit-dataset layer-normalization rnn-encoder-decoder chinese-speech-recognition

Updated Mar 24, 2023
Python

microsoft / promptbench

A unified evaluation framework for large language models

benchmark evaluation prompt robustness adversarial-attacks large-language-models prompt-engineering chatgpt

Updated Apr 29, 2025
Python

EvolvingLMMs-Lab / lmms-eval

Accelerating the development of large multimodal models (LMMs) with one-click evaluation module - lmms-eval.

evaluation agi multimodal large-language-models

Updated May 1, 2025
Python

open-compass / VLMEvalKit

Open-source evaluation toolkit of large multi-modality models (LMMs), support 220+ LMMs, 80+ benchmarks

computer-vision evaluation pytorch gemini openai vqa vit gpt multi-modal clip claude openai-api gpt4 large-language-models llm chatgpt llava qwen gpt-4v

Updated May 3, 2025
Python

uptrain-ai / uptrain

UpTrain is an open-source unified platform to evaluate and improve Generative AI applications. We provide grades for 20+ preconfigured checks (covering language, code, embedding use-cases), perform root cause analysis on failure cases and give insights on how to resolve them.

machine-learning monitoring evaluation experimentation jailbreak-detection autoevaluation root-cause-analysis prompt-engineering llmops openai-evals llm-prompting llm-eval llm-test hallucination-detection

Updated Aug 18, 2024
Python

huggingface / evaluate

🤗 Evaluate: A library for easily evaluating machine learning models and datasets.

machine-learning evaluation

Updated Jan 10, 2025
Python

avalanche

ContinualAI / avalanche

Avalanche: an End-to-End Library for Continual Learning based on PyTorch.

training library framework deep-learning metrics evaluation pytorch benchmarks strategies lifelong-learning continual-learning continualai

Updated Mar 11, 2025
Python

Cloud-CV / EvalAI

☁️ 🚀 📊 📈 Evaluating state of the art in AI

python angularjs docker challenge coveralls machine-learning django ai travis-ci reproducible-research leaderboard evaluation artificial-intelligence ai-challenges codecov reproducibility evalai

Updated May 1, 2025
Python

xinshuoweng / AB3DMOT

(IROS 2020, ECCVW 2020) Official Python Implementation for "3D Multi-Object Tracking: A Baseline and New Evaluation Metrics"

tracking machine-learning real-time computer-vision robotics evaluation evaluation-metrics multi-object-tracking kitti 3d-tracking 3d-multi-object-tracking 2d-mot-evaluation 3d-mot 3d-multi kitti-3d

Updated Apr 3, 2024
Python

huggingface / lighteval

Lighteval is your all-in-one toolkit for evaluating LLMs across multiple backends

evaluation evaluation-metrics evaluation-framework huggingface

Updated May 1, 2025
Python

pycm

sepandhaghighi / pycm

Multi-class confusion matrix library in Python

Updated Apr 28, 2025
Python

Maluuba / nlg-eval

Evaluation code for various unsupervised automated metrics for Natural Language Generation.

nlp natural-language-processing meteor machine-translation dialogue evaluation dialog rouge natural-language-generation nlg cider rouge-l skip-thoughts skip-thought-vectors bleu-score bleu task-oriented-dialogue

Updated Aug 20, 2024
Python

EthicalML / xai

XAI - An eXplainability toolbox for machine learning

machine-learning ai evaluation ml artificial-intelligence upsampling bias interpretability feature-importance explainable-ai explainable-ml xai imbalance downsampling explainability bias-evaluation machine-learning-explainability xai-library

Updated Oct 30, 2021
Python

fuzzbench

google / fuzzbench

FuzzBench - Fuzzer benchmarking as a service.

security benchmarking evaluation fuzzing benchmark-framework

Updated Feb 6, 2025
Python

torch-fidelity

toshas / torch-fidelity

High-fidelity performance metrics for generative models in PyTorch

reproducible-research metrics evaluation pytorch gan generative-model reproducibility precision inception-score frechet-inception-distance kernel-inception-distance perceptual-path-length

Updated Jan 25, 2024
Python

Improve this page

Add a description, image, and links to the evaluation topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the evaluation topic, visit your repo's landing page and select "manage topics."