Bilibili Hardcore Benchmark

自动收集 Bilibili 硬核会员答题数据并生成 LLM 评估数据集。

评估结果 (v1)

功能特性

渐进式收集：支持断点续传，多次运行可累积数据。
智能策略：已知答案时自动选错以规避 60 分及格线，确保持续收集。
完整跟踪：记录选项的正确、错误及未知状态。
标准导出：支持导出为 HuggingFace datasets 格式（Arrow/JSONL）。

快速开始

环境要求：Python 3.10+, uv

# 安装依赖
uv sync --extra cpu  # 或 --extra cuda

配置：创建 .env 文件

OPENAI_BASE_URL=https://api.deepseek.com/v1
OPENAI_MODEL=deepseek-chat
OPENAI_API_KEY=your_api_key_here

运行：

uv run python -m bili_hardcore_benchmark.main    # 收集数据
uv run python -m bili_hardcore_benchmark.export  # 导出数据集

数据说明

原始数据：benchmark_data/questions_raw.json 记录题目及选项状态。
导出数据：包含 id, question, choices, answer, category 字段。

加载示例：

from datasets import load_from_disk
dataset = load_from_disk("benchmark_data/benchmark_v1")

致谢

bili-hardcore - 核心答题逻辑参考

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
.github/workflows		.github/workflows
assets		assets
benchmark_data		benchmark_data
bili_hardcore_benchmark		bili_hardcore_benchmark
lm_eval_tasks/bili_hardcore		lm_eval_tasks/bili_hardcore
results		results
.env.example		.env.example
.gitattributes		.gitattributes
.gitignore		.gitignore
.python-version		.python-version
ARCHITECTURE.md		ARCHITECTURE.md
DEVELOPER.md		DEVELOPER.md
LICENSE		LICENSE
README.md		README.md
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Bilibili Hardcore Benchmark

评估结果 (v1)

功能特性

快速开始

数据说明

相关文档

致谢

About

Uh oh!

Releases

Packages

Languages

License

Puiching-Memory/bili-hardcore-benchmark

Folders and files

Latest commit

History

Repository files navigation

Bilibili Hardcore Benchmark

评估结果 (v1)

功能特性

快速开始

数据说明

相关文档

致谢

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages