自动收集 Bilibili 硬核会员答题数据并生成 LLM 评估数据集。
- 渐进式收集:支持断点续传,多次运行可累积数据。
- 智能策略:已知答案时自动选错以规避 60 分及格线,确保持续收集。
- 完整跟踪:记录选项的正确、错误及未知状态。
- 标准导出:支持导出为 HuggingFace datasets 格式(Arrow/JSONL)。
环境要求:Python 3.10+, uv
# 安装依赖
uv sync --extra cpu # 或 --extra cuda配置:创建 .env 文件
OPENAI_BASE_URL=https://api.deepseek.com/v1
OPENAI_MODEL=deepseek-chat
OPENAI_API_KEY=your_api_key_here运行:
uv run python -m bili_hardcore_benchmark.main # 收集数据
uv run python -m bili_hardcore_benchmark.export # 导出数据集- 原始数据:
benchmark_data/questions_raw.json记录题目及选项状态。 - 导出数据:包含
id,question,choices,answer,category字段。 - 加载示例:
from datasets import load_from_disk dataset = load_from_disk("benchmark_data/benchmark_v1")
- ARCHITECTURE.md:项目架构
- DEVELOPER.md:开发指南
- LICENSE:GPL-3.0 开源协议
- bili-hardcore - 核心答题逻辑参考