👋 总览

SWE-bench 是一个用于评估大型语言模型的基准，这些模型是从 GitHub 收集的真实软件问题。给定一个 代码库 和一个问题，语言模型的任务是生成一个补丁来解决所描述的问题。

🚀 设置

要从源代码构建 SWE-bench，请按照以下步骤操作:

克隆此仓库到本地
cd 进入仓库
运行 conda env create -f environment.yml 创建名为 swe-bench 的 conda 环境
使用 conda activate swe-bench 激活环境

💽 使用

你可以直接下载 SWE-bench 数据集 (开发, 测试集) 或从 HuggingFace 下载。要使用 SWE-Bench，你可以:

在我们预处理的数据集上训练自己的模型
在现有模型上运行推理（不管是本地的模型，比如LLaMA，还是通过API访问的模型，比如GPT-4）。推理步骤是你获取一个仓库和一个问题，让模型尝试去修复它。
对模型进行评估。这是你拿到一个 SWE-Bench 任务和一个模型提出的解决方案，然后评估其正确性。
在你自己的仓库上运行 SWE-bench 的数据收集过程，以创建新的 SWE-Bench 任务。

⬇️ 下载

数据集	模型
🤗 SWE-bench	🦙 SWE-Llama 13b
🤗 "Oracle" Retrieval	🦙 SWE-Llama 13b (PEFT)
🤗 BM25 Retrieval 13K	🦙 SWE-Llama 7b
🤗 BM25 Retrieval 27K	🦙 SWE-Llama 7b (PEFT)
🤗 BM25 Retrieval 40K
🤗 BM25 Retrieval 50K (Llama tokens)

🍎 教程

我们还写了关于如何使用SWE-bench不同部分的博客文章。如果您想看到关于特定主题的文章，请通过问题告诉我们。

[Nov 1. 2023] Collecting Evaluation Tasks for SWE-Bench (🔗)
[Nov 6. 2023] Evaluating on SWE-bench (🔗)

💫 贡献

我们欢迎来自更广泛的自然语言处理、机器学习和软件工程研究社区的反馈。我们欢迎任何贡献、PR或问题! 为此，请提交新的PR或问题，并相应地填写相应的模板。我们将尽快跟进!

联系人: Carlos E. Jimenez 和 John Yang (Email: {carlosej, jy1682}@princeton.edu).

✍️ 引用

如果你觉得我们的工作有帮助，请使用以下引用。

@inproceedings{
    jimenez2024swebench,
    title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
    author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
    booktitle={The Twelfth International Conference on Learning Representations},
    year={2024},
    url={https://openreview.net/forum?id=VTF8yNQM66}
}

🪪 许可证

MIT. 参考 LICENSE.md.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_CN.md

README_CN.md

👋 总览

🚀 设置

💽 使用

⬇️ 下载

🍎 教程

💫 贡献

✍️ 引用

🪪 许可证

Files

README_CN.md

Latest commit

History

README_CN.md

File metadata and controls

👋 总览

🚀 设置

💽 使用

⬇️ 下载

🍎 教程

💫 贡献

✍️ 引用

🪪 许可证