你可以在我們的ICLR 2024的論文《SWE-bench: Can Language Models Resolve Real-World GitHub Issues?》中找到我們的代碼和數據
請訪問我們的網站查看公共排行榜,並查看更改日誌以獲取有關 SWE-bench 基準最新更新的信息。
SWE-bench 是一個用於評估大型語言模型的基準,這些模型是從 GitHub 收集的真實軟體問題。 給定一個 代碼庫 和一個 問題,語言模型的任務是生成一個 修補程式 來解決所描述的問題。
要從源代碼構建 SWE-bench,請按照以下步驟操作:
- 克隆此倉庫到本地
cd
進入倉庫- 運行
conda env create -f environment.yml
創建名為swe-bench
的 conda 環境 - 使用
conda activate swe-bench
激活環境
你可以直接下載 SWE-bench 數據集 (開發, 測試 集) 或從 HuggingFace 下載。 要使用 SWE-Bench,你可以:
- 在我們預處理的數據集上訓練自己的模型
- 在現有模型上運行 推理(不管是本地的模型,比如LLaMA,還是通過API訪問的模型,比如GPT-4)。推理步驟是你獲取一個倉庫和一個問題,讓模型嘗試去修復它。
- 對模型進行 評估。這是你拿到一個 SWE-Bench 任務和一個模型提出的解決方案,然後評估其正確性。
- 在你自己的倉庫上運行 SWE-bench 的 數據收集過程,以創建新的 SWE-Bench 任務。
我們還撰寫了以下有關如何使用SWE-bench不同部分的博客文章。 如果您想看到有關特定主題的文章,請通過問題告訴我們。
- [Nov 1. 2023] Collecting Evaluation Tasks for SWE-Bench (🔗)
- [Nov 6. 2023] Evaluating on SWE-bench (🔗)
我們很樂意聽取來自更廣泛的 NLP、機器學習和軟體工程研究社區的意見,並歡迎任何貢獻、拉取請求或問題! 為此請提交新的拉取請求或問題,並根據相應的模板填寫。我們將盡快跟進!
聯繫人: Carlos E. Jimenez 和 John Yang (Email: {carlosej, jy1682}@princeton.edu).
如果你覺得我們的工作有幫助,請使用以下引用。
@inproceedings{
jimenez2024swebench,
title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=VTF8yNQM66}
}
MIT. 參考 LICENSE.md
.