ICLR 2024 の論文 SWE-bench: Can Language Models Resolve Real-World GitHub Issues? のコードとデータ
パブリックリーダーボードはウェブサイトを、SWE-bench ベンチマークの最新アップデート情報は change log を参照してください。
SWE-bench は、GitHub から収集された実世界のソフトウェアの課題に関する大規模言語モデルを評価するためのベンチマークです。 コードベースとイシューが与えられ、言語モデルは記述された問題を解決するパッチを生成するタスクを行います。
SWE-bench をソースからビルドするには、以下の手順に従ってください:
- このリポジトリをローカルにクローンする
- リポジトリに
cd
で移動する conda env create -f environment.yml
を実行して、swe-bench
という名前の conda 環境を作成するconda activate swe-bench
で環境をアクティベートする
SWE-bench データセットは直接ダウンロードするか (dev, test セット)、HuggingFace からダウンロードできます。
SWE-Bench を使用するには、以下のことができます:
- 前処理済みのデータセットで独自のモデルを学習する
- 既存のモデル (ディスクにあるLLaMAのようなモデルやGPT-4のようなAPIでアクセスできるモデル) で推論を実行する。推論ステップでは、レポとイシューを取得し、モデルにそれを修正するためのコードを生成させます。
- SWE-bench に対してモデルを評価する。これは、SWE-Benchのタスクとモデルが提案したソリューションを受け取り、その正確性を評価するためのものです。
- 独自のリポジトリに対してSWE-benchのデータ収集手順を実行し、新しいSWE-Benchタスクを作成する。
SWE-benchの様々な部分の使い方についても、以下のブログ記事を書いています。 特定のトピックについての投稿を見たい場合は、issueでお知らせください。
NLP、機械学習、ソフトウェア工学の研究コミュニティからのフィードバックを歓迎します。貢献、プルリクエスト、issueを歓迎します! そのためには、新しいプルリクエストまたはissueを提出し、それぞれのテンプレートに従って記入してください。すぐにフォローアップします!
連絡先: Carlos E. Jimenez と John Yang (Email: {carlosej, jy1682}@princeton.edu)
私たちの研究が役立つと思われる場合は、以下の引用をご利用ください。
@inproceedings{jimenez2024swebench,
title={SWE-bench: Can Language Models Resolve Real-World GitHub Issues?},
author={Carlos E. Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik Narasimhan},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=VTF8yNQM66}
}
MIT。LICENSE.md
を確認してください。