SWE-Lancer

プロダクト概要

SWE-Lancerは、OpenAIによって開発されたオープンソースのベンチマークであり、実際のソフトウェアエンジニアリングタスクを評価するために設計されています。1400件以上の実世界のフリーランスの仕事が含まれており、その総額はなんと100万ドルを超えます。AIのコーディングスキルだけでなく、マネジメント能力も検証される点が大きな特徴です。

特徴

実世界のタスク: バグ修正から大規模な機能実装まで、様々なタスクが用意されており、それに伴う報酬も明示されています。
タスクの種類: コーディングとマネジメントの2つのカテゴリーがあります。
Docker対応: 統一されたDockerイメージにより、簡単にセットアップでき、一貫した評価が可能です。
オープンソース: 通常のパッケージに加えて、ベンチマークデータや評価スクリプトもすべてオープンソースとして公開されています。

目的

このプロダクトは、AIモデルの性能を現実の経済価値に結びつけることを目指しており、現実のタスクを通じてAIの能力を測定する手段を提供します。最前線のAIモデルでもこれらのタスクに苦戦していることが示されており、今後の進化が期待されます。

ストックにはログインが必要です

プロダクト概要

特徴

目的