TheThinkbench logo

TheThinkbench

競技プログラミングにおけるLLMの推論を継続的に評価する

Artificial Intelligence GitHub Open Source

概要

TheThinkbench は競技プログラミングの課題に対してLLMをベンチマークし、推論力・アルゴリズム思考・問題解決能力を総合的に評価します。

特徴

  • 主要AIモデルの横断的比較
  • 真の推論力の検証を重視
  • 完全オープンソースで、コミュニティの探索・改変・実験が自由

コミュニティと活用

  • ソースコード公開、貢献歓迎
  • フィードバック・アイデアの共有を通じて共同改善

使い方のヒント

  • 新規課題の追加、評価指標の拡張、モデル組み合わせの検証などが想定されます
投票数: 1
← 投稿一覧に戻る