agentrial

AIエージェントのための pytest。統計で評価、運任せではない。

AIエージェントの評価を統計的アプローチで行うオープンソースツール。N回実行で信頼区間を算出、単一の通過ではなく再現性を評価。Fisher検定でボトルネックを特定。エージェント信頼性スコア0-100、コスト-per-正答、CI/CD統合、VS Code拡張、複数フレームワーク連携。ローカル実行・MITライセンス。

ストックにはログインが必要です