agentrial
ストックにはログインが必要です
AIエージェントのための pytest。統計で評価、運任せではない。
Artificial Intelligence
Developer Tools
GitHub
Open Source
AIエージェントの評価を統計的アプローチで行うオープンソースツール。N回実行で信頼区間を算出、単一の通過ではなく再現性を評価。Fisher検定でボトルネックを特定。エージェント信頼性スコア0-100、コスト-per-正答、CI/CD統合、VS Code拡張、複数フレームワーク連携。ローカル実行・MITライセンス。
投票数: 0