
Magma
ストックにはログインが必要です
マルチモーダルAIエージェントのための基盤モデル
Artificial Intelligence
Open Source
Bots
概要
Magmaは、Microsoft Researchからのオープンソースの基盤モデルであり、マルチモーダルAIエージェントの新たなステージを切り開く存在です。本プロダクトは、次のような特徴を持っています。
- マルチモーダル対応: 画像やテキストだけでなく、デジタルと物理の両環境での操作に対応。
- 新しい事前学習アプローチ: Set-of-Mark(SoM)およびTrace-of-Mark(ToM)を使用し、視覚、言語、アクションを効果的に結びつけている。
- 高性能: UIナビゲーションやロボティクスのタスクにおいて、最先端の結果を上げている。
- 視覚-言語ベンチマーク: 標準的な評価においても優れたパフォーマンスを発揮。
Magmaの登場により、AIエージェントが実世界を理解し、効果的に相互作用する未来に近づいていることが期待されます。
投票数: 116