Magma logo

Magma

マルチモーダルAIエージェントのための基盤モデル

Artificial Intelligence Open Source Bots

概要

Magmaは、Microsoft Researchからのオープンソースの基盤モデルであり、マルチモーダルAIエージェントの新たなステージを切り開く存在です。本プロダクトは、次のような特徴を持っています。

  • マルチモーダル対応: 画像やテキストだけでなく、デジタルと物理の両環境での操作に対応。
  • 新しい事前学習アプローチ: Set-of-Mark(SoM)およびTrace-of-Mark(ToM)を使用し、視覚、言語、アクションを効果的に結びつけている。
  • 高性能: UIナビゲーションやロボティクスのタスクにおいて、最先端の結果を上げている。
  • 視覚-言語ベンチマーク: 標準的な評価においても優れたパフォーマンスを発揮。

Magmaの登場により、AIエージェントが実世界を理解し、効果的に相互作用する未来に近づいていることが期待されます。

投票数: 116
← 投稿一覧に戻る