Molmo 2 logo

Molmo 2

最先端の動画理解・指し示しと追跡機能を備えたビジョン-ランゲージモデル

Artificial Intelligence Open Source

概要

Molmo 2は、オープンウェイト・トレーニングデータ・トレーニングコードを公開する最先端の視覚言語モデル群です。動画と複数の画像を同時に分析でき、空間と時間を跨いだ正確なタイムスタンプと座標を出力します。

特徴

  • 動画追跡と指し示し機能
  • テキスト要約ではなく具体的な位置情報を出力
  • 少量データでの効率的訓練と高性能

技術背景

  • Gemini 3 Proを超える動画追跡性能と報告
  • PerceptionLMのデータ量が少ない訓練データでの高効率
投票数: 85
← 投稿一覧に戻る