OmniParser V2 logo

OmniParser V2

任意のLLMをコンピュータ使用エージェントに変える

Artificial Intelligence GitHub Computers User Experience

プロダクト概要

OmniParserは、スクリーンショットを解析してその情報をLLM(大規模言語モデル)が理解できる形式に変換する革新的なツールです。

主な機能

  • UIスクリーンショットのトークン化: OmniParserは、ピクセル空間から構造化された要素に変換します。
  • 次のアクション予測: 解析されたインタラクティブ要素に基づいて、LLMが効果的なアクションを予測することができます。

進化した技術

マイクロソフトリサーチが開発したこのツールは、多くのラベル付けされたスクリーンショットを使用して訓練された最新のコンピュータ使用モデルを搭載しており、バージョン2では初期のバージョンに比べて60%のレイテンシ改善を実現しています。特に、A100環境での平均レイテンシは0.6秒/フレーム、単一の4090では0.8秒です。

この技術によって、ユーザーはより迅速かつ効果的にコンピュータを使用できるようになります。

投票数: 269
← 投稿一覧に戻る