
OmniParser V2
ストックにはログインが必要です
任意のLLMをコンピュータ使用エージェントに変える
Artificial Intelligence
GitHub
Computers
User Experience
プロダクト概要
OmniParserは、スクリーンショットを解析してその情報をLLM(大規模言語モデル)が理解できる形式に変換する革新的なツールです。
主な機能
- UIスクリーンショットのトークン化: OmniParserは、ピクセル空間から構造化された要素に変換します。
- 次のアクション予測: 解析されたインタラクティブ要素に基づいて、LLMが効果的なアクションを予測することができます。
進化した技術
マイクロソフトリサーチが開発したこのツールは、多くのラベル付けされたスクリーンショットを使用して訓練された最新のコンピュータ使用モデルを搭載しており、バージョン2では初期のバージョンに比べて60%のレイテンシ改善を実現しています。特に、A100環境での平均レイテンシは0.6秒/フレーム、単一の4090では0.8秒です。
この技術によって、ユーザーはより迅速かつ効果的にコンピュータを使用できるようになります。
投票数: 269