OmniParser V2

プロダクト概要

OmniParserは、スクリーンショットを解析してその情報をLLM（大規模言語モデル）が理解できる形式に変換する革新的なツールです。

主な機能

UIスクリーンショットのトークン化: OmniParserは、ピクセル空間から構造化された要素に変換します。
次のアクション予測: 解析されたインタラクティブ要素に基づいて、LLMが効果的なアクションを予測することができます。

進化した技術

マイクロソフトリサーチが開発したこのツールは、多くのラベル付けされたスクリーンショットを使用して訓練された最新のコンピュータ使用モデルを搭載しており、バージョン2では初期のバージョンに比べて60%のレイテンシ改善を実現しています。特に、A100環境での平均レイテンシは0.6秒/フレーム、単一の4090では0.8秒です。

この技術によって、ユーザーはより迅速かつ効果的にコンピュータを使用できるようになります。

ストックにはログインが必要です

プロダクト概要

主な機能

進化した技術