SmolDocling logo

SmolDocling

エンドツーエンドのドキュメントAIのための256M VLM

Artificial Intelligence Open Source Development

概要

SmolDoclingは、Hugging FaceとIBM Researchが共同開発した、超コンパクトな256MパラメーターのオープンVLMです。このモデルはエンドツーエンドのドキュメント変換を実現し、画像からさまざまな情報を抽出することができます。

主な機能

  • テキスト抽出(OCR):文書からテキストを正確に抽出します。
  • レイアウト認識:ページの構造(段落、見出し、リストなど)を理解します。
  • テーブル処理:表の構成や内容を抽出します。
  • コード認識:コードブロックを格式化し、インデントを保持します。
  • 数式処理:数学的な公式を適切に扱います。
  • 図の特定:図を認識し、キャプションを関連付けます。

特徴

SmolDoclingは、これらの機能をすべて1つのモデルで実現し、従来の別々のツールを必要としません。また、そのサイズが小さいにもかかわらず、競合する大きなモデルと同等の性能を提供します。オープンソースであり、実際のデモも体験可能です。

投票数: 151
← 投稿一覧に戻る