
SmolDocling
ストックにはログインが必要です
エンドツーエンドのドキュメントAIのための256M VLM
Artificial Intelligence
Open Source
Development
概要
SmolDoclingは、Hugging FaceとIBM Researchが共同開発した、超コンパクトな256MパラメーターのオープンVLMです。このモデルはエンドツーエンドのドキュメント変換を実現し、画像からさまざまな情報を抽出することができます。
主な機能
- テキスト抽出(OCR):文書からテキストを正確に抽出します。
- レイアウト認識:ページの構造(段落、見出し、リストなど)を理解します。
- テーブル処理:表の構成や内容を抽出します。
- コード認識:コードブロックを格式化し、インデントを保持します。
- 数式処理:数学的な公式を適切に扱います。
- 図の特定:図を認識し、キャプションを関連付けます。
特徴
SmolDoclingは、これらの機能をすべて1つのモデルで実現し、従来の別々のツールを必要としません。また、そのサイズが小さいにもかかわらず、競合する大きなモデルと同等の性能を提供します。オープンソースであり、実際のデモも体験可能です。
投票数: 151