HunyuanOCR
ストックにはログインが必要です
100言語以上に対応する軽量なエンドツーエンドOCR-VLM
Artificial Intelligence
Developer Tools
GitHub
Open Source
概要
HunyuanOCRは1BパラメータのマルチモーダルVLMで、検出・認識・複雑な多言語文書解析・オープンフィールド情報抽出・動画字幕抽出・写真翻訳・文書QAを統合し、エンドツーエンドの単一推論で100言語以上に対応します。SOTA級のOCR性能を実現します。
特徴
- 100言語以上対応
- エンドツーエンドの単一推論
- 検出・認識・多言語文書解析・情報抽出・動画字幕・写真翻訳・文書QAを一括処理
- ノイズの多い動画フレームにも強い
活用のヒント
- 字起こし・ローカリゼーション・アーカイブツールの開発
- デジタル化・翻訳・検索のワークフロー統合
メモ
- 導入事例や環境構築の詳細は公式ドキュメントを参照
投票数: 1