HunyuanOCR logo

HunyuanOCR

100言語以上に対応する軽量なエンドツーエンドOCR-VLM

Artificial Intelligence Developer Tools GitHub Open Source

概要

HunyuanOCRは1BパラメータのマルチモーダルVLMで、検出・認識・複雑な多言語文書解析・オープンフィールド情報抽出・動画字幕抽出・写真翻訳・文書QAを統合し、エンドツーエンドの単一推論で100言語以上に対応します。SOTA級のOCR性能を実現します。

特徴

  • 100言語以上対応
  • エンドツーエンドの単一推論
  • 検出・認識・多言語文書解析・情報抽出・動画字幕・写真翻訳・文書QAを一括処理
  • ノイズの多い動画フレームにも強い

活用のヒント

  • 字起こし・ローカリゼーション・アーカイブツールの開発
  • デジタル化・翻訳・検索のワークフロー統合

メモ

  • 導入事例や環境構築の詳細は公式ドキュメントを参照
投票数: 1
← 投稿一覧に戻る