HunyuanOCR

ProductHunt 製品ページ

100言語以上に対応する軽量なエンドツーエンドOCR-VLM

Artificial Intelligence Developer Tools GitHub Open Source

HunyuanOCR

概要

HunyuanOCRは1BパラメータのマルチモーダルVLMで、検出・認識・複雑な多言語文書解析・オープンフィールド情報抽出・動画字幕抽出・写真翻訳・文書QAを統合し、エンドツーエンドの単一推論で100言語以上に対応します。SOTA級のOCR性能を実現します。

特徴

100言語以上対応
エンドツーエンドの単一推論
検出・認識・多言語文書解析・情報抽出・動画字幕・写真翻訳・文書QAを一括処理
ノイズの多い動画フレームにも強い

活用のヒント

字起こし・ローカリゼーション・アーカイブツールの開発
デジタル化・翻訳・検索のワークフロー統合

メモ

導入事例や環境構築の詳細は公式ドキュメントを参照

投票数: 3

← 投稿一覧に戻る