Web2JSONL
ストックにはログインが必要です
Web2JSONL – ウェブサイトをJSONL形式に変換してAIモデルのトレーニングに活用
Artificial Intelligence
Developer Tools
Data & Analytics
製品概要
Web2JSONLは、ウェブサイト・文書・画像などのデータをAIモデルのトレーニング用JSONLに変換する開発者向けツールです。
主な特徴
- 入力方法は3系統(RAW: コーパスを直接貼り付け、WEB: URL1つでページをスクレイプ、FILE: OCR付きでTXT/JPG/PNG/WEBPをアップロード)
- 出力はpretrain・instruct・chatの3フォーマットに対応
- ステージングバッファ経由でデータを整理・訓練準備
デザインと使い勝手
- 最小UI・高機能・無駄のない設計
- データ前処理の手間を大幅に削減
今後の計画
- 複数URLのバッチ処理、高度なデータフィルタリング、データセットのバージョニングとエクスポート履歴、APIアクセス
対象
- LLMトレーニングデータセットやAGIプロジェクトを手掛ける開発者向け
投票数: 0