AI_Skill

光学式文字認識 (OCR)

ビデオフレーム、画像、スキャンされたドキュメントから読み取り可能な構造化テキストを抽出し、ダウンストリームの字幕およびコンテンツワークフローに使用します。

Overview

フレームレベルの精度でビデオフレームから画面上のテキストを抽出

スキャンされたPDFおよび画像ベースのドキュメントをサポート

必要に応じてテキストの位置とレイアウトのコンテキストを保持

混合スクリプトを含む多言語テキストを処理

抽出されたテキストを字幕、翻訳、および調整パイプラインに入力

決定論的な出力で完全にオフラインで動作

録画されたプレゼンテーションからスライドテキストを抽出する

ハードコードされた字幕を編集可能なテキストに変換する

検索とナビゲーションのために画面上のテキストにインデックスを付ける

視覚的なコンテキストを使用して文字起こしの精度を向上させる