1. 制御された間隔でビデオフレームまたはドキュメントページをサンプリングする
2. 視覚的なレイアウト分析を使用してテキスト領域を検出する
3. 学習済みのOCRモデルを使用して文字を認識する
4. 下流で使用するために抽出されたテキストを正規化して構造化する