1. フレーム間の視覚的一貫性に基づいて字幕領域を検出
2. 字幕ピクセルを背景から分離
3. 字幕フォントとレイアウトに最適化されたOCRでテキスト認識
4. 表示時間に基づいて字幕タイミング情報を推測