1. 時間の経過とともに代表的なビデオフレームをサンプリングする
2. テキスト、スライド、UI要素などの視覚構造を分析する
3. タイムスタンプに合わせてコンテキスト信号を抽出する
4. 視覚的コンテキストを文字起こしおよび字幕ワークフローに入力する