1. OCRを使用してスライドから画面上のテキストを抽出する
2. スライドの境界とアクティブなスライド領域を検出する
3. スライドテキストをコンテキストガイダンスとして音声認識エンジンに入力する
4. 文字起こしされた音声をスライドレベルの構造に合わせる