1. Extraer texto en pantalla de diapositivas usando OCR
2. Detectar límites de diapositivas y regiones de diapositivas activas
3. Alimentar texto de diapositiva como guía contextual para el motor de reconocimiento de voz
4. Alinear el habla transcrita con la estructura a nivel de diapositiva