1. Muestrear cuadros de video representativos a lo largo del tiempo
2. Analizar estructuras visuales como texto, diapositivas o elementos de interfaz de usuario
3. Extraer señales contextuales alineadas con marcas de tiempo
4. Alimentar el contexto visual en flujos de trabajo de transcripción y subtítulos