1. Detectar regiones de subtítulos basado en consistencia visual entre fotogramas
2. Separar píxeles de subtítulos del fondo
3. Usar OCR optimizado para fuentes y diseños de subtítulos para reconocer texto
4. Inferir información de tiempo de subtítulos basada en la duración de aparición