1. Détecte les zones de sous-titres par cohérence visuelle inter-images
2. Sépare les pixels de sous-titres de l’arrière-plan
3. Utilise une OCR optimisée pour les polices et mises en page de sous-titres
4. Déduit le timing des sous-titres basé sur la durée d’apparition