1. Analyse de l’audio pour détecter la parole
2. Comparaison texte/parole
3. Ajustement des timestamps
4. Validation de la cohérence globale