1. Échantillonner des images vidéo représentatives au fil du temps
2. Analyser les structures visuelles telles que le texte, les diapositives ou les éléments d'interface utilisateur
3. Extraire des signaux contextuels alignés avec les horodatages
4. Fournir le contexte visuel dans les flux de travail de transcription et de sous-titrage