S'appuyer uniquement sur les signaux audio pour la transcription sans tenir compte du contexte visuel.
L'audio est clair et autonome, et aucune référence visuelle n'est faite.
Manque le contexte du contenu à l'écran et une précision moindre pour la terminologie technique.
Intègre des indices visuels et améliore la précision pour le contenu axé sur la présentation.
API basées sur le cloud qui effectuent une large détection d'objets ou de scènes.
Besoins généraux de balisage visuel ou contenu non sensible.
Nécessite le téléchargement de vidéos non optimisées pour les flux de travail de sous-titrage ou de transcription.
Conçu spécifiquement pour le traitement de contenu, entièrement local et déterministe.
Examen manuel des images vidéo pour interpréter le contexte visuel.
Petit volume de vidéos ou contrôle éditorial élevé requis.
Chronophage et non évolutif.
Automatise l'extraction de contexte et s'adapte aux grandes bibliothèques de contenu.