提高基于幻灯片的演示文稿的转录准确性
使用视觉提示增强字幕时间
支持具有密集屏幕信息的技术内容
从录制的演示或教程生成结构化元数据
当仅音频处理就足够时
当视频包含极少或不相关的视觉信息时
当视觉内容在没有语义结构的情况下快速变化时