提高基於投影片的演示文稿的轉錄準確性
使用視覺提示增強字幕時間
支援具有密集螢幕資訊的技術內容
從錄製的演示或教程生成結構化元資料
當僅音訊處理就足夠時
當影片包含極少或不相關的視覺資訊時
當視覺內容在沒有語義結構的情況下快速變化時