1. 音声を分析して、ためらい音とフィラーワードを検出する
2.検出されたフィラーを字幕テキストに合わせる
3. 周囲のタイミングを維持しながら、フィラーを除去またはミュートする
4. クリーンアップされた音声に合わせて字幕のタイミングを調整する