1. 字幕またはスクリプトテキストをナレーションセグメントに変換
2. セグメントごとに音声モデルと話すパラメータを選択
3. 各ナレーションブロックの音声をローカルで合成
4. 生成されたナレーションをタイムラインのタイムスタンプに合わせる