1. オーディオ埋め込みを分析して音声特徴を特徴付ける
2. 時間の経過に伴う話者変更点を検出する
3. 話者の類似性によってセグメントをクラスタリングする
4. 各セグメントに安定した話者識別子を割り当てる