トランスクリプトまたは字幕を編集しながら、話者を手動で識別してラベル付けする。
少数の話者または短い録音。
時間がかかり、長いコンテンツ全体で一貫性がありません。
大規模に話者を自動的にセグメント化してラベル付けし、タイムライン全体で一貫性を維持します。
異なる話者を区別せずにオーディオを文字起こしする。
独白または1人のプレゼンターによる講義。
話者の属性が失われ、ディスカッションでの読みやすさが低下します。
話者のコンテキストを保持し、複数の話者のコンテンツの明瞭さを向上させます。
アップロードされたオーディオで話者ダイアライゼーションを実行するオンラインAPI。
機密性のないコンテンツまたは時折の使用。
オーディオのアップロードが必要で、制御と透明性が制限されています。
完全にローカルな処理、決定論的、およびプライバシー保護。