1. Analizar incrustaciones de audio para caracterizar características de voz
2. Detectar puntos de cambio de hablante a lo largo del tiempo
3. Agrupar segmentos por similitud de hablante
4. Asignar identificadores de hablante estables a cada segmento