Cambiar la voz de un audio

Voice conversion: reemplazas el timbre de una voz manteniendo timing, entonación y emoción del original. ElevenLabs, Arcade y RVC en Colab.


Voice conversion toma un audio con voz humana y lo convierte en otra voz, manteniendo intactos el timing (cuándo entra cada palabra), la entonación (cómo sube y baja la voz), el ritmo y la carga emocional (énfasis, duda, susurro). Lo único que cambia es el timbre, el acento y opcionalmente la tesitura. Por eso se describe como "preservar la interpretación, cambiar la persona".

Tres acciones de voz, tres páginas

AcciónQué hacePágina
Generar voz desde textoPasás un texto escrito y obtenés audio narrado. La interpretación la inventa el modelo (TTS o voz clonada).Generar voz desde texto
Cambiar la voz de un audioTomás un audio existente y reemplazás el timbre. Conservás tu interpretación.Esta página
Redoblar video existenteReemplazás la narración completa de un video, transcribiendo y regenerando.Redoblar video existente

La diferencia clave frente al redoblaje: redoblar reescribe la narración a partir de texto. Voice conversion respeta cómo lo dijiste tú (la pausa dramática, la inflexión específica, la risa), solo cambia la voz que lo dice.

Cuándo usar voice conversion

  • Doblaje y voice-over con interpretación propia. Grabás vos con tus pausas y tu énfasis, pero el timbre final es otro: un personaje, una voz radial, una voz para mantener anonimato.
  • Covers y canto. Grabás la canción con tu voz (aunque no cantes bien) y la convertís en una voz que sí canta bien. Mantenés tu melodía, tu letra y tu intención.
  • Localización con carácter preservado. Para doblar un video conservando la actuación. Voice conversion no traduce: opera sobre el audio ya re-grabado en el idioma destino.

Cuando no usarla: si todavía no tenés un audio con la interpretación que querés (solo tenés un texto), lo correcto es TTS o clonación. Voice conversion exige un audio de entrada con la actuación ya hecha.

Opción 1: ElevenLabs Voice Changer (la vía accesible)

La opción recomendada para uso general. Interfaz web, sin configuración local, más de 5.000 voces en la librería y posibilidad de crear voces nuevas por descripción.

Workflow

  1. Entrar. En la app de ElevenLabs, sidebar izquierda → Voice Changer.
  2. Cargar el audio. Subir un archivo o grabar directo desde la interfaz.
  3. Elegir la voz destino. Tres familias: pre-designed voices (catálogo de ElevenLabs), voces de la comunidad (voice library pública), voces personalizadas (clonadas o creadas con Voice Design).
  4. Ajustar parámetros:
    • Stability. Consistencia entre generaciones. Más estabilidad = menos variación entre intentos.
    • Similarity. Qué tanto se parece al timbre destino.
    • Style exaggeration. Amplifica los rasgos estilísticos (acento, amaneramiento).
    • Speaker boost. Aumenta claridad y presencia.
  5. Toggle de remover ruido de fondo si grabaste en ambiente ruidoso.
  6. Generate Speech. El resultado respeta entrega, cadencia y tono del original con la voz nueva.
  7. Descargar y re-sincronizar. Importás al editor de video y alineás las ondas con el audio original. Como el timing se preservó, la alineación es trivial.

La calidad del input determina la del output

ElevenLabs preserva todo lo que venía en el original, incluidos los artefactos de audio. Si grabaste con ruido de fondo, ese ruido va a quedar debajo de la voz nueva. Grabá con micrófono decente, filtro antipop y ambiente silencioso. Si ya está grabado y hay ruido, limpiá antes con ElevenLabs Voice Isolator o Adobe Podcast Enhance.

Crear una voz que no existe en la librería: Voice Design V3

Si ninguna de las 5.000+ voces encaja, en la pestaña VoicesCreate or Clone a VoiceVoice Design describís la voz en texto y el modelo la genera. Atributos que impactan: edad, género, tono, acento, pacing, emoción, estilo.

Ejemplo para ciencia ficción: "calm alien voice, male, deep, studio quality". Además del prompt de voz, está el preview text que actúa como guion de interpretación: poné una línea real del personaje, no una muestra genérica.

ElevenLabs devuelve 3 variantes. Elegís, le ponés nombre, queda en tu librería personal disponible para Voice Changer.

Opción 2: Arcade / Controlla Voice (canto y covers)

La opción más afinada para voz cantada. Preserva tu melodía, tu letra y tu interpretación, cambia el timbre por el de un cantante entrenado.

Cuándo elegirla sobre ElevenLabs:

  • Canto, rap, vocals musicales.
  • Necesitás un dry vocal limpio al final, listo para procesar con plugins en tu DAW.
  • Querés clonar tu propia voz cantando.

Workflow del cover

  1. Grabar el vocal seco sobre la base. Pista de chords o bajo en tu DAW, cantar encima, exportar la voz a WAV.
  2. Generar una versión "bien cantada" con Suno. Subís el WAV a Suno (botón + en audio → upload → save to library). Abrís el archivo, click en Cover. Suno autocompleta la letra (verificala), pide un estilo (ej: "emotional piano male vocals"). Create. Suno re-canta la pista con tu melodía y letra pero interpretación profesional.
  3. Extraer solo la voz del resultado. En la pista generada, menú de tres puntos → Get stems → extraer la voz aislada.
  4. Cambiar el timbre en Controlla Voice. Sección Swap voice. Arrastrá la voz generada por Suno. Para la voz destino: librería (300+ voces royalty-free) o tu propia voz clonada (modo completo: 10 minutos cantando; modo instant: 15 segundos).
  5. Ajustar:
    • Vocals only / Full song.
    • Pitch shift para swaps hombre→mujer o al revés.
    • Remove reverb si el input trae mucho.
  6. Swap voices. Toma alrededor de un minuto. Download del dry vocal.
  7. Procesar en tu DAW. Sale seco. Aplicá gate, exciter, EQ, reverb, delay según el género.

Opción 3: RVC en Google Colab (gratis, avanzada)

RVC (Retrieval-based Voice Conversion) es el enfoque open-source. Corre en Google Colab gratis, sin suscripciones ni límites. A cambio: tenés que entrenar el modelo vos mismo, seguir una secuencia de celdas y guardar archivos en Google Drive.

Cuándo conviene:

  • Querés experimentar sin pagar.
  • Ya estás cómodo en Colab y Google Drive.
  • Tenés un caso muy específico que ElevenLabs y Arcade no cubren.
  • Querés control total del modelo de tu voz, incluyendo la posibilidad de re-entrenar.

Preparar el dataset (lo más importante)

Cuatro requisitos:

  1. Voz humana limpia: sin ruido de fondo, sin música, sin sonidos no humanos.
  2. Sin silencios largos: RVC analiza el audio y los silencios no aportan.
  3. Duración corta, entre 3 y 7 minutos.
  4. Rango fonético amplio: la mayor variedad posible de pronunciaciones, articulaciones, distintas formas de pronunciar los mismos sonidos. Habla natural y, si es posible, muestras de canto.

Flujo resumido

  1. Preparar dataset según las reglas.
  2. Abrir el proyecto de Colab que el autor enlaza.
  3. Correr las celdas en orden: preparación, instalación, dependencias.
  4. Training section: subir dataset, nombrar el modelo (en inglés, sin espacios ni caracteres especiales), correr análisis, fijar épocas (300 funciona), entrenar.
  5. Guardar a Google Drive. El modelo pesa alrededor de 1,5 GB.
  6. Inference section: subir el audio target, elegir el modelo, ajustar pitch (0 para mismo género, negativo si pasás de mujer a hombre, positivo al revés), correr, previsualizar, descargar.
  7. Desconectar y borrar el runtime para liberar recursos.

Consideraciones éticas

Voice conversion es la misma tecnología que habilita deepfakes. La responsabilidad cae en quien la opera.

  • Consentimiento explícito. Si la voz destino es de una persona real (no una voz sintética de librería), necesitás su autorización. Clonar la voz de alguien sin permiso es, en la mayoría de jurisdicciones, ilegal.
  • Tu propia voz como entrenamiento. Sin problemas legales, pero leé los términos del servicio antes de publicar (algunos proveedores reclaman derechos sobre modelos entrenados en su infraestructura).
  • Voces de librería. Suelen ser royalty-free para uso comercial. Verificá la licencia (personal vs comercial) antes de monetizar.
  • Disclosure. Si el contenido final es editorial o informativo, conviene declarar que la voz fue modificada con IA. Es buena práctica y, en publicidad política, salud o periodismo, puede ser obligatorio por regulación local.
  • Covers. Si la melodía y letra son de un tercero, los derechos de autor siguen aplicando igual que en un cover tradicional, aunque la voz la genere IA.

La regla simple: si no podrías pedirle permiso a la persona cuya voz estás usando y sentirte cómodo con su respuesta, probablemente no deberías estar usándola.

Errores comunes

  • Grabar con mal audio esperando que la IA lo arregle. Los artefactos se preservan. Grabá con micrófono decente desde el principio.
  • Usar el toggle "remove background noise" como único recurso. Ayuda pero no reemplaza grabar bien. Para ruido fuerte o estructurado (aire acondicionado, calle), limpiá antes con una herramienta dedicada.
  • Dataset pobre en RVC. Audio corto y de poco rango fonético produce modelos que suenan bien en frases parecidas al training y mal en todo lo demás. Seguí los cuatro requisitos al pie de la letra.
  • Confundir Voice Design con Voice Changer. Voice Design crea una voz nueva desde texto; Voice Changer aplica una voz existente sobre un audio. El flujo típico: Voice Design una vez para crear la voz destino, Voice Changer cada vez que querés transformar un audio.
  • En covers: olvidar extraer los stems. Subir el output de Suno directo a Controlla sin extraer la voz fuerza al modelo a convertir una mezcla (voz + instrumentos), lo que degrada el resultado.
  • No ajustar pitch al cruzar géneros. Si tu voz es masculina y la destino femenina, saltarse el pitch shift produce voces forzadas.
  • Olvidarse de re-sincronizar al video. ElevenLabs no devuelve el video modificado, solo el audio. Si el uso final es reemplazar la voz en un video, hay que pegar el audio convertido sobre el original. Como el timing se preserva, la alineación es trivial pero hay que hacerla.

En esta página