Generar voz desde texto

Convierte un guion escrito en audio narrado. Dos caminos: voz prediseñada para resultados inmediatos, o tu propia voz clonada para que suene como tú.


Paso 10 de 14

Cualquier video necesita voz. A veces basta con una voz prediseñada que suene profesional. Otras veces quieres que la narración suene como tú. Esta página cubre ambos caminos: generar voz con TTS (text-to-speech) y clonar tu propia voz.

Acciones de voz en el playbook

Esta página cubre la generación de voz desde un texto escrito. Las otras dos páginas de voz resuelven problemas distintos:

  • Si quieres cambiar el timbre de un audio manteniendo la entonación y la emoción original: Cambiar voz de un audio.
  • Si quieres reemplazar la narración completa de un video existente: Redoblar videos.

Cuándo usar cada camino

Voz prediseñada (TTS rápido)Tu voz clonada
Qué necesitasSolo el textoUna muestra de audio de 10-15 segundos + el texto
ResultadoVoz profesional de catálogo, lista en segundosTu voz real narrando el texto
Mejor paraDemos, prototipos, videos donde la identidad de la voz no importaVideos donde tu voz es parte de la marca, cursos, podcasts
CostoGratis con Qwen3-TTS. Pago con ElevenLabsGratis con Qwen3-TTS (la clonación no tiene costo adicional)
SetupNinguno extra. Funciona con lo que configuraste en Preparar el entornoGrabar la muestra y asociarla a tu marca (una vez)

Si no sabes cuál elegir: empieza con la voz prediseñada. Puedes clonar tu voz después sin rehacer nada.

Voz prediseñada con TTS

Esto es lo que ya usas en el flujo de generar la narración del toolkit. No necesitas un proyecto activo para usarlo: también funciona como herramienta suelta.

Escribe /generate-voiceover en la conversación con Claude, o pídelo directamente:

Genera un audio con voz de Ryan en tono profesional. Texto: "Este es el resumen ejecutivo del tercer trimestre."

Claude genera un archivo de audio con la voz y el tono que elegiste. 9 voces están disponibles con Qwen3-TTS (gratuita), cada una con varios tonos: cálido, profesional, tutorial, entusiasta.

Ajustar el resultado

Si la voz no suena como esperas:

  • Cambia de speaker. Cada voz tiene un timbre distinto. Prueba dos o tres antes de decidir.
  • Cambia el tono. El mismo speaker suena diferente en tono cálido que en tono profesional.
  • Edita el texto. A veces el problema no es la voz sino la redacción. Una frase más corta o una pausa (punto en lugar de coma) cambia el ritmo.

ElevenLabs para producción de alta calidad

Si necesitas entonación más natural y estás dispuesto a pagar, configura ElevenLabs como proveedor premium en Configurar la voz. El flujo es el mismo: solo cambia la calidad del resultado.

Clonar tu voz

Aquí pasas de una voz de catálogo a tu propia voz. Grabas una muestra corta, el toolkit aprende tu timbre y entonación, y a partir de ahí cualquier narración que generes con esa marca suena como tú.

Qué necesitas

  • Un perfil de marca creado. El clon se asocia a una marca. Si no tienes una, créala primero con /brand (ver Definir tu marca).
  • Una muestra de audio de 10-15 segundos. Puedes grabarla en el momento o usar un archivo existente.
  • La transcripción exacta de lo que dijiste. La herramienta necesita saber qué palabras corresponden a cada sonido.

Grabar la muestra

Escribe /voice-clone en la conversación con Claude. Claude te guía paso a paso:

  1. Elige la marca. Claude te muestra tus marcas existentes. Elige a cuál asociar la voz clonada.

  2. Graba o importa el audio. Claude te sugiere un texto para leer en voz alta (~12 segundos). Grábate leyéndolo con tu celular, tu computadora, o cualquier micrófono. Después, pásale el archivo a Claude:

    Aquí está mi grabación: muestra-voz.m4a

    También puedes usar un archivo de audio que ya tengas (un fragmento de un podcast, una presentación grabada, una nota de voz).

  3. Proporciona la transcripción. Si leíste el texto sugerido, Claude lo sabe y lo usa directamente. Si usaste tu propio audio, escribe o pega exactamente lo que dijiste.

La transcripción debe ser exacta

La calidad del clon depende de que la transcripción coincida palabra por palabra con lo que dijiste. Si la transcripción dice "buenos días" pero tú dijiste "buen día", la clonación sufre. Cuando dudes, pega el texto exacto.

Probar el clon

Claude genera un clip de prueba con tu voz clonada para que lo escuches:

Escucha el clip de prueba. Si suena bien, lo guardamos. Si no, puedes regrabar con otro audio.

Si no te gusta cómo suena:

  • Graba otra muestra. Una muestra en un ambiente más silencioso, con más variedad de entonación, produce un clon mejor.
  • Prueba con otra frase. Pídele a Claude que genere un clip diferente para escuchar cómo suena con otro texto.

Guardar el clon en tu marca

Cuando estés conforme con el resultado, Claude te pregunta si quieres configurar un tono por defecto para tu voz (cálido, profesional, tutorial). Después guarda todo en tu perfil de marca.

A partir de este momento, cada vez que generes narración con esa marca, el toolkit usa tu voz clonada automáticamente. No necesitas hacer nada diferente: el flujo de generar la narración funciona igual, pero ahora suena como tú.

Consejos para una buena muestra

FactorQué funcionaQué no funciona
AmbienteSilencioso, sin ecoCafé ruidoso, habitación con mucho eco
Duración10-15 segundosMenos de 5 segundos (poco material)
EntonaciónVariada: frases cortas y largas, preguntas y afirmacionesMonótona, como leyendo una lista
Distancia al micrófonoConstante, cercanaVariable, muy lejos
FormatoWAV, M4A, MP3, FLACGrabación muy comprimida o con ruido de fondo

Habla como si explicaras algo a un colega

La mejor muestra no es una lectura formal. Es una explicación natural, como si le contaras algo a alguien en una llamada. Eso le da al modelo variedad de entonación y ritmo que después aplica a la narración generada.

Cuánto cuesta

Tanto la voz prediseñada como la clonación usan Qwen3-TTS, que corre en el procesamiento en la nube que configuraste en Preparar el entorno. Ambas son esencialmente gratis dentro de la capa gratuita de Modal. Si usas ElevenLabs como proveedor premium, el costo depende de tu plan y la duración del audio generado.

En esta página