Generar voz desde texto

Convierte un guion escrito en audio narrado. Dos caminos: voz prediseñada para resultados inmediatos, o tu propia voz clonada para que suene como tú.

Paso 10 de 14

Cualquier video necesita voz. A veces basta con una voz prediseñada que suene profesional. Otras veces quieres que la narración suene como tú. Esta página cubre ambos caminos: generar voz con TTS (text-to-speech) y clonar tu propia voz.

Acciones de voz en el playbook

Esta página cubre la generación de voz desde un texto escrito. Las otras dos páginas de voz resuelven problemas distintos:

Si quieres cambiar el timbre de un audio manteniendo la entonación y la emoción original: Cambiar voz de un audio.
Si quieres reemplazar la narración completa de un video existente: Redoblar videos.

Cuándo usar cada camino

	Voz prediseñada (TTS rápido)	Tu voz clonada
Qué necesitas	Solo el texto	Una muestra de audio de 10-15 segundos + el texto
Resultado	Voz profesional de catálogo, lista en segundos	Tu voz real narrando el texto
Mejor para	Demos, prototipos, videos donde la identidad de la voz no importa	Videos donde tu voz es parte de la marca, cursos, podcasts
Costo	Gratis con Qwen3-TTS. Pago con ElevenLabs	Gratis con Qwen3-TTS (la clonación no tiene costo adicional)
Setup	Ninguno extra. Funciona con lo que configuraste en Preparar el entorno	Grabar la muestra y asociarla a tu marca (una vez)

Si no sabes cuál elegir: empieza con la voz prediseñada. Puedes clonar tu voz después sin rehacer nada.

Voz prediseñada con TTS

Esto es lo que ya usas en el flujo de generar la narración del toolkit. No necesitas un proyecto activo para usarlo: también funciona como herramienta suelta.

Escribe /generate-voiceover en la conversación con Claude, o pídelo directamente:

Genera un audio con voz de Ryan en tono profesional. Texto: "Este es el resumen ejecutivo del tercer trimestre."

Claude genera un archivo de audio con la voz y el tono que elegiste. 9 voces están disponibles con Qwen3-TTS (gratuita), cada una con varios tonos: cálido, profesional, tutorial, entusiasta.

Ajustar el resultado

Si la voz no suena como esperas:

Cambia de speaker. Cada voz tiene un timbre distinto. Prueba dos o tres antes de decidir.
Cambia el tono. El mismo speaker suena diferente en tono cálido que en tono profesional.
Edita el texto. A veces el problema no es la voz sino la redacción. Una frase más corta o una pausa (punto en lugar de coma) cambia el ritmo.

ElevenLabs para producción de alta calidad

Si necesitas entonación más natural y estás dispuesto a pagar, configura ElevenLabs como proveedor premium en Configurar la voz. El flujo es el mismo: solo cambia la calidad del resultado.

Clonar tu voz

Aquí pasas de una voz de catálogo a tu propia voz. Grabas una muestra corta, el toolkit aprende tu timbre y entonación, y a partir de ahí cualquier narración que generes con esa marca suena como tú.

Qué necesitas

Un perfil de marca creado. El clon se asocia a una marca. Si no tienes una, créala primero con /brand (ver Definir tu marca).
Una muestra de audio de 10-15 segundos. Puedes grabarla en el momento o usar un archivo existente.
La transcripción exacta de lo que dijiste. La herramienta necesita saber qué palabras corresponden a cada sonido.

Grabar la muestra

Escribe /voice-clone en la conversación con Claude. Claude te guía paso a paso:

Elige la marca. Claude te muestra tus marcas existentes. Elige a cuál asociar la voz clonada.
Graba o importa el audio. Claude te sugiere un texto para leer en voz alta (~12 segundos). Grábate leyéndolo con tu celular, tu computadora, o cualquier micrófono. Después, pásale el archivo a Claude:

Aquí está mi grabación: muestra-voz.m4a

También puedes usar un archivo de audio que ya tengas (un fragmento de un podcast, una presentación grabada, una nota de voz).
Proporciona la transcripción. Si leíste el texto sugerido, Claude lo sabe y lo usa directamente. Si usaste tu propio audio, escribe o pega exactamente lo que dijiste.

La transcripción debe ser exacta

La calidad del clon depende de que la transcripción coincida palabra por palabra con lo que dijiste. Si la transcripción dice "buenos días" pero tú dijiste "buen día", la clonación sufre. Cuando dudes, pega el texto exacto.

Probar el clon

Claude genera un clip de prueba con tu voz clonada para que lo escuches:

Escucha el clip de prueba. Si suena bien, lo guardamos. Si no, puedes regrabar con otro audio.

Si no te gusta cómo suena:

Graba otra muestra. Una muestra en un ambiente más silencioso, con más variedad de entonación, produce un clon mejor.
Prueba con otra frase. Pídele a Claude que genere un clip diferente para escuchar cómo suena con otro texto.

Guardar el clon en tu marca

Cuando estés conforme con el resultado, Claude te pregunta si quieres configurar un tono por defecto para tu voz (cálido, profesional, tutorial). Después guarda todo en tu perfil de marca.

A partir de este momento, cada vez que generes narración con esa marca, el toolkit usa tu voz clonada automáticamente. No necesitas hacer nada diferente: el flujo de generar la narración funciona igual, pero ahora suena como tú.

Consejos para una buena muestra

Factor	Qué funciona	Qué no funciona
Ambiente	Silencioso, sin eco	Café ruidoso, habitación con mucho eco
Duración	10-15 segundos	Menos de 5 segundos (poco material)
Entonación	Variada: frases cortas y largas, preguntas y afirmaciones	Monótona, como leyendo una lista
Distancia al micrófono	Constante, cercana	Variable, muy lejos
Formato	WAV, M4A, MP3, FLAC	Grabación muy comprimida o con ruido de fondo

Habla como si explicaras algo a un colega

La mejor muestra no es una lectura formal. Es una explicación natural, como si le contaras algo a alguien en una llamada. Eso le da al modelo variedad de entonación y ritmo que después aplica a la narración generada.

Cuánto cuesta

Tanto la voz prediseñada como la clonación usan Qwen3-TTS, que corre en el procesamiento en la nube que configuraste en Preparar el entorno. Ambas son esencialmente gratis dentro de la capa gratuita de Modal. Si usas ElevenLabs como proveedor premium, el costo depende de tu plan y la duración del audio generado.

Generar voz desde texto

En esta página