Generar voz desde texto
Convierte un guion escrito en audio narrado. Dos caminos: voz prediseñada para resultados inmediatos, o tu propia voz clonada para que suene como tú.
Paso 10 de 14
Cualquier video necesita voz. A veces basta con una voz prediseñada que suene profesional. Otras veces quieres que la narración suene como tú. Esta página cubre ambos caminos: generar voz con TTS (text-to-speech) y clonar tu propia voz.
Acciones de voz en el playbook
Esta página cubre la generación de voz desde un texto escrito. Las otras dos páginas de voz resuelven problemas distintos:
- Si quieres cambiar el timbre de un audio manteniendo la entonación y la emoción original: Cambiar voz de un audio.
- Si quieres reemplazar la narración completa de un video existente: Redoblar videos.
Cuándo usar cada camino
| Voz prediseñada (TTS rápido) | Tu voz clonada | |
|---|---|---|
| Qué necesitas | Solo el texto | Una muestra de audio de 10-15 segundos + el texto |
| Resultado | Voz profesional de catálogo, lista en segundos | Tu voz real narrando el texto |
| Mejor para | Demos, prototipos, videos donde la identidad de la voz no importa | Videos donde tu voz es parte de la marca, cursos, podcasts |
| Costo | Gratis con Qwen3-TTS. Pago con ElevenLabs | Gratis con Qwen3-TTS (la clonación no tiene costo adicional) |
| Setup | Ninguno extra. Funciona con lo que configuraste en Preparar el entorno | Grabar la muestra y asociarla a tu marca (una vez) |
Si no sabes cuál elegir: empieza con la voz prediseñada. Puedes clonar tu voz después sin rehacer nada.
Voz prediseñada con TTS
Esto es lo que ya usas en el flujo de generar la narración del toolkit. No necesitas un proyecto activo para usarlo: también funciona como herramienta suelta.
Escribe /generate-voiceover en la conversación con Claude, o pídelo directamente:
Genera un audio con voz de Ryan en tono profesional. Texto: "Este es el resumen ejecutivo del tercer trimestre."
Claude genera un archivo de audio con la voz y el tono que elegiste. 9 voces están disponibles con Qwen3-TTS (gratuita), cada una con varios tonos: cálido, profesional, tutorial, entusiasta.
Ajustar el resultado
Si la voz no suena como esperas:
- Cambia de speaker. Cada voz tiene un timbre distinto. Prueba dos o tres antes de decidir.
- Cambia el tono. El mismo speaker suena diferente en tono cálido que en tono profesional.
- Edita el texto. A veces el problema no es la voz sino la redacción. Una frase más corta o una pausa (punto en lugar de coma) cambia el ritmo.
ElevenLabs para producción de alta calidad
Si necesitas entonación más natural y estás dispuesto a pagar, configura ElevenLabs como proveedor premium en Configurar la voz. El flujo es el mismo: solo cambia la calidad del resultado.
Clonar tu voz
Aquí pasas de una voz de catálogo a tu propia voz. Grabas una muestra corta, el toolkit aprende tu timbre y entonación, y a partir de ahí cualquier narración que generes con esa marca suena como tú.
Qué necesitas
- Un perfil de marca creado. El clon se asocia a una marca. Si no tienes una, créala primero con
/brand(ver Definir tu marca). - Una muestra de audio de 10-15 segundos. Puedes grabarla en el momento o usar un archivo existente.
- La transcripción exacta de lo que dijiste. La herramienta necesita saber qué palabras corresponden a cada sonido.
Grabar la muestra
Escribe /voice-clone en la conversación con Claude. Claude te guía paso a paso:
-
Elige la marca. Claude te muestra tus marcas existentes. Elige a cuál asociar la voz clonada.
-
Graba o importa el audio. Claude te sugiere un texto para leer en voz alta (~12 segundos). Grábate leyéndolo con tu celular, tu computadora, o cualquier micrófono. Después, pásale el archivo a Claude:
Aquí está mi grabación: muestra-voz.m4a
También puedes usar un archivo de audio que ya tengas (un fragmento de un podcast, una presentación grabada, una nota de voz).
-
Proporciona la transcripción. Si leíste el texto sugerido, Claude lo sabe y lo usa directamente. Si usaste tu propio audio, escribe o pega exactamente lo que dijiste.
La transcripción debe ser exacta
La calidad del clon depende de que la transcripción coincida palabra por palabra con lo que dijiste. Si la transcripción dice "buenos días" pero tú dijiste "buen día", la clonación sufre. Cuando dudes, pega el texto exacto.
Probar el clon
Claude genera un clip de prueba con tu voz clonada para que lo escuches:
Escucha el clip de prueba. Si suena bien, lo guardamos. Si no, puedes regrabar con otro audio.
Si no te gusta cómo suena:
- Graba otra muestra. Una muestra en un ambiente más silencioso, con más variedad de entonación, produce un clon mejor.
- Prueba con otra frase. Pídele a Claude que genere un clip diferente para escuchar cómo suena con otro texto.
Guardar el clon en tu marca
Cuando estés conforme con el resultado, Claude te pregunta si quieres configurar un tono por defecto para tu voz (cálido, profesional, tutorial). Después guarda todo en tu perfil de marca.
A partir de este momento, cada vez que generes narración con esa marca, el toolkit usa tu voz clonada automáticamente. No necesitas hacer nada diferente: el flujo de generar la narración funciona igual, pero ahora suena como tú.
Consejos para una buena muestra
| Factor | Qué funciona | Qué no funciona |
|---|---|---|
| Ambiente | Silencioso, sin eco | Café ruidoso, habitación con mucho eco |
| Duración | 10-15 segundos | Menos de 5 segundos (poco material) |
| Entonación | Variada: frases cortas y largas, preguntas y afirmaciones | Monótona, como leyendo una lista |
| Distancia al micrófono | Constante, cercana | Variable, muy lejos |
| Formato | WAV, M4A, MP3, FLAC | Grabación muy comprimida o con ruido de fondo |
Habla como si explicaras algo a un colega
La mejor muestra no es una lectura formal. Es una explicación natural, como si le contaras algo a alguien en una llamada. Eso le da al modelo variedad de entonación y ritmo que después aplica a la narración generada.
Cuánto cuesta
Tanto la voz prediseñada como la clonación usan Qwen3-TTS, que corre en el procesamiento en la nube que configuraste en Preparar el entorno. Ambas son esencialmente gratis dentro de la capa gratuita de Modal. Si usas ElevenLabs como proveedor premium, el costo depende de tu plan y la duración del audio generado.
Animar retratos
Convierte una foto de una persona en un video donde habla con sincronización labial. Ideal para agregar un presentador a tus videos.
Redoblar videos
Reemplaza la voz de un video existente con otra voz de IA. Para regrabar con voz profesional, anonimizar hablantes o preparar localizaciones.