Generar voz desde texto

Convierte un guion escrito en audio narrado. Dos caminos: voz prediseñada con TTS (resultados inmediatos, sin setup) y voz clonada (suena como tú, requiere muestra de audio).

Cualquier video con narración necesita voz. Hay dos caminos posibles, y los dos siguen el mismo principio: el guion entra como texto, sale como audio listo para montar contra las escenas. La diferencia está en la identidad de la voz.

Empieza con la voz prediseñada (TTS) si quieres resultados inmediatos y la identidad sonora no es central. Pasa a la voz clonada cuando tu voz sea parte de la marca: cursos, podcasts, contenido recurrente donde la audiencia te reconoce.

Otras acciones de voz en el playbook

Esta página cubre voz a partir de un texto escrito. Para casos relacionados:

Cambiar el timbre de un audio manteniendo entonación y emoción original: cambiar voz de un audio.
Reemplazar la narración completa de un video existente: redoblar video existente.

Decidir entre TTS prediseñado y voz clonada

	Voz prediseñada (TTS)	Voz clonada
Qué necesitas	Solo el texto	Una muestra de audio de 10-15 segundos + transcripción exacta
Resultado	Voz profesional de catálogo, lista en segundos	Tu voz real narrando el texto
Mejor para	Demos, prototipos, narraciones donde la voz no es identidad	Marca personal, cursos, podcasts, contenido donde te reconocen
Costo típico	Gratis (Qwen3-TTS, motores básicos) o desde ~$5/mes (ElevenLabs, voces premium)	Gratis con Qwen3-TTS; pago en ElevenLabs según plan
Setup	Ninguno extra	Grabar la muestra y asociarla a tu marca (una vez)

Si dudas, empieza por TTS. Puedes pasar a voz clonada después sin rehacer nada del workflow: solo cambias el motor de voz que usas.

Camino 1: voz prediseñada con TTS

El flujo es siempre el mismo: das un texto, eliges un speaker y un tono, generas el audio. Lo que cambia es desde dónde lo invocas y qué motores tienes a mano.

Elegir voz y tono

Antes de generar el audio completo:

Prueba dos o tres speakers con la misma frase. Cada voz tiene un timbre distinto, y el que suena bien en una frase puede sonar mal en otra.
Prueba dos o tres tonos con el speaker elegido. Tono cálido para cierres, profesional para agendas, tutorial para demos, entusiasta para datos.
Lee el guion en voz alta tú primero. Si trastabillas leyendo, la voz de IA también va a trastabillar. Una frase más corta o un punto en lugar de coma cambia el ritmo y se nota.

Personalizar tono por escena

No todas las escenas tienen que sonar igual. Una sugerencia que funciona para video corporativo:

Escena	Tono sugerido
Título	Cálido
Agenda	Profesional
Demo	Tutorial
Datos	Entusiasta
Cierre	Cálido

Cada motor permite cambiar el tono por bloque sin regenerar todo. Aprovéchalo para que el video respire.

Si usas el Video Toolkit

El toolkit incluye dos motores:

Qwen3-TTS (gratis, dentro de tu cuota de Modal). Nueve voces con varios tonos cada una.
ElevenLabs como proveedor premium. Mejor entonación, voces más naturales, pago por uso.

Escribe /generate-voiceover o pídelo en lenguaje natural:

Genera la narración con Ryan en tono profesional para todas las escenas, salvo la del cierre, que va en tono cálido.

El toolkit produce un archivo de audio por escena. Eso te permite regenerar una sola escena sin rehacer las demás. Después de generar, pídele que sincronice los tiempos del video con la duración real de cada audio: las escenas se ajustan para que la narración no se corte ni quede aire muerto al final. La configuración del proveedor está en configurar la voz.

Si usas ElevenLabs directamente

ElevenLabs como herramienta web da acceso al catálogo completo de voces y a controles más finos (estabilidad, similitud, estilo). Flujo típico:

Pega el guion completo o cada escena por separado.
Elige voz del catálogo o usa una voz instantánea generada por descripción ("voz masculina, mediados de 30, calmada, español neutro").
Genera y descarga el audio en MP3 o WAV.
Importa los archivos a la carpeta local maestra del proyecto y al editor donde armas el video final.

El control granular de ElevenLabs vale cuando la calidad publicable es prioridad y tu video justifica el costo. Para uso ocasional, el plan free alcanza para varios videos cortos.

Si usas HeyGen para tu avatar virtual

Si tu video es un avatar virtual hablando, la voz se genera dentro de HeyGen junto con el video del avatar: el TTS está integrado. Eliges la voz del catálogo, pegas el guion y HeyGen produce video y audio sincronizados con lipsync. Para detalles de avatar y guion combinados, ver crear avatar virtual.

Genera una escena de prueba antes de gastar el lote

Antes de generar todo el video, pide solo la escena de título o una escena corta y escúchala. Si la voz y el tono te gustan, genera el resto. Si no, ajusta antes de gastar tiempo o créditos en todas las escenas.

Camino 2: clonar tu voz

Pasas de una voz de catálogo a tu propia voz. Grabas una muestra corta, la herramienta aprende tu timbre y entonación, y a partir de ahí cualquier narración que generes con esa identidad suena como tú.

Qué necesitas

Una muestra de audio. 10-15 segundos para el clon básico; varios minutos para los clones profesionales de ElevenLabs.
La transcripción exacta de lo que dijiste en el audio (palabra por palabra).
Un sitio donde guardar el clon. Un perfil de marca en el toolkit, un voice ID en ElevenLabs, una voz personalizada en HeyGen.

Grabar la muestra

Independiente de la herramienta, las reglas para una buena muestra son las mismas:

Factor	Qué funciona	Qué no funciona
Ambiente	Silencioso, sin eco	Café ruidoso, habitación con eco
Duración	10-15 segundos (clon básico); 1-3 minutos (profesional)	Menos de 5 segundos
Entonación	Variada: frases cortas y largas, preguntas y afirmaciones	Monótona, lectura plana
Distancia al micrófono	Constante, cercana	Variable, muy lejos
Formato	WAV, M4A, MP3, FLAC	Audio comprimido al máximo, con ruido de fondo

Habla como si explicaras algo a un colega

La mejor muestra no es una lectura formal. Es una explicación natural, como si le contaras algo a alguien en una llamada. Eso le da al modelo variedad de entonación y ritmo que después aplica a la narración.

La transcripción tiene que ser exacta

La calidad del clon depende de que la transcripción coincida palabra por palabra con lo que dijiste. Si dijiste "buen día" y la transcripción dice "buenos días", la clonación pierde precisión. Cuando dudes, transcribe directamente desde el audio.

Si usas el Video Toolkit

El toolkit clona tu voz con Qwen3-TTS sin costo adicional. Asocias el clon a un perfil de marca para que se aplique automáticamente cada vez que produces un video con esa marca.

Asegúrate de tener un perfil de marca creado. Si no, créalo primero (ver definir la identidad visual).
Escribe /voice-clone en Claude. Te guía paso a paso: elegir marca, grabar o importar la muestra, dar la transcripción.
Graba o importa el audio. Claude te sugiere un texto para leer (~12 segundos) o aceptas un archivo que ya tengas (un fragmento de un podcast, una nota de voz).
Da la transcripción exacta. Si leíste el texto sugerido, Claude lo sabe; si usaste tu propio audio, escribe lo que dijiste palabra por palabra.
Escucha el clip de prueba. Claude genera un fragmento corto con tu voz clonada. Si suena bien, se guarda en la marca; si no, regrabas.

A partir de ahí, cada generación de narración con esa marca usa tu voz automáticamente. El flujo es el mismo que el de TTS prediseñado, pero la voz suena como tú.

Si usas ElevenLabs

ElevenLabs ofrece dos niveles de clonación:

Instant Voice Cloning. Una muestra corta (1 minuto recomendado), resultado inmediato, calidad muy buena para uso general. Disponible en planes pagos.
Professional Voice Cloning. Requiere 30 minutos a varias horas de audio limpio. La voz resultante es prácticamente indistinguible de la real y se usa para producción profesional, audiolibros, contenido recurrente.

Flujo típico: subes el audio, ElevenLabs procesa la voz (instantáneo o algunos minutos), te da un voice ID que ya puedes usar como cualquier otra voz del catálogo. La voz queda asociada a tu cuenta y la usas en cualquier proyecto desde la web o desde la API.

Si usas HeyGen

HeyGen permite clonar tu voz junto con el avatar visual. La voz queda atada al avatar y se usa cuando generas videos con ese personaje. Detalles del flujo combinado en crear avatar virtual.

Iterar si la voz no convence

Tres opciones, válidas en cualquier herramienta:

Cambiar voz o tono. Otro speaker, otro tono, sin tocar el texto. Suele ser el ajuste más rápido.
Editar el guion. Si el problema es lo que dice, no cómo lo dice, reescribe esa frase y regenera. Una pausa bien puesta cambia más que cinco minutos de fine-tuning de parámetros.
Ajustar parámetros del motor. Velocidad, estabilidad, similitud (ElevenLabs), tono por escena (toolkit). Empieza por valores neutros y ajusta de a poco.

La ventaja del modo escena por escena del toolkit, o del export por bloque en ElevenLabs, es que solo regeneras lo que necesitas. El resto queda intacto.

Siguiente paso

Con la narración generada y montada contra las escenas, lo siguiente es agregar música (opcional) y después previsualizar y exportar el archivo final.

Generar voz desde texto

En esta página