Crear avatar virtual
Talking-head publicable: persona sintética que recita cualquier guion como si fueras tú. HeyGen como herramienta canónica, alternativas para casos específicos.
Un avatar virtual es una persona sintética que habla: cara, voz, gestos y sincronización de labios. Una vez entrenado, recita guiones infinitos con tu imagen sin que vuelvas a encender la cámara. Es la diferencia entre un muñeco con la boca animada y un video que, a dos metros de distancia y sin sonido, parece una grabación real.
Distinto de animar un retrato
Animar retratos usa SadTalker (gratis vía el toolkit) para mover los labios de una foto al ritmo de un audio. Sirve para presentadores en una esquina del video estilo picture-in-picture. Esta página cubre algo más exigente: avatar publicable que gesticula, mueve cuerpo y se ve como una persona grabada. Si lo que querés es un PiP de bajo costo, mirá animar retratos. Si querés talking-head publicable, seguí acá.
Cuándo usarlo
- Contenido semanal en redes sin grabarte cada vez. Grabás una vez tu video de entrenamiento y producís decenas de reels, shorts y tiktoks con tu imagen diciendo cosas distintas.
- Marketing y UGC a escala. Scripts publicitarios cortos con cara humana creíble. Funciona muy bien para testear copies de anuncios (10 variantes con 10 scripts en una tarde).
- Tutoriales, cursos y clases online. Producís clases sin sentarte a grabar ni preocuparte por iluminación, peinado, maquillaje ni equivocarte en el guion.
- Doblaje a otros idiomas conservando tu cara. HeyGen traduce a más de 70 idiomas y re-genera tu boca sincronizada con la nueva pista de audio.
- Corporate training y comunicaciones internas. Avatares estandarizados para onboarding, actualizaciones de política o anuncios ejecutivos.
Cuando no usarlo: contenido donde la autenticidad visible importa (testimonios reales, entrevistas, videos de reacción espontánea), o contextos donde el disclosure de IA puede erosionar la confianza del público. Usar un avatar sin avisar en un contexto que espera persona real es, en el mejor caso, una ruptura del contrato implícito con la audiencia.
Herramientas principales
| Herramienta | Fortaleza | Limitación notable | Recomendada para |
|---|---|---|---|
| HeyGen | La más completa. 500+ avatares, voces en 30+ idiomas, traducción automática, plantillas, plan gratuito generoso | Avatar 4 (mayor calidad) tiene cuota limitada incluso en planes pagos | Uso general, empezar |
| Captions AI / Design | Lipsync más suave entre frases, mejores fondos cinematográficos, múltiples personajes en una misma escena | Menos features, más cara que HeyGen | Videos cinematográficos |
| Kling Avatar 2.0 | Permite movimientos amplios (caminar, gesticular con brazos abiertos) | Manos y brazos gomosos, lipsync exagerado | Casos donde el movimiento amplio importa más que el realismo |
| Synthesia | Estándar corporativo, muy pulido, integraciones empresariales maduras | Estética "stock corporativo", menos flexible | Training corporativo |
| Arcads | Enfocada en UGC y ads | Biblioteca chica, foco vertical | Testing de ads |
| Argil | Clones de alta calidad orientados a creadores | Pricing alto | Creadores con presupuesto |
| D-ID | Económica, rápida | Calidad notablemente inferior | Pruebas de bajo costo |
HeyGen es la opción canónica de este playbook: es la más popular, la mejor cubierta para usuario no técnico que empieza, y la que cubre la mayoría de los casos de uso anteriores. La página la trata como herramienta principal; las alternativas se mencionan donde aportan algo distinto.
Dos caminos en HeyGen
Antes de empezar, decidí cuál camino vas a tomar:
- Camino A: avatar desde foto. Generás una imagen fotorrealista (Nano Banana Pro vía Higgsfield, Midjourney) o usás una foto tuya, y HeyGen la convierte en avatar. No es un clon profundo, pero es inmediato (minutos). Suficiente para redes sociales, UGC y ads.
- Camino B: clon desde video. Grabás un video de 2 a 5 minutos de vos hablando, lo subís a HeyGen y entrenás un clon que replica tu apariencia, postura y opcionalmente tu voz. Es lo que la mayoría de creadores quiere cuando dicen "clon digital".
Camino B: clon desde video (workflow detallado)
Paso 1: cuenta y plan
Entrá a heygen.com, registrate. El plan gratuito alcanza para empezar: 3 videos por mes de hasta 3 minutos, HD 720p, 500 avatares estándar, un avatar personalizado con hasta 300 variantes (mismo clon con ropa o fondo distinto).
Para producción seria (varios videos por semana, duración mayor a 3 minutos), el plan Creator (alrededor de 30 USD por mes) habilita videos ilimitados de hasta 30 minutos en Full HD.
Cuota oculta de Avatar 4
"Videos ilimitados" del plan Creator no aplica al modelo Avatar 4 (el de mayor calidad). Para Avatar 4 tenés 15 minutos por mes; si te pasás, comprás créditos. Si planeás producción semanal con Avatar 4, calculá la cuota antes de cerrar suscripción.
Paso 2: grabar el video de entrenamiento
Es el paso que más determina la calidad final. Los requisitos son específicos:
Duración: 2 a 5 minutos.
Durante la grabación:
- Mirá siempre directo a la cámara.
- Hablá natural, con pausas normales.
- Gesticulá suave, movimientos sutiles.
- Mantené el mismo encuadre, no te muevas de tu posición.
- Manos siempre por debajo del cuello. Si gesticulás con manos cerca de la cara, el modelo se confunde.
- Boca siempre visible, sin obstrucciones.
Qué evitar: cortes en el video (toma continua), hablar rápido sin pausas, cambiar de posición, otras personas en cuadro, objetos que obstruyan tu cuerpo, señalar con los dedos.
Qué decir: no importa. El contenido de tu discurso es irrelevante; el modelo aprende tu apariencia, no tus palabras. Leé un libro, improvisá, contá tu semana. Lo que importa es que gesticules, pestañees y muevas la cabeza naturalmente.
Técnica: cámara de buena calidad (un móvil sirve si graba bien), ambiente bien iluminado, fondo neutro. Grabá horizontal (16:9) pero mantenete dentro del cuadro vertical central (para poder cortar el clon a 9:16 para reels).
Paso 3: subir el video
- Panel de HeyGen, menú Avatars.
- Crear nuevo avatar → opción a partir de un video.
- Subí el archivo o grabá directo desde la webcam (la opción aparte da mejor calidad).
- Al subirlo, HeyGen pregunta si querés mantener el ruido de ambiente. Típicamente conviene quitarlo.
Paso 4: grabar el consentimiento informado
Crítico por la parte ética y legal. HeyGen lo exige la primera vez que creás un avatar.
- HeyGen abre la pantalla de consentimiento. Activá cámara y micrófono.
- Comenzar a grabar. HeyGen te muestra el texto a leer, incluyendo un código numérico único de la sesión.
- Leé frente a la cámara. Stop.
- HeyGen verifica que cumplas los requisitos.
Truco para pasar la validación al primer intento
Grabá el consentimiento con la misma ropa, el mismo maquillaje y el mismo peinado que tenías en el video de entrenamiento. El sistema verifica que sos la misma persona; con el mismo look, valida directo.
Una vez superado, no volvés a hacerlo. Todos los avatares siguientes saltan el consentimiento.
Paso 5: elegir la voz
Tres opciones:
- Voz de la librería de HeyGen (cientos por idioma, género, tono y estilo).
- Tu voz clonada por HeyGen (si pagaste el plan y clonaste).
- Tu propio audio grabado aparte (recomendado): grabás con tu voz real en un grabador aparte, lo subís y HeyGen sincroniza los labios.
Probá varias voces antes de decidir. La voz tiene que encajar con la imagen y el tono del contenido.
Paso 6: escribir el guion y generar
Dos formas:
A. Escribir texto. Pegás el guion en el campo de texto. Marcá las opciones avanzadas:
- Avatar 4: modelo de mayor calidad. Obligatorio para producción seria.
- Expressive movements: amplifica gestos. Para tono neutro y profesional, dejá valores bajos. Para contenido energético (promos, fitness), súbila.
- Custom motion: acciones específicas como "apunta con el dedo al aire" o "junta las palmas". Movimientos sutiles, no dramáticos.
B. Subir audio con tu voz. Grabás aparte con tu voz real. Botón pequeño abajo del campo de texto para subir audio. Subí el archivo (MP3 o WAV).
Activá voice mirror
Cuando subís audio propio, marcá la opción espejo de voz (voice mirror). Hace que la gesticulación del avatar se parezca a las emociones que transmitís en el audio. Sin esto, el avatar habla con labios sincronizados pero sin gesticulación emocional. La diferencia es notable.
Paso 7: generar y descargar
- Generar arriba a la derecha. Nombre al video. Submit.
- Espera de 2 a 5 minutos para videos cortos.
- Descargá el MP4. En plan gratuito solo HD (1280x720); para Full HD o 4K necesitás plan pago.
Camino A: avatar desde foto (workflow conciso)
Si preferís no ser vos, o querés un personaje específico (más joven, otro look, identidad de marca), saltás el video de entrenamiento.
- Generá la foto en Nano Banana Pro vía Higgsfield (ver trabajar con imágenes). Pedile a ChatGPT que arme el prompt: "genera un prompt para una mujer de negocios en un entorno corporativo, estilo profesional educativo". Pasalo a Nano Banana Pro con resolución 2K y aspect ratio horizontal.
- Si hay detalles que no convencen (gente de fondo, ropa), usá el botón Edit de Higgsfield: "quita la gente del fondo y añade botones a la camisa".
- Una vez tenés la foto, en HeyGen → Avatars → Create new avatar → Upload photo.
- Subí la foto, dale nombre, dejá que HeyGen detecte edad y género.
- Saltás directo al paso 5 del camino B (elegir voz, guion, generar).
Esto es lo que la industria llama avatar IV o photo avatar. No tiene la profundidad de un clon entrenado con video, pero para la mayoría de casos (redes, UGC, ads) alcanza.
Doblar a otros idiomas
Una de las funcionalidades más vendibles. Traducir un video a cualquier idioma y re-sincronizar los labios.
- Dashboard → Create video → Translate.
- Subí el video.
- Elegí idioma destino (70+ idiomas en plan gratuito).
- Indicá el número de personas hablando.
- La voz será una versión clonada de la voz original en el idioma destino.
- Esperá unos minutos y descargá.
Para contenido comercial serio, revisá la traducción con un hablante nativo antes de publicar. El doblaje automático es bueno pero no perfecto.
Consideraciones éticas
Esta tecnología es la misma que habilita los deepfakes. Es la más sensible del playbook.
- Consentimiento explícito. Si el avatar reproduce la cara de una persona real, necesitás autorización por escrito. Clonar el rostro sin permiso es ilegal en la mayoría de jurisdicciones. El video de consentimiento que exige HeyGen cubre este flanco; eludirlo (subir un video descargado de redes sociales de otra persona) viola los términos de servicio y deja trazas.
- Disclosure al público. Si el video final es editorial, informativo o publicitario, avisá que es un avatar IA. Puede ir en el texto de la publicación, en la primera línea del video, o en los créditos. La FTC, el AI Act de la UE y varias regulaciones latinoamericanas exigen disclosure en ciertos contextos (publicidad política, comunicación financiera, salud).
- Uso comercial de voces y avatares de la librería. Suelen ser royalty-free dentro de tu suscripción, pero hay matices. Verificá la licencia antes de monetizar.
- Identidad de tu avatar. Una vez creado, tu clon digital es un activo. Tratalo con el mismo cuidado que tu imagen personal: no lo compartas, no publiques el archivo de entrenamiento en repositorios públicos.
La regla simple: si no podrías mirar a la cámara vos mismo y decir eso, no pongas a tu avatar a decirlo.
Errores comunes
- Imagen base de baja calidad. Foto borrosa o "demasiado de IA" (piel lisa, ojos simétricos) produce avatares que amplifican esos defectos. Foto fotorrealista, con imperfecciones visibles (arrugas, poros, asimetrías).
- Video de entrenamiento con gestos amplios. Manos por encima del pecho confunden al modelo. Manos siempre por debajo del cuello.
- Consentimiento con ropa distinta al video de entrenamiento. Cambia validación. Mismo look en ambos videos.
- Usar la voz clonada de HeyGen cuando podés grabar la tuya. La clonada queda más robótica. Si podés grabar tu audio aparte, hacelo.
- No marcar voice mirror al subir audio propio. Sin esa opción, el avatar habla con labios sincronizados pero sin gesticulación emocional.
- No previsualizar la voz antes de generar. HeyGen cobra créditos por cada generación. Probá la voz primero.
- Usar Avatar 3 o menor cuando la calidad importa. Para contenido publicable, Avatar 4 es el mínimo. Los modelos anteriores tienen lipsync más robótico.
- Expresividad al máximo en videos corporativos. Cejas que saltan, manos demasiado activas. Para tono neutro, expresividad baja o por defecto.
- Olvidar el aspect ratio para redes verticales. Si vas a publicar en reels, grabá horizontal pero mantenete centrado para que el recorte vertical no te deje fuera.
- No avisar al público que es IA. Erosiona confianza y, en varias jurisdicciones, viola regulación de publicidad engañosa.
Animar retratos
Convierte una foto de una persona en un video donde habla con sincronización labial. Ideal para agregar un presentador a tus videos.
Producción de audio
Generar la narración y la música del video. Cuatro acciones: pasar texto a voz, cambiar el timbre de un audio existente, redoblar un video completo y agregar la pista musical.