Crear avatar virtual

Talking-head publicable: persona sintética que recita cualquier guion como si fueras tú. HeyGen como herramienta canónica, alternativas para casos específicos.


Un avatar virtual es una persona sintética que habla: cara, voz, gestos y sincronización de labios. Una vez entrenado, recita guiones infinitos con tu imagen sin que vuelvas a encender la cámara. Es la diferencia entre un muñeco con la boca animada y un video que, a dos metros de distancia y sin sonido, parece una grabación real.

Distinto de animar un retrato

Animar retratos usa SadTalker (gratis vía el toolkit) para mover los labios de una foto al ritmo de un audio. Sirve para presentadores en una esquina del video estilo picture-in-picture. Esta página cubre algo más exigente: avatar publicable que gesticula, mueve cuerpo y se ve como una persona grabada. Si lo que querés es un PiP de bajo costo, mirá animar retratos. Si querés talking-head publicable, seguí acá.

Cuándo usarlo

  • Contenido semanal en redes sin grabarte cada vez. Grabás una vez tu video de entrenamiento y producís decenas de reels, shorts y tiktoks con tu imagen diciendo cosas distintas.
  • Marketing y UGC a escala. Scripts publicitarios cortos con cara humana creíble. Funciona muy bien para testear copies de anuncios (10 variantes con 10 scripts en una tarde).
  • Tutoriales, cursos y clases online. Producís clases sin sentarte a grabar ni preocuparte por iluminación, peinado, maquillaje ni equivocarte en el guion.
  • Doblaje a otros idiomas conservando tu cara. HeyGen traduce a más de 70 idiomas y re-genera tu boca sincronizada con la nueva pista de audio.
  • Corporate training y comunicaciones internas. Avatares estandarizados para onboarding, actualizaciones de política o anuncios ejecutivos.

Cuando no usarlo: contenido donde la autenticidad visible importa (testimonios reales, entrevistas, videos de reacción espontánea), o contextos donde el disclosure de IA puede erosionar la confianza del público. Usar un avatar sin avisar en un contexto que espera persona real es, en el mejor caso, una ruptura del contrato implícito con la audiencia.

Herramientas principales

HerramientaFortalezaLimitación notableRecomendada para
HeyGenLa más completa. 500+ avatares, voces en 30+ idiomas, traducción automática, plantillas, plan gratuito generosoAvatar 4 (mayor calidad) tiene cuota limitada incluso en planes pagosUso general, empezar
Captions AI / DesignLipsync más suave entre frases, mejores fondos cinematográficos, múltiples personajes en una misma escenaMenos features, más cara que HeyGenVideos cinematográficos
Kling Avatar 2.0Permite movimientos amplios (caminar, gesticular con brazos abiertos)Manos y brazos gomosos, lipsync exageradoCasos donde el movimiento amplio importa más que el realismo
SynthesiaEstándar corporativo, muy pulido, integraciones empresariales madurasEstética "stock corporativo", menos flexibleTraining corporativo
ArcadsEnfocada en UGC y adsBiblioteca chica, foco verticalTesting de ads
ArgilClones de alta calidad orientados a creadoresPricing altoCreadores con presupuesto
D-IDEconómica, rápidaCalidad notablemente inferiorPruebas de bajo costo

HeyGen es la opción canónica de este playbook: es la más popular, la mejor cubierta para usuario no técnico que empieza, y la que cubre la mayoría de los casos de uso anteriores. La página la trata como herramienta principal; las alternativas se mencionan donde aportan algo distinto.

Dos caminos en HeyGen

Antes de empezar, decidí cuál camino vas a tomar:

  • Camino A: avatar desde foto. Generás una imagen fotorrealista (Nano Banana Pro vía Higgsfield, Midjourney) o usás una foto tuya, y HeyGen la convierte en avatar. No es un clon profundo, pero es inmediato (minutos). Suficiente para redes sociales, UGC y ads.
  • Camino B: clon desde video. Grabás un video de 2 a 5 minutos de vos hablando, lo subís a HeyGen y entrenás un clon que replica tu apariencia, postura y opcionalmente tu voz. Es lo que la mayoría de creadores quiere cuando dicen "clon digital".

Camino B: clon desde video (workflow detallado)

Paso 1: cuenta y plan

Entrá a heygen.com, registrate. El plan gratuito alcanza para empezar: 3 videos por mes de hasta 3 minutos, HD 720p, 500 avatares estándar, un avatar personalizado con hasta 300 variantes (mismo clon con ropa o fondo distinto).

Para producción seria (varios videos por semana, duración mayor a 3 minutos), el plan Creator (alrededor de 30 USD por mes) habilita videos ilimitados de hasta 30 minutos en Full HD.

Cuota oculta de Avatar 4

"Videos ilimitados" del plan Creator no aplica al modelo Avatar 4 (el de mayor calidad). Para Avatar 4 tenés 15 minutos por mes; si te pasás, comprás créditos. Si planeás producción semanal con Avatar 4, calculá la cuota antes de cerrar suscripción.

Paso 2: grabar el video de entrenamiento

Es el paso que más determina la calidad final. Los requisitos son específicos:

Duración: 2 a 5 minutos.

Durante la grabación:

  • Mirá siempre directo a la cámara.
  • Hablá natural, con pausas normales.
  • Gesticulá suave, movimientos sutiles.
  • Mantené el mismo encuadre, no te muevas de tu posición.
  • Manos siempre por debajo del cuello. Si gesticulás con manos cerca de la cara, el modelo se confunde.
  • Boca siempre visible, sin obstrucciones.

Qué evitar: cortes en el video (toma continua), hablar rápido sin pausas, cambiar de posición, otras personas en cuadro, objetos que obstruyan tu cuerpo, señalar con los dedos.

Qué decir: no importa. El contenido de tu discurso es irrelevante; el modelo aprende tu apariencia, no tus palabras. Leé un libro, improvisá, contá tu semana. Lo que importa es que gesticules, pestañees y muevas la cabeza naturalmente.

Técnica: cámara de buena calidad (un móvil sirve si graba bien), ambiente bien iluminado, fondo neutro. Grabá horizontal (16:9) pero mantenete dentro del cuadro vertical central (para poder cortar el clon a 9:16 para reels).

Paso 3: subir el video

  1. Panel de HeyGen, menú Avatars.
  2. Crear nuevo avatar → opción a partir de un video.
  3. Subí el archivo o grabá directo desde la webcam (la opción aparte da mejor calidad).
  4. Al subirlo, HeyGen pregunta si querés mantener el ruido de ambiente. Típicamente conviene quitarlo.

Paso 4: grabar el consentimiento informado

Crítico por la parte ética y legal. HeyGen lo exige la primera vez que creás un avatar.

  1. HeyGen abre la pantalla de consentimiento. Activá cámara y micrófono.
  2. Comenzar a grabar. HeyGen te muestra el texto a leer, incluyendo un código numérico único de la sesión.
  3. Leé frente a la cámara. Stop.
  4. HeyGen verifica que cumplas los requisitos.

Truco para pasar la validación al primer intento

Grabá el consentimiento con la misma ropa, el mismo maquillaje y el mismo peinado que tenías en el video de entrenamiento. El sistema verifica que sos la misma persona; con el mismo look, valida directo.

Una vez superado, no volvés a hacerlo. Todos los avatares siguientes saltan el consentimiento.

Paso 5: elegir la voz

Tres opciones:

  • Voz de la librería de HeyGen (cientos por idioma, género, tono y estilo).
  • Tu voz clonada por HeyGen (si pagaste el plan y clonaste).
  • Tu propio audio grabado aparte (recomendado): grabás con tu voz real en un grabador aparte, lo subís y HeyGen sincroniza los labios.

Probá varias voces antes de decidir. La voz tiene que encajar con la imagen y el tono del contenido.

Paso 6: escribir el guion y generar

Dos formas:

A. Escribir texto. Pegás el guion en el campo de texto. Marcá las opciones avanzadas:

  • Avatar 4: modelo de mayor calidad. Obligatorio para producción seria.
  • Expressive movements: amplifica gestos. Para tono neutro y profesional, dejá valores bajos. Para contenido energético (promos, fitness), súbila.
  • Custom motion: acciones específicas como "apunta con el dedo al aire" o "junta las palmas". Movimientos sutiles, no dramáticos.

B. Subir audio con tu voz. Grabás aparte con tu voz real. Botón pequeño abajo del campo de texto para subir audio. Subí el archivo (MP3 o WAV).

Activá voice mirror

Cuando subís audio propio, marcá la opción espejo de voz (voice mirror). Hace que la gesticulación del avatar se parezca a las emociones que transmitís en el audio. Sin esto, el avatar habla con labios sincronizados pero sin gesticulación emocional. La diferencia es notable.

Paso 7: generar y descargar

  1. Generar arriba a la derecha. Nombre al video. Submit.
  2. Espera de 2 a 5 minutos para videos cortos.
  3. Descargá el MP4. En plan gratuito solo HD (1280x720); para Full HD o 4K necesitás plan pago.

Camino A: avatar desde foto (workflow conciso)

Si preferís no ser vos, o querés un personaje específico (más joven, otro look, identidad de marca), saltás el video de entrenamiento.

  1. Generá la foto en Nano Banana Pro vía Higgsfield (ver trabajar con imágenes). Pedile a ChatGPT que arme el prompt: "genera un prompt para una mujer de negocios en un entorno corporativo, estilo profesional educativo". Pasalo a Nano Banana Pro con resolución 2K y aspect ratio horizontal.
  2. Si hay detalles que no convencen (gente de fondo, ropa), usá el botón Edit de Higgsfield: "quita la gente del fondo y añade botones a la camisa".
  3. Una vez tenés la foto, en HeyGen → AvatarsCreate new avatarUpload photo.
  4. Subí la foto, dale nombre, dejá que HeyGen detecte edad y género.
  5. Saltás directo al paso 5 del camino B (elegir voz, guion, generar).

Esto es lo que la industria llama avatar IV o photo avatar. No tiene la profundidad de un clon entrenado con video, pero para la mayoría de casos (redes, UGC, ads) alcanza.

Doblar a otros idiomas

Una de las funcionalidades más vendibles. Traducir un video a cualquier idioma y re-sincronizar los labios.

  1. Dashboard → Create video → Translate.
  2. Subí el video.
  3. Elegí idioma destino (70+ idiomas en plan gratuito).
  4. Indicá el número de personas hablando.
  5. La voz será una versión clonada de la voz original en el idioma destino.
  6. Esperá unos minutos y descargá.

Para contenido comercial serio, revisá la traducción con un hablante nativo antes de publicar. El doblaje automático es bueno pero no perfecto.

Consideraciones éticas

Esta tecnología es la misma que habilita los deepfakes. Es la más sensible del playbook.

  • Consentimiento explícito. Si el avatar reproduce la cara de una persona real, necesitás autorización por escrito. Clonar el rostro sin permiso es ilegal en la mayoría de jurisdicciones. El video de consentimiento que exige HeyGen cubre este flanco; eludirlo (subir un video descargado de redes sociales de otra persona) viola los términos de servicio y deja trazas.
  • Disclosure al público. Si el video final es editorial, informativo o publicitario, avisá que es un avatar IA. Puede ir en el texto de la publicación, en la primera línea del video, o en los créditos. La FTC, el AI Act de la UE y varias regulaciones latinoamericanas exigen disclosure en ciertos contextos (publicidad política, comunicación financiera, salud).
  • Uso comercial de voces y avatares de la librería. Suelen ser royalty-free dentro de tu suscripción, pero hay matices. Verificá la licencia antes de monetizar.
  • Identidad de tu avatar. Una vez creado, tu clon digital es un activo. Tratalo con el mismo cuidado que tu imagen personal: no lo compartas, no publiques el archivo de entrenamiento en repositorios públicos.

La regla simple: si no podrías mirar a la cámara vos mismo y decir eso, no pongas a tu avatar a decirlo.

Errores comunes

  • Imagen base de baja calidad. Foto borrosa o "demasiado de IA" (piel lisa, ojos simétricos) produce avatares que amplifican esos defectos. Foto fotorrealista, con imperfecciones visibles (arrugas, poros, asimetrías).
  • Video de entrenamiento con gestos amplios. Manos por encima del pecho confunden al modelo. Manos siempre por debajo del cuello.
  • Consentimiento con ropa distinta al video de entrenamiento. Cambia validación. Mismo look en ambos videos.
  • Usar la voz clonada de HeyGen cuando podés grabar la tuya. La clonada queda más robótica. Si podés grabar tu audio aparte, hacelo.
  • No marcar voice mirror al subir audio propio. Sin esa opción, el avatar habla con labios sincronizados pero sin gesticulación emocional.
  • No previsualizar la voz antes de generar. HeyGen cobra créditos por cada generación. Probá la voz primero.
  • Usar Avatar 3 o menor cuando la calidad importa. Para contenido publicable, Avatar 4 es el mínimo. Los modelos anteriores tienen lipsync más robótico.
  • Expresividad al máximo en videos corporativos. Cejas que saltan, manos demasiado activas. Para tono neutro, expresividad baja o por defecto.
  • Olvidar el aspect ratio para redes verticales. Si vas a publicar en reels, grabá horizontal pero mantenete centrado para que el recorte vertical no te deje fuera.
  • No avisar al público que es IA. Erosiona confianza y, en varias jurisdicciones, viola regulación de publicidad engañosa.

En esta página