Animar retratos

Convierte una foto de una persona en un video donde habla con sincronización labial. Ideal para agregar un presentador a tus videos.


Paso 8 de 14

¿Necesitas un avatar con movimiento corporal y gestos?

Esta página cubre la animación de un retrato estático con lipsync (SadTalker, gratis vía el toolkit). Si lo que necesitas es un talking-head de calidad publicable con gestos, movimiento de manos y cuerpo completo: Crear avatar virtual.

Si quieres que una persona aparezca hablando en tu video sin grabar una toma real, el toolkit puede convertir una foto en un video animado con sincronización labial. Le das un retrato y un audio de narración; la herramienta genera un video donde la persona mueve los labios, los ojos y la cabeza de forma natural mientras "dice" ese audio.

El uso más común es agregar un presentador en una esquina del video (picture-in-picture), pero también sirve para crear intros con un rostro humano o demos donde una persona explica lo que se ve en pantalla.

Crear un video de presentador

Necesitas dos cosas:

  1. Una foto de la persona. Retrato frontal con buena iluminación. La cara debe ocupar entre el 30% y el 70% del cuadro.
  2. El audio de narración. El audio que quieres que la persona "diga". Puede ser un archivo de voiceover que ya generaste.

Pídele a Claude que genere el video:

Genera un video de presentador con la foto presentador.png y el audio de narración del proyecto

Claude genera un archivo MP4 donde la persona de la foto habla el audio que le diste, con movimiento de labios sincronizado.

Recomendaciones para la foto

AspectoQué funcionaQué no funciona
ÁnguloFrontal o casi frontalPerfil, ángulos mayores a 30 grados
IluminaciónBuena, uniformeMuy oscura, contraluz fuerte
RostroVisible, sin obstruccionesCubierto con manos, máscaras, lentes oscuros
Resolución512px o másMuy baja resolución
EstiloFotorrealistaIlustraciones, anime, caricaturas

Solo funciona con fotos reales de personas

La herramienta (SadTalker) está entrenada con rostros fotorrealistas. No funciona bien con ilustraciones, personajes animados, ni rostros con barba muy cerrada. Para personajes estilizados, usa Generar video con IA en su lugar.

Agregar el presentador a tu video

El toolkit tiene un componente llamado Narrator PiP (picture-in-picture) que coloca al presentador en una esquina del video. Para usarlo en tu proyecto:

Agrega el video de presentador como picture-in-picture en la esquina inferior derecha de mi proyecto

Claude configura el componente automáticamente. El presentador aparece sobre las escenas de tu video, como una ventanita de videollamada.

Preparar la foto para picture-in-picture

Para que el presentador se vea bien en la esquina del video, la foto original debe tener proporción 16:9 (panorámica) e incluir la cabeza y los hombros de la persona. Claude se encarga de los detalles técnicos, pero la calidad del resultado depende de que la foto tenga buena composición.

Tú encuadras mejor que la IA

Recorta la foto tú mismo antes de pasarla a Claude. Los humanos encuadran rostros mejor que cualquier recorte automático. Incluye cabeza y hombros, centra el rostro, deja algo de espacio arriba.

Estilos de animación

Puedes pedirle a Claude diferentes estilos de movimiento:

EstiloQué haceMejor para
NaturalMovimiento de cabeza variado, expresivoVideos informales, intros
ProfesionalMovimiento sutil, calmadoPresentaciones corporativas, demos
ExpresivoMovimiento amplio, animadoVideos energéticos, anuncios

Genera el presentador con estilo profesional: poco movimiento de cabeza, expresión calmada

Cuánto cuesta y cuánto tarda

Duración del audioTiempo de procesamientoCosto aproximado
15 segundos~3.5 minutos~$0.02
1 minuto~7 minutos~$0.05
3 minutos~14 minutos~$0.15

El procesamiento se hace en la nube. La primera solicitud de la sesión tarda un minuto extra por la carga del modelo.

Audios largos se procesan por partes

Si tu audio dura más de 45 segundos, la herramienta lo divide automáticamente en segmentos para evitar que la sincronización se desfase. El resultado final es un solo video continuo.

Limitaciones

  • Solo rostros fotorrealistas. Ilustraciones, anime y personajes estilizados no funcionan bien.
  • Ángulos frontales. Perfiles y ángulos pronunciados producen artefactos.
  • Sin cuerpo completo. La animación es del rostro. El cuerpo permanece estático (el modo de cuerpo completo anima la cara y pega el resultado sobre la imagen original).

En esta página