Animar retratos
Convierte una foto de una persona en un video donde habla con sincronización labial. Ideal para agregar un presentador a tus videos.
Paso 8 de 14
¿Necesitas un avatar con movimiento corporal y gestos?
Esta página cubre la animación de un retrato estático con lipsync (SadTalker, gratis vía el toolkit). Si lo que necesitas es un talking-head de calidad publicable con gestos, movimiento de manos y cuerpo completo: Crear avatar virtual.
Si quieres que una persona aparezca hablando en tu video sin grabar una toma real, el toolkit puede convertir una foto en un video animado con sincronización labial. Le das un retrato y un audio de narración; la herramienta genera un video donde la persona mueve los labios, los ojos y la cabeza de forma natural mientras "dice" ese audio.
El uso más común es agregar un presentador en una esquina del video (picture-in-picture), pero también sirve para crear intros con un rostro humano o demos donde una persona explica lo que se ve en pantalla.
Crear un video de presentador
Necesitas dos cosas:
- Una foto de la persona. Retrato frontal con buena iluminación. La cara debe ocupar entre el 30% y el 70% del cuadro.
- El audio de narración. El audio que quieres que la persona "diga". Puede ser un archivo de voiceover que ya generaste.
Pídele a Claude que genere el video:
Genera un video de presentador con la foto presentador.png y el audio de narración del proyecto
Claude genera un archivo MP4 donde la persona de la foto habla el audio que le diste, con movimiento de labios sincronizado.
Recomendaciones para la foto
| Aspecto | Qué funciona | Qué no funciona |
|---|---|---|
| Ángulo | Frontal o casi frontal | Perfil, ángulos mayores a 30 grados |
| Iluminación | Buena, uniforme | Muy oscura, contraluz fuerte |
| Rostro | Visible, sin obstrucciones | Cubierto con manos, máscaras, lentes oscuros |
| Resolución | 512px o más | Muy baja resolución |
| Estilo | Fotorrealista | Ilustraciones, anime, caricaturas |
Solo funciona con fotos reales de personas
La herramienta (SadTalker) está entrenada con rostros fotorrealistas. No funciona bien con ilustraciones, personajes animados, ni rostros con barba muy cerrada. Para personajes estilizados, usa Generar video con IA en su lugar.
Agregar el presentador a tu video
El toolkit tiene un componente llamado Narrator PiP (picture-in-picture) que coloca al presentador en una esquina del video. Para usarlo en tu proyecto:
Agrega el video de presentador como picture-in-picture en la esquina inferior derecha de mi proyecto
Claude configura el componente automáticamente. El presentador aparece sobre las escenas de tu video, como una ventanita de videollamada.
Preparar la foto para picture-in-picture
Para que el presentador se vea bien en la esquina del video, la foto original debe tener proporción 16:9 (panorámica) e incluir la cabeza y los hombros de la persona. Claude se encarga de los detalles técnicos, pero la calidad del resultado depende de que la foto tenga buena composición.
Tú encuadras mejor que la IA
Recorta la foto tú mismo antes de pasarla a Claude. Los humanos encuadran rostros mejor que cualquier recorte automático. Incluye cabeza y hombros, centra el rostro, deja algo de espacio arriba.
Estilos de animación
Puedes pedirle a Claude diferentes estilos de movimiento:
| Estilo | Qué hace | Mejor para |
|---|---|---|
| Natural | Movimiento de cabeza variado, expresivo | Videos informales, intros |
| Profesional | Movimiento sutil, calmado | Presentaciones corporativas, demos |
| Expresivo | Movimiento amplio, animado | Videos energéticos, anuncios |
Genera el presentador con estilo profesional: poco movimiento de cabeza, expresión calmada
Cuánto cuesta y cuánto tarda
| Duración del audio | Tiempo de procesamiento | Costo aproximado |
|---|---|---|
| 15 segundos | ~3.5 minutos | ~$0.02 |
| 1 minuto | ~7 minutos | ~$0.05 |
| 3 minutos | ~14 minutos | ~$0.15 |
El procesamiento se hace en la nube. La primera solicitud de la sesión tarda un minuto extra por la carga del modelo.
Audios largos se procesan por partes
Si tu audio dura más de 45 segundos, la herramienta lo divide automáticamente en segmentos para evitar que la sincronización se desfase. El resultado final es un solo video continuo.
Limitaciones
- Solo rostros fotorrealistas. Ilustraciones, anime y personajes estilizados no funcionan bien.
- Ángulos frontales. Perfiles y ángulos pronunciados producen artefactos.
- Sin cuerpo completo. La animación es del rostro. El cuerpo permanece estático (el modo de cuerpo completo anima la cara y pega el resultado sobre la imagen original).
Animar un video corto
Genera clips de video de hasta 8 segundos desde texto o imagen, sin salir de Claude Code. LTX-2 es la opción por defecto del toolkit para clips rápidos.
Generar voz desde texto
Convierte un guion escrito en audio narrado. Dos caminos: voz prediseñada para resultados inmediatos, o tu propia voz clonada para que suene como tú.