Herramientas

Mapa de las herramientas que cubre el playbook. Qué hace cada una, cuándo conviene usarla, cuánto cuesta y si necesitas cuenta. Toolkit, herramientas web y auxiliares.


IA Audiovisual

No hay una sola herramienta que resuelva todo el flujo audiovisual con IA. La práctica real combina varias: una para los planos cinematográficos, otra para las secuencias largas, otra para la voz, otra para el avatar virtual. Esta página es el mapa: qué cubre cada herramienta, cuándo conviene una sobre otra y qué necesitas para empezar.

El playbook trata al Video Toolkit como una opción más, fuerte cuando quieres operar desde Claude Code y mantener todo versionado en una carpeta. No es el default. El default lo decides tú según tu caso de uso. Si quieres una recomendación según el tipo de video que produces, ver Por dónde empezar.

Tabla maestra

HerramientaQué haceCuándo convieneCosto aproximadoCuenta requerida
Video ToolkitProducción dirigida por conversación desde Claude Code: voz, imágenes, música, video corto, ensamble y renderQuieres versionar el proyecto en una carpeta y operar todo desde el terminal$1-2/mes en Modal (uso típico) sobre $30 gratuitosClaude Code + Modal
Higgsfield Cinema StudioPlanos cinematográficos con control de cámara, lente, focal y aperturaBuscas dirección de foto fina y look cinematográficoPlan mensual desde ~$15/mesHiggsfield
KlingClips de video por texto o imagen, encadenamiento de planos por start/end frameQuieres secuencias largas con continuidad entre planosPlan mensual desde ~$10/mesKling
SeedanceGeneración de clips con foco en movimiento natural y físicasNecesitas clips con cámara compleja o cuerpos en movimientoPlan mensual desde ~$10/mesSeedance
RunwayTransformación de video existente, efectos, edición asistida por IA (Aleph)Quieres modificar un video propio: estilo, escenario, luz, elementosPlan mensual desde ~$15/mesRunway
ElevenLabsVoz por TTS, clonación de voz, cambio de voz de un audioProducción de voz de calidad publicable, varios idiomasPago por uso o plan mensual desde ~$5ElevenLabs
HeyGenAvatar virtual con cuerpo y gestos a partir de una grabación cortaNecesitas un talking-head publicable con presencia humanaPlan mensual desde ~$24/mesHeyGen

Las cifras de costo son orientativas y cambian con frecuencia. Verifica en cada plataforma antes de decidir.

Detalle por herramienta

Video Toolkit

Proyecto open source que le da a Claude Code las herramientas para producir video. Funciona con plantillas (Sprint Review, Product Demo) y carpeta de proyecto versionable. Cubre voz (Qwen3-TTS gratuita o ElevenLabs), imagen (FLUX.2, Qwen-Image-Edit, RealESRGAN), video corto (LTX-2), música (ACE Music), retratos animados (SadTalker) y postproducción (ProPainter, FFmpeg). El render final corre en tu computadora; las herramientas pesadas corren en Modal o RunPod.

Encaja bien con flujos repetibles, equipos que quieren consistencia y workflows donde versionar el proyecto en git aporta. Encaja menos bien si buscas controles cinematográficos finos o avatares con cuerpo completo, donde otras herramientas son más fuertes.

Higgsfield Cinema Studio

Plataforma web para generar planos con control de cámara estilo dirección de foto: tipo de toma, ángulo, lente, focal, apertura. Genera clips por texto o por imagen y permite presets cinematográficos. La calidad de plano por plano es de las mejores del mercado.

Conviene cuando el look cinematográfico es prioridad y quieres decisiones de cámara explícitas. Menos útil para secuencias largas: el control granular tiene contracara en un workflow plano por plano.

Kling

Plataforma web fuerte en encadenamiento. La función de start frame y end frame permite construir secuencias largas a partir de clips cortos con continuidad visual. Genera por texto o por imagen y soporta longitudes de hasta varios segundos por clip.

Encaja bien cuando necesitas contar una historia con varios planos seguidos. Es la opción más usada para piezas cinematográficas cortas tipo trailer o film de IA.

Seedance

Generador con foco en movimiento natural, físicas y cámara compleja. Suele dar buenos resultados con sujetos en movimiento, parkour, animales y escenas con cámara siguiendo la acción.

Conviene cuando el movimiento es protagonista. Para planos contemplativos o estáticos, otras herramientas pueden ser equivalentes.

Runway

Stack de edición de video con IA. Su producto Aleph y los modos de transformación permiten cambiar estilo, escenario, luz, vestuario, agregar o quitar elementos sobre un video que ya tienes. Generación desde cero también disponible, pero su fuerte está en el video a video.

Encaja cuando partes de material propio y necesitas transformarlo, no generar desde cero. Tiene curva de aprendizaje propia y el costo escala con el uso intensivo.

ElevenLabs

Estándar de facto en voz IA. Cubre TTS multilingüe con voces propias, clonación de voz a partir de muestras cortas y cambio de voz de un audio existente manteniendo entonación. Las voces son las más naturales del mercado y la API se usa desde la mayoría de las herramientas que tocan audio.

Conviene siempre que la calidad de voz sea visible en el resultado final, sea para narración, doblaje o avatar. La voz gratuita del toolkit (Qwen3-TTS) es suficiente para piezas internas; para publicar afuera, ElevenLabs sube el listón.

HeyGen

Plataforma de avatar virtual. A partir de una grabación corta tuya genera un avatar fotorrealista con gestos, movimiento de manos y cuerpo. Se le pasa un texto o un audio y devuelve un video del avatar narrando con lipsync, expresión y movimiento corporal.

Conviene cuando necesitas presencia humana publicable sin grabar tomas reales: explicaciones, presentaciones, piezas de marca con la cara de alguien del equipo. Costo más alto que las opciones de retrato animado, pero el resultado es de calidad publicable.

Herramientas auxiliares

Las que aparecen en páginas puntuales del playbook pero no son centrales en el workflow:

  • Nano Banana, Midjourney, Gemini — generación de imágenes para storyboards y referencias visuales antes de animar.
  • Arcade — cambio de voz de un audio con preservación de entonación, alternativa a ElevenLabs.
  • RVC (Retrieval-based Voice Conversion) — clonación de voz open source, corre en Colab; útil para canto y conversion offline.

Cada una aparece en la página donde se usa, con el contexto puntual.

En esta página