Pubblicato · 2026 · 05 · 317 min di lettura

Ho creato una skill che trasforma un prompt in un video finito

ai
video
remotion
skill

Una skill /video per agenti di programmazione AI: un prompt diventa un video narrato, sottotitolato, animato e dimensionato per la piattaforma — copione, voce, timing, animazione e render, tutto automatico. Ecco come funziona, e puoi scaricarla.

Indice

Un prompt, un video finito
La pipeline
Sottotitoli al millisecondo
Scene che illustrano il copione
Dimensionato per la piattaforma, renderizzato con Remotion
Provala tu stesso

Fare un video breve è un mucchio di lavoretti fastidiosi: scrivere un copione, registrare una voce, tagliare i sottotitoli sulla parola giusta, trovare o animare la grafica, sincronizzare gli stacchi, esportare nella dimensione corretta, poi scrivere didascalia e hashtag per la piattaforma. Volevo che un solo prompt facesse tutto. Così ho creato una skill per agenti di programmazione AI che fa esattamente questo, e il video di presentazione è stato realizzato dalla skill stessa.

Un prompt, un video finito

La skill si integra in un agente di programmazione AI come Claude Code o Codex. Scrivi /video e descrivi cosa vuoi — un TikTok di 30 secondi sulla tua app, uno spiegone di un minuto, un Reel per un lancio. L'agente ti fa una breve intervista (piattaforma, tono, voce, stile), conferma un piano sintetico, poi esegue tutta la produzione dall'inizio alla fine senza che tu tocchi una timeline.

Niente viene caricato su una web app. La pipeline gira dentro il tuo agente, sulla tua macchina; le uniche cose che escono sono le chiamate API per la voce e per il timing dei sottotitoli. Quello che ottieni è un vero MP4 in una cartella out/ e un social-copy.md accanto.

La pipeline

Ogni fase alimenta la successiva. La voce definisce la durata, la trascrizione definisce il timing dei sottotitoli e gli stacchi delle scene si agganciano alle pause della narrazione. Poiché tutto deriva dalla voce, il video finale è sempre perfettamente sincronizzato — niente aggiustamenti manuali dei keyframe.

Copione — scritto su misura per la piattaforma (~150 parole/min), dall'aggancio alla call-to-action, mostrato per l'approvazione prima di generare qualsiasi cosa.
Voce — OpenAI gpt-4o-mini-tts (naturale, voce predefinita marin); ElevenLabs opzionale per una resa più ricca.
Sottotitoli — whisper-1 trascrive la voce con timestamp per parola, così le parole appaiono una alla volta, esattamente a tempo.
Scene — scene SVG animate create da questo copione specifico, che cambiano sulle pause della narrazione.
Render — Remotion (React) produce un MP4 della stessa durata della voce, dimensionato per TikTok, Reels, Shorts o YouTube.
Testi social — titolo, didascalia e hashtag pronti per la piattaforma scelta.

Sottotitoli al millisecondo

I sottotitoli sono la prima cosa che si nota. Ogni parola si illumina nell'istante esatto in cui viene pronunciata, perché il timing non è stimato — viene dalla trascrizione. In Remotion il frame corrente corrisponde a un tempo, e la parola la cui finestra contiene quel tempo è quella attiva. Tutto il componente sta in poche righe:

tsx

// One word lights up exactly when it is spoken.
// The timings come straight from whisper-1's transcript.
export const Caption = ({words, frame, fps}) => {
  const t = frame / fps;
  const active = words.findIndex((w) => t >= w.start && t < w.end);
  return (
    <h1 className="caption">
      {words.map((w, i) => (
        <span key={i} style={{opacity: i === active ? 1 : 0.35}}>
          {w.text + " "}
        </span>
      ))}
    </h1>
  );
};

È tutto qui il trucco: la trascrizione porta start e end per ogni parola, Remotion ti dà il frame corrente, e tu accendi la parola che possiede quel momento. Niente keyframe, niente sfasamenti.

Scene che illustrano il copione

Lo stile predefinito sono scene SVG animate ricavate dal copione stesso — non spezzoni di stock. L'agente legge le frasi e crea grafiche che le illustrano davvero, poi sincronizza gli stacchi con le pause della voce, così il video respira con la narrazione. Se hai immagini o clip tue, usa quelle.

Dimensionato per la piattaforma, renderizzato con Remotion

La scelta della piattaforma determina dimensioni e durata ideale: 1080×1920 per TikTok, Reels e Shorts, 1920×1080 per YouTube long-form, 1080×1350 per un post nel feed Instagram. Il render è un singolo comando e la durata dell'output è dettata dalla voce, non da una stima.

bash

/video a 30-second TikTok about my new app

# the agent then, on its own:
# 1. writes a script sized to ~150 words per minute
# 2. gpt-4o-mini-tts  -> public/voice.mp3        (natural narration)
# 3. whisper-1        -> public/captions.json    (word-level timing)
# 4. scaffolds a Remotion (React) project
# 5. authors animated scenes that illustrate the script
# 6. remotion render  -> out/video.mp4           (length matches the voice)
# 7. writes social-copy.md                       (title, caption, hashtags)

Provala tu stesso

È open source. In Claude Code la installi come plugin in due righe; con qualsiasi altro agente, scarica lo zip e mettilo nella cartella delle skill. In entrambi i casi, imposta una chiave OpenAI e /video è disponibile ovunque.

bash

# Claude Code — install as a plugin
/plugin marketplace add jumpino27/Video-Skill-Remotion
/plugin install video@video-skill-remotion

La pagina dedicata contiene il video demo, le istruzioni complete, il download e il repository.

Apri la skill video Vedi su GitHub

La voce fissa la durata, la trascrizione fissa il timing, il copione fissa la grafica. Automatizza le giunzioni e un prompt diventa un video.

È questo il genere di cose che costruisco: prendi un flusso fatto di dieci passaggi manuali, trova il segnale che guida tutto il resto — qui, la voce — e lascia che un agente esegua l'intera catena a partire da quello. Un prompt in entrata, un video finito, sottotitolato e coerente con il brand in uscita.