Publicat · 2026 · 05 · 317 min de citit

Am construit un skill care transformă un prompt într-un video finalizat

ai
video
remotion
skill

Un skill /video pentru agenți AI de programare: un prompt devine un video narat, subtitrat, animat și dimensionat pentru platformă — scenariu, voce, timing, animație și render, totul automat. Iată cum funcționează și îl poți descărca.

Index

Un prompt, un video finalizat
Pipeline-ul
Subtitrări la milisecundă
Scene care ilustrează scenariul
Dimensionat pe platformă, randat cu Remotion
Încearcă-l și tu

Să faci un video scurt înseamnă o grămadă de sarcini mici și enervante: scrii un scenariu, înregistrezi o voce, tai subtitrările pe cuvântul potrivit, găsești sau animezi imagini, sincronizezi tăieturile, exporți la dimensiunea corectă, apoi scrii descrierea și hashtag-urile pentru platformă. Voiam ca un singur prompt să facă tot. Așa că am construit un skill pentru agenți AI de programare care face exact asta, iar videoul de prezentare a fost creat chiar de skill.

Un prompt, un video finalizat

Skill-ul se conectează la un agent AI de programare precum Claude Code sau Codex. Scrii /video și descrii ce vrei — un TikTok de 30 de secunde despre aplicația ta, un explainer de un minut, un Reel pentru un lansament. Agentul îți ia un scurt interviu (platformă, ton, voce, stil), confirmă un plan succint, apoi rulează întreaga producție de la cap la coadă fără să atingi vreo linie de montaj.

Nimic nu se încarcă într-o aplicație web. Pipeline-ul rulează în propriul tău agent, pe mașina ta; singurele lucruri care ies sunt apelurile API pentru voce și pentru timingul subtitrărilor. Primești înapoi un MP4 real într-un folder out/ și un social-copy.md alături.

Pipeline-ul

Fiecare etapă o alimentează pe următoarea. Vocea definește durata, transcrierea definește timingul subtitrărilor, iar tăieturile dintre scene se prind de pauzele narațiunii. Pentru că totul derivă din voce, videoul final este mereu perfect sincronizat — fără ajustări manuale de keyframe-uri.

Scenariu — scris pe măsura platformei (~150 de cuvinte/min), de la cârlig la apelul la acțiune, arătat pentru aprobare înainte de a genera ceva.
Voce — OpenAI gpt-4o-mini-tts (naturală, vocea implicită marin); ElevenLabs opțional pentru o redare mai bogată.
Subtitrări — whisper-1 transcrie vocea cu timestamp pe cuvânt, astfel încât cuvintele apar pe rând, exact pe ritm.
Scene — scene SVG animate create din acest scenariu anume, care taie pe pauzele narațiunii.
Render — Remotion (React) randează un MP4 cu durata vocii, dimensionat pentru TikTok, Reels, Shorts sau YouTube.
Texte social — titlu, descriere și hashtag-uri gata pentru platforma aleasă.

Subtitrări la milisecundă

Subtitrările sunt primul lucru pe care îl observi. Fiecare cuvânt se aprinde exact în momentul în care este rostit, pentru că timingul nu este ghicit — vine din transcriere. În Remotion, frame-ul curent corespunde unui timp, iar cuvântul a cărui fereastră conține acel timp este cel activ. Toată componenta de subtitrare are doar câteva rânduri:

tsx

// One word lights up exactly when it is spoken.
// The timings come straight from whisper-1's transcript.
export const Caption = ({words, frame, fps}) => {
  const t = frame / fps;
  const active = words.findIndex((w) => t >= w.start && t < w.end);
  return (
    <h1 className="caption">
      {words.map((w, i) => (
        <span key={i} style={{opacity: i === active ? 1 : 0.35}}>
          {w.text + " "}
        </span>
      ))}
    </h1>
  );
};

Ăsta e tot trucul: transcrierea poartă start și end pentru fiecare cuvânt, Remotion îți dă frame-ul curent, iar tu aprinzi cuvântul căruia îi aparține momentul. Fără keyframe-uri, fără desincronizare.

Scene care ilustrează scenariul

Stilul implicit sunt scene SVG animate desenate chiar din scenariu — nu materiale de stock. Agentul citește replicile și creează imagini care chiar le ilustrează, apoi sincronizează tăieturile cu pauzele vocii, astfel încât videoul respiră odată cu narațiunea. Dacă ai propriile imagini sau clipuri, le folosește pe acelea.

Dimensionat pe platformă, randat cu Remotion

Alegerea platformei dictează dimensiunile și durata ideală: 1080×1920 pentru TikTok, Reels și Shorts, 1920×1080 pentru YouTube long-form, 1080×1350 pentru o postare în feedul Instagram. Render-ul este o singură comandă, iar durata rezultatului este dictată de voce, nu ghicită.

bash

/video a 30-second TikTok about my new app

# the agent then, on its own:
# 1. writes a script sized to ~150 words per minute
# 2. gpt-4o-mini-tts  -> public/voice.mp3        (natural narration)
# 3. whisper-1        -> public/captions.json    (word-level timing)
# 4. scaffolds a Remotion (React) project
# 5. authors animated scenes that illustrate the script
# 6. remotion render  -> out/video.mp4           (length matches the voice)
# 7. writes social-copy.md                       (title, caption, hashtags)

Încearcă-l și tu

Este open source. În Claude Code îl instalezi ca plugin în două linii; cu orice alt agent, descarci zip-ul și îl pui în folderul de skill-uri. Oricum, setează o cheie OpenAI și /video e disponibil peste tot.

bash

# Claude Code — install as a plugin
/plugin marketplace add jumpino27/Video-Skill-Remotion
/plugin install video@video-skill-remotion

Pagina dedicată are videoul demo, instrucțiunile complete, descărcarea și repository-ul.

Deschide skill-ul video Vezi pe GitHub

Vocea fixează durata, transcrierea fixează timingul, scenariul fixează imaginile. Automatizează îmbinările și un prompt devine un video.

Exact genul ăsta de lucruri construiesc: iei un flux de zece pași manuali, găsești semnalul care conduce restul — aici, vocea — și lași un agent să ruleze tot lanțul pornind de la el. Un prompt la intrare, un video finalizat, subtitrat și coerent cu brandul la ieșire.