Veröffentlicht · 2026 · 05 · 317 Min. Lesezeit

Ich habe eine Skill gebaut, die aus einem Prompt ein fertiges Video macht

ai
video
remotion
skill

Eine /video-Skill für KI-Coding-Agenten: aus einem Prompt wird ein vertontes, untertiteltes, animiertes und plattformgerechtes Video — Skript, Stimme, Timing, Animation und Render, alles automatisch. So funktioniert es, und du kannst sie herunterladen.

Index

Ein Prompt, ein fertiges Video
Die Pipeline
Wortgenaue Untertitel
Szenen, die das Skript illustrieren
Plattformgerecht, mit Remotion gerendert
Probier es selbst

Ein kurzes Video zu machen ist ein Haufen kleiner, lästiger Aufgaben: Skript schreiben, Stimme aufnehmen, Untertitel aufs richtige Wort schneiden, Visuals finden oder animieren, Schnitte timen, in der richtigen Größe exportieren, dann Caption und Hashtags für die Plattform schreiben. Ich wollte, dass ein einziger Prompt all das erledigt. Also habe ich eine Skill für KI-Coding-Agenten gebaut, die genau das tut — und das Präsentationsvideo dazu wurde von der Skill selbst erstellt.

Ein Prompt, ein fertiges Video

Die Skill klinkt sich in einen KI-Coding-Agenten wie Claude Code oder Codex ein. Du tippst /video und beschreibst, was du willst — ein 30-Sekunden-TikTok über deine App, einen einminütigen Erklärer, ein Reel für einen Launch. Der Agent führt ein kurzes Interview (Plattform, Ton, Stimme, Look), bestätigt einen knappen Plan und führt dann die ganze Produktion von Anfang bis Ende aus, ohne dass du eine Timeline anfasst.

Nichts wird in eine Web-App hochgeladen. Die Pipeline läuft in deinem eigenen Agenten auf deinem Rechner; das Einzige, was hinausgeht, sind die API-Aufrufe für Stimme und Untertitel-Timing. Zurück bekommst du ein echtes MP4 in einem out/-Ordner und ein social-copy.md daneben.

Die Pipeline

Isometrisches Diagramm der Video-Pipeline: Prompt, Stimme, Untertitel, animierte Szenen, gerendertes Video — Prompt → Stimme → Untertitel Wort für Wort → animierte Szenen → gerendertes MP4.

Jede Stufe speist die nächste. Die Stimme bestimmt die Länge, das Transkript bestimmt das Untertitel-Timing, und die Szenenschnitte rasten an den Pausen der Narration ein. Weil alles aus der Stimme abgeleitet wird, ist das fertige Video immer perfekt synchron — kein manuelles Verschieben von Keyframes.

Skript — plattformgerecht geschrieben (~150 Wörter/Min), vom Aufhänger bis zum Call-to-Action, vor der Generierung zur Freigabe gezeigt.
Stimme — OpenAI gpt-4o-mini-tts (natürlich, Standardstimme marin); ElevenLabs optional für einen reicheren Vortrag.
Untertitel — whisper-1 transkribiert die Stimme mit Zeitstempeln pro Wort, sodass Wörter einzeln und exakt im Takt erscheinen.
Szenen — animierte SVG-Szenen, aus genau diesem Skript erstellt, die an den Pausen der Narration schneiden.
Render — Remotion (React) rendert ein MP4 in der Länge der Stimme, dimensioniert für TikTok, Reels, Shorts oder YouTube.
Social-Texte — fertiger Titel, Caption und Hashtags für die gewählte Plattform.

Wortgenaue Untertitel

Die Untertitel fallen zuerst auf. Jedes Wort wird genau in dem Moment hervorgehoben, in dem es gesprochen wird, denn das Timing wird nicht geschätzt — es kommt aus dem Transkript. In Remotion entspricht der aktuelle Frame einer Zeit, und das Wort, dessen Fenster diese Zeit enthält, ist das aktive. Die ganze Untertitel-Komponente sind nur wenige Zeilen:

tsx

// One word lights up exactly when it is spoken.
// The timings come straight from whisper-1's transcript.
export const Caption = ({words, frame, fps}) => {
  const t = frame / fps;
  const active = words.findIndex((w) => t >= w.start && t < w.end);
  return (
    <h1 className="caption">
      {words.map((w, i) => (
        <span key={i} style={{opacity: i === active ? 1 : 0.35}}>
          {w.text + " "}
        </span>
      ))}
    </h1>
  );
};

Das ist der ganze Trick: Das Transkript trägt start und end für jedes Wort, Remotion liefert den aktuellen Frame, und du leuchtest das Wort auf, dem der Moment gehört. Kein Keyframing, kein Drift.

Szenen, die das Skript illustrieren

Der Standard-Look sind animierte SVG-Szenen, aus dem Skript selbst gezeichnet — kein Stockmaterial. Der Agent liest die Zeilen und erstellt Visuals, die sie wirklich illustrieren, und timt dann die Schnitte auf die Pausen der Stimme, sodass das Video mit der Narration atmet. Hast du eigene Bilder oder Clips, nutzt er die.

Plattformgerecht, mit Remotion gerendert

Die Plattformwahl bestimmt Maße und ideale Länge: 1080×1920 für TikTok, Reels und Shorts, 1920×1080 für langes YouTube, 1080×1350 für einen Instagram-Feed-Post. Der Render ist ein einziger Befehl, und die Ausgabelänge wird von der Stimme diktiert, nicht geschätzt.

bash

/video a 30-second TikTok about my new app

# the agent then, on its own:
# 1. writes a script sized to ~150 words per minute
# 2. gpt-4o-mini-tts  -> public/voice.mp3        (natural narration)
# 3. whisper-1        -> public/captions.json    (word-level timing)
# 4. scaffolds a Remotion (React) project
# 5. authors animated scenes that illustrate the script
# 6. remotion render  -> out/video.mp4           (length matches the voice)
# 7. writes social-copy.md                       (title, caption, hashtags)

Probier es selbst

Sie ist open source. In Claude Code installierst du sie als Plugin in zwei Zeilen; mit jedem anderen Agenten lädst du die Zip herunter und legst sie in den Skills-Ordner. So oder so: OpenAI-Schlüssel setzen und /video ist überall verfügbar.

bash

# Claude Code — install as a plugin
/plugin marketplace add jumpino27/Video-Skill-Remotion
/plugin install video@video-skill-remotion

Die eigene Seite hat das Demo-Video, die vollständige Anleitung, den Download und das Repository.

Video-Skill öffnen Auf GitHub ansehen

Die Stimme setzt die Länge, das Transkript setzt das Timing, das Skript setzt die Visuals. Automatisiere die Nahtstellen, und ein Prompt wird zu einem Video.

Genau das baue ich: Nimm einen Workflow aus zehn manuellen Schritten, finde das eine Signal, das den Rest treibt — hier die Stimme — und lass einen Agenten die ganze Kette daraus ausführen. Ein Prompt rein, ein fertiges, untertiteltes, markengerechtes Video raus.