AI Video Tools2026-04-26· 16 Min

"Hunyuan Video lokal installieren — der Open-Source-Install-Guide für v1.5 (Deutsch 2026)"

"Hunyuan Video v1.5 lokal: Conda, Docker, ComfyUI, GGUF & FP8. Schritt-für-Schritt Install-Guide Deutsch 2026 mit Hardware-Tabelle, Troubleshooting und Vergleich →"

Boris Dittberner

Gründer, SixSides Academy

*Zuletzt aktualisiert: 26. April 2026*

Hunyuan Video von Tencent ist 2026 das stärkste vollständig offene AI-Video-Modell — und mit dem Release von v1.5 im November 2025 läuft es endlich auf Consumer-GPUs ab 24 GB VRAM. Wer Pika, Kling oder Sora pro Monat 60 $ zahlt, kann mit Hunyuan dieselbe Qualität lokal erzeugen — kostenlos, ohne Watermark, ohne Cloud-Limit. Dieser Install-Guide (350 deutsche Suchanfragen/Monat zum Begriff, 4.650 in den USA — und kein einziger deutschsprachiger Praxis-Guide ranked Top-3) führt dich durch die drei Setup-Wege (Conda, Docker, ComfyUI), zeigt die Hardware-Realität und löst die fünf häufigsten Install-Fehler.

Inhaltsverzeichnis

Was ist Hunyuan Video — und warum v1.5 alles ändert
Hardware-Anforderungen 2026 (3 Tiers)
Setup-Pfad 1: Conda (manuelle Installation)
Setup-Pfad 2: Docker (One-Liner-Setup)
Setup-Pfad 3: ComfyUI (visuelles Workflow-Routing)
Image-to-Video (I2V) Workflow
VRAM-Optimierungen: GGUF, FP8 & Quantisierung
Hunyuan Video vs. Wan 2.1 vs. CogVideoX
Troubleshooting — die 5 häufigsten Install-Fehler
FAQ
Nächste Schritte

---

Passender Kurs

Claude Quickstart — 149 €

3 Sessions · Prompting · Tool-Wahl · Async + Live-Q&A

Kurs ansehen

Was ist Hunyuan Video — und warum v1.5 alles ändert

Hunyuan Video ist ein vollständig offenes Text-zu-Video-Foundation-Model von Tencent (Hunyuan = die hauseigene Modellfamilie). Veröffentlicht im Dezember 2024, in der Variante 1.0 mit 13 Mrd. Parametern. Die Version 1.5 (November 2025) hat das Modell auf 8,3 Mrd. Parameter abgespeckt — ohne nennenswerten Qualitätsverlust und ist damit das erste hochwertige AI-Video-Modell, das auf einer einzigen RTX 4090 (24 GB VRAM) in 720p läuft.

In einem Satz: Hunyuan Video v1.5 ist 2026 die ernstzunehmende lokale Alternative zu Pika/Kling/Sora für Devs, Studios und Privacy-bewusste Unternehmen.

Kernmerkmale (Stand April 2026)

8,3 Mrd. Parameter (v1.5) — ein Drittel der v1.0
Text-to-Video, Image-to-Video, LoRA-Training out of the box
Bis zu 720p / 24 fps, mit Upscaling auf 1080p+
Apache-2.0-Lizenz — kommerzielle Nutzung erlaubt
GGUF- und FP8-Quantisierungen für 12-GB-Karten
ComfyUI Native Workflow seit Q1/2026
API-fähig über fal.ai oder Replicate, falls keine eigene GPU vorhanden

Tiefer einsteigen

Claude Code Foundations — 697 €

10 Live-Sessions · Agenten · MCP · Projekte · Bestseller

Kurs ansehen

Typische Einsatzfelder

Lokale Content-Pipelines für Agenturen mit NDA-Pflicht
Forschung & Reproduzierbarkeit (offene Gewichte, deterministische Seeds)
LoRA-Training für markenspezifische Charaktere/Looks
Massen-Generierung (z. B. 200 Produkt-Clips/Tag) ohne Cloud-Kosten
Edge-Deployment in Studio-Setups mit On-Prem-Hardware
Kombi mit n8n/Make für Automations-Pipelines (Hunyuan als Worker-Endpoint)

---

Hardware-Anforderungen 2026 (3 Tiers)

Die offiziellen Mindestanforderungen wirken hoch — sie gelten für 720p in voller Präzision (FP16). Mit Quantisierung (FP8, GGUF) gehen auch 12-GB-Karten.

Welcher Kurs passt zu dir?

5 Fragen · 2 Minuten · Persönliche Empfehlung

Kurs-Finder starten

Tier	GPU	VRAM	Auflösung	Cliplänge	Workflow
Minimal	RTX 3060 / 4060 Ti	12 GB	480p	3 Sek	GGUF Q4
Empfohlen	RTX 4090 / 5090 / A6000	24 GB	720p	5 Sek	FP8 oder ComfyUI Native
Studio	H100 / A100 / 2× RTX 5090	60–80 GB	720p–1080p+	10 Sek	FP16 / Multi-GPU

RAM: 32 GB Systemspeicher empfohlen, 64 GB für Studio-Tier. Storage: Modelle ~30–60 GB je nach Variante. Mit LoRAs und Cache schnell 200 GB+. OS: Linux empfohlen (Ubuntu 22.04+), Windows mit WSL2 möglich, native Windows mit Einschränkungen.

Cloud-Alternative: Wer keine eigene GPU hat, kann Hunyuan auf fal.ai oder Replicate mieten — dort kostet 1 Sek 720p ca. 0,02–0,05 $.

---

Setup-Pfad 1: Conda (manuelle Installation)

Empfohlen für: Devs, die mit dem Code arbeiten oder LoRAs trainieren wollen.

Voraussetzungen

Ubuntu 22.04 oder neuer (oder macOS / WSL2)
NVIDIA-Treiber + CUDA 12.4 oder 11.8
Miniconda oder Anaconda installiert
Git + Git LFS

Schritt 1 — Repository klonen

```bash git clone https://github.com/Tencent-Hunyuan/HunyuanVideo.git cd HunyuanVideo ```

Schritt 2 — Conda-Environment anlegen

```bash conda create -n HunyuanVideo python=3.11.9 -y conda activate HunyuanVideo ```

Schritt 3 — PyTorch + CUDA installieren

```bash # CUDA 12.4 pip install torch==2.4.0 torchvision==0.19.0 --index-url https://download.pytorch.org/whl/cu124

# Alternativ CUDA 11.8 # pip install torch==2.4.0 torchvision==0.19.0 --index-url https://download.pytorch.org/whl/cu118 ```

Schritt 4 — Python-Abhängigkeiten installieren

```bash pip install -r requirements.txt ```

Schritt 5 — Modell-Gewichte herunterladen

```bash # v1.5 Standard (FP16) huggingface-cli download tencent/HunyuanVideo-1.5 --local-dir ./ckpts/HunyuanVideo-1.5

# Image-to-Video Variante huggingface-cli download tencent/HunyuanVideo-I2V --local-dir ./ckpts/HunyuanVideo-I2V ```

Tipp: Vorher `huggingface-cli login` ausführen und einen HF-Token mit Read-Berechtigung anlegen, sonst Rate-Limits.

Schritt 6 — Erster Generierungs-Lauf

```bash python sample_video.py \ --model_path ./ckpts/HunyuanVideo-1.5 \ --prompt "A red fox running through a snowy forest at dawn, cinematic" \ --video_length 81 \ --infer_steps 50 \ --output_path ./output.mp4 ```

Render-Dauer auf RTX 4090: ~4–6 Minuten für einen 5-Sek-Clip in 720p.

---

Setup-Pfad 2: Docker (One-Liner-Setup)

Empfohlen für: Anwender, die in Minuten produktiv sein wollen und keine Lust auf Conda-Konflikte haben.

Schritt 1 — NVIDIA Container Toolkit installieren

```bash # Ubuntu/Debian sudo apt-get install -y nvidia-container-toolkit sudo systemctl restart docker ```

Schritt 2 — Hunyuan-Image pullen und starten

```bash docker pull hunyuanvideo/hunyuan-video:1.5

docker run --rm --gpus all -v $(pwd)/output:/app/output \ hunyuanvideo/hunyuan-video:1.5 \ --prompt "A cyberpunk city at night with flying cars, neon reflections" \ --output /app/output/clip.mp4 ```

Vorteile: Saubere Isolation, identische Umgebung auf jedem Server, ideal für CI-Pipelines.

Nachteile: Image ist ~25 GB, erstmaliger Pull dauert. LoRA-Training schwerer als mit Conda.

---

Setup-Pfad 3: ComfyUI (visuelles Workflow-Routing)

Empfohlen für: Creator, die Workflows visuell zusammenklicken und mit anderen Modellen kombinieren wollen.

Schritt 1 — ComfyUI installieren

```bash git clone https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI pip install -r requirements.txt ```

Schritt 2 — Hunyuan-Modelle in ComfyUI-Ordner kopieren

```bash # Diffusion-Modell mv hunyuan_video_1_5.safetensors ComfyUI/models/diffusion_models/

# VAE mv hunyuan_video_vae.safetensors ComfyUI/models/vae/

# Text-Encoder mv hunyuan_text_encoder.safetensors ComfyUI/models/text_encoders/ ```

Schritt 3 — ComfyUI starten und Workflow laden

```bash python main.py --port 8188 ```

Dann im Browser `http://localhost:8188` öffnen → Workflow-Datei aus dem HunyuanVideo-Wiki importieren (z. B. „Native HunyuanVideo Workflow.json"). Der Workflow zeigt Loader → KSampler → VAEDecode → SaveVideo.

Schritt 4 — GGUF-Variante für 12-GB-Karten

Für RTX 3060 / 4060 Ti:

```bash # GGUF Q4-Modell laden mv hunyuan_video_1_5_q4.gguf ComfyUI/models/diffusion_models/ ```

In ComfyUI „Unet Loader (GGUF)" verwenden statt Standard-Loader.

---

Image-to-Video (I2V) Workflow

Die HunyuanVideo-I2V-Variante akzeptiert ein Startbild + Prompt:

Conda-Beispiel

```bash python sample_image2video.py \ --model_path ./ckpts/HunyuanVideo-I2V \ --image_path ./input.jpg \ --prompt "Camera slowly orbits around the subject, cinematic light" \ --video_length 81 \ --output_path ./i2v_output.mp4 ```

Best Practices

Eingabebild mind. 1024 × 1024 px
Prompt sollte sich auf Bewegung und Kameraführung konzentrieren, nicht auf Bildbeschreibung
Für saubere Drehungen: Prompt-Pattern „Camera slowly orbits around …" funktioniert zuverlässig

Wann I2V die richtige Wahl ist

Wenn du einen bestimmten Look schon hast (Pika-Render, eigenes Foto)
Für Produkt-Drehungen
Für Charakter-Konsistenz über mehrere Clips (jedes Clip startet vom selben Image)

---

VRAM-Optimierungen: GGUF, FP8 & Quantisierung

GGUF Q4 / Q8 (extrem speichersparend)

Reduziert das Modell auf 4 oder 8 Bit Präzision. Q4 läuft auf 12 GB VRAM in 480p. Qualitätsverlust ist sichtbar, aber für Drafts oft OK.

FP8 (Sweet Spot)

Halbiert VRAM-Bedarf gegenüber FP16. Auf RTX 4090 ergibt sich 720p in 5 Sek bei ~20 GB VRAM-Verbrauch — perfekt mit Headroom für Browser etc.

Tile-VAE / Sequence Parallelism

Splittet den VAE-Decode-Schritt in Tiles. Spart 4–8 GB VRAM beim Decoding. In ComfyUI einfach den „Tiled VAE Decode" Node nutzen.

Multi-GPU Setup

Für Studio-Tier: zwei RTX 5090 mit NVLink, splitten Layers auf beide GPUs. Tutorial dazu im offiziellen Repo unter `docs/multi_gpu.md`.

---

Hunyuan Video vs. Wan 2.1 vs. CogVideoX

Kriterium	Hunyuan Video v1.5	Wan 2.1	CogVideoX 5B
Lizenz	Apache 2.0 (kommerziell ✅)	Apache 2.0 (kommerziell ✅)	Apache 2.0 (kommerziell ✅)
Parameter	8,3 Mrd.	14 Mrd.	5 Mrd.
Min. VRAM (mit Quantisierung)	12 GB	16 GB	8 GB
Empfohlene GPU	RTX 4090	RTX 4090 / 5090	RTX 4070
Output-Qualität	★★★★★	★★★★★	★★★★
Kamera-Steuerung	★★★★	★★★★★	★★★
Bewegungs-Realismus	★★★★	★★★★★	★★★
LoRA-Training	✅ ausgereift	✅ neu	✅
ComfyUI-Support	✅ Native	✅ Native	✅
Dokumentation	★★★★	★★★★	★★★
Beste Stärke	Größtes Ökosystem, beste Foundation	Bewegungsqualität, Kamerafahrten	Niedrigster Hardware-Einstieg

Klare Empfehlung: - Hunyuan v1.5 als Standardwahl für offene Workflows in 2026 - Wan 2.1 wenn Kamerafahrten Star sind (Wan-Install-Guide) - CogVideoX für 8-GB-Karten und Educational-Setups

---

Troubleshooting — die 5 häufigsten Install-Fehler

1. `CUDA out of memory`

→ FP8- oder GGUF-Variante nutzen. Tile-VAE aktivieren. `--video_length` reduzieren.

2. `RuntimeError: Expected all tensors on same device`

→ Multi-GPU-Setup vermutlich falsch. `CUDA_VISIBLE_DEVICES=0` setzen, um auf eine GPU zu zwingen.

3. `ImportError: cannot import name 'flash_attn_2_func'`

→ FlashAttention-Version inkompatibel. `pip install flash-attn==2.6.3 --no-build-isolation` neu installieren.

4. Output-Video ist nur grau / schwarz

→ VAE-Modell wurde nicht in den richtigen Ordner kopiert oder ist beschädigt. Re-Download via `huggingface-cli`.

5. `huggingface-cli download` schlägt mit Rate-Limit fehl

→ HF-Token mit `huggingface-cli login` setzen. Notfalls Modelle von einem Mirror laden (siehe Hunyuan-Discord).

---

FAQ — Hunyuan Video Install

Brauche ich wirklich 60 GB VRAM? Nein. Das ist die offizielle Empfehlung für FP16 in 720p. Mit FP8 reichen 24 GB (RTX 4090), mit GGUF Q4 sogar 12 GB (RTX 3060/4060 Ti) bei reduzierter Qualität.

Läuft Hunyuan auf macOS? Aktuell nur per Cloud (fal.ai, Replicate). Native Apple-Silicon-Unterstützung steht in der Roadmap, ist aber Stand 04/2026 noch nicht stable.

Welcher Setup-Pfad ist der schnellste? Docker. In ca. 30 Minuten von „nichts installiert" bis zum ersten Clip. Conda dauert 1–2 Stunden, ComfyUI 1 Stunde mit Workflow-Setup.

Kann ich Hunyuan kommerziell nutzen? Ja, Apache-2.0-Lizenz erlaubt kommerzielle Nutzung — auch der Output. Achte auf die Trainingsdaten-Disclosures in den Modell-Cards.

Gibt es eine Cloud-Hosting-Variante? Ja: fal.ai, Replicate, Modal und RunPod hosten Hunyuan v1.5 als Endpoint — pro Sekunde abgerechnet, ideal wenn du keine eigene GPU hast.

Wie lange dauert ein 5-Sek-Clip in 720p? RTX 4090 (FP8): 4–6 Min. RTX 5090: 2–3 Min. H100: < 1 Min. RTX 3060 (GGUF Q4, 480p): 8–12 Min.

Wie trainiere ich eine eigene LoRA für Hunyuan? Über das Tool `hunyuan-train-lora` im offiziellen Repo. Empfohlene Dataset-Größe: 50–200 Bilder/Clips eines Subjects. Dauer auf RTX 4090: ca. 4 Stunden.

Ist Hunyuan besser als Sora oder Kling? „Anders". Hunyuan ist offen, lokal, kostenlos — Sora/Kling sind aktuell noch besser bei langen, narrativen Clips. Für die meisten Marketing-/Studio-Anwendungen ist Hunyuan ein vollständiger Ersatz.

Wie binde ich Hunyuan in n8n oder Make ein? Über die ComfyUI-API (`/prompt`-Endpoint) oder einen eigenen FastAPI-Wrapper um den Conda-Setup. Workshop-Inhalt im AI Automations Mastery-Kurs.

Welche Variante für absolute Anfänger? ComfyUI mit GGUF Q4 — kein Code, visuelles Routing, geringer Hardware-Bedarf.

---

Nächste Schritte

Wenn du jetzt loslegen willst:

Heute (30 Min): Hardware-Tier prüfen, GPU-Treiber + CUDA aktualisieren.
Diese Woche (60 Min): Docker-Pfad gehen, ersten Clip rendern.
Diesen Monat: ComfyUI-Workflow für deine Pipeline bauen, LoRA-Training mit eigenem Dataset.
Pro-Track: Hunyuan in einen automatisierten Content-Workflow einbinden — siehe AI Automations Mastery und Vibe Coding Kurs.

Lerne mehr über AI Video Tools bei SixSides Academy:

Wan 2.1 lokal installieren — Open-Source-Alternative mit besserer Kamera-Steuerung
Pika AI Scene Ingredients Guide — Cloud-Alternative mit kompositioneller Kontrolle
Higgsfield AI Deutsch-Guide — Cloud-Alternative mit Cinematic Camera Controls
MCP Server bauen Tutorial — eigenes MCP für Hunyuan + Claude Code

Kurse & Workshops:

Vibe Coding Kurs (4 Wochen, online) — Open-Source-AI-Stack inklusive Hunyuan
Inhouse-Workshop: AI Video On-Premises für DACH-KMU
AI Content Creation Bootcamp

---

*Du hast Hunyuan auf einem ungewöhnlichen Setup zum Laufen gebracht (z. B. AMD-GPU, Mac M3 Ultra)? Schreib uns an `[email protected]` — wir nehmen das in die nächste Iteration auf.*

Kostenlos

Hol dir die besten KI-Workflows per E-Mail

Kostenloser KI-Fahrplan + wöchentliche Claude-Tipps. Kein Spam, jederzeit abmeldbar.

Boris Dittberner

Gründer, SixSides Academy & SixSides AI

Boris hilft Professionals und Unternehmen im DACH-Raum, Claude AI produktiv einzusetzen. Fragen? Schreib ihm direkt.