"Hunyuan Video lokal installieren — der Open-Source-Install-Guide für v1.5 (Deutsch 2026) | SixSides"
"Hunyuan Video v1.5 lokal: Conda, Docker, ComfyUI, GGUF & FP8. Schritt-für-Schritt Install-Guide Deutsch 2026 mit Hardware-Tabelle, Troubleshooting und Vergleich →"
Boris Dittberner
Gründer, SixSides Academy
*Zuletzt aktualisiert: 26. April 2026*
Hunyuan Video von Tencent ist 2026 das stärkste vollständig offene AI-Video-Modell — und mit dem Release von v1.5 im November 2025 läuft es endlich auf Consumer-GPUs ab 24 GB VRAM. Wer Pika, Kling oder Sora pro Monat 60 $ zahlt, kann mit Hunyuan dieselbe Qualität lokal erzeugen — kostenlos, ohne Watermark, ohne Cloud-Limit. Dieser Install-Guide (350 deutsche Suchanfragen/Monat zum Begriff, 4.650 in den USA — und kein einziger deutschsprachiger Praxis-Guide ranked Top-3) führt dich durch die drei Setup-Wege (Conda, Docker, ComfyUI), zeigt die Hardware-Realität und löst die fünf häufigsten Install-Fehler.
Inhaltsverzeichnis
- [Was ist Hunyuan Video — und warum v1.5 alles ändert](#was-ist-hunyuan)
- [Hardware-Anforderungen 2026 (3 Tiers)](#hardware)
- [Setup-Pfad 1: Conda (manuelle Installation)](#conda)
- [Setup-Pfad 2: Docker (One-Liner-Setup)](#docker)
- [Setup-Pfad 3: ComfyUI (visuelles Workflow-Routing)](#comfyui)
- [Image-to-Video (I2V) Workflow](#i2v)
- [VRAM-Optimierungen: GGUF, FP8 & Quantisierung](#vram)
- [Hunyuan Video vs. Wan 2.1 vs. CogVideoX](#vergleich)
- [Troubleshooting — die 5 häufigsten Install-Fehler](#troubleshooting)
- [FAQ](#faq)
- [Nächste Schritte](#next)
---
Passender Kurs
Claude Quickstart — 149 €
3 Sessions · Prompting · Tool-Wahl · Async + Live-Q&A
Kurs ansehenWas ist Hunyuan Video — und warum v1.5 alles ändert
Hunyuan Video ist ein vollständig offenes Text-zu-Video-Foundation-Model von Tencent (Hunyuan = die hauseigene Modellfamilie). Veröffentlicht im Dezember 2024, in der Variante 1.0 mit 13 Mrd. Parametern. Die Version 1.5 (November 2025) hat das Modell auf 8,3 Mrd. Parameter abgespeckt — ohne nennenswerten Qualitätsverlust und ist damit das erste hochwertige AI-Video-Modell, das auf einer einzigen RTX 4090 (24 GB VRAM) in 720p läuft.
In einem Satz: Hunyuan Video v1.5 ist 2026 die ernstzunehmende lokale Alternative zu Pika/Kling/Sora für Devs, Studios und Privacy-bewusste Unternehmen.
Kernmerkmale (Stand April 2026)
- 8,3 Mrd. Parameter (v1.5) — ein Drittel der v1.0
- Text-to-Video, Image-to-Video, LoRA-Training out of the box
- Bis zu 720p / 24 fps, mit Upscaling auf 1080p+
- Apache-2.0-Lizenz — kommerzielle Nutzung erlaubt
- GGUF- und FP8-Quantisierungen für 12-GB-Karten
- ComfyUI Native Workflow seit Q1/2026
- API-fähig über fal.ai oder Replicate, falls keine eigene GPU vorhanden
Tiefer einsteigen
Claude Code Foundations — 697 €
10 Live-Sessions · Agenten · MCP · Projekte · Bestseller
Kurs ansehenTypische Einsatzfelder
- Lokale Content-Pipelines für Agenturen mit NDA-Pflicht
- Forschung & Reproduzierbarkeit (offene Gewichte, deterministische Seeds)
- LoRA-Training für markenspezifische Charaktere/Looks
- Massen-Generierung (z. B. 200 Produkt-Clips/Tag) ohne Cloud-Kosten
- Edge-Deployment in Studio-Setups mit On-Prem-Hardware
- Kombi mit n8n/Make für Automations-Pipelines (Hunyuan als Worker-Endpoint)
---
Hardware-Anforderungen 2026 (3 Tiers)
Die offiziellen Mindestanforderungen wirken hoch — sie gelten für 720p in voller Präzision (FP16). Mit Quantisierung (FP8, GGUF) gehen auch 12-GB-Karten.
| Tier | GPU | VRAM | Auflösung | Cliplänge | Workflow |
|---|---|---|---|---|---|
| Minimal | RTX 3060 / 4060 Ti | 12 GB | 480p | 3 Sek | GGUF Q4 |
| Empfohlen | RTX 4090 / 5090 / A6000 | 24 GB | 720p | 5 Sek | FP8 oder ComfyUI Native |
| Studio | H100 / A100 / 2× RTX 5090 | 60–80 GB | 720p–1080p+ | 10 Sek | FP16 / Multi-GPU |
RAM: 32 GB Systemspeicher empfohlen, 64 GB für Studio-Tier. Storage: Modelle ~30–60 GB je nach Variante. Mit LoRAs und Cache schnell 200 GB+. OS: Linux empfohlen (Ubuntu 22.04+), Windows mit WSL2 möglich, native Windows mit Einschränkungen.
Cloud-Alternative: Wer keine eigene GPU hat, kann Hunyuan auf fal.ai oder Replicate mieten — dort kostet 1 Sek 720p ca. 0,02–0,05 $.
---
Setup-Pfad 1: Conda (manuelle Installation)
Empfohlen für: Devs, die mit dem Code arbeiten oder LoRAs trainieren wollen.
Voraussetzungen
- Ubuntu 22.04 oder neuer (oder macOS / WSL2)
- NVIDIA-Treiber + CUDA 12.4 oder 11.8
- Miniconda oder Anaconda installiert
- Git + Git LFS
Schritt 1 — Repository klonen
```bash git clone https://github.com/Tencent-Hunyuan/HunyuanVideo.git cd HunyuanVideo ```
Schritt 2 — Conda-Environment anlegen
```bash conda create -n HunyuanVideo python=3.11.9 -y conda activate HunyuanVideo ```
Schritt 3 — PyTorch + CUDA installieren
```bash # CUDA 12.4 pip install torch==2.4.0 torchvision==0.19.0 --index-url https://download.pytorch.org/whl/cu124
# Alternativ CUDA 11.8 # pip install torch==2.4.0 torchvision==0.19.0 --index-url https://download.pytorch.org/whl/cu118 ```
Schritt 4 — Python-Abhängigkeiten installieren
```bash pip install -r requirements.txt ```
Schritt 5 — Modell-Gewichte herunterladen
```bash # v1.5 Standard (FP16) huggingface-cli download tencent/HunyuanVideo-1.5 --local-dir ./ckpts/HunyuanVideo-1.5
# Image-to-Video Variante huggingface-cli download tencent/HunyuanVideo-I2V --local-dir ./ckpts/HunyuanVideo-I2V ```
Tipp: Vorher `huggingface-cli login` ausführen und einen HF-Token mit Read-Berechtigung anlegen, sonst Rate-Limits.
Schritt 6 — Erster Generierungs-Lauf
```bash python sample_video.py \ --model_path ./ckpts/HunyuanVideo-1.5 \ --prompt "A red fox running through a snowy forest at dawn, cinematic" \ --video_length 81 \ --infer_steps 50 \ --output_path ./output.mp4 ```
Render-Dauer auf RTX 4090: ~4–6 Minuten für einen 5-Sek-Clip in 720p.
---
Setup-Pfad 2: Docker (One-Liner-Setup)
Empfohlen für: Anwender, die in Minuten produktiv sein wollen und keine Lust auf Conda-Konflikte haben.
Schritt 1 — NVIDIA Container Toolkit installieren
```bash # Ubuntu/Debian sudo apt-get install -y nvidia-container-toolkit sudo systemctl restart docker ```
Schritt 2 — Hunyuan-Image pullen und starten
```bash docker pull hunyuanvideo/hunyuan-video:1.5
docker run --rm --gpus all -v $(pwd)/output:/app/output \ hunyuanvideo/hunyuan-video:1.5 \ --prompt "A cyberpunk city at night with flying cars, neon reflections" \ --output /app/output/clip.mp4 ```
Vorteile: Saubere Isolation, identische Umgebung auf jedem Server, ideal für CI-Pipelines.
Nachteile: Image ist ~25 GB, erstmaliger Pull dauert. LoRA-Training schwerer als mit Conda.
---
Setup-Pfad 3: ComfyUI (visuelles Workflow-Routing)
Empfohlen für: Creator, die Workflows visuell zusammenklicken und mit anderen Modellen kombinieren wollen.
Schritt 1 — ComfyUI installieren
```bash git clone https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI pip install -r requirements.txt ```
Schritt 2 — Hunyuan-Modelle in ComfyUI-Ordner kopieren
```bash # Diffusion-Modell mv hunyuan_video_1_5.safetensors ComfyUI/models/diffusion_models/
# VAE mv hunyuan_video_vae.safetensors ComfyUI/models/vae/
# Text-Encoder mv hunyuan_text_encoder.safetensors ComfyUI/models/text_encoders/ ```
Schritt 3 — ComfyUI starten und Workflow laden
```bash python main.py --port 8188 ```
Dann im Browser `http://localhost:8188` öffnen → Workflow-Datei aus dem HunyuanVideo-Wiki importieren (z. B. „Native HunyuanVideo Workflow.json"). Der Workflow zeigt Loader → KSampler → VAEDecode → SaveVideo.
Schritt 4 — GGUF-Variante für 12-GB-Karten
Für RTX 3060 / 4060 Ti:
```bash # GGUF Q4-Modell laden mv hunyuan_video_1_5_q4.gguf ComfyUI/models/diffusion_models/ ```
In ComfyUI „Unet Loader (GGUF)" verwenden statt Standard-Loader.
---
Image-to-Video (I2V) Workflow
Die HunyuanVideo-I2V-Variante akzeptiert ein Startbild + Prompt:
Conda-Beispiel
```bash python sample_image2video.py \ --model_path ./ckpts/HunyuanVideo-I2V \ --image_path ./input.jpg \ --prompt "Camera slowly orbits around the subject, cinematic light" \ --video_length 81 \ --output_path ./i2v_output.mp4 ```
Best Practices
- Eingabebild mind. 1024 × 1024 px
- Prompt sollte sich auf Bewegung und Kameraführung konzentrieren, nicht auf Bildbeschreibung
- Für saubere Drehungen: Prompt-Pattern „Camera slowly orbits around …" funktioniert zuverlässig
Wann I2V die richtige Wahl ist
- Wenn du einen bestimmten Look schon hast (Pika-Render, eigenes Foto)
- Für Produkt-Drehungen
- Für Charakter-Konsistenz über mehrere Clips (jedes Clip startet vom selben Image)
---
VRAM-Optimierungen: GGUF, FP8 & Quantisierung
GGUF Q4 / Q8 (extrem speichersparend)
Reduziert das Modell auf 4 oder 8 Bit Präzision. Q4 läuft auf 12 GB VRAM in 480p. Qualitätsverlust ist sichtbar, aber für Drafts oft OK.
FP8 (Sweet Spot)
Halbiert VRAM-Bedarf gegenüber FP16. Auf RTX 4090 ergibt sich 720p in 5 Sek bei ~20 GB VRAM-Verbrauch — perfekt mit Headroom für Browser etc.
Tile-VAE / Sequence Parallelism
Splittet den VAE-Decode-Schritt in Tiles. Spart 4–8 GB VRAM beim Decoding. In ComfyUI einfach den „Tiled VAE Decode" Node nutzen.
Multi-GPU Setup
Für Studio-Tier: zwei RTX 5090 mit NVLink, splitten Layers auf beide GPUs. Tutorial dazu im offiziellen Repo unter `docs/multi_gpu.md`.
---
Hunyuan Video vs. Wan 2.1 vs. CogVideoX
| Kriterium | Hunyuan Video v1.5 | Wan 2.1 | CogVideoX 5B |
|---|---|---|---|
| Lizenz | Apache 2.0 (kommerziell ✅) | Apache 2.0 (kommerziell ✅) | Apache 2.0 (kommerziell ✅) |
| Parameter | 8,3 Mrd. | 14 Mrd. | 5 Mrd. |
| Min. VRAM (mit Quantisierung) | 12 GB | 16 GB | 8 GB |
| Empfohlene GPU | RTX 4090 | RTX 4090 / 5090 | RTX 4070 |
| Output-Qualität | ★★★★★ | ★★★★★ | ★★★★ |
| Kamera-Steuerung | ★★★★ | ★★★★★ | ★★★ |
| Bewegungs-Realismus | ★★★★ | ★★★★★ | ★★★ |
| LoRA-Training | ✅ ausgereift | ✅ neu | ✅ |
| ComfyUI-Support | ✅ Native | ✅ Native | ✅ |
| Dokumentation | ★★★★ | ★★★★ | ★★★ |
| Beste Stärke | Größtes Ökosystem, beste Foundation | Bewegungsqualität, Kamerafahrten | Niedrigster Hardware-Einstieg |
Klare Empfehlung: - Hunyuan v1.5 als Standardwahl für offene Workflows in 2026 - Wan 2.1 wenn Kamerafahrten Star sind ([Wan-Install-Guide](/de/blog/wan-2-1-lokal-installieren)) - CogVideoX für 8-GB-Karten und Educational-Setups
---
Troubleshooting — die 5 häufigsten Install-Fehler
1. `CUDA out of memory`
→ FP8- oder GGUF-Variante nutzen. Tile-VAE aktivieren. `--video_length` reduzieren.
2. `RuntimeError: Expected all tensors on same device`
→ Multi-GPU-Setup vermutlich falsch. `CUDA_VISIBLE_DEVICES=0` setzen, um auf eine GPU zu zwingen.
3. `ImportError: cannot import name 'flash_attn_2_func'`
→ FlashAttention-Version inkompatibel. `pip install flash-attn==2.6.3 --no-build-isolation` neu installieren.
4. Output-Video ist nur grau / schwarz
→ VAE-Modell wurde nicht in den richtigen Ordner kopiert oder ist beschädigt. Re-Download via `huggingface-cli`.
5. `huggingface-cli download` schlägt mit Rate-Limit fehl
→ HF-Token mit `huggingface-cli login` setzen. Notfalls Modelle von einem Mirror laden (siehe Hunyuan-Discord).
---
FAQ — Hunyuan Video Install
Brauche ich wirklich 60 GB VRAM? Nein. Das ist die offizielle Empfehlung für FP16 in 720p. Mit FP8 reichen 24 GB (RTX 4090), mit GGUF Q4 sogar 12 GB (RTX 3060/4060 Ti) bei reduzierter Qualität.
Läuft Hunyuan auf macOS? Aktuell nur per Cloud (fal.ai, Replicate). Native Apple-Silicon-Unterstützung steht in der Roadmap, ist aber Stand 04/2026 noch nicht stable.
Welcher Setup-Pfad ist der schnellste? Docker. In ca. 30 Minuten von „nichts installiert" bis zum ersten Clip. Conda dauert 1–2 Stunden, ComfyUI 1 Stunde mit Workflow-Setup.
Kann ich Hunyuan kommerziell nutzen? Ja, Apache-2.0-Lizenz erlaubt kommerzielle Nutzung — auch der Output. Achte auf die Trainingsdaten-Disclosures in den Modell-Cards.
Gibt es eine Cloud-Hosting-Variante? Ja: fal.ai, Replicate, Modal und RunPod hosten Hunyuan v1.5 als Endpoint — pro Sekunde abgerechnet, ideal wenn du keine eigene GPU hast.
Wie lange dauert ein 5-Sek-Clip in 720p? RTX 4090 (FP8): 4–6 Min. RTX 5090: 2–3 Min. H100: < 1 Min. RTX 3060 (GGUF Q4, 480p): 8–12 Min.
Wie trainiere ich eine eigene LoRA für Hunyuan? Über das Tool `hunyuan-train-lora` im offiziellen Repo. Empfohlene Dataset-Größe: 50–200 Bilder/Clips eines Subjects. Dauer auf RTX 4090: ca. 4 Stunden.
Ist Hunyuan besser als Sora oder Kling? „Anders". Hunyuan ist offen, lokal, kostenlos — Sora/Kling sind aktuell noch besser bei langen, narrativen Clips. Für die meisten Marketing-/Studio-Anwendungen ist Hunyuan ein vollständiger Ersatz.
Wie binde ich Hunyuan in n8n oder Make ein? Über die ComfyUI-API (`/prompt`-Endpoint) oder einen eigenen FastAPI-Wrapper um den Conda-Setup. Workshop-Inhalt im [AI Automations Mastery](/de/kurse/ai-automations-mastery)-Kurs.
Welche Variante für absolute Anfänger? ComfyUI mit GGUF Q4 — kein Code, visuelles Routing, geringer Hardware-Bedarf.
---
Nächste Schritte
Wenn du jetzt loslegen willst:
- Heute (30 Min): Hardware-Tier prüfen, GPU-Treiber + CUDA aktualisieren.
- Diese Woche (60 Min): Docker-Pfad gehen, ersten Clip rendern.
- Diesen Monat: ComfyUI-Workflow für deine Pipeline bauen, LoRA-Training mit eigenem Dataset.
- Pro-Track: Hunyuan in einen automatisierten Content-Workflow einbinden — siehe [AI Automations Mastery](/de/kurse/ai-automations-mastery) und [Vibe Coding Kurs](/de/kurse/vibe-coding).
Lerne mehr über AI Video Tools bei SixSides Academy:
- [Wan 2.1 lokal installieren](/de/blog/wan-2-1-lokal-installieren) — Open-Source-Alternative mit besserer Kamera-Steuerung
- [Pika AI Scene Ingredients Guide](/de/blog/pika-ai-scene-ingredients-guide) — Cloud-Alternative mit kompositioneller Kontrolle
- [Higgsfield AI Deutsch-Guide](/de/blog/higgsfield-ai-deutsch-guide) — Cloud-Alternative mit Cinematic Camera Controls
- [MCP Server bauen Tutorial](/de/blog/mcp-server-bauen-tutorial) — eigenes MCP für Hunyuan + Claude Code
Kurse & Workshops:
- [Vibe Coding Kurs (4 Wochen, online)](/de/kurse/vibe-coding) — Open-Source-AI-Stack inklusive Hunyuan
- [Inhouse-Workshop: AI Video On-Premises für DACH-KMU](/de/workshops/ai-video-on-premises)
- [AI Content Creation Bootcamp](/de/kurse/ai-content-creation)
---
*Du hast Hunyuan auf einem ungewöhnlichen Setup zum Laufen gebracht (z. B. AMD-GPU, Mac M3 Ultra)? Schreib uns an `[email protected]` — wir nehmen das in die nächste Iteration auf.*
Boris Dittberner
Gründer, SixSides Academy & SixSides AI
Boris hilft Professionals und Unternehmen im DACH-Raum, Claude AI produktiv einzusetzen. Fragen? Schreib ihm direkt.