AI Video Tools2026-04-18· 5 Min

"Wan 2.1 lokal installieren — Open-Source AI-Video-Generator | SixSides"

"Wan 2.1 Install-Guide 2026: Open-Source AI-Video lokal auf GPU installieren. Requirements, Setup-Schritte, erste Prompts, Troubleshooting. Komplett in 30 Min →"

BD

Boris Dittberner

Gründer, SixSides Academy

*Zuletzt aktualisiert: 18. April 2026*

Wan 2.1 ist Alibabas Open-Source-Antwort auf Kling, Hailuo und Veo 3 — und der erste AI-Video-Generator in Enterprise-Qualität, den du komplett auf eigener Hardware laufen lassen kannst. Dieser Guide zeigt dir in 30 Minuten, wie du Wan 2.1 lokal einrichtest, welche GPU-Hardware du brauchst, und wie du die ersten Clips generierst — ohne Cloud, ohne Credits, ohne API-Kosten.

Inhaltsverzeichnis

  1. [Was ist Wan 2.1?](#was-ist-wan)
  2. [Warum lokal statt Cloud?](#warum-lokal)
  3. [Hardware-Requirements — was du wirklich brauchst](#hardware)
  4. [Schritt-für-Schritt-Installation (Linux + Windows WSL)](#install)
  5. [Dein erster Clip — Text-to-Video Test](#erster-clip)
  6. [VRAM-Optimierungen — auch auf 12 GB nutzbar machen](#vram)
  7. [Wan 2.1 vs. Hunyuan vs. CogVideoX — welches Open-Source-Modell?](#vergleich)
  8. [Troubleshooting — die häufigsten Fehler](#troubleshooting)
  9. [FAQ](#faq)
  10. [Nächste Schritte](#next)

---

Passender Kurs

Claude Basics — 297 €

6 Live-Sessions · Prompting · Workflows · Zertifikat

Kurs ansehen

<a id="was-ist-wan"></a>Was ist Wan 2.1?

Wan 2.1 (auch: Wan2.1-T2V-14B / Wan2.1-I2V-14B) ist ein Open-Source-Video-Diffusion-Modell von Alibabas Tongyi-Lab-Team, das im Januar 2026 auf Hugging Face veröffentlicht wurde. Es steht unter Apache-2.0 und kann kommerziell genutzt werden.

In einem Satz: Wan 2.1 ist das aktuell stärkste komplett offene AI-Video-Modell (Text-to-Video und Image-to-Video), das lokal auf Consumer-GPUs läuft und hochwertige 5-Sek-Clips bei 720p produziert.

Kernfakten

  • Modellgrößen: 1.3B-Variante (läuft auf 8 GB VRAM) und 14B-Variante (empfohlen 24 GB VRAM, optimierbar auf 12 GB).
  • Lizenz: Apache-2.0 → kommerziell nutzbar, kein Vendor-Lock-in.
  • Modi: Text-to-Video, Image-to-Video, Video-to-Video (seit v2.1).
  • Output: bis zu 720p × 5 Sekunden, 16 fps (höhere Auflösung per Upscaling).
  • Prompts: Englisch + Chinesisch nativ, Deutsch funktioniert über Übersetzungs-Preprocess.

Tiefer einsteigen

Claude Code Foundations — 697 €

10 Live-Sessions · Agenten · MCP · Projekte · Bestseller

Kurs ansehen

Warum Wan 2.1 relevant ist

Alle großen AI-Video-Tools 2026 (Kling, Hailuo, Runway, Higgsfield, Pixverse) sind geschlossene Cloud-Produkte — du zahlst pro Clip, gibst deine Daten heraus und bist abhängig von deren ToS. Wan 2.1 ist der erste offene Output, der in der gleichen Qualitätsliga spielt wie Kling 1.6 oder Hailuo — bei voller Kontrolle.

Das ist besonders relevant für: - Unternehmen mit DSGVO-sensiblen Materialien (z. B. Mitarbeiter-Portraits, Produkt-Designs vor Launch). - Agenturen, die Margen optimieren und keine per-Clip-Cloud-Kosten tragen wollen. - Entwickler, die Wan in Pipelines integrieren (n8n, ComfyUI, eigene APIs). - Hochschulen, die mit Studierenden ohne kostenpflichtige Cloud-Accounts arbeiten.

---

<a id="warum-lokal"></a>Warum lokal statt Cloud?

Welcher Kurs passt zu dir?

5 Fragen · 2 Minuten · Persönliche Empfehlung

Kurs-Finder starten
AspektWan 2.1 (lokal)Kling / Hailuo (Cloud)
Kosten/Clip0 € (nur Strom)~0,15–0,80 €
Privacy100 % lokalDaten gehen zu Anbieter
Rate LimitsKeineJa (Credits)
Geschwindigkeit2–8 Min/Clip (je GPU)30 Sek – 4 Min
CustomizingLoRAs, Finetuning möglichNur Prompts
Commercial UseApache-2.0 erlaubtAbhängig vom Plan
EinstiegGPU + Setup nötigSofort, Kreditkarte reicht

Fazit: Lokal lohnt sich, wenn du regelmäßig (>20 Clips/Monat) produzierst, DSGVO-Anforderungen hast oder LoRAs/Finetuning brauchst. Für gelegentliche Creator bleibt Cloud wirtschaftlicher.

---

<a id="hardware"></a>Hardware-Requirements — was du wirklich brauchst

Minimum (Wan 2.1-1.3B, Entry-Tier)

  • GPU: NVIDIA mit 8 GB VRAM (RTX 3060 12 GB / RTX 4060 / RTX 4060 Ti)
  • RAM: 16 GB System-RAM
  • Disk: 40 GB frei (Modell + Cache + Temp)
  • OS: Linux (empfohlen) oder Windows 11 mit WSL2
  • Output: 480p, ~30 Sek pro 5-Sek-Clip auf RTX 4060

Empfohlen (Wan 2.1-14B, Quality-Tier)

  • GPU: NVIDIA mit 24 GB VRAM (RTX 3090 / RTX 4090 / A5000 / A6000)
  • RAM: 32 GB System-RAM
  • Disk: 100 GB frei
  • Output: 720p, ~3–5 Min pro 5-Sek-Clip auf RTX 4090

Optimiert (Wan 2.1-14B auf 12 GB VRAM)

Mit `torch.compile`, fp8-Quantisierung und CPU-Offload lässt sich das 14B-Modell auch auf RTX 3060 12 GB / RTX 4070 Ti 12 GB nutzen — bei höherer Render-Zeit (8–15 Min/Clip). Details unten im [VRAM-Optimierungen-Abschnitt](#vram).

Was du NICHT brauchst

  • Mac-Nutzer (M1/M2/M3): Wan 2.1 läuft über MPS, aber langsam — Faktor 3–5 ×. Für Mac besser Cloud-Tools nutzen.
  • AMD-GPU: ROCm-Support ist experimentell, funktioniert auf RX 7900 XTX, aber mit Bugs.
  • Intel Arc: kein produktionsreifer Support, Stand April 2026.

---

<a id="install"></a>Schritt-für-Schritt-Installation

Variante A: Conda-Environment (empfohlen, Linux)

1. Conda installieren (falls noch nicht vorhanden): ```bash wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh ```

2. Environment anlegen: ```bash conda create -n wan python=3.10 -y conda activate wan ```

3. PyTorch mit CUDA installieren: ```bash pip install torch==2.4.0 torchvision==0.19.0 --index-url https://download.pytorch.org/whl/cu121 ```

4. Wan-2.1-Repo klonen: ```bash git clone https://github.com/Wan-Video/Wan2.1.git cd Wan2.1 pip install -r requirements.txt ```

5. Modell herunterladen: ```bash pip install huggingface_hub huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./models/Wan2.1-T2V-14B ```

Für die kleinere Variante: ```bash huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./models/Wan2.1-T2V-1.3B ```

6. Ersten Test-Run starten: ```bash python generate.py \ --task t2v-14B \ --size 1280*720 \ --ckpt_dir ./models/Wan2.1-T2V-14B \ --prompt "A cat walking in a sunlit garden, soft focus, cinematic" ```

Das erste Mal dauert länger (Model-Loading in VRAM), folgende Runs sind schneller.

Variante B: Docker (für Windows WSL und Cross-Platform)

Falls du Docker nutzt, gibt es seit März 2026 einen Community-Container:

```bash docker run --gpus all -it \ -v $(pwd)/outputs:/app/outputs \ -v $(pwd)/models:/app/models \ wanai/wan2.1:latest ```

Vorteil: keine Python-Dependency-Konflikte. Nachteil: 20 GB Image-Größe.

Variante C: ComfyUI-Plugin

Wenn du bereits mit ComfyUI arbeitest, gibt es einen offiziellen Wan-2.1-Custom-Node:

  1. ComfyUI öffnen → Manager → „Install Custom Nodes".
  2. „ComfyUI-WanVideoWrapper" suchen und installieren.
  3. Modelle in `ComfyUI/models/wan/` ablegen.
  4. Workflow-JSON aus dem Repo laden und ausführen.

Das ist der komfortabelste Weg für Creator, die kein Terminal-Setup machen wollen.

---

<a id="erster-clip"></a>Dein erster Clip — Text-to-Video Test

Ein funktionierender erster Prompt:

```bash python generate.py \ --task t2v-14B \ --size 1280*720 \ --ckpt_dir ./models/Wan2.1-T2V-14B \ --num_frames 81 \ --fps 16 \ --prompt "A young woman with brown hair walking through a forest path in autumn, golden light filtering through trees, cinematic shot, 35mm lens" ```

Was hier passiert: - `num_frames 81` bei `fps 16` → 5 Sekunden Video. - `1280*720` → HD-Output. - Der Seed wird random vergeben, für Reproduzierbarkeit ergänze `--seed 42`.

Output: Eine MP4-Datei im `outputs/`-Ordner, Name mit Timestamp.

Prompt-Hinweise für Wan 2.1

  • Englisch stabiler als Deutsch. Deutsch funktioniert, aber mit ~20 % schlechterer Qualität.
  • Kurze Prompts (20–40 Wörter) funktionieren besser als lange Romane.
  • Camera-Anweisungen helfen: `cinematic shot`, `close-up`, `wide angle`, `tracking shot`.
  • Negative Prompts: über `--neg_prompt` kannst du z. B. `blurry, distorted faces, extra limbs` ausschließen.

---

<a id="vram"></a>VRAM-Optimierungen — auch auf 12 GB nutzbar machen

Wenn du nur 12 GB VRAM hast (RTX 3060 12 GB, RTX 4070 Ti 12 GB), kannst du das 14B-Modell trotzdem laufen lassen:

1. fp8-Quantisierung aktivieren: ```bash python generate.py ... --dtype fp8 --offload_model true ```

2. CPU-Offload einschalten (lädt Modell-Teile dynamisch in CPU-RAM): ```bash --offload_model true --t5_cpu true ```

3. Framerate/Auflösung reduzieren: ```bash --size 832*480 --num_frames 49 ```

4. Alternativ: auf 1.3B-Modell umsteigen Das kleinere Modell ist qualitativ ~70 % vom 14B, läuft aber lockerer auf 8 GB und produziert schneller. Für Prototyping oft die bessere Wahl.

---

<a id="vergleich"></a>Wan 2.1 vs. Hunyuan vs. CogVideoX

Die drei relevantesten Open-Source-AI-Video-Modelle im April 2026:

ModellLizenzBeste VRAM-KlasseStärkeSchwäche
Wan 2.1Apache-2.024 GB (optimierbar 12 GB)Beste Physik und Motion-Realism im Open-SourceKomplexes Setup
Hunyuan VideoTencent (kommerziell mit Einschränkung)24 GBBeste Kamera-DynamikLizenz nicht 100 % offen
CogVideoX-5BApache-2.010 GBLäuft auf kleinen GPUsNiedrigere Output-Qualität

Empfehlung: - Hobby/Testing: CogVideoX-5B (8–10 GB VRAM reicht). - Prosumer: Wan 2.1-14B auf RTX 3090/4090. - Agentur mit LoRA-Pipeline: Wan 2.1 (Apache-2.0-Lizenz macht Custom-Training legal einfacher).

Zu [Hunyuan Video haben wir einen separaten Install-Guide](/de/blog/hunyuan-video-open-source-install-guide) (in Vorbereitung, KW 18).

---

<a id="troubleshooting"></a>Troubleshooting — die häufigsten Fehler

„CUDA out of memory" → fp8 + offload aktivieren, Auflösung reduzieren, 1.3B-Modell wählen, andere Anwendungen (Chrome, Slack) schließen.

„ImportError: cannot import name 'flash_attn_interface'" → Flash-Attention optional, mit `--attention standard` umgehen oder `pip install flash-attn==2.7.4 --no-build-isolation` (braucht CUDA-Toolkit lokal).

„Model download hangs" → Hugging-Face-Download ist teilweise langsam. Alternative: `huggingface-cli download` mit `--max-workers 8` oder Mirror `hf-mirror.com` nutzen.

„Black output video" → VAE-Decoder-Problem, oft bei fp8 auf älteren GPUs. Auf bf16 umstellen: `--dtype bf16`.

„Garbled faces / distorted limbs" → Seed ändern, Negative-Prompt nutzen (`blurry, extra fingers, distorted face`), Prompt kürzer und konkreter formulieren.

„Extremely slow (>30 Min/Clip)" → Du nutzt wahrscheinlich CPU-Inferenz. Check `nvidia-smi` während Run — GPU-Auslastung sollte >80 % sein. Sonst CUDA-Installation prüfen.

---

<a id="faq"></a>FAQ

Was ist Wan 2.1? Wan 2.1 ist ein Open-Source-AI-Video-Diffusionsmodell von Alibaba Tongyi Lab, das lokal auf NVIDIA-GPUs läuft und Text-to-Video / Image-to-Video / Video-to-Video in 720p produziert.

Ist Wan 2.1 kostenlos? Ja, vollständig. Apache-2.0-Lizenz erlaubt auch kommerzielle Nutzung. Einzige Kosten: Strom und GPU-Hardware.

Welche GPU brauche ich für Wan 2.1? Minimum: NVIDIA mit 8 GB VRAM (nur 1.3B-Modell). Empfohlen: 24 GB VRAM (RTX 3090/4090) für 14B in voller Qualität.

Funktioniert Wan 2.1 auf einem Mac? Technisch ja (via MPS), aber deutlich langsamer. Für Mac-Nutzer sind Cloud-Tools wie Kling, Hailuo oder Higgsfield wirtschaftlicher.

Kann ich Wan 2.1 kommerziell nutzen? Ja, die Apache-2.0-Lizenz erlaubt kommerzielle Nutzung ohne Lizenzgebühren. Alibaba behält sich keine Rechte an deinen Outputs vor.

Wie lang sind Wan-2.1-Clips maximal? Standard: 5 Sekunden pro Generation. Längere Clips entstehen durch Verkettung mehrerer Clips (Image-to-Video mit letztem Frame als neuer Startframe).

Wan 2.1 oder Hunyuan Video — was ist besser? Wan 2.1 bei Physik und Realismus, Hunyuan bei Kamera-Dynamik. Wan 2.1 hat die sauberere Lizenz (Apache-2.0).

Kann ich LoRAs für Wan 2.1 trainieren? Ja, seit März 2026 gibt es Community-Tools auf GitHub (`Wan-Video-LoRA-Training`), die auf dem Diffusers-Stack aufbauen. Trainings-Compute: ~4–8 h auf RTX 4090 für ein Subject-LoRA.

Läuft Wan 2.1 auf Google Colab / Cloud-GPUs? Ja, auf A100 / H100 produktionsreif. Für Runpod / Vast.ai gibt es fertige Community-Templates.

Wo finde ich offizielle Updates zu Wan 2.1? Repo: `github.com/Wan-Video/Wan2.1` · Hugging Face: `huggingface.co/Wan-AI` · Community-Discord-Link im Repo.

---

<a id="next"></a>Nächste Schritte

Wan 2.1 lokal aufzusetzen ist die günstigste Art, 2026 ernsthaft in AI-Video einzusteigen — vorausgesetzt, du hast eine halbwegs moderne GPU. Wer keine GPU hat, startet mit einem Cloud-Tool ([Hailuo](/de/blog/hailuo-ai-tutorial-deutsch), [Kling oder Pixverse](/de/blog/pixverse-ai-review-deutsch)) und wechselt später lokal, wenn Volumen und DSGVO-Anforderungen stimmen.

Schulung & Weiterbildung

  • [AI Content Creation Kurs](/de/kurse/ai-content-creation) — 6 Wochen, Cloud- und Open-Source-Tools parallel.
  • [Vibe Coding Kurs](/de/kurse/vibe-coding) — Claude Code + MCP + lokale Pipeline (Wan, ComfyUI, n8n).
  • [KI-Workshops für Teams](/de/blog/ki-workshop-fuer-teams) — Inhouse-Setup für Agenturen und Marketing-Abteilungen.

Weiterlesen — verwandte Tool-Guides

  • [Hailuo AI Tutorial Deutsch](/de/blog/hailuo-ai-tutorial-deutsch)
  • [Higgsfield AI Deutsch-Guide](/de/blog/higgsfield-ai-deutsch-guide)
  • [Pixverse AI Review Deutsch](/de/blog/pixverse-ai-review-deutsch)
  • [MCP Server bauen — Tutorial](/de/blog/mcp-server-bauen-tutorial)

---

Autor: Boris Dittberner, Gründer der SixSides Academy. Dozent für AI-Tool-Integration in Unternehmen, 5+ Jahre Praxis mit Cloud- und Open-Source-AI-Video-Stacks.

BD

Boris Dittberner

Gründer, SixSides Academy & SixSides AI

Boris hilft Professionals und Unternehmen im DACH-Raum, Claude AI produktiv einzusetzen. Fragen? Schreib ihm direkt.

Finde deinen passenden Kurs
30 Sek · kostenlos · ab 83 €/Monat
Los geht's