LLMs im Vergleich 2025

Large Language Models (LLMs) stellen das Kernelement moderner generativer KI-Systeme dar. Deren Performance ist beeindruckend, und alle paar Monate werden noch bessere offene Modelle zur Verfügung gestellt, die neue Rekorde bzgl. Performance und Qualität erreichen. Doch in dieser Dynamik ist es oft schwierig den Überblick zu behalten. Dieser umfassende Vergleich evaluiert die aktuell (Dezember 2025) führenden Open-Source- und Open-Weight-Modelle, um Ihnen fundierte Entscheidungen zu ermöglichen.

Überblick: Die Model-Landschaft 2025

Die LLM-Landschaft hat sich rasant entwickelt. Während früher eine Handvoll großer Akteure dominierten und kaum offene vortrainierte Modelle verfügbar waren, gibt es heute diverse, spezialisierte Optionen – von winzigen Edge-Modellen mit unter einer Milliarde Parametern bis zu gewaltigen sparse Mixture-of-Experts (MoE) Systemen mit über 600 Milliarden Parametern.

Für Organisationen mit  Interesse an digitaler Souveränität haben sich besonders vielversprechende Kategorien herauskristallisiert: effiziente kleine Dense-Modelle für, mittlere Modelle für Generalist-Aufgaben mit ausgewogener Performance, und hochperformante MoE-Modelle für komplexe Unternehmensaufgaben.

Kategorie 1: Effiziente Edge-Modelle

Ministral 3 Familie (Mistral)

Parametergröße: 3B, 8B, 14B
Lizenz: Apache 2.0
Architektur: Dense mit Multimodalität
Kontextlänge: 256K Tokens
Visionsfähigkeiten: Ja, nativ multimodal

Die neue Ministral 3 Familie von Mistral AI wurde speziell für Edge-Deployment mit Vision-Fähigkeiten konzipiert. Mit nur 32 Hidden Layers und optimierter Grouped Query Attention (GQA) erreicht das 8B-Modell beeindruckende Performance bei minimalem Speicherbedarf. Das Besondere: Im Gegensatz zu vielen anderen Modellen sind Ministral 3 Varianten nativ multimodal – sie können Text und Bilder gemeinsam verarbeiten.

Die technische Architektur nutzt RoPE (Rotary Position Embeddings) und RMS Normalization für stabile Inference über lange Kontextfenster bis zu 256.000 Tokens. NVIDIA berichtet Inferenz-Geschwindigkeiten bis zu 385 Tokens pro Sekunde auf RTX 5090 GPUs. Das 3B-Modell ist perfekt für Consumer-Hardware, während das 8B-Modell auf einer RTX 4090 oder mit 32 GB RAM quantisiert problemlos läuft.

Beste Einsätze: Multimodale Anwendungen (Dokumentenanalyse mit OCR), Echtzeit-Anwendungen mit strengem Latenz-Budget, lokale Vision-Assistenten, RAG-Systeme auf Consumer-Hardware.

Gemma 3 Familie (Google)

Parametergröße: 1B, 4B, 12B, 27B (plus spezialisiert: 270M)
Lizenz: Custom
Architektur: Dense Transformer
Kontextlänge: 8K Tokens (1B/4B) bis zu erweitert
Fokus: Ressourceneffizienz, spezialisierte Aufgaben

Die Gemma-Serie von Google positioniert sich explizit im Resource-Constrained-Segment. Beispielsweise wurde Gemma 3 270M mit nur 270 Millionen Parametern (davon 170M in Embeddings für großes Vokabular von 256K Tokens) für strukturierte, hochvolumige Aufgaben wie Sentimentanalyse und Entitätserkennung  optimiert. Es ist das energieeffizienteste in der Gemma-Reihe und eignet sich hervorragend für Smartphones, Edge-Geräte und auch für österreichische KMUs mit beschränkter Hardware.

Für größere Anwendungsfälle bietet Gemma 3 4B (4 Milliarden Parameter) ein besseres Leistungs-Speicher-Verhältnis. Die Hardware-Anforderungen sind minimal: Bei INT4-Quantisierung benötigt das 4B-Modell nur 3,2-3,4 GB VRAM, die 12B-Variante etwa 8,7 GB, und sogar das 27B-Modell läuft mit 19,9 GB. Alle Gemma 3 Modelle stehen unter Apache 2.0 Lizenz zur Verfügung, was kommerzielle On-Premises-Nutzung völlig freizügig gestattet.

Beste Einsätze: Spezialisierte Klassifizierungstasks, IoT-Anwendungen, Kundenservice-Chatbots mit begrenztem Wissen, lokale Datenverarbeitung ohne Cloud-Abhängigkeit.

 

Kategorie 2: Universalmodelle mit ausgewogenem Leistungsprofil

Mistral Small 3.2 24B

Parametergröße: 24 Milliarden
Lizenz: Apache 2.0
Architektur: Dense
Kontextlänge: Erweitert
Besonderheit: Open-Source verfügbar
Hardware: ~55 GB VRAM bei FP16/BF16, quantisiert ~27 GB

Das Mistral Small 3.2 ist beeindruckend. Trotz „nur” 24 Milliarden Parametern konkurriert es mit Modellen wie Llama 3.3 70B und Qwen 32B, ist aber deutlich schneller. Die MMLU-Performance liegt über 81%, und es erreicht 150 Tokens pro Sekunde bei typischen Workloads. Das Modell ist vollständig Open-Source unter Apache 2.0 lizenziert und kann mit quantisierter Form auf einer einzigen RTX 4090 oder guten Workstation-Grade-GPU betrieben werden.

Die Architektur wurde für Instruction-Following optimiert und zeigt besonders starke Performance in mehrsprachigen Szenarien – ideal für österreichische und deutsche Unternehmen mit mehrsprachigen Daten. Funktionsaufrufe und strukturierte Outputs sind nativ unterstützt.

Beste Einsätze: Generalist-Anwendungen für Mittelbetriebe, mehrsprachige Customer Support, interne Dokumentenanalyse, RAG-basierte Systeme mit erweiterten Dokumenten.

Qwen 3 Dense Modelle (4B bis 32B)

Parametergröße: 0.6B, 1.7B, 4B, 8B, 14B, 32B (Dense), plus MoE-Varianten
Lizenz: Apache 2.0
Architektur: Dense Transformer
Kontextlänge: 32K-256K je nach Größe (YaRN-Erweiterung)
Trainerdaten: 36 Billionen Tokens
Sprachunterstützung: 119 Sprachen

Die Alibaba Qwen 3 Familie stellt eines der ambitioniertesten offenen Sprachmodell-Portfolios dar. Mit 36 Billionen Trainings-Tokens (doppelt so viel wie Qwen 2.5) bieten diese Modelle robuste Performance über alle Größen hinweg.

Für On-Premises-Deployment relevant:

  • Qwen 3 4B (4B Parameter): Extrem effizient, läuft auf Standard-Workstations, 131K Token Kontext möglich

  • Qwen 3 8B: Gutes Preis-Leistungs-Verhältnis

  • Qwen 3 14B: Balanciert Performance und Ressourcenbedarf sehr gut

  • Qwen 3 32B: Für anspruchsvollere Aufgaben, aber immer noch auf guter Consumer-Hardware lauffähig

Besonders bemerkenswert ist die verbesserte mathematische und Logik-Performance sowie die native Unterstützung für 119 Sprachen und Dialekte. Dies macht Qwen 3 Modelle ideal für internationale Organisationen und solche, die multilinguale Anforderungen haben.

Beste Einsätze: Universelle Assistenten, mehrsprachige Verarbeitung, technische Dokumentation, Code-Analyse, STEM-basierte Aufgaben.

Kategorie 3: Hochperformante Sparse Mixture-of-Experts Modelle

Mistral Large 3 (675B Gesamt, 41B aktiv)

Parametergröße: 675 Milliarden Gesamt, 41 Milliarden pro Anfrage aktiviert
Lizenz: Apache 2.0 (Open-Weight)
Architektur: Sparse Mixture-of-Experts (MoE)
Kontextlänge: 256K Tokens
Training: 3.000 NVIDIA H200 GPUs
Performance-Klasse: Frontier-Level mit Bildverständnis und Mehrsprachigkeit

Mistral Large 3 wurde von Grund auf mit massiver Rechenleistung trainiert und stellt eine genuine Frontier-Alternative dar. Die Sparse MoE-Architektur ist kritisch: Obwohl das Modell 675 Milliarden Parameter hat, werden pro Token nur 41 Milliarden aktiviert. Dies ermöglicht es, das Modell auf hochperformanten Systemen – typischerweise mehreren H100/H200 GPUs oder modernen NVIDIA Blackwell-Systemen – effizient zu betreiben.

Das Modell bietet natives Bildverständnis und robuste mehrsprachige Konversationsfähigkeiten. Es ist gleichauf mit führenden Open-Weight-Modellen bei allgemeinen Prompts und wurde mit starker Zusammenarbeit mit NVIDIA, vLLM und Red Hat entwickelt. Ein NVFP4-Format-Checkpoint ermöglicht optimierte Inferenz auf Enterprise-Hardware.

Beste Einsätze: Große Organisationen mit Enterprise-Infrastructure, komplexe Reasoning-Aufgaben, Bildverständnis-Anwendungen, hochvolumige Produktionssysteme mit eigenen Rechenzentren.

DeepSeek R1 (671B Gesamt, 37B aktiv)

Parametergröße: 671 Milliarden Gesamt, 37 Milliarden pro Token aktiviert
Lizenz: MIT (mit Militär-Einschränkungen)
Architektur: Mixture-of-Experts (MoE)
Kontextlänge: 128K Tokens
Besonderheit: Explizites Reasoning, Chain-of-Thought native Inference
Destillierte Varianten: 1.5B bis 70B Parameter mit Reasoning-Fähigkeiten

DeepSeek R1 unterscheidet sich fundamental durch seine explizite Reasoning-Architektur. Das Modell zeigt während der Inference sichtbare „Chain-of-Thought”-Tokens, was für Transparenz bei komplexen Aufgaben kritisch ist. Mit 37 Milliarden aktivierten Parametern beim vollständigen 671B-Modell bleibt die Rechenleistung überschaubar.

Bemerkenswert ist das breite Spektrum an Destillations-Varianten (1.5B bis 70B), die starke Reasoning-Fähigkeiten behalten. DeepSeek-R1-Distill-Qwen-32B übertrifft OpenAI’s o1-mini in mehreren Benchmarks. Diese Destillationen sind game-changer für Organisationen, die Reasoning-Fähigkeiten ohne massive Hardware-Investitionen benötigen.

Hardware-Anforderungen für verschiedene Setups:

  • 8x NVIDIA H200 GPUs: ~3.800 Tokens/Sekunde (vollständiges Modell)

  • 8x NVIDIA H100 GPUs mit 4-Bit Quantisierung: ~400 GB VRAM, ~2.500 Tokens/Sekunde

Beste Einsätze: Reasoning-intensive Aufgaben (Vertragsanalyse, Diagnose-Unterstützung), transparent dokumentierte KI-Entscheidungen, Einsätze, wo Nachvollziehbarkeit erforderlich ist, Destillationen für mittlere Hardware.

Kimi K2 (1 Billion Gesamt, 32B aktiv)

Parametergröße: 1 Billion Gesamt, 32 Milliarden pro Inferenz aktiviert
Lizenz: Proprietär (Moonshot AI)
Architektur: Mixture-of-Experts mit MLA (Multi-Head Latent Attention)
Kontextlänge: 262K Tokens (extensible)
Besonderheit: Agentic Capabilities, 384 Experten mit 8 Auswahl pro Token

Kimi K2 ist ein bemerkenswertes Modell aus Moonshot AI (China) mit interessanten Eigenschaften für Enterprise-Deployments. Mit 384 Experten und 8 Auswahl pro Token (plus 1 shared Expert) bietet es hochgradig spezialisierte Routing. Die MLA-Aufmerksamkeitsmechanik und der MuonClip Optimizer deuten auf fortgeschrittene Optimierungstechniken hin.

Besonders relevant: Kimi K2 ist für agentic Tasks trainiert und kann sequenziell Tools aufrufen (bis zu 200-300 Aufrufe) ohne menschliches Eingreifen. Das 262K Kontextfenster (erweiterbar auf noch größer) macht es ideal für lange Dokumentenanalyse. Native Multimodalität (Text, Bilder, Audio, PDFs) erweitert Einsatzmöglichkeiten.

Beachte: Kimi K2 ist nicht vollständig Open-Source; eine proprietäre Lösung mit API-Zugang. Für echtes On-Premises-Deployment ist ein Quantisierungs-/Distillations-Ansatz nötig.

Beste Einsätze: Agentic AI-Systeme für Prozessautomation, lange Dokumentenanalyse (Verträge, medizinische Akten), multimodale Unternehmensanwendungen.

Kategorie 4: OpenAI’s Foray in Open Models

GPT-OSS (gpt-oss-120b, gpt-oss-20b)

Parametergröße: 117B (120B Gesamt, 5,1B aktiv), 20B (21B Gesamt, 3,6B aktiv)
Lizenz: Apache 2.0
Architektur: Mixture-of-Experts
Kontextlänge: 128K Tokens
Hardware (gpt-oss-120b): 80 GB VRAM auf 1x professioneller GPU oder verteiltes Setup
Hardware (gpt-oss-20b): 16 GB Speicher (Standard-Laptop)

Mit GPT-OSS machte OpenAI nach 6 Jahren wieder einen Open-Source-Schritt. Die beiden Varianten bieten stark unterschiedliche Trade-offs:

gpt-oss-120b mit 117B Parametern und 5,1B aktiv pro Anfrage erreicht Performance vergleichbar mit o4-mini. Ideal für Organisationen mit Enterprise-Infrastructure.

gpt-oss-20b ist das revolutionäre Angebot: 20 Milliarden Parameter, nur 3,6 Milliarden aktiv, läuft auf Laptops mit 16 GB RAM und erreicht o3-mini-ähnliche Performance. Das ist beeindruckend für lokale Entwicklung und Prototyping.

Kritik: OpenAI ist transparent, dass kleinere Modelle mehr halluzinieren: „Dies ist zu erwarten, da kleinere Modelle weniger Weltwissen als große Frontier-Modelle besitzen.” Für Produktionssysteme mit Faktenchecks ist dies managebar.

Beste Einsätze: OpenAI-zu-Open-Source-Migration, lokale Prototyping auf Laptops, Organisationen, die vertraut sind mit OpenAI-APIs und OpenAI-kompatible Infrastruktur haben.

Qwen 3 VL (Vision-Language Variante)

Parametergröße: 8B, sowie größere MoE-Varianten
Lizenz: Open-Source
Architektur: Dense + MoE-Varianten
Kontextlänge: 256K nativ, 1M expandierbar
Besonderheit: Vision Agent, Spatial Reasoning, Video Understanding, OCR 32 Sprachen

Qwen 3 VL ist nicht nur ein multimodales Modell, sondern ein echtes Vision-Agent mit PC/Mobile-GUI-Verständnis. Das 8B-Modell ist lokal praktikabel und kann Screenshots analysieren, UI-Elemente erkennen, Funktionen verstehen und Tasks durchführen.

Besonderheiten:

  • DeepStack-Architektur: Fused Multi-Level ViT für feinkörnige Details

  • Interleaved-MRoPE: Positional Embeddings über Zeit, Breite, Höhe für Video-Reasoning

  • Expanded OCR: 32 Sprachen, robust gegen Low-Light/Blur/Tilt, spezialisiert auf rare/antike Characters

  • Long Context: Buch-lange und Stunden-lange Video-Verarbeitung mit vollständiger Recall

Hardware für Qwen3-VL: Minimum 3 GB RAM (kleineste Variante), größte bis 20 GB. Das 8B-Modell benötigt etwa 8-12 GB quantisiert.

Beste Einsätze: Dokumentenverarbeitung mit Vision (Formulare, handschriftliche Noten), GUI-Automatisierung, Video-Analyse für Content-Moderation, Accessibility-Anwendungen.

Hardware-Anforderungen und Quantisierung

Faustregel und Kalkulationen

Eine bewährte Faustregel für VRAM-Anforderungen:

  • FP32: 4 Byte pro Parameter = Modellgröße in GB ~ Parameter in Milliarden × 4

  • FP16/BF16: 2 Byte pro Parameter ~ Modellgröße in GB ~ Parameter in Milliarden × 2

  • INT8: 1 Byte pro Parameter ~ Modellgröße in GB ~ Parameter in Milliarden × 1

  • INT4: 0,5 Byte pro Parameter ~ Modellgröße in GB ~ Parameter in Milliarden × 0,5

Für ein 7B-Modell beispielsweise:

  • FP32: ~28 GB VRAM nötig

  • FP16/BF16: ~14 GB VRAM nötig (Standard für moderne Training)

  • INT8: ~7 GB VRAM nötig

  • INT4: ~3,5 GB VRAM nötig (praktisch auf RTX 4090/4080)

Quantisierung im Detail

INT4 vs BF16: INT4-Quantisierung reduziert VRAM-Anforderung um 75% gegenüber FP16, mit einer durchschnittlichen Qualitätseinbuße von etwa 10-15% bei moderaten Kompressionsfaktoren. Für speicherbegrenzte Setups ist dies akzeptabel.

GGUF-Format: Viele Modelle werden im GGUF-Format bereitgestellt, was optimierte Quantisierung mit Tools wie llama.cpp ermöglicht. Dies ist für lokale Laptops essentiell.

Lizenzmodelle und Rechtssicherheit

Für österreichische Organisationen ist die Lizenzwahl entscheidend:

Permissive Lizenzen (ideal für On-Premises Commercial):

  • Apache 2.0: Breiteste Anwendungsmöglichkeiten, kommerzielle Nutzung, Modifikationen, Weiterverkauf, Patentschutz, keine Offenlegungspflicht

  • MIT: Sehr freizügig, ähnlich Apache 2.0, ohne Patentschutz

  • BSD: Ähnlich MIT/Apache

  • CC0: Public Domain, maximale Freiheit

Mit Einschränkungen:

  • Proprietär/API-only: Kimi K2, einige Mistral Large Varianten – erfordern Cloud-Access

  • MIT mit Militär-Einschränkungen: DeepSeek-Modelle

Zu vermeiden für kommerzielle On-Premises:

  • NC (Non-Commercial): CC-NC-ND, etc. – ungeeignet

  • GPL: Copyleft-Anforderungen können kompliziert sein

Praktische Deployment-Optionen in Österreich

Empfohlene Stack für On-Premises:

Inference-Engines:

  • Ollama: Schneller Start, optimiert für lokale Geräte, Docker-Support

  • vLLM: Enterprise-grade, batching, LoRA-Support, Kubernetes-ready

  • llama.cpp: CPU-optimiert, quantisierte GGUF-Modelle, minimal Abhängigkeiten

  • LM Studio: GUI-basiert, einsteigerfreundlich, GGUF-Support

Interfaces & Orchestrierung:

  • Open WebUI: Web-Interface, RAG-Engine, Multi-User, API-kompatibel

  • LocalAI: Drop-in OpenAI API Replacement

  • LiteLLM: Abstraktion über mehrere LLM-Provider (Cloud + Local)

Vector Stores für RAG:

  • Qdrant: Hochperformant, dezentralisierbar

  • Milvus: Open-Source, Kubernetes-ready

  • Chroma: Lightweight, für Prototyping

Diese Stack ermöglicht echte Datensouveränität für österreichische Organisationen mit strengen DSGVO-Anforderungen.

Einsatzbereiche in österreichischen Kontext

Gesundheitswesen & MedTech

Optimal: Qwen 3 VL für Dokumentendigitalisierung, DeepSeek R1 für Diagnose-Unterstützung mit Reasoning-Transparenz, RAG-Systeme basierend auf Gemma 3/Mistral Small für lokale Knowledge-Basen.

Besonderheit: Österreichische Datenschutzaufsicht akzeptiert On-Premises-Lösungen leichter für hochsensible Gesundheitsdaten.

Öffentliche Verwaltung & Recht

Optimal: DeepSeek R1 (Reasoning, Chain-of-Thought für Audit-Trail), Qwen 3 32B für Vertragsanalyse, Mistral Small 3.2 für Mehrsprachigkeit (EU-Kontext).

Finanzdienstleistungen

Optimal: Mistral Large 3 für Komplexität und Zuverlässigkeit, DeepSeek R1 Destillationen für Compliance-Dokumentation, GPT-OSS-120b als OpenAI-Alternative mit lokaler Kontrolle.

Medien & Content

Optimal: Qwen 3 VL für automatisierte Bildverschriftung und Video-Analyse, Mistral Small 3.2 für mehrsprachigen Content, Gemma 3 für Echtzeit-Moderationshilfen.

Fazit: Die richtige Wahl treffen

Für österreichische Organisationen im Jahr 2025 gibt es keine universelle Antwort, aber klare Empfehlungen nach Anforderungsprofil:

  • Hochste Datensicherheit, limitierte Hardware: Gemma 3 1B/4B oder Mistral 3 3B

  • Universelle Gebrauchstauglichkeit auf Standard-Hardware: Mistral Small 3.2 oder Qwen 3 14B

  • Reasoning & Transparenz kritisch: DeepSeek R1 (71B Distillation) oder Qwen 3 32B

  • Enterprise mit Bildverarbeitung: Qwen 3 VL 8B oder Ministral 3 8B

  • Maximale Performance, eigenes Rechenzentrum: Mistral Large 3 oder DeepSeek R1 vollständig

Alle empfohlenen Modelle sind unter permissiven Lizenzen verfügbar, laufen mit etablierten Open-Source-Tools (Ollama, vLLM, llama.cpp) und ermöglichen volle digitale Souveränität – das fundamentale Versprechen von onpremises.org.

Die österreichische und deutschsprachige Tech-Community hat heute mehr Optionen als je zuvor, lokale, unkontrollierte, effiziente KI-Infrastruktur aufzubauen. Der Zeitpunkt zur Umsetzung ist jetzt.

Share the Post:

Weitere Beiträge

Hybrid RAG – günstig und unabhängig

Wie lässt sich KI für die eigene Organisation nutzen, aber ohne in Abhängigkeiten von Anbietern zu geraten, und ohne teure Investitionen in Hardware? Die Antwort lautet Hybrid RAG. Hybrid RAG (kurz für Retrieval-Augmented Generation) kombiniert das Beste aus zwei Welten: Die Datenkontrolle und Sicherheit einer On-Premises-Infrastruktur mit der Skalierbarkeit und

Mehr lesen »

Was ist Retrieval Augmented Generation (RAG)?

Seit etwa 2 Jahren revolutioniert Retrieval Augmented Generation (RAG) den Einsatz von KI-Systemen in Unternehmen – besonders für Organisationen, die Wert auf Datensicherheit, Kosteneffizienz und digitale Souveränität legen. In diesem Beitrag erklären wir, wie RAG funktioniert, warum dieser Ansatz für Unternehmen so wertvoll ist, und welche konkreten Vorteile der On-Premise-Betrieb

Mehr lesen »

Kontakt

Sie möchten etwas für den Blog beitragen oder haben Fragen?
Senden Sie gerne eine Nachricht.