Unser Large Language Model as a Service (LLMaaS)-Angebot ermöglicht Ihnen den Zugriff auf hochmoderne Sprachmodelle, deren Inferenz mit einer qualifizierten SecNumCloud-Infrastruktur durchgeführt wird, die für das Hosting von Gesundheitsdaten HDS-zertifiziert und damit souverän ist und in Frankreich berechnet wird. Profitieren Sie von einer hohen Leistung und optimaler Sicherheit für Ihre KI-Anwendungen. Ihre Daten bleiben streng vertraulich und werden nach der Verarbeitung weder ausgewertet noch gespeichert.

Einfache und transparente Preisgestaltung
1.8 €
pro Million eingegebener Token
8 €
pro Million ausgegebener Token
8 €
pro Million Reasoning-Tokens
0,01 €
pro transkribierter Audiominute *
Berechnet auf einer in Frankreich ansässigen, SecNumcloud-qualifizierten und HDS-zertifizierten Infrastruktur.
Note zum Preis "Argumentation" : Dieser Preis gilt speziell für Modelle, die als "Reasoner" oder "Hybrid" klassifiziert sind (Modelle mit aktivierter Fähigkeit "Reasoning"), wenn "Reasoning" aktiv ist, und nur auf Token, die mit dieser Aktivität verbunden sind.
* jede angefangene Minute wird gezählt

Große Modelle

Unsere großen Modelle bieten Spitzenleistungen für die anspruchsvollsten Aufgaben. Sie eignen sich besonders für Anwendungen, die ein tiefes Sprachverständnis, komplexes Denken oder die Verarbeitung langer Dokumente erfordern.

18 Token/Sekunde

glm-4.7:358b

Von Zhipu AI entwickeltes vielseitiges Hochleistungsmodell, das sich bei logischem Denken, mehrsprachigem Verständnis und komplexen Aufgaben auszeichnet.
Eingesetzt mit einem Kontext von 120.000 Token. Ideal für die gründliche Analyse langer Dokumente und intelligente Assistenten.
86 Token/Sekunde

qwen3-omni:30b

Qwen3-Omni 30B ist ein natives omnimodales Modell, das Text, Bild, Video und Audio in einem einzigen Stream verstehen kann.
Es unterstützt multimodale Eingänge (Audio/Video) und bietet erweiterte Fähigkeiten für Schlussfolgerungen. Hinweis: Die Audioausgabe über API ist noch nicht aktiviert.
104 Token/Sekunde

gpt-oss:120b

OpenAIs hochmodernes Open-Weight-Sprachmodell, das solide Leistung mit einer flexiblen Apache-2.0-Lizenz bietet.
Ein Mixture-of-Experts-Modell (MoE) mit 120 Milliarden Parametern und etwa 5,1 Milliarden aktiven Parametern. Es bietet einen konfigurierbaren Argumentationsaufwand und vollen Zugriff auf die Gedankenkette.
29 Token/Sekunde

llama3.3:70b

Ein von Meta entwickeltes, hochmodernes mehrsprachiges Modell, das sich durch natürlichen Dialog, komplexe Argumentation und nuanciertes Verständnis von Anweisungen auszeichnet.
Durch die Kombination von bemerkenswerter Effizienz mit geringen Rechenressourcen bietet dieses Modell umfangreiche mehrsprachige Fähigkeiten, die acht Hauptsprachen (Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Hindi und Thai) abdecken. Sein Kontextfenster mit 132.000 Token ermöglicht die gründliche Analyse komplexer Dokumente und langer Konversationen, wobei eine außergewöhnliche Gesamtkonsistenz gewahrt bleibt. Optimiert zur Minimierung von Verzerrungen und problematischen Antworten.
21 Token/Sekunde

gemma3:27b

Googles revolutionäres Modell, das ein optimales Gleichgewicht zwischen Leistung und Effizienz bietet und ein hervorragendes Preis-Leistungs-Verhältnis für anspruchsvolle Geschäftsanwendungen bietet.
Dieses Modell mit seiner unübertroffenen Hardware-Effizienz verfügt über native multimodale Fähigkeiten und zeichnet sich durch mehrsprachige Leistung in über 140 Sprachen aus. Das beeindruckende Kontextfenster mit 120.000 Token macht sie zur idealen Wahl für die Analyse sehr umfangreicher Dokumente, die Suche nach Dokumenten und alle Anwendungen, die das Verständnis erweiterter Kontexte erfordern. Seine optimierte Architektur ermöglicht einen flexiblen Einsatz, ohne die Qualität der Ergebnisse zu beeinträchtigen.
104 Token/Sekunde

qwen3-coder:30b

MoE-Modell, das für Aufgaben der Softwareentwicklung mit einem sehr langen Kontext optimiert ist.
Erweiterte agentische Fähigkeiten für Software-Engineering-Aufgaben, native Unterstützung für einen Kontext von 250K Token, vorab trainiert auf 7,5T Token mit einer hohen Code-Rate und optimiert durch Reinforcement Learning zur Verbesserung der Code-Ausführungsraten.
104 Token/Sekunde

qwen3-2507:30b-a3b

Verbesserte Version des Nicht-Denken-Modus von Qwen3-30B, mit verbesserten allgemeinen Fähigkeiten, Wissensabdeckung und Benutzerausrichtung.
Signifikante Verbesserungen bei der Befolgung von Anweisungen, beim logischen Denken, beim Textverständnis, in Mathematik, beim Verschlüsseln und bei der Verwendung von Werkzeugen. Nativer Kontext von 250k Token.
148 Token/Sekunde

qwen3-next:80b

Qwens Modell Next 80B, optimiert für große Kontexte und Argumentation, bedient über vLLM (A100).
Variante A3B-Instruct konfiguriert mit einem Kontext von bis zu 262k Token, Unterstützung von Function Calling, Guided Decoding (xgrammar) und Speculative (qwen3_next_mtp).
43 Token/Sekunde

qwen3-vl:30b

Modernstes multimodales Modell (Qwen3-VL) mit außergewöhnlichem visuellen Verständnis und präzisem zeitlichen Denken.
Dieses Vision-Language-Modell integriert wichtige Innovationen (DeepStack, MRoPE) für eine detaillierte Analyse von Bildern und Videos. Es zeichnet sich durch komplexe OCR, Objekterkennung, Grafikanalyse und räumlich-zeitliches Denken aus. Seine Architektur ermöglicht ein natives Verständnis von Videoinhalten und eine präzise strukturierte Extraktion (JSON).
17 Token/Sekunde

qwen3-vl:32b

Hochleistungsvariante von Qwen3-VL, optimiert für anspruchsvollste Bildverarbeitungsaufgaben.
Bietet dieselben erweiterten Funktionen wie das Modell 30B (DeepStack, MRoPE) mit einer verbesserten Modellierungskapazität. Besonders leistungsstark bei Aufgaben, die eine hohe visuelle Analysefähigkeit und ein tiefes Kontextverständnis erfordern. Unterstützt die Text-Zeitstempel-Ausrichtung für Videos.
37 Token/Sekunde

Olmo 3:7b

Referenzmodell "Fully Open" mit vollständiger Transparenz (Daten, Code, Gewicht) und bemerkenswerter Effizienz.
OLMo 3-7B ist ein dichtes Modell, das auf Effizienz optimiert ist (2,5-mal weniger Ressourcen erforderlich als Llama 3.1 8B bei vergleichbarer Leistung). Es zeichnet sich besonders in Mathematik und Programmierung aus. Mit seinem Fenster von 65k Tokens ist es ideal für Aufgaben, die eine vollständige Überprüfbarkeit erfordern.
19 Token/Sekunde

Olmo 3:32b

Das erste vollständig offene Modell dieser Größenordnung, das mit den besten proprietären Modellen konkurriert.
OLMo 3-32B nutzt eine fortschrittliche Architektur (GQA), um außergewöhnliche Denkfähigkeiten zu bieten. Es zeichnet sich bei komplexen Benchmarks (MATH, HumanEvalPlus) aus und ist in der Lage, seinen Denkprozess offenzulegen (Think-Variante). Es ist die erste Wahl für kritische Aufgaben, die eine hohe Leistung und vollständige Transparenz erfordern.
58 Token/Sekunde

qwen3-2507:235b

Massives MoE-Modell mit 235 Milliarden Parametern, von denen nur 22 Milliarden aktiv sind, bietet Spitzenleistung.
Ultra-spärliche Mixture-of-Experts-Architektur mit 512 Experten. Kombiniert die Leistungsfähigkeit eines sehr großen Modells mit der Effizienz eines kleineren Modells. Hervorragend geeignet für Mathematik, Codierung und logisches Denken.
31 Token/Sekunde

qwen3-vl:235b

Das leistungsstärkste multimodale Modell im Katalog, das modernstes visuelles Verständnis mit außergewöhnlichen Denkfähigkeiten verbindet.
Dieses Vision-Language-Modell zeichnet sich durch die gründliche Analyse komplexer Dokumente, die mehrsprachige OCR und die Argumentation bei dichten visuellen und textlichen Inhalten aus. Es ist für kritische Aufgaben dimensioniert, die höchste Genauigkeit und ein erweitertes Kontextverständnis erfordern.
31 Token/Sekunde

ministral-3:14b

Das leistungsstärkste Modell der Ministral-Familie, entwickelt für komplexe Aufgaben in lokalen Infrastrukturen.
Wird mit einem erweiterten Kontext von 250k Token eingesetzt. Exzellent bei komplexem Denken und Verschlüsseln und dabei effizient.
68.2 Token/Sekunde

qwen3:14b

Ausgewogenes Modell Qwen3 14B, das eine solide Gesamtleistung mit einer guten Inferenzgeschwindigkeit bietet.
Ausgezeichneter Kompromiss zwischen Größe und Leistung. Kann auf gutem Niveau argumentieren und kodieren.
20 Token/Sekunde

cogito:32b

Erweiterte Version des Cogito-Modells mit erheblich erweiterten Denk- und Analysefähigkeiten, die für die anspruchsvollsten Anwendungen im Bereich der analytischen künstlichen Intelligenz entwickelt wurde.
Dieses Modell wurde entwickelt, um bei komplexen Aufgaben, die eine überlegene analytische Tiefe erfordern, zu glänzen. Es zeichnet sich durch seine Fähigkeit aus, mehrdimensionale Probleme aufzuschlüsseln und strukturierte, begründete Antworten zu geben. Es enthält fortschrittliche logische Überprüfungsmechanismen, um Halluzinationen zu minimieren.
89 Token/Sekunde

nemotron-3-nano:30b

NVIDIA-Modell, das für komplexes Denken und die Verwendung von Werkzeugen optimiert ist und mit einem erweiterten Kontext eingesetzt wird.
Verwendet die Nano V3-Architektur. Herausragend bei Function Calling, strukturiertem Denken und der Analyse langer Zusammenhänge.

Spezialisierte Vorlagen

Unsere spezialisierten Modelle sind für bestimmte Aufgaben wie Code-Generierung, Bildanalyse oder die Verarbeitung strukturierter Daten optimiert. Sie bieten ein hervorragendes Verhältnis von Leistung und Kosten für gezielte Anwendungsfälle.

50 Token/Sekunde

ministral-3:3b

Kompaktes Spitzenmodell von Mistral AI, entwickelt für Effizienz bei lokalen und Edge-Implementierungen.
Trotz seiner geringen Größe bietet dieses Modell eine erstaunliche Leistung bei Konversationsaufgaben und einfachem Denken. Ideal für mobile Geräte.
55 Token/Sekunde

Ministral-3:8b

Mittleres Modell der Ministral-Familie, das ein optimales Gleichgewicht zwischen Leistung und Ressourcen bietet.
Robustere Version 8B, die mit längeren Kontexten und komplexeren Argumentationen umgehen kann und dabei sehr schnell bleibt.
53 Token/Sekunde

gemma3:1b

Mikro-Modell Gemma 3, ultraschnell und effizient.
Perfekt für einfache Aufgaben, schnelle Klassifizierung oder die Ausführung auf stark eingeschränkten Geräten.
48.0 Token/Sekunde

gemma3:4b

Kompaktes Modell Gemma 3 4B, das ein hervorragendes Verhältnis von Leistung und Größe bietet.
Fähigkeit zu anständigem logischen Denken und gutem Sprachverständnis. Ein guter Kandidat für fortgeschrittenere Ortsassistenten.

qwen3-Einbettung: 0.6b

Ultraleichtes Qwen3-Embedding-Modell, optimiert für Geschwindigkeit und Effizienz in Infrastrukturen mit begrenzten Ressourcen.
Bietet einen hervorragenden Kompromiss zwischen semantischer Leistung und schneller Ausführung.
196.3 Token/Sekunde

granite-embedding:278m

Ultrakompaktes IBM Granite-Embedding-Modell, das auf maximale Effizienz ausgelegt ist.
Ideal für semantische Suchaufgaben, die eine minimale Latenz erfordern.

qwen3-Einbettung:4b

Extrem leistungsstarkes Qwen3-4B-Einbettungsmodell, das ein tiefes semantisches Verständnis und ein erweitertes Kontextfenster bietet.
Eingesetzt mit einem Kontext von 40.000 Token für die Verarbeitung umfangreicher Dokumente.
171 Token/Sekunde

bge-m3:567m

Modernstes mehrsprachiges Einbettungsmodell (BGE-M3) mit außergewöhnlichen semantischen Suchmöglichkeiten in über 100 Sprachen.
Wird mit einem Kontext von 8192 Token eingesetzt. Unterstützt dense, sparse und multi-vektorielle Suchmethoden.
175 Token/Sekunde

embeddinggemma:300m

Googles hochmodernes, größenoptimiertes Einbettungsmodell, das sich ideal für semantische Such- und Abrufaufgaben eignet.
Aufgebaut auf Gemma 3, erzeugt dieses Modell vektorbasierte Textdarstellungen für Klassifizierung, Clustering und Ähnlichkeitssuche. Es wurde mit über 100 Sprachen trainiert und eignet sich aufgrund seiner geringen Größe perfekt für Umgebungen mit begrenzten Ressourcen.
9 Token/Sekunde

gpt-oss:20b

OpenAIs open-weight-Sprachmodell, optimiert für Effizienz und den Einsatz auf Consumer-Hardware.
Ein Mixture-of-Experts-Modell (MoE) mit 21 Milliarden Parametern und 3,6 Milliarden aktiven Parametern. Es bietet einen konfigurierbaren Argumentationsaufwand und Agentenfähigkeiten.
52 Token/Sekunde

qwen3-2507-think:4b

Für das logische Denken optimiertes Qwen3-4B-Modell mit verbesserter Leistung bei logischen Aufgaben, Mathematik, Wissenschaft und Code sowie einem auf 250K Token erweiterten Kontext.
Diese Version "Thinking" verfügt über eine erhöhte Gedankenlänge, wodurch sie sich ideal für sehr komplexe Denkaufgaben eignet. Sie bietet außerdem allgemeine Verbesserungen bei der Befolgung von Anweisungen, der Verwendung von Werkzeugen und der Texterzeugung.
30 Token/Sekunde

qwen3-2507:4b

Aktualisierte Version des Nicht-Denken-Modus von Qwen3-4B mit deutlichen Verbesserungen der allgemeinen Fähigkeiten, einer erweiterten Wissensabdeckung und einer besseren Ausrichtung auf die Präferenzen der Nutzer.
Deutliche Verbesserungen bei der Befolgung von Anweisungen, logischem Denken, Textverständnis, Mathematik, Verschlüsselung und der Verwendung von Werkzeugen. Nativer Kontext von 250k Token.
31 Token/Sekunde

rnj-1:8b

Modell 8B "Open Weight" mit Schwerpunkt auf Programmierung, Mathematik und Naturwissenschaften (STEM).
RNJ-1 ist ein dichtes Modell mit 8,3 Milliarden Parametern, das auf 8,4 Billionen Tokens trainiert wurde. Es nutzt globale Aufmerksamkeit und YaRN, um einen Kontext von 32.000 Tokens zu bieten. Es zeichnet sich durch seine Fähigkeiten in der Code-Generierung (83,51 TP3T HumanEval+) und im mathematischen Denken aus und übertrifft dabei oft viel größere Modelle.
64 Token/Sekunde

qwen3-vl:2b

Ultrakompaktes multimodales Modell Qwen3-VL, das Edge-Geräten fortschrittliche Bildverarbeitungsfunktionen verleiht.
Trotz seiner geringen Größe verfügt dieses Modell über die Technologien Qwen3-VL (MRoPE, DeepStack) und bietet eine beeindruckende Bild- und Videoanalyse. Ideal für mobile oder eingebettete Anwendungen, die OCR, Objekterkennung oder schnelles visuelles Verständnis erfordern.
57 Token/Sekunde

qwen3-vl:4b

Ausgewogenes multimodales Modell Qwen3-VL, das solide Bildverarbeitungsleistung bei geringem Platzbedarf bietet.
Hervorragender Kompromiss zwischen Leistung und Ressourcen. Kann komplexe Dokumente, Grafiken und Videos mit hoher Genauigkeit analysieren. Unterstützt strukturierte Extraktion und visuelles Denken.
46 Token/Sekunde

qwen3:0.6b

Ultraleichtes Qwen3-Modell mit 0,6 Milliarden Parametern, das eine außergewöhnliche Inferenzgeschwindigkeit für einfache und schnelle Aufgaben bietet.
Ideal für den Einsatz auf schlanken Servern oder als erste Verarbeitungsstufe für komplexe Workflows. Konfiguriert mit einem Kontext von 40.000 Token.
44 Token/Sekunde

qwen3-vl:8b

Multimodales Modell Qwen3-VL (8B), das fortschrittliche Bildverarbeitungsleistung bei einem angemessenen Fußabdruck bietet.
8B-Version des Modells Qwen3-VL. Ausgezeichneter Kompromiss zwischen Leistung und Ressourcen. In der Lage, komplexe Dokumente, Grafiken und Videos mit hoher Genauigkeit zu analysieren.
44 Token/Sekunde

devstral:24b

Devstral 24b ist ein auf Software-Engineering spezialisierter agentischer LLM, der von Mistral AI und All Hands AI mitentwickelt wurde.
Devstral zeichnet sich durch Werkzeuge aus, mit denen man Codebasen durchsuchen, mehrere Dateien bearbeiten und Engineering-Agenten steuern kann. Es basiert auf Mistral Small 3 und bietet fortgeschrittene Denk- und Kodierfähigkeiten. Konfiguriert mit den Mistral-spezifischen Optimierern (Tokenizer, Parser).
23 Token/Sekunde

devstral-small-2:24b

Zweite Iteration von Devstral (Small 2), einem hochmodernen agentenbasierten Modell für die Softwareentwicklung, das auf Mac Studio in einem umfangreichen Kontext eingesetzt wird.
Optimiert für die Erkundung von Codebasen, die Bearbeitung mehrerer Dateien und die Verwendung von Tools. Bietet eine Leistung, die der von Modellen >100B für Code nahekommt (SWE-bench Verified 68%). Unterstützt nativ das Sehen. Wird mit einem erweiterten Kontext von 380k Tokens bereitgestellt, um ganze Projekte zu verarbeiten.
33 Token/Sekunde

granite4-small-h:32b

MoE-Modell (Mixture-of-Experts) von IBM, das als "Arbeitspferd" für alltägliche Unternehmensaufgaben konzipiert ist und eine hervorragende Effizienz bei langen Kontexten aufweist.
Dieses Hybridmodell (Transformer + Mamba-2) mit 32 Milliarden Parametern (9B aktiv) ist für Unternehmens-Workflows wie Multi-Tool-Agenten und die Automatisierung des Kundensupports optimiert. Seine innovative Architektur reduziert die RAM-Nutzung bei langen Kontexten und mehreren Batches um mehr als 70%.
58 Token/Sekunde

granite4-tiny-h:7b

IBMs hocheffizientes Hybrid-MoE-Modell, das für niedrige Latenz, "Edge"- und lokale Anwendungen und als Grundbaustein für agentische Workflows entwickelt wurde.
Dieses Modell mit 7 Milliarden Parametern (1B aktiv) kombiniert Transformer- und Mamba-2-Schichten für maximale Effizienz. Es reduziert die RAM-Nutzung um mehr als 70% bei langen Kontexten und ist damit ideal für Geräte mit begrenzten Ressourcen und schnelle Aufgaben wie "function calling".
79 Token/Sekunde

deepseek-ocr

Spezialisiertes OCR-Modell von DeepSeek, das für eine hochpräzise Textextraktion unter Beibehaltung der Formatierung entwickelt wurde.
Zweistufiges OCR-System (visueller Encoder + MoE 3B Decoder), das für die Umwandlung von Dokumenten in strukturiertes Markdown (Tabellen, Formeln) optimiert ist. Erfordert eine spezielle Vorverarbeitung (Logits Processor) für optimale Leistung.
22 Token/Sekunde

medgemma:27b

MedGemma ist eines der leistungsfähigsten offenen Modelle von Google zum Verstehen von medizinischen Texten und Bildern, das auf Gemma 3 basiert.
MedGemma eignet sich für Aufgaben wie die Erstellung von Berichten über medizinische Bildgebung oder die Beantwortung von Fragen zu medizinischen Bildern in natürlicher Sprache. MedGemma kann für Anwendungsfälle angepasst werden, die medizinisches Wissen erfordern, wie z. B. Patientengespräche, Triage, Unterstützung bei der klinischen Entscheidungsfindung und Zusammenfassung. Obwohl seine Grundleistung solide ist, ist MedGemma noch nicht von klinischer Qualität und wird wahrscheinlich noch weiter verfeinert werden müssen. Basierend auf der Gemma-3-Architektur (nativ multimodal) enthält dieses Modell 27B einen SigLIP-Bildkodierer, der auf medizinischen Daten vortrainiert ist. Er unterstützt einen Kontext von 128k Token und ist hier in FP16 für maximale Genauigkeit.
27 Token/Sekunde

mistral-small3.2:24b

Kleines Update von Mistral Small 3.1, das die Verfolgung von Anweisungen und die Robustheit des Function Calling verbessert und Wiederholungsfehler reduziert.
Diese Version 3.2 behält die Stärken ihres Vorgängers bei und bringt gleichzeitig gezielte Verbesserungen mit sich. Sie kann präzisen Anweisungen besser folgen, produziert weniger unendliche Generationen oder sich wiederholende Antworten und ihre Schablone für Function Calling ist robuster. In den anderen Bereichen ist ihre Leistung gleichwertig oder leicht besser als die der Version 3.1.

Vergleich der Modelle

Diese Vergleichstabelle hilft Ihnen bei der Auswahl des für Sie am besten geeigneten Modells anhand verschiedener Kriterien wie Kontextgröße, Leistung und spezifische Anwendungsfälle.

Vergleichende Tabelle der Merkmale und Leistungen der verschiedenen verfügbaren KI-Modelle, gruppiert nach Kategorien (große Modelle und spezialisierte Modelle).
Modell Herausgeber Einstellungen Kontext (k tokens) Vision Agent Argumentation Sicherheit Schnell * Energieeffizienz *
Große Modelle
glm-4.7:358b Zhipu AI 358B 120000
qwen3-omni:30b Qwen Team 30B 32768
gpt-oss:120b OpenAI 120B 120000
llama3.3:70b Meta 70B 132000
gemma3:27b Google 27B 120000
qwen3-coder:30b Qwen Team 30B 250000
qwen3-2507:30b-a3b Qwen Team 30B 250000
qwen3-next:80b Qwen Team 80B 262144
qwen3-vl:30b Qwen Team 30B 250000
qwen3-vl:32b Qwen Team 32B 250000
Olmo 3:7b AllenAI 7B 65536
Olmo 3:32b AllenAI 32B 65536
qwen3-2507:235b Qwen Team 235B 130000
qwen3-vl:235b Qwen Team 235B 200000
ministral-3:14b Mistral AI 14B 250000
qwen3:14b Qwen Team 14B 131072
cogito:32b Deep Cogito 32B 32000
nemotron-3-nano:30b NVIDIA 30B 250000
Spezialisierte Vorlagen
ministral-3:3b Mistral AI 3B 250000
Ministral-3:8b Mistral AI 8B 250000
gemma3:1b Google 1B 120000
gemma3:4b Google 4B 120000
qwen3-Einbettung: 0.6b Qwen Team 0.6B 32768
granite-embedding:278m IBM 278M 8192
qwen3-Einbettung:4b Qwen Team 4B 40000
bge-m3:567m BAAI 567M 8192
embeddinggemma:300m Google 300M 2048
gpt-oss:20b OpenAI 20B 120000
qwen3-2507-think:4b Qwen Team 4B 250000
qwen3-2507:4b Qwen Team 4B 250000
rnj-1:8b Essential AI 8B 32000
qwen3-vl:2b Qwen Team 2B 250000
qwen3-vl:4b Qwen Team 4B 250000
qwen3:0.6b Qwen Team 0.6B 40000
qwen3-vl:8b Qwen Team 8B 250000
devstral:24b Mistral AI & All Hands AI 24B 120000
devstral-small-2:24b Mistral AI & All Hands AI 24B 380000
granite4-small-h:32b IBM 32B (9B aktiv) 128000
granite4-tiny-h:7b IBM 7B (1B aktiv) 128000
deepseek-ocr DeepSeek AI 3B 8192
medgemma:27b Google 27B 128000
mistral-small3.2:24b Mistral AI 24B 128000
Legende und Erklärung
: Von der Vorlage unterstützte Funktionalität oder Fähigkeit
: Feature oder Fähigkeit, die von der Vorlage nicht unterstützt wird
* Energieeffizienz : Zeigt einen besonders niedrigen Energieverbrauch an (< 2.0 kWh/Mtoken)
* Schnell : Modell, das in der Lage ist, mehr als 50 Token pro Sekunde zu erzeugen
Anmerkung zu den Leistungsmessungen
Die Geschwindigkeitswerte (Token/s) stellen Leistungsziele unter realen Bedingungen dar. Der Energieverbrauch (kWh/Mtoken) wird berechnet, indem die geschätzte Leistung des Inferenzservers (in Watt) durch die gemessene Geschwindigkeit des Modells (in Token/Sekunde) dividiert und dann in Kilowattstunden pro Million Token umgerechnet wird (Division durch 3,6). Diese Methode bietet einen praktischen Vergleich der Energieeffizienz verschiedener Modelle, der als relativer Indikator und nicht als absolutes Maß für den Stromverbrauch verwendet werden sollte.

Empfohlene Anwendungsfälle

Im Folgenden finden Sie einige häufige Anwendungsfälle und die dafür jeweils am besten geeigneten Modelle. Diese Empfehlungen basieren auf der spezifischen Leistung und den Fähigkeiten der einzelnen Modelle.

Mehrsprachiger Dialog

Chatbots und Assistenten, die in mehreren Sprachen kommunizieren können, mit automatischer Erkennung, Aufrechterhaltung des Kontexts über die gesamte Konversation hinweg und Verständnis für sprachliche Besonderheiten
Empfohlene Modelle
  • Llama 3.3
  • Mistral Small 3.2
  • Qwen 3
  • Openai OSS
  • Granit 4

Analyse langer Dokumente

Verarbeitung umfangreicher Dokumente (>100 Seiten) mit Kontexterhaltung über den gesamten Text, Extraktion von Schlüsselinformationen, Generierung relevanter Zusammenfassungen und Beantwortung spezifischer Fragen zum Inhalt
Empfohlene Modelle
  • Gemma 3
  • Qwen next
  • Qwen 3
  • Granit 4

Programmierung und Entwicklung

Generierung und Optimierung von Code in mehreren Sprachen, Debugging, Refactoring, Entwicklung vollständiger Funktionen, Verständnis komplexer algorithmischer Implementierungen und Erstellung von Unit-Tests
Empfohlene Modelle
  • DeepCoder
  • Qwen3 kodieren
  • Granit 4
  • Devstral

Visuelle Analyse

Direkte Verarbeitung von Bildern und visuellen Dokumenten ohne OCR-Vorverarbeitung, Interpretation von technischen Diagrammen, Grafiken, Tabellen, Zeichnungen und Fotos mit Generierung von detaillierten Texterklärungen zum visuellen Inhalt.
Empfohlene Modelle
  • deepseek-OCR
  • Mistral Small 3.2
  • Gemma 3
  • Qwen 3 VL

Sicherheit und Compliance

Anwendungen, die spezifische Sicherheitsfunktionen erfordern; Filterung sensibler Inhalte, Nachvollziehbarkeit der Argumentation, Überprüfung der DSGVO/HDS, Risikominimierung, Schwachstellenanalyse und Einhaltung von Branchenvorschriften
Empfohlene Modelle
  • Granite Guardian
  • Granit 4
  • Devstral
  • Mistral Small 3.2
  • Magistral small

Leichte und eingebettete Einsätze

Anwendungen, die einen minimalen Ressourcen-Fußabdruck erfordern, Einsatz auf Geräten mit begrenzter Kapazität, Echtzeit-Inferenz auf Standard-CPUs und Integration in eingebettete oder IoT-Systeme.
Empfohlene Modelle
  • Gemma 3n
  • Granit 4 tiny
  • Qwen 3 VL (2B)
Kontaktieren Sie unser Team!
Cookie-Richtlinie

Wir verwenden Cookies, um Ihnen die bestmögliche Erfahrung auf unserer Seite zu bieten, erheben aber keine personenbezogenen Daten.

Die Dienste zur Messung des Publikums, die für den Betrieb und die Verbesserung unserer Website erforderlich sind, ermöglichen es nicht, Sie persönlich zu identifizieren. Sie haben jedoch die Möglichkeit, sich ihrer Nutzung zu widersetzen.

Weitere Informationen finden Sie in unserem Datenschutzrichtlinie.