Notre offre Large Language Model as a Service (LLMaaS) vous permet d’accéder à des modèles de langage de pointe, dont l’inférence est réalisée avec une infrastructure qualifiée SecNumCloud, certifiée HDS pour l’hébergement des données de santé, et donc souveraine, calculée en France. Bénéficiez de performances élevées et d’une sécurité optimale pour vos applications d’IA. Vos données demeurent strictement confidentielles et ne sont ni exploitées, ni stockées après traitement.

Tarification simple et transparente
1.8 €
par million de tokens en entrée
8 €
par million de tokens en sortie
8 €
par million de tokens de raisonnement
0,01 €
par minute audio transcrite *
Calculé sur une infrastructure basée en France, qualifiée SecNumcloud et certifiée HDS.
Note sur le prix "Raisonnement" : Ce prix s'applique spécifiquement aux modèles classifiés comme "raisonneurs" ou "hybrides" (modèles avec la capacité "Raisonnement" activée) lorsque le raisonnement est actif et uniquement sur les tokens liés à cette activité.
* toute minute commencée est comptée

Modèles de grande taille

Nos modèles de grande taille offrent des performances de pointe pour les tâches les plus exigeantes. Ils sont particulièrement adaptés pour les applications nécessitant une compréhension profonde du langage, un raisonnement complexe ou le traitement de documents longs.

18 tokens/seconde

glm-4.7:358b

Modèle polyvalent de haute performance conçu par Zhipu AI, excellent dans le raisonnement logique, la compréhension multilingue et les tâches complexes.
Déployé avec un contexte de 120 000 tokens. Idéal pour l'analyse approfondie de documents longs et les assistants intelligents.
86 tokens/seconde

qwen3-omni:30b

Qwen3-Omni 30B est un modèle omnimodal natif, capable de comprendre le texte, l'image, la vidéo et l'audio dans un même flux.
Il supporte les entrées multimodales (Audio/Vidéo) et offre des capacités de raisonnement avancées. Note : La sortie audio via API n'est pas encore activée.
104 tokens/seconde

gpt-oss:120b

Modèle de langage open-weight de pointe d'OpenAI, offrant de solides performances avec une licence flexible Apache 2.0.
Un modèle Mixture-of-Experts (MoE) de 120 milliards de paramètres avec environ 5.1 milliards de paramètres actifs. Il offre un effort de raisonnement configurable et un accès complet à la chaîne de pensée.
29 tokens/seconde

llama3.3:70b

Modèle multilingue de pointe développé par Meta, conçu pour exceller dans le dialogue naturel, le raisonnement complexe et la compréhension nuancée des instructions.
Combinant une efficacité remarquable avec des ressources computationnelles réduites, ce modèle offre des capacités multilingues étendues couvrant 8 langues majeures (anglais, français, allemand, espagnol, italien, portugais, hindi et thaï). Sa fenêtre contextuelle de 132 000 tokens permet l'analyse approfondie de documents complexes et de conversations longues, tout en maintenant une cohérence globale exceptionnelle. Optimisé pour minimiser les biais et les réponses problématiques.
21 tokens/seconde

gemma3:27b

Modèle révolutionnaire de Google offrant un équilibre optimal entre puissance et efficacité, avec un rapport performance/coût exceptionnel pour les applications professionnelles exigeantes.
Doté d'une efficacité matérielle inégalée, ce modèle intègre des capacités multimodales natives et excelle dans la performance multilingue sur plus de 140 langues. Sa fenêtre contextuelle impressionnante de 120 000 tokens en fait le choix idéal pour l'analyse de documents très volumineux, la recherche documentaire, et toute application nécessitant la compréhension de contextes étendus. Son architecture optimisée permet un déploiement flexible sans compromettre la qualité des résultats.
104 tokens/seconde

qwen3-coder:30b

Modèle MoE optimisé pour les tâches d'ingénierie logicielle, avec un contexte très long.
Capacités agentiques avancées pour les tâches de génie logiciel, support natif d'un contexte de 250K tokens, pré-entraîné sur 7.5T tokens avec un fort ratio de code, et optimisé par apprentissage par renforcement pour améliorer les taux d'exécution de code.
104 tokens/seconde

qwen3-2507:30b-a3b

Version améliorée du mode non-pensée de Qwen3-30B, avec des capacités générales, une couverture de connaissances et un alignement utilisateur améliorés.
Améliorations significatives du suivi d'instructions, du raisonnement, de la compréhension de texte, des mathématiques, du codage et de l'utilisation d'outils. Contexte natif de 250k tokens.
148 tokens/seconde

qwen3-next:80b

Modèle Next 80B de Qwen, optimisé pour les grands contextes et le raisonnement, servi via vLLM (A100).
Variante A3B-Instruct configurée avec un contexte jusqu'à 262k tokens, prise en charge du function calling, guided decoding (xgrammar) et spéculative (qwen3_next_mtp).
43 tokens/seconde

qwen3-vl:30b

Modèle multimodal de pointe (Qwen3-VL) offrant une compréhension visuelle exceptionnelle et un raisonnement temporel précis.
Ce modèle Vision-Language intègre des innovations majeures (DeepStack, MRoPE) pour une analyse fine des images et des vidéos. Il excelle dans l'OCR complexe, la détection d'objets, l'analyse de graphiques et le raisonnement spatio-temporel. Son architecture permet une compréhension native du contenu vidéo et une extraction structurée (JSON) précise.
17 tokens/seconde

qwen3-vl:32b

Variante haute performance de Qwen3-VL, optimisée pour les tâches de vision les plus exigeantes.
Offre les mêmes capacités avancées que le 30B (DeepStack, MRoPE) avec une capacité de modélisation accrue. Particulièrement performant pour les tâches nécessitant une grande finesse d'analyse visuelle et une compréhension contextuelle profonde. Supporte l'alignement texte-timestamp pour la vidéo.
37 tokens/seconde

olmo-3:7b

Modèle "Fully Open" de référence, offrant une transparence totale (données, code, poids) et une efficacité remarquable.
OLMo 3-7B est un modèle dense optimisé pour l'efficacité (2.5x moins de ressources requises que Llama 3.1 8B pour des performances comparables). Il excelle particulièrement en mathématiques et en programmation. Avec sa fenêtre de 65k tokens, il est idéal pour les tâches nécessitant une auditabilité complète.
19 tokens/seconde

olmo-3:32b

Le premier modèle de raisonnement entièrement ouvert à cette échelle, rivalisant avec les meilleurs modèles propriétaires.
OLMo 3-32B utilise une architecture avancée (GQA) pour offrir des capacités de raisonnement exceptionnelles. Il se distingue sur les benchmarks complexes (MATH, HumanEvalPlus) et est capable d'exposer son processus de pensée (variante Think). C'est un choix privilégié pour les tâches critiques nécessitant une haute performance et une transparence totale.
58 tokens/seconde

qwen3-2507:235b

Modèle MoE massif de 235 milliards de paramètres, avec seulement 22 milliards actifs, offrant des performances de pointe.
Architecture Mixture-of-Experts ultra-éparse avec 512 experts. Combine la puissance d'un modèle très large avec l'efficacité d'un modèle plus petit. Excelle en mathématiques, codage et raisonnement logique.
31 tokens/seconde

qwen3-vl:235b

Le modèle multimodal le plus puissant du catalogue, alliant une compréhension visuelle de pointe à des capacités de raisonnement exceptionnelles.
Ce modèle Vision-Language excelle dans l'analyse approfondie de documents complexes, l'OCR multilingue et le raisonnement sur des contenus visuels et textuels denses. Il est dimensionné pour les tâches critiques nécessitant une précision maximale et une compréhension contextuelle étendue.
31 tokens/seconde

ministral-3:14b

Le plus puissant de la famille Ministral, conçu pour les tâches complexes sur infrastructure locale.
Déployé avec un contexte étendu de 250k tokens. Excelle dans le raisonnement complexe et le codage tout en restant efficace.
68.2 tokens/seconde

qwen3:14b

Modèle Qwen3 14B équilibré, offrant de solides performances générales avec une bonne vitesse d'inférence.
Excellent compromis taille/performance. Capable de raisonnement et de codage de bon niveau.
20 tokens/seconde

cogito:32b

Version avancée du modèle Cogito offrant des capacités de raisonnement et d'analyse considérablement amplifiées, conçue pour les applications les plus exigeantes en matière d'intelligence artificielle analytique.
Conçu pour exceller dans les tâches complexes nécessitant une profondeur d'analyse supérieure, ce modèle se distingue par sa capacité à décomposer des problèmes multidimensionnels et à fournir des réponses structurées et argumentées. Il intègre des mécanismes de vérification logique avancés pour minimiser les hallucinations.
89 tokens/seconde

nemotron-3-nano:30b

Modèle NVIDIA optimisé pour le raisonnement complexe et l'utilisation d'outils, déployé avec un contexte étendu.
Utilise l'architecture Nano V3. Excelle dans le function calling, le raisonnement structuré et l'analyse de longs contextes.

Modèles spécialisés

Nos modèles spécialisés sont optimisés pour des tâches spécifiques comme la génération de code, l’analyse d’images ou le traitement de données structurées. Ils offrent un excellent rapport performance/coût pour des cas d’usage ciblés.

50 tokens/seconde

ministral-3:3b

Modèle compact de pointe de Mistral AI, conçu pour l'efficacité sur les déploiements locaux et edge.
Malgré sa petite taille, ce modèle offre des performances surprenantes pour les tâches conversationnelles et le raisonnement simple. Idéal pour les appareils mobiles.
55 tokens/seconde

ministral-3:8b

Modèle de taille intermédiaire de la famille Ministral, offrant un équilibre optimal entre performance et ressources.
Version 8B plus robuste, capable de gérer des contextes plus longs et des raisonnements plus complexes tout en restant très rapide.
53 tokens/seconde

gemma3:1b

Micro-modèle Gemma 3, ultra-rapide et efficace.
Parfait pour les tâches simples, la classification rapide ou l'exécution sur des appareils très contraints.
48.0 tokens/seconde

gemma3:4b

Modèle compact Gemma 3 4B, offrant un excellent ratio performance/taille.
Capable de raisonnement décent et de bonne compréhension linguistique. Un bon candidat pour les assistants locaux plus avancés.

qwen3-embedding:0.6b

Modèle d'embedding Qwen3 ultra-léger, optimisé pour la vitesse et l'efficacité sur les infrastructures à ressources limitées.
Offre un excellent compromis entre performance sémantique et rapidité d'exécution.
196.3 tokens/seconde

granite-embedding:278m

Modèle d'embedding IBM Granite ultra-compact, conçu pour une efficacité maximale.
Idéal pour les tâches de recherche sémantique nécessitant une latence minimale.

qwen3-embedding:4b

Modèle d'embedding Qwen3-4B ultra-performant, offrant une compréhension sémantique profonde et une fenêtre de contexte étendue.
Déployé avec un contexte de 40 000 tokens pour le traitement de documents volumineux.
171 tokens/seconde

bge-m3:567m

Modèle d'embedding multilingue de pointe (BGE-M3), offrant des capacités de recherche sémantique exceptionnelles sur plus de 100 langues.
Déployé avec un contexte de 8192 tokens. Supporte les méthodes de recherche dense, sparse et multi-vectorielle.
175 tokens/seconde

embeddinggemma:300m

Modèle d'embedding de pointe de Google, optimisé pour sa taille, idéal pour les tâches de recherche et de récupération sémantique.
Construit sur Gemma 3, ce modèle produit des représentations vectorielles de texte pour la classification, le clustering et la recherche de similarité. Entraîné sur plus de 100 langues, sa petite taille le rend parfait pour les environnements à ressources limitées.
9 tokens/seconde

gpt-oss:20b

Modèle de langage open-weight d'OpenAI, optimisé pour l'efficacité et le déploiement sur du matériel grand public.
Un modèle Mixture-of-Experts (MoE) de 21 milliards de paramètres avec 3.6 milliards de paramètres actifs. Il offre un effort de raisonnement configurable et des capacités d'agent.
52 tokens/seconde

qwen3-2507-think:4b

Modèle Qwen3-4B optimisé pour le raisonnement, avec des performances améliorées sur les tâches logiques, les mathématiques, la science et le code, et un contexte étendu à 250K tokens.
Cette version "Thinking" dispose d'une longueur de pensée accrue, la rendant idéale pour les tâches de raisonnement très complexes. Elle offre également des améliorations générales en suivi d'instructions, utilisation d'outils et génération de texte.
30 tokens/seconde

qwen3-2507:4b

Version mise à jour du mode non-pensée de Qwen3-4B, avec des améliorations significatives des capacités générales, une couverture de connaissances étendue et un meilleur alignement avec les préférences des utilisateurs.
Améliorations notables du suivi d'instructions, du raisonnement logique, de la compréhension de texte, des mathématiques, du codage et de l'utilisation d'outils. Contexte natif de 250k tokens.
31 tokens/seconde

rnj-1:8b

Modèle 8B "Open Weight" spécialisé dans le code, les mathématiques et les sciences (STEM).
RNJ-1 est un modèle dense de 8.3B paramètres entraîné sur 8.4T tokens. Il utilise l'attention globale et YaRN pour offrir un contexte de 32k tokens. Il excelle dans la génération de code (83.5% HumanEval+) et le raisonnement mathématique, surpassant souvent des modèles beaucoup plus grands.
64 tokens/seconde

qwen3-vl:2b

Modèle multimodal ultra-compact Qwen3-VL, apportant des capacités de vision avancées sur edge devices.
Malgré sa petite taille, ce modèle intègre les technologies Qwen3-VL (MRoPE, DeepStack) pour offrir une analyse d'image et vidéo surprenante. Idéal pour les applications mobiles ou embarquées nécessitant de l'OCR, de la détection d'objets ou de la compréhension visuelle rapide.
57 tokens/seconde

qwen3-vl:4b

Modèle multimodal Qwen3-VL équilibré, offrant de solides performances de vision avec une empreinte réduite.
Excellent compromis entre performance et ressources. Capable d'analyser des documents complexes, des graphiques et des vidéos avec une précision élevée. Supporte l'extraction structurée et le raisonnement visuel.
46 tokens/seconde

qwen3:0.6b

Modèle Qwen3 ultra-léger de 0.6 milliard de paramètres, offrant une vitesse d'inférence exceptionnelle pour les tâches simples et rapides.
Idéal pour le déploiement sur des serveurs légers ou en tant que premier niveau de traitement pour des workflows complexes. Configuré avec un contexte de 40 000 tokens.
44 tokens/seconde

qwen3-vl:8b

Modèle multimodal Qwen3-VL (8B), offrant des performances de vision avancées avec une empreinte raisonnable.
Version 8B du modèle Qwen3-VL. Excellent compromis entre performance et ressources. Capable d'analyser des documents complexes, des graphiques et des vidéos avec une précision élevée.
44 tokens/seconde

devstral:24b

Devstral 24b est un LLM agentique spécialisé pour l'ingénierie logicielle, co-développé par Mistral AI et All Hands AI.
Devstral excelle dans l'utilisation d'outils pour explorer les bases de code, modifier plusieurs fichiers et piloter des agents d'ingénierie. Basé sur Mistral Small 3, il offre des capacités avancées de raisonnement et de codage. Configuré avec les optimiseurs spécifiques Mistral (tokenizer, parser).
23 tokens/seconde

devstral-small-2:24b

Seconde itération de Devstral (Small 2), modèle agentique de pointe pour l'ingénierie logicielle, déployé sur Mac Studio avec un contexte massif.
Optimisé pour l'exploration de codebases, l'édition multi-fichiers et l'utilisation d'outils. Offre des performances proches des modèles >100B pour le code (SWE-bench Verified 68%). Supporte nativement la vision. Déployé avec un contexte étendu de 380k tokens pour traiter des projets entiers.
33 tokens/seconde

granite4-small-h:32b

Modèle MoE (Mixture-of-Experts) d'IBM, conçu comme un "cheval de bataille" pour les tâches d'entreprise quotidiennes, avec une excellente efficacité pour les longs contextes.
Ce modèle hybride (Transformer + Mamba-2) de 32 milliards de paramètres (9B actifs) est optimisé pour les workflows d'entreprise comme les agents multi-outils et l'automatisation du support client. Son architecture innovante réduit de plus de 70% l'utilisation de la RAM pour les longs contextes et les lots multiples.
58 tokens/seconde

granite4-tiny-h:7b

Modèle MoE hybride ultra-efficace d'IBM, conçu pour la faible latence, les applications "edge" et locales, et comme brique de base pour les workflows agentiques.
Ce modèle de 7 milliards de paramètres (1B actifs) combine des couches Transformer et Mamba-2 pour une efficacité maximale. Il réduit l'utilisation de la RAM de plus de 70% pour les longs contextes, le rendant idéal pour les appareils à ressources limitées et les tâches rapides comme le "function calling".
79 tokens/seconde

deepseek-ocr

Modèle OCR spécialisé de DeepSeek, conçu pour une extraction de texte haute précision avec préservation de la mise en forme.
Système OCR en deux étapes (encodeur visuel + décodeur MoE 3B) optimisé pour la conversion de documents en Markdown structuré (tableaux, formules). Nécessite un pré-traitement spécifique (Logits Processor) pour des performances optimales.
22 tokens/seconde

medgemma:27b

MedGemma est un modèle ouvert parmis les plus performants de Google pour la compréhension de textes et d'images médicales, basés sur Gemma 3.
MedGemma est adaptée à des tâches telles que la génération de rapports d'imagerie médicale ou la réponse à des questions en langage naturel sur des images médicales. MedGemma peut être adapté pour des cas d'utilisation nécessitant des connaissances médicales, tels que l'entretien avec les patients, le triage, l'aide à la décision clinique et le résumé. Bien que ses performances de base soient solides, MedGemma n'est pas encore de qualité clinique et nécessitera probablement un affinage supplémentaire. Basé sur l'architecture Gemma 3 (multimodale native), ce modèle 27B intègre un encodeur d'images SigLIP pré-entraîné sur des données médicales. Il supporte un contexte de 128k tokens et est ici en FP16 pour un maximum de précision.
27 tokens/seconde

mistral-small3.2:24b

Mise à jour mineure de Mistral Small 3.1, améliorant le suivi d'instructions, la robustesse du function calling et réduisant les erreurs de répétition.
Cette version 3.2 conserve les forces de son prédécesseur tout en apportant des améliorations ciblées. Elle est plus apte à suivre des instructions précises, produit moins de générations infinies ou de réponses répétitives, et son template pour le function calling est plus robuste. Pour les autres aspects, ses performances sont équivalentes ou légèrement supérieures à la version 3.1.

Comparaison des modèles

Ce tableau comparatif vous aide à choisir le modèle le plus adapté à vos besoins en fonction de différents critères comme la taille du contexte, les performances et les cas d’usage spécifiques.

Tableau comparatif des caractéristiques et performances des différents modèles d'IA disponibles, regroupés par catégorie (modèles de grande taille et modèles spécialisés).
Modèle Editeur Paramètres Contexte (k tokens) Vision Agent Raisonnement Sécurité Rapide * Efficience énergétique *
Modèles de grande taille
glm-4.7:358b Zhipu AI 358B 120000
qwen3-omni:30b Qwen Team 30B 32768
gpt-oss:120b OpenAI 120B 120000
llama3.3:70b Meta 70B 132000
gemma3:27b Google 27B 120000
qwen3-coder:30b Qwen Team 30B 250000
qwen3-2507:30b-a3b Qwen Team 30B 250000
qwen3-next:80b Qwen Team 80B 262144
qwen3-vl:30b Qwen Team 30B 250000
qwen3-vl:32b Qwen Team 32B 250000
olmo-3:7b AllenAI 7B 65536
olmo-3:32b AllenAI 32B 65536
qwen3-2507:235b Qwen Team 235B 130000
qwen3-vl:235b Qwen Team 235B 200000
ministral-3:14b Mistral AI 14B 250000
qwen3:14b Qwen Team 14B 131072
cogito:32b Deep Cogito 32B 32000
nemotron-3-nano:30b NVIDIA 30B 250000
Modèles spécialisés
ministral-3:3b Mistral AI 3B 250000
ministral-3:8b Mistral AI 8B 250000
gemma3:1b Google 1B 120000
gemma3:4b Google 4B 120000
qwen3-embedding:0.6b Qwen Team 0.6B 32768
granite-embedding:278m IBM 278M 8192
qwen3-embedding:4b Qwen Team 4B 40000
bge-m3:567m BAAI 567M 8192
embeddinggemma:300m Google 300M 2048
gpt-oss:20b OpenAI 20B 120000
qwen3-2507-think:4b Qwen Team 4B 250000
qwen3-2507:4b Qwen Team 4B 250000
rnj-1:8b Essential AI 8B 32000
qwen3-vl:2b Qwen Team 2B 250000
qwen3-vl:4b Qwen Team 4B 250000
qwen3:0.6b Qwen Team 0.6B 40000
qwen3-vl:8b Qwen Team 8B 250000
devstral:24b Mistral AI & All Hands AI 24B 120000
devstral-small-2:24b Mistral AI & All Hands AI 24B 380000
granite4-small-h:32b IBM 32B (9B actifs) 128000
granite4-tiny-h:7b IBM 7B (1B actif) 128000
deepseek-ocr DeepSeek AI 3B 8192
medgemma:27b Google 27B 128000
mistral-small3.2:24b Mistral AI 24B 128000
Légende et explication
: Fonctionnalité ou capacité supportée par le modèle
: Fonctionnalité ou capacité non supportée par le modèle
* Efficience énergétique : Indique une consommation énergétique particulièrement faible (< 2.0 kWh/Mtoken)
* Rapide : Modèle capable de générer plus de 50 tokens par seconde
Note sur les mesures de performance
Les valeurs de vitesse (tokens/s) représentent des cibles de performance en conditions réelles. La consommation énergétique (kWh/Mtoken) est calculée en divisant la puissance estimée du serveur d'inférence (en Watts) par la vitesse mesurée du modèle (en tokens/seconde), puis convertie en kilowattheures par million de tokens (division par 3.6). Cette méthode offre une comparaison pratique de l'efficience énergétique des différents modèles, à utiliser comme indicateur relatif plutôt que comme mesure absolue de la consommation électrique.

Cas d'usage recommandés

Voici quelques cas d’usage courants et les modèles les plus adaptés pour chacun d’entre eux. Ces recommandations sont basées sur les performances et les capacités spécifiques de chaque modèle.

Dialogue multilingue

Chatbots et assistants capables de communiquer dans plusieurs langues avec détection automatique, maintien du contexte sur l'ensemble de la conversation et compréhension des spécificités linguistiques
Modèles recommandés
  • Llama 3.3
  • Mistral Small 3.2
  • Qwen 3
  • Openai OSS
  • Granite 4

Analyse de documents longs

Traitement de documents volumineux (>100 pages) avec maintien du contexte sur l'ensemble du texte, extraction d'informations clés, génération de résumés pertinents et réponse à des questions spécifiques sur le contenu
Modèles recommandés
  • Gemma 3
  • Qwen next
  • Qwen 3
  • Granite 4

Programmation et développement

Génération et optimisation de code dans multiples langages, débogage, refactoring, développement de fonctionnalités complètes, compréhension des implémentations algorithmiques complexes et création de tests unitaires
Modèles recommandés
  • DeepCoder
  • Qwen3 coder
  • Granite 4
  • Devstral

Analyse visuelle

Traitement direct d'images et documents visuels sans pré-traitement OCR, interprétation de diagrammes techniques, graphiques, tableaux, dessins et photos avec génération d'explications textuelles détaillées du contenu visuel
Modèles recommandés
  • deepseek-OCR
  • Mistral Small 3.2
  • Gemma 3
  • Qwen 3 VL

Sécurité et conformité

Applications nécessitant des capacités spécifiques en matière de sécurité ; filtrage de contenu sensible, traçabilité des raisonnements, vérification RGPD/HDS, minimisation des risques, analyse des vulnérabilités et respect des réglementations sectorielles
Modèles recommandés
  • Granite Guardian
  • Granite 4
  • Devstral
  • Mistral Small 3.2
  • Magistral small

Déploiements légers et embarqués

Applications nécessitant une empreinte minimale en ressources, déploiement sur appareils à capacité limitée, inférence en temps réel sur CPU standard et intégration dans des systèmes embarqués ou IoT
Modèles recommandés
  • Gemma 3n
  • Granite 4 tiny
  • Qwen 3 VL (2B)
Contactez nos équipes !
Politique en matière de cookies

Nous utilisons des cookies pour vous offrir la meilleure expérience possible sur notre site mais nous ne prélevons aucune donnée à caractère personnel.

Les services de mesure d’audience, nécessaires au fonctionnement et à l’amélioration de notre site, ne permettent pas de vous identifier personnellement. Vous avez cependant la possibilité de vous opposer à leur usage.

Pour plus d’informations, consultez notre politique de confidentialité.