Cette page a été traduite par l'API Cloud Translation.

Modèles Mistral AI

Les modèles Mistral AI sur Vertex AI offrent des modèles sans serveur et entièrement gérés en tant qu'API. Pour utiliser un modèle Mistral AI sur Vertex AI, envoyez une requête directement au point de terminaison de l'API Vertex AI. Étant donné que les modèles Mistral AI utilisent une API gérée, il n'est pas nécessaire de provisionner ni de gérer l'infrastructure.

Vous pouvez diffuser vos réponses en flux continu pour réduire la perception de la latence côté utilisateur. Une réponse en flux continu utilise des événements envoyés par le serveur (SSE) pour diffuser la réponse de manière incrémentielle.

Les modèles Mistral AI vous sont facturés �� l'utilisation (paiement à l'usage). Pour le paiement à l'usage, consultez les tarifs des modèles Mistral AI sur la page des tarifs de Vertex AI.

Modèles Mistral AI disponibles

Les modèles suivants sont disponibles auprès de Mistral AI pour une utilisation dans Vertex AI. Pour accéder à un modèle Mistral AI, accédez à sa fiche de modèle Model Garden.

Mistral OCR (25.05)

Mistral OCR (25.05) est une API de reconnaissance optique des caractères pour la compréhension des documents. Mistral OCR (25.05) excelle dans la compréhension des éléments complexes des documents, y compris les images entrelacées, les expressions mathématiques, les tableaux et les mises en page avancées telles que le format LaTeX. Le modèle permet de mieux comprendre les documents riches tels que les articles scientifiques contenant des tableaux, des graphiques, des équations et des figures.

Mistral OCR (25.05) est un modèle idéal à utiliser en combinaison avec un système RAG qui prend en entrée des documents multimodaux (tels que des diapositives ou des PDF complexes).

Vous pouvez associer Mistral OCR (25.05) à d'autres modèles Mistral pour reformater les résultats. Cette combinaison garantit que le contenu extrait est non seulement précis, mais aussi présenté de manière structurée et cohérente, ce qui le rend adapté à diverses applications et analyses en aval.

Accéder à la fiche de modèle Mistral OCR (25.05)

Mistral Small 3.1 (25.03)

Mistral Small 3.1 (25.03) offre des capacités multimodales et un contexte allant jusqu'à 128 000. Le modèle peut traiter et comprendre des entrées visuelles et des documents longs, ce qui élargit encore son éventail d'applications par rapport au modèle Mistral AI Small précédent. Mistral Small 3.1 (25.03) est un modèle polyvalent conçu pour diverses tâches telles que la programmation, le raisonnement mathématique, la compréhension de documents et le dialogue. Mistral Small 3.1 (25.03) est conçu pour les applications à faible latence afin d'offrir une efficacité de pointe par rapport aux modèles de même qualité.

Mistral Small 3.1 (25.03) a subi un processus de post-entraînement complet pour aligner le modèle sur les préférences et les besoins humains. Il est donc utilisable prêt à l'emploi pour les applications qui nécessitent des fonctionnalités de chat ou un suivi précis des instructions.

Accéder à la fiche de modèle Mistral Small 3.1 (25.03)

Mistral Large (24.11)

Mistral Large (24.11) est la dernière version du modèle Large de Mistral AI. Elle offre désormais des capacités de raisonnement et d'appel de fonction améliorées.

Centré sur l'agent : fonctionnalités agentives de pointe avec appels de fonctions et sorties JSON intégrés.
Multilingue par conception : des dizaines de langues sont prises en charge, dont l'allemand, l'anglais, le chinois, le coréen, l'espagnol, le français, l'italien, le japonais, le néerlandais, le polonais et le portugais.
Maîtrise du codage : entraîné sur plus de 80 langages de programmation tels que Python, Java, C, C++, JavaScript et Bash. Également entraîné sur des langages plus spécifiques tels que Swift et Fortran
Raisonnement avancé : capacités mathématiques et de raisonnement de pointe.

Accéder à la fiche de modèle Mistral Large (24.11)

Codestral (25.01)

Codestral (25.01) est conçu pour les tâches de génération de code. Il aide les développeurs à écrire du code et à interagir avec lui via un point de terminaison de l'API partagé pour les instructions et la complétion. Codestral (25.01) maîtrise le code et peut converser dans différentes langues. Vous pouvez l'utiliser pour concevoir des applications d'IA avancées pour les développeurs de logiciels.

Codestral (25.01) maîtrise plus de 80 langages de programmation, dont Python, Java, C, C++, JavaScript et Bash. Il fonctionne également bien avec des langages plus spécifiques comme Swift et Fortran.
Codestral (25.01) aide à améliorer la productivité des développeurs et à réduire les erreurs.Il peut compléter des fonctions de codage, écrire des tests et compléter tout code partiel à l'aide d'un mécanisme de remplissage.
Codestral (25.01) établit une nouvelle norme en termes de performances et de latence avec seulement 24 milliards de paramètres et une fenêtre de contexte de 128 000.

Codestral (25.01) est optimisé pour les cas d'utilisation suivants :

Générer du code, le compléter, y ajouter des suggestions et le traduire
Ajoute du code entre les points de début et de fin définis par l'utilisateur, ce qui est idéal pour les tâches qui nécessitent la génération d'un extrait de code spécifique.
résumer et expliquer votre code ;
Il examine la qualité de votre code en vous aidant à le refactoriser, à corriger les bugs et à générer des scénarios de test.

Accéder à la fiche de modèle Codestral (25.01)

Utiliser des modèles Mistral AI

Vous pouvez utiliser des commandes curl pour envoyer des requêtes au point de terminaison Vertex AI en employant les noms de modèles suivants :

Pour Mistral OCR (25.05), utilisez mistral-ocr-2505.
Pour Mistral Small 3.1 (25.03), utilisez mistral-small-2503.
Pour Mistral Large (24.11), utilisez mistral-large-2411.
Pour Mistral Nemo, utilisez mistral-nemo.
Pour Codestral (25.01), utilisez codestral-2501

Pour en savoir plus sur l'utilisation du SDK Mistral AI, consultez la documentation Vertex AI Mistral AI.

Avant de commencer

Pour utiliser des modèles Mistral AI avec Vertex AI, procédez comme suit. Vous devez activer l'API Vertex AI (aiplatform.googleapis.com) pour pouvoir utiliser Vertex AI. Si vous disposez déjà d'un projet pour lequel l'API Vertex AI est activée, vous pouvez utiliser ce projet au lieu de créer un projet.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Accédez à l'une des fiches de modèle Model Garden suivantes, puis cliquez sur Activer :

Effectuer un appel en flux continu à un modèle Mistral AI

L'exemple suivant effectue un appel en flux continu à un modèle Mistral AI.

REST

Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester un prompt textuel. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.

Avant d'utiliser les données de requête, effectuez les remplacements suivants :

LOCATION : région compatible avec les modèles Mistral AI.
MODEL : nom du modèle que vous souhaitez utiliser. Dans le corps de la requête, excluez le numéro de version du modèle @.
ROLE : rôle associé à un message. Vous pouvez spécifier user ou assistant. Le premier message doit utiliser le rôle user. Les modèles fonctionnent avec des tours user et assistant alternés. Si le message final utilise le rôle assistant, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle.
STREAM : valeur booléenne qui spécifie si la réponse est diffusée ou non. Diffusez votre réponse en flux continu pour réduire la perception de la latence que peuvent avoir les utilisateurs finaux. Définissez la valeur sur true pour diffuser la réponse et sur false pour la renvoyer en une fois.
CONTENT : contenu du message user ou assistant (du texte, par exemple).
MAX_OUTPUT_TOKENS : nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à 3,5 caractères. 100 jetons correspondent environ à 60-80 mots.
Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Corps JSON de la requête :

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Remarque : La commande suivante suppose que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login, ou en utilisant Cloud Shell, qui vous connecte automatiquement à la CLI gcloud. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Remarque : La commande suivante suppose que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante.

Réponse

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

Effectuer un appel unaire à un modèle Mistral AI

L'exemple suivant effectue un appel unaire à un modèle Mistral AI.

REST

Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester un prompt textuel. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.

Avant d'utiliser les données de requête, effectuez les remplacements suivants :

LOCATION : région compatible avec les modèles Mistral AI.
MODEL : nom du modèle que vous souhaitez utiliser. Dans le corps de la requête, excluez le numéro de version du modèle @.
ROLE : rôle associé à un message. Vous pouvez spécifier user ou assistant. Le premier message doit utiliser le rôle user. Les modèles fonctionnent avec des tours user et assistant alternés. Si le message final utilise le rôle assistant, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle.
STREAM : valeur booléenne qui spécifie si la réponse est diffusée ou non. Diffusez votre réponse en flux continu pour réduire la perception de la latence que peuvent avoir les utilisateurs finaux. Définissez la valeur sur true pour diffuser la réponse et sur false pour la renvoyer en une fois.
CONTENT : contenu du message user ou assistant (du texte, par exemple).
MAX_OUTPUT_TOKENS : nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à 3,5 caractères. 100 jetons correspondent environ à 60-80 mots.
Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Corps JSON de la requête :

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Remarque : La commande suivante suppose que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante.

Réponse

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Disponibilité et quotas des régions d'un modèle Mistral AI

Pour les modèles Mistral AI, un quota s'applique à chaque région dans laquelle le modèle est disponible. Le quota est spécifié en requêtes par minute (RPM) et en jetons par minute (TPM). Le nombre de jetons par minute inclut à la fois les jetons d'entrée et de sortie.

Modèle	Région	Quotas	Longueur du contexte
Mistral OCR (25.05)
	`us-central1`	RPM : 30 Pages par requête : 30 (1 page = 1 million de jetons d'entrée et 1 million de jetons de sortie)	30 pages
	`europe-west4`	RPM : 30 Pages par requête : 30 (1 page = 1 million de jetons d'entrée et 1 million de jetons de sortie)	30 pages
Mistral Small 3.1 (25.03)
	`us-central1`	RPM : 60 TPM : 200 000	128 000
	`europe-west4`	RPM : 60 TPM : 200 000	128 000
Mistral Large (24.11)
	`us-central1`	RPM : 60 TPM : 400 000	128 000
	`europe-west4`	RPM : 60 TPM : 400 000	128 000
Mistral Nemo
	`us-central1`	RPM : 60 TPM : 400 000	128 000
	`europe-west4`	RPM : 60 TPM : 400 000	128 000
Codestral (25.01)
	`us-central1`	RPM : 60 TPM : 400 000	32 000
	`europe-west4`	RPM : 60 TPM : 400 000	32 000

Si vous souhaitez augmenter vos quotas pour l'IA générative sur Vertex AI, vous pouvez en faire la demande via la console Google Cloud . Pour en savoir plus sur les quotas, consultez Utiliser des quotas.

Modèles Mistral AI Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Modèles Mistral AI disponibles

Mistral OCR (25.05)

Mistral Small 3.1 (25.03)

Mistral Large (24.11)

Codestral (25.01)

Utiliser des modèles Mistral AI

Avant de commencer

Effectuer un appel en flux continu à un modèle Mistral AI

REST

curl

PowerShell

Réponse

Effectuer un appel unaire à un modèle Mistral AI

REST

curl

PowerShell

Réponse

Disponibilité et quotas des régions d'un modèle Mistral AI

Modèles Mistral AI