Se usó la API de Cloud Translation para traducir esta página.

Modelos de Mistral AI

Los modelos de Mistral AI en Vertex AI ofrecen modelos completamente administrados y sin servidores como APIs. Para usar un modelo de Mistral AI en Vertex AI, envía una solicitud directamente al extremo de API de Vertex AI. Debido a que los modelos de Mistral AI usan una API administrada, no es necesario aprovisionar ni administrar la infraestructura.

Puedes transmitir tus respuestas para reducir la percepción de latencia del usuario final. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.

Pagas por los modelos de Mistral AI a medida que los usas (pago por uso). Para obtener información sobre los precios de pago por uso, consulta los precios de los modelos de Mistral AI en la página de precios de Vertex AI.

Modelos de IA de Mistral disponibles

Los siguientes modelos están disponibles en Mistral AI para usarlos en Vertex AI. Para acceder a un modelo de IA de Mistral, ve a su tarjeta de modelo de Model Garden.

OCR de Mistral (25/05)

Mistral OCR (25.05) es una API de reconocimiento óptico de caracteres para la comprensión de documentos. El OCR de Mistral (25.05) se destaca por comprender elementos complejos de documentos, como imágenes intercaladas, expresiones matemáticas, tablas y diseños avanzados, como el formato LaTeX. El modelo permite comprender mejor los documentos enriquecidos, como los artículos científicos con gráficos, ecuaciones y figuras.

El OCR de Mistral (25.05) es un modelo ideal para usar en combinación con un sistema RAG que toma documentos multimodales (como diapositivas o PDFs complejos) como entrada.

Puedes combinar el OCR de Mistral (25.05) con otros modelos de Mistral para reformatear los resultados. Esta combinación garantiza que el contenido extraído no solo sea preciso, sino que también se presente de manera estructurada y coherente, lo que lo hace adecuado para diversas aplicaciones y análisis posteriores.

Ir a la tarjeta de modelo de Mistral OCR (25.05)

Mistral Small 3.1 (25/03)

Mistral Small 3.1 (25/3) ofrece capacidades multimodales y un contexto de hasta 128,000. El modelo puede procesar y comprender entradas visuales y documentos extensos, lo que amplía aún más su rango de aplicaciones en comparación con el modelo anterior de Mistral AI Small. Mistral Small 3.1 (25/3) es un modelo versátil diseñado para diversas tareas, como programación, razonamiento matemático, comprensión de documentos y diálogo. Mistral Small 3.1 (25/3) está diseñado para aplicaciones de baja latencia y ofrece la mejor eficiencia de su clase en comparación con modelos de la misma calidad.

Mistral Small 3.1 (25/3) se sometió a un proceso completo posterior al entrenamiento para alinear el modelo con las preferencias y necesidades humanas, lo que lo hace utilizable de inmediato para aplicaciones que requieren chat o seguimiento preciso de instrucciones.

Ir a la tarjeta de modelo de Mistral Small 3.1 (25.03)

Mistral Large (24.11)

Mistral Large (24.11) es la versión más reciente del modelo Large de Mistral AI, que ahora cuenta con capacidades mejoradas de razonamiento y llamadas a funciones.

Centrado en el agente: Capacidades de agente de primer nivel con llamadas a funciones y resultados JSON integrados.
Diseño multilingüe: Admite decenas de idiomas, incluidos alemán, chino, coreano, español, francés, holandés, inglés, italiano, japonés, y portugués.
Competencia en programación: Se entrenó con más de 80 lenguajes de programación, como Python, Java, C, C++, JavaScript y Bash. También se entrenó con lenguajes más específicos, como Swift y Fortran.
Razonamiento avanzado: Capacidades de razonamiento y matemáticas de vanguardia.

Ir a la tarjeta de modelo de Mistral Large (24.11)

Codestral (25.01)

Codestral (25.01) está diseñado para tareas de generación de código. Ayuda a los desarrolladores a escribir código y a interactuar con él a través de un extremo de API compartido de instrucciones y finalización. A medida que domina el código y su capacidad para conversar en una variedad de idiomas, puedes usar Codestral (25.01) para diseñar aplicaciones avanzadas de IA para desarrolladores de software.

Codestral (25.01) domina más de 80 lenguajes de programación, incluidos Python, Java, C, C++, JavaScript y Bash. También funciona bien en lenguajes más específicos, como Swift y Fortran.
Codestral (25.01) ayuda a mejorar la productividad de los desarrolladores y reduce los errores: Codestral (25.01) puede completar funciones de programación, escribir pruebas y completar cualquier código parcial con un mecanismo de relleno intermedio.
Codestral (25.01) proporciona un nuevo estándar en el espacio de rendimiento y latencia con solo 24 mil millones de parámetros y una ventana de contexto de 128,000.

Codestral (25.01) está optimizado para los siguientes casos de uso:

Genera código y proporciona finalización, sugerencias y traducción de código.
Agrega código entre los puntos de inicio y finalización definidos por el usuario, lo que lo hace ideal para tareas que requieren que se genere un fragmento de código específico.
Resume y explica tu código.
Revisa la calidad de tu código ayudándote a refactorizarlo, corrige errores y genera casos de prueba.

Ir a la tarjeta de modelo de Codestral (25.01)

Usa modelos de IA de Mistral

Puedes usar comandos curl para enviar solicitudes al extremo de Vertex AI con los siguientes nombres de modelos:

Para el OCR de Mistral (25.05), usa mistral-ocr-2505.
Para Mistral Small 3.1 (25.03), usa mistral-small-2503.
Para Mistral Large (24.11), usa mistral-large-2411
Para Mistral Nemo, usa mistral-nemo
Para Codestral (25.01), usa codestral-2501

Si deseas obtener más información para usar el SDK de Mistral AI, consulta la documentación de Mistral AI en Vertex AI.

Antes de comenzar

Para usar los modelos de Mistral AI con Vertex AI, debes realizar los siguientes pasos. La API de Vertex AI (aiplatform.googleapis.com) debe estar habilitada para usar Vertex AI. Si ya tienes un proyecto existente con la API de Vertex AI habilitada, puedes usar ese proyecto en lugar de crear uno nuevo.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Ve a una de las siguientes tarjetas de modelo de Model Garden y, luego, haz clic en Habilitar:

Realiza una llamada de transmisión a un modelo de Mistral AI

En el siguiente ejemplo, se realiza una llamada de transmisión a un modelo de Mistral AI.

REST

Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

LOCATION: Es una región que admite modelos de Mistral AI.
MODEL: El nombre del modelo que deseas usar. En el cuerpo de la solicitud, excluye el número de versión del modelo @.
ROLE: El rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos operan con turnos alternativos de user y assistant. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo.
STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del uso final. Configúralo como true para transmitir la respuesta y false para mostrar la respuesta de una sola vez.
CONTENT: el contenido, como texto, del mensaje user o assistant.
MAX_OUTPUT_TOKENS: Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente 3.5 caracteres. 100 tokens corresponden a casi 60 u 80 palabras.
Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Cuerpo JSON de la solicitud:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Nota: Con el siguiente comando, se supone que accediste a la CLI de gcloud con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login, o a través del uso de Cloud Shell, que accede de forma automática a la CLI de gcloud. Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Nota: En el siguiente comando, se supone que accediste a la CLI de gcloud con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login . Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Respuesta

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

Realiza una llamada unaria a un modelo de IA de Mistral

En el siguiente ejemplo, se realiza una llamada unaria a un modelo de Mistral AI.

REST

Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

LOCATION: Es una región que admite modelos de Mistral AI.
MODEL: El nombre del modelo que deseas usar. En el cuerpo de la solicitud, excluye el número de versión del modelo @.
ROLE: El rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos operan con turnos alternativos de user y assistant. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo.
STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del uso final. Configúralo como true para transmitir la respuesta y false para mostrar la respuesta de una sola vez.
CONTENT: el contenido, como texto, del mensaje user o assistant.
MAX_OUTPUT_TOKENS: Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente 3.5 caracteres. 100 tokens corresponden a casi 60 u 80 palabras.
Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Cuerpo JSON de la solicitud:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Respuesta

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Disponibilidad y cuotas de la región del modelo de Mistral AI

En el caso de los modelos de Mistral AI, se aplica una cuota para cada región en la que el modelo esté disponible. La cuota se especifica en consultas por minuto (QPM) y tokens por minuto (TPM). TPM incluye tokens de entrada y salida.

Modelo	Región	Cuotas	Longitud del contexto
OCR de Mistral (25/05)
	`us-central1`	QPM: 30 Páginas por solicitud: 30 (1 página = 1 millón de tokens de entrada y 1 millón de tokens de salida)	30 páginas
	`europe-west4`	QPM: 30 Páginas por solicitud: 30 (1 página = 1 millón de tokens de entrada y 1 millón de tokens de salida)	30 páginas
Mistral Small 3.1 (25/03)
	`us-central1`	QPM: 60 TPM: 200,000	128,000
	`europe-west4`	QPM: 60 TPM: 200,000	128,000
Mistral Large (24.11)
	`us-central1`	QPM: 60 TPM: 400,000	128,000
	`europe-west4`	QPM: 60 TPM: 400,000	128,000
Mistral Nemo
	`us-central1`	QPM: 60 TPM: 400,000	128,000
	`europe-west4`	QPM: 60 TPM: 400,000	128,000
Codestral (25.01)
	`us-central1`	QPM: 60 TPM: 400,000	32,000
	`europe-west4`	QPM: 60 TPM: 400,000	32,000

Si quieres aumentar tus cuotas para la IA generativa en Vertex AI, puedes usar la Google Cloud consola para solicitar un aumento de la cuota. Para obtener más información sobre las cuotas, consulta Trabaja con cuotas.

Modelos de Mistral AI Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Modelos de IA de Mistral disponibles

OCR de Mistral (25/05)

Mistral Small 3.1 (25/03)

Mistral Large (24.11)

Codestral (25.01)

Usa modelos de IA de Mistral

Antes de comenzar

Realiza una llamada de transmisión a un modelo de Mistral AI

REST

curl

PowerShell

Respuesta

Realiza una llamada unaria a un modelo de IA de Mistral

REST

curl

PowerShell

Respuesta

Disponibilidad y cuotas de la región del modelo de Mistral AI

Modelos de Mistral AI