Vertex AI の Mistral AI モデルは、API としてフルマネージド モデルとサーバーレス モデルを提供します。Vertex AI で Mistral AI モデルを使用するには、Vertex AI API エンドポイントにリクエストを直接送信します。Mistral AI モデルはマネージド API を使用します。インフラストラクチャをプロビジョニングしたり、管理する必要はありません。
レスポンスをストリーミングして、エンドユーザーのレイテンシを軽減できます。レスポンスをストリーミングする際には、サーバー送信イベント(SSE)を使用してレスポンスを段階的にストリーミングします。
Mistral AI モデルは従量課金制です。従量課金制の料金については、Vertex AI の料金ページで Mistral AI モデルの料金をご覧ください。
利用可能な Mistral AI モデル
Vertex AI で使用できる Mistral AI のモデルは次のとおりです。Mistral AI モデルにアクセスするには、Model Garden のモデルカードに移動します。
Mistral OCR(25.05)
Mistral OCR(25.05)は、ドキュメントの理解のための光学式文字認識 API です。Mistral OCR(25.05)は、インターリーブされた画像、数式、表、LaTeX 形式などの高度なレイアウトを含む複雑なドキュメント要素の理解に優れています。このモデルにより、チャート、グラフ、方程式、図を含む科学論文などのリッチ ドキュメントをより深く理解できます。
Mistral OCR(25.05)は、マルチモーダル ドキュメント(スライドや複雑な PDF など)を入力として受け取る RAG システムと組み合わせて使用するのに最適なモデルです。
Mistral OCR(25.05)を他の Mistral モデルと組み合わせて、結果を再フォーマットできます。この組み合わせにより、抽出されたコンテンツが正確であるだけでなく、構造化され一貫性のある方法で提示されるため、さまざまなダウンストリーム アプリケーションや分析に適しています。
Mistral Small 3.1(25.03)
Mistral Small 3.1(25.03)は、マルチモーダル機能と最大 128,000 のコンテキストを備えています。このモデルは、視覚的な入力や長いドキュメントを処理して理解できるため、以前の Mistral AI Small モデルと比較して、アプリケーションの範囲がさらに広がります。Mistral Small 3.1(25.03)は、プログラミング、数学的推論、ドキュメント理解、会話など、さまざまなタスク向けに設計された汎用モデルです。Mistral Small 3.1(25.03)は、低レイテンシ アプリケーション向けに設計されており、同じ品質のモデルと比較して最高水準の効率を実現します。
Mistral Small 3.1(25.03)は、モデルを人間の好みやニーズに合わせるための完全なトレーニング後プロセスを経ており、チャットや正確な指示��追従を必要とするアプリケーションですぐに使用できます。
Mistral Small 3.1(25.03)モデルカードに移動
Mistral Large(24.11)
Mistral Large(24.11)は、推論機能と関数呼び出し機能が強化された Mistral AI の Large モデルの最新バージョンです。
- エージェント中心: 組み込み関数呼び出しと JSON 出力による最高水準のエージェント機能。
- 多言語対応設計: 英語、フランス語、ドイツ語、スペイン語、イタリア語、中国語、日本語、韓国語、ポルトガル語、オランダ語、ポーランド語など、多数の言語に対応しています。
- コーディングに精通: Python、Java、C、C++、JavaScript、Bash など、80 を超えるコーディング言語でトレーニングされています。Swift や Fortran などの言語でもトレーニングされています
- 高度な推論: 最先端の数学的能力と推論能力を備えています。
Codestral(25.01)
Codestral(25.01)は、コード生成タスク向けに設計されています。Codestral を使用することで、デベロッパーは共有された指示と補完の API エンドポイントを通じたコードの記述と操作が可能になります。Codestral(25.01)は、コードの習得と多言語での対話能力を備えているため、ソフトウェア デベロッパー向けに高度な AI アプリケーションを設計する際に利用できます。
- Codestral(25.01)は、Python、Java、C、C++、JavaScript、Bash など、80 を超えるプログラミング言語に精通しています。Swift や Fortran などのより特定の言語でも優れたパフォーマンスを発揮します。
- Codestral(25.01)は、デベロッパーの生産性を向上させ、エラーの削減に役立ちます。Codestral(25.01)は、コーディング関数の補完、テストの作成、そして Fill-in-the-Middle メカニズムを活用した部分的なコードの補完を実現します。
- Codestral(25.01)は、240 億のパラメータと 128,000 のコンテキスト ウィンドウのみで、パフォーマンスとレイテンシの領域における新しい標準を提供します。
Codestral(25.01)は、次のユースケース向けに最適化されています。
- コードを生成して、コード補完、候補の提示、翻訳を提供します。
- ユーザー定義の開始ポイントと終了ポイントの間にコードを追加します。特定のコードを生成する必要があるタスクに最適です。
- コードを要約し、説明します。
- コードをリファクタリングし、バグを修正してテストケースを生成することで、コードの品質を確認します。
Mistral AI モデルを使用する
curl コマンドを使用すると、次のモデル名を使用して Vertex AI エンドポイントにリクエストを送信できます。
- Mistral OCR(25.05)の場合は、
mistral-ocr-2505
を使用します - Mistral Small 3.1(25.03)の場合は、
mistral-small-2503
を使用します - Mistral Large(24.11)の場合は、
mistral-large-2411
を使用します - Mistral Nemo の場合は
mistral-nemo
を使用します - Codestral(25.01)の場合は
codestral-2501
を使用します
Mistral AI SDK の使用方法については、Mistral AI Vertex AI のドキュメントをご覧ください。
始める前に
Vertex AI で Mistral AI モデルを使用するには、次の操作を行う必要があります。Vertex AI を使用するには、Vertex AI API(aiplatform.googleapis.com
)を有効にする必要があります。既存のプロジェクトで Vertex AI API が有効になっている場合は、新しいプロジェクトを作成する代わりに、そのプロジェクトを使用できます。
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. - 次のいずれかの Model Garden モデルカードに移動し、[有効にする] をクリックします。
- LOCATION: Mistral AI モデルをサポートするリージョン。
- MODEL: 使用するモデル名。リクエスト本文で、
@
モデルのバージョン番号を除外します。 - ROLE: メッセージに関連付けられたロール。
user
またはassistant
を指定できます。最初のメッセージでは、user
ロールを使用する必要があります。Claude モデルはuser
とassistant
のターンを交互に操作します。最後のメッセージがassistant
ロールを使用する場合、そのメッセージのコンテンツの直後にレスポンス コンテンツが続きます。これを使用して、モデルの回答の一部を制限できます。 - STREAM: レスポンスがストリーミングされるかどうかを指定するブール値。レスポンスのスト���ーミングを行うことで、エンドユーザーが認識するレイテンシを短縮できます。レスポンスをストリーミングする場合は
true
、すべてのレスポンスを一度に戻すにはfalse
に設定します。 - CONTENT:
user
またはassistant
のメッセージの内容(テキストなど)。 - MAX_OUTPUT_TOKENS: レスポンスで生成できるトークンの最大数。トークンは約 3.5 文字です。100 トークンは約 60~80 語に相当します。
回答を短くしたい場合は小さい値を、長くしたい場合は大きい値を指定します。
- LOCATION: Mistral AI モデルをサポートするリージョン。
- MODEL: 使用するモデル名。リクエスト本文で、
@
モデルのバージョン番号を除外します。 - ROLE: メッセージに関連付けられたロール。
user
またはassistant
を指定できます。最初のメッセージでは、user
ロールを使用する必要があります。Claude モデルはuser
とassistant
のターンを交互に操作します。最後のメッセージがassistant
ロールを使用する場合、そのメッセージのコンテンツの直後にレスポンス コンテンツが続きます。これを使用して、モデルの回答の一部を制限できます。 - STREAM: レスポンスがストリーミングされるかどうかを指定するブール値。レスポンスのストリーミングを行うことで、エンドユーザーが認識するレイテンシを短縮できます。レスポンスをストリーミングする場合は
true
、すべてのレスポンスを一度に戻すにはfalse
に設定します。 - CONTENT:
user
またはassistant
のメッセージの内容(テキストなど)。 - MAX_OUTPUT_TOKENS: レスポンスで生成できるトークンの最大数。トークンは約 3.5 文字です。100 トークンは約 60~80 語に相当します。
回答を短くしたい場合は小さい値を、長くしたい場合は大きい値を指定します。
- QPM: 30
- リクエストあたりのページ数: 30(1 ページ = 100 万個の入力トークンと 100 万個の出力トークン)
- QPM: 30
- リクエストあたりのページ数: 30(1 ページ = 100 万個の入力トークンと 100 万個の出力トークン)
- QPM: 60
- TPM: 200,000
- QPM: 60
- TPM: 200,000
- QPM: 60
- TPM: 400,000
- QPM: 60
- TPM: 400,000
- QPM: 60
- TPM: 400,000
- QPM: 60
- TPM: 400,000
- QPM: 60
- TPM: 400,000
- QPM: 60
- TPM: 400,000
Mistral AI モデルにストリーミング呼び出しを行う
次のサンプルでは、Mistral AI モデルへのストリーミング呼び出しを行います。
REST
環境をセットアップしたら、REST を使用してテキスト プロンプトをテストできます。次のサンプルは、パブリッシャー モデルのエンドポイントにリクエストを送信します。
リクエストのデータを使用する前に、次のように置き換えます。
HTTP メソッドと URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict
リクエストの本文(JSON):
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": true }
リクエストを送信するには、次のいずれかのオプションを選択します。
curl
リクエスト本文を request.json
という名前のファイルに保存して、次のコマンドを実行します。
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"
PowerShell
リクエスト本文を request.json
という名前のファイルに保存して、次のコマンドを実行します。
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content
次のような JSON レスポンスが返されます。
Mistral AI モデルに単一呼び出しを行う
次のサンプルでは、Mistral AI モデルへの単一呼び出しを行います。
REST
環境をセットアップしたら、REST を使用してテキスト プロンプトをテストできます。次のサンプルは、パブリッシャー モデルのエンドポイントにリクエストを送信します。
リクエストのデータを使用する前に、次のように置き換えます。
HTTP メソッドと URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict
リクエストの本文(JSON):
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": false }
リクエストを送信するには、次のいずれかのオプションを選択します。
curl
リクエスト本文を request.json
という名前のファイルに保存して、次のコマンドを実行します。
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"
PowerShell
リクエスト本文を request.json
という名前のファイルに保存して、次のコマンドを実行します。
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content
次のような JSON レスポンスが返されます。
Mistral AI モデルで利用可能なリージョンと割り当て
Mistral AI モデルの場合、モデルが使用可能なリージョンごとに割り当てが適用されます。割り当ては、1 分あたりのクエリ数(QPM)と 1 分あたりのトークン数(TPM)で指定されます。TPM には、入力トークンと出力トークンの両方が含まれます。
モデル | リージョン | 割り当て | コンテキストの長さ |
---|---|---|---|
Mistral OCR(25.05) | |||
us-central1 |
|
30 ページ | |
europe-west4 |
|
30 ページ | |
Mistral Small 3.1(25.03) | |||
us-central1 |
|
128,000 | |
europe-west4 |
|
128,000 | |
Mistral Large(24.11) | |||
us-central1 |
|
128,000 | |
europe-west4 |
|
128,000 | |
Mistral Nemo | |||
us-central1 |
|
128,000 | |
europe-west4 |
|
128,000 | |
Codestral(25.01) | |||
us-central1 |
|
32,000 | |
europe-west4 |
|
32,000 |
Vertex AI の生成 AI の割り当てを引き上げる場合は、 Google Cloud コンソールで割り当ての引き上げをリクエストできます。割り当ての詳細については、割り当てを操作するをご覧ください。