Google 模型
佈建輸送量僅支援您使用特定模型 ID (而非模型別名),直接從專案呼叫的模型。如要使用預先佈建的輸送量對模型發出 API 呼叫,您必須使用特定模型版本 ID (例如 gemini-2.0-flash-001
),而非模型版本別名。
此外,透過佈建輸送量呼叫的模型不支援其他 Vertex AI 產品,例如 Vertex AI Agents 和 Vertex AI Search。舉例來說,如果您在使用 Vertex AI Search 時對 Gemini 2.0 Flash 進行 API 呼叫,則 Gemini 2.0 Flash 的佈建輸送量訂單不會保證 Vertex AI Search 進行的呼叫。
佈建輸送量不支援批次預測呼叫。
下表列出支援佈建處理量的 Google 模型,以及這些模型的處理量、購買增量和消耗率。每秒輸送量是指每秒所有要求中的提示輸入和生成輸出。
如要���解工���負載所需的權杖數量,請參閱 SDK 分詞器或 countTokens API。
型號 | 每 GSU 的每秒總處理量 | 單位 | 最低 GSU 購買增量 | 燃盡率 |
---|---|---|---|---|
Gemini 2.5 Flash with Live API 最新支援版本: |
1620 | 權杖 | 1 | 1 個輸入文字權杖 = 1 個輸入文字權杖 1 個輸入音訊權杖 = 6 個輸入文字權杖 1 個輸入影片權杖 = 6 個輸入文字權杖 1 個輸入工作階段記憶體權杖 = 1 個輸入文字權杖 1 個輸出文字權杖 = 4 個輸入文字權杖 1 個輸出音訊權杖 = 24 個輸入文字權杖 |
最新支援版本: |
2690 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸出文字權杖 = 9 個權杖 1 個輸出圖片權杖 = 100 個權杖 |
最新支援版本: |
8070 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 3 個權杖 1 個輸出回應文字權杖 = 4 個權杖 1 個輸出推理文字權杖 = 4 個權杖 |
最新支援版本: |
650 | 權杖 | 1 |
輸入權杖數少於或等於 200,000 個: 1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 1 個權杖 1 個輸出回應文字權杖 = 8 個權杖 1 個輸出推理文字權杖 = 8 個權杖 輸入權杖數超過 200,000 個: 1 個輸入文字權杖 = 2 個權杖 1 個輸入圖片權杖 = 2 個權杖 1 個輸入影片權杖 = 2 個權杖 1 個輸入音訊權杖 = 2 個權杖 1 個輸出回應文字權杖 = 12 個權杖 1 個輸出推理文字權杖 = 12 個權杖 |
最新支援版本: |
2690 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 4 個權杖 1 個輸出回應文字權杖 = 9 個權杖 1 個輸出推理文字權杖 = 9 個權杖 |
最新支援版本: |
3360 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 7 個權杖 1 個輸出文字權杖 = 4 個權杖 |
最新支援版本: |
6720 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖 |
最新支援版本: |
0.0040 | 影片秒數 | 34 | 1 輸出影片秒數 = 1 輸出影片秒數 |
影片和音訊秒數 | 67 | 1 秒輸出影片 + 音訊 = 2 秒輸出影片 | ||
最新支援版本: |
0.0080 | 影片秒數 | 17 | 1 輸出影片秒數 = 1 輸出影片秒數 |
影片和音訊秒數 | 25 | 1 秒的輸出影片和音訊 = 1.45 秒的輸出影片 | ||
Imagen 3 | 0.025 | 圖片 | 1 | 只有輸出圖片會計入佈建輸送量配額。 |
Imagen 3 Fast | 0.05 | 圖片 | 1 | 只有輸出圖片會計入佈建輸送量配額。 |
MedLM 中型 | 2,000 | 字元 | 1 | 1 個輸入字元 = 1 個字元 1 個輸出字元 = 2 個字元 |
MedLM Large | 200 | 字元 | 1 | 1 個輸入字元 = 1 個字元 1 個輸出字元 = 3 個字元 |
MedLM Large 1.5 | 200 | 字元 | 1 | 1 個輸入字元 = 1 個字元 1 個輸出字元 = 3 個字元 |
如要瞭解模型的功能和輸入/輸出限制,請參閱模型說明文件。
新模型推出後,您隨時可以升級。如要瞭解模型供應情形和停用日期,請參閱「Google 模型」。
如要進一步瞭解支援的地點,請參閱「可用的地點」。
支援全球端點模型
佈建輸送量支援下列模型的全球端點:
型號 | 最新支援的模型版本 |
---|---|
Gemini 2.5 Flash Image Preview (預先發布版) | gemini-2.5-flash-image-preview |
Gemini 2.5 Flash-Lite | gemini-2.5-flash-lite |
Gemini 2.5 Pro | gemini-2.5-pro |
Gemini 2.5 Flash | gemini-2.5-flash |
Gemini 2.0 Flash | gemini-2.0-flash-001 |
Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
如果流量超出佈建處理量配額,系統預設會使用全域端點。
如要將佈建輸送量指派給模型的全域端點,請在下達佈建輸送量訂單時選取 global
做為區域。
支援經過監督式微調的模型
如果 Google 模型支援監督式微調,則支援下列項目:
佈建輸送量可套用至基礎模型,以及這些基礎模型的監督式微調版本。
監督式微調模型端點及其對應的基礎模型會計入相同的佈建輸送量配額。
舉例來說,如果為特定專案的
gemini-2.0-flash-lite-001
購買佈建輸送量,系統會優先處理從該專案中建立的gemini-2.0-flash-lite-001
監督式微調版本提出的要求。使用適當的標頭控管流量行為。
合作夥伴模型
下表列出支援佈建處理量的合作夥伴模型的處理量、購買增量和消耗率。Claude 模型的計費單位是每秒權杖數,也就是每秒所有要求中輸入和輸出權杖的總數。
型號 | 每 GSU 的輸送量 (權杖/秒) | 最低 GSU 購買量 | GSU 購買增量 | 燃盡率 |
---|---|---|---|---|
Anthropic 的 Claude Opus 4.1 | 70 | 35 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
Anthropic 的 Claude Opus 4 | 70 | 35 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
Anthropic 的 Claude Sonnet 4 | 350 | 25 | 1 | 輸入權杖少於 200,000 個: 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 輸入權杖大於或等於 200,000 個: 1 個輸入權杖 = 2 個權杖 1 個輸出權杖 = 7.5 個權杖 1 個快取寫入權杖 = 2.5 個權杖 1 個快取命中權杖 = 0.2 個權杖 |
Anthropic 的 Claude 3.7 Sonnet | 350 | 25 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
Anthropic 的 Claude 3.5 Sonnet v2 (已淘汰) | 350 | 25 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
Anthropic 的 Claude 3.5 Haiku | 2,000 | 10 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
Anthropic 的 Claude 3 Opus | 70 | 35 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
Anthropic 的 Claude 3 Haiku | 4,200 | 5 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
Anthropic 的 Claude 3.5 Sonnet (已淘汰) | 350 | 25 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
如要瞭解支援的地區,請參閱「Anthropic Claude 區域支援情形」。如要訂購 Anthropic 模型適用的佈建輸送量,請與Google Cloud 帳戶代表聯絡。