Calcular los requisitos de capacidad de procesamiento reservada

En esta sección se explican los conceptos de unidad de escalado de IA generativa (GSU) y tasas de consumo. El rendimiento aprovisionado se calcula y se cobra mediante unidades de escalado de IA generativa (GSUs) y tasas de consumo.

GSU y velocidad de consumo

Una unidad de escalado de IA generativa (GSU) es una medida del rendimiento de tus peticiones y respuestas. Este importe especifica la cantidad de rendimiento que se debe aprovisionar para un modelo.

La velocidad de consumo es una proporción que convierte las unidades de entrada y salida (como tokens, caracteres o imágenes) en tokens de entrada por segundo, caracteres de entrada por segundo o imágenes de entrada por segundo, respectivamente. Esta proporción representa el rendimiento y se usa para producir una unidad estándar en todos los modelos.

Cada modelo usa una cantidad de rendimiento diferente. Para obtener información sobre el importe mínimo de compra de GSU y los incrementos de cada modelo, consulta la sección Modelos admitidos y tasas de consumo de este documento.

Esta ecuación muestra cómo se calcula el rendimiento:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

El rendimiento calculado por segundo determina cuántas GSUs necesitas para tu caso práctico.

Consideraciones importantes

Para ayudarte a planificar tus necesidades de rendimiento aprovisionado, consulta las siguientes consideraciones importantes:

  • Las solicitudes se priorizan.

    Los clientes de Provisioned Throughput tienen prioridad y se les atiende antes que a las solicitudes bajo demanda.

  • El rendimiento no se acumula.

    El rendimiento sin usar no se acumula ni se transfiere al mes siguiente.

  • El rendimiento aprovisionado se mide en tokens por segundo, caracteres por segundo o imágenes por segundo.

    El rendimiento aprovisionado no se mide únicamente en función de las consultas por minuto (CPM). Se mide en función del tamaño de la consulta de tu caso práctico, el tamaño de la respuesta y las consultas por minuto.

  • El rendimiento aprovisionado es específico de un proyecto, una región, un modelo y una versión.

    El rendimiento aprovisionado se asigna a una combinación específica de proyecto, región y versión del modelo. El mismo modelo llamado desde otra región no se tendrá en cuenta en tu cuota de rendimiento aprovisionado y no tendrá prioridad sobre las solicitudes bajo demanda.

Almacenamiento en caché de contexto

La capacidad de procesamiento reservada admite el almacenamiento en caché de contexto implícito. No admite el almacenamiento en caché de contexto explícito. El tráfico de almacenamiento en caché de contexto explícito se ha movido de Provisioned Throughput a la modalidad de pago por uso.

El almacenamiento en caché implícito está habilitado en todos los Google Cloud proyectos de forma predeterminada. El almacenamiento en caché implícito reduce los costes y la latencia durante los aciertos de caché. En el caso de los modelos Gemini 2.0 Flash, Gemini 2.5 Flash y Gemini 2.5 Pro, los tokens almacenados en caché se cobran con un descuento del 75% en comparación con los tokens de entrada estándar cuando se produce un acierto de caché. En el caso del rendimiento aprovisionado, el descuento se aplica mediante una tasa de consumo reducida.

Por ejemplo, Gemini 2.5 Pro tiene las siguientes tasas de consumo de tokens de texto de entrada y tokens almacenados en caché:

  • 1 token de texto de entrada = 1 token

  • 1 token de texto almacenado en caché = 0,25 tokens

Si envías 1000 tokens de entrada a este modelo, tu capacidad de procesamiento aprovisionada se reducirá en 1000 tokens de entrada por segundo. Sin embargo, si envías 1000 tokens almacenados en caché a Gemini 2.5 Pro, se reducirá tu capacidad de procesamiento aprovisionada en 250 tokens por segundo.

Ten en cuenta que esto puede aumentar el rendimiento de las consultas similares en las que no se almacenan en caché los tokens y no se aplica el descuento de caché.

Para ver las tasas de reducción de los modelos compatibles con el rendimiento aprovisionado, consulta Modelos y tasas de reducción admitidos.

Acerca de la retirada de la API Live

Provisioned Throughput es compatible con la API Live de Gemini 2.5 Flash. Para saber cómo calcular el consumo al usar la API Live, consulta Calcular el rendimiento de la API Live.

Para obtener más información sobre cómo usar el rendimiento aprovisionado para Gemini 2.5 Flash con la API Live, consulta Rendimiento aprovisionado para la API Live.

Ejemplo de estimación de las necesidades de rendimiento aprovisionado

Para estimar tus necesidades de rendimiento aprovisionado, usa la herramienta de estimación de la Google Cloud consola. En el siguiente ejemplo se ilustra el proceso para estimar la cantidad de Provisioned Throughput de tu modelo. La región no se tiene en cuenta en los cálculos de la estimación.

En esta tabla se muestran las tasas de reducción de gemini-2.0-flash que puedes usar para seguir el ejemplo.

Modelo Rendimiento por GSU Unidades Incremento mínimo de compra de GSU Ritmos de reducción
Gemini 2.0 Flash 3360 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagen de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de audio de entrada = 7 tokens
1 token de texto de salida = 4 tokens
  1. Reúne los requisitos.

    1. En este ejemplo, tu requisito es verificar que puedes admitir 10 consultas por segundo (CPS) de una consulta con una entrada de 1000 tokens de texto y 500 tokens de audio para recibir una salida de 300 tokens de texto mediante gemini-2.0-flash.

      Este paso significa que conoces tu caso práctico, ya que has identificado tu modelo, las CPS y el tamaño de tus entradas y salidas.

    2. Para calcular el rendimiento, consulta las tasas de consumo del modelo seleccionado.

  2. Calcula el rendimiento.

    1. Multiplica tus entradas por las tasas de consumo para obtener el total de tokens de entrada:

      1000*(1 token por token de texto de entrada) + 500*(7 tokens por token de audio de entrada) = 4500 tokens de entrada ajustados por reducción por consulta.

    2. Multiplica los resultados por las tasas de consumo para obtener el total de tokens de salida:

      300*(4 tokens por token de texto de salida) = 1200 tokens de salida ajustados por consulta

    3. Suma los totales:

      4500 tokens de entrada ajustados por el consumo + 1200 tokens de salida ajustados por el consumo = 5700 tokens totales por consulta

    4. Multiplica el número total de tokens por las CPS para obtener el rendimiento total por segundo:

      5700 tokens totales por consulta * 10 CPS = 57.000 tokens totales por segundo

  3. Calcula tus GSUs.

    1. Las GSUs son el total de tokens por segundo dividido entre el rendimiento por segundo por GSU de la tabla de reducción.

      57.000 tokens totales por segundo ÷ 3360 tokens por segundo por unidad de servicio de Google = 16,96 unidades de servicio de Google

    2. El incremento mínimo de compra de unidades de servicio de Google Cloud para gemini-2.0-flash es 1, por lo que necesitarás 17 unidades para asegurar tu carga de trabajo.

Siguientes pasos