Monitorização do desempenho da GPU em VMs Linux

Pode acompanhar métricas como a utilização da GPU e a memória da GPU a partir das instâncias de máquinas virtuais (VM) através do agente Ops, que é a solução de recolha de telemetria recomendada pela Google para o Compute Engine. Ao usar o agente Ops, pode gerir as suas VMs com GPU da seguinte forma:

  • Visualize o estado da sua frota de GPUs NVIDIA com os nossos painéis de controlo pré-configurados.
  • Otimize os custos identificando GPUs subutilizadas e consolidando cargas de trabalho.
  • Planeie o dimensionamento analisando as tendências para decidir quando expandir a capacidade da GPU ou atualizar as GPUs existentes.
  • Use as métricas de criação de perfis do NVIDIA Data Center GPU Manager (DCGM) para identificar gargalos e problemas de desempenho nas suas GPUs.
  • Configure grupos de instâncias geridas (MIGs) para dimensionar automaticamente os recursos.
  • Receba alertas sobre métricas das suas GPUs NVIDIA.

Este documento aborda os procedimentos de monitorização de GPUs em VMs Linux através do agente de operações. Em alternativa, está disponível um script de relatórios no GitHub que também pode ser configurado para monitorizar a utilização da GPU em VMs Linux. Consulte o compute-gpu-monitoringscript de monitorização. Este script não é mantido ativamente.

Para monitorizar GPUs em VMs do Windows, consulte o artigo Monitorizar o desempenho da GPU (Windows).

Vista geral

O agente de operações, versão 2.38.0 ou posterior, pode acompanhar automaticamente as taxas de utilização da GPU e de utilização da memória da GPU nas suas VMs Linux que têm o agente instalado. Estas métricas, obtidas a partir da NVIDIA Management Library (NVML), são monitorizadas por GPU e por processo para qualquer processo que use GPUs. Para ver as métricas monitorizadas pelo agente de operações, consulte Métricas do agente: gpu.

Também pode configurar a integração do NVIDIA Data Center GPU Manager (DCGM) com o Ops Agent. Esta integração permite que o agente de operações acompanhe as métricas através dos contadores de hardware na GPU. O DCGM fornece acesso às métricas ao nível do dispositivo da GPU. Estes incluem a utilização do bloco de multiprocessadores de streaming (SM), a ocupação do SM, a utilização do pipeline do SM, a taxa de tráfego PCIe e a taxa de tráfego NVLink. Para ver as métricas monitorizadas pelo agente de operações, consulte o artigo Métricas de aplicações de terceiros: NVIDIA Data Center GPU Manager (DCGM).

Para rever as métricas da GPU através do agente de operações, conclua os seguintes passos:

  1. Em cada MV, verifique se cumpriu os requisitos.
  2. Em cada VM, instale o agente de operações.
  3. Opcional: em cada MV, configure a integração do NVIDIA Data Center GPU Manager (DCGM).
  4. Reveja as métricas no Cloud Monitoring.

Limitações

  • O agente de operações não monitoriza a utilização da GPU em VMs que usam o SO otimizado para contentores.

Requisitos

Em cada uma das suas VMs, verifique se cumpre os seguintes requisitos:

Instale o agente de operações

Para instalar o agente de operações, conclua os seguintes passos:

  1. Se estava a usar o compute-gpu-monitoring script de monitorização para acompanhar a utilização da GPU, desative o serviço antes de instalar o agente de operações. Para desativar o script de monitorização, execute o seguinte comando:

    sudo systemctl --no-reload --now disable google_gpu_monitoring_agent
  2. Instale a versão mais recente do agente de operações. Para instruções detalhadas, consulte o artigo Instalar o agente de operações.

  3. Depois de instalar o agente de operações, se precisar de instalar ou atualizar os controladores de GPU através dos scripts de instalação fornecidos pelo Compute Engine, reveja a secção de limitações.

Reveja as métricas da NVML no Compute Engine

Pode rever as métricas da NVML que o agente de operações recolhe dos separadores de Observabilidade para instâncias de VM Linux do Compute Engine.

Para ver as métricas de uma única MV, faça o seguinte:

  1. Na Google Cloud consola, aceda à página Instâncias de VM.

    Aceder às instâncias de VM

  2. Selecione uma VM para abrir a página Detalhes.

  3. Clique no separador Observabilidade para apresentar informações sobre a VM.

  4. Selecione o filtro rápido GPU.

Para ver as métricas de várias VMs, faça o seguinte:

  1. Na Google Cloud consola, aceda à página Instâncias de VM.

    Aceder às instâncias de VM

  2. Clique no separador Observabilidade.

  3. Selecione o filtro rápido GPU.

Opcional: configure a integração do NVIDIA Data Center GPU Manager (DCGM)

O agente de operações também oferece integração para o NVIDIA Data Center GPU Manager (DCGM) para recolher métricas avançadas importantes da GPU, como a utilização do bloco de multiprocessador de streaming (SM), a ocupação do SM, a utilização do pipeline do SM, a taxa de tráfego PCIe e a taxa de tráfego NVLink.

Estas métricas avançadas de GPU não são recolhidas dos modelos NVIDIA P100 e P4.

Para obter instruções detalhadas sobre como configurar e usar esta integração em cada MV, consulte o NVIDIA Data Center GPU Manager (DCGM).

Reveja as métricas do DCGM no Cloud Monitoring

  1. Na Google Cloud consola, aceda à página Monitorização > Painéis de controlo.

    Aceder a Monitorização

  2. Selecione o separador Biblioteca de amostras.

  3. No campo Filtro, escreva NVIDIA. O painel de controlo NVIDIA GPU Monitoring Overview (GCE e GKE) é apresentado.

    Se configurou a integração do NVIDIA Data Center GPU Manager (DCGM), o painel de controlo NVIDIA GPU Monitoring Advanced DCGM Metrics (GCE Only) também é apresentado.

    Painéis de controlo do Cloud Monitoring

  4. Para o painel de controlo necessário, clique em Pré-visualizar. É apresentada a página Pré-visualização do painel de controlo de exemplo.

  5. Na página Pré-visualização do painel de controlo de exemplo, clique em Importar painel de controlo de exemplo.

    • O painel de controlo Vista geral da monitorização da GPU NVIDIA (GCE e GKE) apresenta as métricas da GPU, como a utilização da GPU, a taxa de tráfego da NIC e a utilização da memória da GPU.

      A apresentação da utilização da GPU é semelhante ao seguinte resultado:

      Cloud Monitoring (NVML)

    • O painel de controlo NVIDIA GPU Monitoring Advanced DCGM Metrics (apenas GCE) apresenta as principais métricas avançadas, como a utilização de SM, a ocupação de SM, a utilização de pipelines de SM, a taxa de tráfego PCIe e a taxa de tráfego NVLink.

      A apresentação das métricas do DCGM avançado é semelhante ao seguinte resultado:

      Cloud Monitoring (DCGM)

O que se segue?