Esta página foi traduzida pela API Cloud Translation.

Avalie um agente

Depois de desenvolver um agente, pode usar o serviço de avaliação de IA gen para avaliar a capacidade do agente de concluir tarefas e alcançar objetivos para um determinado exemplo de utilização.

Defina as métricas de avaliação

Comece com uma lista de métricas vazia (ou seja, metrics = []) e adicione-lhe as métricas relevantes. Para incluir métricas adicionais:

Resposta final

A avaliação da resposta final segue o mesmo processo que a avaliação baseada em modelos. Para ver detalhes, consulte o artigo Defina as métricas de avaliação.

Correspondência exata

metrics.append("trajectory_exact_match")

Se a trajetória prevista for idêntica à trajetória de referência, com as mesmas chamadas de ferramentas na mesma ordem, a métrica trajectory_exact_match devolve uma pontuação de 1. Caso contrário, devolve 0.

Parâmetros de entrada:

predicted_trajectory: a lista de chamadas de ferramentas usadas pelo agente para alcançar a resposta final.
reference_trajectory: a utilização esperada da ferramenta para satisfazer a consulta.

Correspondência na ordem

metrics.append("trajectory_in_order_match")

Se a trajetória prevista contiver todas as chamadas de ferramentas da trajetória de referência pela mesma ordem e também puder ter chamadas de ferramentas adicionais, a métrica trajectory_in_order_match devolve uma pontuação de 1; caso contrário, 0.

Parâmetros de entrada:

predicted_trajectory: a trajetória prevista usada pelo agente para alcançar a resposta final.
reference_trajectory: A trajetória prevista esperada para o agente satisfazer a consulta.

Correspondência em qualquer ordem

metrics.append("trajectory_any_order_match")

Se a trajetória prevista contiver todas as chamadas de ferramentas da trajetória de referência, mas a ordem não for importante e puder conter chamadas de ferramentas adicionais, a métrica trajectory_any_order_match devolve uma pontuação de 1. Caso contrário, devolve 0.

Parâmetros de entrada:

predicted_trajectory: a lista de chamadas de ferramentas usadas pelo agente para alcançar a resposta final.
reference_trajectory: a utilização esperada da ferramenta para satisfazer a consulta.

Precisão

metrics.append("trajectory_precision")

A métrica trajectory_precision mede quantas das chamadas de ferramentas na trajetória prevista são realmente relevantes ou corretas de acordo com a trajetória de referência. É um valor float no intervalo de [0, 1]: quanto mais alta for a classificação, mais precisa é a trajetória prevista.

A precisão é calculada da seguinte forma: conte quantas ações na trajetória prevista também aparecem na trajetória de referência. Divida essa contagem pelo número total de ações na trajetória prevista.

Parâmetros de entrada:

predicted_trajectory: a lista de chamadas de ferramentas usadas pelo agente para alcançar a resposta final.
reference_trajectory: a utilização esperada da ferramenta para satisfazer a consulta.

Recordar

metrics.append("trajectory_recall")

A métrica trajectory_recall mede quantas das chamadas de ferramentas essenciais da trajetória de referência são realmente captadas na trajetória prevista. É um valor float no intervalo de [0, 1]: quanto mais elevada for a pontuação, melhor é a capacidade de memorização da trajetória prevista.

A taxa de recordação é calculada da seguinte forma: conte quantas ações na trajetória de referência também aparecem na trajetória prevista. Divida essa contagem pelo número total de ações na trajetória de referência.

Parâmetros de entrada:

predicted_trajectory: a lista de chamadas de ferramentas usadas pelo agente para alcançar a resposta final.
reference_trajectory: a utilização esperada da ferramenta para satisfazer a consulta.

Utilização de uma única ferramenta

from vertexai.preview.evaluation import metrics

metrics.append(metrics.TrajectorySingleToolUse(tool_name='tool_name'))

A métrica trajectory_single_tool_use verifica se uma ferramenta específica que é especificada na especificação da métrica é usada na trajetória prevista. Não verifica a ordem das chamadas de ferramentas nem quantas vezes a ferramenta é usada, apenas se está presente ou não. É um valor de 0 se a ferramenta estiver ausente e 1, caso contrário.

Parâmetros de entrada:

predicted_trajectory: a lista de chamadas de ferramentas usadas pelo agente para alcançar a resposta final.

Personalizado

Pode definir uma métrica personalizada da seguinte forma:

from vertexai.preview.evaluation import metrics

def word_count(instance):
  response = instance["response"]
  score = len(response.split(" "))
  return {"word_count": score}

metrics.append(
  metrics.CustomMetric(name="word_count", metric_function=word_count)
)

As duas métricas de desempenho seguintes estão sempre incluídas nos resultados. Não tem de especificá-los em EvalTask:

latency (float): tempo (em segundos) que o agente demorou a responder.
failure (bool): 0 se a invocação do agente tiver sido bem-sucedida, 1 caso contrário.

Prepare o conjunto de dados de avaliação

Para preparar o conjunto de dados para a resposta final ou a avaliação da trajetória: