El servicio de evaluación de IA generativa ofrece las siguientes métricas de evaluación de tareas de traducción:
MetricX y COMET son métricas basadas en modelos puntuales que se han entrenado para tareas de traducción. Puedes evaluar la calidad y la precisión de los resultados de los modelos de traducción de tu contenido, tanto si son resultados de modelos de NMT, TranslationLLM o Gemini.
También puedes usar Gemini como modelo de evaluación para valorar la fluidez, la coherencia, la verbosidad y la calidad del texto de tu modelo en combinación con MetricX, COMET o BLEU.
MetricX es una métrica basada en errores desarrollada por Google que predice una puntuación de coma flotante entre 0 y 25 que representa la calidad de una traducción. MetricX está disponible como método basado en referencias y como método sin referencias (QE). Cuando usa esta métrica, una puntuación más baja es mejor, ya que significa que hay menos errores.
COMET utiliza un enfoque de regresión basado en referencias que proporciona puntuaciones que van de 0 a 1, donde 1 significa una traducción perfecta.
BLEU (Bilingual Evaluation Understudy) es una métrica basada en cálculos. La puntuación BLEU indica el grado de similitud entre el texto candidato y el texto de referencia. Un valor de puntuación BLEU más cercano a uno indica que una traducción se parece más al texto de referencia.
Ten en cuenta que no se recomienda usar las puntuaciones BLEU para comparar diferentes corpus e idiomas. Por ejemplo, una puntuación BLEU de 50 en una traducción de inglés a alemán no es comparable con una puntuación BLEU de 50 en una traducción de japonés a inglés. Muchos expertos en traducción han adoptado enfoques métricos basados en modelos, que tienen una mayor correlación con las valoraciones humanas y son más específicos a la hora de identificar escenarios de error.
Para saber cómo llevar a cabo evaluaciones de modelos de traducción, consulta Evaluar un modelo de traducción.