Evaluar modelos de traducción

El servicio de evaluación de IA generativa ofrece las siguientes métricas de evaluación de tareas de traducción:

MetricX y COMET son métricas basadas en modelos puntuales que se han entrenado para tareas de traducción. Puedes evaluar la calidad y la precisión de los resultados de los modelos de traducción de tu contenido, tanto si son resultados de modelos de NMT, TranslationLLM o Gemini.

También puedes usar Gemini como modelo de evaluación para valorar la fluidez, la coherencia, la verbosidad y la calidad del texto de tu modelo en combinación con MetricX, COMET o BLEU.

  • MetricX es una métrica basada en errores desarrollada por Google que predice una puntuación de coma flotante entre 0 y 25 que representa la calidad de una traducción. MetricX está disponible como método basado en referencias y como método sin referencias (QE). Cuando usa esta métrica, una puntuación más baja es mejor, ya que significa que hay menos errores.

  • COMET utiliza un enfoque de regresión basado en referencias que proporciona puntuaciones que van de 0 a 1, donde 1 significa una traducción perfecta.

  • BLEU (Bilingual Evaluation Understudy) es una métrica basada en cálculos. La puntuación BLEU indica el grado de similitud entre el texto candidato y el texto de referencia. Un valor de puntuación BLEU más cercano a uno indica que una traducción se parece más al texto de referencia.

Ten en cuenta que no se recomienda usar las puntuaciones BLEU para comparar diferentes corpus e idiomas. Por ejemplo, una puntuación BLEU de 50 en una traducción de inglés a alemán no es comparable con una puntuación BLEU de 50 en una traducción de japonés a inglés. Muchos expertos en traducción han adoptado enfoques métricos basados en modelos, que tienen una mayor correlación con las valoraciones humanas y son más específicos a la hora de identificar escenarios de error.

Para saber cómo llevar a cabo evaluaciones de modelos de traducción, consulta Evaluar un modelo de traducción.