2025-11-20T05:37:14.741052

Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

Saraf, Boroujeni, Beaudry et al.
Large language models (LLMs) are increasingly deployed as evaluators of text quality, yet the validity of their judgments remains underexplored. This study investigates systematic bias in self- and cross-model evaluations across three prominent LLMs: ChatGPT, Gemini, and Claude. We designed a controlled experiment in which blog posts authored by each model were evaluated by all three models under four labeling conditions: no attribution, true attribution, and two false-attribution scenarios. Evaluations employed both holistic preference voting and granular quality ratings across three dimensions Coherence, Informativeness, and Conciseness with all scores normalized to percentages for direct comparison. Our findings reveal pronounced asymmetries in model judgments: the "Claude" label consistently elevated scores regardless of actual authorship, while the "Gemini" label systematically depressed them. False attribution frequently reversed preference rankings, producing shifts of up to 50 percentage points in voting outcomes and up to 12 percentage points in quality ratings. Notably, Gemini exhibited severe self-deprecation under true labels, while Claude demonstrated intensified self-preference. These results demonstrate that perceived model identity can substantially distort both high-level judgments and fine-grained quality assessments, independent of content quality. Our findings challenge the reliability of LLM-as-judge paradigms and underscore the critical need for blind evaluation protocols and diverse multi-model validation frameworks to ensure fairness and validity in automated text evaluation and LLM benchmarking.
academic

Cuantificación del Sesgo Inducido por Etiquetas en Autoevaluaciones y Evaluaciones Cruzadas de Modelos de Lenguaje Grande

Información Básica

  • ID del Artículo: 2508.21164
  • Título: Cuantificación del Sesgo Inducido por Etiquetas en Autoevaluaciones y Evaluaciones Cruzadas de Modelos de Lenguaje Grande
  • Autores: Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush
  • Clasificación: cs.CL, cs.AI
  • Fecha de Publicación: 9 de octubre de 2025 (arXiv v3)
  • Enlace del Artículo: https://arxiv.org/abs/2508.21164v3

Resumen

Este estudio investiga los sesgos sistemáticos en tres modelos de lenguaje grande predominantes (ChatGPT, Gemini y Claude) en autoevaluaciones y evaluaciones cruzadas. El diseño de investigación implementó un experimento controlado en el que cada modelo evaluó artículos de blog generados por diversos modelos bajo cuatro condiciones de etiquetado (sin etiqueta, etiqueta verdadera, dos escenarios de etiqueta falsa). La evaluación empleó votación de preferencia general y puntuaciones de calidad granulares en tres dimensiones (coherencia, informatividad, concisión), con todas las puntuaciones normalizadas a porcentajes para comparación directa. El estudio reveló asimetrías significativas en los juicios de los modelos: la etiqueta "Claude" elevó las puntuaciones independientemente del autor real, mientras que la etiqueta "Gemini" redujo sistemáticamente las puntuaciones. Las etiquetas falsas frecuentemente invirtieron los órdenes de preferencia, produciendo cambios de hasta 50 puntos porcentuales en resultados de votación y hasta 12 puntos porcentuales en puntuaciones de calidad.

Antecedentes de Investigación y Motivación

Problema Central

A medida que los modelos de lenguaje grande se despliegan cada vez más como herramientas de evaluación de calidad de texto, la validez de sus juicios sigue siendo insuficientemente explorada. Este estudio aborda principalmente las siguientes cuestiones:

  1. Problema de Sesgo en Evaluaciones de LLM: ¿Pueden los LLM evaluar imparcialmente los resultados, o están influenciados por la autoría percibida?
  2. Sesgo Inducido por Etiquetas: ¿Afectan los nombres de modelos a los resultados de evaluación, independientemente de la calidad real?
  3. Sesgo de Autoprefencia: ¿Tienden los modelos a otorgar puntuaciones más altas a sus propios resultados?

Importancia

La importancia de esta cuestión se manifiesta en:

  • La creciente prevalencia del paradigma LLM-as-judge en evaluación automatizada de texto
  • El sesgo de evaluación puede distorsionar resultados de evaluación comparativa
  • Afecta la equidad en comparación y selección de modelos
  • Plantea desafíos para la confiabilidad y transparencia de sistemas de IA

Limitaciones de Investigación Existente

La investigación existente se centra principalmente en tipos únicos de sesgo o números limitados de modelos, careciendo de:

  1. Análisis comparativo controlado multimodelo y multicondición
  2. Evidencia cuantitativa comparando efectos de etiquetas en dimensiones de preferencia y calidad
  3. Recomendaciones sistemáticas para mitigación de sesgos

Contribuciones Principales

  1. Análisis Multicondición Controlado: Proporciona un marco de análisis controlado y multicondición de sesgos en autoevaluaciones y evaluaciones entre modelos
  2. Evidencia Cuantitativa de Sesgo: Proporciona evidencia cuantitativa comparando efectos de etiquetas en dimensiones de preferencia y calidad
  3. Recomendaciones de Mitigación de Sesgo: Ofrece recomendaciones para mitigar sesgos mediante evaluación ciega o protocolos de evaluación multimodelo
  4. Metodología de Puntuación Dual: Emplea dos métodos complementarios: puntuación de preferencia en porcentaje y puntuación de calidad basada en puntos
  5. Descubrimiento de Asimetría de Etiquetas: Descubre que la etiqueta "Claude" eleva consistentemente las puntuaciones, mientras que la etiqueta "Gemini" reduce sistemáticamente las puntuaciones

Explicación Detallada de Metodología

Diseño Experimental

Este estudio empleó un diseño controlado multimodelo y multicondición de tres fases:

Fase 1: Generación de Blogs

  • Modelos: ChatGPT-4o, Gemini 2.5 Flash, Claude Sonnet 4
  • Tarea: Generar artículos de blog de aproximadamente 200 palabras utilizando una plantilla de indicación fija
  • Plantilla de Indicación: "You are a professional blog writer. Write a concise blog post (around 200 words) for the title ''. The style should be engaging and suitable for an online audience. Return only the blog content, no extra text."
  • Datos: 10 títulos de temas diferentes, cada modelo genera un blog por título, totalizando 30 blogs

Fase 2: Configuración de Condiciones de Etiquetado

Cuatro condiciones de etiquetado:

  1. Sin Etiqueta: Sin atribución de autor
  2. Etiqueta Verdadera: Atribución correcta
  3. Escenario de Etiqueta Falsa 1: ChatGPT etiquetado como Gemini, Gemini como Claude, Claude como ChatGPT
  4. Escenario de Etiqueta Falsa 2: ChatGPT etiquetado como Claude, Gemini como ChatGPT, Claude como Gemini

Fase 3: Sistema de Puntuación Dual

  1. Puntuación de Preferencia en Porcentaje: Mide la frecuencia con que cada resultado se selecciona como "mejor"
  2. Puntuación de Calidad Basada en Puntos: Puntuación 0-10 en tres dimensiones (coherencia, informatividad, concisión), convertida a porcentaje

Niveles de Análisis

  • Análisis Intracondición: Comparación dentro de condiciones
  • Análisis Transcondición: Seguimiento de cambios entre condiciones
  • Análisis Específico de Métricas: Examen del impacto del sesgo en cada criterio

Configuración Experimental

Características del Conjunto de Datos

  • Escala: 30 artículos de blog (3 modelos × 10 títulos)
  • Temas: Cobertura de temas diversificados con complejidad similar
  • Longitud: Aproximadamente 200 palabras, adecuadas para audiencia en línea

Métricas de Evaluación

  1. Votación de Preferencia General: Frecuencia de "mejor opción" en formato porcentual
  2. Puntuaciones de Dimensión de Calidad:
    • Coherencia: Estructura lógica y fluidez del artículo
    • Informatividad: Valor informativo y profundidad del contenido
    • Concisión: Eficiencia y precisión de la expresión

Condiciones de Comparación

  • Condición sin etiqueta como línea base
  • Condición de etiqueta verdadera
  • Dos escenarios de etiqueta falsa

Resultados Experimentales

Hallazgos Principales

Línea Base de Condición Sin Etiqueta

  • Los tres modelos exhiben autoprefencia leve
  • Frecuencia de selección de ChatGPT de su propio resultado: 50%
  • Gemini: 45.3%
  • Claude: 46.7%
  • Gemini se subestima consistentemente en puntuaciones entre modelos (7%-12%)

Amplificación de Sesgo en Condición de Etiqueta Verdadera

  • Autoprefencia de Claude Mejorada: Puntuación de autoevaluación aumenta de 46.7% a 60%
  • Autodevaluación Severa de Gemini:
    • Puntuación de Claude: 0%
    • Puntuación de ChatGPT: 1.34%
    • Autoevaluación: 11.32%
  • Autoprefencia Moderada de ChatGPT: 44.66%, pero castiga severamente a Gemini

Fuerte Impacto de Etiquetas Falsas

Resultados del Escenario 1:

  • Preferencia de Gemini por contenido etiquetado como Claude aumenta de 11.32% a 51.35%
  • Preferencia de Claude por contenido etiquetado como ChatGPT alcanza 54.15%
  • Puntuaciones de informatividad aumentan 8-10 puntos porcentuales bajo etiqueta "propia" falsa

Resultados del Escenario 2:

  • Etiqueta "Claude" produce la puntuación individual más alta: Gemini califica ChatGPT-como-Claude en 60.7%
  • Etiqueta "Gemini" nuevamente deprime puntuaciones: Claude-como-Gemini disminuye de 60% bajo etiqueta verdadera a 18.48%

Efectos de Sesgo Cuantitativos

  • Cambio en Votación de Preferencia: Oscilaciones de hasta 50 puntos porcentuales
  • Cambio en Puntuaciones de Calidad: Cambios de hasta 12 puntos porcentuales
  • Dimensión Más Sensible: Puntuación de informatividad es más sensible a etiquetas
  • Dimensión Más Estable: Puntuación de concisión es relativamente estable

Patrones de Comportamiento Específicos del Modelo

  1. Claude: Autoprefencia más fuerte bajo etiqueta verdadera (+13 puntos), castigo severo cuando se etiqueta erróneamente como Gemini (-28 puntos)
  2. Gemini: Autoevaluación severa bajo etiqueta verdadera, pero otorga incrementos significativos a contenido etiquetado como "Claude" (hasta +21 puntos)
  3. ChatGPT: Castigo consistente de contenido etiquetado como Gemini entre condiciones

Trabajo Relacionado

Investigación de Sesgo de Autoprefencia

  • Panickssery et al. demuestran que los LLM prefieren sus propios resultados, con capacidad de autoidentificación medible
  • Wataoka et al. investigan sesgo de autoprefencia en LLM-as-judge

Sesgo de Evaluación Inducido por Etiquetas

  • Wang et al. demuestran que sesgos sistemáticos basados en posición de respuesta pueden manipular ordenamientos
  • Chen et al. investigan si la autoprefencia refleja verdadera superioridad o sesgo de señalización

Investigación de Dinámicas de Evaluación

  • Inconsistencias entre dinámicas de evaluación implícitas y explícitas
  • Problemas de sesgo estructural en sistemas de aprendizaje profundo

Conclusiones y Discusión

Conclusiones Principales

  1. Identidad de Etiqueta Supera Calidad de Contenido: La identidad de modelo percibida puede distorsionar significativamente los juicios, independientemente de la calidad real del contenido
  2. Efectos de Etiqueta Asimétricos: La etiqueta "Claude" eleva consistentemente las puntuaciones, mientras que la etiqueta "Gemini" reduce sistemáticamente las puntuaciones
  3. Diferencias en Niveles de Evaluación: Los juicios de "mejor opción" de nivel superior son más susceptibles al sesgo que las evaluaciones de calidad detalladas
  4. Diferencias en Sensibilidad de Dimensión: La informatividad es la dimensión más susceptible a influencia de etiquetas, mientras que la concisión es relativamente estable

Limitaciones

  1. Restricción de Rango de Modelos: Solo estudia tres modelos, la generalización requiere verificación
  2. Dominio de Tarea Único: Solo utiliza tarea de escritura de blogs
  3. Dimensiones de Evaluación Limitadas: Solo considera tres dimensiones de calidad
  4. Fuente de Sesgo No Aclarada: No explora profundamente las fuentes de sesgo en datos de entrenamiento o programas de alineación

Recomendaciones Prácticas

  1. Protocolos de Evaluación Ciega: Ocultar identidad de modelo para prevenir anclaje basado en nombre de modelo
  2. Consenso Multimodelo: Utilizar sistemas de evaluación multimodelo o basados en consenso
  3. Separación de Tipos de Evaluación: Separar juicios de preferencia de puntuaciones de calidad detalladas
  4. Ajustes Conscientes del Sesgo: Desarrollar mecanismos de ajuste de puntuación conscientes del sesgo

Evaluación Profunda

Fortalezas

  1. Diseño Experimental Riguroso: Diseño controlado multicondición y multimodelo asegura confiabilidad de resultados
  2. Innovación Metodológica: Sistema de puntuación dual (preferencia + calidad) proporciona perspectiva integral
  3. Hallazgos de Significancia: Revela sesgos sistemáticos en evaluación de LLM, con impacto importante en campo de evaluación de IA
  4. Análisis Cuantitativo Suficiente: Proporciona evidencia numérica detallada y análisis estadístico
  5. Valor Práctico Alto: Proporciona recomendaciones concretas para mejorar evaluación de LLM

Deficiencias

  1. Escala de Muestra Limitada: Tamaño de muestra de 30 artículos de blog es relativamente pequeño
  2. Singularidad de Tarea: Limitado a escritura de blogs, carece de verificación de diversidad de tareas
  3. Mecanismo de Sesgo No Aclarado: No explora profundamente causas fundamentales de sesgo asimétrico
  4. Efectos a Largo Plazo Desconocidos: No considera patrones de sesgo que cambian con el tiempo

Evaluación de Impacto

  1. Contribución Académica: Proporciona evidencia empírica importante para investigación de sesgo en evaluación de LLM
  2. Valor Práctico: Impacta directamente diseño de protocolos de evaluación y evaluación comparativa de LLM
  3. Significancia Política: Proporciona base científica para políticas de equidad y transparencia de sistemas de IA
  4. Reproducibilidad: Descripción clara de metodología facilita reproducción y extensión

Escenarios Aplicables

  1. Evaluación Comparativa de LLM: Mejora equidad de marcos de evaluación existentes
  2. Sistemas de Evaluación Automatizada: Diseña herramientas de evaluación de calidad de texto sin sesgos
  3. Investigación de Comparación de Modelos: Asegura objetividad en comparación de desempeño de modelos
  4. Investigación en Ética de IA: Proporciona metodología para detección y mitigación de sesgo en sistemas de IA

Direcciones de Investigación Futura

  1. Expansión de Rango de Modelos: Incluir más LLM para investigación más amplia de patrones de sesgo
  2. Verificación Multitarea: Validar generalización de efectos de etiqueta en diferentes tipos de tareas
  3. Exploración de Fuentes de Sesgo: Investigar profundamente impacto de datos de entrenamiento y programas de alineación en formación de sesgo
  4. Desarrollo de Estrategias de Mitigación: Diseñar y probar técnicas más efectivas de mitigación de sesgo
  5. Investigación de Sesgo Dinámico: Estudiar cambios en patrones de sesgo con el tiempo y actualizaciones de modelos

Resumen: Este estudio, mediante diseño experimental riguroso, revela sesgos graves inducidos por etiquetas en evaluación de LLM, proporcionando evidencia científica importante para mejorar equidad y confiabilidad de evaluación de IA. Los hallazgos no solo poseen valor académico importante, sino que también tienen significancia directiva para despliegue y evaluación de sistemas de IA en la práctica.