2025-11-20T05:37:14.741052

Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

Saraf, Boroujeni, Beaudry et al.

Large language models (LLMs) are increasingly deployed as evaluators of text quality, yet the validity of their judgments remains underexplored. This study investigates systematic bias in self- and cross-model evaluations across three prominent LLMs: ChatGPT, Gemini, and Claude. We designed a controlled experiment in which blog posts authored by each model were evaluated by all three models under four labeling conditions: no attribution, true attribution, and two false-attribution scenarios. Evaluations employed both holistic preference voting and granular quality ratings across three dimensions Coherence, Informativeness, and Conciseness with all scores normalized to percentages for direct comparison. Our findings reveal pronounced asymmetries in model judgments: the "Claude" label consistently elevated scores regardless of actual authorship, while the "Gemini" label systematically depressed them. False attribution frequently reversed preference rankings, producing shifts of up to 50 percentage points in voting outcomes and up to 12 percentage points in quality ratings. Notably, Gemini exhibited severe self-deprecation under true labels, while Claude demonstrated intensified self-preference. These results demonstrate that perceived model identity can substantially distort both high-level judgments and fine-grained quality assessments, independent of content quality. Our findings challenge the reliability of LLM-as-judge paradigms and underscore the critical need for blind evaluation protocols and diverse multi-model validation frameworks to ensure fairness and validity in automated text evaluation and LLM benchmarking.

academic

Cuantificación del Sesgo Inducido por Etiquetas en Autoevaluaciones y Evaluaciones Cruzadas de Modelos de Lenguaje Grande

Información Básica

ID del Artículo: 2508.21164
Título: Cuantificación del Sesgo Inducido por Etiquetas en Autoevaluaciones y Evaluaciones Cruzadas de Modelos de Lenguaje Grande
Autores: Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush
Clasificación: cs.CL, cs.AI
Fecha de Publicación: 9 de octubre de 2025 (arXiv v3)
Enlace del Artículo: https://arxiv.org/abs/2508.21164v3

Resumen

Este estudio investiga los sesgos sistemáticos en tres modelos de lenguaje grande predominantes (ChatGPT, Gemini y Claude) en autoevaluaciones y evaluaciones cruzadas. El diseño de investigación implementó un experimento controlado en el que cada modelo evaluó artículos de blog generados por diversos modelos bajo cuatro condiciones de etiquetado (sin etiqueta, etiqueta verdadera, dos escenarios de etiqueta falsa). La evaluación empleó votación de preferencia general y puntuaciones de calidad granulares en tres dimensiones (coherencia, informatividad, concisión), con todas las puntuaciones normalizadas a porcentajes para comparación directa. El estudio reveló asimetrías significativas en los juicios de los modelos: la etiqueta "Claude" elevó las puntuaciones independientemente del autor real, mientras que la etiqueta "Gemini" redujo sistemáticamente las puntuaciones. Las etiquetas falsas frecuentemente invirtieron los órdenes de preferencia, produciendo cambios de hasta 50 puntos porcentuales en resultados de votación y hasta 12 puntos porcentuales en puntuaciones de calidad.

Antecedentes de Investigación y Motivación

Problema Central

A medida que los modelos de lenguaje grande se despliegan cada vez más como herramientas de evaluación de calidad de texto, la validez de sus juicios sigue siendo insuficientemente explorada. Este estudio aborda principalmente las siguientes cuestiones:

Problema de Sesgo en Evaluaciones de LLM: ¿Pueden los LLM evaluar imparcialmente los resultados, o están influenciados por la autoría percibida?
Sesgo Inducido por Etiquetas: ¿Afectan los nombres de modelos a los resultados de evaluación, independientemente de la calidad real?
Sesgo de Autoprefencia: ¿Tienden los modelos a otorgar puntuaciones más altas a sus propios resultados?

Importancia

La importancia de esta cuestión se manifiesta en:

La creciente prevalencia del paradigma LLM-as-judge en evaluación automatizada de texto
El sesgo de evaluación puede distorsionar resultados de evaluación comparativa
Afecta la equidad en comparación y selección de modelos
Plantea desafíos para la confiabilidad y transparencia de sistemas de IA

Limitaciones de Investigación Existente

La investigación existente se centra principalmente en tipos únicos de sesgo o números limitados de modelos, careciendo de:

Análisis comparativo controlado multimodelo y multicondición
Evidencia cuantitativa comparando efectos de etiquetas en dimensiones de preferencia y calidad
Recomendaciones sistemáticas para mitigación de sesgos

Contribuciones Principales

Análisis Multicondición Controlado: Proporciona un marco de análisis controlado y multicondición de sesgos en autoevaluaciones y evaluaciones entre modelos
Evidencia Cuantitativa de Sesgo: Proporciona evidencia cuantitativa comparando efectos de etiquetas en dimensiones de preferencia y calidad
Recomendaciones de Mitigación de Sesgo: Ofrece recomendaciones para mitigar sesgos mediante evaluación ciega o protocolos de evaluación multimodelo
Metodología de Puntuación Dual: Emplea dos métodos complementarios: puntuación de preferencia en porcentaje y puntuación de calidad basada en puntos
Descubrimiento de Asimetría de Etiquetas: Descubre que la etiqueta "Claude" eleva consistentemente las puntuaciones, mientras que la etiqueta "Gemini" reduce sistemáticamente las puntuaciones

Explicación Detallada de Metodología

Diseño Experimental

Este estudio empleó un diseño controlado multimodelo y multicondición de tres fases:

Fase 1: Generación de Blogs

Modelos: ChatGPT-4o, Gemini 2.5 Flash, Claude Sonnet 4
Tarea: Generar artículos de blog de aproximadamente 200 palabras utilizando una plantilla de indicación fija
Plantilla de Indicación: "You are a professional blog writer. Write a concise blog post (around 200 words) for the title ''. The style should be engaging and suitable for an online audience. Return only the blog content, no extra text."
Datos: 10 títulos de temas diferentes, cada modelo genera un blog por título, totalizando 30 blogs

Fase 2: Configuración de Condiciones de Etiquetado

Cuatro condiciones de etiquetado:

Sin Etiqueta: Sin atribución de autor
Etiqueta Verdadera: Atribución correcta
Escenario de Etiqueta Falsa 1: ChatGPT etiquetado como Gemini, Gemini como Claude, Claude como ChatGPT
Escenario de Etiqueta Falsa 2: ChatGPT etiquetado como Claude, Gemini como ChatGPT, Claude como Gemini

Fase 3: Sistema de Puntuación Dual

Puntuación de Preferencia en Porcentaje: Mide la frecuencia con que cada resultado se selecciona como "mejor"
Puntuación de Calidad Basada en Puntos: Puntuación 0-10 en tres dimensiones (coherencia, informatividad, concisión), convertida a porcentaje

Niveles de Análisis

Análisis Intracondición: Comparación dentro de condiciones
Análisis Transcondición: Seguimiento de cambios entre condiciones
Análisis Específico de Métricas: Examen del impacto del sesgo en cada criterio

Configuración Experimental

Características del Conjunto de Datos

Escala: 30 artículos de blog (3 modelos × 10 títulos)
Temas: Cobertura de temas diversificados con complejidad similar
Longitud: Aproximadamente 200 palabras, adecuadas para audiencia en línea

Métricas de Evaluación

Votación de Preferencia General: Frecuencia de "mejor opción" en formato porcentual
Puntuaciones de Dimensión de Calidad:
- Coherencia: Estructura lógica y fluidez del artículo
- Informatividad: Valor informativo y profundidad del contenido
- Concisión: Eficiencia y precisión de la expresión

Condiciones de Comparación

Condición sin etiqueta como línea base
Condición de etiqueta verdadera
Dos escenarios de etiqueta falsa

Resultados Experimentales

Hallazgos Principales

Línea Base de Condición Sin Etiqueta

Los tres modelos exhiben autoprefencia leve
Frecuencia de selección de ChatGPT de su propio resultado: 50%
Gemini: 45.3%
Claude: 46.7%
Gemini se subestima consistentemente en puntuaciones entre modelos (7%-12%)

Amplificación de Sesgo en Condición de Etiqueta Verdadera

Autoprefencia de Claude Mejorada: Puntuación de autoevaluación aumenta de 46.7% a 60%
Autodevaluación Severa de Gemini:
- Puntuación de Claude: 0%
- Puntuación de ChatGPT: 1.34%
- Autoevaluación: 11.32%
Autoprefencia Moderada de ChatGPT: 44.66%, pero castiga severamente a Gemini

Fuerte Impacto de Etiquetas Falsas

Resultados del Escenario 1:

Preferencia de Gemini por contenido etiquetado como Claude aumenta de 11.32% a 51.35%
Preferencia de Claude por contenido etiquetado como ChatGPT alcanza 54.15%
Puntuaciones de informatividad aumentan 8-10 puntos porcentuales bajo etiqueta "propia" falsa

Resultados del Escenario 2:

Etiqueta "Claude" produce la puntuación individual más alta: Gemini califica ChatGPT-como-Claude en 60.7%
Etiqueta "Gemini" nuevamente deprime puntuaciones: Claude-como-Gemini disminuye de 60% bajo etiqueta verdadera a 18.48%

Efectos de Sesgo Cuantitativos

Cambio en Votación de Preferencia: Oscilaciones de hasta 50 puntos porcentuales
Cambio en Puntuaciones de Calidad: Cambios de hasta 12 puntos porcentuales
Dimensión Más Sensible: Puntuación de informatividad es más sensible a etiquetas
Dimensión Más Estable: Puntuación de concisión es relativamente estable

Patrones de Comportamiento Específicos del Modelo

Claude: Autoprefencia más fuerte bajo etiqueta verdadera (+13 puntos), castigo severo cuando se etiqueta erróneamente como Gemini (-28 puntos)
Gemini: Autoevaluación severa bajo etiqueta verdadera, pero otorga incrementos significativos a contenido etiquetado como "Claude" (hasta +21 puntos)
ChatGPT: Castigo consistente de contenido etiquetado como Gemini entre condiciones

Trabajo Relacionado

Investigación de Sesgo de Autoprefencia

Panickssery et al. demuestran que los LLM prefieren sus propios resultados, con capacidad de autoidentificación medible
Wataoka et al. investigan sesgo de autoprefencia en LLM-as-judge

Sesgo de Evaluación Inducido por Etiquetas

Wang et al. demuestran que sesgos sistemáticos basados en posición de respuesta pueden manipular ordenamientos
Chen et al. investigan si la autoprefencia refleja verdadera superioridad o sesgo de señalización

Investigación de Dinámicas de Evaluación

Inconsistencias entre dinámicas de evaluación implícitas y explícitas
Problemas de sesgo estructural en sistemas de aprendizaje profundo

Conclusiones y Discusión

Conclusiones Principales

Identidad de Etiqueta Supera Calidad de Contenido: La identidad de modelo percibida puede distorsionar significativamente los juicios, independientemente de la calidad real del contenido
Efectos de Etiqueta Asimétricos: La etiqueta "Claude" eleva consistentemente las puntuaciones, mientras que la etiqueta "Gemini" reduce sistemáticamente las puntuaciones
Diferencias en Niveles de Evaluación: Los juicios de "mejor opción" de nivel superior son más susceptibles al sesgo que las evaluaciones de calidad detalladas
Diferencias en Sensibilidad de Dimensión: La informatividad es la dimensión más susceptible a influencia de etiquetas, mientras que la concisión es relativamente estable

Limitaciones

Restricción de Rango de Modelos: Solo estudia tres modelos, la generalización requiere verificación
Dominio de Tarea Único: Solo utiliza tarea de escritura de blogs
Dimensiones de Evaluación Limitadas: Solo considera tres dimensiones de calidad
Fuente de Sesgo No Aclarada: No explora profundamente las fuentes de sesgo en datos de entrenamiento o programas de alineación

Recomendaciones Prácticas

Protocolos de Evaluación Ciega: Ocultar identidad de modelo para prevenir anclaje basado en nombre de modelo
Consenso Multimodelo: Utilizar sistemas de evaluación multimodelo o basados en consenso
Separación de Tipos de Evaluación: Separar juicios de preferencia de puntuaciones de calidad detalladas
Ajustes Conscientes del Sesgo: Desarrollar mecanismos de ajuste de puntuación conscientes del sesgo

Evaluación Profunda

Fortalezas

Diseño Experimental Riguroso: Diseño controlado multicondición y multimodelo asegura confiabilidad de resultados
Innovación Metodológica: Sistema de puntuación dual (preferencia + calidad) proporciona perspectiva integral
Hallazgos de Significancia: Revela sesgos sistemáticos en evaluación de LLM, con impacto importante en campo de evaluación de IA
Análisis Cuantitativo Suficiente: Proporciona evidencia numérica detallada y análisis estadístico
Valor Práctico Alto: Proporciona recomendaciones concretas para mejorar evaluación de LLM

Deficiencias

Escala de Muestra Limitada: Tamaño de muestra de 30 artículos de blog es relativamente pequeño
Singularidad de Tarea: Limitado a escritura de blogs, carece de verificación de diversidad de tareas
Mecanismo de Sesgo No Aclarado: No explora profundamente causas fundamentales de sesgo asimétrico
Efectos a Largo Plazo Desconocidos: No considera patrones de sesgo que cambian con el tiempo

Evaluación de Impacto

Contribución Académica: Proporciona evidencia empírica importante para investigación de sesgo en evaluación de LLM
Valor Práctico: Impacta directamente diseño de protocolos de evaluación y evaluación comparativa de LLM
Significancia Política: Proporciona base científica para políticas de equidad y transparencia de sistemas de IA
Reproducibilidad: Descripción clara de metodología facilita reproducción y extensión

Escenarios Aplicables

Evaluación Comparativa de LLM: Mejora equidad de marcos de evaluación existentes
Sistemas de Evaluación Automatizada: Diseña herramientas de evaluación de calidad de texto sin sesgos
Investigación de Comparación de Modelos: Asegura objetividad en comparación de desempeño de modelos
Investigación en Ética de IA: Proporciona metodología para detección y mitigación de sesgo en sistemas de IA

Direcciones de Investigación Futura

Expansión de Rango de Modelos: Incluir más LLM para investigación más amplia de patrones de sesgo
Verificación Multitarea: Validar generalización de efectos de etiqueta en diferentes tipos de tareas
Exploración de Fuentes de Sesgo: Investigar profundamente impacto de datos de entrenamiento y programas de alineación en formación de sesgo
Desarrollo de Estrategias de Mitigación: Diseñar y probar técnicas más efectivas de mitigación de sesgo
Investigación de Sesgo Dinámico: Estudiar cambios en patrones de sesgo con el tiempo y actualizaciones de modelos

Resumen: Este estudio, mediante diseño experimental riguroso, revela sesgos graves inducidos por etiquetas en evaluación de LLM, proporcionando evidencia científica importante para mejorar equidad y confiabilidad de evaluación de IA. Los hallazgos no solo poseen valor académico importante, sino que también tienen significancia directiva para despliegue y evaluación de sistemas de IA en la práctica.