2025-11-19T17:04:14.740983

Harnessing Consistency for Robust Test-Time LLM Ensemble

Zeng, Yu, Lin et al.
Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.
academic

Aprovechando la Consistencia para un Conjunto Robusto de LLM en Tiempo de Prueba

Información Básica

  • ID del Artículo: 2510.13855
  • Título: Aprovechando la Consistencia para un Conjunto Robusto de LLM en Tiempo de Prueba
  • Autores: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (Universidad de Illinois Urbana-Champaign)
  • Clasificación: cs.CL, cs.AI
  • Fecha de Publicación: 12 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.13855

Resumen

Los diferentes modelos de lenguaje grandes (LLMs) presentan fortalezas y debilidades distintas, siendo el conjunto de LLMs un método prometedor para integrar sus capacidades complementarias. A pesar del progreso sustancial en la mejora de la calidad del conjunto, existe una atención limitada a la robustez del conjunto frente a señales de error potenciales, que generalmente provienen de esquemas de tokenización heterogéneos y diferentes especializaciones de modelos. El análisis de este artículo demuestra que los fallos del conjunto generalmente provienen de dos niveles: a nivel de token y a nivel de modelo. El primero refleja desacuerdos graves en la predicción de tokens, mientras que el segundo implica baja confianza y diferencias significativas entre modelos. Basándose en esto, los autores proponen CORE, una técnica complementaria que aprovecha la consistencia del modelo para un conjunto robusto de LLM en tiempo de prueba, que puede integrarse sin problemas en varios métodos de conjunto.

Antecedentes de Investigación y Motivación

Definición del Problema

Los métodos existentes de conjunto de LLM se centran principalmente en mejorar la calidad del conjunto, pero carecen de robustez frente a los siguientes desafíos:

  1. Esquemas de tokenización heterogéneos: Diferentes LLMs utilizan diferentes tokenizadores, lo que resulta en desajustes en el espacio de tokens
  2. Diferencias en especialización de modelos: Diferentes modelos muestran variaciones significativas de rendimiento en diferentes dominios
  3. Propagación de señales de error: Los errores de alineación de tokens y los errores de predicción de modelos pueden dañar la corrección de la salida del conjunto

Importancia de la Investigación

La robustez del conjunto de LLM es crucial para aplicaciones prácticas porque:

  • La alineación incorrecta de tokens puede conducir a una fusión de probabilidades incorrecta
  • Los errores en la predicción del modelo pueden dañar aún más la corrección de la salida del conjunto
  • La falta de robustez conduce al fenómeno de "conjunto negativo", donde el rendimiento del conjunto es inferior al del mejor modelo único

Limitaciones de Métodos Existentes

Los métodos de conjunto existentes se pueden dividir en dos categorías:

  1. Conjunto a nivel de token: Alinea y fusiona probabilidades de tokens de diferentes LLMs en cada paso de decodificación, pero es susceptible a errores de alineación de tokens
  2. Conjunto a nivel de respuesta: Selecciona respuestas completas o tramos, pero ignora la consistencia de tokens de grano fino

Contribuciones Principales

  1. Primer estudio sistemático de la robustez del conjunto de LLM, llenando un vacío importante en el campo
  2. Propone el marco CORE, que evalúa la consistencia en dos niveles (token y modelo) para mejorar el rendimiento y la robustez del conjunto
  3. Diseño complementario, que se integra sin problemas en varias estrategias de conjunto de LLM sin costo de inferencia adicional
  4. Validación experimental exhaustiva, logrando mejoras consistentes en múltiples tareas de referencia, combinaciones de modelos y métodos de conjunto, con mejoras de rendimiento promedio del 1.3% y 2.8% para conjuntos de modelos Top-2 y Top-3 respectivamente

Explicación Detallada del Método

Definición de la Tarea

Dado un modelo principal (vocabulario VmainV_{main}) y N modelos auxiliares (vocabulario VassistiV_{assist_i}), el objetivo es aprender la matriz de alineación de tokens AiRVassisti×VmainA_i \in \mathbb{R}^{|V_{assist_i}| \times |V_{main}|} y generar una distribución de probabilidad de conjunto mediante fusión ponderada:

pens=wmainpmain+i=1Nwassistip~assistip_{ens} = w_{main}p_{main} + \sum_{i=1}^{N} w_{assist_i}\tilde{p}_{assist_i}

donde p~assisti=passistiAi\tilde{p}_{assist_i} = p_{assist_i}A_i es la distribución de probabilidad proyectada.

Arquitectura del Modelo

Observaciones Clave

A través del análisis estadístico se descubren tres observaciones clave:

  1. Consistencia de tokens: La diferencia de probabilidad de tokens alineados es menor que la de tokens alineados incorrectamente
  2. Confianza del modelo: Las respuestas correctas tienen entropía más baja
  3. Consistencia del modelo: Las respuestas correctas tienen mayor diferencia de tokens transformada por RBF

Consistencia de Tokens (Token Consistency)

Se define la consistencia de tokens como una medida de grano fino:

sassistit=f(δi)RVmains^t_{assist_i} = f(\delta_i) \in \mathbb{R}^{|V_{main}|}

donde δi=p~assistip\delta_i = |\tilde{p}_{assist_i} - p^*|, pp^* es la distribución de probabilidad de referencia:

p=1N+1(pmain+i=1Np~assisti)p^* = \frac{1}{N+1}\left(p_{main} + \sum_{i=1}^{N}\tilde{p}_{assist_i}\right)

La función de consistencia ff puede ser:

  • Núcleo RBF: frbf(δ)=exp(δ/σ)f_{rbf}(\delta) = \exp(-\delta/\sigma)
  • Función de potencia: fpow(δ)=α(1δ)βf_{pow}(\delta) = \alpha(1-\delta)^\beta
  • Función Sigmoid: fsig(δ)=1Sigmoid(γ(δi0.5))f_{sig}(\delta) = 1 - \text{Sigmoid}(\gamma(\delta_i - 0.5))

Consistencia del Modelo (Model Consistency)

Se define la consistencia del modelo agregando la consistencia de tokens y regularizando con entropía:

sassistim=vVmainsassistit(v)H(p~assisti)s^m_{assist_i} = \frac{\sum_{v \in V_{main}} s^t_{assist_i}(v)}{H(\tilde{p}_{assist_i})}

donde el numerador recompensa la consistencia con el modelo de referencia y el denominador penaliza la alta incertidumbre.

Conjunto Final

La distribución de conjunto final que combina consistencia de tokens y consistencia de modelos:

pens=smainmpmain+i=1Nsassistim(sassistitp~assisti)p_{ens} = s^m_{main}p_{main} + \sum_{i=1}^{N} s^m_{assist_i}(s^t_{assist_i} \odot \tilde{p}_{assist_i})

Puntos de Innovación Técnica

  1. Mecanismo de consistencia de dos capas: Modela la consistencia simultáneamente a nivel de token y a nivel de modelo
  2. Diseño de filtro paso-bajo: La consistencia de tokens actúa como filtro paso-bajo, suprimiendo el impacto de tokens inconsistentes
  3. Pesos adaptativos: La consistencia del modelo proporciona pesos de modelo adaptativos sin necesidad de conocimiento previo
  4. Marco universal: Ortogonal a los métodos de conjunto existentes, se integra sin problemas

Configuración Experimental

Conjuntos de Datos

Abarca seis referencias en cuatro categorías:

  1. Razonamiento: GSM8K (CoT de 4 disparos), PIQA (0 disparos)
  2. Resumen: SAMSum (0 disparos)
  3. Conocimiento: TriviaQA (5 disparos), NaturalQuestions (5 disparos)
  4. Examen Integral: MMLU (5 disparos)

Modelos Base

  • Llama-3-8B-Instruct
  • Mistral-7B-Instruct-v0.1
  • Qwen2.5-3b-Instruct
  • InternLM2.5-7b-Chat
  • OpenChat-3.5-0106

Métodos de Comparación

Cuatro métodos de línea base de conjunto:

  • MINED: Alineación de tokens basada en distancia de edición mínima
  • GAC: Fusión de diferentes espacios de tokens en un espacio conjunto
  • UNITE: Utiliza tokenizadores para coincidencia de prefijos
  • EVA: Aprende funciones de mapeo para alinear incrustaciones de tokens superpuestos

Métricas de Evaluación

  • GSM8K: Precisión
  • PIQA, TriviaQA, NQ, MMLU: Coincidencia exacta
  • SAMSum: Puntuación Rouge-1

Resultados Experimentales

Resultados Principales

CORE logra mejoras consistentes en todos los referencias:

Categoría de Conjunto de DatosMejora Promedio Top-2Mejora Promedio Top-3
Razonamiento+1.01+1.33
Resumen+2.35+3.42
Conocimiento+1.75+4.90
Examen Integral+0.03+0.94

CORE mitigó exitosamente 17 casos de conjunto negativo encontrados por métodos de línea base.

Experimentos de Robustez

Capacidad de Resistencia al Ruido

Se prueba bajo dos tipos de ruido:

  • Ruido de alineación: 5%-20% de filas de la matriz de mapeo de tokens se perturban
  • Ruido de probabilidad: Se añade ruido gaussiano con desviación estándar 0.05-0.20

Los resultados muestran que el método vanilla experimenta una caída de rendimiento promedio de 4.25 y 2.60 puntos cuando la proporción de ruido aumenta de 0 a 0.2, mientras que CORE solo disminuye 0.38 y 0.49 puntos.

Capacidad de Resistencia a la Brecha de Rendimiento

En combinaciones de modelos con la mayor brecha de rendimiento (mejor y peor modelo), CORE logra mejoras promedio de +5.66 y +9.42 en NQ y TriviaQA respectivamente.

Estudios de Ablación

Los estudios de ablación muestran que:

  • CORE (completo) > Solo consistencia de tokens > Solo consistencia de modelo > conjunto vanilla
  • Ambos componentes de consistencia contribuyen positivamente al rendimiento

Análisis de Escalabilidad

A medida que se añaden más modelos:

  • El método vanilla experimenta conjunto negativo, con rendimiento disminuyendo a medida que aumenta el número de modelos
  • CORE logra escalado estable, siempre superior al mejor modelo único

Análisis de Casos

Tomando como ejemplo una pregunta sobre adrenalina:

  • Pregunta: "¿Qué produce la glándula suprarrenal que es esencial para la función del sistema nervioso simpático?"
  • Respuesta correcta: "epinephrine"
  • Predicción de conjunto vanilla: "epineph_rine" (incorrecta)
  • Predicción de CORE: "epinephrine" (correcta)

El análisis muestra que CORE identifica el token "_r" alineado incorrectamente y reduce su peso de influencia.

Trabajo Relacionado

Conjunto de LLM en Tiempo de Prueba

  • Conjunto a nivel de token: GAC, UNITE, EVA, etc. logran fusión mediante alineación del espacio de tokens
  • Conjunto a nivel de respuesta: Realiza conjunto mediante selección o síntesis de respuestas completas

Consistencia del Modelo

  • Auto-consistencia: Agrega múltiples rutas de razonamiento de un único modelo a través de señales de frecuencia, entropía o confianza
  • Consistencia multi-modelo: Combina salidas de diferentes LLMs mediante votación o razonamiento colaborativo

Este artículo es el primero en aplicar sistemáticamente el concepto de consistencia para mejorar la robustez del conjunto de LLM.

Conclusiones y Discusión

Conclusiones Principales

  1. Los fallos del conjunto provienen principalmente de inconsistencias a nivel de token y a nivel de modelo
  2. CORE mejora efectivamente la robustez y el rendimiento del conjunto mediante un mecanismo de consistencia de dos capas
  3. El método posee buena universalidad y escalabilidad

Limitaciones

  1. Limitaciones de API: Requiere acceso a logits a nivel de token, no se puede usar para APIs de código cerrado
  2. Momento del conjunto: Cuándo realizar el conjunto sigue siendo una pregunta abierta
  3. Selección de modelos: Cómo elegir qué combinación de modelos integrar requiere investigación adicional

Direcciones Futuras

  1. Extender a métodos de conjunto para modelos de código cerrado
  2. Mecanismos de activación de conjunto más inteligentes
  3. Criterios de selección de combinación de modelos más principistas

Evaluación Profunda

Fortalezas

  1. Importancia del problema: Primer estudio sistemático de la robustez del conjunto de LLM, llenando un vacío importante en la investigación
  2. Innovación del método: El diseño del mecanismo de consistencia de dos capas es ingenioso con base teórica sólida
  3. Suficiencia experimental: Evaluación exhaustiva que abarca múltiples referencias, combinaciones de modelos y estrategias de conjunto
  4. Valor práctico: El diseño complementario facilita la aplicación práctica

Insuficiencias

  1. Análisis teórico: Falta análisis de convergencia teórica de la medida de consistencia
  2. Costo computacional: Aunque se afirma sin costo adicional, el cálculo de consistencia aún tiene costo
  3. Sensibilidad de hiperparámetros: Análisis insuficiente de la sensibilidad a hiperparámetros como el parámetro σ del núcleo RBF

Impacto

  1. Contribución académica: Abre nuevas direcciones de investigación en robustez del conjunto de LLM
  2. Valor práctico: Puede aplicarse directamente a sistemas de conjunto existentes para mejorar el rendimiento
  3. Reproducibilidad: Configuración experimental detallada, el código será de código abierto

Escenarios Aplicables

  1. Despliegue multi-modelo: Entornos de producción que requieren integrar múltiples LLMs
  2. Requisitos de robustez alta: Aplicaciones con requisitos estrictos de calidad y estabilidad de salida
  3. Recursos limitados: Escenarios donde no se pueden entrenar modelos grandes pero se pueden integrar modelos existentes

Referencias

El artículo cita trabajos importantes en campos relacionados como conjunto de LLM y consistencia de modelos, incluyendo:

  • Brown et al. (2020): Artículo GPT-3, sentando las bases para modelos grandes
  • Wang et al. (2022): Método de auto-consistencia
  • Yu et al. (2024): Método de conjunto GAC
  • Yao et al. (2024): Método de conjunto UNITE

Evaluación General: Este es un artículo de investigación de alta calidad que realiza una contribución sistemática a un problema importante pero descuidado en la robustez del conjunto de LLM. El diseño del método es razonable, la evaluación experimental es exhaustiva y posee un fuerte valor teórico y práctico.