2025-11-19T17:04:14.740983

Harnessing Consistency for Robust Test-Time LLM Ensemble

Zeng, Yu, Lin et al.

Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.

academic

Aprovechando la Consistencia para un Conjunto Robusto de LLM en Tiempo de Prueba

Información Básica

ID del Artículo: 2510.13855
Título: Aprovechando la Consistencia para un Conjunto Robusto de LLM en Tiempo de Prueba
Autores: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (Universidad de Illinois Urbana-Champaign)
Clasificación: cs.CL, cs.AI
Fecha de Publicación: 12 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.13855

Resumen

Los diferentes modelos de lenguaje grandes (LLMs) presentan fortalezas y debilidades distintas, siendo el conjunto de LLMs un método prometedor para integrar sus capacidades complementarias. A pesar del progreso sustancial en la mejora de la calidad del conjunto, existe una atención limitada a la robustez del conjunto frente a señales de error potenciales, que generalmente provienen de esquemas de tokenización heterogéneos y diferentes especializaciones de modelos. El análisis de este artículo demuestra que los fallos del conjunto generalmente provienen de dos niveles: a nivel de token y a nivel de modelo. El primero refleja desacuerdos graves en la predicción de tokens, mientras que el segundo implica baja confianza y diferencias significativas entre modelos. Basándose en esto, los autores proponen CORE, una técnica complementaria que aprovecha la consistencia del modelo para un conjunto robusto de LLM en tiempo de prueba, que puede integrarse sin problemas en varios métodos de conjunto.

Antecedentes de Investigación y Motivación

Definición del Problema

Los métodos existentes de conjunto de LLM se centran principalmente en mejorar la calidad del conjunto, pero carecen de robustez frente a los siguientes desafíos:

Esquemas de tokenización heterogéneos: Diferentes LLMs utilizan diferentes tokenizadores, lo que resulta en desajustes en el espacio de tokens
Diferencias en especialización de modelos: Diferentes modelos muestran variaciones significativas de rendimiento en diferentes dominios
Propagación de señales de error: Los errores de alineación de tokens y los errores de predicción de modelos pueden dañar la corrección de la salida del conjunto

Importancia de la Investigación

La robustez del conjunto de LLM es crucial para aplicaciones prácticas porque:

La alineación incorrecta de tokens puede conducir a una fusión de probabilidades incorrecta
Los errores en la predicción del modelo pueden dañar aún más la corrección de la salida del conjunto
La falta de robustez conduce al fenómeno de "conjunto negativo", donde el rendimiento del conjunto es inferior al del mejor modelo único

Limitaciones de Métodos Existentes

Los métodos de conjunto existentes se pueden dividir en dos categorías:

Conjunto a nivel de token: Alinea y fusiona probabilidades de tokens de diferentes LLMs en cada paso de decodificación, pero es susceptible a errores de alineación de tokens
Conjunto a nivel de respuesta: Selecciona respuestas completas o tramos, pero ignora la consistencia de tokens de grano fino

Contribuciones Principales

Primer estudio sistemático de la robustez del conjunto de LLM, llenando un vacío importante en el campo
Propone el marco CORE, que evalúa la consistencia en dos niveles (token y modelo) para mejorar el rendimiento y la robustez del conjunto
Diseño complementario, que se integra sin problemas en varias estrategias de conjunto de LLM sin costo de inferencia adicional
Validación experimental exhaustiva, logrando mejoras consistentes en múltiples tareas de referencia, combinaciones de modelos y métodos de conjunto, con mejoras de rendimiento promedio del 1.3% y 2.8% para conjuntos de modelos Top-2 y Top-3 respectivamente

Explicación Detallada del Método

Definición de la Tarea

Dado un modelo principal (vocabulario $V_{main}$ ) y N modelos auxiliares (vocabulario $V_{assist_i}$ ), el objetivo es aprender la matriz de alineación de tokens $A_i \in \mathbb{R}^{|V_{assist_i}| \times |V_{main}|}$ y generar una distribución de probabilidad de conjunto mediante fusión ponderada:

$p_{ens} = w_{main}p_{main} + \sum_{i=1}^{N} w_{assist_i}\tilde{p}_{assist_i}$

donde $\tilde{p}_{assist_i} = p_{assist_i}A_i$ es la distribución de probabilidad proyectada.

Arquitectura del Modelo

Observaciones Clave

A través del análisis estadístico se descubren tres observaciones clave:

Consistencia de tokens: La diferencia de probabilidad de tokens alineados es menor que la de tokens alineados incorrectamente
Confianza del modelo: Las respuestas correctas tienen entropía más baja
Consistencia del modelo: Las respuestas correctas tienen mayor diferencia de tokens transformada por RBF

Consistencia de Tokens (Token Consistency)

Se define la consistencia de tokens como una medida de grano fino:

$s^t_{assist_i} = f(\delta_i) \in \mathbb{R}^{|V_{main}|}$

donde $\delta_i = |\tilde{p}_{assist_i} - p^*|$ , $p^*$ es la distribución de probabilidad de referencia:

$p^* = \frac{1}{N+1}\left(p_{main} + \sum_{i=1}^{N}\tilde{p}_{assist_i}\right)$

La función de consistencia $f$ puede ser:

Núcleo RBF: $f_{rbf}(\delta) = \exp(-\delta/\sigma)$
Función de potencia: $f_{pow}(\delta) = \alpha(1-\delta)^\beta$
Función Sigmoid: $f_{sig}(\delta) = 1 - \text{Sigmoid}(\gamma(\delta_i - 0.5))$

Consistencia del Modelo (Model Consistency)

Se define la consistencia del modelo agregando la consistencia de tokens y regularizando con entropía:

$s^m_{assist_i} = \frac{\sum_{v \in V_{main}} s^t_{assist_i}(v)}{H(\tilde{p}_{assist_i})}$

donde el numerador recompensa la consistencia con el modelo de referencia y el denominador penaliza la alta incertidumbre.

Conjunto Final

La distribución de conjunto final que combina consistencia de tokens y consistencia de modelos:

$p_{ens} = s^m_{main}p_{main} + \sum_{i=1}^{N} s^m_{assist_i}(s^t_{assist_i} \odot \tilde{p}_{assist_i})$

Puntos de Innovación Técnica

Mecanismo de consistencia de dos capas: Modela la consistencia simultáneamente a nivel de token y a nivel de modelo
Diseño de filtro paso-bajo: La consistencia de tokens actúa como filtro paso-bajo, suprimiendo el impacto de tokens inconsistentes
Pesos adaptativos: La consistencia del modelo proporciona pesos de modelo adaptativos sin necesidad de conocimiento previo
Marco universal: Ortogonal a los métodos de conjunto existentes, se integra sin problemas

Configuración Experimental

Conjuntos de Datos

Abarca seis referencias en cuatro categorías:

Razonamiento: GSM8K (CoT de 4 disparos), PIQA (0 disparos)
Resumen: SAMSum (0 disparos)
Conocimiento: TriviaQA (5 disparos), NaturalQuestions (5 disparos)
Examen Integral: MMLU (5 disparos)

Modelos Base

Llama-3-8B-Instruct
Mistral-7B-Instruct-v0.1
Qwen2.5-3b-Instruct
InternLM2.5-7b-Chat
OpenChat-3.5-0106

Métodos de Comparación

Cuatro métodos de línea base de conjunto:

MINED: Alineación de tokens basada en distancia de edición mínima
GAC: Fusión de diferentes espacios de tokens en un espacio conjunto
UNITE: Utiliza tokenizadores para coincidencia de prefijos
EVA: Aprende funciones de mapeo para alinear incrustaciones de tokens superpuestos

Métricas de Evaluación

GSM8K: Precisión
PIQA, TriviaQA, NQ, MMLU: Coincidencia exacta
SAMSum: Puntuación Rouge-1

Resultados Experimentales

Resultados Principales

CORE logra mejoras consistentes en todos los referencias:

Categoría de Conjunto de Datos	Mejora Promedio Top-2	Mejora Promedio Top-3
Razonamiento	+1.01	+1.33
Resumen	+2.35	+3.42
Conocimiento	+1.75	+4.90
Examen Integral	+0.03	+0.94

CORE mitigó exitosamente 17 casos de conjunto negativo encontrados por métodos de línea base.

Experimentos de Robustez

Capacidad de Resistencia al Ruido

Se prueba bajo dos tipos de ruido:

Ruido de alineación: 5%-20% de filas de la matriz de mapeo de tokens se perturban
Ruido de probabilidad: Se añade ruido gaussiano con desviación estándar 0.05-0.20

Los resultados muestran que el método vanilla experimenta una caída de rendimiento promedio de 4.25 y 2.60 puntos cuando la proporción de ruido aumenta de 0 a 0.2, mientras que CORE solo disminuye 0.38 y 0.49 puntos.

Capacidad de Resistencia a la Brecha de Rendimiento

En combinaciones de modelos con la mayor brecha de rendimiento (mejor y peor modelo), CORE logra mejoras promedio de +5.66 y +9.42 en NQ y TriviaQA respectivamente.

Estudios de Ablación

Los estudios de ablación muestran que:

CORE (completo) > Solo consistencia de tokens > Solo consistencia de modelo > conjunto vanilla
Ambos componentes de consistencia contribuyen positivamente al rendimiento

Análisis de Escalabilidad

A medida que se añaden más modelos:

El método vanilla experimenta conjunto negativo, con rendimiento disminuyendo a medida que aumenta el número de modelos
CORE logra escalado estable, siempre superior al mejor modelo único

Análisis de Casos

Tomando como ejemplo una pregunta sobre adrenalina:

Pregunta: "¿Qué produce la glándula suprarrenal que es esencial para la función del sistema nervioso simpático?"
Respuesta correcta: "epinephrine"
Predicción de conjunto vanilla: "epineph_rine" (incorrecta)
Predicción de CORE: "epinephrine" (correcta)

El análisis muestra que CORE identifica el token "_r" alineado incorrectamente y reduce su peso de influencia.

Trabajo Relacionado

Conjunto de LLM en Tiempo de Prueba

Conjunto a nivel de token: GAC, UNITE, EVA, etc. logran fusión mediante alineación del espacio de tokens
Conjunto a nivel de respuesta: Realiza conjunto mediante selección o síntesis de respuestas completas

Consistencia del Modelo

Auto-consistencia: Agrega múltiples rutas de razonamiento de un único modelo a través de señales de frecuencia, entropía o confianza
Consistencia multi-modelo: Combina salidas de diferentes LLMs mediante votación o razonamiento colaborativo

Este artículo es el primero en aplicar sistemáticamente el concepto de consistencia para mejorar la robustez del conjunto de LLM.

Conclusiones y Discusión

Conclusiones Principales

Los fallos del conjunto provienen principalmente de inconsistencias a nivel de token y a nivel de modelo
CORE mejora efectivamente la robustez y el rendimiento del conjunto mediante un mecanismo de consistencia de dos capas
El método posee buena universalidad y escalabilidad

Limitaciones

Limitaciones de API: Requiere acceso a logits a nivel de token, no se puede usar para APIs de código cerrado
Momento del conjunto: Cuándo realizar el conjunto sigue siendo una pregunta abierta
Selección de modelos: Cómo elegir qué combinación de modelos integrar requiere investigación adicional

Direcciones Futuras

Extender a métodos de conjunto para modelos de código cerrado
Mecanismos de activación de conjunto más inteligentes
Criterios de selección de combinación de modelos más principistas

Evaluación Profunda

Fortalezas

Importancia del problema: Primer estudio sistemático de la robustez del conjunto de LLM, llenando un vacío importante en la investigación
Innovación del método: El diseño del mecanismo de consistencia de dos capas es ingenioso con base teórica sólida
Suficiencia experimental: Evaluación exhaustiva que abarca múltiples referencias, combinaciones de modelos y estrategias de conjunto
Valor práctico: El diseño complementario facilita la aplicación práctica

Insuficiencias

Análisis teórico: Falta análisis de convergencia teórica de la medida de consistencia
Costo computacional: Aunque se afirma sin costo adicional, el cálculo de consistencia aún tiene costo
Sensibilidad de hiperparámetros: Análisis insuficiente de la sensibilidad a hiperparámetros como el parámetro σ del núcleo RBF

Impacto

Contribución académica: Abre nuevas direcciones de investigación en robustez del conjunto de LLM
Valor práctico: Puede aplicarse directamente a sistemas de conjunto existentes para mejorar el rendimiento
Reproducibilidad: Configuración experimental detallada, el código será de código abierto

Escenarios Aplicables

Despliegue multi-modelo: Entornos de producción que requieren integrar múltiples LLMs
Requisitos de robustez alta: Aplicaciones con requisitos estrictos de calidad y estabilidad de salida
Recursos limitados: Escenarios donde no se pueden entrenar modelos grandes pero se pueden integrar modelos existentes

Referencias

El artículo cita trabajos importantes en campos relacionados como conjunto de LLM y consistencia de modelos, incluyendo:

Brown et al. (2020): Artículo GPT-3, sentando las bases para modelos grandes
Wang et al. (2022): Método de auto-consistencia
Yu et al. (2024): Método de conjunto GAC
Yao et al. (2024): Método de conjunto UNITE

Evaluación General: Este es un artículo de investigación de alta calidad que realiza una contribución sistemática a un problema importante pero descuidado en la robustez del conjunto de LLM. El diseño del método es razonable, la evaluación experimental es exhaustiva y posee un fuerte valor teórico y práctico.