Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.
Aprovechando la Consistencia para un Conjunto Robusto de LLM en Tiempo de Prueba
- ID del Artículo: 2510.13855
- Título: Aprovechando la Consistencia para un Conjunto Robusto de LLM en Tiempo de Prueba
- Autores: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (Universidad de Illinois Urbana-Champaign)
- Clasificación: cs.CL, cs.AI
- Fecha de Publicación: 12 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.13855
Los diferentes modelos de lenguaje grandes (LLMs) presentan fortalezas y debilidades distintas, siendo el conjunto de LLMs un método prometedor para integrar sus capacidades complementarias. A pesar del progreso sustancial en la mejora de la calidad del conjunto, existe una atención limitada a la robustez del conjunto frente a señales de error potenciales, que generalmente provienen de esquemas de tokenización heterogéneos y diferentes especializaciones de modelos. El análisis de este artículo demuestra que los fallos del conjunto generalmente provienen de dos niveles: a nivel de token y a nivel de modelo. El primero refleja desacuerdos graves en la predicción de tokens, mientras que el segundo implica baja confianza y diferencias significativas entre modelos. Basándose en esto, los autores proponen CORE, una técnica complementaria que aprovecha la consistencia del modelo para un conjunto robusto de LLM en tiempo de prueba, que puede integrarse sin problemas en varios métodos de conjunto.
Los métodos existentes de conjunto de LLM se centran principalmente en mejorar la calidad del conjunto, pero carecen de robustez frente a los siguientes desafíos:
- Esquemas de tokenización heterogéneos: Diferentes LLMs utilizan diferentes tokenizadores, lo que resulta en desajustes en el espacio de tokens
- Diferencias en especialización de modelos: Diferentes modelos muestran variaciones significativas de rendimiento en diferentes dominios
- Propagación de señales de error: Los errores de alineación de tokens y los errores de predicción de modelos pueden dañar la corrección de la salida del conjunto
La robustez del conjunto de LLM es crucial para aplicaciones prácticas porque:
- La alineación incorrecta de tokens puede conducir a una fusión de probabilidades incorrecta
- Los errores en la predicción del modelo pueden dañar aún más la corrección de la salida del conjunto
- La falta de robustez conduce al fenómeno de "conjunto negativo", donde el rendimiento del conjunto es inferior al del mejor modelo único
Los métodos de conjunto existentes se pueden dividir en dos categorías:
- Conjunto a nivel de token: Alinea y fusiona probabilidades de tokens de diferentes LLMs en cada paso de decodificación, pero es susceptible a errores de alineación de tokens
- Conjunto a nivel de respuesta: Selecciona respuestas completas o tramos, pero ignora la consistencia de tokens de grano fino
- Primer estudio sistemático de la robustez del conjunto de LLM, llenando un vacío importante en el campo
- Propone el marco CORE, que evalúa la consistencia en dos niveles (token y modelo) para mejorar el rendimiento y la robustez del conjunto
- Diseño complementario, que se integra sin problemas en varias estrategias de conjunto de LLM sin costo de inferencia adicional
- Validación experimental exhaustiva, logrando mejoras consistentes en múltiples tareas de referencia, combinaciones de modelos y métodos de conjunto, con mejoras de rendimiento promedio del 1.3% y 2.8% para conjuntos de modelos Top-2 y Top-3 respectivamente
Dado un modelo principal (vocabulario Vmain) y N modelos auxiliares (vocabulario Vassisti), el objetivo es aprender la matriz de alineación de tokens Ai∈R∣Vassisti∣×∣Vmain∣ y generar una distribución de probabilidad de conjunto mediante fusión ponderada:
pens=wmainpmain+∑i=1Nwassistip~assisti
donde p~assisti=passistiAi es la distribución de probabilidad proyectada.
A través del análisis estadístico se descubren tres observaciones clave:
- Consistencia de tokens: La diferencia de probabilidad de tokens alineados es menor que la de tokens alineados incorrectamente
- Confianza del modelo: Las respuestas correctas tienen entropía más baja
- Consistencia del modelo: Las respuestas correctas tienen mayor diferencia de tokens transformada por RBF
Se define la consistencia de tokens como una medida de grano fino:
sassistit=f(δi)∈R∣Vmain∣
donde δi=∣p~assisti−p∗∣, p∗ es la distribución de probabilidad de referencia:
p∗=N+11(pmain+∑i=1Np~assisti)
La función de consistencia f puede ser:
- Núcleo RBF: frbf(δ)=exp(−δ/σ)
- Función de potencia: fpow(δ)=α(1−δ)β
- Función Sigmoid: fsig(δ)=1−Sigmoid(γ(δi−0.5))
Se define la consistencia del modelo agregando la consistencia de tokens y regularizando con entropía:
sassistim=H(p~assisti)∑v∈Vmainsassistit(v)
donde el numerador recompensa la consistencia con el modelo de referencia y el denominador penaliza la alta incertidumbre.
La distribución de conjunto final que combina consistencia de tokens y consistencia de modelos:
pens=smainmpmain+∑i=1Nsassistim(sassistit⊙p~assisti)
- Mecanismo de consistencia de dos capas: Modela la consistencia simultáneamente a nivel de token y a nivel de modelo
- Diseño de filtro paso-bajo: La consistencia de tokens actúa como filtro paso-bajo, suprimiendo el impacto de tokens inconsistentes
- Pesos adaptativos: La consistencia del modelo proporciona pesos de modelo adaptativos sin necesidad de conocimiento previo
- Marco universal: Ortogonal a los métodos de conjunto existentes, se integra sin problemas
Abarca seis referencias en cuatro categorías:
- Razonamiento: GSM8K (CoT de 4 disparos), PIQA (0 disparos)
- Resumen: SAMSum (0 disparos)
- Conocimiento: TriviaQA (5 disparos), NaturalQuestions (5 disparos)
- Examen Integral: MMLU (5 disparos)
- Llama-3-8B-Instruct
- Mistral-7B-Instruct-v0.1
- Qwen2.5-3b-Instruct
- InternLM2.5-7b-Chat
- OpenChat-3.5-0106
Cuatro métodos de línea base de conjunto:
- MINED: Alineación de tokens basada en distancia de edición mínima
- GAC: Fusión de diferentes espacios de tokens en un espacio conjunto
- UNITE: Utiliza tokenizadores para coincidencia de prefijos
- EVA: Aprende funciones de mapeo para alinear incrustaciones de tokens superpuestos
- GSM8K: Precisión
- PIQA, TriviaQA, NQ, MMLU: Coincidencia exacta
- SAMSum: Puntuación Rouge-1
CORE logra mejoras consistentes en todos los referencias:
| Categoría de Conjunto de Datos | Mejora Promedio Top-2 | Mejora Promedio Top-3 |
|---|
| Razonamiento | +1.01 | +1.33 |
| Resumen | +2.35 | +3.42 |
| Conocimiento | +1.75 | +4.90 |
| Examen Integral | +0.03 | +0.94 |
CORE mitigó exitosamente 17 casos de conjunto negativo encontrados por métodos de línea base.
Se prueba bajo dos tipos de ruido:
- Ruido de alineación: 5%-20% de filas de la matriz de mapeo de tokens se perturban
- Ruido de probabilidad: Se añade ruido gaussiano con desviación estándar 0.05-0.20
Los resultados muestran que el método vanilla experimenta una caída de rendimiento promedio de 4.25 y 2.60 puntos cuando la proporción de ruido aumenta de 0 a 0.2, mientras que CORE solo disminuye 0.38 y 0.49 puntos.
En combinaciones de modelos con la mayor brecha de rendimiento (mejor y peor modelo), CORE logra mejoras promedio de +5.66 y +9.42 en NQ y TriviaQA respectivamente.
Los estudios de ablación muestran que:
- CORE (completo) > Solo consistencia de tokens > Solo consistencia de modelo > conjunto vanilla
- Ambos componentes de consistencia contribuyen positivamente al rendimiento
A medida que se añaden más modelos:
- El método vanilla experimenta conjunto negativo, con rendimiento disminuyendo a medida que aumenta el número de modelos
- CORE logra escalado estable, siempre superior al mejor modelo único
Tomando como ejemplo una pregunta sobre adrenalina:
- Pregunta: "¿Qué produce la glándula suprarrenal que es esencial para la función del sistema nervioso simpático?"
- Respuesta correcta: "epinephrine"
- Predicción de conjunto vanilla: "epineph_rine" (incorrecta)
- Predicción de CORE: "epinephrine" (correcta)
El análisis muestra que CORE identifica el token "_r" alineado incorrectamente y reduce su peso de influencia.
- Conjunto a nivel de token: GAC, UNITE, EVA, etc. logran fusión mediante alineación del espacio de tokens
- Conjunto a nivel de respuesta: Realiza conjunto mediante selección o síntesis de respuestas completas
- Auto-consistencia: Agrega múltiples rutas de razonamiento de un único modelo a través de señales de frecuencia, entropía o confianza
- Consistencia multi-modelo: Combina salidas de diferentes LLMs mediante votación o razonamiento colaborativo
Este artículo es el primero en aplicar sistemáticamente el concepto de consistencia para mejorar la robustez del conjunto de LLM.
- Los fallos del conjunto provienen principalmente de inconsistencias a nivel de token y a nivel de modelo
- CORE mejora efectivamente la robustez y el rendimiento del conjunto mediante un mecanismo de consistencia de dos capas
- El método posee buena universalidad y escalabilidad
- Limitaciones de API: Requiere acceso a logits a nivel de token, no se puede usar para APIs de código cerrado
- Momento del conjunto: Cuándo realizar el conjunto sigue siendo una pregunta abierta
- Selección de modelos: Cómo elegir qué combinación de modelos integrar requiere investigación adicional
- Extender a métodos de conjunto para modelos de código cerrado
- Mecanismos de activación de conjunto más inteligentes
- Criterios de selección de combinación de modelos más principistas
- Importancia del problema: Primer estudio sistemático de la robustez del conjunto de LLM, llenando un vacío importante en la investigación
- Innovación del método: El diseño del mecanismo de consistencia de dos capas es ingenioso con base teórica sólida
- Suficiencia experimental: Evaluación exhaustiva que abarca múltiples referencias, combinaciones de modelos y estrategias de conjunto
- Valor práctico: El diseño complementario facilita la aplicación práctica
- Análisis teórico: Falta análisis de convergencia teórica de la medida de consistencia
- Costo computacional: Aunque se afirma sin costo adicional, el cálculo de consistencia aún tiene costo
- Sensibilidad de hiperparámetros: Análisis insuficiente de la sensibilidad a hiperparámetros como el parámetro σ del núcleo RBF
- Contribución académica: Abre nuevas direcciones de investigación en robustez del conjunto de LLM
- Valor práctico: Puede aplicarse directamente a sistemas de conjunto existentes para mejorar el rendimiento
- Reproducibilidad: Configuración experimental detallada, el código será de código abierto
- Despliegue multi-modelo: Entornos de producción que requieren integrar múltiples LLMs
- Requisitos de robustez alta: Aplicaciones con requisitos estrictos de calidad y estabilidad de salida
- Recursos limitados: Escenarios donde no se pueden entrenar modelos grandes pero se pueden integrar modelos existentes
El artículo cita trabajos importantes en campos relacionados como conjunto de LLM y consistencia de modelos, incluyendo:
- Brown et al. (2020): Artículo GPT-3, sentando las bases para modelos grandes
- Wang et al. (2022): Método de auto-consistencia
- Yu et al. (2024): Método de conjunto GAC
- Yao et al. (2024): Método de conjunto UNITE
Evaluación General: Este es un artículo de investigación de alta calidad que realiza una contribución sistemática a un problema importante pero descuidado en la robustez del conjunto de LLM. El diseño del método es razonable, la evaluación experimental es exhaustiva y posee un fuerte valor teórico y práctico.