2025-11-22T13:58:16.591792

Stable LLM Ensemble: Interaction between Example Representativeness and Diversity

Niimi

Large language models (LLMs) have achieved remarkable results in wide range of domains. However, the accuracy and robustness of one-shot LLM predictions remain highly sensitive to the examples and the diversity among ensemble members. This study systematically investigates the effects of example representativeness (one-shot strategy) and output diversity (sampling temperature) on LLM ensemble performance. Two one-shot strategies are compared: centroid-based representative examples (proposed) and randomly sampled examples (baseline) and sampling temperature also is varied. The proposed approach with higher temperature setting significantly outperforms random selection by +7.6% (macro-F1) and -10.5% (RMSE). Furthermore, the proposed model exceeds 5-shot prompting by +21.1% (macro-F1) and -24.0% (RMSE). Our findings demonstrate that combining representative example selection with increased temperature provides the appropriate level of diversity to the ensemble. This work highlights the practical importance of both example selection and controlled diversity in designing effective one-shot LLM ensembles.

academic

Conjunto Estable de LLM: Interacción entre Representatividad de Ejemplos y Diversidad

Información Básica

ID del Artículo: 2510.13143
Título: Stable LLM Ensemble: Interaction between Example Representativeness and Diversity
Autor: Junichiro Niimi (Universidad de Meijo & RIKEN AIP)
Clasificación: cs.CL cs.AI
Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.13143

Resumen

Los modelos de lenguaje de gran escala (LLMs) han logrado resultados significativos en diversos campos. Sin embargo, la precisión y robustez de las predicciones de LLM con una sola indicación siguen siendo altamente dependientes de la selección de ejemplos y la diversidad entre miembros del conjunto. Este estudio investiga sistemáticamente los efectos de la representatividad de ejemplos (estrategia de una sola indicación) y la diversidad de salida (temperatura de muestreo) en el rendimiento del conjunto de LLM. Se comparan dos estrategias de una sola indicación: ejemplos representativos basados en centroide (método propuesto) y ejemplos muestreados aleatoriamente (método de referencia), mientras se varía la temperatura de muestreo. El método propuesto con configuración de temperatura alta supera significativamente la selección aleatoria, con una mejora de macro-F1 de +7.6% y una reducción de RMSE de -10.5%. Además, el modelo propuesto supera el método de cinco indicaciones, con una mejora de macro-F1 de +21.1% y una reducción de RMSE de -24.0%. El estudio descubre que la combinación de selección de ejemplos representativos con temperatura aumentada proporciona un nivel apropiado de diversidad para el conjunto.

Antecedentes de Investigación y Motivación

Problemas a Resolver

Inestabilidad de la Salida de LLM: Los resultados de predicción de LLM son altamente sensibles a la configuración del modelo (como aprendizaje de una sola indicación/pocas indicaciones, plantilla de indicación, hiperparámetros)
Falta de Método Óptimo para Selección de Ejemplos: Actualmente no existe un método de selección de ejemplos establecido como óptimo, y muchas investigaciones aún dependen de estrategias de muestreo aleatorio
Control de Diversidad en Aprendizaje Conjunto: Cómo equilibrar representatividad y diversidad en conjuntos de LLM para obtener el mejor rendimiento

Importancia del Problema

La rápida aplicación de LLM en marketing, finanzas, educación y otros campos requiere predicciones más estables y confiables
La variabilidad en la inferencia de una sola indicación afecta la reproducibilidad y robustez en aplicaciones prácticas
Los métodos de conjunto pueden mejorar la precisión y eficiencia computacional, pero requieren estrategias de configuración razonables

Limitaciones de Métodos Existentes

Las estrategias de selección de ejemplos aleatorios carecen de base teórica
Los mecanismos de control de diversidad en métodos de conjunto no están claros
Falta investigación sistemática sobre los efectos de interacción entre representatividad de ejemplos y diversidad de salida

Contribuciones Principales

Propone un método de selección de ejemplos representativos basado en centroide (CREs): Utiliza incrustaciones de SentenceBERT y agrupamiento K-means para seleccionar automáticamente ejemplos representativos
Investiga sistemáticamente el impacto del parámetro de temperatura en el rendimiento del conjunto: Descubre que la configuración de temperatura alta combinada con ejemplos representativos mejora significativamente el rendimiento
Logra mejoras significativas en tareas de análisis de sentimiento: Mejora de 7.6% en macro-F1 en comparación con selección aleatoria, mejora de 21.1% en macro-F1 en comparación con método de cinco indicaciones
Proporciona análisis profundo de la relación entre consistencia automática y rendimiento del conjunto: Revela la relación entre consistencia del modelo y confianza de predicción
Establece un marco práctico de diseño de conjunto de LLM: Construye conjuntos de LLM efectivos sin necesidad de ajuste específico del dominio

Explicación Detallada del Método

Definición de Tarea

Entrada: Texto de reseña de usuario Salida: Puntuación de sentimiento de 1-5 estrellas (clasificación ordinal) Restricción: Utilizar aprendizaje de una sola indicación para análisis de sentimiento, mejorando el rendimiento mediante conjunto de múltiples modelos base

Arquitectura del Modelo

1. Construcción del Modelo Base

Utiliza 5 modelos base (M1-M5), cada uno usando diferentes ejemplos y semillas aleatorias
Modelo base: Llama-3.1-8B-Instruct
Estrategia de muestreo: nucleus sampling (top_p=0.9)
Configuración de temperatura: {0.8, 1.5}

2. Estrategias de Selección de Ejemplos

CREs (Ejemplos Representativos Basados en Centroide):

Utiliza SentenceBERT para obtener vectores de incrustación de 384 dimensiones de todo el texto candidato
Aplica agrupamiento K-means (K=5) a los vectores de incrustación
Selecciona la muestra más cercana al centroide en cada grupo como ejemplo representativo

RSEs (Ejemplos Seleccionados Aleatoriamente):

Muestrea aleatoriamente K ejemplos del conjunto de entrenamiento como comparación de referencia

3. Estrategia de Conjunto

Utiliza agregación de mediana para integrar múltiples resultados de predicción, adecuada para tareas de clasificación ordinal y para reducir el impacto de valores atípicos

Puntos de Innovación Técnica

Diversidad Semántica vs Diversidad de Etiquetas: El método CREs prioriza la diversidad semántica sobre el equilibrio de distribución de etiquetas, demostrando ser más efectivo experimentalmente
Efecto de Interacción Temperatura-Representatividad: Descubre que los ejemplos representativos alcanzan su máximo efecto solo con configuración de temperatura alta
Selección Automática de Ejemplos: Selecciona automáticamente ejemplos representativos mediante método de agrupamiento, evitando ajuste manual
Equilibrio Precisión-Diversidad: El análisis teórico sugiere que el mejor conjunto no necesariamente requiere que cada modelo componente sea el más fuerte

Configuración Experimental

Conjunto de Datos

Fuente de Datos: Conjunto de Datos Abierto de Yelp, reseñas de restaurantes
Escala: Grupo de ejemplos de 18,000, conjunto de prueba de 1,000
Características: Puntuación de usuario (1-5 estrellas), texto de reseña (promedio 480.7±455.7 caracteres)
Distribución: Reseñas positivas (4-5 estrellas) más numerosas que reseñas negativas (1-2 estrellas)

Métricas de Evaluación

Precisión (Acc.): Tasa de precisión de clasificación
Macro-F1 (F1): Puntuación F1 de promedio macro
RMSE: Error cuadrático medio, cuantifica el tamaño del error de predicción
Prueba de Significancia Estadística: Prueba de McNemar y prueba de rangos con signo de Wilcoxon

Métodos de Comparación

RSEs + temperatura baja (T=0.8)
RSEs + temperatura alta (T=1.5)
CREs + temperatura baja (T=0.8)
CREs + temperatura alta (T=1.5)
Modelo único de cinco indicaciones (T=0.8, 1.5)

Detalles de Implementación

Semillas aleatorias: {1,2,3,4,5}
Temperatura de muestreo: {0.8,1.5}
top_p: 0.9
max_new_tokens: 1

Resultados Experimentales

Resultados Principales

Rendimiento de Configuración Óptima:

CREs + T=1.5 logra el máximo rendimiento: F1=0.636, RMSE=0.512
En comparación con línea base RSEs: mejora de F1 +7.6%, mejora de RMSE -10.5%
En comparación con mejor modelo de cinco indicaciones: mejora de F1 +21.1%, mejora de RMSE -24.0%

Análisis del Efecto de Temperatura:

Método RSEs: temperatura de 0.8 a 1.5, cambio de F1 solo -0.8%
Método CREs: mismo cambio de temperatura, mejora de F1 +14.2%, mejora de RMSE -13.7%

Experimentos de Ablación

RQ1 (Efecto de Temperatura): La configuración de temperatura alta proporciona diversidad necesaria para ejemplos representativos, pero efecto limitado en ejemplos aleatorios

RQ2 (Efecto de Representatividad): Con configuración de temperatura alta, CREs supera significativamente a RSEs; con temperatura baja, la diferencia no es significativa

RQ3 (Combinación Óptima): La combinación de CREs + temperatura alta logra el mejor equilibrio de rendimiento

RQ4 (vs Cinco Indicaciones): El conjunto de una sola indicación supera significativamente al modelo único de cinco indicaciones, demostrando la importancia de la agregación de conjunto

RQ5 (Consistencia Automática):

Muestras completamente consistentes (nunique=1): F1=0.938
Muestras de baja consistencia aún pueden mejorarse mediante conjunto

Análisis de Casos

Características de Distribución de Ejemplos:

CREs tiende a seleccionar ejemplos de puntuación alta (4-5 estrellas predominan)
RSEs mantiene distribución de puntuación relativamente equilibrada
La diversidad semántica es más importante que la diversidad de etiquetas

Diferencias de Rendimiento de Modelos Individuales:

El mejor conjunto incluye modelos individuales con peor rendimiento (como M4 con F1=0.193)
Demuestra la teoría del equilibrio precisión-diversidad

Hallazgos Experimentales

Efectividad del Agrupamiento Semántico: La selección basada en agrupamiento de incrustación captura información contextual más útil que la selección aleatoria
Temperatura como Controlador de Diversidad: La temperatura de muestreo es un mecanismo efectivo para controlar la diversidad del conjunto
Conjunto Superior a Pocas Indicaciones: El conjunto de una sola indicación configurado razonablemente supera al modelo único de cinco indicaciones
Consistencia Automática Indica Confianza: La consistencia entre modelos puede servir como indicador confiable de confianza de predicción

Trabajo Relacionado

Desarrollo del Análisis de Sentimiento

Métodos Tradicionales: Regresión logística, SVM, Naive Bayes y otros métodos de aprendizaje automático
Aprendizaje Profundo: Métodos de redes neuronales como CNN, RNN
Era de LLM: Capacidades de aprendizaje de cero y pocas indicaciones de modelos grandes como GPT, BERT

Métodos de Conjunto de LLM

Mecanismos de Votación: Votación por mayoría, votación ponderada
Método Bagging: Agregación de bootstrap
Método Boosting: AdaBoost, aumento de gradiente
Métodos Específicos de LLM: Arquitectura apilada, división de expertos, diversificación de semillas

Consistencia y Confiabilidad

Consistencia Automática: Consistencia de múltiples inferencias como indicador de confianza
Calibración y Cuantificación de Incertidumbre: Evaluación y mejora de confiabilidad del modelo
Investigación de Parámetro de Temperatura: Control de aleatoriedad de salida y diversidad

Conclusiones y Discusión

Conclusiones Principales

Importancia de la Selección de Ejemplos Representativos: El método de selección basado en centroide supera significativamente la selección aleatoria
Papel Clave del Parámetro de Temperatura: La configuración de temperatura alta proporciona diversidad necesaria para el conjunto
Conjunto Superior a Pocas Indicaciones: El conjunto razonable de una sola indicación supera al modelo de cinco indicaciones
Función Indicadora de Consistencia Automática: La consistencia del modelo puede utilizarse para evaluación de confianza y razonamiento dinámico

Limitaciones

Rango de Conjunto de Datos Limitado: Validación solo en un único conjunto de datos (1,000 muestras), requiere validación entre dominios
Número de Modelos Base Fijo: Solo utiliza 5 modelos base, la escalabilidad requiere investigación adicional
Selección de Modelo Única: Solo utiliza modelo Llama, requiere validación en otros modelos
Análisis Teórico Insuficiente: Falta análisis teórico profundo del equilibrio precisión-diversidad

Direcciones Futuras

Validación Entre Dominios: Validar efectividad del método en otros campos como finanzas, medicina
Validación de Múltiples Modelos: Probar en otros LLM como Qwen, Mistral
Estrategia de Razonamiento Dinámico: Mecanismo de razonamiento adaptativo basado en consistencia automática
Perfeccionamiento del Marco Teórico: Investigación profunda de la base teórica del equilibrio precisión-diversidad

Evaluación Profunda

Fortalezas

Diseño de Investigación Sistemático: Explora sistemáticamente los efectos de interacción entre selección de ejemplos y parámetro de temperatura a través de 5 preguntas de investigación claras
Fuerte Innovación de Método: El método CREs proporciona estrategia de selección de ejemplos automatizada, evitando ajuste manual
Diseño Experimental Riguroso: Utiliza pruebas de significancia estadística apropiadas, compara múltiples configuraciones
Alto Valor Práctico: Método simple y fácil de implementar, sin aumentar costo computacional, fácil de aplicar industrialmente
Perspectivas Teóricas Profundas: Revela el hallazgo de que la diversidad semántica es más importante que la diversidad de etiquetas

Insuficiencias

Escala Experimental Limitada: Validación solo en un único conjunto de datos y modelo, la generalización requiere prueba
Métodos de Referencia Simples: La selección aleatoria como referencia es relativamente simple, falta comparación con otros métodos avanzados de selección de ejemplos
Análisis Teórico Insuficiente: Falta explicación teórica de por qué CREs + temperatura alta es efectivo
Falta Análisis de Costo-Beneficio: No analiza el costo computacional del método de conjunto en comparación con modelo único
Manejo de Casos de Cola Larga: La capacidad de manejo de datos extremadamente desbalanceados no se verifica suficientemente

Impacto

Contribución Académica:

Proporciona nueva perspectiva teórica para aprendizaje de conjunto de LLM
Establece marco de investigación sistemática para selección de ejemplos y diversidad de salida
Proporciona alternativa efectiva para aprendizaje de pocas indicaciones

Valor Práctico:

Método simple y fácil de implementar, adecuado para despliegue industrial
La selección automática de ejemplos reduce costo de ajuste manual
El indicador de consistencia puede utilizarse para evaluación de confianza

Reproducibilidad:

Configuración experimental detallada, utiliza conjunto de datos público
Descripción de método clara, fácil de reproducir
Código y datos cumplen términos de uso

Escenarios Aplicables

Tareas de Clasificación de Texto: Especialmente tareas de clasificación ordinal (como análisis de sentimiento, predicción de puntuación)
Entornos de Recursos Limitados: Escenarios donde no se puede realizar fine-tuning a gran escala
Requisitos de Despliegue Rápido: Aplicaciones que necesitan construir rápidamente sistemas de clasificación de texto
Requisitos de Alta Confiabilidad: Sistemas de apoyo a decisiones que necesitan evaluación de confianza
Aplicaciones Multilingües: Extensible a tareas de análisis de sentimiento en otros idiomas

Referencias

El artículo cita 42 referencias relacionadas, cubriendo múltiples campos incluyendo análisis de sentimiento, aprendizaje de conjunto, aplicaciones de LLM, proporcionando base teórica sólida para la investigación. Las referencias clave incluyen:

Dietterich (2000): Revisión clásica de métodos de conjunto
Niimi (2025): Trabajo anterior del autor en conjunto de LLM
Wang et al. (2023): Investigación de aplicación de ChatGPT en análisis de sentimiento
Narang et al.: Trabajo relacionado sobre razonamiento mejorado por consistencia automática

Este artículo proporciona perspectivas valiosas para aprendizaje de conjunto de LLM, siendo la investigación sistemática sobre selección de ejemplos y control de diversidad de particular importancia teórica y práctica. Aunque existen algunas limitaciones, el método propuesto es simple y efectivo, con buenas perspectivas de aplicación.