2025-11-22T13:58:16.591792

Stable LLM Ensemble: Interaction between Example Representativeness and Diversity

Niimi
Large language models (LLMs) have achieved remarkable results in wide range of domains. However, the accuracy and robustness of one-shot LLM predictions remain highly sensitive to the examples and the diversity among ensemble members. This study systematically investigates the effects of example representativeness (one-shot strategy) and output diversity (sampling temperature) on LLM ensemble performance. Two one-shot strategies are compared: centroid-based representative examples (proposed) and randomly sampled examples (baseline) and sampling temperature also is varied. The proposed approach with higher temperature setting significantly outperforms random selection by +7.6% (macro-F1) and -10.5% (RMSE). Furthermore, the proposed model exceeds 5-shot prompting by +21.1% (macro-F1) and -24.0% (RMSE). Our findings demonstrate that combining representative example selection with increased temperature provides the appropriate level of diversity to the ensemble. This work highlights the practical importance of both example selection and controlled diversity in designing effective one-shot LLM ensembles.
academic

Conjunto Estable de LLM: Interacción entre Representatividad de Ejemplos y Diversidad

Información Básica

  • ID del Artículo: 2510.13143
  • Título: Stable LLM Ensemble: Interaction between Example Representativeness and Diversity
  • Autor: Junichiro Niimi (Universidad de Meijo & RIKEN AIP)
  • Clasificación: cs.CL cs.AI
  • Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.13143

Resumen

Los modelos de lenguaje de gran escala (LLMs) han logrado resultados significativos en diversos campos. Sin embargo, la precisión y robustez de las predicciones de LLM con una sola indicación siguen siendo altamente dependientes de la selección de ejemplos y la diversidad entre miembros del conjunto. Este estudio investiga sistemáticamente los efectos de la representatividad de ejemplos (estrategia de una sola indicación) y la diversidad de salida (temperatura de muestreo) en el rendimiento del conjunto de LLM. Se comparan dos estrategias de una sola indicación: ejemplos representativos basados en centroide (método propuesto) y ejemplos muestreados aleatoriamente (método de referencia), mientras se varía la temperatura de muestreo. El método propuesto con configuración de temperatura alta supera significativamente la selección aleatoria, con una mejora de macro-F1 de +7.6% y una reducción de RMSE de -10.5%. Además, el modelo propuesto supera el método de cinco indicaciones, con una mejora de macro-F1 de +21.1% y una reducción de RMSE de -24.0%. El estudio descubre que la combinación de selección de ejemplos representativos con temperatura aumentada proporciona un nivel apropiado de diversidad para el conjunto.

Antecedentes de Investigación y Motivación

Problemas a Resolver

  1. Inestabilidad de la Salida de LLM: Los resultados de predicción de LLM son altamente sensibles a la configuración del modelo (como aprendizaje de una sola indicación/pocas indicaciones, plantilla de indicación, hiperparámetros)
  2. Falta de Método Óptimo para Selección de Ejemplos: Actualmente no existe un método de selección de ejemplos establecido como óptimo, y muchas investigaciones aún dependen de estrategias de muestreo aleatorio
  3. Control de Diversidad en Aprendizaje Conjunto: Cómo equilibrar representatividad y diversidad en conjuntos de LLM para obtener el mejor rendimiento

Importancia del Problema

  • La rápida aplicación de LLM en marketing, finanzas, educación y otros campos requiere predicciones más estables y confiables
  • La variabilidad en la inferencia de una sola indicación afecta la reproducibilidad y robustez en aplicaciones prácticas
  • Los métodos de conjunto pueden mejorar la precisión y eficiencia computacional, pero requieren estrategias de configuración razonables

Limitaciones de Métodos Existentes

  • Las estrategias de selección de ejemplos aleatorios carecen de base teórica
  • Los mecanismos de control de diversidad en métodos de conjunto no están claros
  • Falta investigación sistemática sobre los efectos de interacción entre representatividad de ejemplos y diversidad de salida

Contribuciones Principales

  1. Propone un método de selección de ejemplos representativos basado en centroide (CREs): Utiliza incrustaciones de SentenceBERT y agrupamiento K-means para seleccionar automáticamente ejemplos representativos
  2. Investiga sistemáticamente el impacto del parámetro de temperatura en el rendimiento del conjunto: Descubre que la configuración de temperatura alta combinada con ejemplos representativos mejora significativamente el rendimiento
  3. Logra mejoras significativas en tareas de análisis de sentimiento: Mejora de 7.6% en macro-F1 en comparación con selección aleatoria, mejora de 21.1% en macro-F1 en comparación con método de cinco indicaciones
  4. Proporciona análisis profundo de la relación entre consistencia automática y rendimiento del conjunto: Revela la relación entre consistencia del modelo y confianza de predicción
  5. Establece un marco práctico de diseño de conjunto de LLM: Construye conjuntos de LLM efectivos sin necesidad de ajuste específico del dominio

Explicación Detallada del Método

Definición de Tarea

Entrada: Texto de reseña de usuario Salida: Puntuación de sentimiento de 1-5 estrellas (clasificación ordinal) Restricción: Utilizar aprendizaje de una sola indicación para análisis de sentimiento, mejorando el rendimiento mediante conjunto de múltiples modelos base

Arquitectura del Modelo

1. Construcción del Modelo Base

  • Utiliza 5 modelos base (M1-M5), cada uno usando diferentes ejemplos y semillas aleatorias
  • Modelo base: Llama-3.1-8B-Instruct
  • Estrategia de muestreo: nucleus sampling (top_p=0.9)
  • Configuración de temperatura: {0.8, 1.5}

2. Estrategias de Selección de Ejemplos

CREs (Ejemplos Representativos Basados en Centroide):

  1. Utiliza SentenceBERT para obtener vectores de incrustación de 384 dimensiones de todo el texto candidato
  2. Aplica agrupamiento K-means (K=5) a los vectores de incrustación
  3. Selecciona la muestra más cercana al centroide en cada grupo como ejemplo representativo

RSEs (Ejemplos Seleccionados Aleatoriamente):

  • Muestrea aleatoriamente K ejemplos del conjunto de entrenamiento como comparación de referencia

3. Estrategia de Conjunto

Utiliza agregación de mediana para integrar múltiples resultados de predicción, adecuada para tareas de clasificación ordinal y para reducir el impacto de valores atípicos

Puntos de Innovación Técnica

  1. Diversidad Semántica vs Diversidad de Etiquetas: El método CREs prioriza la diversidad semántica sobre el equilibrio de distribución de etiquetas, demostrando ser más efectivo experimentalmente
  2. Efecto de Interacción Temperatura-Representatividad: Descubre que los ejemplos representativos alcanzan su máximo efecto solo con configuración de temperatura alta
  3. Selección Automática de Ejemplos: Selecciona automáticamente ejemplos representativos mediante método de agrupamiento, evitando ajuste manual
  4. Equilibrio Precisión-Diversidad: El análisis teórico sugiere que el mejor conjunto no necesariamente requiere que cada modelo componente sea el más fuerte

Configuración Experimental

Conjunto de Datos

  • Fuente de Datos: Conjunto de Datos Abierto de Yelp, reseñas de restaurantes
  • Escala: Grupo de ejemplos de 18,000, conjunto de prueba de 1,000
  • Características: Puntuación de usuario (1-5 estrellas), texto de reseña (promedio 480.7±455.7 caracteres)
  • Distribución: Reseñas positivas (4-5 estrellas) más numerosas que reseñas negativas (1-2 estrellas)

Métricas de Evaluación

  • Precisión (Acc.): Tasa de precisión de clasificación
  • Macro-F1 (F1): Puntuación F1 de promedio macro
  • RMSE: Error cuadrático medio, cuantifica el tamaño del error de predicción
  • Prueba de Significancia Estadística: Prueba de McNemar y prueba de rangos con signo de Wilcoxon

Métodos de Comparación

  • RSEs + temperatura baja (T=0.8)
  • RSEs + temperatura alta (T=1.5)
  • CREs + temperatura baja (T=0.8)
  • CREs + temperatura alta (T=1.5)
  • Modelo único de cinco indicaciones (T=0.8, 1.5)

Detalles de Implementación

  • Semillas aleatorias: {1,2,3,4,5}
  • Temperatura de muestreo: {0.8,1.5}
  • top_p: 0.9
  • max_new_tokens: 1

Resultados Experimentales

Resultados Principales

Rendimiento de Configuración Óptima:

  • CREs + T=1.5 logra el máximo rendimiento: F1=0.636, RMSE=0.512
  • En comparación con línea base RSEs: mejora de F1 +7.6%, mejora de RMSE -10.5%
  • En comparación con mejor modelo de cinco indicaciones: mejora de F1 +21.1%, mejora de RMSE -24.0%

Análisis del Efecto de Temperatura:

  • Método RSEs: temperatura de 0.8 a 1.5, cambio de F1 solo -0.8%
  • Método CREs: mismo cambio de temperatura, mejora de F1 +14.2%, mejora de RMSE -13.7%

Experimentos de Ablación

RQ1 (Efecto de Temperatura): La configuración de temperatura alta proporciona diversidad necesaria para ejemplos representativos, pero efecto limitado en ejemplos aleatorios

RQ2 (Efecto de Representatividad): Con configuración de temperatura alta, CREs supera significativamente a RSEs; con temperatura baja, la diferencia no es significativa

RQ3 (Combinación Óptima): La combinación de CREs + temperatura alta logra el mejor equilibrio de rendimiento

RQ4 (vs Cinco Indicaciones): El conjunto de una sola indicación supera significativamente al modelo único de cinco indicaciones, demostrando la importancia de la agregación de conjunto

RQ5 (Consistencia Automática):

  • Muestras completamente consistentes (nunique=1): F1=0.938
  • Muestras de baja consistencia aún pueden mejorarse mediante conjunto

Análisis de Casos

Características de Distribución de Ejemplos:

  • CREs tiende a seleccionar ejemplos de puntuación alta (4-5 estrellas predominan)
  • RSEs mantiene distribución de puntuación relativamente equilibrada
  • La diversidad semántica es más importante que la diversidad de etiquetas

Diferencias de Rendimiento de Modelos Individuales:

  • El mejor conjunto incluye modelos individuales con peor rendimiento (como M4 con F1=0.193)
  • Demuestra la teoría del equilibrio precisión-diversidad

Hallazgos Experimentales

  1. Efectividad del Agrupamiento Semántico: La selección basada en agrupamiento de incrustación captura información contextual más útil que la selección aleatoria
  2. Temperatura como Controlador de Diversidad: La temperatura de muestreo es un mecanismo efectivo para controlar la diversidad del conjunto
  3. Conjunto Superior a Pocas Indicaciones: El conjunto de una sola indicación configurado razonablemente supera al modelo único de cinco indicaciones
  4. Consistencia Automática Indica Confianza: La consistencia entre modelos puede servir como indicador confiable de confianza de predicción

Trabajo Relacionado

Desarrollo del Análisis de Sentimiento

  • Métodos Tradicionales: Regresión logística, SVM, Naive Bayes y otros métodos de aprendizaje automático
  • Aprendizaje Profundo: Métodos de redes neuronales como CNN, RNN
  • Era de LLM: Capacidades de aprendizaje de cero y pocas indicaciones de modelos grandes como GPT, BERT

Métodos de Conjunto de LLM

  • Mecanismos de Votación: Votación por mayoría, votación ponderada
  • Método Bagging: Agregación de bootstrap
  • Método Boosting: AdaBoost, aumento de gradiente
  • Métodos Específicos de LLM: Arquitectura apilada, división de expertos, diversificación de semillas

Consistencia y Confiabilidad

  • Consistencia Automática: Consistencia de múltiples inferencias como indicador de confianza
  • Calibración y Cuantificación de Incertidumbre: Evaluación y mejora de confiabilidad del modelo
  • Investigación de Parámetro de Temperatura: Control de aleatoriedad de salida y diversidad

Conclusiones y Discusión

Conclusiones Principales

  1. Importancia de la Selección de Ejemplos Representativos: El método de selección basado en centroide supera significativamente la selección aleatoria
  2. Papel Clave del Parámetro de Temperatura: La configuración de temperatura alta proporciona diversidad necesaria para el conjunto
  3. Conjunto Superior a Pocas Indicaciones: El conjunto razonable de una sola indicación supera al modelo de cinco indicaciones
  4. Función Indicadora de Consistencia Automática: La consistencia del modelo puede utilizarse para evaluación de confianza y razonamiento dinámico

Limitaciones

  1. Rango de Conjunto de Datos Limitado: Validación solo en un único conjunto de datos (1,000 muestras), requiere validación entre dominios
  2. Número de Modelos Base Fijo: Solo utiliza 5 modelos base, la escalabilidad requiere investigación adicional
  3. Selección de Modelo Única: Solo utiliza modelo Llama, requiere validación en otros modelos
  4. Análisis Teórico Insuficiente: Falta análisis teórico profundo del equilibrio precisión-diversidad

Direcciones Futuras

  1. Validación Entre Dominios: Validar efectividad del método en otros campos como finanzas, medicina
  2. Validación de Múltiples Modelos: Probar en otros LLM como Qwen, Mistral
  3. Estrategia de Razonamiento Dinámico: Mecanismo de razonamiento adaptativo basado en consistencia automática
  4. Perfeccionamiento del Marco Teórico: Investigación profunda de la base teórica del equilibrio precisión-diversidad

Evaluación Profunda

Fortalezas

  1. Diseño de Investigación Sistemático: Explora sistemáticamente los efectos de interacción entre selección de ejemplos y parámetro de temperatura a través de 5 preguntas de investigación claras
  2. Fuerte Innovación de Método: El método CREs proporciona estrategia de selección de ejemplos automatizada, evitando ajuste manual
  3. Diseño Experimental Riguroso: Utiliza pruebas de significancia estadística apropiadas, compara múltiples configuraciones
  4. Alto Valor Práctico: Método simple y fácil de implementar, sin aumentar costo computacional, fácil de aplicar industrialmente
  5. Perspectivas Teóricas Profundas: Revela el hallazgo de que la diversidad semántica es más importante que la diversidad de etiquetas

Insuficiencias

  1. Escala Experimental Limitada: Validación solo en un único conjunto de datos y modelo, la generalización requiere prueba
  2. Métodos de Referencia Simples: La selección aleatoria como referencia es relativamente simple, falta comparación con otros métodos avanzados de selección de ejemplos
  3. Análisis Teórico Insuficiente: Falta explicación teórica de por qué CREs + temperatura alta es efectivo
  4. Falta Análisis de Costo-Beneficio: No analiza el costo computacional del método de conjunto en comparación con modelo único
  5. Manejo de Casos de Cola Larga: La capacidad de manejo de datos extremadamente desbalanceados no se verifica suficientemente

Impacto

Contribución Académica:

  • Proporciona nueva perspectiva teórica para aprendizaje de conjunto de LLM
  • Establece marco de investigación sistemática para selección de ejemplos y diversidad de salida
  • Proporciona alternativa efectiva para aprendizaje de pocas indicaciones

Valor Práctico:

  • Método simple y fácil de implementar, adecuado para despliegue industrial
  • La selección automática de ejemplos reduce costo de ajuste manual
  • El indicador de consistencia puede utilizarse para evaluación de confianza

Reproducibilidad:

  • Configuración experimental detallada, utiliza conjunto de datos público
  • Descripción de método clara, fácil de reproducir
  • Código y datos cumplen términos de uso

Escenarios Aplicables

  1. Tareas de Clasificación de Texto: Especialmente tareas de clasificación ordinal (como análisis de sentimiento, predicción de puntuación)
  2. Entornos de Recursos Limitados: Escenarios donde no se puede realizar fine-tuning a gran escala
  3. Requisitos de Despliegue Rápido: Aplicaciones que necesitan construir rápidamente sistemas de clasificación de texto
  4. Requisitos de Alta Confiabilidad: Sistemas de apoyo a decisiones que necesitan evaluación de confianza
  5. Aplicaciones Multilingües: Extensible a tareas de análisis de sentimiento en otros idiomas

Referencias

El artículo cita 42 referencias relacionadas, cubriendo múltiples campos incluyendo análisis de sentimiento, aprendizaje de conjunto, aplicaciones de LLM, proporcionando base teórica sólida para la investigación. Las referencias clave incluyen:

  • Dietterich (2000): Revisión clásica de métodos de conjunto
  • Niimi (2025): Trabajo anterior del autor en conjunto de LLM
  • Wang et al. (2023): Investigación de aplicación de ChatGPT en análisis de sentimiento
  • Narang et al.: Trabajo relacionado sobre razonamiento mejorado por consistencia automática

Este artículo proporciona perspectivas valiosas para aprendizaje de conjunto de LLM, siendo la investigación sistemática sobre selección de ejemplos y control de diversidad de particular importancia teórica y práctica. Aunque existen algunas limitaciones, el método propuesto es simple y efectivo, con buenas perspectivas de aplicación.