2025-11-24T19:25:18.115923

KnowThyself: An Agentic Assistant for LLM Interpretability

Prasai, Du, Zhang et al.
We develop KnowThyself, an agentic assistant that advances large language model (LLM) interpretability. Existing tools provide useful insights but remain fragmented and code-intensive. KnowThyself consolidates these capabilities into a chat-based interface, where users can upload models, pose natural language questions, and obtain interactive visualizations with guided explanations. At its core, an orchestrator LLM first reformulates user queries, an agent router further directs them to specialized modules, and the outputs are finally contextualized into coherent explanations. This design lowers technical barriers and provides an extensible platform for LLM inspection. By embedding the whole process into a conversational workflow, KnowThyself offers a robust foundation for accessible LLM interpretability.
academic

KnowThyself: Un Asistente Agéntico para la Interpretabilidad de LLM

Información Básica

  • ID del Artículo: 2511.03878
  • Título: KnowThyself: An Agentic Assistant for LLM Interpretability
  • Autores: Suraj Prasai (Wake Forest University), Mengnan Du (New Jersey Institute of Technology), Ying Zhang (Wake Forest University), Fan Yang (Wake Forest University)
  • Clasificación: cs.AI, cs.IR, cs.LG, cs.MA
  • Fecha de Publicación/Conferencia: AAAI 2026 (40ª Conferencia AAAI sobre Inteligencia Artificial - Pista de Demostración)
  • Enlace del Artículo: https://arxiv.org/abs/2511.03878
  • Repositorio de Código: https://github.com/spygaurad/KnowThyself

Resumen

Este artículo desarrolla KnowThyself, un asistente agéntico que avanza en la interpretabilidad de modelos de lenguaje grandes (LLM). Aunque las herramientas existentes proporcionan información útil, permanecen fragmentadas y requieren un trabajo de codificación sustancial. KnowThyself integra estas capacidades en una interfaz basada en chat, donde los usuarios pueden cargar modelos, formular preguntas en lenguaje natural y obtener visualizaciones interactivas con explicaciones guiadas. Su núcleo incluye: un LLM orquestador que primero reconstruye la consulta del usuario, un enrutador agéntico que dirige la consulta hacia módulos especializados, y finalmente contextualiza la salida en explicaciones coherentes. Este diseño reduce las barreras técnicas y proporciona una plataforma escalable para la inspección de LLM. Al incrustar todo el proceso en un flujo de trabajo conversacional, KnowThyself proporciona una base sólida para la interpretabilidad accesible de LLM.

Contexto de Investigación y Motivación

Problema Central

Aunque los modelos de lenguaje grandes demuestran un desempeño excepcional en comprensión del lenguaje, razonamiento y resolución de problemas, su naturaleza de caja negra hace que los procesos de decisión internos sean difíciles de interpretar, lo que genera preocupaciones sobre transparencia, confianza y responsabilidad.

Importancia del Problema

  1. Necesidad de Transparencia: Con el despliegue generalizado de LLM en aplicaciones críticas, comprender sus mecanismos de decisión se vuelve fundamental
  2. Brecha Investigación-Práctica: El progreso en investigación de interpretabilidad se queda muy atrás del rápido desarrollo de LLM
  3. Barrera Técnica: Las herramientas existentes requieren conocimientos técnicos sustanciales, limitando la democratización de la interpretabilidad

Limitaciones de Métodos Existentes

  1. Fragmentación: Aunque los métodos existentes de interpretabilidad de LLM (como métodos de atribución, análisis de mecanismos) proporcionan información valiosa, cada uno funciona de forma aislada
  2. Dificultad de Uso: Requieren escribir código extenso con altas barreras técnicas
  3. Falta de Integración: Las plataformas existentes no soportan exploración conversacional ni proporcionan explicaciones interactivas y bien documentadas
  4. Barreras Técnicas: Los profesionales tienen dificultades para acceder y utilizar las técnicas de interpretabilidad más recientes

Motivación de la Investigación

Cerrar la brecha entre la investigación de interpretabilidad de vanguardia y las aplicaciones prácticas, creando una plataforma unificada, accesible y escalable mediante orquestación multiagéntica, arquitectura modular y visualización interactiva, permitiendo que una audiencia amplia participe en tecnologías de explicación emergentes.

Contribuciones Principales

Las principales contribuciones de este artículo incluyen:

  1. Marco de Orquestación Multiagéntica: Propone un marco que coordina una amplia gama de tareas de explicación, soportando enrutamiento flexible y generación de explicaciones coherentes
  2. Arquitectura Modular: Encapsula diferentes métodos de explicación como agentes independientes, soportando integración sin interrupciones de nuevas herramientas y escalabilidad futura
  3. Interfaz de Visualización Interactiva: Proporciona salida con explicaciones en lenguaje natural, reduciendo significativamente las barreras para la inspección efectiva de modelos
  4. Flujo de Trabajo Conversacional: Integra todo el proceso de explicación en un flujo conversacional, permitiendo carga de modelos, consultas y obtención de resultados sin escribir código

Explicación Detallada del Método

Definición de Tareas

Entrada:

  • Modelo LLM cargado por el usuario para ser interpretado
  • Consulta en lenguaje natural (por ejemplo, "Muestra cómo el modelo atiende el token 'she' en una oración")

Salida:

  • Resultados de visualización interactiva
  • Explicaciones en lenguaje natural con orientación
  • Métricas de evaluación relevantes (por ejemplo, puntuación de sesgo)

Restricciones:

  • Mantener coherencia conversacional y comprensión del contexto
  • Soportar invocación flexible de múltiples métodos de explicación
  • Garantizar accesibilidad de detalles técnicos

Arquitectura del Modelo

KnowThyself adopta un diseño de arquitectura de cuatro capas:

1. LLM Orquestador (Orchestrator LLM)

  • Función: Actúa como modelo supervisor para gestionar interacciones de usuario y guiar el proceso de explicación
  • Tareas Específicas:
    • Reconstruir consultas de usuario
    • Generar subtareas necesarias (como síntesis de oraciones o selección de herramientas)
    • Contextualizar resultados intermedios
    • Generar explicaciones coherentes en lenguaje natural
  • Implementación: Utiliza modelo Gemma3-27B
  • Función: Garantiza que visualizaciones complejas o métricas de sesgo permanezcan comprensibles

2. Enrutador Agéntico (Agent Router)

  • Función: Utiliza búsqueda de similitud basada en incrustaciones para enviar consultas a agentes especializados
  • Mecanismo de Enrutamiento:
    • Coincide intención del usuario con descripciones de agentes
    • Utiliza modelo nomic-embed-text alojado en Ollama para incrustaciones
    • Mantiene eficiencia mientras asegura alineación entre consultas y capacidades de herramientas
  • Extensibilidad: Puede mejorarse a enrutamiento basado en LLM para adaptarse a situaciones complejas conforme el sistema escala

3. Agentes Especializados (Specialized Agents)

El sistema actual integra cuatro agentes:

a) Agente BertViz

  • Función: Visualización de atención
  • Uso: Mostrar distribución de atención del modelo entre tokens
  • Dependencia: HuggingFace Transformers

b) Agente TransformerLens

  • Función: Analizar activaciones granulares a nivel de capa y cabeza
  • Uso: Inspección profunda del comportamiento de capas específicas y cabezas de atención
  • Dependencia: HookedTransformer

c) Agente Explicador RAG

  • Función: Recuperar información relevante en literatura de dominio
  • Uso: Proporcionar explicaciones respaldadas por literatura
  • Tecnología: Utiliza FAISS para búsqueda de similitud, indexando documentos relevantes

d) Agente BiasEval

  • Función: Evaluar seguridad y disparidades demográficas
  • Métricas de Evaluación:
    • Toxicity (Toxicidad): Utiliza conjunto de datos Real Toxicity Prompts
    • Regard (Actitud): Utiliza conjunto de datos BOLD para evaluar tendencias de sentimiento hacia diferentes grupos
    • HONEST: Evalúa el grado de completaciones de oraciones dañinas
  • Flujo de Trabajo: Solicitar al modelo, muestrear conjunto de datos, calcular puntuaciones

4. Interfaz Conversacional (Conversational Interface)

  • Función: Proporciona interfaz de chat que soporta carga de modelos, preguntas en lenguaje natural y verificación de resultados
  • Características:
    • Visualización interactiva
    • Sin necesidad de conocimientos técnicos especializados
    • Soporta exploración conversacional

Puntos de Innovación Técnica

1. Mecanismo de Orquestación Unificado

  • Innovación: Utiliza LLM como orquestador para gestionar unificadamente todo el proceso de explicación
  • Ventajas: Integra herramientas fragmentadas en un único flujo conversacional
  • Implementación: Modelado como grafo dirigido mediante LangGraph, con agentes compartiendo estado

2. Sistema de Enrutamiento Inteligente

  • Innovación: Implementa coincidencia consulta-herramienta mediante búsqueda de similitud basada en incrustaciones
  • Justificación:
    • Eficiente: Evita sistemas de reglas complejos
    • Preciso: Asegura enrutamiento correcto mediante similitud semántica
    • Escalable: Puede mejorarse a enrutamiento basado en LLM para escenarios complejos

3. Arquitectura de Complementos Modular

  • Innovación: Cada agente encapsula un método de explicación independiente
  • Ventajas:
    • Aislamiento de dependencias: Las dependencias de diferentes herramientas no interfieren
    • Fácil extensión: Nuevas herramientas se integran sin interrupciones
    • Desarrollo independiente: Cada módulo puede mantenerse y actualizarse independientemente

4. Generación de Explicaciones Consciente del Contexto

  • Innovación: El orquestador sintetiza automáticamente entradas necesarias (como oraciones de ejemplo) y genera explicaciones contextualizadas
  • Valor: Reduce carga del usuario, proporciona salida más comprensible

Configuración Experimental

Configuración de Modelos

  1. Modelos de Usuario Preincluidos:
    • GPT-2
    • BERT
    • LLaMA2-13B
  2. Alojamiento de Modelos: Modelos grandes alojados mediante Ollama para mayor eficiencia
  3. Método de Despliegue: Soporta ejecución local (cuando los recursos lo permiten), sin necesidad de API de terceros, garantizando análisis seguro

Métricas de Evaluación

Métricas de Evaluación de Sesgo

  1. Toxicity (Toxicidad):
    • Conjunto de datos: Real Toxicity Prompts
    • Evaluación: Nivel de toxicidad del contenido generado por el modelo
  2. Regard (Actitud):
    • Conjunto de datos: BOLD (Bias in Open-ended Language Generation Dataset)
    • Evaluación: Diferencias en tendencias de sentimiento del modelo hacia diferentes grupos demográficos
    • Salida: Puntuaciones de diferencia en categorías positiva, negativa, neutral y otra
  3. HONEST:
    • Evaluación: Grado de completaciones de oraciones dañinas en modelos de lenguaje
    • Uso: Medir daño potencial del modelo en continuaciones

Detalles de Implementación

  1. Marco: LangGraph, modelado como grafo dirigido de agentes
  2. Modelo de Incrustación: nomic-embed-text alojado en Ollama
  3. Modelo de Orquestación: Gemma3-27B
  4. Gestión de Dependencias: Cada agente encapsula dependencias independientemente
  5. Tecnología de Recuperación: Agente RAG utiliza FAISS para indexación de documentos y búsqueda de similitud

Resultados Experimentales

Demostración de Casos de Uso

El artículo demuestra el flujo de trabajo del sistema mediante dos casos típicos:

Caso 1: Visualización de Atención de Tokens

Consulta del Usuario: "Show me how the model attends across tokens for the word 'she' in a sentence."

Flujo de Trabajo del Sistema:

  1. Enrutamiento: Agent Router selecciona agente TransformerLens
  2. Síntesis de Entrada: El orquestador sintetiza automáticamente la oración: "Maria went to the library because she needed a book."
  3. Análisis: TransformerLens calcula gráfico de atención
  4. Visualización: Genera visualización de atención interactiva
  5. Explicación: El orquestador proporciona explicación contextualizada:
    • "Maria" recibe atención de sí misma, <endoftext> y "went"
    • Indica que el modelo identifica "Maria" como sujeto de la oración
    • El modelo atiende palabras mutuamente más relevantes, característica clave del mecanismo de atención

Presentación de Resultados: Proporciona mapa de calor de atención intuitivo, mostrando claramente distribución de pesos de atención entre tokens

Caso 2: Evaluación de Sesgo de Género

Consulta del Usuario: "Does my model show gender bias in how it answers questions?"

Flujo de Trabajo del Sistema:

  1. Identificación de Tarea: El orquestador identifica como nueva tarea (no pregunta de seguimiento)
  2. Enrutamiento: Agent Router selecciona agente BiasEval
  3. Selección de Submódulo: El orquestador selecciona evaluación regard
  4. Muestreo de Datos: Muestrea indicaciones del conjunto de datos BOLD
  5. Evaluación: Ejecuta en modelo de usuario y calcula puntuaciones
  6. Resumen de Resultados: El orquestador resume y presenta resultados

Resultados de Evaluación:

"Regard_Difference": {
   "Neutral": 0.177,
   "Negative": 0.120,
   "Other": 0.057,
   "Positive": -0.354
}

Explicación:

  • El modelo genera significativamente menos sentimiento positivo al continuar texto relacionado con hombres (diferencia del 35.4%)
  • Existe sesgo de género evidente comparado con texto relacionado con mujeres

Hallazgos Experimentales

  1. Cambio de Tareas sin Interrupciones: Los usuarios pueden cambiar sin interrupciones de análisis de atención a evaluación de sesgo en la misma sesión
  2. Alto Grado de Automatización: El sistema maneja automáticamente síntesis de entrada, selección de herramientas e interpretación de resultados
  3. Fuerte Interpretabilidad: Las salidas técnicas (como pesos de atención, puntuaciones de sesgo) se transforman en lenguaje natural comprensible
  4. Buena Interactividad: Los resultados de visualización soportan exploración interactiva

Trabajo Relacionado

Direcciones de Investigación en Interpretabilidad de LLM

1. Métodos de Atribución (Attribution Methods)

  • Contenido de Investigación: Asignar puntuaciones de importancia a tokens, muestras o estados ocultos
  • Trabajos Representativos:
    • Encuesta de Atribución de LLM (Li et al., 2023)
    • LLM Attributor (Lee et al., 2025)
  • Limitaciones: Típicamente requieren conocimientos técnicos especializados, carecen de interfaz unificada

2. Análisis de Mecanismos (Mechanistic Analysis)

  • Contenido de Investigación: Analizar mecanismos internos de cabezas de atención, neuronas o circuitos
  • Trabajos Representativos:
    • Transcodificadores (Dunefsky et al., 2024)
    • Exploración de Interpretabilidad Mecanicista (Gantla, 2025)
  • Limitaciones: Herramientas fragmentadas, difíciles de integrar

3. Herramientas de Interpretabilidad

  • BertViz: Visualización de atención multiescala
  • TransformerLens: Análisis de activación granular
  • Limitaciones: Cada una independiente, requieren aprendizaje y uso separado

4. Investigación de IA Confiable

  • TRUSTLLM: Marco de confiabilidad para modelos de lenguaje grandes
  • XAI Usable: Estrategias de interpretabilidad usable para la era de LLM
  • Posicionamiento de este Artículo: Implementar la practicidad de estos marcos teóricos

Ventajas de este Artículo

  1. Plataforma Unificada: Primera en integrar múltiples métodos de interpretabilidad en una única interfaz conversacional
  2. Reducción de Barreras: Utilizar herramientas de explicación avanzadas sin necesidad de codificación
  3. Diseño Modular: Soporta desarrollo independiente de herramientas e integración sin interrupciones
  4. Orientación Práctica: Transición de herramientas de investigación a asistentes prácticos

Conclusiones y Discusión

Conclusiones Principales

  1. Valor del Sistema: KnowThyself integra exitosamente herramientas de interpretabilidad de LLM en flujos de trabajo conversacionales
  2. Innovación Técnica: La orquestación multiagéntica y arquitectura modular reducen efectivamente las barreras técnicas
  3. Practicidad: Mediante visualización interactiva y explicaciones respaldadas por literatura, permite que profesionales participen más efectivamente en trabajo de interpretabilidad de modelos
  4. Escalabilidad: El diseño de arquitectura soporta fácil integración de nuevos métodos

Limitaciones

El artículo identifica explícitamente las siguientes restricciones:

  1. Cobertura de Herramientas Limitada: Actualmente integra solo cuatro agentes, con cobertura limitada de métodos de explicación
  2. Requisitos de Ingeniería: Requiere trabajo de ingeniería adicional para adaptar bibliotecas no modulares
  3. Limitación Unimodal: Solo soporta entrada de texto, no soporta modelos multimodales
  4. Precisión de Enrutamiento: Para tareas superpuestas, la precisión de enrutamiento puede necesitar mejora
  5. Gestión de Dependencias: El aislamiento de dependencias de diferentes herramientas requiere ingeniería adicional

Direcciones Futuras

El artículo propone las siguientes direcciones de investigación:

  1. Expandir Cobertura de Herramientas: Integrar más métodos y técnicas de interpretabilidad
  2. Soporte Multimodal: Extender a explicación de modelos de imagen, audio y otros multimodales
  3. Mejorar Enrutamiento: Aumentar precisión de enrutamiento en escenarios de tareas superpuestas
  4. Mejorar Visualización: Introducir capacidades de visualización más ricas para proporcionar información más profunda
  5. Optimización de Rendimiento: Mejorar eficiencia de procesamiento para modelos a gran escala

Evaluación Profunda

Fortalezas

1. Innovación Metodológica

  • Innovación de Arquitectura: Primera aplicación de sistemas multiagénticos a plataformas de interpretabilidad de LLM
  • Paradigma de Interacción: Uso pionero de interfaz conversacional para explicación de modelos
  • Mecanismo de Orquestación: Utilización ingeniosa del propio LLM para orquestar flujos de explicación

2. Valor Práctico

  • Reducción de Barreras: Reduce significativamente las barreras técnicas para usar herramientas de interpretabilidad
  • Mejora de Eficiencia: Interfaz unificada evita cambios entre múltiples herramientas
  • Retroalimentación Inmediata: Interacción conversacional proporciona retroalimentación inmediata y comprensible

3. Diseño del Sistema

  • Modularidad: Buen diseño modular soporta desarrollo y mantenimiento independiente
  • Escalabilidad: Arquitectura tipo complemento facilita integración de nuevas herramientas
  • Flexibilidad: Soporta despliegue local, protegiendo privacidad de datos

4. Calidad de Escritura

  • Alta Claridad: Descripción clara de arquitectura del sistema, figuras intuitivas
  • Casos Ricos: Demuestra capacidades del sistema mediante casos concretos
  • Transparencia Honesta: Identifica explícitamente limitaciones y direcciones futuras

Deficiencias

1. Evaluación Experimental Insuficiente

  • Falta de Evaluación Cuantitativa: No proporciona estudios de usuario o experimentos de comparación de eficiencia
  • Sin Puntos de Referencia de Rendimiento: No realiza comparación sistemática con otras plataformas de interpretabilidad
  • Validación de Usabilidad: Carece de evaluación de experiencia del usuario

2. Detalles Técnicos Insuficientes

  • Mecanismo de Enrutamiento: Precisión del enrutamiento basado en incrustaciones no cuantificada
  • Manejo de Errores: No discute mecanismos de manejo cuando falla la comprensión de consultas
  • Limitaciones de Escalabilidad: No analiza cuellos de botella de rendimiento en escenarios a gran escala

3. Limitaciones Metodológicas

  • Dependencia del Orquestador: El rendimiento del sistema depende altamente de las capacidades del LLM orquestador
  • Herramientas Limitadas: Solo cuatro agentes, cobertura limitada
  • Unimodal: No soporta necesidades de explicación de modelos multimodales

4. Problemas de Reproducibilidad

  • Detalles de Conjunto de Datos: No especifica claramente selección y procesamiento de conjuntos de datos de evaluación
  • Hiperparámetros: Faltan configuraciones de hiperparámetros clave
  • Requisitos de Despliegue: Requisitos de hardware para despliegue local no clarificados

Impacto

Contribución al Campo

  1. Cambio de Paradigma: Transición de colección de herramientas a plataforma unificada, potencialmente liderando dirección de desarrollo de herramientas de interpretabilidad
  2. Democratización: Reduce significativamente barreras de participación en investigación de interpretabilidad
  3. Estandarización: Proporciona arquitectura de referencia para integración de herramientas de interpretabilidad

Valor Práctico

  1. Aplicación Industrial: Puede usarse directamente para auditoría de modelos y depuración empresarial
  2. Propósito Educativo: Apropiado para escenarios de enseñanza y capacitación
  3. Herramienta de Investigación: Proporciona plataforma conveniente de análisis de modelos para investigadores

Reproducibilidad

  • Código Abierto: Repositorio GitHub público, soporta contribuciones comunitarias
  • Documentación Completa: Descripción clara de arquitectura del sistema
  • Dependencias Claras: Dependencias de cada componente claramente listadas
  • Pero Carece de: Documentación detallada de despliegue y tutoriales de uso

Escenarios Aplicables

Escenarios de Aplicación Ideal

  1. Auditoría de Modelos: Empresas necesitan evaluar rápidamente sesgo y seguridad de modelos
  2. Capacitación Educativa: Enseñar conceptos y métodos de interpretabilidad de LLM
  3. Exploración de Investigación: Prueba y comparación rápida de diferentes métodos de explicación
  4. Desarrollo de Prototipos: Verificación rápida de comportamiento de modelos durante fase de desarrollo

Escenarios Limitados

  1. Entorno de Producción: Puede requerir garantías más altas de rendimiento y estabilidad
  2. Modelos a Escala Masiva: Implementación actual puede enfrentar cuellos de botella de rendimiento
  3. Requisitos Personalizados: Necesidades de explicación altamente especializadas pueden requerir extensión
  4. Aplicaciones en Tiempo Real: Interacción conversacional puede no ser adecuada para escenarios de monitoreo en tiempo real

Referencias

Citas Clave

  1. Encuestas de Interpretabilidad:
    • Zhao et al. (2024): "Explainability for large language models: A survey"
    • Proporciona encuesta integral de interpretabilidad de LLM
  2. Herramientas de Interpretabilidad:
    • Vig (2019): BertViz - Visualización de atención
    • Nanda & Bloom (2022): TransformerLens - Análisis de mecanismos
  3. Evaluación de Sesgo:
    • Gehman et al. (2020): Real Toxicity Prompts
    • Dhamala et al. (2021): Conjunto de datos BOLD
    • Nozza et al. (2021): Método de evaluación HONEST
  4. IA Confiable:
    • Huang et al. (2024): Marco TRUSTLLM
    • Wu et al. (2024): Estrategias de XAI Usable
  5. Marcos Técnicos:
    • LangGraph: Marco de orquestación multiagéntica
    • FAISS: Búsqueda de similitud eficiente

Evaluación General

KnowThyself es un trabajo de carácter pionero que integra exitosamente herramientas fragmentadas de interpretabilidad de LLM en una plataforma conversacional unificada. Su arquitectura multiagéntica y diseño modular demuestran buenas prácticas de ingeniería, y la interacción conversacional reduce significativamente las barreras técnicas.

El valor principal radica en su orientación práctica y escalabilidad, proporcionando una solución viable para la democratización de herramientas de interpretabilidad. Como artículo de demostración de AAAI, demuestra exitosamente la viabilidad y potencial del sistema.

El principal lamento es la falta de evaluación cuantitativa suficiente e investigación con usuarios, imposibilitando validación completa de la efectividad del sistema en escenarios reales. Si trabajos futuros pueden complementar estas evaluaciones, aumentará significativamente la persuasión del artículo.

En general, este es un artículo de sistema de alta calidad que proporciona herramientas y perspectivas valiosas para investigación y aplicación de interpretabilidad de LLM, merecedor de atención y desarrollo adicional.