2025-11-24T19:25:18.115923

KnowThyself: An Agentic Assistant for LLM Interpretability

Prasai, Du, Zhang et al.

We develop KnowThyself, an agentic assistant that advances large language model (LLM) interpretability. Existing tools provide useful insights but remain fragmented and code-intensive. KnowThyself consolidates these capabilities into a chat-based interface, where users can upload models, pose natural language questions, and obtain interactive visualizations with guided explanations. At its core, an orchestrator LLM first reformulates user queries, an agent router further directs them to specialized modules, and the outputs are finally contextualized into coherent explanations. This design lowers technical barriers and provides an extensible platform for LLM inspection. By embedding the whole process into a conversational workflow, KnowThyself offers a robust foundation for accessible LLM interpretability.

academic

KnowThyself: Un Asistente Agéntico para la Interpretabilidad de LLM

Información Básica

ID del Artículo: 2511.03878
Título: KnowThyself: An Agentic Assistant for LLM Interpretability
Autores: Suraj Prasai (Wake Forest University), Mengnan Du (New Jersey Institute of Technology), Ying Zhang (Wake Forest University), Fan Yang (Wake Forest University)
Clasificación: cs.AI, cs.IR, cs.LG, cs.MA
Fecha de Publicación/Conferencia: AAAI 2026 (40ª Conferencia AAAI sobre Inteligencia Artificial - Pista de Demostración)
Enlace del Artículo: https://arxiv.org/abs/2511.03878
Repositorio de Código: https://github.com/spygaurad/KnowThyself

Resumen

Este artículo desarrolla KnowThyself, un asistente agéntico que avanza en la interpretabilidad de modelos de lenguaje grandes (LLM). Aunque las herramientas existentes proporcionan información útil, permanecen fragmentadas y requieren un trabajo de codificación sustancial. KnowThyself integra estas capacidades en una interfaz basada en chat, donde los usuarios pueden cargar modelos, formular preguntas en lenguaje natural y obtener visualizaciones interactivas con explicaciones guiadas. Su núcleo incluye: un LLM orquestador que primero reconstruye la consulta del usuario, un enrutador agéntico que dirige la consulta hacia módulos especializados, y finalmente contextualiza la salida en explicaciones coherentes. Este diseño reduce las barreras técnicas y proporciona una plataforma escalable para la inspección de LLM. Al incrustar todo el proceso en un flujo de trabajo conversacional, KnowThyself proporciona una base sólida para la interpretabilidad accesible de LLM.

Contexto de Investigación y Motivación

Problema Central

Aunque los modelos de lenguaje grandes demuestran un desempeño excepcional en comprensión del lenguaje, razonamiento y resolución de problemas, su naturaleza de caja negra hace que los procesos de decisión internos sean difíciles de interpretar, lo que genera preocupaciones sobre transparencia, confianza y responsabilidad.

Importancia del Problema

Necesidad de Transparencia: Con el despliegue generalizado de LLM en aplicaciones críticas, comprender sus mecanismos de decisión se vuelve fundamental
Brecha Investigación-Práctica: El progreso en investigación de interpretabilidad se queda muy atrás del rápido desarrollo de LLM
Barrera Técnica: Las herramientas existentes requieren conocimientos técnicos sustanciales, limitando la democratización de la interpretabilidad

Limitaciones de Métodos Existentes

Fragmentación: Aunque los métodos existentes de interpretabilidad de LLM (como métodos de atribución, análisis de mecanismos) proporcionan información valiosa, cada uno funciona de forma aislada
Dificultad de Uso: Requieren escribir código extenso con altas barreras técnicas
Falta de Integración: Las plataformas existentes no soportan exploración conversacional ni proporcionan explicaciones interactivas y bien documentadas
Barreras Técnicas: Los profesionales tienen dificultades para acceder y utilizar las técnicas de interpretabilidad más recientes

Motivación de la Investigación

Cerrar la brecha entre la investigación de interpretabilidad de vanguardia y las aplicaciones prácticas, creando una plataforma unificada, accesible y escalable mediante orquestación multiagéntica, arquitectura modular y visualización interactiva, permitiendo que una audiencia amplia participe en tecnologías de explicación emergentes.

Contribuciones Principales

Las principales contribuciones de este artículo incluyen:

Marco de Orquestación Multiagéntica: Propone un marco que coordina una amplia gama de tareas de explicación, soportando enrutamiento flexible y generación de explicaciones coherentes
Arquitectura Modular: Encapsula diferentes métodos de explicación como agentes independientes, soportando integración sin interrupciones de nuevas herramientas y escalabilidad futura
Interfaz de Visualización Interactiva: Proporciona salida con explicaciones en lenguaje natural, reduciendo significativamente las barreras para la inspección efectiva de modelos
Flujo de Trabajo Conversacional: Integra todo el proceso de explicación en un flujo conversacional, permitiendo carga de modelos, consultas y obtención de resultados sin escribir código

Explicación Detallada del Método

Definición de Tareas

Entrada:

Modelo LLM cargado por el usuario para ser interpretado
Consulta en lenguaje natural (por ejemplo, "Muestra cómo el modelo atiende el token 'she' en una oración")

Salida:

Resultados de visualización interactiva
Explicaciones en lenguaje natural con orientación
Métricas de evaluación relevantes (por ejemplo, puntuación de sesgo)

Restricciones:

Mantener coherencia conversacional y comprensión del contexto
Soportar invocación flexible de múltiples métodos de explicación
Garantizar accesibilidad de detalles técnicos

Arquitectura del Modelo

KnowThyself adopta un diseño de arquitectura de cuatro capas:

1. LLM Orquestador (Orchestrator LLM)

Función: Actúa como modelo supervisor para gestionar interacciones de usuario y guiar el proceso de explicación
Tareas Específicas:
- Reconstruir consultas de usuario
- Generar subtareas necesarias (como síntesis de oraciones o selección de herramientas)
- Contextualizar resultados intermedios
- Generar explicaciones coherentes en lenguaje natural
Implementación: Utiliza modelo Gemma3-27B
Función: Garantiza que visualizaciones complejas o métricas de sesgo permanezcan comprensibles

2. Enrutador Agéntico (Agent Router)

Función: Utiliza búsqueda de similitud basada en incrustaciones para enviar consultas a agentes especializados
Mecanismo de Enrutamiento:
- Coincide intención del usuario con descripciones de agentes
- Utiliza modelo nomic-embed-text alojado en Ollama para incrustaciones
- Mantiene eficiencia mientras asegura alineación entre consultas y capacidades de herramientas
Extensibilidad: Puede mejorarse a enrutamiento basado en LLM para adaptarse a situaciones complejas conforme el sistema escala

3. Agentes Especializados (Specialized Agents)

El sistema actual integra cuatro agentes:

a) Agente BertViz

Función: Visualización de atención
Uso: Mostrar distribución de atención del modelo entre tokens
Dependencia: HuggingFace Transformers

b) Agente TransformerLens

Función: Analizar activaciones granulares a nivel de capa y cabeza
Uso: Inspección profunda del comportamiento de capas específicas y cabezas de atención
Dependencia: HookedTransformer

c) Agente Explicador RAG

Función: Recuperar información relevante en literatura de dominio
Uso: Proporcionar explicaciones respaldadas por literatura
Tecnología: Utiliza FAISS para búsqueda de similitud, indexando documentos relevantes

d) Agente BiasEval

Función: Evaluar seguridad y disparidades demográficas
Métricas de Evaluación:
- Toxicity (Toxicidad): Utiliza conjunto de datos Real Toxicity Prompts
- Regard (Actitud): Utiliza conjunto de datos BOLD para evaluar tendencias de sentimiento hacia diferentes grupos
- HONEST: Evalúa el grado de completaciones de oraciones dañinas
Flujo de Trabajo: Solicitar al modelo, muestrear conjunto de datos, calcular puntuaciones

4. Interfaz Conversacional (Conversational Interface)

Función: Proporciona interfaz de chat que soporta carga de modelos, preguntas en lenguaje natural y verificación de resultados
Características:
- Visualización interactiva
- Sin necesidad de conocimientos técnicos especializados
- Soporta exploración conversacional

Puntos de Innovación Técnica

1. Mecanismo de Orquestación Unificado

Innovación: Utiliza LLM como orquestador para gestionar unificadamente todo el proceso de explicación
Ventajas: Integra herramientas fragmentadas en un único flujo conversacional
Implementación: Modelado como grafo dirigido mediante LangGraph, con agentes compartiendo estado

2. Sistema de Enrutamiento Inteligente

Innovación: Implementa coincidencia consulta-herramienta mediante búsqueda de similitud basada en incrustaciones
Justificación:
- Eficiente: Evita sistemas de reglas complejos
- Preciso: Asegura enrutamiento correcto mediante similitud semántica
- Escalable: Puede mejorarse a enrutamiento basado en LLM para escenarios complejos

3. Arquitectura de Complementos Modular

Innovación: Cada agente encapsula un método de explicación independiente
Ventajas:
- Aislamiento de dependencias: Las dependencias de diferentes herramientas no interfieren
- Fácil extensión: Nuevas herramientas se integran sin interrupciones
- Desarrollo independiente: Cada módulo puede mantenerse y actualizarse independientemente

4. Generación de Explicaciones Consciente del Contexto

Innovación: El orquestador sintetiza automáticamente entradas necesarias (como oraciones de ejemplo) y genera explicaciones contextualizadas
Valor: Reduce carga del usuario, proporciona salida más comprensible

Configuración Experimental

Configuración de Modelos

Modelos de Usuario Preincluidos:
- GPT-2
- BERT
- LLaMA2-13B
Alojamiento de Modelos: Modelos grandes alojados mediante Ollama para mayor eficiencia
Método de Despliegue: Soporta ejecución local (cuando los recursos lo permiten), sin necesidad de API de terceros, garantizando análisis seguro

Métricas de Evaluación

Métricas de Evaluación de Sesgo

Toxicity (Toxicidad):
- Conjunto de datos: Real Toxicity Prompts
- Evaluación: Nivel de toxicidad del contenido generado por el modelo
Regard (Actitud):
- Conjunto de datos: BOLD (Bias in Open-ended Language Generation Dataset)
- Evaluación: Diferencias en tendencias de sentimiento del modelo hacia diferentes grupos demográficos
- Salida: Puntuaciones de diferencia en categorías positiva, negativa, neutral y otra
HONEST:
- Evaluación: Grado de completaciones de oraciones dañinas en modelos de lenguaje
- Uso: Medir daño potencial del modelo en continuaciones

Detalles de Implementación

Marco: LangGraph, modelado como grafo dirigido de agentes
Modelo de Incrustación: nomic-embed-text alojado en Ollama
Modelo de Orquestación: Gemma3-27B
Gestión de Dependencias: Cada agente encapsula dependencias independientemente
Tecnología de Recuperación: Agente RAG utiliza FAISS para indexación de documentos y búsqueda de similitud

Resultados Experimentales

Demostración de Casos de Uso

El artículo demuestra el flujo de trabajo del sistema mediante dos casos típicos:

Caso 1: Visualización de Atención de Tokens

Consulta del Usuario: "Show me how the model attends across tokens for the word 'she' in a sentence."

Flujo de Trabajo del Sistema:

Enrutamiento: Agent Router selecciona agente TransformerLens
Síntesis de Entrada: El orquestador sintetiza automáticamente la oración: "Maria went to the library because she needed a book."
Análisis: TransformerLens calcula gráfico de atención
Visualización: Genera visualización de atención interactiva
Explicación: El orquestador proporciona explicación contextualizada:
- "Maria" recibe atención de sí misma, <endoftext> y "went"
- Indica que el modelo identifica "Maria" como sujeto de la oración
- El modelo atiende palabras mutuamente más relevantes, característica clave del mecanismo de atención

Presentación de Resultados: Proporciona mapa de calor de atención intuitivo, mostrando claramente distribución de pesos de atención entre tokens

Caso 2: Evaluación de Sesgo de Género

Consulta del Usuario: "Does my model show gender bias in how it answers questions?"

Flujo de Trabajo del Sistema:

Identificación de Tarea: El orquestador identifica como nueva tarea (no pregunta de seguimiento)
Enrutamiento: Agent Router selecciona agente BiasEval
Selección de Submódulo: El orquestador selecciona evaluación regard
Muestreo de Datos: Muestrea indicaciones del conjunto de datos BOLD
Evaluación: Ejecuta en modelo de usuario y calcula puntuaciones
Resumen de Resultados: El orquestador resume y presenta resultados

Resultados de Evaluación:

"Regard_Difference": {
   "Neutral": 0.177,
   "Negative": 0.120,
   "Other": 0.057,
   "Positive": -0.354
}

Explicación:

El modelo genera significativamente menos sentimiento positivo al continuar texto relacionado con hombres (diferencia del 35.4%)
Existe sesgo de género evidente comparado con texto relacionado con mujeres

Hallazgos Experimentales

Cambio de Tareas sin Interrupciones: Los usuarios pueden cambiar sin interrupciones de análisis de atención a evaluación de sesgo en la misma sesión
Alto Grado de Automatización: El sistema maneja automáticamente síntesis de entrada, selección de herramientas e interpretación de resultados
Fuerte Interpretabilidad: Las salidas técnicas (como pesos de atención, puntuaciones de sesgo) se transforman en lenguaje natural comprensible
Buena Interactividad: Los resultados de visualización soportan exploración interactiva

Trabajo Relacionado

Direcciones de Investigación en Interpretabilidad de LLM

1. Métodos de Atribución (Attribution Methods)

Contenido de Investigación: Asignar puntuaciones de importancia a tokens, muestras o estados ocultos
Trabajos Representativos:
- Encuesta de Atribución de LLM (Li et al., 2023)
- LLM Attributor (Lee et al., 2025)
Limitaciones: Típicamente requieren conocimientos técnicos especializados, carecen de interfaz unificada

2. Análisis de Mecanismos (Mechanistic Analysis)

Contenido de Investigación: Analizar mecanismos internos de cabezas de atención, neuronas o circuitos
Trabajos Representativos:
- Transcodificadores (Dunefsky et al., 2024)
- Exploración de Interpretabilidad Mecanicista (Gantla, 2025)
Limitaciones: Herramientas fragmentadas, difíciles de integrar

3. Herramientas de Interpretabilidad

BertViz: Visualización de atención multiescala
TransformerLens: Análisis de activación granular
Limitaciones: Cada una independiente, requieren aprendizaje y uso separado

4. Investigación de IA Confiable

TRUSTLLM: Marco de confiabilidad para modelos de lenguaje grandes
XAI Usable: Estrategias de interpretabilidad usable para la era de LLM
Posicionamiento de este Artículo: Implementar la practicidad de estos marcos teóricos

Ventajas de este Artículo

Plataforma Unificada: Primera en integrar múltiples métodos de interpretabilidad en una única interfaz conversacional
Reducción de Barreras: Utilizar herramientas de explicación avanzadas sin necesidad de codificación
Diseño Modular: Soporta desarrollo independiente de herramientas e integración sin interrupciones
Orientación Práctica: Transición de herramientas de investigación a asistentes prácticos

Conclusiones y Discusión

Conclusiones Principales

Valor del Sistema: KnowThyself integra exitosamente herramientas de interpretabilidad de LLM en flujos de trabajo conversacionales
Innovación Técnica: La orquestación multiagéntica y arquitectura modular reducen efectivamente las barreras técnicas
Practicidad: Mediante visualización interactiva y explicaciones respaldadas por literatura, permite que profesionales participen más efectivamente en trabajo de interpretabilidad de modelos
Escalabilidad: El diseño de arquitectura soporta fácil integración de nuevos métodos

Limitaciones

El artículo identifica explícitamente las siguientes restricciones:

Cobertura de Herramientas Limitada: Actualmente integra solo cuatro agentes, con cobertura limitada de métodos de explicación
Requisitos de Ingeniería: Requiere trabajo de ingeniería adicional para adaptar bibliotecas no modulares
Limitación Unimodal: Solo soporta entrada de texto, no soporta modelos multimodales
Precisión de Enrutamiento: Para tareas superpuestas, la precisión de enrutamiento puede necesitar mejora
Gestión de Dependencias: El aislamiento de dependencias de diferentes herramientas requiere ingeniería adicional

Direcciones Futuras

El artículo propone las siguientes direcciones de investigación:

Expandir Cobertura de Herramientas: Integrar más métodos y técnicas de interpretabilidad
Soporte Multimodal: Extender a explicación de modelos de imagen, audio y otros multimodales
Mejorar Enrutamiento: Aumentar precisión de enrutamiento en escenarios de tareas superpuestas
Mejorar Visualización: Introducir capacidades de visualización más ricas para proporcionar información más profunda
Optimización de Rendimiento: Mejorar eficiencia de procesamiento para modelos a gran escala

Evaluación Profunda

Fortalezas

1. Innovación Metodológica

Innovación de Arquitectura: Primera aplicación de sistemas multiagénticos a plataformas de interpretabilidad de LLM
Paradigma de Interacción: Uso pionero de interfaz conversacional para explicación de modelos
Mecanismo de Orquestación: Utilización ingeniosa del propio LLM para orquestar flujos de explicación

2. Valor Práctico

Reducción de Barreras: Reduce significativamente las barreras técnicas para usar herramientas de interpretabilidad
Mejora de Eficiencia: Interfaz unificada evita cambios entre múltiples herramientas
Retroalimentación Inmediata: Interacción conversacional proporciona retroalimentación inmediata y comprensible

3. Diseño del Sistema

Modularidad: Buen diseño modular soporta desarrollo y mantenimiento independiente
Escalabilidad: Arquitectura tipo complemento facilita integración de nuevas herramientas
Flexibilidad: Soporta despliegue local, protegiendo privacidad de datos

4. Calidad de Escritura

Alta Claridad: Descripción clara de arquitectura del sistema, figuras intuitivas
Casos Ricos: Demuestra capacidades del sistema mediante casos concretos
Transparencia Honesta: Identifica explícitamente limitaciones y direcciones futuras

Deficiencias

1. Evaluación Experimental Insuficiente

Falta de Evaluación Cuantitativa: No proporciona estudios de usuario o experimentos de comparación de eficiencia
Sin Puntos de Referencia de Rendimiento: No realiza comparación sistemática con otras plataformas de interpretabilidad
Validación de Usabilidad: Carece de evaluación de experiencia del usuario

2. Detalles Técnicos Insuficientes

Mecanismo de Enrutamiento: Precisión del enrutamiento basado en incrustaciones no cuantificada
Manejo de Errores: No discute mecanismos de manejo cuando falla la comprensión de consultas
Limitaciones de Escalabilidad: No analiza cuellos de botella de rendimiento en escenarios a gran escala

3. Limitaciones Metodológicas

Dependencia del Orquestador: El rendimiento del sistema depende altamente de las capacidades del LLM orquestador
Herramientas Limitadas: Solo cuatro agentes, cobertura limitada
Unimodal: No soporta necesidades de explicación de modelos multimodales

4. Problemas de Reproducibilidad

Detalles de Conjunto de Datos: No especifica claramente selección y procesamiento de conjuntos de datos de evaluación
Hiperparámetros: Faltan configuraciones de hiperparámetros clave
Requisitos de Despliegue: Requisitos de hardware para despliegue local no clarificados

Impacto

Contribución al Campo

Cambio de Paradigma: Transición de colección de herramientas a plataforma unificada, potencialmente liderando dirección de desarrollo de herramientas de interpretabilidad
Democratización: Reduce significativamente barreras de participación en investigación de interpretabilidad
Estandarización: Proporciona arquitectura de referencia para integración de herramientas de interpretabilidad

Valor Práctico

Aplicación Industrial: Puede usarse directamente para auditoría de modelos y depuración empresarial
Propósito Educativo: Apropiado para escenarios de enseñanza y capacitación
Herramienta de Investigación: Proporciona plataforma conveniente de análisis de modelos para investigadores

Reproducibilidad

Código Abierto: Repositorio GitHub público, soporta contribuciones comunitarias
Documentación Completa: Descripción clara de arquitectura del sistema
Dependencias Claras: Dependencias de cada componente claramente listadas
Pero Carece de: Documentación detallada de despliegue y tutoriales de uso

Escenarios Aplicables

Escenarios de Aplicación Ideal

Auditoría de Modelos: Empresas necesitan evaluar rápidamente sesgo y seguridad de modelos
Capacitación Educativa: Enseñar conceptos y métodos de interpretabilidad de LLM
Exploración de Investigación: Prueba y comparación rápida de diferentes métodos de explicación
Desarrollo de Prototipos: Verificación rápida de comportamiento de modelos durante fase de desarrollo

Escenarios Limitados

Entorno de Producción: Puede requerir garantías más altas de rendimiento y estabilidad
Modelos a Escala Masiva: Implementación actual puede enfrentar cuellos de botella de rendimiento
Requisitos Personalizados: Necesidades de explicación altamente especializadas pueden requerir extensión
Aplicaciones en Tiempo Real: Interacción conversacional puede no ser adecuada para escenarios de monitoreo en tiempo real

Referencias

Citas Clave

Encuestas de Interpretabilidad:
- Zhao et al. (2024): "Explainability for large language models: A survey"
- Proporciona encuesta integral de interpretabilidad de LLM
Herramientas de Interpretabilidad:
- Vig (2019): BertViz - Visualización de atención
- Nanda & Bloom (2022): TransformerLens - Análisis de mecanismos
Evaluación de Sesgo:
- Gehman et al. (2020): Real Toxicity Prompts
- Dhamala et al. (2021): Conjunto de datos BOLD
- Nozza et al. (2021): Método de evaluación HONEST
IA Confiable:
- Huang et al. (2024): Marco TRUSTLLM
- Wu et al. (2024): Estrategias de XAI Usable
Marcos Técnicos:
- LangGraph: Marco de orquestación multiagéntica
- FAISS: Búsqueda de similitud eficiente

Evaluación General

KnowThyself es un trabajo de carácter pionero que integra exitosamente herramientas fragmentadas de interpretabilidad de LLM en una plataforma conversacional unificada. Su arquitectura multiagéntica y diseño modular demuestran buenas prácticas de ingeniería, y la interacción conversacional reduce significativamente las barreras técnicas.

El valor principal radica en su orientación práctica y escalabilidad, proporcionando una solución viable para la democratización de herramientas de interpretabilidad. Como artículo de demostración de AAAI, demuestra exitosamente la viabilidad y potencial del sistema.

El principal lamento es la falta de evaluación cuantitativa suficiente e investigación con usuarios, imposibilitando validación completa de la efectividad del sistema en escenarios reales. Si trabajos futuros pueden complementar estas evaluaciones, aumentará significativamente la persuasión del artículo.

En general, este es un artículo de sistema de alta calidad que proporciona herramientas y perspectivas valiosas para investigación y aplicación de interpretabilidad de LLM, merecedor de atención y desarrollo adicional.