KnowThyself: An Agentic Assistant for LLM Interpretability
Prasai, Du, Zhang et al.
We develop KnowThyself, an agentic assistant that advances large language model (LLM) interpretability. Existing tools provide useful insights but remain fragmented and code-intensive. KnowThyself consolidates these capabilities into a chat-based interface, where users can upload models, pose natural language questions, and obtain interactive visualizations with guided explanations. At its core, an orchestrator LLM first reformulates user queries, an agent router further directs them to specialized modules, and the outputs are finally contextualized into coherent explanations. This design lowers technical barriers and provides an extensible platform for LLM inspection. By embedding the whole process into a conversational workflow, KnowThyself offers a robust foundation for accessible LLM interpretability.
academic
KnowThyself: Un Asistente Agéntico para la Interpretabilidad de LLM
Título: KnowThyself: An Agentic Assistant for LLM Interpretability
Autores: Suraj Prasai (Wake Forest University), Mengnan Du (New Jersey Institute of Technology), Ying Zhang (Wake Forest University), Fan Yang (Wake Forest University)
Clasificación: cs.AI, cs.IR, cs.LG, cs.MA
Fecha de Publicación/Conferencia: AAAI 2026 (40ª Conferencia AAAI sobre Inteligencia Artificial - Pista de Demostración)
Este artículo desarrolla KnowThyself, un asistente agéntico que avanza en la interpretabilidad de modelos de lenguaje grandes (LLM). Aunque las herramientas existentes proporcionan información útil, permanecen fragmentadas y requieren un trabajo de codificación sustancial. KnowThyself integra estas capacidades en una interfaz basada en chat, donde los usuarios pueden cargar modelos, formular preguntas en lenguaje natural y obtener visualizaciones interactivas con explicaciones guiadas. Su núcleo incluye: un LLM orquestador que primero reconstruye la consulta del usuario, un enrutador agéntico que dirige la consulta hacia módulos especializados, y finalmente contextualiza la salida en explicaciones coherentes. Este diseño reduce las barreras técnicas y proporciona una plataforma escalable para la inspección de LLM. Al incrustar todo el proceso en un flujo de trabajo conversacional, KnowThyself proporciona una base sólida para la interpretabilidad accesible de LLM.
Aunque los modelos de lenguaje grandes demuestran un desempeño excepcional en comprensión del lenguaje, razonamiento y resolución de problemas, su naturaleza de caja negra hace que los procesos de decisión internos sean difíciles de interpretar, lo que genera preocupaciones sobre transparencia, confianza y responsabilidad.
Necesidad de Transparencia: Con el despliegue generalizado de LLM en aplicaciones críticas, comprender sus mecanismos de decisión se vuelve fundamental
Brecha Investigación-Práctica: El progreso en investigación de interpretabilidad se queda muy atrás del rápido desarrollo de LLM
Barrera Técnica: Las herramientas existentes requieren conocimientos técnicos sustanciales, limitando la democratización de la interpretabilidad
Fragmentación: Aunque los métodos existentes de interpretabilidad de LLM (como métodos de atribución, análisis de mecanismos) proporcionan información valiosa, cada uno funciona de forma aislada
Dificultad de Uso: Requieren escribir código extenso con altas barreras técnicas
Falta de Integración: Las plataformas existentes no soportan exploración conversacional ni proporcionan explicaciones interactivas y bien documentadas
Barreras Técnicas: Los profesionales tienen dificultades para acceder y utilizar las técnicas de interpretabilidad más recientes
Cerrar la brecha entre la investigación de interpretabilidad de vanguardia y las aplicaciones prácticas, creando una plataforma unificada, accesible y escalable mediante orquestación multiagéntica, arquitectura modular y visualización interactiva, permitiendo que una audiencia amplia participe en tecnologías de explicación emergentes.
Las principales contribuciones de este artículo incluyen:
Marco de Orquestación Multiagéntica: Propone un marco que coordina una amplia gama de tareas de explicación, soportando enrutamiento flexible y generación de explicaciones coherentes
Arquitectura Modular: Encapsula diferentes métodos de explicación como agentes independientes, soportando integración sin interrupciones de nuevas herramientas y escalabilidad futura
Interfaz de Visualización Interactiva: Proporciona salida con explicaciones en lenguaje natural, reduciendo significativamente las barreras para la inspección efectiva de modelos
Flujo de Trabajo Conversacional: Integra todo el proceso de explicación en un flujo conversacional, permitiendo carga de modelos, consultas y obtención de resultados sin escribir código
Valor del Sistema: KnowThyself integra exitosamente herramientas de interpretabilidad de LLM en flujos de trabajo conversacionales
Innovación Técnica: La orquestación multiagéntica y arquitectura modular reducen efectivamente las barreras técnicas
Practicidad: Mediante visualización interactiva y explicaciones respaldadas por literatura, permite que profesionales participen más efectivamente en trabajo de interpretabilidad de modelos
Escalabilidad: El diseño de arquitectura soporta fácil integración de nuevos métodos
Cambio de Paradigma: Transición de colección de herramientas a plataforma unificada, potencialmente liderando dirección de desarrollo de herramientas de interpretabilidad
Democratización: Reduce significativamente barreras de participación en investigación de interpretabilidad
Estandarización: Proporciona arquitectura de referencia para integración de herramientas de interpretabilidad
KnowThyself es un trabajo de carácter pionero que integra exitosamente herramientas fragmentadas de interpretabilidad de LLM en una plataforma conversacional unificada. Su arquitectura multiagéntica y diseño modular demuestran buenas prácticas de ingeniería, y la interacción conversacional reduce significativamente las barreras técnicas.
El valor principal radica en su orientación práctica y escalabilidad, proporcionando una solución viable para la democratización de herramientas de interpretabilidad. Como artículo de demostración de AAAI, demuestra exitosamente la viabilidad y potencial del sistema.
El principal lamento es la falta de evaluación cuantitativa suficiente e investigación con usuarios, imposibilitando validación completa de la efectividad del sistema en escenarios reales. Si trabajos futuros pueden complementar estas evaluaciones, aumentará significativamente la persuasión del artículo.
En general, este es un artículo de sistema de alta calidad que proporciona herramientas y perspectivas valiosas para investigación y aplicación de interpretabilidad de LLM, merecedor de atención y desarrollo adicional.