Discursive Circuits: How Do Language Models Understand Discourse Relations?
Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
academic
Circuitos Discursivos: ¿Cómo Comprenden los Modelos de Lenguaje las Relaciones Discursivas?
Este artículo investiga qué componentes en los modelos de lenguaje transformer son responsables de la comprensión del discurso. Los autores plantean la hipótesis de que grafos computacionales dispersos (denominados circuitos discursivos) controlan cómo el modelo procesa las relaciones discursivas. A diferencia de tareas simples, las relaciones discursivas implican tramos de texto más largos y razonamiento complejo. Para hacer viable el descubrimiento de circuitos, los autores introducen la tarea de "Completación Bajo Relaciones Discursivas" (CUDR), que permite al modelo completar discursos bajo relaciones especificadas. Los experimentos demuestran que circuitos dispersos (aproximadamente el 0.2% del modelo GPT-2) pueden recuperar la capacidad de comprensión discursiva en tareas CUDR basadas en PDTB, y generalizan bien a marcos discursivos no vistos como RST y SDRT.
La estructura discursiva es crucial para garantizar el comportamiento seguro y ético de los modelos de lenguaje, pero existe poco conocimiento sobre cómo los modelos de lenguaje procesan el discurso internamente, lo que limita nuestra capacidad de asegurar la confiabilidad y la producción inofensiva de los modelos.
Métodos como visualización de atención y generación de justificaciones carecen de explicaciones mecanísticas
Los métodos existentes de descubrimiento de circuitos se enfocaban principalmente en tareas simples (como comparación numérica), siendo difíciles de adaptar directamente a relaciones discursivas
Falta de comprensión unificada entre marcos: Ausencia de comparación a nivel mecanístico entre diferentes marcos discursivos
Crear un nuevo camino para comprender los mecanismos de tareas lingüísticas complejas al conectar la estructura lingüística del discurso con los requisitos del descubrimiento de circuitos.
Propuesta de la Tarea CUDR: Diseño de una tarea de completación de relaciones discursivas adecuada para el descubrimiento de circuitos
Construcción de Conjunto de Datos Multimarco: Cobertura de marcos discursivos principales como PDTB, RST, SDRT, con 27,754 instancias en total
Descubrimiento de Circuitos Discursivos: Identificación de circuitos dispersos que representan solo el 0.2% de las conexiones del modelo pero alcanzan el 90% de fidelidad
Generalización Entre Marcos: Demostración de que los circuitos aprendidos de PDTB generalizan bien a otros marcos discursivos
Construcción de Jerarquía de Circuitos: Primera construcción de jerarquía discursiva basada en componentes de circuitos neuronales
Análisis de Características Lingüísticas: Revelación de características lingüísticas capturadas en diferentes niveles y su consistencia entre marcos
Por favor, seleccione una de las siguientes dos opciones para completar el discurso:
Opción 1: "va a la cafetería"
Opción 2: "la cafetería está cerrada"
A completar: [Bob tiene hambre]_{Arg1} [así que]_{Conn} → [va a la cafetería]_{Arg2}
Al cambiar el conector discursivo (de "así que" a "pero"), las predicciones del modelo deberían cambiar correspondientemente.
Se utiliza aproximación de Taylor de primer orden para acelerar el cálculo:
g(e)≈(zuori−zucf)T∇vL(xcf)
donde zuori y zucf son las activaciones del nodo u en las ejecuciones original y contrafáctica respectivamente, y ∇vL(xcf) es el gradiente en el nodo v.
El análisis de casos de error revela insuficiencias de los circuitos PDTB al procesar fenómenos como interjecciones ("¡yay!!") y omisión de sujeto, mientras que los circuitos SDRT manejan mejor estas situaciones.
El artículo cita abundante trabajo relacionado, incluyendo:
Literatura clásica en teoría del discurso: Mann & Thompson (1987), Asher & Lascarides (2003)
Métodos de descubrimiento de circuitos: Wang et al. (2023), Conmy et al. (2023)
Conjuntos de datos discursivos: Webber et al. (2019), Liu et al. (2024b)
Interpretabilidad mecanística: Zhang & Nanda (2024), Miller et al. (2024)
Evaluación General: Este es un artículo de investigación de alta calidad que demuestra excelencia en innovación metodológica, diseño experimental y profundidad de análisis. Mediante el ingenioso diseño de la tarea CUDR, logra aplicar exitosamente la tecnología de descubrimiento de circuitos a la compleja tarea de comprensión discursiva, proporcionando una nueva perspectiva para comprender los mecanismos internos de los modelos de lenguaje. A pesar de algunas limitaciones, su trabajo pionero y hallazgos ricos le confieren importante valor académico y potencial práctico.