2025-11-23T12:04:17.035274

Discursive Circuits: How Do Language Models Understand Discourse Relations?

Miao, Kan

Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).

academic

Circuitos Discursivos: ¿Cómo Comprenden los Modelos de Lenguaje las Relaciones Discursivas?

Información Básica

ID del Artículo: 2510.11210
Título: Discursive Circuits: How Do Language Models Understand Discourse Relations?
Autores: Yisong Miao, Min-Yen Kan (National University of Singapore)
Clasificación: cs.CL (Lingüística Computacional), cs.LG (Aprendizaje Automático)
Fecha de Publicación: 13 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.11210

Resumen

Este artículo investiga qué componentes en los modelos de lenguaje transformer son responsables de la comprensión del discurso. Los autores plantean la hipótesis de que grafos computacionales dispersos (denominados circuitos discursivos) controlan cómo el modelo procesa las relaciones discursivas. A diferencia de tareas simples, las relaciones discursivas implican tramos de texto más largos y razonamiento complejo. Para hacer viable el descubrimiento de circuitos, los autores introducen la tarea de "Completación Bajo Relaciones Discursivas" (CUDR), que permite al modelo completar discursos bajo relaciones especificadas. Los experimentos demuestran que circuitos dispersos (aproximadamente el 0.2% del modelo GPT-2) pueden recuperar la capacidad de comprensión discursiva en tareas CUDR basadas en PDTB, y generalizan bien a marcos discursivos no vistos como RST y SDRT.

Contexto de Investigación y Motivación

Definición del Problema

La estructura discursiva es crucial para garantizar el comportamiento seguro y ético de los modelos de lenguaje, pero existe poco conocimiento sobre cómo los modelos de lenguaje procesan el discurso internamente, lo que limita nuestra capacidad de asegurar la confiabilidad y la producción inofensiva de los modelos.

Importancia de la Investigación

Requisitos de Seguridad: La comprensión discursiva es crítica para el comportamiento seguro y ético del modelo
Falta de Interpretabilidad: Los métodos existentes carecen de una comprensión profunda de los mecanismos de procesamiento discursivo
Desafíos de Complejidad: Las relaciones discursivas implican contextos más largos y razonamiento más complejo que tareas simples

Limitaciones de Métodos Existentes

Métodos como visualización de atención y generación de justificaciones carecen de explicaciones mecanísticas
Los métodos existentes de descubrimiento de circuitos se enfocaban principalmente en tareas simples (como comparación numérica), siendo difíciles de adaptar directamente a relaciones discursivas
Falta de comprensión unificada entre marcos: Ausencia de comparación a nivel mecanístico entre diferentes marcos discursivos

Motivación de la Investigación

Crear un nuevo camino para comprender los mecanismos de tareas lingüísticas complejas al conectar la estructura lingüística del discurso con los requisitos del descubrimiento de circuitos.

Contribuciones Principales

Propuesta de la Tarea CUDR: Diseño de una tarea de completación de relaciones discursivas adecuada para el descubrimiento de circuitos
Construcción de Conjunto de Datos Multimarco: Cobertura de marcos discursivos principales como PDTB, RST, SDRT, con 27,754 instancias en total
Descubrimiento de Circuitos Discursivos: Identificación de circuitos dispersos que representan solo el 0.2% de las conexiones del modelo pero alcanzan el 90% de fidelidad
Generalización Entre Marcos: Demostración de que los circuitos aprendidos de PDTB generalizan bien a otros marcos discursivos
Construcción de Jerarquía de Circuitos: Primera construcción de jerarquía discursiva basada en componentes de circuitos neuronales
Análisis de Características Lingüísticas: Revelación de características lingüísticas capturadas en diferentes niveles y su consistencia entre marcos

Explicación Detallada del Método

Definición de Tarea: CUDR (Completación Bajo Relaciones Discursivas)

La tarea CUDR crea un entorno controlado para probar el comportamiento discursivo del modelo:

Formato de Entrada:

Discurso original: $d_{ori} = (Arg1, Arg2, R, Conn)$
Discurso contrafáctico: $d_{cf} = (Arg1, Arg'_2, R', Conn')$

Configuración de la Tarea:

Por favor, seleccione una de las siguientes dos opciones para completar el discurso:
Opción 1: "va a la cafetería" 
Opción 2: "la cafetería está cerrada"

A completar: [Bob tiene hambre]_{Arg1} [así que]_{Conn} → [va a la cafetería]_{Arg2}

Al cambiar el conector discursivo (de "así que" a "pero"), las predicciones del modelo deberían cambiar correspondientemente.

Método de Descubrimiento de Circuitos

Parches de Activación (Activation Patching)

Se define el impacto de una arista $e$ como: $g(e) = L(x_{cf}|do(E = e_{ori})) - L(x_{cf})$

donde $L$ es la métrica de evaluación, $x_{cf}$ es la entrada contrafáctica, y $e_{ori}$ es la activación en la ejecución original.

Parches de Atribución de Aristas (Edge Attribution Patching)

Se utiliza aproximación de Taylor de primer orden para acelerar el cálculo: $g(e) \approx (z^{ori}_u - z^{cf}_u)^T \nabla_v L(x_{cf})$

donde $z^{ori}_u$ y $z^{cf}_u$ son las activaciones del nodo $u$ en las ejecuciones original y contrafáctica respectivamente, y $\nabla_v L(x_{cf})$ es el gradiente en el nodo $v$ .

Construcción de Circuitos Discursivos

Aplicar parches de atribución a un conjunto de muestras para una relación discursiva dada
Calcular el valor promedio de $g(e)$ para cada arista
Seleccionar las 1000 aristas con valores absolutos más altos para formar el circuito

Construcción del Conjunto de Datos

Cobertura Multimarco

Marco Discursivo	Cantidad de Relaciones	Cantidad de Datos CUDR
PDTB	13	11,843
GDTB	12	5,253
GUM-RST	17	6,805
SDRT	10	3,853
Total	52	27,754

Estrategia de Generación Contrafáctica

Se utiliza GPT-4o-mini para generar contrafácticos $Arg'_2$ , asegurando:

Consistencia con el $Arg1$ original y el conector contrafáctico $Conn'$
Coincidencia de longitud con el $Arg2$ original
Expresión clara y prominente de la relación

Configuración Experimental

Selección de Modelos

Modelo Principal: GPT-2 medium (siguiendo el estándar de investigación existente en descubrimiento de circuitos)
Validación Extendida: GPT-2 large

Métricas de Evaluación

Puntuación de Fidelidad: $\frac{\Delta L_{patch}}{\Delta L_{full}}$ (fidelidad normalizada)
Diferencia Lógica: $\Delta L = L(Arg2) - L(Arg'_2)$

Métodos de Referencia

Circuito Aleatorio: Aristas de transformer muestreadas aleatoriamente
Circuito IOI: Circuito de Identificación de Objeto Indirecto (representando capacidades generales de modelado de lenguaje)

Jerarquía de Circuitos

Construcción de jerarquía de circuitos al estilo PDTB:

L3: Relaciones de nodo hoja (1000 aristas)
L2: Fusión de múltiples circuitos L3 (500+ aristas)
L1: Circuitos de categoría de nivel superior (200-500 aristas)
L0: Metacircuito (137 aristas)

Resultados Experimentales

Resultados Principales

RQ1: Fidelidad de Circuitos Discursivos

Fidelidad Fuerte: Los circuitos L3 y L1 alcanzan el 90% de fidelidad con solo aproximadamente 200 aristas
Superioridad sobre Líneas Base: Superan significativamente las líneas base aleatoria e IOI
Efecto Jerárquico: Los circuitos de grano fino (L3) son más efectivos en etapas tempranas, pero con mayor varianza

RQ2: Capacidad de Generalización Entre Marcos

Buena Generalización: Los circuitos PDTB generalizan efectivamente a GDTB, RST, SDRT
Orden de Desempeño: Own > L3 > L1 ≈ L0 > IOI > Random (tendencia consistente)
Superposición de Circuitos: La superposición entre marcos se correlaciona positivamente con el desempeño (por ejemplo, PDTB→GDTB: r=0.44)

RQ3: Análisis de Características Lingüísticas

Se descubren patrones de uso de cinco características lingüísticas clave:

Modalidad (modality): Uso más generalizado
Sinonimia (synonymy): Más común que antonimia
Negación (negation): Uso consistente entre marcos
Antonimia (antonymy): Más débil en relaciones causales y temporales
Correferencia (coreference): Más activa en relaciones de clase extendida

Análisis Jerárquico

Niveles Bajos: Capturan características lingüísticas (semántica léxica, correferencia)
Niveles Altos: Codifican abstracciones a nivel discursivo
Regiones Específicas del Discurso: Las capas 8-16 de fuente y 10-20 de destino contienen aristas específicas del discurso

Análisis de Casos

El análisis de casos de error revela insuficiencias de los circuitos PDTB al procesar fenómenos como interjecciones ("¡yay!!") y omisión de sujeto, mientras que los circuitos SDRT manejan mejor estas situaciones.

Trabajo Relacionado

Modelado del Discurso

Desarrollo de Marcos: Tres marcos principales: PDTB, RST, SDRT
Esfuerzos de Unificación: Referencia DISRPT, conversión automática de marcos, etc.
Métodos de Evaluación: Evaluación basada en preguntas, generación de datos sintéticos

Interpretabilidad Mecanística

Descubrimiento de Circuitos: Aplicación principal a tareas simples (IOI, comparación numérica, concordancia sujeto-verbo, etc.)
Limitaciones de Métodos: Los métodos existentes tienen dificultades con fenómenos discursivos complejos
Contribución de Este Artículo: Primera aplicación del descubrimiento de circuitos a la comprensión discursiva

Conclusiones y Discusión

Conclusiones Principales

Efectividad Dispersa: Solo el 0.2% de las conexiones del modelo pueden implementar la comprensión discursiva
Consistencia Entre Marcos: Los modelos de lenguaje pueden codificar representaciones de relaciones discursivas compartidas
Procesamiento Jerárquico: Los niveles bajos procesan características lingüísticas, los niveles altos procesan abstracciones discursivas
Consistencia de Características: La utilidad de características lingüísticas se mantiene consistente entre marcos

Limitaciones

Restricción Lingüística: Solo se estudian corpus en inglés
Alcance del Modelo: Se enfoca principalmente en un único modelo transformer
Comparación con Cerebro Humano: No se compara con mecanismos de procesamiento discursivo humano
Calidad de Datos: Los datos contrafácticos generados son relativamente simples y directos

Direcciones Futuras

Extensión Multilingüe: Explorar la consistencia de circuitos discursivos entre idiomas
Escenarios Complejos: Extensión a estilos discursivos más complejos y escenarios ambiguos
Orientación Aplicada: Uso en detección de sesgos y guía de modelos
Extensión de Arquitectura: Adaptación a modelos de lenguaje de mayor escala

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera aplicación del descubrimiento de circuitos a tareas complejas de comprensión discursiva
Metodología Rigurosa: Diseño ingenioso de la tarea CUDR que respalda efectivamente los parches de activación
Cobertura Integral: Cobertura de múltiples marcos discursivos principales con conjunto de datos de escala considerable
Análisis Profundo: Análisis multidimensional desde jerarquía de circuitos hasta características lingüísticas
Buena Generalización: Resultados convincentes de generalización entre marcos

Deficiencias

Complejidad Computacional: El proceso de descubrimiento de circuitos es computacionalmente intensivo, difícil de escalar a modelos más grandes
Dependencia de Datos: Dependencia de datos contrafácticos generados por LLM, que pueden introducir sesgos
Limitaciones de Evaluación: Basada principalmente en una única arquitectura de modelo, con generalización pendiente de verificación
Profundidad Teórica: Falta de explicación teórica sobre por qué estos circuitos son efectivos

Impacto

Valor Académico: Abre nuevas direcciones para la investigación mecanística de la comprensión discursiva
Potencial Práctico: Aplicable a depuración de modelos, detección de sesgos, etc.
Contribución Metodológica: El paradigma CUDR puede generalizarse a otras tareas complejas de PNL
Significado Interdisciplinario: Conecta investigación en lingüística computacional e interpretabilidad mecanística

Escenarios Aplicables

Análisis de Modelos: Comprensión de mecanismos de procesamiento discursivo en modelos de lenguaje grandes
Detección de Seguridad: Identificación de sesgos potenciales en la comprensión discursiva del modelo
Mejora de Modelos: Orientación para mejora dirigida de capacidades de comprensión discursiva
Investigación Educativa: Proporcionar validación desde perspectiva computacional para teoría discursiva

Referencias

El artículo cita abundante trabajo relacionado, incluyendo:

Literatura clásica en teoría del discurso: Mann & Thompson (1987), Asher & Lascarides (2003)
Métodos de descubrimiento de circuitos: Wang et al. (2023), Conmy et al. (2023)
Conjuntos de datos discursivos: Webber et al. (2019), Liu et al. (2024b)
Interpretabilidad mecanística: Zhang & Nanda (2024), Miller et al. (2024)

Evaluación General: Este es un artículo de investigación de alta calidad que demuestra excelencia en innovación metodológica, diseño experimental y profundidad de análisis. Mediante el ingenioso diseño de la tarea CUDR, logra aplicar exitosamente la tecnología de descubrimiento de circuitos a la compleja tarea de comprensión discursiva, proporcionando una nueva perspectiva para comprender los mecanismos internos de los modelos de lenguaje. A pesar de algunas limitaciones, su trabajo pionero y hallazgos ricos le confieren importante valor académico y potencial práctico.