2025-11-23T12:04:17.035274

Discursive Circuits: How Do Language Models Understand Discourse Relations?

Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
academic

Circuitos Discursivos: ¿Cómo Comprenden los Modelos de Lenguaje las Relaciones Discursivas?

Información Básica

  • ID del Artículo: 2510.11210
  • Título: Discursive Circuits: How Do Language Models Understand Discourse Relations?
  • Autores: Yisong Miao, Min-Yen Kan (National University of Singapore)
  • Clasificación: cs.CL (Lingüística Computacional), cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 13 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11210

Resumen

Este artículo investiga qué componentes en los modelos de lenguaje transformer son responsables de la comprensión del discurso. Los autores plantean la hipótesis de que grafos computacionales dispersos (denominados circuitos discursivos) controlan cómo el modelo procesa las relaciones discursivas. A diferencia de tareas simples, las relaciones discursivas implican tramos de texto más largos y razonamiento complejo. Para hacer viable el descubrimiento de circuitos, los autores introducen la tarea de "Completación Bajo Relaciones Discursivas" (CUDR), que permite al modelo completar discursos bajo relaciones especificadas. Los experimentos demuestran que circuitos dispersos (aproximadamente el 0.2% del modelo GPT-2) pueden recuperar la capacidad de comprensión discursiva en tareas CUDR basadas en PDTB, y generalizan bien a marcos discursivos no vistos como RST y SDRT.

Contexto de Investigación y Motivación

Definición del Problema

La estructura discursiva es crucial para garantizar el comportamiento seguro y ético de los modelos de lenguaje, pero existe poco conocimiento sobre cómo los modelos de lenguaje procesan el discurso internamente, lo que limita nuestra capacidad de asegurar la confiabilidad y la producción inofensiva de los modelos.

Importancia de la Investigación

  1. Requisitos de Seguridad: La comprensión discursiva es crítica para el comportamiento seguro y ético del modelo
  2. Falta de Interpretabilidad: Los métodos existentes carecen de una comprensión profunda de los mecanismos de procesamiento discursivo
  3. Desafíos de Complejidad: Las relaciones discursivas implican contextos más largos y razonamiento más complejo que tareas simples

Limitaciones de Métodos Existentes

  1. Métodos como visualización de atención y generación de justificaciones carecen de explicaciones mecanísticas
  2. Los métodos existentes de descubrimiento de circuitos se enfocaban principalmente en tareas simples (como comparación numérica), siendo difíciles de adaptar directamente a relaciones discursivas
  3. Falta de comprensión unificada entre marcos: Ausencia de comparación a nivel mecanístico entre diferentes marcos discursivos

Motivación de la Investigación

Crear un nuevo camino para comprender los mecanismos de tareas lingüísticas complejas al conectar la estructura lingüística del discurso con los requisitos del descubrimiento de circuitos.

Contribuciones Principales

  1. Propuesta de la Tarea CUDR: Diseño de una tarea de completación de relaciones discursivas adecuada para el descubrimiento de circuitos
  2. Construcción de Conjunto de Datos Multimarco: Cobertura de marcos discursivos principales como PDTB, RST, SDRT, con 27,754 instancias en total
  3. Descubrimiento de Circuitos Discursivos: Identificación de circuitos dispersos que representan solo el 0.2% de las conexiones del modelo pero alcanzan el 90% de fidelidad
  4. Generalización Entre Marcos: Demostración de que los circuitos aprendidos de PDTB generalizan bien a otros marcos discursivos
  5. Construcción de Jerarquía de Circuitos: Primera construcción de jerarquía discursiva basada en componentes de circuitos neuronales
  6. Análisis de Características Lingüísticas: Revelación de características lingüísticas capturadas en diferentes niveles y su consistencia entre marcos

Explicación Detallada del Método

Definición de Tarea: CUDR (Completación Bajo Relaciones Discursivas)

La tarea CUDR crea un entorno controlado para probar el comportamiento discursivo del modelo:

Formato de Entrada:

  • Discurso original: dori=(Arg1,Arg2,R,Conn)d_{ori} = (Arg1, Arg2, R, Conn)
  • Discurso contrafáctico: dcf=(Arg1,Arg2,R,Conn)d_{cf} = (Arg1, Arg'_2, R', Conn')

Configuración de la Tarea:

Por favor, seleccione una de las siguientes dos opciones para completar el discurso:
Opción 1: "va a la cafetería" 
Opción 2: "la cafetería está cerrada"

A completar: [Bob tiene hambre]_{Arg1} [así que]_{Conn} → [va a la cafetería]_{Arg2}

Al cambiar el conector discursivo (de "así que" a "pero"), las predicciones del modelo deberían cambiar correspondientemente.

Método de Descubrimiento de Circuitos

Parches de Activación (Activation Patching)

Se define el impacto de una arista ee como: g(e)=L(xcfdo(E=eori))L(xcf)g(e) = L(x_{cf}|do(E = e_{ori})) - L(x_{cf})

donde LL es la métrica de evaluación, xcfx_{cf} es la entrada contrafáctica, y eorie_{ori} es la activación en la ejecución original.

Parches de Atribución de Aristas (Edge Attribution Patching)

Se utiliza aproximación de Taylor de primer orden para acelerar el cálculo: g(e)(zuorizucf)TvL(xcf)g(e) \approx (z^{ori}_u - z^{cf}_u)^T \nabla_v L(x_{cf})

donde zuoriz^{ori}_u y zucfz^{cf}_u son las activaciones del nodo uu en las ejecuciones original y contrafáctica respectivamente, y vL(xcf)\nabla_v L(x_{cf}) es el gradiente en el nodo vv.

Construcción de Circuitos Discursivos

  1. Aplicar parches de atribución a un conjunto de muestras para una relación discursiva dada
  2. Calcular el valor promedio de g(e)g(e) para cada arista
  3. Seleccionar las 1000 aristas con valores absolutos más altos para formar el circuito

Construcción del Conjunto de Datos

Cobertura Multimarco

Marco DiscursivoCantidad de RelacionesCantidad de Datos CUDR
PDTB1311,843
GDTB125,253
GUM-RST176,805
SDRT103,853
Total5227,754

Estrategia de Generación Contrafáctica

Se utiliza GPT-4o-mini para generar contrafácticos Arg2Arg'_2, asegurando:

  1. Consistencia con el Arg1Arg1 original y el conector contrafáctico ConnConn'
  2. Coincidencia de longitud con el Arg2Arg2 original
  3. Expresión clara y prominente de la relación

Configuración Experimental

Selección de Modelos

  • Modelo Principal: GPT-2 medium (siguiendo el estándar de investigación existente en descubrimiento de circuitos)
  • Validación Extendida: GPT-2 large

Métricas de Evaluación

  • Puntuación de Fidelidad: ΔLpatchΔLfull\frac{\Delta L_{patch}}{\Delta L_{full}} (fidelidad normalizada)
  • Diferencia Lógica: ΔL=L(Arg2)L(Arg2)\Delta L = L(Arg2) - L(Arg'_2)

Métodos de Referencia

  1. Circuito Aleatorio: Aristas de transformer muestreadas aleatoriamente
  2. Circuito IOI: Circuito de Identificación de Objeto Indirecto (representando capacidades generales de modelado de lenguaje)

Jerarquía de Circuitos

Construcción de jerarquía de circuitos al estilo PDTB:

  • L3: Relaciones de nodo hoja (1000 aristas)
  • L2: Fusión de múltiples circuitos L3 (500+ aristas)
  • L1: Circuitos de categoría de nivel superior (200-500 aristas)
  • L0: Metacircuito (137 aristas)

Resultados Experimentales

Resultados Principales

RQ1: Fidelidad de Circuitos Discursivos

  • Fidelidad Fuerte: Los circuitos L3 y L1 alcanzan el 90% de fidelidad con solo aproximadamente 200 aristas
  • Superioridad sobre Líneas Base: Superan significativamente las líneas base aleatoria e IOI
  • Efecto Jerárquico: Los circuitos de grano fino (L3) son más efectivos en etapas tempranas, pero con mayor varianza

RQ2: Capacidad de Generalización Entre Marcos

  • Buena Generalización: Los circuitos PDTB generalizan efectivamente a GDTB, RST, SDRT
  • Orden de Desempeño: Own > L3 > L1 ≈ L0 > IOI > Random (tendencia consistente)
  • Superposición de Circuitos: La superposición entre marcos se correlaciona positivamente con el desempeño (por ejemplo, PDTB→GDTB: r=0.44)

RQ3: Análisis de Características Lingüísticas

Se descubren patrones de uso de cinco características lingüísticas clave:

  1. Modalidad (modality): Uso más generalizado
  2. Sinonimia (synonymy): Más común que antonimia
  3. Negación (negation): Uso consistente entre marcos
  4. Antonimia (antonymy): Más débil en relaciones causales y temporales
  5. Correferencia (coreference): Más activa en relaciones de clase extendida

Análisis Jerárquico

  • Niveles Bajos: Capturan características lingüísticas (semántica léxica, correferencia)
  • Niveles Altos: Codifican abstracciones a nivel discursivo
  • Regiones Específicas del Discurso: Las capas 8-16 de fuente y 10-20 de destino contienen aristas específicas del discurso

Análisis de Casos

El análisis de casos de error revela insuficiencias de los circuitos PDTB al procesar fenómenos como interjecciones ("¡yay!!") y omisión de sujeto, mientras que los circuitos SDRT manejan mejor estas situaciones.

Trabajo Relacionado

Modelado del Discurso

  • Desarrollo de Marcos: Tres marcos principales: PDTB, RST, SDRT
  • Esfuerzos de Unificación: Referencia DISRPT, conversión automática de marcos, etc.
  • Métodos de Evaluación: Evaluación basada en preguntas, generación de datos sintéticos

Interpretabilidad Mecanística

  • Descubrimiento de Circuitos: Aplicación principal a tareas simples (IOI, comparación numérica, concordancia sujeto-verbo, etc.)
  • Limitaciones de Métodos: Los métodos existentes tienen dificultades con fenómenos discursivos complejos
  • Contribución de Este Artículo: Primera aplicación del descubrimiento de circuitos a la comprensión discursiva

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad Dispersa: Solo el 0.2% de las conexiones del modelo pueden implementar la comprensión discursiva
  2. Consistencia Entre Marcos: Los modelos de lenguaje pueden codificar representaciones de relaciones discursivas compartidas
  3. Procesamiento Jerárquico: Los niveles bajos procesan características lingüísticas, los niveles altos procesan abstracciones discursivas
  4. Consistencia de Características: La utilidad de características lingüísticas se mantiene consistente entre marcos

Limitaciones

  1. Restricción Lingüística: Solo se estudian corpus en inglés
  2. Alcance del Modelo: Se enfoca principalmente en un único modelo transformer
  3. Comparación con Cerebro Humano: No se compara con mecanismos de procesamiento discursivo humano
  4. Calidad de Datos: Los datos contrafácticos generados son relativamente simples y directos

Direcciones Futuras

  1. Extensión Multilingüe: Explorar la consistencia de circuitos discursivos entre idiomas
  2. Escenarios Complejos: Extensión a estilos discursivos más complejos y escenarios ambiguos
  3. Orientación Aplicada: Uso en detección de sesgos y guía de modelos
  4. Extensión de Arquitectura: Adaptación a modelos de lenguaje de mayor escala

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera aplicación del descubrimiento de circuitos a tareas complejas de comprensión discursiva
  2. Metodología Rigurosa: Diseño ingenioso de la tarea CUDR que respalda efectivamente los parches de activación
  3. Cobertura Integral: Cobertura de múltiples marcos discursivos principales con conjunto de datos de escala considerable
  4. Análisis Profundo: Análisis multidimensional desde jerarquía de circuitos hasta características lingüísticas
  5. Buena Generalización: Resultados convincentes de generalización entre marcos

Deficiencias

  1. Complejidad Computacional: El proceso de descubrimiento de circuitos es computacionalmente intensivo, difícil de escalar a modelos más grandes
  2. Dependencia de Datos: Dependencia de datos contrafácticos generados por LLM, que pueden introducir sesgos
  3. Limitaciones de Evaluación: Basada principalmente en una única arquitectura de modelo, con generalización pendiente de verificación
  4. Profundidad Teórica: Falta de explicación teórica sobre por qué estos circuitos son efectivos

Impacto

  1. Valor Académico: Abre nuevas direcciones para la investigación mecanística de la comprensión discursiva
  2. Potencial Práctico: Aplicable a depuración de modelos, detección de sesgos, etc.
  3. Contribución Metodológica: El paradigma CUDR puede generalizarse a otras tareas complejas de PNL
  4. Significado Interdisciplinario: Conecta investigación en lingüística computacional e interpretabilidad mecanística

Escenarios Aplicables

  1. Análisis de Modelos: Comprensión de mecanismos de procesamiento discursivo en modelos de lenguaje grandes
  2. Detección de Seguridad: Identificación de sesgos potenciales en la comprensión discursiva del modelo
  3. Mejora de Modelos: Orientación para mejora dirigida de capacidades de comprensión discursiva
  4. Investigación Educativa: Proporcionar validación desde perspectiva computacional para teoría discursiva

Referencias

El artículo cita abundante trabajo relacionado, incluyendo:

  • Literatura clásica en teoría del discurso: Mann & Thompson (1987), Asher & Lascarides (2003)
  • Métodos de descubrimiento de circuitos: Wang et al. (2023), Conmy et al. (2023)
  • Conjuntos de datos discursivos: Webber et al. (2019), Liu et al. (2024b)
  • Interpretabilidad mecanística: Zhang & Nanda (2024), Miller et al. (2024)

Evaluación General: Este es un artículo de investigación de alta calidad que demuestra excelencia en innovación metodológica, diseño experimental y profundidad de análisis. Mediante el ingenioso diseño de la tarea CUDR, logra aplicar exitosamente la tecnología de descubrimiento de circuitos a la compleja tarea de comprensión discursiva, proporcionando una nueva perspectiva para comprender los mecanismos internos de los modelos de lenguaje. A pesar de algunas limitaciones, su trabajo pionero y hallazgos ricos le confieren importante valor académico y potencial práctico.