2025-11-23T12:04:17.035274

Discursive Circuits: How Do Language Models Understand Discourse Relations?

Miao, Kan

Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).

academic

Circuits Discursifs : Comment les Modèles de Langage Comprennent-ils les Relations Discursives ?

Informations Fondamentales

ID de l'article: 2510.11210
Titre: Discursive Circuits: How Do Language Models Understand Discourse Relations?
Auteurs: Yisong Miao, Min-Yen Kan (Université Nationale de Singapour)
Classification: cs.CL (Linguistique Informatique), cs.LG (Apprentissage Automatique)
Date de publication: 13 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.11210

Résumé

Cet article explore quels composants des modèles de langage transformer sont responsables de la compréhension du discours. Les auteurs émettent l'hypothèse que des graphes de calcul creux (appelés circuits discursifs) contrôlent la façon dont le modèle traite les relations discursives. Contrairement aux tâches simples, les relations discursives impliquent des portées textuelles plus longues et un raisonnement complexe. Pour rendre la découverte de circuits réalisable, les auteurs introduisent la tâche « Complétion Sous Relations Discursives » (CUDR), permettant au modèle de compléter un discours selon une relation spécifiée. Les expériences montrent que les circuits creux (représentant environ 0,2 % du modèle GPT-2) peuvent récupérer les capacités de compréhension discursive dans la tâche CUDR basée sur PDTB et se généralisent bien à des cadres discursifs non vus tels que RST et SDRT.

Contexte et Motivation de la Recherche

Définition du Problème

La structure discursive est cruciale pour assurer un comportement sûr et éthique des modèles de langage, mais peu de choses sont connues sur la façon dont les modèles de langage traitent le discours en interne, ce qui limite notre capacité à garantir la fiabilité et l'innocuité des résultats du modèle.

Importance de la Recherche

Exigences de sécurité: La compréhension discursive est essentielle pour le comportement sûr et éthique du modèle
Absence d'interprétabilité: Les méthodes existantes manquent d'une compréhension approfondie des mécanismes de traitement du discours
Défis de complexité: Les relations discursives impliquent des contextes plus longs et un raisonnement plus complexe que les tâches simples

Limitations des Approches Existantes

Visualisation de l'attention et génération de justifications manquent d'explications mécanistes
Les méthodes existantes de découverte de circuits se concentrent principalement sur des tâches simples (comme la comparaison numérique) et s'adaptent difficilement aux relations discursives
Absence de compréhension unifiée entre cadres: Manque de comparaisons au niveau mécaniste entre différents cadres discursifs

Motivation de la Recherche

Créer un pont entre la structure linguistique du discours et les exigences de la découverte de circuits, ouvrant une nouvelle voie pour comprendre les mécanismes des tâches linguistiques complexes.

Contributions Principales

Proposition de la tâche CUDR: Conception d'une tâche de complétion de relations discursives adaptée à la découverte de circuits
Construction d'ensembles de données multi-cadres: Couvrant les principaux cadres discursifs PDTB, RST, SDRT, avec 27 754 instances au total
Découverte de circuits discursifs: Identification de circuits creux représentant seulement 0,2 % des connexions du modèle mais atteignant 90 % de fidélité
Généralisation entre cadres: Démonstration que les circuits appris à partir de PDTB se généralisent bien à d'autres cadres discursifs
Construction d'une hiérarchie de circuits: Première construction d'une hiérarchie discursive basée sur les composants de circuits neuronaux
Analyse des caractéristiques linguistiques: Révélation des caractéristiques linguistiques capturées à différents niveaux et leur cohérence entre cadres

Détails de la Méthode

Définition de la Tâche : CUDR (Complétion Sous Relations Discursives)

La tâche CUDR crée un environnement contrôlé pour tester le comportement discursif du modèle :

Format d'entrée :

Discours original : $d_{ori} = (Arg1, Arg2, R, Conn)$
Discours contrefactuel : $d_{cf} = (Arg1, Arg'_2, R', Conn')$

Configuration de la tâche :

Veuillez choisir l'une des deux options suivantes pour compléter le discours :
Option 1 : « il va à la cafétéria »
Option 2 : « la cafétéria est fermée »

À compléter : [Bob a faim]_{Arg1} [donc]_{Conn} → [il va à la cafétéria]_{Arg2}

En changeant le connecteur discursif (de « donc » à « mais »), la prédiction du modèle devrait changer en conséquence.

Méthode de Découverte de Circuits

Modification d'Activation (Activation Patching)

Définir l'impact de l'arête $e$ comme : $g(e) = L(x_{cf}|do(E = e_{ori})) - L(x_{cf})$

où $L$ est la métrique d'évaluation, $x_{cf}$ est l'entrée contrefactuelle, et $e_{ori}$ est l'activation de l'exécution originale.

Modification d'Attribution d'Arête (Edge Attribution Patching)

Utiliser une approximation de Taylor du premier ordre pour accélérer le calcul : $g(e) \approx (z^{ori}_u - z^{cf}_u)^T \nabla_v L(x_{cf})$

où $z^{ori}_u$ et $z^{cf}_u$ sont respectivement les activations du nœud $u$ dans les exécutions originale et contrefactuelle, et $\nabla_v L(x_{cf})$ est le gradient au nœud $v$ .

Construction de Circuits Discursifs

Appliquer la modification d'attribution à un ensemble d'échantillons pour une relation discursive donnée
Calculer la valeur moyenne de $g(e)$ pour chaque arête
Sélectionner les 1 000 arêtes avec les valeurs absolues les plus élevées pour former le circuit

Construction de l'Ensemble de Données

Couverture Multi-Cadres

Cadre Discursif	Nombre de Relations	Données CUDR
PDTB	13	11 843
GDTB	12	5 253
GUM-RST	17	6 805
SDRT	10	3 853
Total	52	27 754

Stratégie de Génération Contrefactuelle

Utiliser GPT-4o-mini pour générer des contrefactuels $Arg'_2$ , en assurant :

La cohérence avec $Arg1$ original et le connecteur contrefactuel $Conn'$
La correspondance de longueur avec $Arg2$ original
L'expression claire et saillante de la relation

Configuration Expérimentale

Sélection du Modèle

Modèle principal: GPT-2 medium (suivant le choix standard de la recherche existante sur la découverte de circuits)
Validation étendue: GPT-2 large

Métriques d'Évaluation

Score de fidélité: $\frac{\Delta L_{patch}}{\Delta L_{full}}$ (fidélité normalisée)
Différence logique: $\Delta L = L(Arg2) - L(Arg'_2)$

Méthodes de Base

Circuit aléatoire: Arêtes de transformer échantillonnées aléatoirement
Circuit IOI: Circuit de reconnaissance d'objet indirect (représentant les capacités générales de modélisation du langage)

Hiérarchie de Circuits

Construction d'une hiérarchie de circuits au style PDTB :

L3: Relations de nœud feuille (1 000 arêtes)
L2: Fusion de plusieurs circuits L3 (500+ arêtes)
L1: Circuits de catégorie de niveau supérieur (200-500 arêtes)
L0: Méta-circuits (137 arêtes)

Résultats Expérimentaux

Résultats Principaux

RQ1 : Fidélité des Circuits Discursifs

Fidélité forte: Les circuits L3 et L1 atteignent 90 % de fidélité avec seulement environ 200 arêtes
Supériorité par rapport aux bases: Dépassement significatif des bases aléatoires et IOI
Effet hiérarchique: Les circuits à granularité fine (L3) sont plus efficaces aux premiers stades, mais avec une variance plus grande

RQ2 : Capacité de Généralisation Entre Cadres

Bonne généralisation: Les circuits PDTB se généralisent efficacement à GDTB, RST, SDRT
Classement des performances: Own > L3 > L1 ≈ L0 > IOI > Random (tendance cohérente)
Chevauchement de circuits: Le chevauchement de circuits entre cadres est positivement corrélé aux performances (par exemple, PDTB→GDTB: r=0,44)

RQ3 : Analyse des Caractéristiques Linguistiques

Découverte de cinq modèles d'utilisation de caractéristiques linguistiques clés :

Modalité (modality): Utilisation la plus large
Synonymie (synonymy): Plus courante que l'antonymie
Négation (negation): Utilisation cohérente entre cadres
Antonymie (antonymy): Plus faible dans les relations causales et temporelles
Coréférence (coreference): Plus active dans les relations de classe étendue

Analyse Hiérarchique

Niveaux bas: Capturent les caractéristiques linguistiques (sémantique lexicale, coréférence)
Niveaux hauts: Encodent les abstractions au niveau discursif
Régions spécialisées au discours: Les couches source 8-16 et les couches cible 10-20 contiennent des arêtes spécialisées au discours

Étude de Cas

L'analyse des cas d'erreur révèle les insuffisances des circuits PDTB dans le traitement des interjections (« yay!! ») et de l'omission de sujet, tandis que les circuits SDRT gèrent mieux ces phénomènes.

Travaux Connexes

Modélisation du Discours

Développement des cadres: Trois cadres principaux : PDTB, RST, SDRT
Efforts d'unification: Benchmark DISRPT, conversion automatique de cadres, etc.
Méthodes d'évaluation: Évaluation basée sur les questions, génération de données synthétiques

Interprétabilité Mécaniste

Découverte de circuits: Applications principales aux tâches simples (IOI, comparaison numérique, accord sujet-verbe, etc.)
Limitations des méthodes: Les méthodes existantes ont du mal à traiter les phénomènes discursifs complexes
Contribution de cet article: Première application de la découverte de circuits à la compréhension discursive

Conclusions et Discussion

Conclusions Principales

Efficacité des circuits creux: Seulement 0,2 % des connexions du modèle suffisent pour réaliser la compréhension discursive
Cohérence entre cadres: Les modèles de langage peuvent encoder une représentation partagée des relations discursives
Traitement hiérarchique: Les niveaux bas traitent les caractéristiques linguistiques, les niveaux hauts traitent les abstractions discursives
Cohérence des caractéristiques: L'utilité des caractéristiques linguistiques reste cohérente entre cadres

Limitations

Limitation linguistique: Étude limitée aux corpus en anglais
Portée du modèle: Concentration principale sur un modèle transformer unique
Comparaison avec le cerveau humain: Absence de comparaison avec les mécanismes de traitement discursif humain
Qualité des données: Les données contrefactuelles générées sont relativement simples et directes

Directions Futures

Extension multilingue: Exploration de la cohérence des circuits discursifs entre langues
Scénarios complexes: Extension à des styles discursifs et des scénarios d'ambiguïté plus complexes
Orientation applicative: Utilisation pour la détection de biais et l'orientation du modèle
Extension architecturale: Adaptation aux modèles de langage de plus grande taille

Évaluation Approfondie

Points Forts

Innovation forte: Première application de la découverte de circuits à la tâche complexe de compréhension discursive
Méthodologie rigoureuse: Conception ingénieuse de la tâche CUDR, soutenant efficacement la modification d'activation
Couverture complète: Couverture de plusieurs cadres discursifs principaux, ensemble de données de taille considérable
Analyse approfondie: Analyse multidimensionnelle allant de la hiérarchie des circuits aux caractéristiques linguistiques
Bonne généralisation: Les résultats de généralisation entre cadres sont convaincants

Insuffisances

Complexité computationnelle: Le processus de découverte de circuits est intensif en calcul, difficile à étendre à des modèles plus grands
Dépendance aux données: Dépendance à la génération de données contrefactuelles par LLM, pouvant introduire des biais
Limitations d'évaluation: Basée principalement sur une architecture de modèle unique, la généralisation reste à vérifier
Profondeur théorique: Absence d'explication théorique sur les raisons de l'efficacité de ces circuits

Impact

Valeur académique: Ouverture d'une nouvelle direction pour la recherche mécaniste sur la compréhension discursive
Potentiel pratique: Utilisation possible pour le débogage de modèles, la détection de biais, etc.
Contribution méthodologique: Le paradigme CUDR peut être généralisé à d'autres tâches NLP complexes
Signification interdisciplinaire: Connexion entre la linguistique informatique et la recherche en interprétabilité mécaniste

Scénarios d'Application

Analyse de modèles: Compréhension des mécanismes de traitement discursif des grands modèles de langage
Détection de sécurité: Identification des biais potentiels du modèle dans la compréhension discursive
Amélioration de modèles: Orientation de l'amélioration ciblée des capacités de compréhension discursive
Recherche éducative: Fourniture d'une perspective computationnelle pour la validation de la théorie discursive

Références

L'article cite des travaux connexes riches, notamment :

Littérature classique en théorie discursive : Mann & Thompson (1987), Asher & Lascarides (2003)
Méthodes de découverte de circuits : Wang et al. (2023), Conmy et al. (2023)
Ensembles de données discursifs : Webber et al. (2019), Liu et al. (2024b)
Interprétabilité mécaniste : Zhang & Nanda (2024), Miller et al. (2024)

Évaluation Globale: Cet article est un travail de recherche de haute qualité, excellent en termes d'innovation méthodologique, de conception expérimentale et de profondeur d'analyse. Grâce à la conception ingénieuse de la tâche CUDR, il applique avec succès la technique de découverte de circuits à la tâche complexe de compréhension discursive, offrant une nouvelle perspective pour comprendre les mécanismes internes des modèles de langage. Malgré certaines limitations, son travail novateur et ses découvertes riches lui confèrent une valeur académique importante et un potentiel pratique considérable.