2025-11-23T12:04:17.035274

Discursive Circuits: How Do Language Models Understand Discourse Relations?

Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
academic

Circuits Discursifs : Comment les Modèles de Langage Comprennent-ils les Relations Discursives ?

Informations Fondamentales

  • ID de l'article: 2510.11210
  • Titre: Discursive Circuits: How Do Language Models Understand Discourse Relations?
  • Auteurs: Yisong Miao, Min-Yen Kan (Université Nationale de Singapour)
  • Classification: cs.CL (Linguistique Informatique), cs.LG (Apprentissage Automatique)
  • Date de publication: 13 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.11210

Résumé

Cet article explore quels composants des modèles de langage transformer sont responsables de la compréhension du discours. Les auteurs émettent l'hypothèse que des graphes de calcul creux (appelés circuits discursifs) contrôlent la façon dont le modèle traite les relations discursives. Contrairement aux tâches simples, les relations discursives impliquent des portées textuelles plus longues et un raisonnement complexe. Pour rendre la découverte de circuits réalisable, les auteurs introduisent la tâche « Complétion Sous Relations Discursives » (CUDR), permettant au modèle de compléter un discours selon une relation spécifiée. Les expériences montrent que les circuits creux (représentant environ 0,2 % du modèle GPT-2) peuvent récupérer les capacités de compréhension discursive dans la tâche CUDR basée sur PDTB et se généralisent bien à des cadres discursifs non vus tels que RST et SDRT.

Contexte et Motivation de la Recherche

Définition du Problème

La structure discursive est cruciale pour assurer un comportement sûr et éthique des modèles de langage, mais peu de choses sont connues sur la façon dont les modèles de langage traitent le discours en interne, ce qui limite notre capacité à garantir la fiabilité et l'innocuité des résultats du modèle.

Importance de la Recherche

  1. Exigences de sécurité: La compréhension discursive est essentielle pour le comportement sûr et éthique du modèle
  2. Absence d'interprétabilité: Les méthodes existantes manquent d'une compréhension approfondie des mécanismes de traitement du discours
  3. Défis de complexité: Les relations discursives impliquent des contextes plus longs et un raisonnement plus complexe que les tâches simples

Limitations des Approches Existantes

  1. Visualisation de l'attention et génération de justifications manquent d'explications mécanistes
  2. Les méthodes existantes de découverte de circuits se concentrent principalement sur des tâches simples (comme la comparaison numérique) et s'adaptent difficilement aux relations discursives
  3. Absence de compréhension unifiée entre cadres: Manque de comparaisons au niveau mécaniste entre différents cadres discursifs

Motivation de la Recherche

Créer un pont entre la structure linguistique du discours et les exigences de la découverte de circuits, ouvrant une nouvelle voie pour comprendre les mécanismes des tâches linguistiques complexes.

Contributions Principales

  1. Proposition de la tâche CUDR: Conception d'une tâche de complétion de relations discursives adaptée à la découverte de circuits
  2. Construction d'ensembles de données multi-cadres: Couvrant les principaux cadres discursifs PDTB, RST, SDRT, avec 27 754 instances au total
  3. Découverte de circuits discursifs: Identification de circuits creux représentant seulement 0,2 % des connexions du modèle mais atteignant 90 % de fidélité
  4. Généralisation entre cadres: Démonstration que les circuits appris à partir de PDTB se généralisent bien à d'autres cadres discursifs
  5. Construction d'une hiérarchie de circuits: Première construction d'une hiérarchie discursive basée sur les composants de circuits neuronaux
  6. Analyse des caractéristiques linguistiques: Révélation des caractéristiques linguistiques capturées à différents niveaux et leur cohérence entre cadres

Détails de la Méthode

Définition de la Tâche : CUDR (Complétion Sous Relations Discursives)

La tâche CUDR crée un environnement contrôlé pour tester le comportement discursif du modèle :

Format d'entrée :

  • Discours original : dori=(Arg1,Arg2,R,Conn)d_{ori} = (Arg1, Arg2, R, Conn)
  • Discours contrefactuel : dcf=(Arg1,Arg2,R,Conn)d_{cf} = (Arg1, Arg'_2, R', Conn')

Configuration de la tâche :

Veuillez choisir l'une des deux options suivantes pour compléter le discours :
Option 1 : « il va à la cafétéria »
Option 2 : « la cafétéria est fermée »

À compléter : [Bob a faim]_{Arg1} [donc]_{Conn} → [il va à la cafétéria]_{Arg2}

En changeant le connecteur discursif (de « donc » à « mais »), la prédiction du modèle devrait changer en conséquence.

Méthode de Découverte de Circuits

Modification d'Activation (Activation Patching)

Définir l'impact de l'arête ee comme : g(e)=L(xcfdo(E=eori))L(xcf)g(e) = L(x_{cf}|do(E = e_{ori})) - L(x_{cf})

LL est la métrique d'évaluation, xcfx_{cf} est l'entrée contrefactuelle, et eorie_{ori} est l'activation de l'exécution originale.

Modification d'Attribution d'Arête (Edge Attribution Patching)

Utiliser une approximation de Taylor du premier ordre pour accélérer le calcul : g(e)(zuorizucf)TvL(xcf)g(e) \approx (z^{ori}_u - z^{cf}_u)^T \nabla_v L(x_{cf})

zuoriz^{ori}_u et zucfz^{cf}_u sont respectivement les activations du nœud uu dans les exécutions originale et contrefactuelle, et vL(xcf)\nabla_v L(x_{cf}) est le gradient au nœud vv.

Construction de Circuits Discursifs

  1. Appliquer la modification d'attribution à un ensemble d'échantillons pour une relation discursive donnée
  2. Calculer la valeur moyenne de g(e)g(e) pour chaque arête
  3. Sélectionner les 1 000 arêtes avec les valeurs absolues les plus élevées pour former le circuit

Construction de l'Ensemble de Données

Couverture Multi-Cadres

Cadre DiscursifNombre de RelationsDonnées CUDR
PDTB1311 843
GDTB125 253
GUM-RST176 805
SDRT103 853
Total5227 754

Stratégie de Génération Contrefactuelle

Utiliser GPT-4o-mini pour générer des contrefactuels Arg2Arg'_2, en assurant :

  1. La cohérence avec Arg1Arg1 original et le connecteur contrefactuel ConnConn'
  2. La correspondance de longueur avec Arg2Arg2 original
  3. L'expression claire et saillante de la relation

Configuration Expérimentale

Sélection du Modèle

  • Modèle principal: GPT-2 medium (suivant le choix standard de la recherche existante sur la découverte de circuits)
  • Validation étendue: GPT-2 large

Métriques d'Évaluation

  • Score de fidélité: ΔLpatchΔLfull\frac{\Delta L_{patch}}{\Delta L_{full}} (fidélité normalisée)
  • Différence logique: ΔL=L(Arg2)L(Arg2)\Delta L = L(Arg2) - L(Arg'_2)

Méthodes de Base

  1. Circuit aléatoire: Arêtes de transformer échantillonnées aléatoirement
  2. Circuit IOI: Circuit de reconnaissance d'objet indirect (représentant les capacités générales de modélisation du langage)

Hiérarchie de Circuits

Construction d'une hiérarchie de circuits au style PDTB :

  • L3: Relations de nœud feuille (1 000 arêtes)
  • L2: Fusion de plusieurs circuits L3 (500+ arêtes)
  • L1: Circuits de catégorie de niveau supérieur (200-500 arêtes)
  • L0: Méta-circuits (137 arêtes)

Résultats Expérimentaux

Résultats Principaux

RQ1 : Fidélité des Circuits Discursifs

  • Fidélité forte: Les circuits L3 et L1 atteignent 90 % de fidélité avec seulement environ 200 arêtes
  • Supériorité par rapport aux bases: Dépassement significatif des bases aléatoires et IOI
  • Effet hiérarchique: Les circuits à granularité fine (L3) sont plus efficaces aux premiers stades, mais avec une variance plus grande

RQ2 : Capacité de Généralisation Entre Cadres

  • Bonne généralisation: Les circuits PDTB se généralisent efficacement à GDTB, RST, SDRT
  • Classement des performances: Own > L3 > L1 ≈ L0 > IOI > Random (tendance cohérente)
  • Chevauchement de circuits: Le chevauchement de circuits entre cadres est positivement corrélé aux performances (par exemple, PDTB→GDTB: r=0,44)

RQ3 : Analyse des Caractéristiques Linguistiques

Découverte de cinq modèles d'utilisation de caractéristiques linguistiques clés :

  1. Modalité (modality): Utilisation la plus large
  2. Synonymie (synonymy): Plus courante que l'antonymie
  3. Négation (negation): Utilisation cohérente entre cadres
  4. Antonymie (antonymy): Plus faible dans les relations causales et temporelles
  5. Coréférence (coreference): Plus active dans les relations de classe étendue

Analyse Hiérarchique

  • Niveaux bas: Capturent les caractéristiques linguistiques (sémantique lexicale, coréférence)
  • Niveaux hauts: Encodent les abstractions au niveau discursif
  • Régions spécialisées au discours: Les couches source 8-16 et les couches cible 10-20 contiennent des arêtes spécialisées au discours

Étude de Cas

L'analyse des cas d'erreur révèle les insuffisances des circuits PDTB dans le traitement des interjections (« yay!! ») et de l'omission de sujet, tandis que les circuits SDRT gèrent mieux ces phénomènes.

Travaux Connexes

Modélisation du Discours

  • Développement des cadres: Trois cadres principaux : PDTB, RST, SDRT
  • Efforts d'unification: Benchmark DISRPT, conversion automatique de cadres, etc.
  • Méthodes d'évaluation: Évaluation basée sur les questions, génération de données synthétiques

Interprétabilité Mécaniste

  • Découverte de circuits: Applications principales aux tâches simples (IOI, comparaison numérique, accord sujet-verbe, etc.)
  • Limitations des méthodes: Les méthodes existantes ont du mal à traiter les phénomènes discursifs complexes
  • Contribution de cet article: Première application de la découverte de circuits à la compréhension discursive

Conclusions et Discussion

Conclusions Principales

  1. Efficacité des circuits creux: Seulement 0,2 % des connexions du modèle suffisent pour réaliser la compréhension discursive
  2. Cohérence entre cadres: Les modèles de langage peuvent encoder une représentation partagée des relations discursives
  3. Traitement hiérarchique: Les niveaux bas traitent les caractéristiques linguistiques, les niveaux hauts traitent les abstractions discursives
  4. Cohérence des caractéristiques: L'utilité des caractéristiques linguistiques reste cohérente entre cadres

Limitations

  1. Limitation linguistique: Étude limitée aux corpus en anglais
  2. Portée du modèle: Concentration principale sur un modèle transformer unique
  3. Comparaison avec le cerveau humain: Absence de comparaison avec les mécanismes de traitement discursif humain
  4. Qualité des données: Les données contrefactuelles générées sont relativement simples et directes

Directions Futures

  1. Extension multilingue: Exploration de la cohérence des circuits discursifs entre langues
  2. Scénarios complexes: Extension à des styles discursifs et des scénarios d'ambiguïté plus complexes
  3. Orientation applicative: Utilisation pour la détection de biais et l'orientation du modèle
  4. Extension architecturale: Adaptation aux modèles de langage de plus grande taille

Évaluation Approfondie

Points Forts

  1. Innovation forte: Première application de la découverte de circuits à la tâche complexe de compréhension discursive
  2. Méthodologie rigoureuse: Conception ingénieuse de la tâche CUDR, soutenant efficacement la modification d'activation
  3. Couverture complète: Couverture de plusieurs cadres discursifs principaux, ensemble de données de taille considérable
  4. Analyse approfondie: Analyse multidimensionnelle allant de la hiérarchie des circuits aux caractéristiques linguistiques
  5. Bonne généralisation: Les résultats de généralisation entre cadres sont convaincants

Insuffisances

  1. Complexité computationnelle: Le processus de découverte de circuits est intensif en calcul, difficile à étendre à des modèles plus grands
  2. Dépendance aux données: Dépendance à la génération de données contrefactuelles par LLM, pouvant introduire des biais
  3. Limitations d'évaluation: Basée principalement sur une architecture de modèle unique, la généralisation reste à vérifier
  4. Profondeur théorique: Absence d'explication théorique sur les raisons de l'efficacité de ces circuits

Impact

  1. Valeur académique: Ouverture d'une nouvelle direction pour la recherche mécaniste sur la compréhension discursive
  2. Potentiel pratique: Utilisation possible pour le débogage de modèles, la détection de biais, etc.
  3. Contribution méthodologique: Le paradigme CUDR peut être généralisé à d'autres tâches NLP complexes
  4. Signification interdisciplinaire: Connexion entre la linguistique informatique et la recherche en interprétabilité mécaniste

Scénarios d'Application

  1. Analyse de modèles: Compréhension des mécanismes de traitement discursif des grands modèles de langage
  2. Détection de sécurité: Identification des biais potentiels du modèle dans la compréhension discursive
  3. Amélioration de modèles: Orientation de l'amélioration ciblée des capacités de compréhension discursive
  4. Recherche éducative: Fourniture d'une perspective computationnelle pour la validation de la théorie discursive

Références

L'article cite des travaux connexes riches, notamment :

  • Littérature classique en théorie discursive : Mann & Thompson (1987), Asher & Lascarides (2003)
  • Méthodes de découverte de circuits : Wang et al. (2023), Conmy et al. (2023)
  • Ensembles de données discursifs : Webber et al. (2019), Liu et al. (2024b)
  • Interprétabilité mécaniste : Zhang & Nanda (2024), Miller et al. (2024)

Évaluation Globale: Cet article est un travail de recherche de haute qualité, excellent en termes d'innovation méthodologique, de conception expérimentale et de profondeur d'analyse. Grâce à la conception ingénieuse de la tâche CUDR, il applique avec succès la technique de découverte de circuits à la tâche complexe de compréhension discursive, offrant une nouvelle perspective pour comprendre les mécanismes internes des modèles de langage. Malgré certaines limitations, son travail novateur et ses découvertes riches lui confèrent une valeur académique importante et un potentiel pratique considérable.