Discursive Circuits: How Do Language Models Understand Discourse Relations?
Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
academic
Circuits Discursifs : Comment les Modèles de Langage Comprennent-ils les Relations Discursives ?
Cet article explore quels composants des modèles de langage transformer sont responsables de la compréhension du discours. Les auteurs émettent l'hypothèse que des graphes de calcul creux (appelés circuits discursifs) contrôlent la façon dont le modèle traite les relations discursives. Contrairement aux tâches simples, les relations discursives impliquent des portées textuelles plus longues et un raisonnement complexe. Pour rendre la découverte de circuits réalisable, les auteurs introduisent la tâche « Complétion Sous Relations Discursives » (CUDR), permettant au modèle de compléter un discours selon une relation spécifiée. Les expériences montrent que les circuits creux (représentant environ 0,2 % du modèle GPT-2) peuvent récupérer les capacités de compréhension discursive dans la tâche CUDR basée sur PDTB et se généralisent bien à des cadres discursifs non vus tels que RST et SDRT.
La structure discursive est cruciale pour assurer un comportement sûr et éthique des modèles de langage, mais peu de choses sont connues sur la façon dont les modèles de langage traitent le discours en interne, ce qui limite notre capacité à garantir la fiabilité et l'innocuité des résultats du modèle.
Visualisation de l'attention et génération de justifications manquent d'explications mécanistes
Les méthodes existantes de découverte de circuits se concentrent principalement sur des tâches simples (comme la comparaison numérique) et s'adaptent difficilement aux relations discursives
Absence de compréhension unifiée entre cadres: Manque de comparaisons au niveau mécaniste entre différents cadres discursifs
Créer un pont entre la structure linguistique du discours et les exigences de la découverte de circuits, ouvrant une nouvelle voie pour comprendre les mécanismes des tâches linguistiques complexes.
Proposition de la tâche CUDR: Conception d'une tâche de complétion de relations discursives adaptée à la découverte de circuits
Construction d'ensembles de données multi-cadres: Couvrant les principaux cadres discursifs PDTB, RST, SDRT, avec 27 754 instances au total
Découverte de circuits discursifs: Identification de circuits creux représentant seulement 0,2 % des connexions du modèle mais atteignant 90 % de fidélité
Généralisation entre cadres: Démonstration que les circuits appris à partir de PDTB se généralisent bien à d'autres cadres discursifs
Construction d'une hiérarchie de circuits: Première construction d'une hiérarchie discursive basée sur les composants de circuits neuronaux
Analyse des caractéristiques linguistiques: Révélation des caractéristiques linguistiques capturées à différents niveaux et leur cohérence entre cadres
Veuillez choisir l'une des deux options suivantes pour compléter le discours :
Option 1 : « il va à la cafétéria »
Option 2 : « la cafétéria est fermée »
À compléter : [Bob a faim]_{Arg1} [donc]_{Conn} → [il va à la cafétéria]_{Arg2}
En changeant le connecteur discursif (de « donc » à « mais »), la prédiction du modèle devrait changer en conséquence.
Utiliser une approximation de Taylor du premier ordre pour accélérer le calcul :
g(e)≈(zuori−zucf)T∇vL(xcf)
où zuori et zucf sont respectivement les activations du nœud u dans les exécutions originale et contrefactuelle, et ∇vL(xcf) est le gradient au nœud v.
L'analyse des cas d'erreur révèle les insuffisances des circuits PDTB dans le traitement des interjections (« yay!! ») et de l'omission de sujet, tandis que les circuits SDRT gèrent mieux ces phénomènes.
L'article cite des travaux connexes riches, notamment :
Littérature classique en théorie discursive : Mann & Thompson (1987), Asher & Lascarides (2003)
Méthodes de découverte de circuits : Wang et al. (2023), Conmy et al. (2023)
Ensembles de données discursifs : Webber et al. (2019), Liu et al. (2024b)
Interprétabilité mécaniste : Zhang & Nanda (2024), Miller et al. (2024)
Évaluation Globale: Cet article est un travail de recherche de haute qualité, excellent en termes d'innovation méthodologique, de conception expérimentale et de profondeur d'analyse. Grâce à la conception ingénieuse de la tâche CUDR, il applique avec succès la technique de découverte de circuits à la tâche complexe de compréhension discursive, offrant une nouvelle perspective pour comprendre les mécanismes internes des modèles de langage. Malgré certaines limitations, son travail novateur et ses découvertes riches lui confèrent une valeur académique importante et un potentiel pratique considérable.