Discursive Circuits: How Do Language Models Understand Discourse Relations?
Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
academic
Diskursive Schaltkreise: Wie verstehen Sprachmodelle Diskursrelationen?
Dieses Paper untersucht, welche Komponenten in Transformer-Sprachmodellen für das Diskursverständnis verantwortlich sind. Die Autoren gehen davon aus, dass spärliche Berechnungsgraphen (sogenannte Diskursschaltkreise) steuern, wie das Modell Diskursrelationen verarbeitet. Im Gegensatz zu einfachen Aufgaben beinhalten Diskursrelationen längere Textspannen und komplexe Schlussfolgerungen. Um die Schaltkreiserkennung praktikabel zu machen, führen die Autoren die Aufgabe „Completion Under Discourse Relations" (CUDR) ein, bei der das Modell einen Diskurs unter einer bestimmten Relation vervollständigt. Experimente zeigen, dass spärliche Schaltkreise (etwa 0,2% des GPT-2-Modells) die Diskursverständnisfähigkeit bei auf PDTB basierenden CUDR-Aufgaben wiederherstellen können und sich gut auf unbekannte Diskursrahmen wie RST und SDRT verallgemeinern lassen.
Die Diskursstruktur ist entscheidend für die Sicherheit und ethische Verhaltensweise von Sprachmodellen, doch es ist wenig über die interne Verarbeitung von Diskursen in Sprachmodellen bekannt. Dies schränkt unsere Fähigkeit ein, die Zuverlässigkeit und Schadlosigkeit der Modellausgaben zu gewährleisten.
Aufmerksamkeitsvisualisierung und Begründungsgenerierung ermangeln mechanistischer Erklärungen
Bestehende Schaltkreiserkennungsmethoden konzentrieren sich hauptsächlich auf einfache Aufgaben (z.B. numerische Vergleiche) und lassen sich nicht direkt auf Diskursrelationen anwenden
Fehlende einheitliche Verständigung über Rahmen: Mechanistische Vergleiche zwischen verschiedenen Diskursrahmen fehlen
Durch die Überbrückung der linguistischen Struktur von Diskursen und der Anforderungen der Schaltkreiserkennung neue Wege zum Verständnis der Mechanismen komplexer Sprachaufgaben eröffnen.
Bitte wählen Sie eine der folgenden zwei Optionen, um den Diskurs zu vervollständigen:
Option 1: "he goes to the canteen"
Option 2: "the canteen is closed"
Zu vervollständigen: [Bob is hungry]_{Arg1} [so]_{Conn} → [he goes to the canteen]_{Arg2}
Durch Änderung des Diskursverbinders (von „so" zu „but") sollten sich die Vorhersagen des Modells entsprechend ändern.
Beschleunigung der Berechnung durch Taylor-Approximation erster Ordnung:
g(e)≈(zuori−zucf)T∇vL(xcf)
wobei zuori und zucf die Aktivierungen des Knotens u in ursprünglichen bzw. kontrafaktischen Durchläufen sind und ∇vL(xcf) der Gradient am Knoten v ist.
Die Analyse fehlerhafter Fälle offenbart Unzulänglichkeiten der PDTB-Schaltkreise bei der Verarbeitung von Interjektionen („yay!!") und Subjektauslassungen, während SDRT-Schaltkreise diese Phänomene besser handhaben können.
Das Paper zitiert umfangreiche verwandte Arbeiten, darunter:
Klassische Diskurstheorie-Literatur: Mann & Thompson (1987), Asher & Lascarides (2003)
Schaltkreiserkennungsmethoden: Wang et al. (2023), Conmy et al. (2023)
Diskursdatensätze: Webber et al. (2019), Liu et al. (2024b)
Mechanistische Interpretierbarkeit: Zhang & Nanda (2024), Miller et al. (2024)
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspaper, das sich in methodischer Innovation, experimentellem Design und Analysentiefe auszeichnet. Durch den geschickten CUDR-Aufgabenentwurf gelang es erfolgreich, die Schaltkreiserkennungstechnik auf komplexe Diskursverständnisaufgaben anzuwenden und neue Perspektiven auf die internen Mechanismen von Sprachmodellen zu bieten. Trotz einiger Einschränkungen besitzt die bahnbrechende Arbeit und ihre reichhaltigen Erkenntnisse bedeutenden akademischen Wert und praktisches Potenzial.