2025-11-23T12:04:17.035274

Discursive Circuits: How Do Language Models Understand Discourse Relations?

Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
academic

Diskursive Schaltkreise: Wie verstehen Sprachmodelle Diskursrelationen?

Grundinformationen

  • Paper-ID: 2510.11210
  • Titel: Discursive Circuits: How Do Language Models Understand Discourse Relations?
  • Autoren: Yisong Miao, Min-Yen Kan (National University of Singapore)
  • Klassifizierung: cs.CL (Computerlinguistik), cs.LG (Maschinelles Lernen)
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.11210

Zusammenfassung

Dieses Paper untersucht, welche Komponenten in Transformer-Sprachmodellen für das Diskursverständnis verantwortlich sind. Die Autoren gehen davon aus, dass spärliche Berechnungsgraphen (sogenannte Diskursschaltkreise) steuern, wie das Modell Diskursrelationen verarbeitet. Im Gegensatz zu einfachen Aufgaben beinhalten Diskursrelationen längere Textspannen und komplexe Schlussfolgerungen. Um die Schaltkreiserkennung praktikabel zu machen, führen die Autoren die Aufgabe „Completion Under Discourse Relations" (CUDR) ein, bei der das Modell einen Diskurs unter einer bestimmten Relation vervollständigt. Experimente zeigen, dass spärliche Schaltkreise (etwa 0,2% des GPT-2-Modells) die Diskursverständnisfähigkeit bei auf PDTB basierenden CUDR-Aufgaben wiederherstellen können und sich gut auf unbekannte Diskursrahmen wie RST und SDRT verallgemeinern lassen.

Forschungshintergrund und Motivation

Problemdefinition

Die Diskursstruktur ist entscheidend für die Sicherheit und ethische Verhaltensweise von Sprachmodellen, doch es ist wenig über die interne Verarbeitung von Diskursen in Sprachmodellen bekannt. Dies schränkt unsere Fähigkeit ein, die Zuverlässigkeit und Schadlosigkeit der Modellausgaben zu gewährleisten.

Forschungsbedeutung

  1. Sicherheitsanforderungen: Diskursverständnis ist entscheidend für die Sicherheit und ethische Verhaltensweise des Modells
  2. Fehlende Interpretierbarkeit: Bestehende Methoden ermangeln tiefgreifender Erkenntnisse über Diskursverarbeitungsmechanismen
  3. Komplexitätsherausforderungen: Diskursrelationen beinhalten längere Kontexte und komplexere Schlussfolgerungen als einfache Aufgaben

Einschränkungen bestehender Methoden

  1. Aufmerksamkeitsvisualisierung und Begründungsgenerierung ermangeln mechanistischer Erklärungen
  2. Bestehende Schaltkreiserkennungsmethoden konzentrieren sich hauptsächlich auf einfache Aufgaben (z.B. numerische Vergleiche) und lassen sich nicht direkt auf Diskursrelationen anwenden
  3. Fehlende einheitliche Verständigung über Rahmen: Mechanistische Vergleiche zwischen verschiedenen Diskursrahmen fehlen

Forschungsmotivation

Durch die Überbrückung der linguistischen Struktur von Diskursen und der Anforderungen der Schaltkreiserkennung neue Wege zum Verständnis der Mechanismen komplexer Sprachaufgaben eröffnen.

Kernbeiträge

  1. CUDR-Aufgabe vorgestellt: Entwurf einer Diskursrelations-Vervollständigungsaufgabe, die für die Schaltkreiserkennung geeignet ist
  2. Multi-Rahmen-Datensatz konstruiert: Umfasst die wichtigsten Diskursrahmen PDTB, RST, SDRT mit insgesamt 27.754 Instanzen
  3. Diskursschaltkreise identifiziert: Erkennung spärlicher Schaltkreise, die nur 0,2% der Modellverbindungen ausmachen, aber 90% Treue erreichen
  4. Rahmenübergreifende Verallgemeinerung: Nachweis, dass aus PDTB gelernte Schaltkreise sich gut auf andere Diskursrahmen verallgemeinern lassen
  5. Schaltkreis-Hierarchie konstruiert: Erstmalige Konstruktion einer Diskurshierarchie auf Basis neuronaler Schaltkreiskomponenten
  6. Sprachliche Merkmalsanalyse: Offenlegung sprachlicher Merkmale auf verschiedenen Ebenen und deren rahmenübergreifende Konsistenz

Methodische Details

Aufgabendefinition: CUDR (Completion Under Discourse Relations)

Die CUDR-Aufgabe schafft eine kontrollierte Umgebung zum Testen des Diskursverhaltens des Modells:

Eingabeformat:

  • Ursprünglicher Diskurs: dori=(Arg1,Arg2,R,Conn)d_{ori} = (Arg1, Arg2, R, Conn)
  • Kontrafaktischer Diskurs: dcf=(Arg1,Arg2,R,Conn)d_{cf} = (Arg1, Arg'_2, R', Conn')

Aufgabeneinstellung:

Bitte wählen Sie eine der folgenden zwei Optionen, um den Diskurs zu vervollständigen:
Option 1: "he goes to the canteen" 
Option 2: "the canteen is closed"

Zu vervollständigen: [Bob is hungry]_{Arg1} [so]_{Conn} → [he goes to the canteen]_{Arg2}

Durch Änderung des Diskursverbinders (von „so" zu „but") sollten sich die Vorhersagen des Modells entsprechend ändern.

Schaltkreiserkennungsmethode

Aktivierungsmodifikation (Activation Patching)

Der Einfluss einer Kante ee wird definiert als: g(e)=L(xcfdo(E=eori))L(xcf)g(e) = L(x_{cf}|do(E = e_{ori})) - L(x_{cf})

wobei LL eine Bewertungsmetrik ist, xcfx_{cf} die kontrafaktische Eingabe und eorie_{ori} die Aktivierung aus dem ursprünglichen Durchlauf.

Kantenattributionsmodifikation (Edge Attribution Patching)

Beschleunigung der Berechnung durch Taylor-Approximation erster Ordnung: g(e)(zuorizucf)TvL(xcf)g(e) \approx (z^{ori}_u - z^{cf}_u)^T \nabla_v L(x_{cf})

wobei zuoriz^{ori}_u und zucfz^{cf}_u die Aktivierungen des Knotens uu in ursprünglichen bzw. kontrafaktischen Durchläufen sind und vL(xcf)\nabla_v L(x_{cf}) der Gradient am Knoten vv ist.

Diskursschaltkreiskonstruktion

  1. Anwendung der Attributionsmodifikation auf Stichprobenmengen für eine gegebene Diskursrelation
  2. Berechnung des durchschnittlichen g(e)g(e)-Werts für jede Kante
  3. Auswahl der 1000 Kanten mit den höchsten Absolutwerten zur Bildung des Schaltkreises

Datensatzkonstruktion

Multi-Rahmen-Abdeckung

DiskursrahmenAnzahl RelationenCUDR-Datenmenge
PDTB1311.843
GDTB125.253
GUM-RST176.805
SDRT103.853
Gesamt5227.754

Kontrafaktische Generierungsstrategie

Verwendung von GPT-4o-mini zur Generierung kontrafaktischer Arg2Arg'_2, um sicherzustellen:

  1. Konsistenz mit ursprünglichem Arg1Arg1 und kontrafaktischem Verbinder ConnConn'
  2. Längenmatch mit ursprünglichem Arg2Arg2
  3. Klare und deutliche Ausdruckung der Relation

Experimentelle Einrichtung

Modellauswahl

  • Hauptmodell: GPT-2 medium (folgt dem Standard bestehender Schaltkreiserkennungsforschung)
  • Erweiterte Validierung: GPT-2 large

Bewertungsmetriken

  • Treuewert: ΔLpatchΔLfull\frac{\Delta L_{patch}}{\Delta L_{full}} (normalisierte Treue)
  • Logische Differenz: ΔL=L(Arg2)L(Arg2)\Delta L = L(Arg2) - L(Arg'_2)

Baseline-Methoden

  1. Zufälliger Schaltkreis: Zufällig gesampelte Transformer-Kanten
  2. IOI-Schaltkreis: Indirect Object Identification-Schaltkreis (repräsentiert allgemeine Sprachmodellierungsfähigkeiten)

Schaltkreis-Hierarchie

Konstruktion einer PDTB-artigen Schaltkreis-Hierarchie:

  • L3: Blattknoten-Relationen (1000 Kanten)
  • L2: Zusammenführung mehrerer L3-Schaltkreise (500+ Kanten)
  • L1: Schaltkreise der obersten Kategorie (200-500 Kanten)
  • L0: Meta-Schaltkreis (137 Kanten)

Experimentelle Ergebnisse

Hauptergebnisse

RQ1: Treue von Diskursschaltkreisen

  • Starke Treue: L3- und L1-Schaltkreise erreichen 90% Treue mit nur etwa 200 Kanten
  • Überlegenheit gegenüber Baselines: Signifikante Überlegenheit gegenüber zufälligen Baselines und IOI-Baselines
  • Hierarchie-Effekt: Feingranulare Schaltkreise (L3) sind in frühen Phasen effektiver, zeigen aber höhere Varianz

RQ2: Rahmenübergreifende Verallgemeinerungsfähigkeit

  • Gute Verallgemeinerung: PDTB-Schaltkreise verallgemeinern sich effektiv auf GDTB, RST, SDRT
  • Leistungsreihenfolge: Own > L3 > L1 ≈ L0 > IOI > Random (konsistenter Trend)
  • Schaltkreisüberlappung: Überlappung zwischen Rahmen korreliert mit Leistung (z.B. PDTB→GDTB: r=0,44)

RQ3: Analyse sprachlicher Merkmale

Entdeckung von fünf Schlüsselmustern bei der Verwendung sprachlicher Merkmale:

  1. Modalität (modality): Am weitesten verbreitet
  2. Synonymie (synonymy): Häufiger als Antonymie
  3. Negation (negation): Konsistente rahmenübergreifende Verwendung
  4. Antonymie (antonymy): Schwächer bei kausalen und zeitlichen Relationen
  5. Koreferenz (coreference): Am aktivsten bei erweiterten Klassenrelationen

Hierarchische Analyse

  • Niedrige Ebenen: Erfassen sprachliche Merkmale (lexikalische Semantik, Koreferenz)
  • Hohe Ebenen: Kodieren diskursive Abstraktionen
  • Diskursspezifische Regionen: Quellschicht 8-16, Zielschicht 10-20 enthalten diskursspezifische Kanten

Fallstudien

Die Analyse fehlerhafter Fälle offenbart Unzulänglichkeiten der PDTB-Schaltkreise bei der Verarbeitung von Interjektionen („yay!!") und Subjektauslassungen, während SDRT-Schaltkreise diese Phänomene besser handhaben können.

Verwandte Arbeiten

Diskursmodellierung

  • Rahmenentwicklung: Drei Hauptrahmen PDTB, RST, SDRT
  • Vereinheitlichungsbemühungen: DISRPT-Benchmark, automatische Rahmenkonvertierung
  • Bewertungsmethoden: Frage-Antwort-basierte Bewertung, synthetische Datengenerierung

Mechanistische Interpretierbarkeit

  • Schaltkreiserkennung: Hauptsächlich angewendet auf einfache Aufgaben (IOI, numerische Vergleiche, Subjekt-Verb-Kongruenz)
  • Methodische Einschränkungen: Bestehende Methoden schwer auf komplexe Diskursphänomene anwendbar
  • Beitrag dieses Papers: Erste Anwendung der Schaltkreiserkennung auf Diskursverständnis

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Spärliche Effektivität: Nur 0,2% der Modellverbindungen ermöglichen Diskursverständnis
  2. Rahmenübergreifende Konsistenz: Sprachmodelle könnten gemeinsame Diskursrelations-Repräsentationen kodieren
  3. Hierarchische Verarbeitung: Niedrige Ebenen verarbeiten sprachliche Merkmale, hohe Ebenen diskursive Abstraktionen
  4. Merkmalskonsistenz: Merkmalsnützlichkeit bleibt rahmenübergreifend konsistent

Einschränkungen

  1. Sprachliche Einschränkung: Nur englischsprachige Korpora untersucht
  2. Modellbereich: Hauptsächlich auf einzelnes Transformer-Modell konzentriert
  3. Gehirnvergleich: Keine Vergleiche mit menschlichen Diskursverarbeitungsmechanismen
  4. Datenqualität: Generierte kontrafaktische Daten sind relativ einfach und direkt

Zukünftige Richtungen

  1. Mehrsprachige Erweiterung: Erforschung der Konsistenz rahmenübergreifender Diskursschaltkreise
  2. Komplexe Szenarien: Erweiterung auf komplexere Diskursstile und mehrdeutige Szenarien
  3. Anwendungsorientierung: Verwendung zur Vorurteilserkennung und Modellsteuerung
  4. Architekturerweiterung: Anpassung an größere Sprachmodelle

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erste Anwendung der Schaltkreiserkennung auf komplexe Diskursverständnisaufgaben
  2. Methodische Strenge: Geschickter CUDR-Aufgabenentwurf unterstützt effektiv Aktivierungsmodifikation
  3. Umfassende Abdeckung: Mehrere Hauptdiskursrahmen mit beachtlichem Datensatzumfang
  4. Tiefgreifende Analyse: Mehrdimensionale Analyse von Schaltkreishierarchie bis sprachliche Merkmale
  5. Gute Verallgemeinerung: Überzeugende rahmenübergreifende Verallgemeinerungsergebnisse

Schwächen

  1. Rechenkomplexität: Schaltkreiserkennungsprozess ist rechnerintensiv, schwer auf größere Modelle skalierbar
  2. Datenabhängigkeit: Abhängigkeit von LLM-generierter kontrafaktischer Daten, könnte Verzerrungen einführen
  3. Bewertungseinschränkungen: Hauptsächlich auf einzelne Modellarchitektur basiert, Verallgemeinerbarkeit zu prüfen
  4. Theoretische Tiefe: Mangelnde theoretische Erklärung, warum diese Schaltkreise effektiv sind

Auswirkungen

  1. Akademischer Wert: Eröffnet neue Forschungsrichtung für mechanistische Diskursverständnisforschung
  2. Praktisches Potenzial: Anwendbar auf Modelldebugging, Vorurteilserkennung
  3. Methodologischer Beitrag: CUDR-Paradigma auf andere komplexe NLP-Aufgaben übertragbar
  4. Interdisziplinäre Bedeutung: Verbindung von Computerlinguistik und mechanistischer Interpretierbarkeitsforschung

Anwendungsszenarien

  1. Modellanalyse: Verständnis der Diskursverarbeitungsmechanismen großer Sprachmodelle
  2. Sicherheitserkennung: Identifikation potenzieller Vorurteile in Diskursverständnis
  3. Modellverbesserung: Gezielte Verbesserung der Diskursverständnisfähigkeiten
  4. Bildungsforschung: Computationale Perspektive zur Validierung von Diskurstheorie

Literaturverzeichnis

Das Paper zitiert umfangreiche verwandte Arbeiten, darunter:

  • Klassische Diskurstheorie-Literatur: Mann & Thompson (1987), Asher & Lascarides (2003)
  • Schaltkreiserkennungsmethoden: Wang et al. (2023), Conmy et al. (2023)
  • Diskursdatensätze: Webber et al. (2019), Liu et al. (2024b)
  • Mechanistische Interpretierbarkeit: Zhang & Nanda (2024), Miller et al. (2024)

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspaper, das sich in methodischer Innovation, experimentellem Design und Analysentiefe auszeichnet. Durch den geschickten CUDR-Aufgabenentwurf gelang es erfolgreich, die Schaltkreiserkennungstechnik auf komplexe Diskursverständnisaufgaben anzuwenden und neue Perspektiven auf die internen Mechanismen von Sprachmodellen zu bieten. Trotz einiger Einschränkungen besitzt die bahnbrechende Arbeit und ihre reichhaltigen Erkenntnisse bedeutenden akademischen Wert und praktisches Potenzial.