2025-11-23T12:04:17.035274

Discursive Circuits: How Do Language Models Understand Discourse Relations?

Miao, Kan

Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).

academic

Circuiti Discorsivi: Come i Modelli Linguistici Comprendono le Relazioni Discorsive?

Informazioni Fondamentali

ID Articolo: 2510.11210
Titolo: Discursive Circuits: How Do Language Models Understand Discourse Relations?
Autori: Yisong Miao, Min-Yen Kan (National University of Singapore)
Classificazione: cs.CL (Linguistica Computazionale), cs.LG (Machine Learning)
Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.11210

Riassunto

Questo articolo esamina quali componenti nei modelli linguistici transformer sono responsabili della comprensione discorsiva. Gli autori ipotizzano che grafi computazionali sparsi (denominati circuiti discorsivi) controllino il modo in cui il modello elabora le relazioni discorsive. A differenza dei compiti semplici, le relazioni discorsive coinvolgono intervalli di testo più lunghi e ragionamenti complessi. Per rendere fattibile la scoperta dei circuiti, gli autori introducono il compito "Completamento Sotto Relazioni Discorsive" (CUDR), che consente al modello di completare il discorso secondo una relazione specificata. Gli esperimenti dimostrano che circuiti sparsi (circa lo 0,2% del modello GPT-2) riescono a recuperare la capacità di comprensione discorsiva nel compito CUDR basato su PDTB e si generalizzano bene a framework discorsivi non visti come RST e SDRT.

Contesto di Ricerca e Motivazione

Definizione del Problema

La struttura discorsiva è cruciale per garantire il comportamento sicuro ed etico dei modelli linguistici, tuttavia si sa poco su come i modelli linguistici elaborano internamente il discorso, il che limita la nostra capacità di garantire l'affidabilità e l'output non dannoso dei modelli.

Importanza della Ricerca

Esigenze di Sicurezza: La comprensione discorsiva è essenziale per il comportamento sicuro ed etico del modello
Mancanza di Interpretabilità: I metodi esistenti mancano di una comprensione approfondita dei meccanismi di elaborazione discorsiva
Sfide di Complessità: Le relazioni discorsive coinvolgono contesti più lunghi e ragionamenti più complessi rispetto ai compiti semplici

Limitazioni dei Metodi Esistenti

Visualizzazione dell'Attenzione e Generazione di Giustificazioni mancano di spiegazioni meccanicistiche
I metodi di scoperta dei circuiti esistenti si concentrano principalmente su compiti semplici (come il confronto numerico) e difficilmente si adattano direttamente alle relazioni discorsive
Mancanza di Comprensione Unificata tra Framework: Assenza di confronti a livello meccanicistico tra diversi framework discorsivi

Motivazione della Ricerca

Colmare il divario tra la struttura linguistica del discorso e i requisiti della scoperta dei circuiti, aprendo nuovi percorsi per comprendere i meccanismi dei compiti linguistici complessi.

Contributi Principali

Proposta del Compito CUDR: Progettazione di un compito di completamento delle relazioni discorsive adatto alla scoperta dei circuiti
Costruzione di Dataset Multi-Framework: Copertura dei principali framework discorsivi PDTB, RST, SDRT, con 27.754 istanze totali
Scoperta di Circuiti Discorsivi: Identificazione di circuiti sparsi che occupano solo lo 0,2% delle connessioni del modello ma raggiungono il 90% di fedeltà
Generalizzazione Cross-Framework: Dimostrazione che i circuiti appresi da PDTB si generalizzano bene ad altri framework discorsivi
Costruzione della Gerarchia dei Circuiti: Prima costruzione di una gerarchia discorsiva basata su componenti di circuiti neurali
Analisi delle Caratteristiche Linguistiche: Rivelazione delle caratteristiche linguistiche catturate a diversi livelli e della loro coerenza cross-framework

Spiegazione Dettagliata del Metodo

Definizione del Compito: CUDR (Completamento Sotto Relazioni Discorsive)

Il compito CUDR crea un ambiente controllato per testare il comportamento discorsivo del modello:

Formato di Input:

Discorso originale: $d_{ori} = (Arg1, Arg2, R, Conn)$
Discorso contraffattuale: $d_{cf} = (Arg1, Arg'_2, R', Conn')$

Configurazione del Compito:

Si prega di selezionare una delle seguenti due opzioni per completare il discorso:
Opzione 1: "va alla mensa" 
Opzione 2: "la mensa è chiusa"

Da completare: [Bob ha fame]_{Arg1} [quindi]_{Conn} → [va alla mensa]_{Arg2}

Modificando il connettivo discorsivo (da "quindi" a "ma"), le previsioni del modello dovrebbero cambiare di conseguenza.

Metodo di Scoperta dei Circuiti

Patching dell'Attivazione (Activation Patching)

Definire l'impatto del bordo $e$ come: $g(e) = L(x_{cf}|do(E = e_{ori})) - L(x_{cf})$

dove $L$ è la metrica di valutazione, $x_{cf}$ è l'input contraffattuale, $e_{ori}$ è l'attivazione nell'esecuzione originale.

Patching dell'Attribuzione dei Bordi (Edge Attribution Patching)

Utilizzo dell'approssimazione di Taylor del primo ordine per accelerare il calcolo: $g(e) \approx (z^{ori}_u - z^{cf}_u)^T \nabla_v L(x_{cf})$

dove $z^{ori}_u$ e $z^{cf}_u$ sono rispettivamente le attivazioni del nodo $u$ nelle esecuzioni originale e contraffattuale, $\nabla_v L(x_{cf})$ è il gradiente nel nodo $v$ .

Costruzione del Circuito Discorsivo

Applicazione del patching dell'attribuzione a un insieme di campioni per una data relazione discorsiva
Calcolo del valore medio di $g(e)$ per ogni bordo
Selezione dei primi 1000 bordi con valore assoluto più alto per formare il circuito

Costruzione del Dataset

Copertura Multi-Framework

Framework Discorsivo	Numero di Relazioni	Dati CUDR
PDTB	13	11.843
GDTB	12	5.253
GUM-RST	17	6.805
SDRT	10	3.853
Totale	52	27.754

Strategia di Generazione Contraffattuale

Utilizzo di GPT-4o-mini per generare contraffattuali $Arg'_2$ , garantendo:

Coerenza con l'originale $Arg1$ e il connettivo contraffattuale $Conn'$
Corrispondenza della lunghezza con l'originale $Arg2$
Espressione chiara e saliente della relazione

Configurazione Sperimentale

Scelta dei Modelli

Modello Principale: GPT-2 medium (seguendo lo standard della ricerca sulla scoperta dei circuiti)
Validazione Estesa: GPT-2 large

Metriche di Valutazione

Punteggio di Fedeltà: $\frac{\Delta L_{patch}}{\Delta L_{full}}$ (fedeltà normalizzata)
Differenza Logica: $\Delta L = L(Arg2) - L(Arg'_2)$

Metodi di Base

Circuito Casuale: Bordi transformer campionati casualmente
Circuito IOI: Circuito di Identificazione Oggetto Indiretto (rappresenta capacità di modellazione linguistica generale)

Struttura Gerarchica dei Circuiti

Costruzione di una gerarchia di circuiti in stile PDTB:

L3: Relazioni a livello foglia (1000 bordi)
L2: Fusione di più circuiti L3 (500+ bordi)
L1: Circuiti di categoria di livello superiore (200-500 bordi)
L0: Meta-circuiti (137 bordi)

Risultati Sperimentali

Risultati Principali

RQ1: Fedeltà dei Circuiti Discorsivi

Fedeltà Forte: I circuiti L3 e L1 raggiungono il 90% di fedeltà con soli circa 200 bordi
Superamento dei Baseline: Significativamente superiore ai baseline casuali e IOI
Effetto Gerarchico: I circuiti a grana fine (L3) sono più efficaci nelle fasi iniziali, ma con varianza maggiore

RQ2: Capacità di Generalizzazione Cross-Framework

Buona Generalizzazione: I circuiti PDTB si generalizzano efficacemente a GDTB, RST, SDRT
Ordinamento delle Prestazioni: Own > L3 > L1 ≈ L0 > IOI > Random (tendenza coerente)
Sovrapposizione dei Circuiti: La sovrapposizione dei circuiti tra framework è positivamente correlata alle prestazioni (es. PDTB→GDTB: r=0,44)

RQ3: Analisi delle Caratteristiche Linguistiche

Scoperta di cinque modelli di utilizzo delle caratteristiche linguistiche chiave:

Modalità (modality): Utilizzo più diffuso
Sinonimia (synonymy): Più comune dell'antonimia
Negazione (negation): Utilizzo coerente cross-framework
Antonimia (antonymy): Più debole nelle relazioni causali e temporali
Coreferenza (coreference): Più attiva nelle relazioni di classe estesa

Analisi Gerarchica

Livelli Bassi: Catturano caratteristiche linguistiche (semantica lessicale, coreferenza)
Livelli Alti: Codificano astrazioni a livello discorsivo
Regioni Specifiche del Discorso: Strati sorgente 8-16, strati target 10-20 contengono bordi specifici del discorso

Analisi di Casi

L'analisi dei casi di errore rivela le insufficienze dei circuiti PDTB nel gestire fenomeni come esclamazioni ("yay!!") e omissione del soggetto, mentre i circuiti SDRT gestiscono meglio questi casi.

Lavori Correlati

Modellazione del Discorso

Sviluppo dei Framework: Tre framework principali PDTB, RST, SDRT
Sforzi di Unificazione: Benchmark DISRPT, conversione automatica tra framework
Metodi di Valutazione: Valutazione basata su domande, generazione di dati sintetici

Interpretabilità Meccanicistica

Scoperta dei Circuiti: Applicazioni principalmente a compiti semplici (IOI, confronto numerico, accordo soggetto-verbo)
Limitazioni dei Metodi: I metodi esistenti difficilmente gestiscono fenomeni discorsivi complessi
Contributo di questo Articolo: Prima applicazione della scoperta dei circuiti alla comprensione discorsiva

Conclusioni e Discussione

Conclusioni Principali

Efficacia della Sparsità: Solo lo 0,2% delle connessioni del modello è sufficiente per realizzare la comprensione discorsiva
Coerenza Cross-Framework: I modelli linguistici potrebbero codificare rappresentazioni di relazioni discorsive condivise
Elaborazione Gerarchica: I livelli bassi elaborano caratteristiche linguistiche, i livelli alti elaborano astrazioni discorsive
Coerenza delle Caratteristiche: L'utilità delle caratteristiche linguistiche rimane coerente cross-framework

Limitazioni

Limitazioni Linguistiche: Studio limitato ai corpora in inglese
Portata del Modello: Focalizzazione principalmente su un singolo modello transformer
Confronto con il Cervello Umano: Mancanza di confronto con i meccanismi di elaborazione discorsiva umana
Qualità dei Dati: I dati contraffattuali generati sono relativamente semplici e diretti

Direzioni Future

Estensione Multilingue: Esplorazione della coerenza dei circuiti discorsivi cross-linguistici
Scenari Complessi: Estensione a stili discorsivi e scenari di ambiguità più complessi
Orientamento Applicativo: Utilizzo per rilevamento di bias e guida del modello
Estensione dell'Architettura: Adattamento a modelli linguistici di scala più grande

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Prima applicazione della scoperta dei circuiti a compiti complessi di comprensione discorsiva
Metodologia Rigorosa: Progettazione ingegnosa del compito CUDR, efficace nel supportare il patching dell'attivazione
Copertura Completa: Copertura di più framework discorsivi principali, dataset di dimensioni considerevoli
Analisi Approfondita: Analisi multidimensionale dalla gerarchia dei circuiti alle caratteristiche linguistiche
Buona Generalizzazione: Risultati di generalizzazione cross-framework convincenti

Insufficienze

Complessità Computazionale: Il processo di scoperta dei circuiti è computazionalmente intensivo, difficile da estendere a modelli più grandi
Dipendenza dai Dati: Dipendenza dalla generazione di dati contraffattuali tramite LLM, potenziale introduzione di bias
Limitazioni della Valutazione: Valutazione principalmente basata su un'unica architettura di modello, generalizzabilità da verificare
Profondità Teorica: Mancanza di spiegazioni teoriche sul perché questi circuiti sono efficaci

Impatto

Valore Accademico: Apertura di nuove direzioni per la ricerca meccanicistica sulla comprensione discorsiva
Potenziale Pratico: Applicabile al debug del modello, rilevamento di bias e altre applicazioni
Contributo Metodologico: Il paradigma CUDR può essere esteso ad altri compiti NLP complessi
Significato Interdisciplinare: Collegamento tra linguistica computazionale e ricerca sull'interpretabilità meccanicistica

Scenari Applicabili

Analisi del Modello: Comprensione dei meccanismi di elaborazione discorsiva nei grandi modelli linguistici
Rilevamento di Sicurezza: Identificazione di potenziali bias nella comprensione discorsiva del modello
Miglioramento del Modello: Guida al miglioramento mirato della capacità di comprensione discorsiva
Ricerca Educativa: Fornire validazione da prospettiva computazionale per la teoria discorsiva

Bibliografia

L'articolo cita una ricca letteratura correlata, inclusa:

Letteratura classica sulla teoria discorsiva: Mann & Thompson (1987), Asher & Lascarides (2003)
Metodi di scoperta dei circuiti: Wang et al. (2023), Conmy et al. (2023)
Dataset discorsivi: Webber et al. (2019), Liu et al. (2024b)
Interpretabilità meccanicistica: Zhang & Nanda (2024), Miller et al. (2024)

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che eccelle in innovazione metodologica, progettazione sperimentale e profondità di analisi. Attraverso l'ingegnosa progettazione del compito CUDR, ha applicato con successo la tecnologia di scoperta dei circuiti a compiti complessi di comprensione discorsiva, fornendo una nuova prospettiva per comprendere i meccanismi interni dei modelli linguistici. Nonostante alcune limitazioni, il suo lavoro pioneristico e le scoperte ricche gli conferiscono un importante valore accademico e potenziale pratico.