2025-11-23T12:04:17.035274

Discursive Circuits: How Do Language Models Understand Discourse Relations?

Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
academic

Circuiti Discorsivi: Come i Modelli Linguistici Comprendono le Relazioni Discorsive?

Informazioni Fondamentali

  • ID Articolo: 2510.11210
  • Titolo: Discursive Circuits: How Do Language Models Understand Discourse Relations?
  • Autori: Yisong Miao, Min-Yen Kan (National University of Singapore)
  • Classificazione: cs.CL (Linguistica Computazionale), cs.LG (Machine Learning)
  • Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.11210

Riassunto

Questo articolo esamina quali componenti nei modelli linguistici transformer sono responsabili della comprensione discorsiva. Gli autori ipotizzano che grafi computazionali sparsi (denominati circuiti discorsivi) controllino il modo in cui il modello elabora le relazioni discorsive. A differenza dei compiti semplici, le relazioni discorsive coinvolgono intervalli di testo più lunghi e ragionamenti complessi. Per rendere fattibile la scoperta dei circuiti, gli autori introducono il compito "Completamento Sotto Relazioni Discorsive" (CUDR), che consente al modello di completare il discorso secondo una relazione specificata. Gli esperimenti dimostrano che circuiti sparsi (circa lo 0,2% del modello GPT-2) riescono a recuperare la capacità di comprensione discorsiva nel compito CUDR basato su PDTB e si generalizzano bene a framework discorsivi non visti come RST e SDRT.

Contesto di Ricerca e Motivazione

Definizione del Problema

La struttura discorsiva è cruciale per garantire il comportamento sicuro ed etico dei modelli linguistici, tuttavia si sa poco su come i modelli linguistici elaborano internamente il discorso, il che limita la nostra capacità di garantire l'affidabilità e l'output non dannoso dei modelli.

Importanza della Ricerca

  1. Esigenze di Sicurezza: La comprensione discorsiva è essenziale per il comportamento sicuro ed etico del modello
  2. Mancanza di Interpretabilità: I metodi esistenti mancano di una comprensione approfondita dei meccanismi di elaborazione discorsiva
  3. Sfide di Complessità: Le relazioni discorsive coinvolgono contesti più lunghi e ragionamenti più complessi rispetto ai compiti semplici

Limitazioni dei Metodi Esistenti

  1. Visualizzazione dell'Attenzione e Generazione di Giustificazioni mancano di spiegazioni meccanicistiche
  2. I metodi di scoperta dei circuiti esistenti si concentrano principalmente su compiti semplici (come il confronto numerico) e difficilmente si adattano direttamente alle relazioni discorsive
  3. Mancanza di Comprensione Unificata tra Framework: Assenza di confronti a livello meccanicistico tra diversi framework discorsivi

Motivazione della Ricerca

Colmare il divario tra la struttura linguistica del discorso e i requisiti della scoperta dei circuiti, aprendo nuovi percorsi per comprendere i meccanismi dei compiti linguistici complessi.

Contributi Principali

  1. Proposta del Compito CUDR: Progettazione di un compito di completamento delle relazioni discorsive adatto alla scoperta dei circuiti
  2. Costruzione di Dataset Multi-Framework: Copertura dei principali framework discorsivi PDTB, RST, SDRT, con 27.754 istanze totali
  3. Scoperta di Circuiti Discorsivi: Identificazione di circuiti sparsi che occupano solo lo 0,2% delle connessioni del modello ma raggiungono il 90% di fedeltà
  4. Generalizzazione Cross-Framework: Dimostrazione che i circuiti appresi da PDTB si generalizzano bene ad altri framework discorsivi
  5. Costruzione della Gerarchia dei Circuiti: Prima costruzione di una gerarchia discorsiva basata su componenti di circuiti neurali
  6. Analisi delle Caratteristiche Linguistiche: Rivelazione delle caratteristiche linguistiche catturate a diversi livelli e della loro coerenza cross-framework

Spiegazione Dettagliata del Metodo

Definizione del Compito: CUDR (Completamento Sotto Relazioni Discorsive)

Il compito CUDR crea un ambiente controllato per testare il comportamento discorsivo del modello:

Formato di Input:

  • Discorso originale: dori=(Arg1,Arg2,R,Conn)d_{ori} = (Arg1, Arg2, R, Conn)
  • Discorso contraffattuale: dcf=(Arg1,Arg2,R,Conn)d_{cf} = (Arg1, Arg'_2, R', Conn')

Configurazione del Compito:

Si prega di selezionare una delle seguenti due opzioni per completare il discorso:
Opzione 1: "va alla mensa" 
Opzione 2: "la mensa è chiusa"

Da completare: [Bob ha fame]_{Arg1} [quindi]_{Conn} → [va alla mensa]_{Arg2}

Modificando il connettivo discorsivo (da "quindi" a "ma"), le previsioni del modello dovrebbero cambiare di conseguenza.

Metodo di Scoperta dei Circuiti

Patching dell'Attivazione (Activation Patching)

Definire l'impatto del bordo ee come: g(e)=L(xcfdo(E=eori))L(xcf)g(e) = L(x_{cf}|do(E = e_{ori})) - L(x_{cf})

dove LL è la metrica di valutazione, xcfx_{cf} è l'input contraffattuale, eorie_{ori} è l'attivazione nell'esecuzione originale.

Patching dell'Attribuzione dei Bordi (Edge Attribution Patching)

Utilizzo dell'approssimazione di Taylor del primo ordine per accelerare il calcolo: g(e)(zuorizucf)TvL(xcf)g(e) \approx (z^{ori}_u - z^{cf}_u)^T \nabla_v L(x_{cf})

dove zuoriz^{ori}_u e zucfz^{cf}_u sono rispettivamente le attivazioni del nodo uu nelle esecuzioni originale e contraffattuale, vL(xcf)\nabla_v L(x_{cf}) è il gradiente nel nodo vv.

Costruzione del Circuito Discorsivo

  1. Applicazione del patching dell'attribuzione a un insieme di campioni per una data relazione discorsiva
  2. Calcolo del valore medio di g(e)g(e) per ogni bordo
  3. Selezione dei primi 1000 bordi con valore assoluto più alto per formare il circuito

Costruzione del Dataset

Copertura Multi-Framework

Framework DiscorsivoNumero di RelazioniDati CUDR
PDTB1311.843
GDTB125.253
GUM-RST176.805
SDRT103.853
Totale5227.754

Strategia di Generazione Contraffattuale

Utilizzo di GPT-4o-mini per generare contraffattuali Arg2Arg'_2, garantendo:

  1. Coerenza con l'originale Arg1Arg1 e il connettivo contraffattuale ConnConn'
  2. Corrispondenza della lunghezza con l'originale Arg2Arg2
  3. Espressione chiara e saliente della relazione

Configurazione Sperimentale

Scelta dei Modelli

  • Modello Principale: GPT-2 medium (seguendo lo standard della ricerca sulla scoperta dei circuiti)
  • Validazione Estesa: GPT-2 large

Metriche di Valutazione

  • Punteggio di Fedeltà: ΔLpatchΔLfull\frac{\Delta L_{patch}}{\Delta L_{full}} (fedeltà normalizzata)
  • Differenza Logica: ΔL=L(Arg2)L(Arg2)\Delta L = L(Arg2) - L(Arg'_2)

Metodi di Base

  1. Circuito Casuale: Bordi transformer campionati casualmente
  2. Circuito IOI: Circuito di Identificazione Oggetto Indiretto (rappresenta capacità di modellazione linguistica generale)

Struttura Gerarchica dei Circuiti

Costruzione di una gerarchia di circuiti in stile PDTB:

  • L3: Relazioni a livello foglia (1000 bordi)
  • L2: Fusione di più circuiti L3 (500+ bordi)
  • L1: Circuiti di categoria di livello superiore (200-500 bordi)
  • L0: Meta-circuiti (137 bordi)

Risultati Sperimentali

Risultati Principali

RQ1: Fedeltà dei Circuiti Discorsivi

  • Fedeltà Forte: I circuiti L3 e L1 raggiungono il 90% di fedeltà con soli circa 200 bordi
  • Superamento dei Baseline: Significativamente superiore ai baseline casuali e IOI
  • Effetto Gerarchico: I circuiti a grana fine (L3) sono più efficaci nelle fasi iniziali, ma con varianza maggiore

RQ2: Capacità di Generalizzazione Cross-Framework

  • Buona Generalizzazione: I circuiti PDTB si generalizzano efficacemente a GDTB, RST, SDRT
  • Ordinamento delle Prestazioni: Own > L3 > L1 ≈ L0 > IOI > Random (tendenza coerente)
  • Sovrapposizione dei Circuiti: La sovrapposizione dei circuiti tra framework è positivamente correlata alle prestazioni (es. PDTB→GDTB: r=0,44)

RQ3: Analisi delle Caratteristiche Linguistiche

Scoperta di cinque modelli di utilizzo delle caratteristiche linguistiche chiave:

  1. Modalità (modality): Utilizzo più diffuso
  2. Sinonimia (synonymy): Più comune dell'antonimia
  3. Negazione (negation): Utilizzo coerente cross-framework
  4. Antonimia (antonymy): Più debole nelle relazioni causali e temporali
  5. Coreferenza (coreference): Più attiva nelle relazioni di classe estesa

Analisi Gerarchica

  • Livelli Bassi: Catturano caratteristiche linguistiche (semantica lessicale, coreferenza)
  • Livelli Alti: Codificano astrazioni a livello discorsivo
  • Regioni Specifiche del Discorso: Strati sorgente 8-16, strati target 10-20 contengono bordi specifici del discorso

Analisi di Casi

L'analisi dei casi di errore rivela le insufficienze dei circuiti PDTB nel gestire fenomeni come esclamazioni ("yay!!") e omissione del soggetto, mentre i circuiti SDRT gestiscono meglio questi casi.

Lavori Correlati

Modellazione del Discorso

  • Sviluppo dei Framework: Tre framework principali PDTB, RST, SDRT
  • Sforzi di Unificazione: Benchmark DISRPT, conversione automatica tra framework
  • Metodi di Valutazione: Valutazione basata su domande, generazione di dati sintetici

Interpretabilità Meccanicistica

  • Scoperta dei Circuiti: Applicazioni principalmente a compiti semplici (IOI, confronto numerico, accordo soggetto-verbo)
  • Limitazioni dei Metodi: I metodi esistenti difficilmente gestiscono fenomeni discorsivi complessi
  • Contributo di questo Articolo: Prima applicazione della scoperta dei circuiti alla comprensione discorsiva

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia della Sparsità: Solo lo 0,2% delle connessioni del modello è sufficiente per realizzare la comprensione discorsiva
  2. Coerenza Cross-Framework: I modelli linguistici potrebbero codificare rappresentazioni di relazioni discorsive condivise
  3. Elaborazione Gerarchica: I livelli bassi elaborano caratteristiche linguistiche, i livelli alti elaborano astrazioni discorsive
  4. Coerenza delle Caratteristiche: L'utilità delle caratteristiche linguistiche rimane coerente cross-framework

Limitazioni

  1. Limitazioni Linguistiche: Studio limitato ai corpora in inglese
  2. Portata del Modello: Focalizzazione principalmente su un singolo modello transformer
  3. Confronto con il Cervello Umano: Mancanza di confronto con i meccanismi di elaborazione discorsiva umana
  4. Qualità dei Dati: I dati contraffattuali generati sono relativamente semplici e diretti

Direzioni Future

  1. Estensione Multilingue: Esplorazione della coerenza dei circuiti discorsivi cross-linguistici
  2. Scenari Complessi: Estensione a stili discorsivi e scenari di ambiguità più complessi
  3. Orientamento Applicativo: Utilizzo per rilevamento di bias e guida del modello
  4. Estensione dell'Architettura: Adattamento a modelli linguistici di scala più grande

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Prima applicazione della scoperta dei circuiti a compiti complessi di comprensione discorsiva
  2. Metodologia Rigorosa: Progettazione ingegnosa del compito CUDR, efficace nel supportare il patching dell'attivazione
  3. Copertura Completa: Copertura di più framework discorsivi principali, dataset di dimensioni considerevoli
  4. Analisi Approfondita: Analisi multidimensionale dalla gerarchia dei circuiti alle caratteristiche linguistiche
  5. Buona Generalizzazione: Risultati di generalizzazione cross-framework convincenti

Insufficienze

  1. Complessità Computazionale: Il processo di scoperta dei circuiti è computazionalmente intensivo, difficile da estendere a modelli più grandi
  2. Dipendenza dai Dati: Dipendenza dalla generazione di dati contraffattuali tramite LLM, potenziale introduzione di bias
  3. Limitazioni della Valutazione: Valutazione principalmente basata su un'unica architettura di modello, generalizzabilità da verificare
  4. Profondità Teorica: Mancanza di spiegazioni teoriche sul perché questi circuiti sono efficaci

Impatto

  1. Valore Accademico: Apertura di nuove direzioni per la ricerca meccanicistica sulla comprensione discorsiva
  2. Potenziale Pratico: Applicabile al debug del modello, rilevamento di bias e altre applicazioni
  3. Contributo Metodologico: Il paradigma CUDR può essere esteso ad altri compiti NLP complessi
  4. Significato Interdisciplinare: Collegamento tra linguistica computazionale e ricerca sull'interpretabilità meccanicistica

Scenari Applicabili

  1. Analisi del Modello: Comprensione dei meccanismi di elaborazione discorsiva nei grandi modelli linguistici
  2. Rilevamento di Sicurezza: Identificazione di potenziali bias nella comprensione discorsiva del modello
  3. Miglioramento del Modello: Guida al miglioramento mirato della capacità di comprensione discorsiva
  4. Ricerca Educativa: Fornire validazione da prospettiva computazionale per la teoria discorsiva

Bibliografia

L'articolo cita una ricca letteratura correlata, inclusa:

  • Letteratura classica sulla teoria discorsiva: Mann & Thompson (1987), Asher & Lascarides (2003)
  • Metodi di scoperta dei circuiti: Wang et al. (2023), Conmy et al. (2023)
  • Dataset discorsivi: Webber et al. (2019), Liu et al. (2024b)
  • Interpretabilità meccanicistica: Zhang & Nanda (2024), Miller et al. (2024)

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che eccelle in innovazione metodologica, progettazione sperimentale e profondità di analisi. Attraverso l'ingegnosa progettazione del compito CUDR, ha applicato con successo la tecnologia di scoperta dei circuiti a compiti complessi di comprensione discorsiva, fornendo una nuova prospettiva per comprendere i meccanismi interni dei modelli linguistici. Nonostante alcune limitazioni, il suo lavoro pioneristico e le scoperte ricche gli conferiscono un importante valore accademico e potenziale pratico.