Discursive Circuits: How Do Language Models Understand Discourse Relations?
Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
academic
Circuiti Discorsivi: Come i Modelli Linguistici Comprendono le Relazioni Discorsive?
Questo articolo esamina quali componenti nei modelli linguistici transformer sono responsabili della comprensione discorsiva. Gli autori ipotizzano che grafi computazionali sparsi (denominati circuiti discorsivi) controllino il modo in cui il modello elabora le relazioni discorsive. A differenza dei compiti semplici, le relazioni discorsive coinvolgono intervalli di testo più lunghi e ragionamenti complessi. Per rendere fattibile la scoperta dei circuiti, gli autori introducono il compito "Completamento Sotto Relazioni Discorsive" (CUDR), che consente al modello di completare il discorso secondo una relazione specificata. Gli esperimenti dimostrano che circuiti sparsi (circa lo 0,2% del modello GPT-2) riescono a recuperare la capacità di comprensione discorsiva nel compito CUDR basato su PDTB e si generalizzano bene a framework discorsivi non visti come RST e SDRT.
La struttura discorsiva è cruciale per garantire il comportamento sicuro ed etico dei modelli linguistici, tuttavia si sa poco su come i modelli linguistici elaborano internamente il discorso, il che limita la nostra capacità di garantire l'affidabilità e l'output non dannoso dei modelli.
Visualizzazione dell'Attenzione e Generazione di Giustificazioni mancano di spiegazioni meccanicistiche
I metodi di scoperta dei circuiti esistenti si concentrano principalmente su compiti semplici (come il confronto numerico) e difficilmente si adattano direttamente alle relazioni discorsive
Mancanza di Comprensione Unificata tra Framework: Assenza di confronti a livello meccanicistico tra diversi framework discorsivi
Colmare il divario tra la struttura linguistica del discorso e i requisiti della scoperta dei circuiti, aprendo nuovi percorsi per comprendere i meccanismi dei compiti linguistici complessi.
Proposta del Compito CUDR: Progettazione di un compito di completamento delle relazioni discorsive adatto alla scoperta dei circuiti
Costruzione di Dataset Multi-Framework: Copertura dei principali framework discorsivi PDTB, RST, SDRT, con 27.754 istanze totali
Scoperta di Circuiti Discorsivi: Identificazione di circuiti sparsi che occupano solo lo 0,2% delle connessioni del modello ma raggiungono il 90% di fedeltà
Generalizzazione Cross-Framework: Dimostrazione che i circuiti appresi da PDTB si generalizzano bene ad altri framework discorsivi
Costruzione della Gerarchia dei Circuiti: Prima costruzione di una gerarchia discorsiva basata su componenti di circuiti neurali
Analisi delle Caratteristiche Linguistiche: Rivelazione delle caratteristiche linguistiche catturate a diversi livelli e della loro coerenza cross-framework
Si prega di selezionare una delle seguenti due opzioni per completare il discorso:
Opzione 1: "va alla mensa"
Opzione 2: "la mensa è chiusa"
Da completare: [Bob ha fame]_{Arg1} [quindi]_{Conn} → [va alla mensa]_{Arg2}
Modificando il connettivo discorsivo (da "quindi" a "ma"), le previsioni del modello dovrebbero cambiare di conseguenza.
L'analisi dei casi di errore rivela le insufficienze dei circuiti PDTB nel gestire fenomeni come esclamazioni ("yay!!") e omissione del soggetto, mentre i circuiti SDRT gestiscono meglio questi casi.
L'articolo cita una ricca letteratura correlata, inclusa:
Letteratura classica sulla teoria discorsiva: Mann & Thompson (1987), Asher & Lascarides (2003)
Metodi di scoperta dei circuiti: Wang et al. (2023), Conmy et al. (2023)
Dataset discorsivi: Webber et al. (2019), Liu et al. (2024b)
Interpretabilità meccanicistica: Zhang & Nanda (2024), Miller et al. (2024)
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che eccelle in innovazione metodologica, progettazione sperimentale e profondità di analisi. Attraverso l'ingegnosa progettazione del compito CUDR, ha applicato con successo la tecnologia di scoperta dei circuiti a compiti complessi di comprensione discorsiva, fornendo una nuova prospettiva per comprendere i meccanismi interni dei modelli linguistici. Nonostante alcune limitazioni, il suo lavoro pioneristico e le scoperte ricche gli conferiscono un importante valore accademico e potenziale pratico.