2025-11-23T12:04:17.035274

Discursive Circuits: How Do Language Models Understand Discourse Relations?

Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
academic

Дискурсивные цепи: Как языковые модели понимают дискурсивные отношения?

Основная информация

  • ID статьи: 2510.11210
  • Название: Discursive Circuits: How Do Language Models Understand Discourse Relations?
  • Авторы: Yisong Miao, Min-Yen Kan (Национальный университет Сингапура)
  • Категория: cs.CL (Вычислительная лингвистика), cs.LG (Машинное обучение)
  • Дата публикации: 13 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.11210

Аннотация

В данной статье исследуется, какие компоненты трансформерных языковых моделей отвечают за понимание дискурса. Авторы предполагают, что разреженные вычислительные графы (называемые дискурсивными цепями) контролируют способ обработки моделью дискурсивных отношений. В отличие от простых задач, дискурсивные отношения включают более длинные текстовые промежутки и сложные рассуждения. Для осуществления поиска цепей авторы вводят задачу "завершение при дискурсивных отношениях" (CUDR), позволяющую модели завершить дискурс при указанном отношении. Эксперименты показывают, что разреженные цепи (составляющие примерно 0,2% модели GPT-2) восстанавливают способность к пониманию дискурса в задаче CUDR на основе PDTB и хорошо обобщаются на неизвестные дискурсивные фреймворки, такие как RST и SDRT.

Исследовательский контекст и мотивация

Определение проблемы

Дискурсивная структура критична для обеспечения безопасного и этичного поведения языковых моделей, однако мало известно о том, как языковые модели обрабатывают дискурс внутри себя, что ограничивает нашу способность гарантировать надежность и безвредность выходных данных модели.

Значимость исследования

  1. Требования безопасности: Понимание дискурса критично для безопасного и этичного поведения модели
  2. Отсутствие интерпретируемости: Существующие методы не обеспечивают глубокого понимания механизмов обработки дискурса
  3. Вызовы сложности: Дискурсивные отношения включают более длинный контекст и сложные рассуждения по сравнению с простыми задачами

Ограничения существующих подходов

  1. Визуализация внимания и генерация обоснований не обеспечивают механистических объяснений
  2. Существующие методы поиска цепей сосредоточены на простых задачах (например, числовое сравнение) и плохо адаптируются к дискурсивным отношениям
  3. Отсутствие единого понимания между фреймворками: Недостаток механистического сравнения между различными дискурсивными фреймворками

Исследовательская мотивация

Открыть новые пути понимания механизмов сложных языковых задач путем связи лингвистической структуры дискурса с требованиями поиска цепей.

Основные вклады

  1. Предложение задачи CUDR: Разработка задачи завершения дискурсивных отношений, подходящей для поиска цепей
  2. Построение многофреймворкового набора данных: Охватывающего основные дискурсивные фреймворки PDTB, RST, SDRT и др., всего 27 754 экземпляра
  3. Обнаружение дискурсивных цепей: Выявление разреженных цепей, составляющих всего 0,2% соединений модели, но достигающих 90% верности
  4. Кросс-фреймворковое обобщение: Доказательство того, что цепи, изученные на PDTB, хорошо обобщаются на другие дискурсивные фреймворки
  5. Построение иерархии цепей: Первое построение иерархии дискурса на основе компонентов нейронных цепей
  6. Анализ лингвистических признаков: Раскрытие лингвистических признаков, захватываемых различными уровнями, и их кросс-фреймворковой согласованности

Подробное описание методов

Определение задачи: CUDR (Completion under Discourse Relations)

Задача CUDR создает контролируемую среду для тестирования дискурсивного поведения модели:

Формат входных данных:

  • Исходный дискурс: dori=(Arg1,Arg2,R,Conn)d_{ori} = (Arg1, Arg2, R, Conn)
  • Контрфактический дискурс: dcf=(Arg1,Arg2,R,Conn)d_{cf} = (Arg1, Arg'_2, R', Conn')

Установка задачи:

Пожалуйста, выберите один из двух следующих вариантов для завершения дискурса:
Вариант 1: "он идет в столовую" 
Вариант 2: "столовая закрыта"

Для завершения: [Боб голоден]_{Arg1} [поэтому]_{Conn} → [он идет в столовую]_{Arg2}

Путем изменения дискурсивного коннектора (с "поэтому" на "но") предсказание модели должно измениться соответственно.

Метод поиска цепей

Модификация активации (Activation Patching)

Определение влияния ребра ee как: g(e)=L(xcfdo(E=eori))L(xcf)g(e) = L(x_{cf}|do(E = e_{ori})) - L(x_{cf})

где LL — метрика оценки, xcfx_{cf} — контрфактический вход, eorie_{ori} — активация из исходного прогона.

Модификация атрибуции ребер (Edge Attribution Patching)

Использование аппроксимации первого порядка Тейлора для ускорения вычислений: g(e)(zuorizucf)TvL(xcf)g(e) \approx (z^{ori}_u - z^{cf}_u)^T \nabla_v L(x_{cf})

где zuoriz^{ori}_u и zucfz^{cf}_u — активации узла uu в исходном и контрфактическом прогонах соответственно, vL(xcf)\nabla_v L(x_{cf}) — градиент в узле vv.

Построение дискурсивных цепей

  1. Применение модификации атрибуции к набору образцов для данного дискурсивного отношения
  2. Вычисление среднего значения g(e)g(e) для каждого ребра
  3. Выбор 1000 ребер с наибольшим абсолютным значением для формирования цепи

Построение набора данных

Охват нескольких фреймворков

Дискурсивный фреймворкКоличество отношенийОбъем данных CUDR
PDTB1311 843
GDTB125 253
GUM-RST176 805
SDRT103 853
Итого5227 754

Стратегия генерации контрфактических данных

Использование GPT-4o-mini для генерации контрфактических Arg2Arg'_2, обеспечивающих:

  1. Согласованность с исходным Arg1Arg1 и контрфактическим коннектором ConnConn'
  2. Соответствие длины исходному Arg2Arg2
  3. Четкое и заметное выражение отношения

Экспериментальная установка

Выбор модели

  • Основная модель: GPT-2 medium (следуя стандартному выбору в исследованиях поиска цепей)
  • Расширенная проверка: GPT-2 large

Метрики оценки

  • Оценка верности: ΔLpatchΔLfull\frac{\Delta L_{patch}}{\Delta L_{full}} (нормализованная верность)
  • Логарифмическая разница: ΔL=L(Arg2)L(Arg2)\Delta L = L(Arg2) - L(Arg'_2)

Базовые методы

  1. Случайные цепи: Случайно выбранные ребра трансформера
  2. IOI цепи: Цепи косвенного объектного идентификатора (представляющие общие способности языкового моделирования)

Иерархия цепей

Построение иерархии цепей в стиле PDTB:

  • L3: Отношения листовых узлов (1000 ребер)
  • L2: Объединение нескольких цепей L3 (500+ ребер)
  • L1: Цепи верхних категорий (200-500 ребер)
  • L0: Метацепи (137 ребер)

Результаты экспериментов

Основные результаты

RQ1: Верность дискурсивных цепей

  • Высокая верность: Цепи L3 и L1 достигают 90% верности, используя всего около 200 ребер
  • Превосходство над базовыми методами: Значительно превосходят случайные базовые методы и IOI базовые методы
  • Эффект иерархии: Цепи с тонкой зернистостью (L3) более эффективны на ранних этапах, но имеют большую дисперсию

RQ2: Способность к кросс-фреймворковому обобщению

  • Хорошее обобщение: Цепи PDTB эффективно обобщаются на GDTB, RST, SDRT
  • Порядок производительности: Own > L3 > L1 ≈ L0 > IOI > Random (согласованная тенденция)
  • Перекрытие цепей: Перекрытие цепей между фреймворками положительно коррелирует с производительностью (например, PDTB→GDTB: r=0,44)

RQ3: Анализ лингвистических признаков

Выявление пяти ключевых лингвистических признаков и их паттернов использования:

  1. Модальность (modality): Наиболее широко используется
  2. Синонимия (synonymy): Используется чаще, чем антонимия
  3. Отрицание (negation): Согласованное использование между фреймворками
  4. Антонимия (antonymy): Слабее в причинных и временных отношениях
  5. Кореференция (coreference): Наиболее активна в отношениях расширенного класса

Анализ иерархии

  • Низкие уровни: Захватывают лингвистические признаки (лексическая семантика, кореференция)
  • Высокие уровни: Кодируют дискурсивные абстракции
  • Дискурс-специфичные области: Исходные слои 8-16, целевые слои 10-20 содержат дискурс-специфичные ребра

Анализ конкретных случаев

Анализ ошибочных случаев выявляет недостатки цепей PDTB при обработке восклицаний ("ура!!") и пропуска подлежащего, тогда как цепи SDRT лучше справляются с этими явлениями.

Связанные работы

Моделирование дискурса

  • Развитие фреймворков: Три основных фреймворка PDTB, RST, SDRT
  • Унификационные усилия: Бенчмарк DISRPT, автоматическое преобразование фреймворков и др.
  • Методы оценки: Оценка на основе вопросов, генерация синтетических данных

Механистическая интерпретируемость

  • Поиск цепей: Главным образом применяется к простым задачам (IOI, числовое сравнение, согласование подлежащего-глагола и др.)
  • Ограничения методов: Существующие методы плохо справляются со сложными дискурсивными явлениями
  • Вклад данной работы: Первое применение поиска цепей к пониманию дискурса

Выводы и обсуждение

Основные выводы

  1. Эффективность разреженности: Всего 0,2% соединений модели достаточно для реализации понимания дискурса
  2. Кросс-фреймворковая согласованность: Языковые модели могут кодировать общее представление дискурсивных отношений
  3. Иерархическая обработка: Низкие уровни обрабатывают лингвистические признаки, высокие уровни — дискурсивные абстракции
  4. Согласованность признаков: Полезность лингвистических признаков остается согласованной между фреймворками

Ограничения

  1. Языковые ограничения: Исследование ограничено корпусами на английском языке
  2. Диапазон моделей: Сосредоточено главным образом на одной модели трансформера
  3. Сравнение с человеческим мозгом: Отсутствует сравнение с механизмами обработки дискурса человеком
  4. Качество данных: Сгенерированные контрфактические данные относительно просты и прямолинейны

Направления будущих исследований

  1. Многоязычное расширение: Исследование согласованности дискурсивных цепей между языками
  2. Сложные сценарии: Расширение на более сложные дискурсивные стили и неоднозначные случаи
  3. Прикладная ориентация: Применение для обнаружения предвзятости и направления модели
  4. Расширение архитектуры: Адаптация к более крупным языковым моделям

Глубокая оценка

Преимущества

  1. Высокая инновационность: Первое применение поиска цепей к сложной задаче понимания дискурса
  2. Строгость методов: Умное проектирование задачи CUDR, эффективно поддерживающее модификацию активации
  3. Полнота охвата: Охват нескольких основных дискурсивных фреймворков с заметным объемом данных
  4. Глубокий анализ: Многомерный анализ от иерархии цепей до лингвистических признаков
  5. Хорошее обобщение: Убедительные результаты кросс-фреймворкового обобщения

Недостатки

  1. Вычислительная сложность: Процесс поиска цепей требует интенсивных вычислений, сложно масштабируется на более крупные модели
  2. Зависимость от данных: Зависимость от данных, сгенерированных LLM, может вносить предвзятость
  3. Ограничения оценки: Оценка главным образом на основе одной архитектуры модели, обобщаемость требует проверки
  4. Теоретическая глубина: Отсутствует теоретическое объяснение того, почему эти цепи эффективны

Влияние

  1. Академическая ценность: Открывает новые направления для механистических исследований понимания дискурса
  2. Практический потенциал: Может применяться для отладки моделей, обнаружения предвзятости и других приложений
  3. Методологический вклад: Парадигма CUDR может быть обобщена на другие сложные задачи NLP
  4. Междисциплинарное значение: Связывает вычислительную лингвистику и исследования механистической интерпретируемости

Применимые сценарии

  1. Анализ моделей: Понимание механизмов обработки дискурса в крупных языковых моделях
  2. Обнаружение безопасности: Выявление потенциальной предвзятости моделей в понимании дискурса
  3. Улучшение моделей: Направление целевого улучшения способности к пониманию дискурса
  4. Образовательные исследования: Предоставление вычислительной перспективы для проверки теории дискурса

Библиография

Статья цитирует богатую литературу по связанным работам, включая:

  • Классические работы по теории дискурса: Mann & Thompson (1987), Asher & Lascarides (2003)
  • Методы поиска цепей: Wang et al. (2023), Conmy et al. (2023)
  • Наборы данных дискурса: Webber et al. (2019), Liu et al. (2024b)
  • Механистическая интерпретируемость: Zhang & Nanda (2024), Miller et al. (2024)

Общая оценка: Это высококачественная исследовательская статья, демонстрирующая отличные результаты в методологической инновации, экспериментальном проектировании и глубине анализа. Благодаря умному проектированию задачи CUDR авторы успешно применили технику поиска цепей к сложной задаче понимания дискурса, предоставив новую перспективу для понимания внутренних механизмов языковых моделей. Несмотря на некоторые ограничения, пионерский характер работы и богатство полученных результатов придают ей значительную академическую ценность и практический потенциал.