Discursive Circuits: How Do Language Models Understand Discourse Relations?
Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
academic
Дискурсивные цепи: Как языковые модели понимают дискурсивные отношения?
В данной статье исследуется, какие компоненты трансформерных языковых моделей отвечают за понимание дискурса. Авторы предполагают, что разреженные вычислительные графы (называемые дискурсивными цепями) контролируют способ обработки моделью дискурсивных отношений. В отличие от простых задач, дискурсивные отношения включают более длинные текстовые промежутки и сложные рассуждения. Для осуществления поиска цепей авторы вводят задачу "завершение при дискурсивных отношениях" (CUDR), позволяющую модели завершить дискурс при указанном отношении. Эксперименты показывают, что разреженные цепи (составляющие примерно 0,2% модели GPT-2) восстанавливают способность к пониманию дискурса в задаче CUDR на основе PDTB и хорошо обобщаются на неизвестные дискурсивные фреймворки, такие как RST и SDRT.
Дискурсивная структура критична для обеспечения безопасного и этичного поведения языковых моделей, однако мало известно о том, как языковые модели обрабатывают дискурс внутри себя, что ограничивает нашу способность гарантировать надежность и безвредность выходных данных модели.
Пожалуйста, выберите один из двух следующих вариантов для завершения дискурса:
Вариант 1: "он идет в столовую"
Вариант 2: "столовая закрыта"
Для завершения: [Боб голоден]_{Arg1} [поэтому]_{Conn} → [он идет в столовую]_{Arg2}
Путем изменения дискурсивного коннектора (с "поэтому" на "но") предсказание модели должно измениться соответственно.
Анализ ошибочных случаев выявляет недостатки цепей PDTB при обработке восклицаний ("ура!!") и пропуска подлежащего, тогда как цепи SDRT лучше справляются с этими явлениями.
Статья цитирует богатую литературу по связанным работам, включая:
Классические работы по теории дискурса: Mann & Thompson (1987), Asher & Lascarides (2003)
Методы поиска цепей: Wang et al. (2023), Conmy et al. (2023)
Наборы данных дискурса: Webber et al. (2019), Liu et al. (2024b)
Механистическая интерпретируемость: Zhang & Nanda (2024), Miller et al. (2024)
Общая оценка: Это высококачественная исследовательская статья, демонстрирующая отличные результаты в методологической инновации, экспериментальном проектировании и глубине анализа. Благодаря умному проектированию задачи CUDR авторы успешно применили технику поиска цепей к сложной задаче понимания дискурса, предоставив новую перспективу для понимания внутренних механизмов языковых моделей. Несмотря на некоторые ограничения, пионерский характер работы и богатство полученных результатов придают ей значительную академическую ценность и практический потенциал.