2025-11-18T03:04:13.779328

Interpreting the Latent Structure of Operator Precedence in Language Models

Yugeswardeenoo, Nukala, Blondin et al.

Large Language Models (LLMs) have demonstrated impressive reasoning capabilities but continue to struggle with arithmetic tasks. Prior works largely focus on outputs or prompting strategies, leaving the open question of the internal structure through which models do arithmetic computation. In this work, we investigate whether LLMs encode operator precedence in their internal representations via the open-source instruction-tuned LLaMA 3.2-3B model. We constructed a dataset of arithmetic expressions with three operands and two operators, varying the order and placement of parentheses. Using this dataset, we trace whether intermediate results appear in the residual stream of the instruction-tuned LLaMA 3.2-3B model. We apply interpretability techniques such as logit lens, linear classification probes, and UMAP geometric visualization. Our results show that intermediate computations are present in the residual stream, particularly after MLP blocks. We also find that the model linearly encodes precedence in each operator's embeddings post attention layer. We introduce partial embedding swap, a technique that modifies operator precedence by exchanging high-impact embedding dimensions between operators.

academic

Интерпретация скрытой структуры приоритета операторов в языковых моделях

Основная информация

ID статьи: 2510.13908
Название: Interpreting the Latent Structure of Operator Precedence in Language Models
Авторы: Dharunish Yugeswardeenoo, Harshil Nukala, Cole Blondin, Sean O'Brien, Vasu Sharma, Kevin Zhu
Классификация: cs.CL (вычислительная лингвистика)
Дата публикации/конференция: COLM 2025
Ссылка на статью: https://arxiv.org/abs/2510.13908

Аннотация

Большие языковые модели (LLMs) демонстрируют превосходные способности к рассуждению, однако испытывают затруднения при выполнении арифметических задач. Предыдущие исследования сосредоточивались на выходных данных или стратегиях подсказок, игнорируя внутреннюю структуру, посредством которой модели выполняют арифметические вычисления. В данном исследовании с использованием открытой инструктивно-настроенной модели LLaMA 3.2-3B изучается, кодируют ли LLMs приоритет операторов в своих внутренних представлениях. Исследование построено на наборе данных арифметических выражений, содержащих три операнда и два оператора, с вариациями порядка операций и расположения скобок. Используя этот набор данных, авторы отслеживают, появляются ли промежуточные результаты в остаточном потоке модели, и применяют методы интерпретируемости, включая logit lens, линейные классификационные зонды и геометрическую визуализацию UMAP. Результаты показывают, что промежуточные вычисления присутствуют в остаточном потоке, особенно после блоков MLP. Исследование также выявило, что модель линейно кодирует информацию о приоритете в встраиваниях операторов после слоёв внимания. В статье представлена техника частичного обмена встраиваниями, которая позволяет модифицировать приоритет операторов путём обмена высокозначимыми измерениями встраивания между операторами.

Исследовательский контекст и мотивация

Определение проблемы

Центральная проблема, которую решает данное исследование, заключается в следующем: кодируют ли большие языковые модели и каким образом они кодируют правила приоритета операторов в своих внутренних представлениях при обработке арифметических выражений. Конкретно, когда модель сталкивается с выражением типа "1 + 1 × 2", следует ли она математическим правилам приоритета и сначала вычисляет умножение, или просто обрабатывает выражение слева направо.

Значимость

Теоретическое значение: Понимание механизмов арифметического рассуждения LLMs имеет важное значение для исследований интерпретируемости машинного обучения
Практическая ценность: Улучшение производительности модели при выполнении задач математического рассуждения, особенно для моделей меньшего размера
Методологический вклад: Предоставление новых технических инструментов для анализа внутренних представлений нейронных сетей

Ограничения существующих методов

Большинство исследований сосредоточены на естественноязычных подсказках и окончательных результатах
Отсутствует глубокий анализ обработки приоритета операторов и промежуточных этапов вычислений
Недостаточное понимание структуры арифметических вычислений внутри модели

Исследовательская мотивация

Посредством методов механистической интерпретируемости глубоко исследовать, как LLMs обрабатывают арифметические выражения внутренне, с особым акцентом на механизмы обработки порядка операций.

Основные вклады

Построение систематического набора данных арифметических выражений: Содержащего выражения с тремя операндами и двумя операторами, систематически тестирующего синтаксический и семантический приоритет
Обнаружение доказательств существования промежуточных вычислений: Посредством техники logit lens обнаружено, что модель выполняет промежуточные вычисления в глубоких слоях сети
Раскрытие линейного кодирования приоритета операторов: Доказано, что модель линейно кодирует информацию о приоритете операторов после слоёв внимания
Предложение техники частичного обмена встраиваниями: Новый метод модификации приоритета операторов путём обмена высокозначимыми измерениями встраивания
Предоставление геометрического анализа визуализации: Демонстрация организационной структуры представлений операторов посредством UMAP

Подробное описание методов

Определение задачи

Входные данные: Арифметические выражения, содержащие три операнда и два оператора, например "a o1 b o2 c" Выходные данные: Результат вычисления выражения моделью Ограничения:

Операнды a, b, c ∈ {1, 2, ..., 9}
Пары операторов (o1, o2) из набора смешанного приоритета: {(+, *), (-, *), (+, /), (-, /)}
Все результаты вычислений являются положительными целыми числами

Построение набора данных

Для каждой комбинации операндов и операторов генерируются шесть структурных вариантов:

Левые скобки: (a o1 b) o2 c
Правые скобки: a o1 (b o2 c)
Перевёрнутые левые скобки: (a o2 b) o1 c
Перевёрнутые правые скобки: a o2 (b o1 c)
Без скобок (естественный порядок): a o1 b o2 c
Без скобок (перевёрнутый): a o2 b o1 c

Всего сгенерировано 8547 подсказок, из которых модель правильно ответила на 4401.

Ключевые технические методы

1. Анализ Logit Lens

Цель: Отслеживание появления промежуточных вычислений в остаточном потоке
Метод: Проецирование остаточного потока каждого слоя через матрицу unembedding на словарь для получения логитов
Анализ: Проверка наличия ожидаемых промежуточных результатов в топ-10 токенах

2. Техника линейного зонда

Зонд промежуточных вычислений: Обучение линейного зонда для прямого предсказания промежуточных значений из активаций модели
Зонд приоритета: Использование логистической регрессии для классификации порядка вычисления операторов (первый или второй)

3. Частичный обмен встраиваниями

Алгоритм:

Идентификация влиятельных измерений: Последовательный обмен отдельных измерений скрытых представлений операторов "+" и "*"
Измерение эффекта возмущения: Если обмен изменяет предсказание модели с правильного ответа (например, 23) на неправильный (например, 35), то это измерение кодирует информацию о приоритете
Ранжирование и отбор: Ранжирование измерений по влиятельности, определение минимального подмножества измерений, необходимого для изменения предсказания

4. Геометрическая визуализация UMAP

Проецирование векторов активации токенов операторов в низкоразмерное пространство
Формат маркировки: [позиция][оператор]приоритет, например "1m2" обозначает символ умножения в позиции 1 выражения, но с приоритетом вычисления 2

Экспериментальная установка

Выбор модели

Использована открытая инструктивно-настроенная модель LLaMA 3.2-3B с 28 слоями трансформера.

Статистика набора данных

Общее количество подсказок: 8547
Правильные ответы модели: 4401 (51,5%)
Для анализа используются только образцы, на которые модель ответила правильно

Метрики оценки

Коэффициент обнаружения промежуточных вычислений: Доля случаев, когда промежуточный результат появляется в топ-логитах
Точность линейного зонда: Оценка R² и точность классификации
Коэффициент успеха обмена приоритетов: Доля случаев, когда успешно изменено предсказание модели

Результаты экспериментов

Основные находки

1. Существование промежуточных вычислений

Коэффициент обнаружения: В 2799 случаях из 4401 (63,6%) обнаружено появление промежуточных вычислений в топ-логитах
Слои появления: Главным образом в слоях 16-27, с пиком в слоях 18-19
Ключевые компоненты: Блоки MLP являются ключевыми компонентами для введения промежуточных логитов, а не блоки внимания

2. Доказательства линейного кодирования

Линейный зонд может с высокой точностью предсказывать промежуточные вычисления уже после слоя 0 (высокие оценки R²)
Зонд классификации приоритета достигает 100% точности на тестовом наборе
Механизм внимания значительно повышает линейную декодируемость приоритета операторов

3. Результаты частичного обмена встраиваниями

Успешное изменение предсказания модели путём обмена конкретных измерений в нескольких экземплярах
Доказательство разреженной локализации информации о приоритете операторов в конкретных измерениях встраивания

4. Анализ геометрической структуры

Визуализация UMAP показывает:

Явное разделение встраиваний операторов до и после внимания
Кластеризацию операторов с одинаковой позицией и приоритетом
Кодирование информации о приоритете операторов механизмом внимания

Количественные результаты

Метрика	Значение
Коэффициент обнаружения промежуточных вычислений	63,6% (2799/4401)
Точность зонда приоритета	100%
Диапазон основных слоёв обнаружения	16-27
Слой пика обнаружения	18-19

Связанные работы

Исследования арифметического рассуждения

Mirzadeh et al. (2024) и Bubeck et al. (2023) указывают на постоянные затруднения LLMs при выполнении арифметических задач
Lewkowycz et al. (2022) исследуют стратегии подсказок, такие как цепочка рассуждений
Boye & Moell (2025) оценивают арифметические вычисления нескольких моделей, обнаруживая частые несоответствия

Механистическая интерпретируемость

Zhang et al. (2024) исследуют внутреннюю структуру LLMs при выполнении арифметических задач
Stolfo et al. (2023) применяют причинно-следственный посреднический анализ для отслеживания вклада внутренних компонентов в арифметические предсказания
Nainani et al. (2024) предлагают концепцию "схем" для объяснения поведения модели при выполнении конкретных задач

Технические методы

nostalgebraist (2020) предложил технику logit lens
Alain & Bengio (2018) разработали метод линейного зонда
McInnes et al. (2020) разработали технику снижения размерности UMAP

Заключение и обсуждение

Основные выводы

Промежуточные вычисления действительно существуют: Модель LLaMA 3.2-3B выполняет промежуточные вычисления внутренне, и эта информация становится линейно декодируемой в глубоких слоях сети
Линейное кодирование приоритета: Информация о приоритете операторов линейно кодируется в конкретных измерениях встраивания после слоёв внимания
Ключевая роль MLP: Блоки MLP, а не блоки внимания, отвечают за создание результатов промежуточных вычислений
Геометрическая организационная структура: Модель организует представления операторов в соответствии с их позицией и приоритетом вычисления

Ограничения

Ограничение размера модели: Эксперименты проведены только на модели LLaMA с 3 млрд параметров; результаты могут не применяться к моделям большего размера
Сложность задачи: Рассматриваются только простые выражения с тремя операндами и двумя операторами
Типы операторов: Охватываются только базовые арифметические операции, более сложные математические операции не включены
Ограничение коэффициента успеха: Модель может правильно ответить только на примерно 51,5% арифметических задач

Направления будущих исследований

Расширение на языковые модели большего размера
Исследование более сложных математических выражений и типов операций
Изучение внутренних представлений других математических концепций (функции, уравнения)
Разработка методов улучшения модели на основе этих находок

Глубокая оценка

Преимущества

Методологическая новизна: Частичный обмен встраиваниями является новой и эффективной техникой вмешательства
Полнота экспериментов: Комбинирование нескольких методов интерпретируемости (logit lens, линейные зонды, UMAP, экспериментальные вмешательства)
Важность находок: Первое систематическое доказательство механизма кодирования приоритета операторов внутри LLMs
Техническая строгость: Разумный дизайн экспериментов, использование только образцов, на которые модель ответила правильно

Недостатки

Ограничение масштаба: Эксперименты ограничены моделью с 3 млрд параметров; обобщаемость требует проверки
Упрощение задачи: Арифметические выражения относительно просты; сложность реальных приложений недостаточно рассмотрена
Теоретическая глубина: Отсутствует теоретическое объяснение причин появления этих механизмов
Практическая применимость: Хотя предоставлены важные insights, способ использования этих находок для улучшения производительности модели остаётся неясным

Влияние

Академическая ценность: Значительный вклад в механистическое понимание арифметического рассуждения LLMs
Методологическое значение: Техника частичного обмена встраиваниями может быть применена к анализу других задач
Практический потенциал: Предоставление направлений для улучшения арифметических способностей моделей меньшего размера
Воспроизводимость: Использование открытых моделей делает эксперименты относительно легко воспроизводимыми

Применимые сценарии

Анализ моделей: Применимо к анализу внутренних механизмов других языковых моделей
Образовательные приложения: Помощь в понимании того, как ИИ обрабатывает математические концепции
Улучшение моделей: Предоставление руководства для разработки моделей с лучшим арифметическим рассуждением
Исследования интерпретируемости: Предоставление методологического справочника для механистического анализа других когнитивных задач

Библиография

В статье цитируются важные работы в областях механистической интерпретируемости, арифметического рассуждения и анализа нейронных сетей, включая:

nostalgebraist (2020) - Техника logit lens
Alain & Bengio (2018) - Метод линейного зонда
Zhang et al. (2024) - Внутренняя структура арифметического рассуждения LLMs
Stolfo et al. (2023) - Причинно-следственный посреднический анализ
McInnes et al. (2020) - Техника снижения размерности UMAP

Данное исследование предоставляет важные insights для понимания механизмов внутреннего арифметического рассуждения больших языковых моделей, особенно в отношении обработки приоритета операторов. Несмотря на некоторые ограничения, методологическая новизна и важность находок делают его ценным вкладом в область механистической интерпретируемости.