2025-11-16T07:28:12.353949

Representation in large language models

Yetman

The extraordinary success of recent Large Language Models (LLMs) on a diverse array of tasks has led to an explosion of scientific and philosophical theorizing aimed at explaining how they do what they do. Unfortunately, disagreement over fundamental theoretical issues has led to stalemate, with entrenched camps of LLM optimists and pessimists often committed to very different views of how these systems work. Overcoming stalemate requires agreement on fundamental questions, and the goal of this paper is to address one such question, namely: is LLM behavior driven partly by representation-based information processing of the sort implicated in biological cognition, or is it driven entirely by processes of memorization and stochastic table look-up? This is a question about what kind of algorithm LLMs implement, and the answer carries serious implications for higher level questions about whether these systems have beliefs, intentions, concepts, knowledge, and understanding. I argue that LLM behavior is partially driven by representation-based information processing, and then I describe and defend a series of practical techniques for investigating these representations and developing explanations on their basis. The resulting account provides a groundwork for future theorizing about language models and their successors.

academic

Представление в больших языковых моделях

Основная информация

ID статьи: 2501.00885
Название: Representation in large language models
Автор: Cameron C. Yetman (Университет Торонто)
Классификация: cs.CL cs.AI cs.LG
Дата публикации: 1 января 2025 г. (черновая версия)
Ссылка на статью: https://arxiv.org/abs/2501.00885

Аннотация

Выдающийся успех больших языковых моделей (БЯМ) в различных задачах вызвал обширное научное и философское теоретизирование, направленное на объяснение их функционирования. Однако разногласия по фундаментальным теоретическим вопросам привели к тупику, когда оптимисты и пессимисты в отношении БЯМ придерживаются диаметрально противоположных взглядов на то, как работают эти системы. Преодоление тупика требует достижения консенсуса по фундаментальным вопросам. Данная работа направлена на решение одного из них: движется ли поведение БЯМ частично обработкой информации на основе представлений, подобной биологическому познанию, или полностью управляется процессами мемоизации и случайного поиска по таблице? Это вопрос о том, какой алгоритм реализуют БЯМ, и ответ имеет важные последствия для более высокоуровневых вопросов, таких как наличие у этих систем убеждений, намерений, концепций, знаний и понимания. Автор утверждает, что поведение БЯМ частично управляется обработкой информации на основе представлений, и описывает и защищает набор практических методов для исследования этих представлений и разработки объяснений на их основе.

Исследовательский контекст и мотивация

Основной вопрос исследования

Центральный вопрос, который решает данное исследование: управляется ли поведение больших языковых моделей обработкой информации на основе представлений или полностью зависит от мемоизации и случайного поиска по таблице?

Важность проблемы

Согласование теоретических разногласий: В области исследования БЯМ существуют серьёзные теоретические разногласия; оптимисты считают, что БЯМ обладают когнитивными способностями, пессимисты рассматривают их как сложные системы сопоставления образцов
Основы когнитивной науки: Этот вопрос напрямую связан с тем, могут ли БЯМ использоваться в качестве когнитивных моделей и являются ли они сами по себе когнитивными системами
Основание высокоуровневых способностей: Ответ повлияет на наше суждение о том, обладают ли БЯМ высокоуровневыми когнитивными способностями, такими как убеждения, намерения, концепции, знания и понимание

Ограничения существующих подходов

Злоупотребление терминологией: Термин "представление" в практике машинного обучения используется слишком широко, теряя теоретическую ценность
Ограничения поведенческого подхода: Определение наличия представлений исключительно на основе поведения содержит фундаментальную неопределённость
Отсутствие систематического метода: Отсутствует систематический подход к идентификации и проверке представлений в БЯМ

Исследовательская мотивация

Автор считает, что решение этого фундаментального вопроса критически важно для преодоления текущего теоретического тупика и создания прочной основы для будущей теоретизации БЯМ.

Основные вклады

Предложена четырёхусловная характеризация представления: Предоставлено существенное, операциональное определение концепции "представления", включающее четыре условия: информация (INFORMATION), эксплуатируемость (EXPLOITABILITY), поведение (BEHAVIOR) и роль (ROLE)
Опровержение интерпретации поиска по таблице: Путём анализа случаев Othello-GPT и моделей цветового пространства доказано, что БЯМ не могут быть полностью объяснены конечными автоматами или таблицами поиска
Установление рамки механистической интерпретируемости: Систематическое описание использования методов зондирования (probing) и вмешательства (intervention) для проверки наличия представлений
Предоставление практических методов исследования: Предложены конкретные технические инструменты и методологическое руководство для исследования представлений в БЯМ

Подробное описание методов

Четырёхусловное определение представления

Автор предлагает операциональное определение представления: система S имеет представление R о признаке z тогда и только тогда, когда выполнены следующие четыре условия:

REPRESENTATION

INFORMATION: R содержит информацию о z
EXPLOITABILITY: Информация о z, содержащаяся в R, эксплуатируема для S
BEHAVIOR: S использует информацию о z, содержащуюся в R, для производства устойчивого поведения, связанного с z
ROLE: R играет механистическую роль в устойчивом поведении S, связанном с z

Технические детали

Условие информации (INFORMATION)
- Определение через взаимную информацию: $I(X,Y) = H(X) - H(X|Y)$
- Условие выполнено, когда $I(R,z) > 0$
- Информационные отношения могут быть установлены через причинно-генеративную корреляцию или структурное соответствие
Условие эксплуатируемости (EXPLOITABILITY)
- S должна быть способна модулировать своё поведение, связанное с z, на основе активации R способом, зависящим от содержания
- Проверяется через тестирование и вмешательство в R
Условие поведения (BEHAVIOR)
- "Устойчивое" означает нечувствительность к небольшим возмущениям окружающих условий
- Представление обеспечивает устойчивое поведение, но требует встраивания в надлежащий алгоритм
Условие роли (ROLE)
- R должна играть причинную роль в механизме, управляющем поведением
- Избегает проблемы панпредставленчества

Критика гипотезы поиска по таблице

Автор анализирует точку зрения, рассматривающую БЯМ как таблицы поиска:

Точка зрения конечного автомата: БЯМ рассматриваются как конечные автоматы, кодирующие крупномасштабные таблицы поиска
Непродуктивные характеристики: Системы поиска по таблице характеристически непродуктивны — "могут возвращать только то, что уже было введено"
Опровергающие доказательства:
- Othello-GPT: Обучена на данных с отсутствующими 25% дерева игры, всё ещё достигает 99,98% успешности легальных ходов на полном наборе данных
- Модель цветового пространства: Показывает сопоставимую производительность на повёрнутых кодировках цветов (36% против 34% точности Top-3)

Экспериментальная установка и результаты

Тематическое исследование 1: Othello-GPT

Дизайн эксперимента:

Обучение модели GPT на миллионах записей игр в отелло
Записи содержат только последовательности ходов без информации о правилах игры или свойствах доски
Контрольная группа: обучение на полном наборе данных
Экспериментальная группа: обучение на перекошенном наборе данных с отсутствующими 25% дерева игры

Результаты:

Контрольная группа: 99,99% успешность легальных ходов
Экспериментальная группа: 99,98% успешность легальных ходов
Ключевое открытие: Модель успешна на невиданных конфигурациях доски, что указывает на отсутствие простого поиска по таблице

Тематическое исследование 2: Модель цветового пространства

Дизайн эксперимента:

Использование предварительно обученного GPT для тестирования рассуждений о структурных свойствах в области цветов и пространства
Парадигма контекстного обучения: 60 обучающих примеров
Контрольная группа: ограниченная часть спектра с парами RGB-кода и названий цветов
Экспериментальная группа: систематически переупорядоченное "повёрнутое" условие, сохраняющее структурные отношения

Результаты:

Контрольная группа: 34% точность Top-3
Повёрнутая группа: 36% точность Top-3
Ключевое открытие: Сопоставимая производительность при сохранении структурных отношений, но полностью новых конкретных пар

Проверка механистической интерпретируемости

Методика зондирования (Probing)

Использование небольших линейных MLP в качестве зондов
Декодирование конкретной информации из активаций скрытых слоёв целевой сети
Проверка условий INFORMATION и EXPLOITABILITY

Методика вмешательства (Intervention)

Модификация активаций: Изменение конкретных значений активаций для наблюдения изменений поведения
Направленные признаки: Зажатие конкретных признаков до аномально высоких/низких значений
Проверка условий BEHAVIOR и ROLE

Результаты проверки Othello-GPT:

Линейное зондирование успешно классифицирует состояния доски ("мой"/"твой"/"пусто")
Вмешательство в активации (переворот состояния фишек) приводит к предсказаниям модели, согласованным с изменённым состоянием доски

Результаты проверки Claude 3 Sonnet:

Использование разреженных автокодировщиков для идентификации интерпретируемых признаков (например, Золотые ворота, нейронаука)
Эксперименты с направленными признаками: активация признака Золотых ворот в 10 раз приводит к упоминанию моста моделью

Связанные работы

Теоретические основы представления

Традиция когнитивной науки: Теоретические основы представления, установленные Fodor (1975), Sterelny (1991), Shea (2018) и другими
Вычислительные уровни: Основаны на рамке анализа алгоритмических уровней Marr (1982)

Представление в машинном обучении

Обучение представлениям: Рамка обучения представлениям Bengio et al. (2014)
Проблема обобщения терминологии: Проблема обобщения концепции "представления", указанная Ramsey (2017)

Методы интерпретации БЯМ

Анализ схем: Анализ вычислительных путей Elhage et al. (2021), Dunefsky et al. (2024)
Причинная абстракция: Метод выравнивания причинных моделей Geiger et al. (2021)
Механистическая интерпретируемость: Традиция исследований МИ, установленная Olah et al. (2018, 2020)

Заключение и обсуждение

Основные выводы

БЯМ обладают существенными представлениями: В определённых случаях поведение БЯМ управляется представлениями, удовлетворяющими четырёхусловному определению
Интерпретация поиска по таблице недостаточна: Чистая мемоизация и поиск по таблице не могут объяснить способность БЯМ к обобщению
Методы механистической интерпретируемости эффективны: Методики зондирования и вмешательства предоставляют жизнеспособный путь для исследования представлений в БЯМ

Ограничения

Контекстная зависимость применения условий: Оценка устойчивости представления зависит от конкретной задачи и окружения
Нерешённая проблема определения содержания: Систематически не решена проблема того, как определяется содержание представлений
Высокоуровневые когнитивные способности остаются открытыми: Не решены напрямую вопросы о том, обладают ли БЯМ убеждениями, знаниями, пониманием и т.д.

Будущие направления

Систематическая карта представлений: Разработка систематического описания того, когда следует ожидать, что БЯМ полагаются на представления в сравнении с другими механизмами
Теория определения содержания: Развитие теоретической рамки для определения содержания представлений в БЯМ
Оценка когнитивных способностей: Оценка высокоуровневых когнитивных способностей БЯМ на основе анализа представлений

Глубокая оценка

Преимущества

Выдающийся теоретический вклад: Предоставляет строгое определение представления, заполняя важный теоретический пробел
Методологические инновации: Органично объединяет теорию представлений когнитивной науки с методами интерпретируемости машинного обучения
Достаточные эмпирические доказательства: Поддерживает основные аргументы через несколько тематических исследований и технических проверок
Ясное и строгое изложение: Логика аргументации ясна, технические детали описаны точно

Недостатки

Ограниченность случаев: Основано главным образом на нескольких случаях, требует более широкой проверки
Нечёткие критерии устойчивости: Определение "устойчивого поведения" остаётся относительно субъективным
Практические вызовы: Применение предложенных методов к крупномасштабным БЯМ по-прежнему сталкивается с техническими трудностями

Влияние

Теоретическое влияние: Предоставляет важную теоретическую основу для исследования когнитивных способностей БЯМ
Методологическое влияние: Способствует применению механистической интерпретируемости в исследовании БЯМ
Практическая ценность: Предоставляет новые инструменты для исследования безопасности и интерпретируемости ИИ

Применимые сценарии

Оценка способностей БЯМ: Оценка того, обладает ли конкретная БЯМ истинными когнитивными способностями
Улучшение моделей: Улучшение архитектуры моделей и методов обучения на основе анализа представлений
Исследование безопасности ИИ: Понимание внутренних механизмов БЯМ для повышения безопасности системы

Библиография

Статья цитирует обширную междисциплинарную литературу, включающую главным образом:

Основополагающая литература когнитивной науки: Fodor (1975), Marr (1982), Shea (2018)
Интерпретируемость машинного обучения: Olah et al. (2018), Elhage et al. (2021)
Критические исследования БЯМ: Bender & Koller (2020), Marcus & Davis (2020)
Литература по техническим методам: Li et al. (2023), Templeton et al. (2024)

Резюме: Данная работа вносит важные теоретические и методологические вклады в область исследования представлений в БЯМ. Посредством строгого концептуального анализа, эмпирических исследований и технических инноваций она предоставляет новую перспективу для понимания внутренних механизмов БЯМ. Хотя сохраняются некоторые ограничения, работа создаёт прочную основу для будущих исследований когнитивных способностей БЯМ.