Выравнивание больших языковых моделей (LLM) во время тестирования привлекает внимание благодаря избеганию дорогостоящих затрат на дообучение. В данной работе предлагается новый метод выравнивания во время тестирования — адаптивная выборка по важности в пространстве pre-logit (AISP), основанная на прогнозирующем управлении моделью с выборкой со случайными управляющими входами. AISP применяет гауссовские возмущения к выходам предпоследнего слоя (pre-logits), достигая выравнивания путём максимизации ожидаемого вознаграждения возмущённого среднего. Статья доказывает, что оптимальное среднее может быть получено посредством выборки по важности от выборочных вознаграждений. AISP превосходит выборку best-of-n по эффективности использования выборок и превосходит другие методы выравнивания на основе вознаграждения во время тестирования по значениям вознаграждения.
Выравнивание больших языковых моделей является ключевой технологией для обеспечения безопасности LLM и их широкого применения. Традиционные методы обучения с подкреплением на основе обратной связи от человека (RLHF) требуют дообучения параметров LLM, что влечёт огромные вычислительные затраты. Выравнивание во время тестирования (test-time alignment) направлено на получение ответов LLM, соответствующих предпочтениям человека, без обновления параметров модели.
Возможно ли управлять LLM для исследования оптимальных ответов посредством метода, не требующего обучения? Данная работа исходит из теории управления и применяет технику прогнозирующего управления моделью на основе выборки (MPPI), предлагая метод выравнивания во время тестирования, не требующий обучения.
Для входного запроса LLM генерирует ответ . Цель состоит в максимизации ожидаемого вознаграждения при наличии модели вознаграждения с ограничением расхождения KL от базовой LLM:
В отличие от RE-Control, использующего детерминированные управляющие входы, AISP использует случайные управляющие входы :
\text{softmax}(W_{LLM}(z_t + v_t) + b_{LLM}), & v_t \sim \mathcal{N}(u_t, \sigma^2I), \text{ для } 1 \leq t \leq \tau \\ \text{softmax}(W_{LLM}z_t + b_{LLM}), & \text{для } \tau < t \end{cases}$$ где: - $z_t = \phi_{LLM}(y_{<t})$ — pre-logit (выход предпоследнего слоя) - $u_t$ — оптимизируемое среднее возмущения - $\sigma^2I$ — фиксированная матрица ковариации - $\tau$ — временное окно управления #### 2. Распределение входных траекторий Входные траектории $V = [v_1, ..., v_\tau]$ подчиняются совместному гауссовскому распределению: $$q(V|U, \sigma^2) = \frac{1}{(2\pi\sigma^2)^{d\tau/2}} \exp\left(-\frac{1}{2\sigma^2}\sum_{t=1}^\tau (v_t - u_t)^\top(v_t - u_t)\right)$$ Базовое распределение — гауссовское с нулевым средним: $p(V|0, \sigma^2)$ #### 3. Вывод оптимального распределения Через свободную энергию: $$F(r, p, x, \lambda) = \log\left(\mathbb{E}_{V\sim P}\left[\exp\left(\frac{1}{\lambda}r(x,y(V))\right)\right]\right)$$ **Теорема 3.1** доказывает, что оптимальная функция плотности имеет вид: $$q^*(V) = \frac{1}{\eta}\exp\left(\frac{1}{\lambda}r(x,y(V))\right)p(V)$$ где $\eta$ — нормализующая константа. #### 4. Адаптивная выборка по важности Поскольку оптимальное распределение сложно вычислить напрямую, используется приближение выборкой по важности. **Теорема 3.2** доказывает, что оптимальное среднее имеет вид: $$u_t^* = \mathbb{E}_{V\sim Q^*}[v_t] = \mathbb{E}_{V\sim Q_{\hat{U},\sigma^2}}[w(V)v_t]$$ Функция весов: $$\tilde{w}^i = \frac{\exp\left(\frac{1}{\lambda}r(x,y(V^i)) - \frac{1-\alpha}{\sigma^2}\sum_{t=1}^\tau \hat{u}_t^\top v_t^i\right)}{\sum_j \exp\left(\frac{1}{\lambda}r(x,y(V^j)) - \frac{1-\alpha}{\sigma^2}\sum_{t=1}^\tau \hat{u}_t^\top v_t^j\right)}$$ где введён параметр релаксации $\alpha \in (0,1)$ для повышения численной стабильности. #### 5. Итеративное обновление Через $\kappa$ итераций, каждая генерирует $n$ выборок: $$\hat{u}_t^{k+1} = \sum_{i=1}^n \tilde{w}^i v_t^{i,k}, \quad v_t^{i,k} \sim \mathcal{N}(\hat{u}_t^k, \sigma^2I)$$ Окончательно выбирается ответ со всех выборок с наивысшим вознаграждением. ### Технические инновации #### 1. Пространство pre-logit vs пространство токенов - **Преимущества**: Распределение pre-logit может быть представлено замкнутым гауссовским распределением, тогда как распределение последовательности токенов сложно моделировать - **Вычислимость**: Функция весов легко вычисляется, без необходимости в сложных нормализующих потоках #### 2. Обоснованность гауссовского предположения Статья теоретически анализирует связь между гауссовским предположением и слоем softmax: Если $p(z_t|y_t=y_i) = \mathcal{N}(\mu_{y_i}, \Sigma)$, то по теореме Байеса: $$P(y_t=y_i|z_t) = \frac{\exp(\mu_{y_i}^\top\Sigma^{-1}z - \frac{1}{2}\mu_{y_i}\Sigma^{-1}\mu_{y_i} + \ln P(y_t=y_i))}{\sum_j \exp(\mu_{y_j}^\top\Sigma^{-1}z - \frac{1}{2}\mu_{y_j}\Sigma^{-1}\mu_{y_j} + \ln P(y_t=y_j))}$$ Это соответствует функции softmax, показывая, что гауссовское предположение согласуется с неявным предположением нейронных языковых моделей. #### 3. Теоретическая связь с BoN **Теорема 3.3** доказывает: когда $\lambda \to 0^+$ и $\kappa=1$, AISP вырождается в BoN. Это показывает, что AISP является непрерывным приближением и обобщением BoN, предоставляя более гибкую оптимизационную структуру. #### 4. Фиксированное временное окно В отличие от скользящего окна MPPI, AISP использует фиксированное окно $t \in [1, \tau]$, избегая потери разнообразия из-за фиксированных префиксных токенов. ## Экспериментальная установка ### Наборы данных 1. **Anthropic HH-RLHF**: Для выравнивания полезности и безвредности LLM 2. **Stanford Human Preferences (SHP)**: Набор данных о предпочтениях человека 3. **Масштаб**: Случайно выбрано 1000 образцов из тестового набора (ограничено вычислительными ресурсами) ### Базовые модели - **LLMs**: Llama-3-8B, Vicuna-7B-v1.5, Gemma3-4B - **Модели вознаграждения**: UltraRM-13b, Eurus-RM-7b ### Метрики оценки 1. **Значение вознаграждения**: Оценка с использованием UltraRM $r(x,y)$ 2. **Разнообразие (Diversity)**: $\sum_{n=2}^4 \frac{\text{unique n-gram}(y)}{\text{total n-gram}(y)}$, оценка повторяемости в ответах 3. **Связность (Coherence)**: Косинусное сходство между встраиваниями запроса и ответа с использованием SimCSE 4. **Процент побед (Win Rate)**: Оценка с использованием GPT-4 процента побед AISP над BoN ### Методы сравнения 1. **BoN (top-p)**: Best-of-N с выборкой nucleus, N=1024 (= κn) 2. **RE-Control**: Метод управления на основе обученной функции значения 3. **ARGS-greedy**: Метод добавления взвешенного вознаграждения к logit ### Детали реализации - **Параметры AISP**: $n=32$, $\kappa=32$, всего 1024 выборки - **Настройка гиперпараметров**: Поиск по сетке на 10 обучающих образцах - $\lambda \in [0.1, 0.3, 0.5, 0.7]$ (UltraRM), $[60, 120, 240, 480]$ (Eurus) - $\sigma^2 \in [0.1, 0.3, 0.5, 0.7]$ - $\alpha \in [0.99, 0.999, 0.9999, 0.99999]$ - **Параметры генерации**: Максимальная длина новых токенов 128, полупрецизионность (bfloat16) - **Оборудование**: NVIDIA A100 (40GB) и H100 (80GB) ## Результаты экспериментов ### Основные результаты #### Сравнение среднего вознаграждения (Таблица 1) Результаты на 6 комбинациях модель-модель вознаграждения, 2 наборах данных: **Набор данных SHP**: - **Llama3 & UltraRM**: AISP (-1.39) vs BoN (-2.38), улучшение **41.6%** - **Vicuna & UltraRM**: AISP (-1.46) vs BoN (-1.78), улучшение 18.0% - **Gemma3 & UltraRM**: AISP (-2.39) vs BoN (-3.43), улучшение 30.3% **Набор данных HH-RLHF**: - **Llama3 & UltraRM**: AISP (-5.02) vs BoN (-5.074), улучшение 1.1% - **Vicuna & UltraRM**: AISP (-4.73) vs BoN (-4.85), улучшение 2.5% **Ключевые находки**: - AISP достигает или превосходит среднее вознаграждение BoN во всех параметрах - По сравнению с требующим обучения RE-Control, AISP показывает лучшие результаты в большинстве случаев (например, Llama3 & UltraRM: -1.39 vs -9.28) - ARGS показывает плохие результаты в этом эксперименте, возможно, потому что модель вознаграждения на уровне траектории неподходяща для оценки на уровне токена #### Анализ процента побед (Таблица 2) Оценка с использованием GPT-4 на 100 парах образцов: **Набор данных SHP**: - Llama & UltraRM: AISP 51.3% vs BoN 42.0% - Gemma3 & UltraRM: AISP 53.0% vs BoN 41.3% - Средний процент побед значительно выше, чем у BoN **Набор данных HH-RLHF**: - Результаты более сбалансированы, но AISP сохраняет преимущество в большинстве параметров - Некоторые параметры (например, Vicuna) показывают высокий процент ничьих (27.7%-36.0%) ### Анализ эффективности использования выборок (Рисунок 3) **Кривые сходимости** показывают ключевые преимущества AISP: - **Ранний период**: BoN показывает лучшие результаты в первых нескольких итерациях (из-за высокого разнообразия прямой выборки) - **Средний период**: AISP быстро нагоняет, превосходя BoN примерно после k=10-15 итераций - **Поздний период**: AISP продолжает улучшаться, в конечном итоге значительно превосходя BoN **Анализ трёх кривых**: 1. **AISP (Mean at k)**: $\frac{1}{n}\sum_i r(x,y(V^{i,k}))$, стабильно возрастает с итерациями 2. **AISP (Best at k)**: $\max_i r(x,y(V^{i,k}))$, лучший результат в одной итерации 3. **AISP (Best so far)**: $\max_{i,1\leq j\leq k} r(x,y(V^{i,j}))$, глобальный лучший результат **Важное понимание**: AISP оптимизирует не только отдельные ответы, но и распределение ответов, возрастание кривой Mean доказывает эффективность оптимизации распределения. ### Эксперимент Batched AISP (Рисунок 4) Сравнение при одинаковом количестве итераций (BoN N=128 vs AISP κ=b, n=N/b): **Сравнение параметров**: - AISP1: (b=8, n=16) - AISP2: (b=16, n=8) - AISP3: (b=32, n=4) - AISP4: (b=64, n=2) **Результаты**: - Все параметры AISP превосходят BoN (-4.2 до -4.4 vs BoN примерно -4.7) - Пока каждая итерация содержит по крайней мере 4 выборки, AISP превосходит BoN - Доказывает практичность AISP при временных ограничениях ### Анализ расхождения KL (Таблица 3) **Расхождение KL при различных гиперпараметрах**: - AISP (λ=0.1, α=0.9999): KL=140.9, Reward=-2.15 - AISP (λ=10.0, α=0.99): KL=2.98, Reward=-3.37 - RE-Control: KL=0.172, Reward=-9.30 - ARGS: KL=78.8, Reward=-5.11 **Ключевые находки**: - Путём регулирования λ и α AISP может гибко управлять степенью отклонения от базовой LLM - Даже при расхождении KL меньшем, чем ARGS (18.9 vs 78.8), AISP получает более высокое вознаграждение (-2.75 vs -5.11) - Доказывает хороший баланс AISP между повышением вознаграждения и сохранением характеристик базовой LLM ### Абляционные исследования #### Чувствительность гиперпараметров (Приложение D.1, Рисунки 6-7) **Влияние λ**: - Малое λ (0.1): Среднее не растёт, оптимизация неэффективна - Большое λ (0.7): Скорость роста среднего повышается, но необходимо сохранять численную стабильность - Окончательное вознаграждение при λ∈[0.1, 0.7] превосходит BoN **Влияние σ**: - Малое σ (0.1): Пространство исследования ограничено, вознаграждение рано насыщается - Большое σ (0.7): Достаточное исследование, но некоторая нестабильность - Оптимальное значение примерно σ=0.5 **Влияние α**: - Малое α (0.5-0.8): Чрезмерное наказание за отклонение, улучшение вознаграждения ограничено - Большое α (0.999-0.9999): Позволяет достаточное исследование, вознаграждение стабильно растёт **Общая оценка**: Поведение гиперпараметров соответствует интуиции, настройка относительно проста ### Экспериментальные находки 1. **Эффективность использования выборок**: AISP получает более высокое вознаграждение при одинаковом количестве выборок, демонстрирует более быструю скорость улучшения в процессе итерации 2. **Преимущество отсутствия обучения**: Без необходимости предварительного сбора данных или обучения функции значения превосходит RE-Control 3. **Оптимизация распределения**: Оптимизирует не только отдельные ответы, но и общее распределение ответов 4. **Гибкость**: Путём гиперпараметров можно управлять компромиссом между повышением вознаграждения и верностью базовой LLM 5. **Потенциал параллелизации**: Batched AISP сохраняет преимущество производительности при временных ограничениях 6. **Кросс-модельная обобщаемость**: Эффективна на различных LLM (Llama3, Vicuna, Gemma3) и моделях вознаграждения ## Связанные работы ### Классификация методов выравнивания во время тестирования #### 1. Методы на основе обучения - **RE-Control** (Kong et al., 2024): Обучение функции значения для оптимизации pre-logit - **Critic-Guide Decoding** (Kim et al., 2023): Обучение критической сети для предсказания значения состояния - **Controlled Decoding** (Mudgal et al., 2024): Обучение функции значения для генерации на уровне блока - **Ограничения**: Требуют больших наборов данных (например, RE-Control использует 349 000 образцов) и затрат на обучение #### 2. Методы на основе выборки - **Best-of-N (BoN)**: Простой и эффективный, но низкая эффективность использования выборок - Yang et al. (2024) доказали асимптотическую оптимальность BoN для целей RL с ограничением KL - Beirami et al. (2024) доказали верхнюю границу процента побед BoN как N/(N+1) - **Soft Reasoning** (Zhu et al., 2025): На основе байесовской оптимизации, но возмущает только начальные встраивания токенов - **Методы выборки по важности** (Loula et al., 2025): Используют выборку по важности в пространстве токенов, требуют задачеспецифичные потенциальные функции #### 3. Методы манипуляции logit - **ARGS** (Khanov et al., 2024): Добавление взвешенного вознаграждения к logit - **Ограничения**: Требуют модель вознаграждения на уровне токена ### Преимущества данной работы 1. **vs BoN**: Активно исследует оптимальные ответы, выше эффективность использования выборок 2. **vs RE-Control**: Не требует обучения, избегает сбора данных и затрат на обучение 3. **vs Soft Reasoning**: Оптимизирует полную последовательность pre-logit, а не только начальные встраивания 4. **vs Loula et al.**: Использует легко обрабатываемое гауссовское распределение в пространстве pre-logit ### Теоретическая основа **Перспектива теории управления**: - Традиционное оптимальное управление (например, принцип максимума Понтрягина) неприменимо к нелинейным крупномасштабным LLM - **MPPI** (Williams et al., 2017, 2018): Прогнозирующее управление моделью на основе выборки, использует параллельные вычисления GPU - AISP применяет MPPI к выравниванию LLM, вводит адаптивную выборку по важности ## Заключение и обсуждение ### Основные выводы 1. **Эффективность метода**: AISP как метод выравнивания во время тестирования без обучения значительно превосходит BoN и RE-Control в оптимизации вознаграждения 2. **Теоретические вклады**: Установление структуры случайного управления в пространстве pre-logit, доказательство того, что оптимальное распределение может быть приближено адаптивной выборкой по важности 3. **Эффективность использования выборок**: AISP превосходит BoN по эффективности использования выборок, получает более высокое вознаграждение при одинаковом количестве выборок 4. **Практичность**: Batched AISP сохраняет производительность при временных ограничениях, подходит для практического применения 5. **Управляемость**: Путём гиперпараметров можно гибко регулировать компромисс между повышением вознаграждения и верностью базовой LLM ### Ограничения #### 1. Вычислительная сложность - **Последовательные итерации**: Требует κ последовательных итераций, временная сложность O(κ) - **Дополнительные вычисления**: Функция весов требует вычисления $\sum_{t=1}^\tau \hat{u}_t^\top v_t^i$, хотя затраты O(τd) относительно пренебрежимы #### 2. Гауссовское предположение - **Ограничение предположения**: Гауссовское предположение распределения pre-logit может быть не полностью точным - **Стоимость упрощения**: Упрощение для получения обрабатываемого замкнутого решения #### 3. Настройка гиперпараметров - **Три гиперпараметра**: λ, σ², α требуют настройки - **Зависимость от набора данных**: Различные модели вознаграждения (UltraRM vs Eurus) требуют различные диапазоны λ #### 4. Масштаб экспериментов - **Ограничение выборок**: Из-за вычислительных ресурсов используются только 1000 тестовых образцов - **Масштаб моделей**: Основные тесты на моделях размером 7B-13B, производительность на более крупных моделях неизвестна #### 5. Разнообразие и связность - В некоторых параметрах разнообразие и связность AISP ниже, чем у BoN - Возможно, потому что модель вознаграждения не приоритизирует эти измерения ### Направления будущих исследований 1. **Комбинирование с дообучением**: Исследование комбинирования AISP с параметрически эффективным дообучением (например, LoRA) 2. **Различные методы выборки**: Исследование других вариантов выборки по важности (например, последовательный Монте-Карло) 3. **Более сложные распределения**: Использование нормализующих потоков и других техник для моделирования более сложных распределений pre-logit 4. **Многоцелевая оптимизация**: Одновременная оптимизация вознаграждения, разнообразия и связности 5. **Более крупные модели**: Проверка метода на более крупных LLM (например, 70B+) 6. **Теоретический анализ**: Предоставление теоретических гарантий скорости сходимости и сложности выборки ## Глубокая оценка ### Преимущества #### 1. Инновационность - **Междисциплинарное слияние**: Первое применение теории управления MPPI к выравниванию LLM, открывает новое направление исследований - **Пространство pre-logit**: Операции в пространстве pre-logit вместо пространства токенов, использует обрабатываемость гауссовского распределения - **Теоретическая полнота**: Предоставляет полный теоретический вывод (теоремы 3.1-3.3) и замкнутое решение #### 2. Практичность - **Отсутствие обучения**: По сравнению с RE-Control экономит значительные затраты на сбор данных и обучение - **Готовность к использованию**: Может быть напрямую применена к предварительно обученным LLM без изменения структуры модели - **Версия Batched**: Предоставляет схему параллелизации, адаптируется к практическому развёртыванию #### 3. Полнота экспериментов - **Многомерная оценка**: Вознаграждение, разнообразие, связность, процент побед, расхождение KL - **Различные параметры**: 3 LLM × 2 модели вознаграждения × 2 набора данных = 12 комбинаций - **Абляционные исследования**: Подробный анализ чувствительности гиперпараметров (приложение) - **Анализ сходимости**: Демонстрирует динамический процесс преимущества эффективности использования выборок #### 4. Теоретические понимания - **Обоснованность гауссовского предположения**: Вывод обоснованности гауссовского распределения pre-logit из слоя softmax - **Связь с BoN**: Доказательство того, что AISP является обобщением BoN, предоставляет единую структуру - **Граница свободной энергии**: Использование идеи вариационного вывода, установление элегантной теоретической структуры #### 5. Качество написания - Структура ясна, от определения проблемы к теоретическому выводу и экспериментальной проверке, слои чёткие - Предоставляет подробный псевдокод алгоритма (Algorithm 1) и детали реализации - Приложение содержит полные доказательства и дополнительные эксперименты ### Недостатки #### 1. Ограничения метода - **Вычислительные затраты**: Хотя не требует обучения, вывод требует κn прямых проходов, для κ=32, n=32, всего 1024 прямых прохода - **Последовательная зависимость**: κ итераций должны выполняться последовательно, ограничивает потенциал параллелизации - **Требования к памяти**: Требует хранения траекторий pre-logit для n выборок, пространственная сложность O(nτd) #### 2. Проектирование экспериментов - **Масштаб выборок**: Только 1000 тестовых образцов, статистическая значимость может быть недостаточной - **Ограничение длины токена**: Из-за ограничений памяти строгие ограничения на длину запроса и генерации (128 токенов) - **Отсутствие экспериментов на крупных моделях**: Не проверено на более крупных моделях (например, Llama-70B) #### 3. Справедливость сравнения - **Параметры BoN**: BoN использует выборку top-p, тогда как AISP внутри использует жадное декодирование, может быть не полностью справедливо - **Обучение RE-Control**: RE-Control обучает функцию значения на тестовом наборе, может быть переобучение #### 4. Недостаточный теоретический анализ - **Гарантии сходимости**: Отсутствует анализ скорости сходимости адаптивной выборки по важности - **Эффективное количество выборок**: Не анализируется эффективное количество выборок (ESS) выборки по важности - **Проверка гауссовского предположения**: Отсутствует эмпирическая проверка фактического распределения pre-logit #### 5. Проблемы разнообразия - В некоторых параметрах разнообразие и связность AISP ниже, чем у BoN - Отсутствует глубокий анализ этого явления и решения ### Влияние #### 1. Академический вклад - **Новая парадигма**: Предоставляет перспективу теории управления для выравнивания во время тестирования, может вдохновить последующие исследования - **Теоретический мост**: Соединяет теорию управления, вариационный вывод и выравнивание LLM - **Методология**: Успешное применение адаптивной выборки по важности в пространстве pre-logit может быть обобщено на другие задачи генерации #### 2. Практическая ценность - **Экономия затрат**: Характеристика отсутствия обучения имеет важную ценность в сценариях с ограниченными ресурсами - **Гибкость**: Может комбинироваться с различными LLM и моделями вознаграждения, сильная адаптивность - **Масштабируемость**: Batched AISP предоставляет путь практического развёртывания #### 3. Воспроизводимость - **Доступность кода**: Статья не явно упоминает открытый исходный код, но предоставляет подробные алгоритмы и гиперпараметры - **Сложность реализации**: Алгоритм относительно простой, основан на стандартной выборке по важности, легко воспроизводится - **Требования к вычислениям**: Требует ресурсы GPU (H100 80GB или A100 40GB), имеет порог для индивидуальных исследователей #### 4. Ограничения - **Применимые сценарии**: Основной применимо к сценариям с явной моделью вознаграждения - **Масштабируемость**: Производительность на более крупных моделях или более длинных последовательностях неизвестна - **Промышленное применение**: 1024 прямых прохода вывода может быть неприемлемо в производственной среде ### Применимые сценарии #### Наиболее подходящие сценарии 1. **Явная модель вознаграждения**: Например, обнаружение безопасности, оценка фактической точности 2. **Модели среднего масштаба**: LLM с параметрами 7B-13B 3. **Пакетная обработка в автономном режиме**: Может допускать задержку κ последовательных итераций 4. **Ограниченные ресурсы**: Не может позволить себе затраты на дообучение, но имеет ресурсы вывода #### Менее подходящие сценарии 1. **Интерактивное взаимодействие в реальном времени**: Требует низкую задержку ответа 2. **Сверхкрупные модели**: Память и вычислительные затраты могут быть чрезмерными 3. **Отсутствие модели вознаграждения**: Зависит от явного сигнала вознаграждения 4. **Экстремально длинные последовательности**: Большое окно управления τ значительно увеличит вычисления #### Потенциальные расширения 1. **Мультимодальная генерация**: Расширение метода на генерацию изображение-текст 2. **Обучение с подкреплением**: Использование как стратегия исследования 3. **Активное обучение**: Использование для выборки неопределённости 4. **Робастность против противника**: Исследование ответов в наихудшем случае ## Ссылки ### Основные цитирования 1. **Williams et al. (2017, 2018)**: Model Predictive Path Integral Control - теоретическая основа AISP 2. **Kong et al. (2024)**: RE-Control - основной метод сравнения 3. **Yang et al. (2024)**: Теоретический анализ BoN 4. **Lee et al. (2018)**: Применение гауссовского предположения в нейронных сетях ### Связанные работы 5. **Ouyang et al. (2022)**: Оригинальная статья RLHF 6. **Snell et al. (2024)**: Оптимальное распределение вычислений во время тестирования 7. **Beirami et al. (2024)**: Теоретические гарантии BoN 8. **Khanov et al. (2024)**: Метод ARGS --- ## Резюме Предложенный в данной работе метод AISP вводит теорию управления в выравнивание LLM, предоставляя теоретически элегантное и практически эффективное решение для выравнивания во время тестирования. Его основная инновация заключается в применении гауссовских возмущений в пространстве pre-logit и оптимизации распределения возмущений посредством адаптивной выборки по важности, достигая производительности, превосходящей существующие методы без необходимости обучения. **Основные преимущества** — высокая эффективность использования выборок, отсутствие необходимости в обучении, полнота теории; **основные ограничения** — относительно высокие затраты вывода, необходимость последовательных итераций, неизвестная масштабируемость на сверхкрупные модели. Данный метод открывает новое направление исследований выравнивания во время тестирования, особенно имеет важное прикладное значение в сценариях с ограниченными ресурсами, но с явной моделью вознаграждения. Будущие исследования могут улучшить метод в направлениях снижения затрат вывода, расширения на более крупные модели, комбинирования с методами дообучения. В целом, это высококачественная исследовательская работа, сочетающая теоретическую глубину и практическую ценность.