2025-11-17T07:07:13.254790

Leading the Follower: Learning Persuasive Agents in Social Deduction Games

Zheng, Ye, Zhao et al.

Large language model (LLM) agents have shown remarkable progress in social deduction games (SDGs). However, existing approaches primarily focus on information processing and strategy selection, overlooking the significance of persuasive communication in influencing other players' beliefs and responses. In SDGs, success depends not only on making correct deductions but on convincing others to response in alignment with one's intent. To address this limitation, we formalize turn-based dialogue in SDGs as a Stackelberg competition, where the current player acts as the leader who strategically influences the follower's response. Building on this theoretical foundation, we propose a reinforcement learning framework that trains agents to optimize utterances for persuasive impact. Through comprehensive experiments across three diverse SDGs, we demonstrate that our agents significantly outperform baselines. This work represents a significant step toward developing AI agents capable of strategic social influence, with implications extending to scenarios requiring persuasive communication.

academic

Лидирование за последователем: обучение убедительных агентов в играх социальной дедукции

Основная информация

ID статьи: 2510.09087
Название: Leading the Follower: Learning Persuasive Agents in Social Deduction Games
Авторы: Zheng Zhang, Deheng Ye, Peilin Zhao, Hao Wang
Категория: cs.AI
Конференция: ICLR 2026
Ссылка на статью: https://arxiv.org/abs/2510.09087

Аннотация

Агенты на основе больших языковых моделей (LLM) продемонстрировали значительный прогресс в играх социальной дедукции (SDGs). Однако существующие методы сосредоточены в основном на обработке информации и выборе стратегии, игнорируя важность убедительной коммуникации в влиянии на убеждения и реакции других игроков. В SDGs успех зависит не только от правильного рассуждения, но и от способности убедить других действовать в соответствии с собственными намерениями. Для решения этого ограничения авторы формализуют чередующуюся диалоговую форму в SDGs как конкуренцию Штакельберга, где текущий игрок как лидер стратегически влияет на реакцию последователя. На основе этой теоретической базы авторы предлагают структуру обучения с подкреплением для обучения агентов оптимизации убедительного влияния высказываний. Посредством комплексных экспериментов на трёх различных SDGs демонстрируется значительное превосходство предложенного метода над базовыми подходами.

Исследовательский контекст и мотивация

Определение проблемы

Существующие агенты на основе LLM в играх социальной дедукции имеют следующие основные проблемы:

Игнорирование убедительной коммуникации: существующие методы сосредоточены в основном на обработке информации и выборе стратегии, без учёта убедительности
Отсутствие моделирования влияния: отсутствует систематическое моделирование того, как влиять на поведение других игроков посредством языка
Недостаточная локальная оптимизация: отсутствует стратегическая оптимизация каждого высказывания в чередующемся диалоге

Значимость исследования

Игры социальной дедукции являются идеальной тестовой платформой для изучения социального интеллекта ИИ, поскольку:

включают неопределённость, обман и стратегическую коммуникацию
требуют достижения условий победы путём убеждения других
отражают сложность реальных межличностных взаимодействий

Ограничения существующих методов

Ориентация на выбор стратегии: существующие методы, такие как ReAct, ReCon и др., сосредоточены в основном на выборе стратегии из предопределённого пространства действий
Отсутствие оптимизации убедительности: нет специализированной оптимизации убедительного эффекта высказываний
Игнорирование динамики диалога: недостаточное использование стратегических возможностей чередующегося диалога

Основные вклады

Теоретическое новшество: формализация чередующегося диалога в SDGs как модель конкуренции Штакельберга, обеспечивающая систематическую теоретическую базу для убедительной коммуникации
Методологическая структура: предложение структуры обучения с подкреплением, непосредственно оптимизирующей влияние высказываний на реакции последующих игроков
Экспериментальная верификация: проверка эффективности и обобщаемости метода на трёх различных SDGs (Werewolf, Avalon, ONUW)
Технический вклад: разработка полного конвейера обучения, объединяющего преимущества API-based LLM и открытых LLM

Подробное описание метода

Определение задачи

В играх социальной дедукции игроки должны влиять на поведение других игроков посредством чередующегося диалога для достижения условий собственной победы. В данной работе каждый раунд диалога моделируется как конкуренция Штакельберга:

Входные данные: правила игры R, текущее состояние игры G_t, история диалога D_t, роль игрока r_t
Выходные данные: оптимизированное убедительное высказывание u_t
Цель: максимизация благоприятного влияния на реакцию следующего игрока

Архитектура модели

1. Идентификация намерения (Intent Identification)

(û⁺_{t+1}, û⁻_{t+1}) = f_identify(R, G_t, D_t, r_t)

Система анализирует текущую ситуацию и определяет наиболее желаемые и нежелаемые реакции от следующего игрока.

2. Измерение влияния (Impact Measurement)

Использование двухэтапной архитектуры:

Backend LLM (API-based): генерация базового высказывания
Refiner (открытая LLM): оптимизация убедительности высказывания

Функция вознаграждения:

R(u_t^{(i)}) = log P_F(û⁺_{t+1}|context) - log P_F(û⁻_{t+1}|context)

3. Оптимизация стратегии (Strategy Optimization)

Использование GRPO (Group Relative Policy Optimization) для оптимизации Refiner:

A^{(i)} = (R(u_t^{(i)}) - μ_n) / σ_n

где μ_n и σ_n — среднее значение и стандартное отклонение вознаграждений в пакете.

Технические инновации

Моделирование Штакельберга: первое применение моделирования чередующегося диалога как игры лидер-последователь, отражающее суть убеждения
Двухэтапная оптимизация: объединение генеративных возможностей API LLM и обучаемости открытых LLM
Прямая оптимизация высказываний: оптимизация в пространстве естественного языка вместо дискретного выбора действий
Расчёт относительного преимущества: использование GRPO, избегающее необходимости явной функции стоимости

Экспериментальная установка

Наборы данных

Типы игр: Werewolf (7 игроков), Avalon (5 игроков), ONUW (5 игроков)
Обучающие данные: 500 записей самоигры для каждой игры, 4000 примеров раундов, выбранных случайно
Разнообразие данных: использование трёх backend LLM: GPT-4o, Gemini-2.5-Flash, Claude-3.5-Haiku

Метрики оценки

Процент побед: процент побед для различных ролей и фракций
Общая производительность: средний процент побед для всех ролей

Методы сравнения

Werewolf: ReAct, ReCon, SLA, LSPO
Avalon: ReAct, ReCon, LASI, Strategist
ONUW: ReAct, Belief, LLM-ins., RL-ins.

Детали реализации

Модель: Llama-3-8B-Instruct как Refiner и Measurer
Обучение: адаптер LoRA (rank=16), скорость обучения 1×10⁻⁶, 3 эпохи
Оборудование: 4 GPU A800, примерно 50 часов времени обучения
Гиперпараметры: n=8, ε=0.2, β=0.04

Результаты экспериментов

Основные результаты

Игра	Метод	Процент побед команды жителей	Процент побед команды волков	Общий процент побед
Werewolf	LSPO	25.3%	73.2%	39.0%
	Ours + LSPO	28.3%	83.6%	44.1%
Avalon	Strategist	77.9%	27.3%	57.7%
	Ours + Strategist	77.9%	34.6%	60.6%
ONUW	RL-ins.	54.5%	47.6%	48.9%
	Ours + RL-ins.	54.5%	50.0%	50.8%

Абляционные исследования

Проведены абляционные исследования различных вариантов функции вознаграждения:

Positive-Only: максимизация только вероятности желаемой реакции
Negative-Only: минимизация только вероятности нежелаемой реакции
Complete: одновременное рассмотрение положительной и отрицательной обратной связи

Результаты показывают значительное превосходство полного метода над вариантами с одной целью, доказывая необходимость двусторонней оптимизации.

Проверка обобщаемости

Тестирование на GPT-5 и Qwen3-14B без дополнительного обучения показало согласованное улучшение производительности, доказывая кроссмодельную обобщаемость метода.

Анализ примеров

Статья предоставляет три подробных тематических исследования:

Пример Werewolf: роль Seer успешно идентифицирует Werewolf посредством хитрого рассуждения и мобилизации союзников
Пример Avalon: Minion получает поддержку команды посредством логической реконструкции и социального давления
Пример ONUW: Werewolf успешно вводит в заблуждение жителей посредством ложного рассуждения и отвлечения внимания

Связанные работы

Исследования агентов SDG

Ранние работы в основном основывались на системах правил, недавние переходят к методам на основе LLM:

Методы инженерии подсказок: информационный поиск и эмпирическая рефлексия Xu et al. (2023)
Методы обучения с подкреплением: SLA, LSPO и др., выбирающие предопределённые действия посредством RL
Методы генерации кода: Strategist через генерацию кода и поиск по дереву

Обучение с подкреплением LLM

PPO/DPO: оптимизация LLM посредством обратной связи от человека
GRPO: метод относительной оптимизации без явных данных предпочтений

Моделирование теории игр

Традиционные методы: решение Perfect Bayesian Equilibrium
Современные приложения: успешное применение DeepRole, Cicero и др. в конкретных играх

Заключение и обсуждение

Основные выводы

Убедительная коммуникация является ключевым фактором успеха в SDGs
Моделирование Штакельберга обеспечивает эффективную структуру для оптимизации убедительности
Прямая оптимизация высказываний более эффективна, чем выбор действий
Метод демонстрирует хорошую кроссигровую и кроссмодельную обобщаемость

Ограничения

Вычислительные затраты: требуется несколько прямых проходов для расчёта вероятностей
Зависимость: по-прежнему требуется поддержка мощной backend LLM
Ограничения оценки: использование замороженного Measurer может отличаться от реальных противников
Диапазон игр: в настоящее время проверено только на трёх типах SDGs

Будущие направления

Расширение на большее количество типов социальных игр
Исследование долгосрочных стратегий убеждения вместо оптимизации одного раунда
Изучение мультимодального убеждения (голос, визуальные элементы и т.д.)
Разработка более эффективных методов обучения

Глубокая оценка

Преимущества

Теоретическое новшество: моделирование Штакельберга предоставляет новую теоретическую перспективу для убедительного ИИ
Передовая техника: умелое объединение преимуществ API LLM и открытых LLM
Полные эксперименты: комплексная верификация с несколькими играми, метриками и абляциями
Практическая ценность: может служить универсальным плагином для повышения производительности существующих методов

Недостатки

Недостаточный теоретический анализ: отсутствие теоретических гарантий сходимости моделирования Штакельберга
Смещение оценки: использование одной и той же модели в качестве Measurer может привести к смещению
Вычислительная эффективность: высокие вычислительные затраты на обучение и вывод
Долгосрочное влияние: отсутствие рассмотрения кумулятивного эффекта убеждения в многораундовом диалоге

Влияние

Академический вклад: открытие нового направления в исследованиях социального интеллекта ИИ
Практическое применение: применимо к переговорам, образованию, обслуживанию клиентов и другим сценариям, требующим убеждения
Методологическое вдохновение: предоставление новых идей моделирования для других задач многоагентного взаимодействия

Применимые сценарии

Социальные игры и онлайн-развлечения
Интеллектуальное обслуживание клиентов и системы продаж
Образовательное наставничество и поведенческие вмешательства
Системы переговоров и согласования
Генерация контента в социальных сетях

Библиография

Статья ссылается на важные работы из нескольких областей, включая игры социальной дедукции, обучение с подкреплением и теорию игр, в частности:

Xu et al. (2024): метод SLA
Light et al. (2025): метод Strategist
Shao et al. (2024): алгоритм GRPO
Bakhtin et al. (2022): система Cicero

Общая оценка: это высококачественная статья с важными вкладами в область социального интеллекта ИИ. Посредством инновационного теоретического моделирования и эффективной технической реализации она предоставляет новое направление исследований и практический метод для разработки убедительных агентов ИИ.