2025-11-11T14:16:09.100728

Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication

Choudhury, Kumar, Martin

Gaps arise between a language model's use of concepts and people's expectations. This gap is critical when LLMs generate text to help people communicate via Augmentative and Alternative Communication (AAC) tools. In this work, we introduce the evaluation task of Representation Alignment for measuring this gap via human judgment. In our study, we expand keywords and emotion representations into full sentences. We select four emotion representations: Words, Valence-Arousal-Dominance (VAD) dimensions expressed in both Lexical and Numeric forms, and Emojis. In addition to Representation Alignment, we also measure people's judgments of the accuracy and realism of the generated sentences. While representations like VAD break emotions into easy-to-compute components, our findings show that people agree more with how LLMs generate when conditioned on English words (e.g., "angry") rather than VAD scales. This difference is especially visible when comparing Numeric VAD to words. Furthermore, we found that the perception of how much a generated sentence conveys an emotion is dependent on both the representation type and which emotion it is.

academic

Оценка выравнивания представлений человека и LLM: Тематическое исследование аффективной генерации предложений для дополнительной и альтернативной коммуникации

Основная информация

ID статьи: 2503.11881
Название: Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
Авторы: Shadab Choudhury, Asha Kumar, Lara J. Martin (Университет Мэриленда, Балтимор Каунти)
Категория: cs.CL (Вычислительная лингвистика)
Дата публикации: 2025
Ссылка на статью: https://arxiv.org/abs/2503.11881

Аннотация

Данное исследование рассматривает проблему разрыва между использованием концепций в больших языковых моделях (LLM) и ожиданиями человека, особенно в контексте применения в инструментах дополнительной и альтернативной коммуникации (AAC). Исследование вводит задачу оценки "выравнивания представлений" (Representation Alignment), измеряя этот разрыв через суждения человека. Были выбраны четыре способа представления эмоций: английские лексические единицы, лексикализованные VAD-измерения, численные VAD-измерения и эмодзи. Результаты показывают, что люди больше одобряют результаты генерации LLM на основе английских лексических единиц по сравнению со шкалами VAD, причём это различие особенно заметно при сравнении численных VAD с лексическими единицами.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Разрыв между использованием концепций в LLM и ожиданиями человека, особенно критичный в приложениях AAC
Сценарии применения: Инструменты AAC помогают людям с нарушениями речи общаться, но скорость коммуникации является основным узким местом
Технические вызовы: Обеспечение того, чтобы текст, генерируемый LLM, точно отражал эмоциональные намерения и способ выражения пользователя

Значимость исследования

Пользователи AAC часто игнорируются или прерываются из-за задержек в общении
Существующие технологии NLP обещают повысить скорость коммуникации в инструментах AAC
Существуют опасения пользователей относительно контроля над LLM, точности и контекстной адаптивности

Ограничения существующих подходов

Отсутствие систематической оценки степени выравнивания LLM и человека в понимании концепций
Недостаток эмпирических доказательств для выбора способов представления эмоций
Недостаточное рассмотрение влияния различных способов представления на пользовательский опыт

Основные вклады

Предложена парадигма оценки выравнивания представлений: Введена методология измерения выравнивания использования концепций LLM с психологическими моделями человека через суждения человека
Систематическое сравнение четырёх способов представления эмоций: Комплексная оценка эффективности четырёх способов: Words (слова), Lexical VAD, Numeric VAD и Emojis (эмодзи)
Эмпирическое выявление оптимального способа представления: Доказано, что английские лексические единицы и лексикализованные VAD показывают лучшие результаты в выравнивании представлений, точности и аутентичности
Руководство для приложений AAC: Предоставлены эмпирические доказательства для выбора представления эмоций в будущих приложениях AAC

Подробное описание методологии

Определение задачи

Входные данные: Три ключевых слова + один способ представления эмоции
Выходные данные: Полное предложение, содержащее ключевые слова и выражающее указанную эмоцию
Ограничения: Генерируемое предложение должно быть естественным, точно выражать эмоцию и избегать прямого использования эмоциональных слов

Способы представления эмоций

1. Представление Words (Слова)

Прямое использование английских эмоциональных лексических единиц (например, "angry", "happy")

2. Представление Lexical VAD

Использование пятиуровневого лексического описания VAD-измерений:

Valence (Валентность): Very High/High/Moderate/Low/Very Low
Arousal (Возбуждение): Уровень активации эмоции
Dominance (Доминантность): Степень контроля над эмоцией

3. Представление Numeric VAD

Использование численной шкалы от -5,0 до +5,0 для представления VAD-измерений

4. Представление Emojis (Эмодзи)

Использование символов Unicode для представления эмоций

Архитектура модели и стратегия генерации

Используемые модели

GPT-4-Turbo-2024-04-09: Коммерческий API
LLaMA-3.3-70B: 8-битная квантованная версия, локальное развёртывание

Стратегии подсказок

Words/Emojis: Few-shot prompting (подсказки с несколькими примерами)
VAD представления: Step-back chain-of-thought (цепочка рассуждений с отступлением)
Ограничения: Запрет на прямое использование эмоциональных слов, требование "показывать, а не рассказывать"

Генерация данных

Всего 360 предложений на модель (90 на способ представления)
Охватывают 18 различных эмоций из классификации Demszky et al. (2020)
Для оценки случайно выбраны 2 предложения на каждую эмоцию

Экспериментальная установка

Построение набора данных

Выбор эмоций: На основе классификации Demszky et al. (2020), выбраны 18 репрезентативных эмоций
Комбинации ключевых слов: Использованы распространённые комбинации слов, такие как Place, Great, Korean, Finals, Semester, Math
Численные значения VAD: На основе данных Guo и Choi (2021), нормализованы в диапазон от -5,0 до +5,0

Дизайн оценки человеком

Набор участников

Платформа: Prolific (платформа краудсорсинга)
Количество: 200 участников (100 на модель)
Критерии: 18 лет и старше, проживают в США, свободно говорят по-английски
Вознаграждение: $14/час, примерно 15 минут на задачу

Задачи оценки

1. Оценка выравнивания представлений

Показывается один способ представления эмоции и четыре генерируемых предложения
Участники выбирают предложение, которое лучше всего соответствует эмоции
Каждый участник отвечает на 10 вопросов, случайно распределённых

2. Оценка точности и аутентичности

5-балльная шкала Лайкерта для оценки:
- "Convey" (Передача): Степень, в которой предложение передаёт эмоцию
- "You'd say" (Вы бы сказали): Звучит ли как то, что бы сказал участник
- "Someone Else'd say" (Кто-то ещё бы сказал): Звучит ли как то, что бы сказал другой человек

Метрики оценки

Метрики выравнивания представлений

Коэффициент выбора: Процент выбора конкретного способа представления
Энтропия Шеннона: Измерение согласованности выборов
Самовыравнивание: Соответствие между генерацией и оценкой одного способа представления

Метрики точности и аутентичности

Средние баллы по шкале Лайкерта по трём измерениям
Тест ANOVA для проверки статистической значимости
Парный t-тест для апостериорного анализа

Результаты экспериментов

Основные результаты

Производительность выравнивания представлений

Способ представления	Коэффициент выбора GPT-4	Коэффициент выбора LLaMA-3	Энтропия GPT-4	Энтропия LLaMA-3
Words	61,9%	57,5%	0,32	0,42
Lexical VAD	52,0%	-	0,61	0,72
Numeric VAD	-	-	0,70	0,63
Emojis	-	-	0,67	0,52

Ключевые находки

Оптимальность представления Words: Показывает наивысший коэффициент самовыравнивания и наименьшую энтропию на обеих моделях
Вторичная оптимальность Lexical VAD: Хорошая производительность на GPT-4, но худшая на LLaMA-3
Наихудшая производительность Numeric VAD: Наивысшая энтропия, указывающая на сложность достижения консенсуса участниками
Кросс-представленческое выравнивание: Emojis и Lexical VAD показывают выравнивание на LLaMA-3

Результаты точности и аутентичности

Статистическая значимость

GPT-4: Способ представления эмоции оказывает значительное влияние на "Convey" и "You'd say" (p < 0,01)
LLaMA-3: Способ представления эмоции оказывает значительное влияние на "Convey" и "Someone Else'd say" (p < 0,05)

Парные сравнения

Words значительно превосходит Numeric VAD по измерению "Convey" (GPT-4, p = 0,002)
Lexical VAD значительно превосходит Numeric VAD по измерению "Convey" (LLaMA-3, p = 0,018)
Words значительно превосходит Emojis (p = 0,005) и Numeric VAD (p = 0,044) по измерению "You'd say"

Анализ, специфичный для эмоций

Различия между моделями

GPT-4 явно превосходит LLaMA-3 в генерации предложений с эмоцией "grateful"
Значительные различия в производительности различных эмоций при разных способах представления
Некоторые эмоции (например, "excited", "proud") показывают худшую производительность при определённых условиях

Адаптивность представления

Позитивные эмоции обычно лучше работают при представлении Words
Сложные эмоциональные состояния лучше подходят для представления Lexical VAD
Numeric VAD испытывает затруднения при различении тонких эмоциональных оттенков

Абляционные эксперименты

Анализ соответствия ключевым словам

Модель	Содержит 1 ключевое слово	Содержит 2 ключевых слова	Содержит 3 ключевых слова	Средняя точность
GPT-4, 1x	1,00	1,00	0,936	0,978
LLaMA-3, 1x	0,908	0,897	0,781	0,862
LLaMA-3, 3x	0,969	0,969	0,850	0,930

Эффект обучения VAD

Предоставление участникам объяснений концепции VAD и практических вопросов повысило точность понимания, но остаются проблемы с когнитивной нагрузкой.

Связанные работы

Генерация с ограничениями по ключевым словам

Ранние методы на основе грамматики (Kasper, 1989; Uchimoto et al., 2002)
Методы последовательных моделей и итеративной коррекции (Mou et al., 2016; He and Li, 2021)
Технологии контролируемой генерации эпохи Transformer (Kumar et al., 2021; Krause et al., 2021)

Генерация предложений с условием эмоции

Ранние системы на основе правил (Polzin and Waibel, 2000)
Условная генерация на основе RNN (Ghosh et al., 2017; Song et al., 2019)
Методы эмоциональной генерации эпохи LLM (Li et al., 2024; Mishra et al., 2023)

Исследования выравнивания ценностей

Обучение нормативному поведению в детских историях (Nahian et al., 2020)
Интеграция ценностей в обучении с подкреплением от человека (Arzberger et al., 2024)
Измерение выравнивания ценностей существующих моделей (Norhashim and Hahn, 2024)

Заключение и обсуждение

Основные выводы

Важность выравнивания представлений: Степень выравнивания между человеком и LLM в понимании концепций напрямую влияет на эффективность приложения
Превосходство представления Words: Английские лексические единицы обеспечивают наиболее сильный эффект выравнивания при представлении эмоций
Сложность представления VAD: Лексикализованное VAD превосходит численное VAD, но всё ещё уступает прямому лексическому представлению
Различия между моделями: Значительные различия между различными LLM в понимании и генерации эмоций

Ограничения

Технические ограничения

Выбор модели: Использованы только две LLM, причём LLaMA-3 использует 8-битную квантованную версию
Языковые ограничения: Ограничено английским языком, другие языки могут показать различные результаты
Репрезентативность участников: Не включены пользователи AAC из целевой группы

Методологические ограничения

Когнитивная нагрузка VAD: Участникам требуется дополнительное обучение концепции VAD, что может повлиять на результаты оценки
Субъективность эмодзи: Различия в понимании эмодзи в зависимости от культурного контекста
Сложность эмоций: 18 эмоций могут не охватывать полный спектр эмоциональных состояний

Направления будущих исследований

Расширение диапазона моделей: Тестирование большего количества новейших моделей LLM
Многоязычная валидация: Проверка выводов в других языковых средах
Персонализация пользователя: Обучение персонализированному представлению для конкретных групп пользователей AAC
Применение в реальном времени: Развёртывание и оценка в реальной среде AAC

Глубокая оценка

Преимущества

Методологическая инновативность

Первопроходческая парадигма выравнивания представлений: Предоставляет новый систематический метод оценки понимания концепций LLM
Многомерный дизайн оценки: Комплексная структура оценки, объединяющая выравнивание, точность и аутентичность
Практико-ориентированное исследование: Непосредственно ориентировано на практические потребности приложений AAC

Достаточность экспериментов

Крупномасштабная оценка человеком: 200 участников в краудсорсинге обеспечивают надёжность результатов
Статистическая строгость: Использование ANOVA и парных t-тестов для обеспечения статистической значимости результатов
Многоаспектный анализ: Комплексная оценка с точки зрения выравнивания представлений, точности и аутентичности

Убедительность результатов

Согласованность находок: Тенденции результатов в основном согласуются между двумя моделями
Статистическая значимость: Основные выводы подтверждены проверкой статистической значимости
Практическое руководство: Предоставляет чёткие рекомендации по проектированию приложений AAC

Недостатки

Методологические ограничения

Субъективность оценки: Зависимость от субъективных суждений человека может привести к смещениям
Упрощение задачи: Задача генерации от ключевых слов к предложению относительно проста, реальные сценарии AAC более сложны
Статическая оценка: Не рассматривается контекстная зависимость в динамическом диалоге

Дефекты экспериментальной установки

Недостаточное обучение участников: Быстрое обучение концепции VAD может быть недостаточным
Ограничение размера выборки: Относительно небольшое количество респондентов на каждый вопрос (3-9 человек)
Различия версий моделей: Используемые версии моделей могут повлиять на актуальность результатов

Оценка влияния

Академический вклад

Пионерская работа: Первое систематическое исследование проблемы выравнивания представлений LLM
Методологический вклад: Парадигма оценки выравнивания представлений может быть расширена на другие области концепций
Междисциплинарная ценность: Связывает исследования в области NLP, психологии и вспомогательных технологий

Практическая ценность

Улучшение инструментов AAC: Руководство по проектированию функций эмоционального выражения в приложениях AAC
Направления оптимизации LLM: Идеи для повышения выравнивания концепций между LLM и человеком
Установление стандартов оценки: Установление эталонов оценки для аналогичных приложений

Воспроизводимость

Подробное описание методологии: Предоставлены полные параметры экспериментальной установки и конфигурации
Обязательство по открытым данным: Обещание опубликовать экспериментальные данные и код
Стандартизированный процесс: Установлен воспроизводимый процесс оценки

Применимые сценарии

Прямое применение

Разработка инструментов AAC: Проектирование и оптимизация функций эмоционального выражения
Диалоговые системы: Повышение способности понимания и выражения эмоций
Оценка генерации текста: Установление стандартов оценки выравнивания человека и машины

Расширенное применение

Выравнивание других концепций: Расширение на области ценностей, культурных концепций и т.д.
Мультимодальное выравнивание: Интеграция визуальной, аудиальной и других мультимодальных информаций
Адаптивная персонализация: Настройка выравнивания для конкретных групп пользователей

Библиография

Данное исследование ссылается на большое количество связанных работ, включая:

Demszky et al. (2020): Набор данных эмоций GoEmotions
Guo and Choi (2021): Обучение представлению эмоций VAD
Valencia et al. (2023): Применение языковых моделей AI в AAC
Chen and Wan (2024): Оценка способности генерации LLM с ограничениями по словарю

Общая оценка: Это высококачественная исследовательская работа, которая вносит пионерский вклад в важную проблему выравнивания концепций между LLM и человеком. Методология исследования научно строга, экспериментальный дизайн обоснован, а результаты имеют важное теоретическое и практическое значение. Несмотря на некоторые ограничения, исследование закладывает прочную основу для будущих связанных исследований.