Gaps arise between a language model's use of concepts and people's expectations. This gap is critical when LLMs generate text to help people communicate via Augmentative and Alternative Communication (AAC) tools. In this work, we introduce the evaluation task of Representation Alignment for measuring this gap via human judgment. In our study, we expand keywords and emotion representations into full sentences. We select four emotion representations: Words, Valence-Arousal-Dominance (VAD) dimensions expressed in both Lexical and Numeric forms, and Emojis. In addition to Representation Alignment, we also measure people's judgments of the accuracy and realism of the generated sentences. While representations like VAD break emotions into easy-to-compute components, our findings show that people agree more with how LLMs generate when conditioned on English words (e.g., "angry") rather than VAD scales. This difference is especially visible when comparing Numeric VAD to words. Furthermore, we found that the perception of how much a generated sentence conveys an emotion is dependent on both the representation type and which emotion it is.
- ID статьи: 2503.11881
- Название: Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
- Авторы: Shadab Choudhury, Asha Kumar, Lara J. Martin (Университет Мэриленда, Балтимор Каунти)
- Категория: cs.CL (Вычислительная лингвистика)
- Дата публикации: 2025
- Ссылка на статью: https://arxiv.org/abs/2503.11881
Данное исследование рассматривает проблему разрыва между использованием концепций в больших языковых моделях (LLM) и ожиданиями человека, особенно в контексте применения в инструментах дополнительной и альтернативной коммуникации (AAC). Исследование вводит задачу оценки "выравнивания представлений" (Representation Alignment), измеряя этот разрыв через суждения человека. Были выбраны четыре способа представления эмоций: английские лексические единицы, лексикализованные VAD-измерения, численные VAD-измерения и эмодзи. Результаты показывают, что люди больше одобряют результаты генерации LLM на основе английских лексических единиц по сравнению со шкалами VAD, причём это различие особенно заметно при сравнении численных VAD с лексическими единицами.
- Основная проблема: Разрыв между использованием концепций в LLM и ожиданиями человека, особенно критичный в приложениях AAC
- Сценарии применения: Инструменты AAC помогают людям с нарушениями речи общаться, но скорость коммуникации является основным узким местом
- Технические вызовы: Обеспечение того, чтобы текст, генерируемый LLM, точно отражал эмоциональные намерения и способ выражения пользователя
- Пользователи AAC часто игнорируются или прерываются из-за задержек в общении
- Существующие технологии NLP обещают повысить скорость коммуникации в инструментах AAC
- Существуют опасения пользователей относительно контроля над LLM, точности и контекстной адаптивности
- Отсутствие систематической оценки степени выравнивания LLM и человека в понимании концепций
- Недостаток эмпирических доказательств для выбора способов представления эмоций
- Недостаточное рассмотрение влияния различных способов представления на пользовательский опыт
- Предложена парадигма оценки выравнивания представлений: Введена методология измерения выравнивания использования концепций LLM с психологическими моделями человека через суждения человека
- Систематическое сравнение четырёх способов представления эмоций: Комплексная оценка эффективности четырёх способов: Words (слова), Lexical VAD, Numeric VAD и Emojis (эмодзи)
- Эмпирическое выявление оптимального способа представления: Доказано, что английские лексические единицы и лексикализованные VAD показывают лучшие результаты в выравнивании представлений, точности и аутентичности
- Руководство для приложений AAC: Предоставлены эмпирические доказательства для выбора представления эмоций в будущих приложениях AAC
- Входные данные: Три ключевых слова + один способ представления эмоции
- Выходные данные: Полное предложение, содержащее ключевые слова и выражающее указанную эмоцию
- Ограничения: Генерируемое предложение должно быть естественным, точно выражать эмоцию и избегать прямого использования эмоциональных слов
Прямое использование английских эмоциональных лексических единиц (например, "angry", "happy")
Использование пятиуровневого лексического описания VAD-измерений:
- Valence (Валентность): Very High/High/Moderate/Low/Very Low
- Arousal (Возбуждение): Уровень активации эмоции
- Dominance (Доминантность): Степень контроля над эмоцией
Использование численной шкалы от -5,0 до +5,0 для представления VAD-измерений
Использование символов Unicode для представления эмоций
- GPT-4-Turbo-2024-04-09: Коммерческий API
- LLaMA-3.3-70B: 8-битная квантованная версия, локальное развёртывание
- Words/Emojis: Few-shot prompting (подсказки с несколькими примерами)
- VAD представления: Step-back chain-of-thought (цепочка рассуждений с отступлением)
- Ограничения: Запрет на прямое использование эмоциональных слов, требование "показывать, а не рассказывать"
- Всего 360 предложений на модель (90 на способ представления)
- Охватывают 18 различных эмоций из классификации Demszky et al. (2020)
- Для оценки случайно выбраны 2 предложения на каждую эмоцию
- Выбор эмоций: На основе классификации Demszky et al. (2020), выбраны 18 репрезентативных эмоций
- Комбинации ключевых слов: Использованы распространённые комбинации слов, такие как Place, Great, Korean, Finals, Semester, Math
- Численные значения VAD: На основе данных Guo и Choi (2021), нормализованы в диапазон от -5,0 до +5,0
- Платформа: Prolific (платформа краудсорсинга)
- Количество: 200 участников (100 на модель)
- Критерии: 18 лет и старше, проживают в США, свободно говорят по-английски
- Вознаграждение: $14/час, примерно 15 минут на задачу
1. Оценка выравнивания представлений
- Показывается один способ представления эмоции и четыре генерируемых предложения
- Участники выбирают предложение, которое лучше всего соответствует эмоции
- Каждый участник отвечает на 10 вопросов, случайно распределённых
2. Оценка точности и аутентичности
- 5-балльная шкала Лайкерта для оценки:
- "Convey" (Передача): Степень, в которой предложение передаёт эмоцию
- "You'd say" (Вы бы сказали): Звучит ли как то, что бы сказал участник
- "Someone Else'd say" (Кто-то ещё бы сказал): Звучит ли как то, что бы сказал другой человек
- Коэффициент выбора: Процент выбора конкретного способа представления
- Энтропия Шеннона: Измерение согласованности выборов
- Самовыравнивание: Соответствие между генерацией и оценкой одного способа представления
- Средние баллы по шкале Лайкерта по трём измерениям
- Тест ANOVA для проверки статистической значимости
- Парный t-тест для апостериорного анализа
| Способ представления | Коэффициент выбора GPT-4 | Коэффициент выбора LLaMA-3 | Энтропия GPT-4 | Энтропия LLaMA-3 |
|---|
| Words | 61,9% | 57,5% | 0,32 | 0,42 |
| Lexical VAD | 52,0% | - | 0,61 | 0,72 |
| Numeric VAD | - | - | 0,70 | 0,63 |
| Emojis | - | - | 0,67 | 0,52 |
- Оптимальность представления Words: Показывает наивысший коэффициент самовыравнивания и наименьшую энтропию на обеих моделях
- Вторичная оптимальность Lexical VAD: Хорошая производительность на GPT-4, но худшая на LLaMA-3
- Наихудшая производительность Numeric VAD: Наивысшая энтропия, указывающая на сложность достижения консенсуса участниками
- Кросс-представленческое выравнивание: Emojis и Lexical VAD показывают выравнивание на LLaMA-3
- GPT-4: Способ представления эмоции оказывает значительное влияние на "Convey" и "You'd say" (p < 0,01)
- LLaMA-3: Способ представления эмоции оказывает значительное влияние на "Convey" и "Someone Else'd say" (p < 0,05)
- Words значительно превосходит Numeric VAD по измерению "Convey" (GPT-4, p = 0,002)
- Lexical VAD значительно превосходит Numeric VAD по измерению "Convey" (LLaMA-3, p = 0,018)
- Words значительно превосходит Emojis (p = 0,005) и Numeric VAD (p = 0,044) по измерению "You'd say"
- GPT-4 явно превосходит LLaMA-3 в генерации предложений с эмоцией "grateful"
- Значительные различия в производительности различных эмоций при разных способах представления
- Некоторые эмоции (например, "excited", "proud") показывают худшую производительность при определённых условиях
- Позитивные эмоции обычно лучше работают при представлении Words
- Сложные эмоциональные состояния лучше подходят для представления Lexical VAD
- Numeric VAD испытывает затруднения при различении тонких эмоциональных оттенков
| Модель | Содержит 1 ключевое слово | Содержит 2 ключевых слова | Содержит 3 ключевых слова | Средняя точность |
|---|
| GPT-4, 1x | 1,00 | 1,00 | 0,936 | 0,978 |
| LLaMA-3, 1x | 0,908 | 0,897 | 0,781 | 0,862 |
| LLaMA-3, 3x | 0,969 | 0,969 | 0,850 | 0,930 |
Предоставление участникам объяснений концепции VAD и практических вопросов повысило точность понимания, но остаются проблемы с когнитивной нагрузкой.
- Ранние методы на основе грамматики (Kasper, 1989; Uchimoto et al., 2002)
- Методы последовательных моделей и итеративной коррекции (Mou et al., 2016; He and Li, 2021)
- Технологии контролируемой генерации эпохи Transformer (Kumar et al., 2021; Krause et al., 2021)
- Ранние системы на основе правил (Polzin and Waibel, 2000)
- Условная генерация на основе RNN (Ghosh et al., 2017; Song et al., 2019)
- Методы эмоциональной генерации эпохи LLM (Li et al., 2024; Mishra et al., 2023)
- Обучение нормативному поведению в детских историях (Nahian et al., 2020)
- Интеграция ценностей в обучении с подкреплением от человека (Arzberger et al., 2024)
- Измерение выравнивания ценностей существующих моделей (Norhashim and Hahn, 2024)
- Важность выравнивания представлений: Степень выравнивания между человеком и LLM в понимании концепций напрямую влияет на эффективность приложения
- Превосходство представления Words: Английские лексические единицы обеспечивают наиболее сильный эффект выравнивания при представлении эмоций
- Сложность представления VAD: Лексикализованное VAD превосходит численное VAD, но всё ещё уступает прямому лексическому представлению
- Различия между моделями: Значительные различия между различными LLM в понимании и генерации эмоций
- Выбор модели: Использованы только две LLM, причём LLaMA-3 использует 8-битную квантованную версию
- Языковые ограничения: Ограничено английским языком, другие языки могут показать различные результаты
- Репрезентативность участников: Не включены пользователи AAC из целевой группы
- Когнитивная нагрузка VAD: Участникам требуется дополнительное обучение концепции VAD, что может повлиять на результаты оценки
- Субъективность эмодзи: Различия в понимании эмодзи в зависимости от культурного контекста
- Сложность эмоций: 18 эмоций могут не охватывать полный спектр эмоциональных состояний
- Расширение диапазона моделей: Тестирование большего количества новейших моделей LLM
- Многоязычная валидация: Проверка выводов в других языковых средах
- Персонализация пользователя: Обучение персонализированному представлению для конкретных групп пользователей AAC
- Применение в реальном времени: Развёртывание и оценка в реальной среде AAC
- Первопроходческая парадигма выравнивания представлений: Предоставляет новый систематический метод оценки понимания концепций LLM
- Многомерный дизайн оценки: Комплексная структура оценки, объединяющая выравнивание, точность и аутентичность
- Практико-ориентированное исследование: Непосредственно ориентировано на практические потребности приложений AAC
- Крупномасштабная оценка человеком: 200 участников в краудсорсинге обеспечивают надёжность результатов
- Статистическая строгость: Использование ANOVA и парных t-тестов для обеспечения статистической значимости результатов
- Многоаспектный анализ: Комплексная оценка с точки зрения выравнивания представлений, точности и аутентичности
- Согласованность находок: Тенденции результатов в основном согласуются между двумя моделями
- Статистическая значимость: Основные выводы подтверждены проверкой статистической значимости
- Практическое руководство: Предоставляет чёткие рекомендации по проектированию приложений AAC
- Субъективность оценки: Зависимость от субъективных суждений человека может привести к смещениям
- Упрощение задачи: Задача генерации от ключевых слов к предложению относительно проста, реальные сценарии AAC более сложны
- Статическая оценка: Не рассматривается контекстная зависимость в динамическом диалоге
- Недостаточное обучение участников: Быстрое обучение концепции VAD может быть недостаточным
- Ограничение размера выборки: Относительно небольшое количество респондентов на каждый вопрос (3-9 человек)
- Различия версий моделей: Используемые версии моделей могут повлиять на актуальность результатов
- Пионерская работа: Первое систематическое исследование проблемы выравнивания представлений LLM
- Методологический вклад: Парадигма оценки выравнивания представлений может быть расширена на другие области концепций
- Междисциплинарная ценность: Связывает исследования в области NLP, психологии и вспомогательных технологий
- Улучшение инструментов AAC: Руководство по проектированию функций эмоционального выражения в приложениях AAC
- Направления оптимизации LLM: Идеи для повышения выравнивания концепций между LLM и человеком
- Установление стандартов оценки: Установление эталонов оценки для аналогичных приложений
- Подробное описание методологии: Предоставлены полные параметры экспериментальной установки и конфигурации
- Обязательство по открытым данным: Обещание опубликовать экспериментальные данные и код
- Стандартизированный процесс: Установлен воспроизводимый процесс оценки
- Разработка инструментов AAC: Проектирование и оптимизация функций эмоционального выражения
- Диалоговые системы: Повышение способности понимания и выражения эмоций
- Оценка генерации текста: Установление стандартов оценки выравнивания человека и машины
- Выравнивание других концепций: Расширение на области ценностей, культурных концепций и т.д.
- Мультимодальное выравнивание: Интеграция визуальной, аудиальной и других мультимодальных информаций
- Адаптивная персонализация: Настройка выравнивания для конкретных групп пользователей
Данное исследование ссылается на большое количество связанных работ, включая:
- Demszky et al. (2020): Набор данных эмоций GoEmotions
- Guo and Choi (2021): Обучение представлению эмоций VAD
- Valencia et al. (2023): Применение языковых моделей AI в AAC
- Chen and Wan (2024): Оценка способности генерации LLM с ограничениями по словарю
Общая оценка: Это высококачественная исследовательская работа, которая вносит пионерский вклад в важную проблему выравнивания концепций между LLM и человеком. Методология исследования научно строга, экспериментальный дизайн обоснован, а результаты имеют важное теоретическое и практическое значение. Несмотря на некоторые ограничения, исследование закладывает прочную основу для будущих связанных исследований.