Gaps arise between a language model's use of concepts and people's expectations. This gap is critical when LLMs generate text to help people communicate via Augmentative and Alternative Communication (AAC) tools. In this work, we introduce the evaluation task of Representation Alignment for measuring this gap via human judgment. In our study, we expand keywords and emotion representations into full sentences. We select four emotion representations: Words, Valence-Arousal-Dominance (VAD) dimensions expressed in both Lexical and Numeric forms, and Emojis. In addition to Representation Alignment, we also measure people's judgments of the accuracy and realism of the generated sentences. While representations like VAD break emotions into easy-to-compute components, our findings show that people agree more with how LLMs generate when conditioned on English words (e.g., "angry") rather than VAD scales. This difference is especially visible when comparing Numeric VAD to words. Furthermore, we found that the perception of how much a generated sentence conveys an emotion is dependent on both the representation type and which emotion it is.
- 논문 ID: 2503.11881
- 제목: Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
- 저자: Shadab Choudhury, Asha Kumar, Lara J. Martin (메릴랜드 볼티모어 카운티 대학교)
- 분류: cs.CL (계산언어학)
- 발표 시간: 2025년
- 논문 링크: https://arxiv.org/abs/2503.11881
본 연구는 대규모 언어모델(LLM)의 개념 사용과 인간의 기대 사이의 격차 문제를 다루며, 특히 보완대체의사소통(AAC) 도구 적용 시나리오에 초점을 맞춥니다. 본 연구는 인간의 판단을 통해 이러한 격차를 측정하는 평가 작업인 "표현 정렬(Representation Alignment)"을 제시합니다. 네 가지 정서 표현 방식을 선택했습니다: 영어 어휘, 어휘화된 VAD 차원, 수치화된 VAD 차원, 그리고 이모지. 생성된 문장의 정확성과 진정성을 평가했습니다. 결과는 VAD 척도에 비해 인간이 영어 어휘 조건 하에서 LLM 생성 결과를 더 선호함을 보여주며, 이러한 차이는 수치 VAD와 어휘 비교에서 특히 두드러집니다.
- 핵심 문제: LLM의 개념 사용과 인간의 기대 사이의 격차, 특히 AAC 도구 적용에서 중요
- 적용 시나리오: AAC 도구는 정상적인 음성 의사소통이 불가능한 사람들의 소통을 지원하지만, 의사소통 속도가 주요 문제점
- 기술적 과제: LLM이 생성한 텍스트가 사용자의 정서 의도와 표현 방식을 정확히 반영하도록 보장하는 방법
- AAC 사용자는 의사소통 지연으로 인해 종종 무시당하거나 중단됨
- 현존하는 NLP 기술은 AAC 도구의 의사소통 속도 향상을 기대할 수 있음
- 사용자는 LLM에 대한 제어 수준, 정확성, 맥락 적응성에 대한 우려를 가짐
- LLM과 인간 간의 개념 이해 정렬 정도를 체계적으로 평가하는 방법 부족
- 정서 표현 방식 선택의 실증적 근거 부족
- 다양한 표현 방식이 사용자 경험에 미치는 영향을 충분히 고려하지 않음
- 표현 정렬 평가 패러다임 제시: 인간의 판단을 통해 LLM의 개념 사용과 인간의 심리 모델 간의 정렬 정도를 측정하는 평가 방법 도입
- 네 가지 정서 표현의 체계적 비교: Words, Lexical VAD, Numeric VAD, Emojis 네 가지 표현 방식의 효과를 종합적으로 평가
- 최적 표현 방식의 실증적 발견: 영어 어휘와 어휘화된 VAD가 표현 정렬, 정확성, 진정성 측면에서 최고 성능을 보임을 증명
- AAC 적용 지침: 향후 AAC 적용에서 정서 표현 선택을 위한 실증적 근거 제공
- 입력: 세 개의 핵심 단어 + 하나의 정서 표현
- 출력: 핵심 단어를 포함하고 지정된 정서를 표현하는 완전한 문장
- 제약: 생성된 문장은 자연스러워야 하며, 정서를 정확히 표현해야 하고, 정서 단어의 직접 사용을 피해야 함
직접 영어 정서 단어 사용 (예: "angry", "happy")
5단계 어휘로 VAD 차원 설명:
- Valence(가치): Very High/High/Moderate/Low/Very Low
- Arousal(각성): 정서 활성화 수준
- Dominance(지배성): 정서에 대한 통제 수준
-5.0에서 +5.0의 수치 척도로 VAD 차원 표현
유니코드 이모지로 정서 표현
- GPT-4-Turbo-2024-04-09: 상용 API 호출
- LLaMA-3.3-70B: 8비트 양자화 버전, 로컬 배포
- Words/Emojis: 소수 샷 프롬프팅(Few-shot prompting)
- VAD 표현: 단계 후퇴 사고 연쇄 프롬프팅(Step-back chain-of-thought)
- 제약 조건: 정서 단어의 직접 사용 금지, "보여주기, 말하지 않기" 요구
- 모델당 총 360개 문장 (표현 방식당 90개)
- Demszky 등(2020)의 분류에서 나온 18가지 다양한 정서 포함
- 각 정서마다 평가용으로 무작위 선택된 2개 문장
- 정서 선택: Demszky 등(2020)의 정서 분류에 기반하여 18가지 대표 정서 선택
- 핵심 단어 조합: 일반적인 단어 조합 사용, 예: Place, Great, Korean, Finals, Semester, Math
- VAD 수치: Guo와 Choi(2021)의 수치에 기반하여 -5.0에서 +5.0 범위로 정규화
- 플랫폼: Prolific 크라우드소싱 플랫폼
- 인원: 200명 참여자 (모델당 100명)
- 조건: 18세 이상, 미국 거주, 영어 유창
- 보상: $14/시간, 약 15분 작업
1. 표현 정렬 평가
- 하나의 정서 표현과 네 개의 생성 문장 제시
- 참여자가 해당 정서에 가장 부합하는 문장 선택
- 각 참여자 10개 질문 답변, 무작위 배정
2. 정확성 및 진정성 평가
- 5점 리커트 척도로 평가:
- "Convey": 문장이 정서를 전달하는 정도
- "You'd say": 참여자가 말할 법한 말처럼 들리는 정도
- "Someone Else'd say": 다른 사람이 말할 법한 말처럼 들리는 정도
- 선택률: 특정 표현이 선택된 백분율
- Shannon 엔트로피: 선택의 일관성 정도 측정
- 자기 정렬: 동일 표현 생성과 평가의 일치도
- 세 차원의 평균 리커트 점수
- ANOVA 통계적 유의성 검정
- 사후 분석을 위한 쌍체 t검정
| 표현 방식 | GPT-4 선택률 | LLaMA-3 선택률 | GPT-4 엔트로피 | LLaMA-3 엔트로피 |
|---|
| Words | 61.9% | 57.5% | 0.32 | 0.42 |
| Lexical VAD | 52.0% | - | 0.61 | 0.72 |
| Numeric VAD | - | - | 0.70 | 0.63 |
| Emojis | - | - | 0.67 | 0.52 |
- Words 표현 최적: 두 모델 모두에서 가장 높은 자기 정렬률과 가장 낮은 엔트로피 값 표시
- Lexical VAD 차선: GPT-4에서 좋은 성능을 보이지만 LLaMA-3에서는 효과 저하
- Numeric VAD 최악 성능: 가장 높은 엔트로피 값, 참여자의 의견 일치 어려움을 시사
- 표현 간 정렬: Emojis와 Lexical VAD는 LLaMA-3에서 정렬성 표시
- GPT-4: 정서 표현이 "Convey"와 "You'd say"에 유의미한 영향 (p < 0.01)
- LLaMA-3: 정서 표현이 "Convey"와 "Someone Else'd say"에 유의미한 영향 (p < 0.05)
- Words는 "Convey" 차원에서 Numeric VAD보다 유의미하게 우수 (GPT-4, p = 0.002)
- Lexical VAD는 "Convey" 차원에서 Numeric VAD보다 유의미하게 우수 (LLaMA-3, p = 0.018)
- Words는 "You'd say" 차원에서 Emojis (p = 0.005)와 Numeric VAD (p = 0.044)보다 유의미하게 우수
- GPT-4는 "grateful" 정서 문장 생성에서 LLaMA-3보다 명백히 우수
- 다양한 정서가 다양한 표현 조건에서 유의미한 성능 차이 존재
- 특정 정서 (예: "excited", "proud")는 특정 조건에서 성능 저하
- 긍정 정서는 일반적으로 Words 표현에서 더 나은 성능
- 복잡한 정서 상태는 Lexical VAD 표현에 더 적합
- Numeric VAD는 세밀한 정서 구분 처리에 어려움 존재
| 모델 | 1개 단어 포함 | 2개 단어 포함 | 3개 단어 포함 | 평균 정확률 |
|---|
| GPT-4, 1x | 1.00 | 1.00 | 0.936 | 0.978 |
| LLaMA-3, 1x | 0.908 | 0.897 | 0.781 | 0.862 |
| LLaMA-3, 3x | 0.969 | 0.969 | 0.850 | 0.930 |
참여자에게 VAD 개념 설명과 연습 문제를 제공하여 이해 정확성을 향상시켰으나, 여전히 인지 부하 문제 존재.
- 초기 문법 기반 시스템 (Kasper, 1989; Uchimoto et al., 2002)
- 순차 모델 및 반복 수정 방법 (Mou et al., 2016; He and Li, 2021)
- Transformer 시대의 제어 생성 기술 (Kumar et al., 2021; Krause et al., 2021)
- 규칙 기반 초기 시스템 (Polzin and Waibel, 2000)
- RNN 조건 생성 (Ghosh et al., 2017; Song et al., 2019)
- LLM 시대의 정서 생성 방법 (Li et al., 2024; Mishra et al., 2023)
- 아동 이야기에서의 규범적 행동 학습 (Nahian et al., 2020)
- 강화학습 인간 피드백에서의 가치 통합 (Arzberger et al., 2024)
- 기존 모델의 가치 정렬 측정 (Norhashim and Hahn, 2024)
- 표현 정렬의 중요성: 인간과 LLM 간의 개념 이해 정렬 정도가 응용 효과에 직접 영향
- Words 표현의 우월성: 영어 어휘가 정서 표현에서 가장 강한 정렬 효과 제공
- VAD 표현의 복잡성: 어휘화된 VAD가 수치화된 VAD보다 우수하지만, 여전히 직접 어휘 표현에 미치지 못함
- 모델 간 차이: 서로 다른 LLM은 정서 이해 및 생성에서 유의미한 차이 존재
- 모델 선택: 두 개의 LLM만 사용, LLaMA-3은 8비트 양자화 버전 사용
- 언어 제한: 영어만 포함, 다른 언어는 다른 결과 가능성
- 참여자 대표성: 실제 AAC 사용자 집단 미포함
- VAD 이해 부담: 참여자가 VAD 개념을 추가로 학습해야 하며, 평가 결과에 영향 가능
- 이모지 주관성: 문화적 배경에 따른 이모지 이해의 차이 존재
- 정서 복잡성: 18가지 정서는 완전한 정서 스펙트럼을 포함하지 못할 수 있음
- 모델 범위 확장: 더 많은 최신 LLM 모델 테스트
- 다국어 검증: 다른 언어 환경에서 결론 검증
- 사용자 개인화: 특정 AAC 사용자 집단을 위한 개인화된 표현 학습
- 실시간 응용: 실제 AAC 환경에서의 배포 및 평가
- 표현 정렬 패러다임 창시: LLM의 개념 이해를 체계적으로 평가하는 새로운 방법 제공
- 다차원 평가 설계: 정렬성, 정확성, 진정성을 결합한 종합 평가 프레임워크
- 실용 지향 연구: AAC 응용 시나리오의 실제 요구에 직접 대응
- 대규모 인간 평가: 200명 참여자의 크라우드소싱 평가로 결과 신뢰성 보장
- 통계적 엄밀성: ANOVA 및 쌍체 t검정으로 결과 유의성 확보
- 다각도 분석: 표현 정렬, 정확성, 진정성의 다양한 차원에서 종합 평가
- 일관성 있는 발견: 두 모델에서의 결과 추세가 기본적으로 일치
- 통계적 유의성: 주요 결론이 모두 통계적 유의성 검정 통과
- 실제 지도 의미: AAC 응용을 위한 명확한 설계 제안 제공
- 평가 주관성: 인간의 주관적 판단에 의존하며, 편향 가능성 존재
- 작업 단순화: 핵심 단어에서 문장으로의 생성 작업은 상대적으로 단순하며, 실제 AAC 시나리오는 더 복잡
- 정적 평가: 동적 대화에서의 맥락 의존성 미고려
- 참여자 훈련 부족: VAD 개념의 빠른 훈련이 충분하지 않을 수 있음
- 표본 크기 제한: 각 질문의 응답자 수가 상대적으로 적음 (3-9명)
- 모델 버전 차이: 사용된 모델 버전이 결과의 시의성에 영향 가능
- 개척적 작업: LLM 표현 정렬 문제를 처음으로 체계적으로 연구
- 방법론적 기여: 표현 정렬 평가 패러다임을 다른 개념 영역으로 확장 가능
- 학제간 가치: NLP, 심리학, 보조 기술 연구를 연결
- AAC 도구 개선: AAC 응용의 정서 표현 설계에 지침 제공
- LLM 최적화 방향: LLM과 인간 개념 정렬 향상을 위한 아이디어 제공
- 평가 기준 수립: 유사 응용을 위한 평가 기준 확립
- 상세한 방법 설명: 완전한 실험 설정 및 매개변수 구성 제공
- 개방 데이터 약속: 실험 데이터 및 코드 공개 약속
- 표준화된 절차: 반복 가능한 평가 절차 확립
- AAC 도구 개발: 정서 표현 기능의 설계 및 최적화
- 대화 시스템: 정서 이해 및 표현 능력 향상
- 텍스트 생성 평가: 인간-기계 정렬의 평가 기준 수립
- 다른 개념 정렬: 가치관, 문화 개념 등으로 확장
- 다중모달 정렬: 시각, 음성 등 다중모달 정보 결합
- 개인화 적응: 특정 사용자 집단을 위한 맞춤형 정렬
본 연구는 다양한 관련 연구를 인용하며, 주요 내용은 다음을 포함합니다:
- Demszky et al. (2020): GoEmotions 정서 데이터셋
- Guo and Choi (2021): VAD 정서 표현 학습
- Valencia et al. (2023): AAC에서의 AI 언어 모델 응용
- Chen and Wan (2024): LLM의 어휘 제약 생성 능력 평가
종합 평가: 이는 LLM과 인간 개념 정렬이라는 중요한 문제에 대해 개척적 기여를 한 고품질 연구 작업입니다. 연구 방법은 과학적으로 엄밀하며, 실험 설계는 합리적이고, 결과는 중요한 이론적 및 실용적 가치를 가집니다. 일부 한계가 있지만, 향후 관련 연구의 견고한 기초를 마련했습니다.